JP2016520228A

JP2016520228A - 医療システムにおけるコンテキスト意識予測

Info

Publication number: JP2016520228A
Application number: JP2016514041A
Authority: JP
Inventors: ハッサンガセムザデー，; ミュン−キュンスー，; マーズラン，; マジドサラフザデー，; ナビルアルシュラファ，
Original assignee: University of California
Current assignee: University of California
Priority date: 2013-05-14
Filing date: 2014-05-13
Publication date: 2016-07-11
Also published as: US9754081B2; EP2997514A4; US20140344208A1; WO2014186387A1; EP2997514A1

Abstract

方法が、環境的、生理学的、行動的、および履歴コンテキストのうちの少なくとも１つに関連するコンテキストデータを受信するステップと、少なくとも１つの転帰に関連する転帰データを受信するステップとを含む。本方法はさらに、特徴セットをコンテキストデータから作成するステップと、特徴のサブセットを特徴セットから選択するステップと、特徴が少なくとも１つの転帰の予測因子である確率に従って、スコアを特徴のサブセットにおける各特徴に割り当てるステップと、少なくとも１つの転帰のための特性曲線を特徴のサブセットから生成するステップであって、特性曲線は、スコア化に基づく、ステップとを含む。本方法はさらに、特性曲線下面積を計算するステップと、特性曲線下面積を使用して、特徴のサブセットが少なくとも１つの転帰のための好適な予測因子であるかどうかを識別するステップとを含む。

Description

（関連特許出願の引用）
本願は、“Ｃｏｎｔｅｘｔ−ＡｗａｒｅＰｒｅｄｉｃｔｉｏｎｉｎＭｅｄｉｃａｌＳｙｓｔｅｍｓ，”と題された、Ｇｈａｓｅｍｚａｄｅｈｅｔａｌ．に対する、２０１３年５月１４日に出願された、米国仮特許出願第６１／８２３，２３０号の利益を主張するものであり、その内容の全体は、参照により本明細書中に援用される。

（背景）
作用の過程の有効性の予測または後の転帰の予測等の予測が、多くの場合、不正確であり、ひいては、予測のための技術の改善が、有益になるであろう。

一側面では、方法が、環境的、生理学的、行動的、および履歴コンテキストのうちの少なくとも１つに関連するコンテキストデータを受信するステップと、少なくとも１つの転帰に関連する転帰データを受信するステップと、特徴セットをコンテキストデータから作成するステップと、特徴のサブセットを特徴セットから選択するステップと、特徴が少なくとも１つの転帰の予測因子である確率に従って、スコアを特徴のサブセットにおける各特徴に割り当てるステップとを含む。本方法はさらに、少なくとも１つの転帰のための特性曲線を特徴のサブセットから生成するステップであって、特性曲線は、スコア化に基づく、ステップと、特性曲線下面積を計算するステップと、特性曲線下面積を使用して、特徴のサブセットが少なくとも１つの転帰のための好適な予測因子かどうかを識別するステップとを含む。

一側面では、システムが、プロセッサ実行可能命令を含むメモリと、メモリからの命令を実行するように構成されるプロセッサと含む。命令は、プロセッサが、コンテキストデータおよび転帰データを受信し、特徴セットをコンテキストデータから作成し、複数の特徴サブセットを特徴セットから選択するための命令を含む。複数の特徴サブセットのそれぞれのために、命令は、特徴サブセットおよび転帰データを分類子に適用させ、特徴サブセットのためのスコアを判定し、複数の特徴サブセットのそれぞれのためのスコアに基づいて、好ましい特徴サブセットを選択し、好ましい特徴サブセットを使用して、予測モデルを生成するための命令を含む。

一側面では、プロセッサ可読物理的媒体が、プロセッサ実行可能命令を含む。命令は、転帰情報に関連する転帰情報およびコンテキスト情報を受信し、転帰情報およびコンテキスト情報を事前処理し、特徴セットを事前処理されたコンテキスト情報から作成するための命令を含む。命令はさらに、スコアを特徴セットにおける特徴のうちの少なくともいくつかに割り当て、スコアが、転帰情報によって記述される転帰を予測するための特徴の能力に従って特徴に割り当てられ、スコアを使用して、特性曲線のセットを判定し、各特性曲線は、転帰を予測する能力を表し、特性曲線のセットにおける特性曲線のそれぞれのためのスコアを計算し、特性曲線のそれぞれのためのスコアに基づいて、特徴セットからの特徴を含む予測因子を識別するための命令を含む。

図１は、コンテキスト意識予測のためのシステムの実施例を例証する。図２は、コンピューティングデバイスの実施例を例証する。図３は、特徴サブセットを選択するための技術の実施例を例証する。図４は、遠隔健康監視のためのシステムの実施例を例証する。図５は、コンテキスト意識システムにおける、個人のための事象予測の実施例を例証する。図６は、予測モデルがどのように個人の群に関する結論を判定するために使用され得るかの実施例を例証する。図７は、データのローカル処理を例証する。図８は、データを複数のソースから受信するデバイス上でのローカル処理を例証する。図９は、コンテキストデータ収集ソフトウェアによるデータ収集を例証する。図１０は、コンテキストデータ収集ソフトウェアによるデータ収集を例証する。図１１は、データクリーニング、データ変換、およびコンテキストデータ選択を含む、事前処理の実施例を例証する。図１２は、予測のためのデータのタイプを選択するための例示的プロセスを例証する。図１３は、冗長グラフの実施例を例証する。図１４は、パーティション対時間バジェットの実施例を例証する。図１５は、予測における、モデル生成およびモデルの後続の使用の実施例を例証する。図１６は、転帰に関する特性曲線を例証する。

本開示は、医学的状態または事象のコンテキスト意識予測を説明する。生理学的データ単独に基づく予測が、データのコンテキストを把握しない場合、常に、効果的であるわけではない。研究は、子供の住居の周囲の交通関連の空気汚染が、喘息を患う子供に入院の繰り返しをもたらす可能性があり、減量および運動が、糖尿病の危険性を低減させることができ、ある遺伝子が、冠動脈疾患患者内における心臓発作の危険性の増加をもたらし得る、タンパク質物質（例えば、Ｃ反応性タンパク質）の産出の原因となる可能性がある等の実施例では、いくつかのコンテキストデータといくつかの医学的状態との間に相関関係があるという証拠を示している。別の実施例として、高脈拍数が、健康状態を予測し得るが、コンテキストにおいて、高脈拍数が最近の身体的活動性に起因する場合、予測は、不正確であろう。

医学的状態のための予測を提供することに加えて、コンテキスト意識予測は、例えば、健康管理または予防医学に関連する方針決定において、有用なコミュニティベースの結論を提供し得る。コミュニティベースの結論の実施例は、スポーツ参加者が、肯定的な健康上の利点を達成するためではなく、社交的に楽しむもののための手段としてスポーツに携わることにより動機付けられることと、血圧の季節変動が、より高齢の対象においてより大きく、日々の最高と最低気温に関連することとを見出すことを含む。

コンテキスト意識予測はさらに、解空間を絞り込むことを通して、予測精度および応答時間を改善することによって、利点をもたらし得る。例えば、ある生体指標が、群Ｂ、Ｂ＋Ｄ、またはＣのうちの１つとして、患者内の肝炎ウイルスを分類するために役立つ可能性があり、論理的推論が、次いで、肝炎ウイルスＢ、Ｂ＋Ｄ、またはＣのうちのどのウイルスが存在するかを決定するために使用されてもよい。治効に関する予測は、人工神経ネットワークを使用して、生物学的パラメータの進化を含み得る。

図１は、本開示による、コンテキスト意識予測システム１００の実施形態を例証する。コンピューティングデバイス１１０が、ネットワーク１２０または１２５等のネットワークを経由して、他のコンピューティングデバイス１１０と通信してもよい。例えば、ある場所におけるあるコンピューティングデバイス１１０は、コンテキストまたは転帰情報を提供する等、情報を別の場所における別のコンピューティングデバイス１１０に提供してもよい。コンピューティングデバイス１１０は、相互と直接通信してもよく、あるコンピューティングデバイス１１０は、別のコンピューティングデバイス１１０を通して情報を中継してもよい。

コンピューティングデバイス１１０は、命令を実行するデバイスであってもよく、命令は、ソフトウェア、ハードウェア、またはソフトウェアおよびハードウェアの組み合わせ内にあってもよい。コンピューティングデバイス１１０の実施例は、限定ではないが、コンピュータ、サーバ、ネットブック、スマートフォン、携帯情報端末等を含む。コンピューティングデバイス１１０は、ディスプレイ１３０を含んでもよく、情報が、グラフィカルユーザインターフェース１４０を介してディスプレイ１３０に提供される。命令は、メモリデバイスまたはユニット等のストレージ１５０内に記憶されてもよい。

図２は、プロセッサ２１０、メモリ２２０、入力／出力インターフェース２３０、および通信インターフェース２４０を含む、コンピューティングデバイス１１０の実施例を例証する。バス２５０が、コンピューティングデバイス１１０の構成要素の２つまたはそれを上回るものの間に、通信経路を提供する。示される構成要素は、例証として提供されるが、限定ではない。コンピューティングデバイス１１０は、付加的またはより少数の構成要素、あるいは複数の同一の構成要素を有してもよい。

プロセッサ２１０は、関連付けられる論理とともに、プロセッサ、マイクロプロセッサ、マイクロコントローラ、ＡＳＩＣ、および／またはＦＰＧＡのうちの１つまたはそれを上回るものを表す。

メモリ２２０は、情報を記憶するための揮発性および不揮発性メモリの一方または両方を表す。メモリの実施例は、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス等の半導体メモリデバイス、内蔵ハードディスクまたはリムーバルディスク、光磁気ディスク、ＣＤ−ＲＯＭおよびＤＶＤ−ＲＯＭディスク等の磁気ディスク、ならびに同等物を含む。

本開示のコンテキスト意識予測システムは、プロセッサ２１０によって実行される、コンピューティングデバイス１１０のメモリ２２０内のコンピュータ可読命令として実装されてもよい。

入力／出力インターフェース２３０は、インターフェースをコンピューティングデバイス１１０の内部構成要素から外部構成要素にともに提供する、電気構成要素および随意のコードを表す。実施例は、関連付けられるプログラムミングを伴う駆動集積回路を含む。

通信インターフェース２４０は、インターフェースをコンピューティングデバイス１１０の内部構成要素からネットワーク１２０またはネットワーク１２５等の外部ネットワークにともに提供する、電気構成要素および随意のコードを表す。

バス２５０は、コンピューティングデバイス１１０内の構成要素の間にある１つまたはそれを上回るインターフェースを表す。例えば、バス２５０は、プロセッサ２１０とメモリ２２０との間に専用接続ならびに要素コンピューティングデバイス１１０のプロセッサ２１０と複数の他の構成との間に共有接続を含んでもよい。

本開示は、一実施形態では、複数の患者に関して集められたデータに基づいて、個人または群内における医学的状態、後の有害事象、または医学的合併症の発生の可能性を推定する、コンテキスト意識予測システムを説明する。

図３は、転帰を予測する特徴のセットを判定するための技術の実施例を例証する。データ３１０が、ストレージデバイスから収集または読み出される。データ３１０は、コンテキスト情報と、コンテキスト情報に関連する転帰情報とを含む。例えば、データ３１０は、個人の群に関する現在およびこれまでの医療ならびに環境データを含んでもよく、現在の医療データの１つまたはそれを上回る部分が、転帰として指定されてもよい。データ３１０は、フィルタリング、正規化等によって等、ブロック３２０においてフォーマットされる。フォーマット済データは、後続の処理のために使用される特徴のセット３４０を識別するために、ブロック３３０において事前処理される。事前処理は、例えば、冗長性削除および関連性判定を含む。スコアラ３５０では、各特徴３４０は、定義された転帰を予測するためのその能力に従って、スコア化される。スコアは、例えば、特徴が転帰を予測することが可能である確率であってもよい。ブロック３６０では、特性曲線（ＣＣ）３７０が、特徴スコアに基づいて、生成される。ＣＣは、特徴スコア閾値を種々の値に設定し、各閾値において、閾値を上回るスコアを伴う特徴に関して、これらの特徴に関連するデータサンプルのための転帰を予測する真陽性率および偽陽性率を判定することによって生成される。異なる閾値のための真陽性率対偽陽性率のプロットが、ＣＣである。ＣＣは、ＣＣの曲線下面積（ＡＵＣ）を判定することによって等、ブロック３８０においてグレード分けされる。

ブロック３８０において判定されたグレードは、セレクタブロック３９０において多くの方法で使用されてもよい。ＡＵＣの実施例に関して、ＣＣが、スコアラ３５０および特徴３４０のサブセットの種々の組み合わせのために生成され、対応するＡＵＣが、１つまたはそれを上回る転帰のための予測モデルで使用するための特定のスコアラ３５０および特徴３４０のサブセットの組み合わせを選択するために比較されてもよい。この実施例を継続すると、組み合わせは、複数の転帰のうちの１つを予測するためのその能力が、それ自体では望ましくない場合でさえも、複数の転帰のそれぞれを個別に予測するために、その平均能力（または、他の測定）に基づいて、選択されてもよい。別の実施例のように、スコアラ３５０は、１つまたはそれを上回る転帰のための２つまたはそれを上回るスコアラ３５０のＡＵＣを比較することによって選択されてもよい、または特徴３４０のサブセットは、１つまたはそれを上回る転帰のための２つまたはそれを上回るサブセットのＡＵＣを比較することによって選択されてもよい。

加重が、特定の特徴または転帰を強調する、またはそれを強調しないために使用されてもよい。例えば、特徴を収集または処理するコストが、加重を割り当てる際に考慮され得る。コストに基づいて特徴を選択するための付加的または代替技術が、使用されてもよい。

データの収集および処理は、特徴選択技術にコストがかかる。人がある質問に答える、またはある生物学的サンプルを提供することを望まない場合がある点で、サンプルを採取してもらうために研究室に向かう人と関連付けられる時間、可用性、および移送コスト、またはプライバシー問題と関連付けられるコストが存在し得る。処理能力およびメモリサイズが、集められたデータの量に適応しなければならない点で、算出コストが存在し得る。とりわけ、バッテリ動作式システムに重要である、遠隔健康監視（ＲＨＭ）システムにおけるセンサおよび処理に関するエネルギーコストが存在し得る。これらは、コストのごくわずかな実施例であり、特徴選択技術に影響を与える多くの他のコストが存在する。

コスト重視の特徴選択は、サブセット特徴の選択と関連付けられる全コストを最小限にすることを目指す。下記に議論されるアプローチは、個人の特徴のコストを考慮する。グラフモデルが、特徴の相関関係およびコストを表すために導入される。問題が、整数計画法を使用して、公式化され、貪欲近似が、コスト高効率様式で特徴を選択するために提示される。特徴選択へのコスト重視のアプローチは、分類精度を実質的に保持しながら、最小限のコスト特徴セットを構築する。

所与のスコアラ３５０および所与の特徴３４０のサブセットに関して、対応するＣＣは、ＣＣに沿った所望の動作点に関する特徴スコア閾値を判定するために使用され得る。例えば、第１の閾値が、直接介入に関する高リスクの個人を識別するとき、使用されてもよく、第２の閾値が、遠隔健康監視から利点を得るであろう個人を識別するとき、使用されてもよい。

データ３１０等のデータは、広範囲の様々なソースからの情報を含んでもよい。データのいくつかの実施例は、医療履歴、遺伝的特徴、活動性レベル、食糧摂取量、人口統計学、地理情報、およびソーシャルネットワークへの関与に関する情報を含む。

生理学的データは、例えば、血圧、血糖値、心拍数、血小板数、血液酸素含有量、および体温等の測定を含む。

医療履歴情報は、例えば、予防接種、外科手術、成長、発症、医療事象（例えば、心臓発作）、および医学的合併症（例えば、再入院、糖尿病合併症、および喘息発作）に関連する履歴情報を含んでもよい。遺伝情報は、例えば、家族の疾患の履歴および遺伝子関連マーカーを含んでもよい。活動性レベル情報は、例えば、現在の運動情報、非移動対移動のパーセンテージ、１日あたりの歩数、およびスポーツ活動性に参加の頻度を含んでもよい。食糧摂取量情報は、例えば、頻度、体積または質量、カロリー、流体量、アルコールの頻度および量、ならびに野菜のパーセンテージ等の摂取量に関連する情報を含んでもよい。

人口統計学的情報は、例えば、性別、人種、年齢、障害、移動性、自宅所有権、雇用状況、および学歴を含んでもよい。地理情報は、例えば、居住地、勤務地、通勤情報、定期的訪問場所、および１週間あたりの運転マイル数を含んでもよい。ソーシャルネットワーキング情報は、例えば、直接対面の会合のタイプおよび頻度、直接対面の社会的交流対電子社会的交流のパーセント、オンラインソーシャルネットワーキングサイト会員の数、電子ソーシャルネットワーキングサイトにアクセスする頻度、ならびに１日あたりの携帯電話のメール数を含んでもよい。

データの他の実施例は、疾患に関する論理的推論等の臨床医の意見または薬剤の用量の変更に関する看護師の推奨を含む。

本開示は、他の中でもとりわけ、異なるソースからのデータ取得および関連かつ非冗長データを選択するための技術を説明する。

コンテキスト意識予測システムは、質問を尋ねることによってデータを患者から収集し、また、データを患者から自動的に収集してもよい。データは、例えば、臨床医の診察所内においてローカルで、またはリモートで、集められてもよい。データは、有線または無線デバイスを使用して、集められてもよい。

いくつかの実装では、生理学的または他のデータは、遠隔監視システムを使用して、取得されてもよい。例えば、遠隔センサが、患者の体温を捕捉してもよく、これは、ある予測モデルへの生理学的データ入力として使用され、別の予測モデルのためのコンテキストデータ入力として体温傾向または平均データを作成するために使用されてもよい。

図４は、無線デバイスを使用し、データを人から自動的に収集する、コンテキスト意識予測システムの一実施形態を例証する。

図４の実施形態におけるデータ収集が、実施例として、血圧監視、パルスオキシメトリ、血糖監視、体重測定、心電図記録法（ＥＣＧ）、および運動検出に関する表現を使用して、例証される。例示的データ収集デバイスの全てが、データ収集のために使用されることが必要とされず、さらに、他のデータ収集デバイスは、加えて、または代替として、使用されてもよい。

ゲートウェイデバイスが、データを、図４に例証される無線デバイス等の収集デバイス、または図示されない他のデバイスから受信する。一実施形態では、スマートフォンは、ゲートウェイとして使用される。ゲートウェイはまた、集められるデータを表示してもよい。ゲートウェイは、入力されたデータを手動で記録し得る、入力デバイスを有してもよい。一実施形態では、ゲートウェイは、パーソナルコンピュータである。

ゲートウェイは、無線または有線接続を使用して、データソースに接続し、データを要求し、データを受信し、接続を終了してもよい。ゲートウェイは、パブリックまたはプライベート通信ネットワークを通して、データソースに接続してもよい。

ゲートウェイデバイスは、記憶および管理のためにデータを提供する。記憶は、ゲートウェイ上にあってもよい。加えて、または代替として、ゲートウェイは、全体的または部分的に、記憶のために別のデバイスにデータを提供してもよい。メタデータが、収集されたデータと関連付けられてもよく、いくつかの状況では、収集されたデータは、それ自体メタデータである。メタデータは、例えば、作成の日時、データのタイプ、データを作成するユーザ（例えば、血圧測定を行う患者または患者の薬剤に関するデータを入力する臨床医）等の収集されたデータの１つまたはそれを上回る側面に関する情報を提供するデータを指す。

未加工データを取得するために使用されるゲートウェイは、メタデータを取得するために使用されるゲートウェイと異なり得る。

データ収集は、医学的状態または事象に関する予測モデルを構築するために、複数の人に対して実施されてもよい。モデル構築段階の間、データ収集が、実施され、収集されたデータは、記憶される。データは、事前処理において、必要に応じて、取り除かれ、かつ変換され得る。事前処理は、データが収集されるにつれて実施される、または収集されたデータに実施されてもよい。

いったんデータが集められると、データは、医学的状態または事象に対する１つまたはそれを上回るモデル関連データを生成するために使用されてもよい。モデルは、個人または群に関する医学的状態または事象を予測するために使用される。

図５は、コンテキスト意識システムにおける、個人のための事象予測の実施例を例証する。データは、個人から収集され、随意に記憶かつ事前処理され、個人がより高い危険性になり得る医学的状態または事象を予測するためのモデルと併用されてもよい。

図６は、予測モデルがどのように個人の群に関する結論を判定するために使用され得るかの実施例を例証する。データが、複数の対象から収集され、１つまたはそれを上回る予測モデルが、データから判定される。モデルから、群に関する結論が、形成され得、そのような結論は、より大きい母集団に関する結論を形成するために使用される、結論を表し得る。例えば、モデルは、特定の社会経済分類では、個人が、他の社会経済分類における個人よりも膝を損傷する可能性が高いことを示し得る。別の実施例に関して、モデルは、糖尿病を発症する高い危険性がある母集団の患者下位群を見出し得る。

有意な量のデータが、予測モデルを生成することと個人のデータを予測モデルと比較することとの両方のために、収集されてもよい。図７に例証されるように、いくつかのデータ処理が、例えば、データ収集デバイスまたはゲートウェイ上で、ローカルに収集されたデータに実施されてもよい。ローカルデータ処理は、雑音低減、データ加算、データ正規化、およびデータ融合を含んでもよい。

図８は、データを複数のソースから受信するデバイス上でのローカル処理を例証する。

図９は、データがコンテキストデータ収集ソフトウェア（ＣＤＧＳ）によって収集され得ることを例証する。例えば、ＣＤＧＳは、データを、電子医療履歴システム、オンラインソーシャルネットワーク、ウェブデータコレクタ、または他のデータのソースから読み出してもよい。データはまた、ＣＤＧＳを使用して、手動で入力されてもよい。ＣＤＧＳは、ゲートウェイ上に常駐してもよい。ＣＤＧＳはまた、データストレージが生じるウェブサーバ等のサーバ上に常駐してもよい。

図１０は、電子データソースがＣＤＧＳによって行われる要求に応答するデータの自動収集の実施例を例証する。図１０に例証されるように、認証および許可が、例えば、セキュリティおよびプライバシーの理由のために、ＣＤＧＳと電子データソースとの間の相互作用に含まれてもよい。

図４に関して上記に言及されるように、収集されたデータは、モデルを生成する際の使用または予測を判定する際の使用の前に、事前処理されてもよい。図１１は、データクリーニングおよびデータ変換を含み、後にコンテキストデータ選択が続く、事前処理の一実施形態を例証する。

データクリーニングは、雑音を収集されたデータから除去し、欠測値に帰属させる。雑音の一実施例は、歩行の間の加速度計からの信号が特定の予測のためにほとんど有用でないデータを含有する、加速度計歩数計によって記録されるような歩行の間の時間である。

データ変換は、統計的および／または形態的特徴を集められたデータから抽出することを指す。データ変換はまた、次元低減機能を含有してもよい。一実施例では、次元低減は、データ収集段階において集められたデータ項目のサブセットの選択を含む。別の実施例では、次元低減は、特徴選択プロセスによって抽出された特徴のサブセットの選択を含む。

事前処理はさらに、予測プロセスに関連のあるコンテキストデータの選択を含んでもよい。

図１２は、予測のためのデータのタイプを選択するための一例示的プロセスを例証する。図１２の実施例において例証されるように、２つのタイプの分析（関連性分析および冗長性分析）が、行われる。関連性分析は、所与のデータタイプが予測タスクに関連があるかどうかを検査する。冗長性分析は、所与のデータタイプがすでに選択されたデータタイプとより高い相関があるかどうかを判定する。例えば、所得レベルおよび運転される車両のモデルがより高い相関がある場合、これらの２つのデータタイプは、相互に冗長である。

一実施例では、情報利得が、関連性および冗長性測定の計算のための手段として使用されてもよい。相関係数が、データ選択分析のために使用されてもよい。

一実装では、関連性および冗長性分析は、対称不確実性の概念に基づく。２つの別々のランダム変数ＸとＹとの間の対称不確実性は、以下のようなＵ（Ｘ、Ｙ）によって与えられる。
式中、Ｈ（Ｘ）およびＨ（Ｙ）は、それぞれ、ランダム変数ＸおよびＹのエントロピーを表し、Ｉ（Ｘ，Ｙ）は、２つの変数の間の情報利得を示す。Ｉ（Ｘ，Ｙ）は、以下のように定義される。
Ｉ（Ｘ，Ｙ）＝Ｈ（Ｘ）−Ｈ（Ｘ｜Ｙ）（２）
対称不確実性は、正規化情報利得であり、０と１との間にあり、式中、Ｕ＝１は、いずれかの変数の値を把握することが、他の変数を完全に予測することができることを示し、Ｕ＝０は、２つの変数が完全に独立していることを示す。対称不確実性は、２つのランダム変数の間の相関関係の基準である。相関係数等、他の基準に対するこの基準の利点は、対称不確実性が、変数の間で非線形相関を捕捉する可能性があることである。

一実装では、予測技術は、２つの分類（陽性（Ｐ）および陰性（Ｎ））のサンプルを分類することを目指す。データＤは、以下である場合、予測タスクに無関係であり、
ｍｉｎ｛Ｕ（Ｄ，Ｐ），Ｕ（Ｄ，Ｎ）｝＜ｔｈｒ１（３）
式中、ｔｈｒ１は、事前定義またはユーザに選択された閾値である。

別の実装では、ｎ個の特徴のセットＦ＝｛ｆ_１，ｆ_２，．．．，ｆ_ｎ｝と、転帰のセットＡ＝｛ａ_１，ａ_２，．．．，ａ_ｈ｝とが存在し、式中、特徴ｆ_ｉは、以下である場合、分類タスクに無関係であり、
ｍｉｎ_ｊ（Ｕ（ｆ_ｉ，ａ_ｊ））＜λ_Ｒ（４）
式中、λ_Ｒ（関連性閾値）は、設計パラメータである。関連性分析は、転帰の予測に無関係である特徴を排除する。

残りのｍ個の特徴（ｍ＜ｎ）は、強い相関特徴を見出すために、冗長性分析を受ける。２つの特徴ｆ_ｉおよびｆ_ｋは、Ｕ（ｆ_ｉ，ｆ_ｋ）＞λ_Ｄである場合、強い相関関係があると見なされる（式中、λ_Ｄ（冗長性閾値）は、設計パラメータである）。冗長性分析の出力は、（ｆ_ｉ、ｆ_ｋ）の形態の特徴対のセットであり、これらは、強い相関関係があり、それらのいずれかは、相関分析に従って、排除される可能性がある。しかしながら、これらの特徴はさらに、データの収集、処理、またはストレージと関連付けられる１つまたはそれを上回るコスト要因を考慮することによって、コスト重視の特徴選択のために分析されることができる。一実施例では、コスト重視の分析は、グラフモデルを使用して、行われる。

関連性分析によって導入されるｍ個の関連性特徴および冗長性分析に従って生成される特徴対のセット（ｆ_ｊ，ｆ_ｋ）を前提として、無向グラフＧ＝（Ｖ，Ｅ，Ｗ）は、冗長性グラフと呼ばれる（式中、Ｖは、ｍ個の関連性特徴と関連付けられるｍ個の頂点Ｖ＝｛ｕ_１，ｕ_２，．．．，ｕ_ｍ｝のセットであり、Ｅ＝｛ｅ_１，ｅ_２，．．．，ｅ_ｒ｝は、強い相関関係があるｒ個の特徴対のセットであり、Ｗ＝｛ｗ_１，ｗ_２，．．．，ｗ_ｍ｝は、頂点に割り当てられ、各特徴と関連付けられるコストを示す、加重のセットである）。実施例として、１０個の特徴が、Ｆ＝｛ｆ_１，ｆ_２，．．．，ｆ_１０｝によって表される、特徴の網羅的セットを構成すると仮定されたい。さらに、関連性分析が、５つの特徴を排除し、ひいては、冗長性グラフが、５つの特徴を含有するであろうと仮定されたい。図１３は、例証である。各特徴に帰属されるコストは、各頂点の加重によって表される。例えば、ｗ_１は、ｆ_１のコストである。

特徴セットが、次に、最小限コスト特徴選択（ＭＣＦＳ）を使用して、選択される。仮に、全加重が、Ｗ＝｛ｗ_１，ｗ_２，ｗ_３，ｗ_４，ｗ_５｝＝｛１，１，１，１，１｝である、１つの単位に等しいとされたい。この場合、ＭＣＦＳは、全ての特徴を等しく扱い、ひいては、最適な特徴セットは、２つの頂点（具体的には、ｆ_１およびｆ_３）から成る。しかしながら、加重セットがＷ＝｛１０，１，１，１，１｝に修正される場合、ＭＣＦＳは、より低い加重を伴う頂点をより考慮し、ひいては、特徴ｆ_４およびｆ_５は、ｆ_１よりも好まれ得、特徴セットの低減が、３つの頂点（例えばｆ_４、ｆ_５、およびｆ_３）を含有するであろう。したがって、全コストは、１１単位から３単位まで減少されるであろう。

一般論として、コスト低減は、解決されるべき問題を表す。冗長性グラフＧ＝（Ｖ，Ｅ，Ｗ）を前提として、最小限コスト特徴選択の問題は、グラフ内の任意の他の頂点によって支配されない頂点のサブセットを見出すことであり、総コストは、最小限にされる。問題は、以下のように公式化される。ａ_ｉｊは、冗長性グラフ内で境界の存在をエンコードする所与の２変数であると仮定されたい。
ｘ_ｉは、頂点ｕ_ｉが最終頂点セットの要素として選ばれるかどうかを判定する、２値変数である。

ＭＣＦＳ問題に関する対応する整数線形計画法（ＩＬＰ）公式化は、以下の通りである。
以下を条件とする。

（７）の目的関数は、選択された頂点（すなわち、ｘ_ｉ＝１を伴うもの）の総コストを最小限にするためのものである。制約（８）は、各選択された頂点が、少なくとも１つを上回る頂点に隣接することを保証し、（９）の制約は、変数ｘ_ｉが２進値のみをとることを確実にする。

ＭＣＦＳ問題は、最小限コスト支配セット（ＭＣＤＳ）問題に類似する。ＭＣＤＳ問題は、加重セットカバー（ＷＳＣ）問題からの低減によって、ＮＰ困難であると証明される。ＭＣＦＳ問題もまた、ＷＳＣ問題からの低減によって示されるように、ＮＰ困難である。仮に、（Ｓ，Ｕ，Ｗ）が、母集団Ｕと、それぞれ、セットＷ＝｛ｗ_１，ｗ_２，．．．，ｗ_ｎ｝からの加重値ｗ_ｉと関連付けられる、サブセットＳ＝｛Ｓ_１，Ｓ_２，．．．、Ｓ_ｎ｝群のファミリーとを伴う、ＷＳＣ問題の事例であるとされたい。Ｓ_ｉ∈Ｓセット毎に、頂点ｕ_ｉ（特徴ｆ_ｉと関連付けられる）を描き、（ｕ_ｉ、ｕ_ｊ）∈Ｓ_ｉの対毎に（ｕ_ｉ、ｕ_ｊ）を描き、かつそれを縁取りするように、グラフＧ＝（Ｖ，Ｅ，Ｗ）を構成する。これは、頂点セットＶ＝｛ｕ_１、ｕ_２，．．．，ｕ_ｎ｝ならびに縁セットＥを形成する。さらに、各頂点ｕ_ｉ（セットＳ_ｉと関連付けられる）に、セットＷによって与えられるような加重値ｗ_ｉを割り当てる。ここで、Ｃ＝｛Ｓ_ｉ：ｉ∈Ｄ｝が、加重セットカバー問題の許容解である場合、Ｄはまた、ＭＣＦＳ問題に対する解でもある。

ＭＣＦＳ問題を解決するための貪欲技術は、以下の通りである。

冗長性グラフ内の頂点ｕ_ｉ毎に、本技術は、まず、全ての隣接頂点（Ｖ_ｉ）を見出す。これは、次いで、最終頂点セットΩに含むために、最良候補頂点を見出す。最良候補は、最大利益を伴うものである。最大利益頂点が、「頂点コストｗ_ｉで除算されるＶ_ｉの濃度」の最大値を伴うものである。そのような頂点を選択する手助けをする直感は、大きい数の隣接頂点および小さいコストを有することである。本技術は、候補頂点（ｕ_ｉ）をΩに追加し、ｕ_ｉと、Ｖ_ｉならびにＶからその近接するもの全てとを排除する。本技術は、Ｖの頂点を上回らないものが存在するまで反復し、各頂点が、最終頂点として選ばれる、または最終頂点によって支配されるかのいずれかであることを示す。

貪欲技術は、Ｏ（ｍｌｏｇｍ）の時間計算量を有する（式中、ｍ＝｜Ｖ｜）。実際に、上記の貪欲技術におけるメインループは、Ｏ（ｍ）時間の間、反復する「ｗｈｉｌｅ」ループである。ループ内側の主動作は、最大利益（頂点コストｗ_ｉ’で除算されるＶ_ｉの濃度の最大値）を伴う頂点へのものである。これは、優先ヒープを使用して、Ｏ（ｌｏｇｍ）時間以内に行われることができる。したがって、貪欲技術は、Ｏ（ｍｌｏｇｍ）の時間計算量を達成する。

貪欲技術は、ＭＣＦＳ問題に対するｌｎｎの近似を達成する。最大利益頂点として選択される頂点ｕ_ｉ毎に、Θ_ｉをｕ_ｉが選定された時点の｜Ｖ_ｉ｜／ｗ_ｉとして定義する。本質的に、ｕ_ｉが選定されたとき、隣接頂点の数を支配するであろう。仮に、頂点ｕ_ｊ∈Ｖ毎に、ｕ_ｉが、ｕ_ｉに隣接する最初に選定された頂点であり、これを支配するとされたい。仮に、各支配される頂点ｕ_ｊと関連付けられるコストが、コスト（ｕ_ｊ）＝１／Θ_ｉであると定義されたい。

が、貪欲技術によって取得される総コストを表すことに配慮されたい。次に、頂点が支配された順序でそれを順序付ける。ｋ番目の頂点（ｕ_ｋと呼ぶ）が支配された時点において、Ｖは、少なくともｍ−ｋ＋１の頂点を含有していた。例えば、Ｖ_ｉの第１の頂点ｕ_１が、最初に選定された頂点ｕ_ｉによって支配されるときの本技術の一番初めにおいて、Ｖの非支配頂点の総数は、ｍ個である。第２の頂点ｕ_２が、まさに、いくつかの近接頂点によって支配されようとするとき、Ｖの非支配頂点の数は、ｍ−１個である。その時点では、「頂点あたり」のコストＯＰＴは、多くても、ＯＰＴ／（ｍ−ｋ＋１）である。ＯＰＴのｕ_ｉ（Ｕと呼ぶ）のうちの少なくとも１つに関して、したがって、以下のように把握される。

最利益頂点として本技術によって選定された頂点ｕ_ｉに関して、以下の式で求められる。
したがって、

貪欲技術の実行にわたって、ｋの値は、ｍから１に変化し、ひいては、本技術が除去する各頂点の総コストは、多くても、以下の式で求められる。
示されるように、貪欲技術は、ＭＣＦＳに対するｌｎｍの近似である（式中、ｍは、冗長性グラフ内の頂点の数を示す）。

リアルタイム特徴選択が、いくつかのシステムにおいて、課題を呈し得る。実施例として、装着可能センサノードシステムが、遠隔健康監視のために使用されてもよく、処理能力、メモリ、およびその可搬性（例えば、無線アクセス、バッテリ動作）に起因する利用可能であるエネルギー上の制約を有し得る。上記に提示される貪欲技術は、特徴のコストに基づいて、コスト最小限特徴セットを見出す。加えて、貪欲技術自体は、コスト最小限にされてもよい。

加重セットカバー問題に類似して、ＭＣＦＳ問題は、多項式時間において近似化されることが可能でもなく、扱いやすい固定されたパラメータでもない、難しい問題の群に属する。オフラインで最適な解を見出す（すなわち、装着可能センサノードシステムを展開することに先立って最適な特徴セットを見出すこと）ために、ＩＬＰアプローチを使用する可能性があるが、ＩＬＰは、制約システムにおいて、リアルタイム実行が実現可能はない場合がある。したがって、リアルタイムおよび動的特徴選択に関して、近似は、十分な精度が取得される限り、好ましい。上記に提示される貪欲技術は、対数近似因子（ｌｎｍ）を有し、Ｏ（ｍｌｏｇｍ）の時間計算量を生じさせる。理想的には、ＩＬＰ解に可能な限り近い精度と、貪欲アプローチに可能な限り近い時間計算量とを有する、技術を考案することを望むであろう。より良好な精度のために、時間計算量は、犠牲にされ得る。

一般性の損失を伴わずに、仮に、（ｌｎｒ）が、区分された特徴サブセット上でＩＬＰを行う特徴選択技術の近似比であるとされたい。また、そのような技術が、ｔ＝ｃ^ｍ／ｒ時間単位内で起動すると仮定されたい。目的は、特徴選択を実施するための時間バジェット（Ｔ）に影響する近似比を最小限にする、パーティションの最適数を見出すことである。
Ｍｉｎｉｍｉｚｅｌｎｒ（１４）
以下を条件とする。
ｔ≦Ｔｔ＝ｃ^ｍ／ｒ（１５）
ｔ＝ｃ^ｍ／ｒ（１６）
この最適化問題は、以下に匹敵する。
Ｍｉｎｉｍｉｚｅｒ（１７）
以下を条件とする。
したがって、パーティションの最適数は、以下の式で求められる。

図１４は、パーティションの数が、時間バジェット（Ｔ）における低減の結果として、ｔ−Ｔが増加するにつれて、どのように増大するかを示す。図は、ｔ−Ｔが１０^３〜１０^６の範囲であるときの場合のｒを例証する。

上に述べたように、医療環境で使用されるコンテキスト意識予測システムが、説明されている。コンテキスト意識予測システムはまた、環境状況、群衆挙動、地質学的形成、天候パターン、市場変動、ならびにコンテキストおよび転帰データがモデルの作成のために利用可能である他の分野を予測するため等、他の予測環境で使用され得ることが本明細書から明白であろう。

図１５は、予測における、モデル生成およびモデルの後続の使用の実施例を例証する。モデル生成は、例えば、収集されたデータで動作し、医学的状態の確率を計算するために使用され得る数学的方程式を提供する、回帰モデルとして実装されてもよい。図１５の「訓練データ」が、具体的な医学的状態の予測のためのモデルを生成するために使用される、データを指す。

「予測データ」が、具体的な医学的状態の発生を予測するために、予測モデルとともに使用される、データを指す。例えば、予測データは、予測が行われる具体的な個人と関連付けられる任意の事前に収集されたデータを含む。

モデル生成は、代替として、または加えて、機械学習、パターン認識、人工知能、ならびに分類、回帰、およびクラスタリング技術等の統計的推論プロセスのうちの１つまたはそれを上回るものを含んでもよい。

コミュニティベースの結論に関して、一実施例では、患者の群から収集されたデータは、コンテキスト要因に基づいて、患者を階層化するために、クラスタリング（また、教師なし分類と呼ばれる）のために使用される。このように、類似する患者（そのデータに従った）が、ともに群化される（クラスタリング技術によって識別される）。したがって、結論が、患者下位群に関して、下される可能性がある。クラスタリング技術の実施例は、Ｋ平均法クラスタリング、階層的クラスタリング、およびガウス混合モデルを含む。
（臨床研究の分析−遠隔健康監視システムのユーザの予測因子）

コンテキスト意識予測に関する本技術の一実施形態が、患者を本システムに登録することに先立って、遠隔健康監視（ＲＨＭ）システムを使用するための転帰の成功を予測するためのモデルを判定するために使用された。

ＲＨＭシステムの使用は、急激に増大しており、慢性心不全（ＣＨＦ）を患う患者における、患者と提供者の通信、意思決定の共有、アクティブ化、および自己管理を改善している。これらの有望な前途にもかかわらず、介入にアクセスすること（最初の使用）、ある実質的期間（長時間の使用）のための介入に携わること、および介入（持続使用）を再考することとして定義される、無線技術の使用への実際の暴露は、ＣＨＦを患う患者内において、かなり低いままである。さらに、どの患者の下位群がＲＨＭ技術から利点を得る場合があるのかと、どのユーザ特徴およびコンテキスト要因がこれらのシステムの効果的な使用を判定するのかとが不明である。

ＣＨＦ研究では、ＲＨＭシステムは、毎日の体重、血圧（心臓収縮および心臓拡張）、心拍数、および症状の質問を、鬱血性心不全を患う１６名の患者から収集するために使用された。２００の特徴を含むベースラインデータもまた、各患者から収集された。そのような特徴の実施例は、人口統計学、併存疾患、体重、心理社会的属性（落ち込み、不安、生活の質に対する質問）、性別、ベースライン時における年齢、結婚歴、同棲、信頼する友人の有無、民族性、完了教育年数、教育レベル、雇用状況、所帯が金融的にその所得で生活するための裕福度、喫煙歴、飲酒歴、平均運動レベル、身長（インチ）、体重（ポンド）、および医療保険を含む。

ＣＨＦ研究の分析が、１）ＲＨＭにアクセスする（すなわち、最初の使用）予測因子を検査し、２）ＣＨＦを患う患者の群内において高度なデータ分析論を採用することによって、ＲＨＭのユーザと非ユーザとの間を区別するために行われた。目標は、ＣＨＦを患う患者の下位群が、効果的にＲＨＭシステムを使用する傾向がより高いであろうかどうかを判定し、そのような順守予測に寄与するコンテキストおよび生理学的要因を識別することによって、患者の順守を査定することであった。

ＣＨＦ研究は、事前試験（ベースライン）および事後試験（３カ月）を伴う単群実験的研究であり、ベースライン測定からのデータは、次いで、予測因子分析のために使用された。１６名の患者の合計（平均年齢６５．８±６．１歳、範囲５８−８３歳）が、ＣＨＦ研究に対する同意を提供したが、しかしながら、研究プロトコルあたり、７名の患者のみが、開発されたＲＨＭシステムにアクセスし、ＣＨＦ悪化のための退院の７±２日以内に、データ（例えば、体重、血圧、心拍数、症状苦痛）を中央情報システムに伝送した。ベースラインデータ（約２００の属性）は、属性選択および患者分類のために使用された。欠測値を伴う全ての属性が、順守査定に及ぼす欠測データ転嫁の影響を回避するために、データ分析から排除された。残りの８８の属性は、後に意思決定表分類子が続く、属性選択技術にフィードされた。分類子は、患者の２つの群（順守対非順守）の間を区別するために使用された。

データは、決定木分類に基づいて、予測モデルを構築するために使用された。決定木は、木構造の形態で分類モデルを構築し、データセットをより小さいサブセットに再帰的に分割する一方、同時に、関連付けられた決定木が、増分的に開発される。最終結果は、決定ノードおよび葉ノードを伴う木である。決定ノード（データセットのベースライン属性）は、２つまたはそれを上回る分岐を含有してもよい。例えば、患者の年齢を表すノードが、年齢＜５０、５０＜＝年齢＜７５、および年齢＞＝７５に関する３つの分岐を有してもよい。葉ノード（順守および非順守）は、分類または決定を表す。最良の予測因子と関連付けられる木の最上位ノードが、ルートと呼ばれる。決定木分類モデルに基づく予測技術を開発する利点は、決定木が、特徴予測目的のための検討から顕著でないものを自動的に除外し、顕著な特徴の一覧を明示的に提供するであろうことである。これは、基準特徴の数が大きい場合、特に重要である。しかしながら、結果が示すように、非常に小さな数の特徴が、順守を予測するために十分である。本質的に、これらの特徴は、決定木を構成するために使用されるものである。決定木ベース分類の別の利点は、決定木が、ヒトによって理解され、意思決定のために使用され得る、ルールを表すことである。

決定木は、ＩＤ３技術に基づいた。トップダウン貪欲検索が、特徴が木のより高いレベルにバックトラッキングすることなく作り得る可能性がある分岐の空間を通して、実施される。各ノードにおいて分岐を構成することは、エントロピーおよび情報利得の測度に基づく。決定木構成プロセスは、ルートノードから始動し、データを、類似するデータタイプを伴うデータ項目を含有するより小さいサブセットに区分する。サンプル（すなわち、データインタンス）の類似度を計算するために、エントロピーが、使用される。エントロピーは、サンプル（例えば、ベースラインデータ値）のセットの均質性の測度である。サンプルが、ある特徴に対して完全に均質である場合、エントロピーは、その特徴に対してゼロであり（例えば、全ての患者が同一年齢である場合、特徴「年齢」に関するエントロピーは、ゼロである）、サンプルが等しく分割される場合、１のエントロピーを有する（例えば、全ての患者が異なる年齢値を有する場合、特徴「年齢」のエントロピーは、１である）。順守および非順守の観察／実施例のセットＳを前提として、この２変数分類に関連のあるセットＳのエントロピーは、以下の式で求められる。
Ｅ（Ｓ）＝−ｐ（Ａｄ）ｌｏｇｐ（Ａｄ）−ｐ（ＮＡｄ）ｌｏｇｐ（ＮＡｄ）
式中、Ａｄは、順守を示し、ＮＡｄは、非順守を指し、関数「ｐ」は、確率関数である。

言及されるように、決定木を構成するときの各ノードにおける試験に対する属性の選択が、順守対非順守の場合を分類するための最も有用な属性の選択を要求する。情報利得が、そのようなノードを見出すために使用される。情報利得は、所与の属性が、その標的分類に従って、訓練実施例をいかに良好に分離するかを測定する。この測度は、部分的に構成された木を拡張しながら、各ステップにおける候補特徴の中から選択するために使用される。情報利得は、エントロピーの予期される低減を測定する。
式中、Ｖａｌｕｅｓ（ｆ）は、基準特徴ｆに関する全ての可能性がある値のセットであり、Ｓｖは、属性ｆが値「ｖ」を有する、Ｓのサブセットである。この方程式の初項は、元の収集Ｓのエントロピーであり、２次項は、Ｓが属性ｆを使用して区分された後のエントロピーの期待値である。情報利得は、実際に、属性ｆに従って、実施例を区分することによって生じさせられるエントロピーの予期される低減である。

ＣＨＦ研究では、ユーザおよび非ユーザのベースライン社会人口学的かつ臨床的特徴は、同等であった。しかしながら、属性選択技術は、非ユーザがＣＨＦ専門家ベースのケアを行った可能性が低く、自動式内部心臓除細動器を有した可能性が高く、アルコール使用歴がある可能性が高かったことを明らかにし、それらの３つの顕著な属性は、属性選択技術によって識別された。意思決定表分類子は、８７．５％の精度と再現率との両方と、ＲＨＭへのアクセスを予測することに関する７６．２％のＦスコアとを有した。

ＣＨＦ研究の分析は、ベースライン属性の小さなセットが、ＲＨＭ技術へのＣＨＦを患う患者のアクセスおよび順守を予測することのために十分であることを示した。さらに、ＣＨＦを患う患者の下位群は、ＲＨＭ介入を使用する傾向がより高くあり得る。その発見は、ＲＨＭ介入から利点を得る可能性が高い潜在的なエンドユーザに光明を投じる。
（臨床研究の分析−健康改善プログラムの成功の予測因子）

コンテキスト意識予測に関する本技術の一実施形態は、健康改善プログラムの転帰の成功を予測するためのモデルを判定するために使用された。転帰は、肥満度指数（ＢＭＩ）、胴囲（ＷＣ）、高比重リポ蛋白（ＨＤＬ）、および低比重リポ蛋白（ＬＤＬ）の変化に関連した。転帰の成功は、それぞれ、表１に示されるように定義された。

コンテキスト意識予測は、臨床研究を評価し、ＲＨＭシステムを使用して、後の健康改善プログラムの成功のための予測因子を識別するために使用された。

評価された臨床研究は、Ｗａｎｄａ−ＣＶＤと称されるＲＨＭシステムを使用して、６カ月にわたって実施された。その研究の参加者は、少なくとも２つの心臓血管疾患（ＣＶＤ）危険要因を伴う、年齢２５〜４５歳の９０名のアフリカ系アメリカ人の女性であった。その研究は、ＣＶＤに対する予防対策として、危険要因を低減することを対象とした。

Ｗａｎｄａ−ＣＶＤは、スマートフォンベースであり、無線コーチングおよび社会的支援を参加者に提供するように設計される。その研究では、介入群内の４５名の参加者が、Ｗａｎｄａ−ＣＶＤシステムを介して、栄養およびライフスタイル教育を受けた。対照群が、教育の制限および遠隔監視ではないものを含んだ標準的ケアを受けた。

スマートフォンは、Ｗｉ−Ｆｉおよび３Ｇ／４Ｇ技術を使用して、リアルタイムで、参加者に測定されたデータを伝送する。Ｗａｎｄａ−ＣＶＤは、自動無線コーチングを介した社会的支援から結果として生じる、影響およびライフスタイルの変化を分析する。４つの教育クラスを受けた介入群が、食事の自己管理、栄養素、身体的活動性、およびストレス低減に集中した。コレステロールレベル、血圧、およびＢＭＩのベースラインが、検討され、参加者は、人口統計学および心理社会学の質問表に記入した。参加者はまた、教育クラスに参加した。参加者は、スマートフォンおよび血圧計をどのように装着かつ管理するかを教示された。参加者は、スマートフォンの主要目的が、自動フィードバックのためのユーザインターフェースおよび機構を提供しながら、身体的活動性を追跡することであることが伝えられた。対象は、無制限の携帯電話のメールを送信／受信することが可能であり、無制限のデータプランを有した。

治験の参加者の大多数は、陽性転帰を有したが、多くのものは、役立たなかった。研究からのデータは、どの人が、ＲＨＭシステムを使用して、成功するかをより深く理解するためだけでなく、患者をＲＨＭシステムに登録することに先立って、スクリーニング質問のセットを識別するためにも、ＲＨＭ転帰成功の予測因子を見出すために使用された。これは、時間およびリソースを節約し、現在の健康監視システムを形作り、異なる母集団により良好に適することに役立ち得る。加えて、脱落率が質問表の長さに伴って増加するため、予測モデルを開発することは、研究の目的および成功基準に関するより影響のある質問を識別することによって、参加者への負担を低減し得る。

臨床研究では、様々な生理学的かつ心理学的情報が、参加者から集められた。

対面のベースライン訪問と、３カ月および６カ月の経過観察訪問の間、生理学的および心理学的測定は、身体計測基準、質問表、およびソフトウェアプログラムを使用して、検討された。

脂質レベル（すなわち、総コレステロール、ＨＤＬ、ＬＤＬ、およびトリグリセリド）が、診療現場試験のために設計された小型かつ軽量の分析器である、Ｃｈｏｌｅｓｔｅｃｈを使用して分析された。ＢＭＩは、専門グレードの身長計（ｓｅｃｃａ２２５Ｈｉｔｅ−Ｍｏｂｉｌｅ）および大容量電子体重計（Ｓ６６００、Ｓｕｍｍｉｔ）を使用して、測定された身長および体重から計算された。胴囲は、身体計測標準化参照マニュアルに推奨される標準的手順に従って測定された。胴囲は、専門グレードの身体計測用巻き尺を使用して、最も近いセンチメートルまで測定された。

参加者は、いくつかの質問表に記入した。質問表は、表２に列挙されるもの等の分類に群化された。

生理学的および心理学的測定は、臨床研究の分析から、成功の予測因子を判定するためのコンテキストデータおよび転帰データを提供する。臨床研究を分析する際の目標は、参加者のＣＶＤ研究の転帰成功を判定することを対象とする質問のサブセットを判定することであった。臨床研究の結果が提供され、後に、臨床研究の分析から、予測因子を判定する考察が続く。

６カ月研究の結果は、参加者の４９％がＷＣの低減、３０％がＢＭＩの減少、６０％がＨＤＬレベルの増加、５５％がＬＤＬレベルの減少をもたらす、転帰を含んでいた。

臨床研究の分析では、いくつかの特徴選択技術が、評価され、好ましい特徴選択技術が、予測因子を識別するためのその能力に基づいて、選択された。特徴選択技術は、概して、具体的な指標に焦点を当て、特徴の関連性および／または冗長性を定量化し、予測のための有用な情報の最大量を提供する特徴の最小サブセットを見出す。特徴選択技術の目標は、所与の特徴セットにおける冗長または無関係な特徴を排除することである。効果的な特徴選択技術を適用することが、次元性および冗長性を低減させることによって本システムの算出の複雑性を減少させるだけでなく、また、無関係かつ混同情報を削除することによって分類子の性能を増加させる。

特徴選択技術の２つの分類は、フィルタ技術およびラッパ技術である。フィルタ技術は、具体的な指標を使用し、各個人の特徴（または、ともに特徴のサブセット）をスコア化し、ラッパ技術より高速で、はるかに算出的に集約的ではない場合がある。ラッパ技術は、分類子を使用し、その予測力に従って、反復様式で特徴サブセットを評価する。

臨床研究の分析に関して、ラッパ分類が選択され、試験が、特徴サブセットおよび分類子の複数の組み合わせに実施された。使用された分類子は、ｋＮＮ、ＢａｙｅｓＮｅｔ、ＳＶＭ、ＲａｎｄｏｍＦｏｒｅｓｔ、およびＣ４．５ＤＴを含んでいた。特徴サブセットおよび分類子の組み合わせ毎に、確率が、分類子によって特徴に割り当てられ、確率の割り当ての精度は、組み合わせをグレード分けするために使用された。グレードは、次いで、好ましい特徴サブセットおよび好ましい分類子の組み合わせを選択するために使用された。臨床研究を分析することに関して説明されるように、分類子の選択は、本開示の概念に従って、随意であることに留意されたい。ある分類子が、最初に選択され、次いで、好ましい特徴サブセットを続いて識別するために、使用されてもよい。

特性曲線（ＣＣ）は、確率割当の精度を特性評価するために使用された。ＣＣを作成するために、確率閾値のシーケンスが、設定され、各確率閾値において、真陽性率（ＴＰＲ）および偽陽性率（ＦＰＲ）が、閾値を上回る確率を伴う特徴に対して判定された。ＴＰＲ／ＦＰＲ判定は、高確率（包含された特徴が存在しない、または実質的に存在しない、ひいては、真陽性または偽陽性が存在しないような）と、低確率（全て、または実質的に全ての特徴が、包含され、ひいては、真陽性とともに多くの偽陽性が、包含されるような）との間の確率閾値に対して実施された。異なる閾値設定におけるＦＰＲ対ＴＰＲのプロットが、ＣＣをもたらす。曲線下面積（ＡＵＣ）は、次いで、判別力、すなわち、臨床研究の転帰分類毎に参加者の転帰を正確に分類するための能力を測定するために使用されることができる。ＡＵＣは、次いで、特徴サブセットおよび分類子の種々の組み合わせを比較するために利用可能であった。

１００本の木を伴うランダム森分類子が、迅速かつ略正確な予測結果を提供するため、臨床研究のための分類子として選択された。

図１６は、臨床研究からのデータに関するＷＡＩＳＴ−Ｃ、ＢＭＩ、ＨＤＬ、およびＬＤＬ転帰のそれぞれのためのＣＣを例証する。ＷＡＩＳＴ−Ｃに関するＡＵＣは、９２．４％である一方、ＢＭＩに関するＡＵＣは、７３％である。ＷＣに関するものを下回るＢＭＩに関するＡＵＣは、ＷＣがＢＭＩよりも心臓血管疾患危険要因により密接につながる事前調査を裏付け、ＡＵＣ技術が、本開示に説明される他の利点に加えて、所与の転帰のために、相互に予測因子を比較する際に有用な情報を提供することを例証する。

臨床研究データに基づく転帰のための予測因子として選択される特徴が、次に、説明される。

胴囲（ＷＣ）。参加者の約４８％が、６カ月の介入の終了時に、少なくとも１インチＷＣが減っており、これは、転帰の成功として事前に定義された。ＷＣ転帰成功のための予測因子として識別された特徴は、ほとんど、分類ＰＭＴ、ＩＮＳＵＲＡ、ＳＦ、およびＦＡＭＨＸと関連付けられた。以下の特徴は、ピアソン相関係数を使用して、選択された。
１）ＰＭＴ１４：（あなたの健康に関する考え）私が知っているのは、塩と脂肪だけを用いた料理である？
利用可能である応答は、「非常にそう思う」から「全くそう思わない」とした。
２）ＩＮＳＵＲＡ：（一般情報）、あなたは、現在、以下の健康保険のいずれかの適用を受けているか？政府系保険（メディケア、メディケイド、退役軍人の管理健康プラン、軍隊医療保険プラン、または他の政府系補償ケア）。
利用可能である応答は、２つの「はい」または「いいえ」のうちのいずれかとした。
３）ＳＦ−３Ａ：過去４週間の間、身体的な健康の結果として、仕事または他の規則的な毎日の活動に関してこの問題にどれくらい悩まされたか？あなたが望んだ達成を下回ったか。
利用可能である応答は、「いつも」から「全くない」とした。
４）ＦＡＭＨＸ：脳卒中／ＴＩＡを患う祖父母または心臓疾患を患う母親。
利用可能である応答は、２つの「はい」または「いいえ」のうちのいずれかとした。
塩と脂肪だけを用いた料理しか知らないかという質問に対して「そう思わない」により近かった参加者は、その研究において良好であった一方、同意できた人は、胴囲の減少に成功しなかった（すなわち、ＷＣ転帰の非成功をもたらした）。政府機関保険加入者および低所得者は、ＷＣが減少した（すなわち、ＷＣ転帰の成功をもたらした）。仕事または毎日の活動中、機能的問題があった参加者のうち４０％は、ＷＣ転帰の成功をもたらした。脳卒中または心臓疾患を患う一等親血縁者がいる参加者もまた、ＷＣ転帰の成功をもたらした。

肥満度指数（ＢＭＩ）。参加者の約３０％は、６カ月の介入の終了時に、ＢＭＩ転帰の成功として事前に定義された、１ポンド／インチ^２（またはそれを上回る）減っていた。（ＢＭＩ転帰の成功を伴う人の５７％はまた、ＷＣ転帰の成功をもたらした）。ＢＭＩ転帰の成功のための予測因子として識別された特徴は、ほとんど、分類（ＳＴＲＥＳＳおよびＳＯＣＳＵＰ）と関連付けられた。以下の特徴は、ピアソン相関係数を使用して、選択された。
１）ＳＴＲＥＳＳ４：あなたは、別居、離婚、失業、退職、事業の失敗、暴力、近親家族の死または大きな損傷もしくは病気、配偶者の死、あるいは他の大きなストレス等、過去１年以内に人生の大きな出来事を経験したか？
利用可能である応答は、２つの「はい」または「いいえ」のうちのいずれかとした。
２）ＳＴＲＥＳＳ１：あなたは、自宅でストレスを感じているか？
利用可能である応答は、「１度も自宅でストレスを感じたことがない」から「自宅で常時ストレスを感じている」とした。
３）ＳＯＣＳＵＰ７：私は、物事がうまくいかないとき、友人を頼りにすることができる。
利用可能である応答は、「非常にそう思う」から「全くそう思わない」とした。
過去１年以内に人生の大きな出来事を経験した参加者（ＳＴＲＥＳＳ４）のうち８９％は、ＢＭＩ転帰の成功をもたらさなかった。自宅で常時ストレスを感じている、またはある時期にわたってストレスを感じていたと応答した参加者はまた、ＢＭＩ転帰の成功をもたらさず、ＢＭＩ転帰の成功をもたらさなかった参加者の８６％は、自宅でストレスを感じていなかった。１人を除いて、ＢＭＩ転帰の成功をもたらした全ての参加者は、頼り得る友人を有していた（ＳＯＣＳＵＰ７）。

脂質状態ＨＤＬ。参加者の約５８％は、ＨＤＬ転帰の成功として事前に定義された、そのＨＤＬレベルを増加させることに成功した。ＨＤＬの転帰成功のための予測因子として識別された特徴は、ほとんど、分類（ＰＭＴ、ＭＯＳＳＡＳ、ＳＦ、およびＰＨＱ）と関連付けられた。以下の特徴が、選択された。
１）ＰＭＴ２９：私の家族は、私が健康食品を料理する場合でも、それを食べないであろう。
利用可能である応答は、「非常にそう思う」から「全くそう思わない」とした。
２）ＰＭＴ２３：私が望む場合、私は、より少ない塩と脂肪を伴う食品を食べることができる。
利用可能である応答は、「非常にそう思う」から「全くそう思わない」とした。
３）ＭＯＳＳＡＳ９：食事時、ナトリウムを制限した（１日あたり２５００ｍｇ未満を摂取した）。
利用可能である応答は、「いつも」から「全くない」とした。
４）ＳＦ３Ｂ：過去４週間の間、身体的な健康の結果として、仕事または他の規則的な毎日の活動に関してこの問題にどれくらい悩まされたか？仕事または他の活動の種類が制限されたのか。
利用可能である応答は、「いつも」から「全くない」とした。
５）ＰＨＱ９：あなたが何らかの方法で自殺または自傷することでより楽になるであろうという考えがあるか。利用可能である応答は、「全くそうではない」から「ほとんど毎日」とした。
ＰＭＴはまた、ＨＤＬレベルを予測する際の重要な特徴であることが分かる。別の重要な予測因子は、食事の順守であって、その食事時のそのナトリウムを制限した参加者は、ＨＤＬ転帰の成功をもたらした。仕事または毎日の活動中、機能的問題があった参加者は、ＨＤＬ転帰の不成功をもたらした。自殺または自傷の考えがある参加者（ＰＨＱ９）は、ＨＤＬ転帰の不成功をもたらした。

脂質状態ＬＤＬ。参加者の約５７％は、ＬＤＬ転帰の成功として事前に定義された、そのＬＤＬレベルを低減した。ＬＤＬ転帰の成功のための予測因子として識別された特徴は、ほとんど、分類（ＢＲＩＥＦＳ、ＰＨＱ、およびＰＭＴ）と関連付けられた。以下の特徴が、選択された。
１）ＢＲＩＥＦＳ２：理由もなく突然驚かせられることによって、どれくらい動揺したか？
利用可能である応答は、「全くない」から「非常に」とした。
２）ＢＲＩＥＦＳ５：発作または恐怖心、もしくはパニックによってどれくらい動揺したか？
利用可能である応答は、「全くない」から「非常に」とした。
３）ＰＨＱ４：過去２週間にわたって、疲労または無気力にどのくらいの頻度で悩まされたか？
利用可能である応答は、「全くない」から「ほとんど毎日」とした。
４）ＰＨＱ７：過去２週間にわたって、新聞を読む、またはテレビを見る等の物事に集中することの困難にどのくらいの頻度で悩まされたか？
利用可能である応答は、「全くない」から「ほとんど毎日」とした。
５）ＰＭＴ２０：私が心臓疾患を患う可能性は非常に低い。
利用可能である応答は、「非常にそう思う」から「全くそう思わない」とした。
６）ＰＭＴ２５：私の年代の他の人々と比較して、今後、心臓疾患を患う可能性はそれほど高くない。
利用可能である応答は、「非常にそう思う」から「全くそう思わない」とした。
突然の恐怖からの苦痛の結果として、強い不安を感じる参加者（ＢＲＩＥＦＳ２）は、ＬＤＬ転帰の不成功をもたらした。発作または恐怖心、もしくはパニックによって動揺した参加者（ＢＲＩＥＦＳ５）のうち８３％は、ＨＤＬ転帰の不成功をもたらした。疲労または無気力に関して、「多くの場合」により近い応答をした参加者（ＰＨＱ４）の７５％は、ＨＤＬ転帰の不成功をもたらした。また、新聞を読む、またはテレビを見る等の物事に集中することが困難である全ての参加者は、ＨＤＬ転帰の不成功をもたらした。

臨床研究の分析は、転帰ＷＣ、ＢＭＩ、ＨＤＬ、およびＬＤＬのそれぞれのために、転帰の成功を予測するための好ましい特徴のセットを提供した。いずれは、特徴のセット内の特徴のうちの１つまたはそれを上回るものを呈する個人または個人の群が、関連付けられたＷＣ、ＢＭＩ、ＨＤＬ、またはＬＤＬ転帰の危険に曝されるものとして識別され得る。セット内の個人の特徴は、セット内の特徴の相対予測能力に対応するように加重されてもよい、または正規化されてもよい。加重および／または正規化は、例えば、介入、ケア、または支援の適切なレベルを提供するために、予測プロセスにおいて解明の向上をもたらし得る。

本開示の実施形態は、種々のコンピュータ実装動作を実施するためのコンピュータコードをその上に有する、非一過性コンピュータ可読記憶媒体に関する。「コンピュータ可読記憶媒体」という用語は、本明細書では、本明細書に説明される動作、方法論、および技法を実施するための命令またはコンピュータコードのシーケンスを記憶またはエンコードすることが可能な任意の媒体を含むように使用される。媒体およびコンピュータコードは、本開示の実施形態の目的のために特別に設計および構築されたものであってもよく、またはコンピュータソフトウェア技術の当業者に周知であり、利用可能な種類のものであってもよい。コンピュータ可読記憶媒体の実施例として、限定ではないが、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープ等の磁気媒体と、ＣＤ−ＲＯＭおよびホログラフィックデバイス等の光媒体と、光ディスク等の光磁気記録媒体と、特定用途向け集積回路（「ＡＳＩＣ」）、プログラム可能論理デバイス（「ＰＬＤ」）、ならびにＲＯＭおよびＲＡＭデバイス等、プログラムコードを記憶および実行するように特別に構成されるハードウェアデバイスとが挙げられる。

コンピュータコードの実施例として、コンパイラによって生成されるような機械コードと、インタープリタまたはコンパイラを使用するコンピュータによって実行されるより高いレベルのコードを含有するファイルとが挙げられる。例えば、本開示の実施形態は、Ｊａｖａ（登録商標）、Ｃ＋＋、または他のオブジェクト指向プログラミング言語と、開発ツールとを使用して実装され得る。コンピュータコードの付加的実施例として、暗号化されたコードおよび圧縮コードが挙げられる。さらに、本開示の実施形態は、コンピュータプログラム製品としてダウンロードされてもよく、これは、伝送チャネルを介してリモートコンピュータ（例えば、サーバコンピュータ）から、要求側コンピュータ（例えば、クライアントコンピュータまたは異なるサーバコンピュータ）に伝達され得る。本開示の別の実施形態は、機械実施可能ソフトウェア命令の代わりに、またはそれと組み合わせて、接続された回路に実装されてもよい。

本明細書で使用されるように、「実質的に」および「約」は、わずかな変形例を説明し、考慮するために使用される。イベントまたは状況と併せて使用されるとき、本用語は、イベントまたは状況が精密に発生する事例ならびにイベントまたは状況が近似値で発生する事例に言及することができる。例えば、本用語は、±５％未満またはそれに等しい、±４％未満またはそれに等しい、±３％未満またはそれに等しい、±２％未満またはそれに等しい、±１％未満またはそれに等しい、±０．５％未満またはそれに等しい、±０．１％未満またはそれに等しい、または±０．０５％未満またはそれに等しい等、±１０％未満またはそれに等しいものに言及することができる。

本開示は、その具体的実施形態に関連して説明されているが、添付される請求項によって定義されるように、本開示の真の精神および範囲から逸脱することなく、種々の変更がなされ、また、均等物が代用されてよいことが、当業者によって理解されるはずである。加えて、多くの修正が、特定の状況、材料、組成物、方法、動作、または複数の動作を、本開示の目的、精神、および範囲に適合させるためになされてよい。全てのそのような修正は、本明細書に添付される請求項の範囲内であることが意図される。特に、ある方法は、特定の順序で実施される特定の動作に関連して説明され得るが、これらの動作は、本開示の教示から逸脱することなく、均等方法を形成するために、組み合わせられ、細分化され、または再順序付けされ得ることが理解されるであろう。故に、本明細書に具体的に示されない限り、動作の順序および分類は、本開示の制限ではない。

Claims

環境的、生理学的、行動的、および履歴コンテキストのうちの少なくとも１つに関連するコンテキストデータを受信するステップと、
少なくとも１つの転帰に関連する転帰データを受信するステップと、
特徴セットを前記コンテキストデータから作成するステップと、
特徴のサブセットを前記特徴セットから選択するステップと、
前記特徴が前記少なくとも１つの転帰の予測因子である確率に従って、スコアを特徴の前記サブセットにおける各特徴に割り当てるステップと、
前記少なくとも１つの転帰のための特性曲線を前記特徴のサブセットから生成するステップであって、前記特性曲線は、前記スコア化に基づく、ステップと、
特性曲線下面積を計算するステップと、
前記特性曲線下面積を使用して、前記特徴のサブセットが前記少なくとも１つの転帰のための好適な予測因子かどうかを識別するステップと
を含む、方法。
特性曲線を生成するステップは、
確率閾値を設定するステップと、
特徴群を前記特徴のサブセットから選択するステップであって、前記特徴群における特徴毎に、前記割り当てられたスコアは、前記確率閾値を上回る、ステップと、
前記特徴群における特徴の前記コンテキストデータのために、前記転帰の予測の真陽性率および偽陽性率を判定するステップと、
前記確率閾値のための前記真陽性率および前記偽陽性率をプロット化するステップと
を反復的に含む、請求項１に記載の方法。
前記特性曲線は、複数の特性曲線のうちの１つであり、前記特性曲線下面積を前記複数の特性曲線における他の特性曲線下面積と比較するステップと、前記比較するステップに基づいて、好ましい予測因子を識別するステップとをさらに含む、請求項１に記載の方法。
前記特性曲線は、複数の特性曲線のうちの１つであり、前記特性曲線下面積を前記複数の特性曲線における他の特性曲線下面積と比較するステップと、前記比較するステップに基づいて、好ましいスコア化技術を識別するステップとをさらに含む、請求項１に記載の方法。
前記特徴のサブセットに基づいて、前記少なくとも１つの転帰のための予測モデルを生成するステップをさらに含む、請求項１に記載の方法。
付加的コンテキストデータを受信するステップと、
前記予測モデルを使用して、前記付加的コンテキストデータに基づいて、転帰を予測するステップと
をさらに含む、請求項５に記載の方法。
前記付加的コンテキストデータは、個人の群に関するデータを含み、前記予測された転帰は、前記個人の群のための前記転帰の予測である、請求項６に記載の方法。
前記コンテキストデータは、複数のソースからのデータを含む、請求項１に記載の方法。
前記コンテキストデータは、複数の個人に関するデータを含む、請求項１に記載の方法。
前記コンテキストデータは、複数の時間において取り出されたデータを含む、請求項１に記載の方法。
プロセッサ実行可能命令を含むメモリと、
前記メモリからの命令を実行するように構成されるプロセッサであって、前記命令は、前記プロセッサが、
コンテキストデータおよび転帰データを受信することと、
特徴セットを前記コンテキストデータから作成することと、
複数の特徴サブセットを前記特徴セットから選択することと、
前記複数の特徴サブセットのそれぞれのために、前記特徴サブセットおよび前記転帰データを分類子に適用させ、前記特徴サブセットのためにスコアを判定することと、
前記複数の特徴サブセットのそれぞれのための前記スコアに基づいて、好ましい特徴サブセットを選択することと、
前記好ましい特徴サブセットを使用して、予測モデルを生成することと
を行うための命令を含む、プロセッサと
を備える、システム。
前記命令はさらに、前記プロセッサが、前記コンテキストデータをクラスタ化するための命令を含み、前記特徴セットを前記クラスタ化されたコンテキストデータの少なくとも一部から作成する、請求項１１に記載のシステム。
前記クラスタ化されたコンテキストデータは、複数のデータクラスタを含み、前記特徴セットを作成する前記命令は、複数の特徴セットを前記複数のデータクラスタのそれぞれのものから作成する命令を含む、請求項１２に記載のシステム。
前記転帰データは、複数の異なる転帰を表すデータを含む、請求項１１に記載のシステム。
前記命令はさらに、前記プロセッサが、付加的コンテキストデータを受信するための命令を含み、前記予測モデルを使用して、転帰を前記付加的コンテキストデータから予測する、請求項１１に記載のシステム。
前記転帰データは、少なくとも１つの転帰を表し、前記複数の特徴サブセットのそれぞれのために前記スコアを判定する前記命令は、前記プロセッサが、特徴サブセット毎に、
前記分類子を使用し、前記特徴セットにおける特徴毎に確率測度を判定することであって、前記確率測度は、前記少なくとも１つの転帰のうちの転帰に対する前記特徴の予測度の指標である、ことと、
真陽性率対偽陽性率の特性曲線を作成することであって、前記特性曲線の各点は、前記特徴セットの一部を表し、前記特徴セットの各部分は、確率測度閾値に基づいて、選択される、ことと、
特性曲線下面積として、前記スコアを計算することと
を行うための命令を含む、請求項１１に記載のシステム。
プロセッサ実行可能命令を含むプロセッサ可読物理的媒体であって、前記命令は、
転帰情報および前記転帰情報に関連するコンテキスト情報を受信することと、
前記転帰情報およびコンテキスト情報を事前処理することと、
特徴セットを前記事前処理されたコンテキスト情報から作成することと、
スコアを前記特徴セットにおける前記特徴のうちの少なくともいくつかに割り当てることであって、スコアが、前記転帰情報によって記述される転帰を予測するための前記特徴の能力に従って特徴に割り当てられる、ことと、
前記スコアを使用して、特性曲線のセットを判定することであって、各特性曲線は、前記転帰を予測する能力を表す、ことと、
前記特性曲線のセットにおける前記特性曲線のそれぞれのためのスコアを計算することと、
前記特性曲線のそれぞれのための前記スコアに基づいて、前記特徴セットからの特徴を含む予測因子を識別することと
を行うための命令を備える、プロセッサ可読物理的媒体。
前記転帰情報は、複数の異なる転帰を表すデータを含む、請求項１７に記載のプロセッサ可読物理的媒体。
前記事前処理は、冗長特徴および無関係特徴を除去することを含む、請求項１７に記載のプロセッサ可読物理的媒体。
前記命令はさらに、
前記予測因子内に含まれる特徴に関連するコンテキスト情報のプールを識別することと、
前記プールを複数のスコアラに個々に適用することと、
前記プールに基づいて、前記複数のスコアラのうちのスコアラ毎に特性曲線を判定することと、
前記選択されたスコアラのための前記特性曲線に関連する測定に基づいて、スコアラを前記複数のスコアラから選択することと
を行うための命令を備える、請求項１７に記載のプロセッサ可読物理的媒体。
前記スコアを計算するための命令は、データ収集およびデータ処理のうちの１つのコストを最小限にするための命令を含む、請求項１７に記載のプロセッサ可読物理的媒体。