JP2022512402A

JP2022512402A - 機械学習の実装の取り込みに基づく改善された低血糖症予測のための血糖データセットの最適化

Info

Publication number: JP2022512402A
Application number: JP2021533545A
Authority: JP
Inventors: アヌアルイマンバエフ，
Original assignee: ノボ・ノルデイスク・エー／エス
Priority date: 2018-12-14
Filing date: 2019-12-11
Publication date: 2022-02-03
Also published as: US20220020497A1; WO2020120571A1; CN113168917A; EP3895179A1

Abstract

本発明は、分類子の取り込みに基づく改善された低血糖症予測のためのデータセット拡張のための方法に関し、対象者に関する未加工のデータセットを提供する工程であって、データセットが、所与のサンプリングレートで取得された複数のＢＧ値、およびそれらの値に関連付けられた、複数日Ｎにわたるタイムスタンプ、を含む、提供する工程と、評価ブロック値（ｅＨＨ）を入力Ｘとしてローリングスキームの時間的ビニングによってデータ変換を実施して、対応する予測値（ｐＨＨ）を出力Ｙとして作成する工程と、を含み、Ｘは、所与の過去の期間Ｔ－ｐに対する、ＢＧ値を含むスライディングウィンドウとして作成され、Ｙは、所与の将来の時間Ｔ－ｆにおけるＢＧ値が低血糖症状態を示す所与の閾値を下回るか否かを示すインジケータＩとして作成される。【選択図】図１３

Description

本開示は、概して、糖尿病に対するインスリン治療の管理において、患者および医療従事者を支援するためのシステムおよび方法に関する。特定の態様では、本発明は、機械学習（ＭＬ）の実装を取り込むために最適化されたより高いデータ分解能のための方法に関する。

真性糖尿病（ＤＭ）は、高血糖につながるインスリン分泌障害および様々な程度の末梢インスリン抵抗性である。２型真性糖尿病は、正常な生理的インスリン分泌の進行性の妨害を特徴とする。健康な個体では、膵β細胞による基礎インスリン分泌が連続的に起こり、食間で長期間にわたって定常グルコースレベルを維持する。健康な個体ではまた、食事に対応する初期の第１段階スパイクでインスリンが急速に放出され、続いて２～３時間後に基底レベルに戻る長期インスリン分泌が続く。何年も制御不良な高血糖症が続くと、複数の健康上の合併症を引き起こす可能性がある。真性糖尿病は、世界中の早期罹患率および死亡率の主な原因の１つである。

血糖／血漿グルコース（ＢＧ）の効果的な制御は、これらの合併症の多くを予防または遅延させることができるが、一度確立されるとそれらを元に戻すことができない可能性がある。したがって、糖尿病の合併症を予防するための努力において良好な血糖コントロールを達成することは、１型および２型糖尿病の治療における主要な目標である。特に、インスリン用量調節の頻繁な変化は、患者の血糖値の安定化を助けるための鍵となる（Ｂｅｒｇｅｎｓｔａｌｅｔａｌ．，“ＣａｎａＴｏｏｌｔｈａｔＡｕｔｏｍａｔｅｓＩｎｓｕｌｉｎＴｉｔｒａｔｉｏｎｂｅａＫｅｙｔｏＤｉａｂｅｔｅｓＭａｎａｇｅｍｅｎｔ？”ＤｉａｂｅｔｅｓＴｅｃｈ．ａｎｄＴｈｅｒａ．２０１２；１４（８）６７５－６８２）。インスリン薬剤治療レジメンを施すために、調節可能な工程サイズ、ならびに生理学的パラメータ推定および所定の空腹時血糖標的値を用いるスマートタイトレータが開発されている。長時間作用型基礎インスリンの最適な開始方法および滴定方法は、依然として決定されている。しかしながら、証拠は、多くの患者が、グルコース管理の目標レベルを達成するのに十分に滴定されたインスリン用量を受け取らないこと（最適以下の用量のままであり、治療目標に到達できない）が多いことを示唆している（Ｈｏｌｍａｎｅｔａｌ．，“１０－ｙｅａｒｆｏｌｌｏｗ－ｕｐｏｆｉｎｔｅｎｓｉｖｅｇｌｕｃｏｓｅｃｏｎｔｒｏｌｉｎｔｙｐｅ２ｄｉａｂｅｔｅｓ，”Ｎ．Ｅｎｇｌ．Ｊ．Ｍｅｄ．２００８；３５９：１５７７－１５８９）。

インスリンレジメンに関する主要な問題のうちの１つは、患者の自律性およびエンパワメントの欠如である。患者はしばしば、新しい滴定量を計算するために診療所を訪問しなければならない。診療所が患者のインスリン用量を滴定しなければならない場合、滴定用量の変更頻度には自然制限がある。自己滴定レジメンは、患者のエンパワメントを促進し、治療により深く関与することを可能にし、その結果、血糖コントロールの改善をもたらす可能性がある（Ｋｈｕｎｔｉｅｔａｌ．，“Ｓｅｌｆ－ｔｉｔｒａｔｉｏｎｏｆｉｎｓｕｌｉｎｉｎｔｈｅｍａｎａｇｅｍｅｎｔｏｆｐｅｏｐｌｅｗｉｔｈｔｙｐｅ２ｄｉａｂｅｔｅｓ：ａｐｒａｃｔｉｃａｌｓｏｌｕｔｉｏｎｔｏｉｍｐｒｏｖｅｍａｎａｇｅｍｅｎｔｉｎｐｒｉｍａｒｙｃａｒｅ，”Ｄｉａｂｅｔｅｓ，Ｏｂｅｓ．，ａｎｄＭｅｔａｂｏｌ．２０１２；１５（８）６９０－７００）。糖尿病の管理およびインスリンの滴定に積極的な役割を果たす患者は、自身のセルフケアに責任を持ち、自身の行動が自身の疾患に影響を及ぼし得ると強く信じ、より良い治療結果をもたらすことができる可能性がある（Ｎｏｒｒｉｓｅｔａｌ．，“Ｓｅｌｆ－ｍａｎａｇｅｍｅｎｔｅｄｕｃａｔｉｏｎｆｏｒａｄｕｌｔｓｗｉｔｈｔｙｐｅ２ｄｉａｂｅｔｅｓ：ａｍｅｔａ－ａｎａｌｙｓｉｓｏｎｔｈｅｅｆｆｅｃｔｏｆｇｌｙｃｅｍｉｃｃｏｎｔｒｏｌ．”ＤｉａｂｅｔｅｓＣａｒｅ．２００２；２５：１１５９－７１、Ｋｕｌｚｅｒｅｔａｌ．，“Ｅｆｆｅｃｔｓｏｆｓｅｌｆ－ｍａｎａｇｅｍｅｎｔｔｒａｉｎｉｎｇｉｎｔｙｐｅ２ｄｉａｂｅｔｅｓ：ａｒａｎｄｏｍｉｚｅｄ，ｐｒｏｓｐｅｃｔｉｖｅｔｒｉａｌ，”Ｄｉａｂｅｔ．Ｍｅｄ．２００７；２４：４１５－２３、Ａｎｄｅｒｓｏｎｅｔａｌ．，“Ｐａｔｉｅｎｔｅｍｐｏｗｅｒｍｅｎｔ：ｒｅｓｕｌｔｓｏｆａｒａｎｄｏｍｉｚｅｄｃｏｎｔｒｏｌｌｅｄｔｒｉａｌ．”ＤｉａｂｅｔｅｓＣａｒｅ．１９９５；１８：９４３－９）。さらに、患者が自身の滴定を管理している場合、滴定の頻度が増加し、それにより、患者が所望の血糖値を達成する可能性が高まる。

しかしながら、より積極的な滴定のアプローチでは、低血糖症事象（以下、「低血糖」）のリスクはより高くなり、毎日複数回の注射（ＭＤＩ）に基づく滴定レジメンの場合、リスクはさらに増す。これに対して、短期低血糖予測（ＳＴＨＰ）のためのいくつかのソリューション、例えば、Ｋｏｖａｔｃｈｅｖら（ＴｙｐｅＺｅｒｏ＆ＵｎｉｖｅｒｓｉｔｙｏｆＶｉｒｇｉｎｉａｇｒｏｕｐ）の“ＥｖａｌｕａｔｉｏｎｏｆａＮｅｗＭｅａｓｕｒｅｏｆＢｌｏｏｄＧｌｕｃｏｓｅＶａｒｉａｂｉｌｉｔｙｉｎＤｉａｂｅｔｅｓ”，ＤｉａｂｅｔｅｓＣａｒｅ，Ｖｏｌ２９（１１），２００６年１１月、Ｓｐａｒａｃｉｎｏら（ＣｏｂｅｌｌｉＬａｂｉｎＵｎｉｖｅｒｓｉｔｙｏｆＰａｄｏｖａ）の“ＧｌｕｃｏｓｅＣｏｎｃｅｎｔｒａｔｉｏｎｃａｎｂｅＰｒｅｄｉｃｔｅｄＡｈｅａｄｉｎＴｉｍｅＦｒｏｍＣｏｎｔｉｎｕｏｕｓＧｌｕｃｏｓｅＭｏｎｉｔｏｒｉｎｇＳｅｎｓｏｒＴｉｍｅ－Ｓｅｒｉｅｓ”，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＢｉｏｍｅｄｉｃａｌＥｎｇｉｎｅｅｒｉｎｇ，Ｖｏｌ．５４（５）２００７年５月、Ｆｒａｎｃら（ＶｏｌｕｎｉｔｓｗｉｔｈＳａｎｏｆｉ）の“Ｒｅａｌ－ｌｉｆｅａｐｐｌｉｃａｔｉｏｎａｎｄｖａｌｉｄａｔｉｏｎｏｆｆｌｅｘｉｂｌｅｉｎｔｅｎｓｉｖｅｉｎｓｕｌｉｎ－ｔｈｅｒａｐｙａｌｇｏｒｉｔｈｍｉｎｔｙｐｅ１ｄｉａｂｅｔｅｓｐａｔｉｅｎｔｓ”，ＤｉａｂｅｔｅｓＭｅｔａｂ．２００９年１２月，３５（６）：４６３－８、およびＳｕｄｈａｒｓａｎら（ＷｅｌｌＤｏｃ）（ＬＴＨＰ２４－ｈｏｕｒｓａｈｅａｄｌｉｔｅｒａｔｕｒｅｃｏｍｐａｒｉｓｏｎ）の“ＨｙｐｏｇｌｙｃｅｍｉａＰｒｅｄｉｃｔｉｏｎＵｓｉｎｇＭａｃｈｉｎｅＬｅａｒｎｉｎｇＭｏｄｅｌｓｆｏｒＰａｔｉｅｎｔｓｗｉｔｈＴｙｐｅ２Ｄｉａｂｅｔｅｓ”，ＪｏｕｒｎａｌｏｆＤｉａｂｅｔｅｓＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ２０１５，Ｖｏｌ．９（１）８６－９０が提案されている。

この問題に対処するため、ＵＳ２００８／０１５４５１３は、糖尿病の最適な制御の維持に関連する方法、システム、およびコンピュータプログラム製品を開示しており、血糖自己モニタリング（ＳＭＢＧ）装置によって集められた血糖読み取り値に基づいて、今後の期間にわたる低血糖症、高血糖症、グルコース変動の増加、および不十分または過剰な試験のパターンを予測することを対象としている。ユーザの高血糖症のパターンを識別および／または予測するための方法は、複数のＳＭＢＧデータポイントを取得する工程と、所定の持続期間を有する期間内のＳＭＢＧデータポイントを分類する工程と、各期間のグルコース値を評価する工程と、上記評価に基づいて後続の期間にわたって高血糖症のリスクを示す工程と、を含む。評価には、上記グルコース値に基づいて高血糖症に対する個別偏差を決定する工程と、個別偏差および絶対偏差に基づいて上記各期間の複合確率を決定する工程と、各期間の上記複合確率を予め設定された閾値と比較する工程と、が含まれ得る。期間は、２４時間の日を、所定の持続期間を有する時間ビンに分割することを含み得る。

上述の問題に対処し、低血糖のリスクをよりうまく軽減するために、本発明の目的は、将来の低血糖を予測して、現在の推奨用量を低下させる能力を改善する方法およびシステムを提供し、これにより、より正確な滴定レジメンを可能にし、かつそれによって、２型糖尿病の治療を可能にすることである。本発明の特定の目的は、分類子の取り込みおよび機械学習アルゴリズムに基づく改善された低血糖症予測を可能にする、データセット最適化のための方法を提供することである。かかる方法は、投与ガイダンスシステムで使用するために当局の承認を受けるのにより適したものにするために、透明で制約のあるアプローチを使用する必要がある。

ＵＳ２００８／０１５４５１３

「ＣａｎａＴｏｏｌｔｈａｔＡｕｔｏｍａｔｅｓＩｎｓｕｌｉｎＴｉｔｒａｔｉｏｎｂｅａＫｅｙｔｏＤｉａｂｅｔｅｓＭａｎａｇｅｍｅｎｔ？」「１０－ｙｅａｒｆｏｌｌｏｗ－ｕｐｏｆｉｎｔｅｎｓｉｖｅｇｌｕｃｏｓｅｃｏｎｔｒｏｌｉｎｔｙｐｅ２ｄｉａｂｅｔｅｓ」「Ｓｅｌｆ－ｔｉｔｒａｔｉｏｎｏｆｉｎｓｕｌｉｎｉｎｔｈｅｍａｎａｇｅｍｅｎｔｏｆｐｅｏｐｌｅｗｉｔｈｔｙｐｅ２ｄｉａｂｅｔｅｓ：ａｐｒａｃｔｉｃａｌｓｏｌｕｔｉｏｎｔｏｉｍｐｒｏｖｅｍａｎａｇｅｍｅｎｔｉｎｐｒｉｍａｒｙｃａｒｅ」「Ｓｅｌｆ－ｍａｎａｇｅｍｅｎｔｅｄｕｃａｔｉｏｎｆｏｒａｄｕｌｔｓｗｉｔｈｔｙｐｅ２ｄｉａｂｅｔｅｓ：ａｍｅｔａ－ａｎａｌｙｓｉｓｏｎｔｈｅｅｆｆｅｃｔｏｆｇｌｙｃｅｍｉｃｃｏｎｔｒｏｌ」「Ｅｆｆｅｃｔｓｏｆｓｅｌｆ－ｍａｎａｇｅｍｅｎｔｔｒａｉｎｉｎｇｉｎｔｙｐｅ２ｄｉａｂｅｔｅｓ：ａｒａｎｄｏｍｉｚｅｄ，ｐｒｏｓｐｅｃｔｉｖｅｔｒｉａｌ」「Ｐａｔｉｅｎｔｅｍｐｏｗｅｒｍｅｎｔ：ｒｅｓｕｌｔｓｏｆａｒａｎｄｏｍｉｚｅｄｃｏｎｔｒｏｌｌｅｄｔｒｉａｌ」「ＥｖａｌｕａｔｉｏｎｏｆａＮｅｗＭｅａｓｕｒｅｏｆＢｌｏｏｄＧｌｕｃｏｓｅＶａｒｉａｂｉｌｉｔｙｉｎＤｉａｂｅｔｅｓ」「Ｇｌｕ-ｃｏｓｅＣｏｎｃｅｎｔｒａｔｉｏｎｃａｎｂｅＰｒｅｄｉｃｔｅｄＡｈｅａｄｉｎＴｉｍｅＦｒｏｍＣｏｎｔｉｎｕｏｕｓＧｌｕｃｏｓｅＭｏｎｉｔｏｒｉｎｇＳｅｎｓｏｒＴｉｍｅ－Ｓｅｒｉｅｓ」「Ｒｅａｌ－ｌｉｆｅａｐｐｌｉｃａｔｉｏｎａｎｄｖａｌｉｄａｔｉｏｎｏｆｆｌｅｘｉｂｌｅｉｎｔｅｎｓｉｖｅｉｎｓｕｌｉｎ－ｔｈｅｒａｐｙａｌｇｏｒｉｔｈｍｓｉｎｔｙｐｅ１ｄｉａｂｅｔｅｓｐａｔｉｅｎｔｓ」「ＨｙｐｏｇｌｙｃｅｍｉａＰｒｅｄｉｃｔｉｏｎＵｓｉｎｇＭａｃｈｉｎｅＬｅａｒｎｉｎｇＭｏｄｅｌｓｆｏｒＰａｔｉｅｎｔｓｗｉｔｈＴｙｐｅ２Ｄｉａｂｅｔｅｓ」

課題を解決するための手段
本発明の開示では、上記の目的のうちの１つ以上に対処する、または下記の開示だけでなく例示的な実施形態の説明からも明らかな目的に対処する、実施形態および態様が説明される。

本発明の第１の態様は、分類子の取り込みに基づく改善された低血糖症予測のためのデータセット最適化のための方法であって、方法が、対象者に関する未加工のデータセットを提供する工程であって、データセットが、所与のサンプリングレートで取得された複数のＢＧ値、およびそれらの値に関連付けられた、複数日Ｎにわたるタイムスタンプ、を含む、提供する工程と、評価ブロック値（ｅＨＨ）を入力Ｘとしてローリングスキームの時間的ビニングによってデータ変換を実施して、対応する予測値（ｐＨＨ）を出力Ｙとして作成する工程と、を含み、Ｘが、所与の過去の期間Ｔ－ｐに対する、ＢＧ値を含むスライディングウィンドウとして作成され、Ｙが、所与の将来の時間Ｔ－ｆにおけるＢＧ値が低血糖症状態を示す所与の閾値を下回るか否かを示すインジケータＩとして作成される、方法が提供される。

概して、予測モデルは、訓練されるデータによって決まる。上記の方法によって、同じ量のデータを、ランダムフォレスト（ＲＦ）分類子などの機械学習アルゴリズムにフィットし、それに応じて適合する、より効率的かつより良い方法で利用することができる。

対照的に、ＵＳ２００８／０１５４５１３に開示されるような、低血糖症のパターンを予測することを対象とした以前の試みは、ＢＧデータの単純な時間的ビニング、およびそれに続く組織化されたデータの従来の数学的分析に依存してきた。

データ変換は、少なくとも２つの異なる過去の期間Ｔ－ｐにわたって実施され得る。Ｔ－ｆは、Ｔ－ｐに対応し得、例えば、１５分の予測値は、１５分のＢＧ値に基づく。

例示的な実施形態では、データ変換の工程は、Ｍ日間の評価ブロックへの日ごとのＢＧ値のローリングスキームの時間的ビニングによってデータ拡張を実施する工程の後に行われ、Ｍは、２以上であり、かつ複数日Ｎ未満である。

かかるデータ拡張は、取得される未加工のデータセットが、Ｍ日間のインスリン滴定レジメン、例えば、変更前の同じインスリン用量を用いた３日間に基づく場合、かかるレジメンは通常、所与の基礎インスリンの使用説明書に示されるように、基礎インスリンの滴定のために使用される。ボーラスインスリンに基づくデータセットの場合、Ｍ＝１が妥当であろう。実際、Ｍ＝１の場合、実際の拡張は行われない。

例示的な実施形態では、未加工のデータセットを提供する工程は、公称サンプリングレートに対応するリサンプリング、および欠落ＢＧ値を置き換えるための補間されたＢＧ値の作成を用いてデータプレパレーションを実施する工程の前に行われる。

本発明のさらなる態様では、分類子を訓練するための方法が提供され、分類子に最適化されたデータセットを取り込み、取り込まれたデータセットに基づいて分類子を訓練する、上述のように最適化されたデータセットを提供する工程を含む。分類子は、ランダムフォレスト分類子であってもよい。

本発明のさらなる態様では、将来のＢＧ値を予測するための方法であって、対象者からＢＧ値の一連の評価を取得する工程と、上述のように訓練された分類子にＢＧ値の一連の評価を取り込む工程と、予測ＢＧ値を提供する工程と、を含む、方法が提供される。分類子を訓練したデータセットは、ＢＧ値の一連の評価と同じ対象者から取得されている場合がある。ＢＧ値の一連の評価は、継続的な血糖モニタリング（ＣＧＭ）、例えば、５分ごとにＢＧ値を生成することによって取得され得る。

本発明のなおもさらなる態様では、対象者からのデータセットの時間的最適化を実施するためのコンピュータ処理システムであって、コンピュータシステムが、１つ以上のプロセッサと、メモリと、を備え、メモリが、命令を含み、命令が、１つ以上のプロセッサによって実行されると、本発明の異なる態様に従って上で定義される方法を実施する、コンピュータ処理システムが提供される。

特定の例示的な実施形態では、同じ量のデータを使用するが、より拡張された、よりスマートなフィットする方法でのデータの時間的最適化および拡張が、以下の工程を実行することによって提供される。
（１）欠落データの取り扱い：スプライン補間ソリューションを用いた５分間のリサンプリング：データサイズが、ソフトウェアコードの一部を用いたデータプレパレーションのデータ品質処理要件を達成する欠落データに応じて増加する。
（２）ローリングスキームの時間的ビニングによる評価限界履歴（ｅＨＨ）：３日間の調査ブロックの臨床的に導出された間隔または３日前の評価限界履歴（ｅＨＨ）内にネストされた一連のＣＧＭ測定値をビニングするために、標準的な逐次スキームとは対照的に、時間的に最適化された日ごとのローリングスキームを用いた３日間のブロックビニング。
（３）ローリングスキームの時間的ビニングによる低血糖症の予測限界履歴（ｐＨＨ）：今後のある将来の時間間隔、対応する以前の遡及的な時間間隔に基づく１５分、３０分、および６０分先の予測限界（ＰＨ）、または１５分、３０分、および６０分前の予測限界履歴（ｐＨＨ）でそれぞれ低血糖症の予測を繰り返し行う、ソフトウェアプログラム。各工程で、５分ごとに、逐次スキームとは反対にローリングスキームでも、ｐＨＨ＝ＰＨ予測が行われる。

これら３つの工程を全て合わせると、元の未処理のＢＧデータセットのサイズおよび深度が増加する。したがって、３つの工程の技法で変換された処理済みのデータセットは、ＭＬ分類子フォーマットに直接かつ迅速に、有意に大きなサイズだけではなく、深度および操作上の取り込み可能性も達成する。未処理または未加工のデータセットは、同じ効率で容易にまたは直ちにＭＬ分類子フォーマットに取り込むまたは供給することができない。

合わせると、評価限界履歴および予測限界履歴の間隔のローリングスキームの時間的ビニングによる欠落データのスプライン補間は、高い感度（低血糖症事象の正確な予測）および高い特異性（非低血糖症事象の正確な予測）での低血糖症のより正確な予測を施すために、ＣＧＭ分解能データの最適化をもたらす。

以下では、本発明の実施形態を、図面を参照しながら説明する。
本開示の一実施形態による例示的なデータプレパレーションモジュール示す。本開示の一実施形態による例示的なデータ変換モジュール示す。本開示の一実施形態による例示的なポインタルックアップテーブル示す。本開示の一実施形態による例示的な時間的ビニングの最適化示す。本開示の一実施形態による、異なるｐＨＨ値についての例示的な低血糖症判定モジュール示す。本開示の一実施形態による、異なるｐＨＨ値についての例示的な低血糖症判定モジュール示す。本開示の一実施形態による、異なるｐＨＨ値についての例示的な低血糖症判定モジュール示す。本開示の一実施形態による、後続のＭＬ処理のための例示的な訓練結果の保存示す。本開示の一実施形態による例示的なランダムフォレスト（ＲＦ）分類子の実装を示す。本開示の一実施形態による例示的なランダムフォレスト（ＲＦ）分類子の実装を示す。本開示の一実施形態によるＲＦ分類子の結果を示す。本開示の一実施形態によるＲＦ分類子の結果を示す。文献の結果と比較したＲＦ分類子の結果を示す。文献の結果と比較したＲＦ分類子の結果を示す。本開示の一実施形態による実施例を集合的に示す。本開示の一実施形態による実施例を集合的に示す。本開示の一実施形態による実施例を集合的に示す。本開示の一実施形態による実施例を集合的に示す。本開示の一実施形態による実施例を集合的に示す。本開示の一実施形態による実施例を集合的に示す。本開示の一実施形態による実施例を集合的に示す。本開示の一実施形態による実施例を集合的に示す。本開示の一実施形態による実施例を集合的に示す。本開示の一実施形態による実施例を集合的に示す。本開示の一実施形態による実施例を集合的に示す。本開示の一実施形態による実施例を集合的に示す。本開示の一実施形態による実施例を集合的に示す。

図において、同様の構造物は、主として同様の参照番号によって特定される。

本開示は、少なくとも１人の対象者に関連する情報を含む訓練および試験データのセットの獲得に依存する。データセット（複数可）は、血糖履歴を確立するために、時間的経過にわたって得られた対象者の複数の血糖測定値と、複数の血糖測定値における各それぞれのグルコース測定について、時間的経過中のどの時点でそれぞれのグルコース測定が行われたかを表す対応する血糖タイムスタンプと、１つ以上の基礎インスリン注射履歴と、を少なくとも含み、注射履歴は、時間的経過のすべてまたは一部分の間の複数の注射と、複数の注射における各それぞれの注射について、対応する投与事象の量および時間的経過中のどの時点でそれぞれの注射事象が発生したかを表す投与事象のタイムスタンプと、を少なくとも含む。

ＳＴＨＰ分類子：ＳＴＨＰ分類子のデータプレパレーションおよびデータ変換
短期間における低血糖症または低血糖レベルの有害事象の予測もしくは検出を決定するために、１５分～最大６０分先、次いで、現在、実験上、および将来の機械学習の方法論の予測限界（ＰＨ）は、１日あたり１もしくは２ポイントでの血糖の自己モニタリング（ＳＭＢＧ）から、１５分間隔のフラッシュグルコースモニタ（ＦＧＭ）または５分間隔の連続グルコースモニタ（ＣＧＭ）まで、異なる時間的分解能を完全に取り込み、採用し、そして活用するために、最適化および適合を必要とする。

概して、予測モデルは、訓練されるデータによって決まる。したがって、データ品質を改善するか、または同じ量のデータをより効率的に利用することが最も重量であり価値がある。この現在のソリューションでは、ＣＧＭのより高い時間的分解能でより多くのデータを活用するだけでなく、このデータを、ランダムフォレスト（ＲＦ）分類子などの機械学習アルゴリズムにフィットし、それに応じて適合する、よりスマートでより良い方法で利用することも目指す。例えば、午後１２時～午後３時の間隔の空間で、Ｄｅｘｃｏｍによる毎時レポートを伴うＳＭＢＧの低分解能では、３つの間隔のみを取得することが可能である。ＣＧＭ高分解能および完全なデータ最適化により、２５個の間隔を取得し、ランダムフォレスト（ＲＦ）分類子などのＭＬモデルに供給することができる。

ランダムフォレスト分類子アルゴリズムに対するＣＧＭデータの現在の構成または利用は、以下のとおりである。例えば、次の６０分間（ＰＨ＝６０分先）の低血糖症を予測するには、過去６０分間を入力の予測限界履歴（ｐＨＨ）として利用するが、それでも評価限界履歴（ｅＨＨ）の過去３日間のブロック内に制限される。ＣＧＭデータがなく、ＳＭＢＧデータのみの場合、時間的シフトは１時間ごとに発生する。

例えば、ＳＭＢＧデータでは、例えば、午後１２時～午後３時までの３時間の空間では、３つの時間的データの間隔、１）午後１２時～午後１時までの第１の間隔、２）午後１時～午後２時までの第２の間隔、および３）午後２時～午後３時までの第３の間隔のみが存在する。

これは、ＳＭＢＧまたは他の装置などの他の測定スキームの制約内では意味をなすが、ＣＧＭでは意味がない。このより低い分解能のスキームでは、ＣＧＭからのより高い分解能のデータを最適化し、完全に利用することができない。

ＣＧＭの時間的最適化は、ＣＧＭによって制約されているように、３時間の同じ空間内に、各５分間隔で、２５個の時間的データの間隔を適合させる。

午後１２時～午後３時：ＳＭＢＧ低分解能（Ｄｅｘｃｏｍは毎時レポート）：３つの間隔、ＣＧＭ高分解能（完全最適化）：２５個の間隔。

要約すると、上記は予測限界履歴（ｐＨＨ）の時間的ビニングの最適化である。したがって、この時間的データ最適化および適合により、機械学習ランダムフォレスト分類子のために３つのデータ間隔だけを準備する代わりに、２５個のデータの時間的間隔を準備し、機械学習ランダムフォレスト分類子のために用意し、これにより、データ利用可能性を増加させ、使用ケースを訓練する。

当然のことながら、このＣＧＭデータの完全な利用は、単に次の論理工程として見なすことができ、真の改善は、機械学習アルゴリズムに対するＣＧＭデータのより高い分解能の適用にあり、そのうちのいくつか、例えば、時系列ＡＲＩＭＡモデルは、ｓｔａｔｓｍｏｄｅｌｓパッケージからのｓｅａｓｏｎａｌ＿ｄｅｃｏｍｐｏｓｅなどの他の関数によって捕捉される、日ごとに発生する強い季節成分がデータに明らかに存在する場合でも、日ごとの変動を捕捉するためのその多くの（１日あたり２８８ポイント）の季節パラメータではうまくいかない。

これらのＣＧＭデータ最適化および適合の方法ならびに関数がなければ、ランダムフォレスト分類子などの機械学習アルゴリズムは、十分に訓練されず、フィットもせず、予測を作成しようとしているデータを表すことができない。

中間の５分の間隔を利用するための医学的および科学的根拠は、時間的線形性、順序、および最小データ品質の仮定が維持されている限り、各１５分、３０分、または６０分の間隔は、将来に向けてのみ見積もられ、５分刻みで次々と線形状に続き、新しいウィンドウ内で捕捉され得る新しいデータトレンドを除き、午後１２時～午後１時のウィンドウと午後１２：０５分～午後１：０５分のウィンドウのどちらを適用しても違いはない。

例えば、５分ごとの間隔での単一ポイントのＣＧＭ分解能の代わりに、１時間ごとの単一ポイントのＳＭＢＧ分解能内では、仮に、午後１２時～午後１時が欠落している場合、そのデータを、リスクの高い外挿による場合を除き、書き込む方法はない。ＣＧＭ分解能では、午後１２時～午後１時までの間隔が欠落しているが、午後１２：０５分～午後１：０５分までが利用可能な場合、そのＣＧＭの５分間隔シフトされた午後１２：０５分～午後１：０５分までの１時間の持続時間が、受諾されたデータになる。

ＳＭＢＧ分解能では、午後１時～午後２時までの間隔が欠落している場合、午後１２時～午後１時までの間隔と、午後２時～午後３時までの間隔との間で補間することが可能であり、ある程度のリスクは生じるが、外挿ほどではない。ＳＭＢＧ分解能では、午後２時～午後３時までの間隔が欠落している場合、それは午後１２時～午後１時までの間隔が欠落している場合と同様の状況であり、その欠落データを書き込むために外挿が必要になる。基本的に、間隔のエッジケースは外挿を必要とするが、欠落データのケース間または間隔は補間を必要とする。どちらもリスクはあるが、補間は外挿よりもリスクが少ない。

ＣＧＭデータ最適化工程は、より高い分解能を利用し、かつもちろん医学的制約の範囲内で、代わりに他の５分シフトされた１時間の間隔に頼ることができることによって、この補間および外挿の必要性を取り除く。例えば、２０分を超えて欠落している場合、午後１２時～午後１時までの間隔を、仮に、午後１２：２５分～午後１：２５分までの間隔（午後１２時～午後１２：２５分までの間のすべての間隔が欠落、基本的に５つの間隔が欠落した状態）に置き換えることは得策ではない。そうでなければ、医学的、科学的、生理学的な視点から、２０分または４５分の間隔内で、相互に置換、平均化、または補間することができ、これにより、データが欠落している、不完全である、または破損している場合でも、データの品質および線形性のある程度の閾値が満たされている限り、ランダムフォレスト分類子などの機械学習アルゴリズムに確実にフィットまたは適合し得る適合関数の記述が可能になり、これは、ＭＢＧならびに他の方法論および装置のより低い時間的データ分解能を持つ非常に厳格で要求の厳しい閾値に対して、ＣＧＭはより高い時間的データ分解能を持つはるかに緩い閾値である。

これについて考える別の方法は、データ品質に関して、以下のとおりである。可能な限りすべてを使用するＣＧＭ最適化では（ただし、線形に制約される）、データの欠落または破損の余地があり、ランダムフォレスト分類子などの機械学習アルゴリズムには、予測を生成するのに十分なデータがまだある。ＳＭＢＧが３つの間隔のみである場合、１つの間隔が欠落していたとしても、ランダムフォレスト分類子の機械学習アルゴリズムは中断し、次の時間の予測を与えることはできない。

以下において、ＪｕｐｙｔｅｒＮｏｔｅｂｏｏｋコードにおけるデータプレパレーションモジュールの例示的な実施形態を説明する。図１を参照されたい。

データプレパレーションモジュールは、「ｃｏｎｖｅｒｔＴｏＴＳ」および「ｒｅｍｏｖｅＮａＮｄａｙｓ」関数を採用する。「ｒｅｍｏｖｅＮａＮｄａｙｓ」関数自体は、データ変換モジュールの工程で網羅される、別の関数の出力ルックアップテーブル「ｐｏｉｎｔｅｒＴａｂｌｅ」を採用する。最後に、「ｉｎｔｅｒｐｏｌａｔｅＬｉｓｔ」関数が採用される。図１を参照されたい。

より具体的には、以下が行われる。
１．対象者のＣＧＭデータが読み込まれる。対象者のＣＧＭデータは、表形式のデータフレームのオブジェクトタイプである。
２．（利用可能なラベルがある場合）対象者のＣＧＭデータは、任意の「ＳＭＰＧ」または他のデータラベルを除去し、「ＣＧＭ」データラベルのみを残す。
３．「ｃｏｎｖｅｒｔＴｏＴＳ」関数を採用すると、対象者のＣＧＭデータ（通常は表形式）が、さらなるデータプレパレーションのために時系列オブジェクトに変換される。
４．Ｐａｎｄａｓ時系列のネイティブリサンプリング関数を、少なくとも一部のＣＧＭデータを有する日のみを含む、対象者のＣＧＭ時系列のオブジェクトデータの平均値を用いて採用することは、「５－Ｔ」または５分のビンにリサンプリングすることでさらに準備される。欠落データがない場合、この工程は同じデータセットをもたらすが、データ解析のためにきちんと積み重ねられる。例えば、８５ｍｇ／ｄＬでの午後１２：０１：４３秒の時点は、同じ８５ｍｇ／ｄＬで午後１２：００分になる。また、９２ｍｇ／ｄＬでの午後１２：０６：２１秒は、同じ９２ｍｇ／ｄＬで午後１２：０５分になる。欠落データがある場合、このリサンプリング工程は、最初に、元の未加工のデータセットを、処理済みのより大きなデータセットへと実質的に増加させ、後続の工程で実際の値に変換する必要がある新しい欠落データまたはＮａＮを生成する。ただし、最初に、任意の完全なＮａＮ日を除去する必要がある。臨床研究では、完全なＮａＮ日は、基本的にベースラインと経過観察日との間の期間である。ベースラインおよび経過観察の両方のタイムスタンプが１つのデータオブジェクト内にあるため、リサンプリング工程は残念なことに、プログラムで除去する必要のある、不必要な欠落したＮａＮ日の非観察期間を追加する。これは次の工程で達成される。
５．「ｒｅｍｏｖｅＮａＮｄａｙｓ」関数を採用する。
入力：対象者のＣＧＭ［ＴｉｍｅＳｅｒｉｅｓ］オブジェクトデータタイプ
処理：完全に欠落したＮａＮ日間をスキャンして除去する
根拠：日と日との間の日全体を補間することもリスクである。リスクがはるかに低いのは、同日中にＣＧＭ値を補間することであり、これは、データプレパレーションの次の工程および最後の工程となる。
出力：対象者のＣＧＭ［Ｌｉｓｔ］オブジェクトデータタイプ。［ＴｉｍｅＳｅｒｉｅｓ］オブジェクトデータタイプがなくなった！
この関数は、データ変換モジュールの工程で説明する「ｐｏｉｎｔｅｒＴａｂｌｅ」関数を採用する。
６．「ｉｎｔｅｒｐｏｌａｔｅＬｉｓｔ」関数を採用して、この消去された処理済みＣＧＭ値のリストは、最終的に、少なくとも一部のＣＧＭが利用可能な状態の日の範囲内の任意のＮａＮまたは欠落データを書き込む高度なスプライン補間で補間される。

次に、データ変換モジュールは、１日２８８ポイントのＣＧＭのルックアップテーブルの「ｐｏｉｎｔｅｒＴａｂｌｅ」関数の出力を採用する。図２を参照されたい。

より具体的には、以下が行われる。
１「ｐｏｉｎｔｅｒＴａｂｌｅ」関数は、２８８ポイントのＣＧＭをＩＤとして相互参照したルックアップテーブルを一度作成するだけである。
２．「ｐｏｉｎｔｅｒＴａｂｌｅ」関数を採用すると、ＣＧＭのリストは、相互参照された２８８個のＩＤを割り当てて、特定の値がその日のどの時点またはタイムスタンプにあるかを調整する。

ＣＧＭポインタテーブルルックアップサブモジュール
医学的および科学的な観点から、ＣＧＭデータポイントが、空腹時血漿グルコース（ＦＰＧ）の決定および確証のために、朝の午前または夕方の午後、とりわけ、夜間の夜の時間帯と朝の時間帯に関連付けられているかどうかを知ることが重要である。典型的なＣＧＭ日の２８８個のＩＤを相互参照することにより、ＣＧＭ値のリストオブジェクトを有するだけで、時系列オブジェクトなしで、かかる情報を依然として取得するために、単一の日のためのポインタルックアップテーブルを考案した。

典型的なＣＧＭ日のポインタテーブルの２８８個のＩＤを利用することにより、タイムスタンプ成分をストリッピングして、ＣＧＭ値のリストのみを残すことができる。次に、このＣＧＭ値のリストをＭＬ分類子フォーマットアルゴリズムに供給し、取り込むことができる。残念ながら、時系列オブジェクト自体を、ＭＬ分類子フォーマットアルゴリズムに供給することはできない。したがって、ＣＧＭの２８８ポイントのＩＤテーブルとの相互参照が必要である。

１日の内の時点または時間の情報（例えば、その日の２８８個のＣＧＭポイントのうちｉｄ＝１０が、午前０：５０分または午前１２：５０分の時点に対応する）を保持するために、毎日５分の２８８ポイントのＣＧＭ工程のポインタルックアップテーブルを作成する。図３を参照されたい。

頂部（左の図）については、ポインタテーブルｉｄ＝９は、午前１２：４５分の実際の時点に対応し、底部（右の図）については、ポインタテーブルｉｄ＝２８７は、午後２３：５５分または午後１１：５５分に対応する。

したがって、かかるポインタルックアップテーブルでは、ＣＧＭ値のリスト（数日、例えば、１４～１６日を含み得る）を反復処理し、利用可能な時点のデータなしに、１日の内のどの時間をＣＧＭ値が指しているかを理解することが可能になる。したがって、ポインタインデックス０が午前１２：００分で新しい日に対応するため、ＣＧＭ値の長いリストを、日ごとの塊に分けることが可能になる。

ポインタＩＤ＝０が新しい日または翌日を示すため、ＣＧＭ値の合計リストは、その日の前のスタンドアロンリストへの入力を停止し、翌日のＣＧＭ値の新しいスタンドアロンリストを始めることができる。さらに、本アルゴリズムは、２８８ポイントすべてを含む丸１日しか追加しない。２８８ポイント未満の日は、丸１日としては追加されない。例えば、ユーザまたは患者のほとんどの臨床的または現実的な治験では、通常、最初と最後の日または数日が、２８８ポイント未満を有する。かかるデータのコーナーエッジキャップについて、欠落データを外挿、補間、または書き込むことは難しいため、かかるデータを利用しないことが最良である。最後に、本アルゴリズムは、終了ケースも処理する。そうしないと、試験で確認されるように、最終日が適切に追加されない。結果として、ここで、ＣＧＭ値の合計リストが日ごとの塊またはブロックにビニングされる。

そのため、ｐｏｉｎｔｅｒＴａｂｌｅは、ＳＴＨＰ分類子コードベースの２つ場所でのみ呼び出される。
１．完全に欠落している日または後続の除去のためのＮａＮ日を識別および指定するために、「ｒｅｍｏｖｅＮａＮｄａｙｓ」機能を採用した。
２．主に、単一の日のブロックから３日間のブロックの評価限界履歴（ｅＨＨ）を作成することをタスクとする、データ変換モジュールの工程処理（ループの場合のステートメント）を採用した。
入力：ＣＧＭ値のクリーンなリスト
処理：「ｐｏｉｎｔｅｒＴａｂｌｅ」関数のｐｏｉｎｔｅｒＴａｂｌｅ出力との相互参照
出力：最初にＣＧＭ値の日ごとリストにビニングする（１日あたり２８８ポイントまたは日ごとの塊）

以下では、ローリングスキームの時間的ビニングによるＣＧＭのより高い時間的分解能の最適化を提供する、データ最適化モジュールを説明する。機械学習ランダムフォレスト分類子に取り込むための適合

評価限界履歴（ｅＨＨ）－時間的ビニングの最適化。図４を参照されたい。
入力：ＣＧＭ値の日ごとリスト。ただし、３日間の塊またはブロックにはまだビニングされていない。
処理：ローリングスキームの時間的ビニングの第１の工程の利用
出力：次いで、これらの日ごとの塊を、３日間の塊またはブロックにビニングすることができる。
根拠：医学的および科学的な考慮事項と患者の生理学的調節期間のガイドライン、ならびにランダムフォレスト分類子に供給するためのモデル訓練期間の管理可能な入力の考慮事項に基づいて、日ごとおよび３日間の塊にビニングする。
１．ループのメインは、日ごとの履歴の塊を３日間の限界履歴（ＨＨ）の塊に変換することを扱う。
２．「ｆｕｎｃｔｏｏｌｓ」パッケージから「ｒｅｄｕｃｅ」関数を採用すると、結果として得られるリストのリストは、単に単一の実行中のリストに変換されるか、または低減されるか、またはフラット化されるが、この時間の各リストは、単一の日ではなく、臨床的に必要な３日間の観察または評価を表す。

これまでのところ、ＣＧＭデータには、５分のリサンプリング関数で増大する実質的な機会が１つしかなかった。補間関数の行いのすべては、５分のリサンプリング工程が既に増大または拡張されている欠落ＮａＮを書き込むことであった。そのため、補間関数はデータを増大または拡張させることができない。同様に、日ごとの塊へのビニングは、単に対象者のＣＧＭデータで利用可能な日数を示すようにセットアップされる。この工程では、全体的なデータ拡張は行われない。繰り返しになるが、データセットを増大させる第１の実質的な機会は、５Ｔまたは５分のリサンプリング工程であった。

しかしながら、３日間のブロックにビニングするこの工程では、ＣＧＭデータを増大および拡張させるための第２の実質的な機会がある。

１２日間の利用可能な合計ブロックへの典型的な３日間のブロックのビニング：４つの間隔を達成した。

上記の典型的なスキームは、ＳＭＢＧまたは他の装置のデータのために意味があり、３日間の各研究ブロック間で大幅な再キャリブレーションおよび計算を行う必要がある。しかし、これは、同日内にキャリブレーション（１－２）のみが必要であり、毎日計算を実行することができる、ＣＧＭデータにとって、ほとんど意味をなさない。したがって、２日目～４日目までなど、３日間のブロックを欠落させる意味はない。医学的、科学的、およびデータサイエンスの仮定は、ＣＧＭのより高い時間的分解能データを用いたこのローリングスキームの完全なデータ最適化の場合にも当てはまる。これらの仮定は、ＳＭＢＧおよび他の装置のデータについては当てはまらず、したがって、典型的なスキームが使用される。しかし、この典型的なスキームは、ＣＧＭの実装、特にＭＬ分類子の取り込みに準最適である。もちろん、ローリングスキームの問題は、ランダムフォレスト（ＲＦ）からサポートベクトルマシン（ＳＶＭ）、そしてｋ近傍法（ＫＮＮ）まで、ＭＬの方法によって迅速に採用可能であるように、さらに解され、詳細に適合される。

それに応じて、３日間のブロックをビニングするための以下の最適化されたより多くのデータ収集方法が提供される。

１２日間の利用可能な合計ブロックへの最適化された３日間のブロックのビニング：

この最適化されたスキームで１０個の間隔が達成された。基本的には、合計ｎ－３個を含む。
低血糖症の予測限界履歴（ｐＨＨ）の時間的ビニングの最適化：
入力：評価限界履歴（ｅＨＨ）の３日間の塊またはブロック。
根拠：このセットアップは、次の３日間の臨床評価期間への時間的な落とし穴および出血のエラーを回避する。ＭＬ解析のためにきちんとパッケージ化される。
処理：ローリングスキームの時間的ビニングの第２の工程の利用
出力：予測限界履歴（ｐＨＨ）は、３日間の塊またはブロックの評価ＨＨ（ｅＨＨ）内にネストされる。これは、機械学習（ＭＬ）のために輪郭を描き、かつ患者の生理学的な調節もしくは整列にも準拠し得る、境界や境界線をセットアップするために不可欠である。この第２の革新的な工程では、これは、入力データを増大させるための第３の実質的な機会である。したがって、元の未加工の入力データは、３つの実質的な工程で、ＭＬ分類子フォーマット取り込み、モデル作成、訓練、および試験のために準備が整った、処理および浄化された入力データに増大または拡張されている。

ｐＨＨ＝ＰＨ＝６０分の場合、図５を参照されたい。

ＭＬ分類子の入力のこれらの予測限界履歴（ｐＨＨ）を、評価限界履歴（ｅＨＨ）の作成によるデータプレパレーション、変換、およびデータ適合とは別個にモジュール化して作るこの最後のデータ最適化の工程では、この低血糖症の決定のみが、ｐＨＨ＝ＰＨ＝１５～ｐＨＨ＝ＰＨ＝３０分まで、ｐＨＨ＝ＰＨ＝６０分まで、異なる実装間で変化する。

ｐＨＨ＝ＰＨ＝３０分については、図６を参照、ｐＨＨ＝ＰＨ＝１５分については、図７を参照されたい。

ここまでで、例示的な実施形態は、未加工で未処理のＣＧＭデータを、三度拡張され、時間的に最適化された、浄化され、処理され、ＭＬに取り込み可能なデータに変換する背後にあるコンピュータ処理による計算を網羅しており、ひいては、ランダムフォレスト（ＲＦ）分類子モデルに供給され得る。

訓練－試験Ｘ－ｙセット（図８を参照されたい）の生成および保存に焦点を当てた最終データセクションでは、独立変数（Ｘ）および従属変数（ｙ）の両方が、訓練－試験分割データセットの部分と共に保存される。次いで、この特定のｐＨＨ＝ＰＨ＝６０分についてのこれらの最終データセッが試験コードセクションで検証される。以下を参照されたい。

これらの最終データセットが保存された後、実際のＳＴＨＰＲＦ分類子モデルを実行して、その最終データ入力を用いて作ることができる。

単純な数値の例
以下において、単純な数値の例を使用して、上述のデータ処理工程を説明する。値は、この目的のためにランダムに発生したものであり、実データに基づくものではない。［ＫＥＹ］分子：＃日：＃ｍｇ／ｄＬでの１日あたり１２個のＣＧＭ値。この簡略化された説明に役立つ例の１２個のＣＧＭポイント内では、１５分および３０分先のｐＨＨのみが可能である。以下では、計算を主に１５分のｐＨＨについて行う。
０：１日目：［１５８、３３５、１４６、３７１、１０４、１７０、１０９、２９０、１２７、１５１、２３１、３７６］
１：２日目：［３４２、２０１、１７４、１００、２５３、３６、１３４、２７０、２２５、１１７、２０２、３５６］
２：３日目：［２４０、１７２、３２０、１７４、５７、２１５、２２５、１６３、２４６、２３５、１５９、３６］
３：４日目：［２４８、３４２、５２、３８８、３０９、２１９、２４３、２７５、１６６、１０７、１９１、２８８］
４：５日目：［２７９、７４、１４６、２７６、２８４、３３４、２０１、１８５、１８７、１５１、２４２、１１４］
５：６日目：［２１５、２８９、３３８、２８２、３３１、２８２、２１、１５２、２７０、８３、５７、１１４］

ｐＨＨ＝ＰＨ＝１５スライディングウィンドウ６つ。
入力：ブロック１のｅＨＨ：
０：１日目：［１５８、３３５、１４６、３７１、１０４、１７０、１０９、２９０、１２７、１５１、２３１、３７６］
Ｓｌｉｄｉｎｇ＿Ｗｉｎｄｏｗ１＝［１５８、３３５、１４６、３７１、１０４、１７０］
Ｘ１＝［１５８、３３５、１４６］～前の過去１５分の過去３つのＣＧＭポイントに対応
Ｙ１＝０～１７０＞７０＝０、１７０ｍｇ／ｄＬ＞７０ｍｇ／ｄＬの低血糖閾値であるため、低血糖なしに対応
したがって、Ｘ１がＸ（または入力、過去のＣＧＭのＢＧ値）に追加または付加されることになり、Ｙ１がＹ（出力、低血糖／低血糖なしのバイナリ分類子、オン／オフ）に追加または付加されることになる。
Ｓｌｉｄｉｎｇ＿Ｗｉｎｄｏｗ２＝［３３５、１４６、３７１、１０４、１７０、１０９］
Ｘ２＝［３３５、１４６、３７１］～前の過去１５分の過去３つのＣＧＭポイントに対応
Ｙ２＝０～１０９＞７０＝０、１０９ｍｇ／ｄＬ＞７０ｍｇ／ｄＬの低血糖閾値であるため、低血糖なしに対応
ここまでのＸおよびＹは以下のとおり。
Ｘ＝［［１５８、３３５、１４６］、～Ｘ［０］
［３３５、１４６、３７１］］～Ｘ［１］
Ｙ＝［０、０］～Ｙｓ［０］、Ｙｓ［１］
Ｓｌｉｄｉｎｇ＿Ｗｉｎｄｏｗ３＝［１４６、３７１、１０４、１７０、１０９、２９０］
Ｘ３＝［１４６、３７１、１０４］～前の過去１５分の過去３つのＣＧＭポイントに対応
Ｙ３＝０～２９０＞７０＝０、２９０ｍｇ／ｄＬ＞７０ｍｇ／ｄＬの低血糖閾値であるため、低血糖なしに対応
ここまでのＸおよびＹは以下のとおり。
Ｘ＝［［１５８、３３５、１４６］、～Ｘ［０］
［３３５、１４６、３７１］、～Ｘ［１］
［１４６、３７１、１０４］］～Ｘ［２］
Ｙ＝［０、０、０］～Ｙ［０］、Ｙ［１］、Ｙ［２］
Ｓｌｉｄｉｎｇ＿Ｗｉｎｄｏｗ４＝［３７１、１０４、１７０、１０９、２９０、１２７］
Ｘ４＝［３７１、１０４、１７０］～前の過去１５分の過去３つのＣＧＭポイントに対応
Ｙ４＝０～１２７＞７０＝０、１２７ｍｇ／ｄＬ＞７０ｍｇ／ｄＬの低血糖閾値であるため、低血糖なしに対応
ここまでのＸおよびＹは以下のとおり。
Ｘ＝［［１５８、３３５、１４６］、～Ｘ［０］
［３３５、１４６、３７１］、～Ｘ［１］
［１４６、３７１、１０４］、～Ｘ［２］
［３７１、１０４、１７０］］～Ｘ［３］
Ｙ＝［０、０、０、０］～Ｙｓ［０］、Ｙ［１］、Ｙ［２］、Ｙ［３］
Ｓｌｉｄｉｎｇ＿Ｗｉｎｄｏｗ５＝［１０４、１７０、１０９、２９０、１２７、１５１］
Ｘ５＝［１０４、１７０、１０９］～前の過去１５分の過去３つのＣＧＭポイントに対応
Ｙ５＝０～１５１＞７０＝０、１５１ｍｇ／ｄＬ＞７０ｍｇ／ｄＬの低血糖閾値であるため、低血糖なしに対応
ここまでのＸおよびＹは以下のとおり。
Ｘ＝［［１５８、３３５、１４６］、～Ｘ［０］
［３３５、１４６、３７１］、～Ｘ［１］
［１４６、３７１、１０４］、～Ｘ［２］
［３７１、１０４、１７０］、～Ｘ［３］
［１０４、１７０、１０９］］～Ｘ［４］
Ｙ＝［０、０、０、０、０］～Ｙ［０］、Ｙ［１］、Ｙ［２］、Ｙ［３］、Ｙ［４］
Ｓｌｉｄｉｎｇ＿Ｗｉｎｄｏｗ６＝［１７０、１０９、２９０、１２７、１５１、２３１］
Ｘ６＝［１７０、１０９、２９０］～前の過去１５分の過去３つのＣＧＭポイントに対応
Ｙ６＝０～２３１＞７０＝０、２３１ｍｇ／ｄＬ＞７０ｍｇ／ｄＬの低血糖閾値であるため、低血糖なしに対応
ここまでのＸおよびＹは以下のとおり。
Ｘ＝［［１５８、３３５、１４６］、～Ｘ［０］
［３３５、１４６、３７１］、～Ｘ［１］
［１４６、３７１、１０４］、～Ｘ［２］
［３７１、１０４、１７０］、～Ｘ［３］
［１０４、１７０、１０９］、～Ｘ［４］
［１７０、１０９、２９０］］～Ｘ［５］
Ｙ＝［０、０、０、０、０、０］～Ｙ［０］、Ｙ［１］、Ｙ［２］、Ｙ［３］、Ｙ［４］、Ｙ［５］
Ｓｌｉｄｉｎｇ＿Ｗｉｎｄｏｗ７＝［１０９、２９０、１２７、１５１、２３１、３７６］
Ｘ７＝［１０９、２９０、１２７］～前の過去１５分の過去３つのＣＧＭポイントに対応
Ｙ７＝０～３７６＞７０＝０、３７６ｍｇ／ｄＬ＞７０ｍｇ／ｄＬの低血糖閾値であるため、低血糖なしに対応
ここまでのＸおよびＹは以下のとおり。
Ｘ＝［［１５８、３３５、１４６］、～Ｘ［０］
［３３５、１４６、３７１］、～Ｘ［１］
［１４６、３７１、１０４］、～Ｘ［２］
［３７１、１０４、１７０］、～Ｘ［３］
［１０４、１７０、１０９］、～Ｘ［４］
［１７０、１０９、２９０］、～Ｘ［５］
［１０９、２９０、１２７］］～Ｘ［６］
Ｙ＝［０、０、０、０、０、０、０］～Ｙ［０］、Ｙ［１］、Ｙ［２］、Ｙ［３］、Ｙ［４］、Ｙ［５］、Ｙ［６］

要約すると、ブロック１の１日目のｅＨＨについてのみ、対応するＹ（出力）を有する７ｐＨＨ＝ＰＨ＝１５個のＸ（入力）を作成した。
ｅＨＨブロック１の残りの日については、同じ方法で値を計算する。
１：２日目：［３４２、２０１、１７４、１００、２５３、３６、１３４、２７０、２２５、１１７、２０２、３５６］
２：３日目：［２４０、１７２、３２０、１７４、５７、２１５、２２５、１６３、２４６、２３５、１５９、３６］
以下において、低血糖の発見をもたらす計算を説明する例を示す。
ｐＨＨ＝ＰＨ＝１５
１：２日目：［３４２、２０１、１７４、１００、２５３、３６、１３４、２７０、２２５、１１７、２０２、３５６］
Ｄａｙ２＿Ｓｌｉｄｉｎｇ＿Ｗｉｎｄｏｗ１＝［３４２、２０１、１７４、１００、２５３、３６］
Ｄａｙ２＿Ｘ１＝［３４２、２０１、１７４］～前の過去１５分の過去３つのＣＧＭポイントに対応
Ｄａｙ２＿Ｙ１＝１～３６＜７０＝１、３６ｍｇ／ｄＬ＞７０ｍｇ／ｄＬの低血糖閾値であるため、低血糖に対応
ここまでのＸおよびＹは以下のとおり。
Ｘ＝［［３４２、２０１、１７４］］
Ｙ＝［１］
ｐＨＨ＝ＰＨ＝３０
２：３日目：［２４０、１７２、３２０、１７４、５７、２１５、２２５、１６３、２４６、２３５、１５９、３６］
Ｄａｙ３＿Ｓｌｉｄｉｎｇ＿Ｗｉｎｄｏｗ１＝［２４０、１７２、３２０、１７４、５７、２１５、２２５、１６３、２４６、２３５、１５９、３６］
Ｄａｙ３＿Ｘ１＝［２４０、１７２、３２０、１７４、５７、２１５］～前の過去１５分の過去３つのＣＧＭポイントに対応
Ｄａｙ３＿Ｙ１＝１～３６＜７０＝１、３６ｍｇ／ｄＬ＞７０ｍｇ／ｄＬの低血糖閾値であるため、低血糖に対応
ここまでのＸおよびＹは以下のとおり。
Ｘ＝［［２４０、１７２、３２０、１７４、５７、２１５］］
Ｙ＝［１］

ランダムフォレスト（ＲＦ）分類子の実装。図９を参照されたい。
ランダムフォレスト分類子に対して実行される５００個の決定木（ｎ＿ｅｓｔｉｍａｔｏｒｓパラメータ）の要件は厳しい。ほとんどが１００～３００個の決定木で実行される。最も最先端で複雑だが説明が難しい、ＷｅｌｌＤｏｃ、ＵＶＡなどのような競合会社の低血糖予測アルゴリズムのニューラルネットワーク（ＡＮＮ、ＣＮＮなど）に対して、より単純で説明しやすい決定木ベースのランダムフォレスト（ＲＦ）分類子のパフォーマンスおよび競争力をもたらすために、決定木の数を、より標準的な１００または３００個から５００個まで増やすことは合理的であると考えられた。この訓練する決定木の数のパラメータおよび他のかかるパラメータをさらに微調整するために、許容度試験ためのさらなる研究開発ならびにローカルマシンおよびローカルホストサーバのメモリ不足の問題を回避し、Ｈａｄｏｏｐ、ＭａｐＲｅｄｕｃｅ、およびＡｍａｚｏｎＷｅｂＳｅｒｖｉｃｅｓのＳｐａｒｋ、ならびに他のかかるサービスを用いた分散並列コンピュータ処理に移行することが必要である。

データは、このような高いパラメータに適応するのに十分に堅牢性である必要がある。単純に供給された未加工のデータは、このように多くの決定木を有するランダムフォレスト分類子では実行することができない。したがって、評価限界履歴および予測限界履歴（ｅＨＨ、ｐＨＨ）へのローリングスキームの時間的ビニングを用いた、革新的なデータプレパレーション、変換、適合、および特に最適化の工程は、この分類ソリューションにとって非常に重要であり、それ以外の場合では、より回帰が保証された（ただし、回帰が多ければ多いほど、不十分なデータ品質が発生しやすくもなる）ソリューションであった。分類ベースのソリューションは、主に本発明開示で紹介されるデータ拡張および時間的最適化により、はるかに堅牢で、低品質のデータに対して耐性がある。

図１０に示されるように、結果として得られるモデルを、ＰｙｔｈｏｎオブジェクトをＮｕｍＰｙ配列でシリアル化し、異なる圧縮フォーマットを試験するのに効率的なｊｏｂｌｉｂＡＰＩフォーマットで保存することもできる。ＸＺ、ＬＺＭＡ、および特にＢＺ２フォーマットは一貫して、Ｚ、ＧＺ、および特に準最適なＳＡＶ圧縮フォーマットよりも良好な（より小さいサイズのＭＢ）圧縮を実施する。

上述の開示を要約すると、「ローリングスキームの時間的ビニング」の使用により、同じ量の過去の履歴データまたは遡及データを、より拡張され、より良好で、よりスマートで、よりフィットした方法で利用し、元の未加工で未処理のデータセットを効果的に増大および増加させることができる。

特に、「ローリングスキームの時間的ビニング」の工程で構築された評価限界履歴および予測限界履歴（ｅＨＨ、ｐＨＨ）では、ランダムフォレスト（ＲＦ）、サポートベクトルマシン（ＳＶＭ）、およびｋ近傍法（ＫＮＮ）などのＭＬ分類方法に変換され、取り込まれる、なおもさらに利用可能なデータの間隔を供給するために、既に拡張されているデータセットがさらに最大化され、プライミングされる。

ＬＴＨＰＰＨ＝１日（２４時間）の場合、ＲＦは、９１％の精度、９０．９％の感度、および９１．９％の特異性を達成したが、ＳＶＭおよびＫＮＮのパフォーマンスは不良であった。ＬＴＨＰＰＨ＝１日（２４時間）の場合、実施されたＳＶＭは、８６％の精度、７１．４％の感度、および７７．４％の特異性で悪化した。ＬＴＨＰＰＨ＝１日（２４時間）の場合、実施されたＫＮＮは、８６％の精度、７３．２％の感度、および８１．７％の特異性で悪化した。未加工のＣＧＭデータは、ＮｏｖｏＮｏｒｄｉｓｋ治験ＮＮ１２１８－３８５３から提供された。

これらのＬＴＨＰの結果に基づいて、ＳＴＨＰＭＬ分類子のソリューションに対して、ＳＴＨＰのＲＦの実装のみを、この例では実装した（図中では「Ｌｏｍｂａｒｄｉ」と名付けられている）。ｐＨＨ＝ＰＨ＝３０分の場合、ＳＴＨＰのＲＦ実装は、９８％の精度、９３．５９％の感度、および９９．７５％の特異性を達成した。

ＰＨ１５、ＰＨ３０、ＰＨ６０についてのＳＴＨＰＲＦ結果を図１１に示す。図１２では、ＰＨ１５、ＰＨ３０、ＰＨ４５、ＰＨ６０、ＰＨ７５についてのＳＴＨＰＲＦ分類子の結果が示されており、以下の発行済み文献の結果と比較されている。

Ｄａｓｋａｌａｋｉらの “Ｒｅａｌ－ＴｉｍｅＡｄａｐｔｉｖｅＭｏｄｅｌｓｆｏｒｔｈｅＰｅｒｓｏｎａｌｉｚｅｄＰｒｅｄｉｃｔｉｏｎｏｆＧｌｙｃｅｍｉｃＰｒｏｆｉｌｅｉｎＴｙｐｅ１ＤｉａｂｅｔｅｓＰａｔｉｅｎｔｓ．”ＤｉａｂｅｔｅｓＴｅｃｈｎｏｌｏｇｙ＆ＴｈｅｒａｐｅｕｔｉｃｓＶｏｌ．１４（２）２０１２。
根拠：学術文献から、Ｄａｓｋａｌａｋｉらの論文を、３０分および４５分で短期低血糖症予測子（ＳＴＨＰ）分類子予測限界（ＰＨ）の比較として使用した。

Ｐａｐｐａｄａｅｔａｌらの “ＮｅｕｒａｌＮｅｔｗｏｒｋ－ＢａｓｅｄＲｅａｌ－ＴｉｍｅＰｒｅｄｉｃｔｉｏｎｏｆＧｌｕｃｏｓｅｉｎＰａｔｉｅｎｔｓｗｉｔｈＩｎｓｕｌｉｎ－ＤｅｐｅｎｄｅｎｔＤｉａｂｅｔｅｓ．”ＤｉａｂｅｔｅｓＴｅｃｈｎｏｌｏｇｙ＆ＴｈｅｒａｐｅｕｔｉｃｓＶｏｌ．１３（２）２０１１。
根拠：学術文献から、Ｄａｓｋａｌａｋｉらの論文を、７５分で短期低血糖症予測子（ＳＴＨＰ）分類子予測限界（ＰＨ）の比較として使用した。

図１３および図１４では、それぞれＰＨ４５、ＰＨ７５についてのＳＴＨＰＲＦ分類子の結果を、文献結果と比較している。示されるように、１５分、３０分、４５分、６０分、および７５分のすべての予測限界において精度、感度、および特異性が達成され、これらは、業界および学術的情報源からの文献比較よりも競争力があるか、または文献比較よりもさらに優れている。

次に、ｐＨＨ＝ＰＨ＝６０分またはＳＴＨＰＲＦ分類子６０分の実施例（ＷＥ）について説明する。実施例は、特定の試験および検証の目的で、以下の５つのファイルをロードすることによって、上記の競合結果を達成した試験コードを網羅する。
１．ＳＴＨＰＲＦ分類子モデルのファイル自体：「＿ＰＨ６０．ｐｋｌ．ｂｚ２」接尾辞
２．独立変数Ｘの試験サブセットの最終データ：「＿Ｘｔｅｓｔ．ｎｐｙ」接尾辞
３．従属変数ｙの試験サブセットの最終データ：「＿ｙｔｅｓｔ．ｎｐｙ」接尾辞

上の３つのファイル入力だけで、以下の検証試験メトリクスをコンピュータ処理することができる。未加工の精度、混同行列グラフィック自体と同様に感度および特異性などの混同行列の計算、ならびに分類レポート。図１５を参照されたい。
４．全独立変数の最終データ：「＿Ｘ．ｎｐｙ」接尾辞
５．全従属変数の最終データ：「＿ｙ．ｎｐｙ」接尾辞

これら２つは、交差検証された精度の計算にのみ必要である。図１６を参照されたい。

これらをすべて組み合わせて、最終データ入力＃１～３：ＷＥの検証試験メトリクス結果：ＰＨ＝６０分についての概要レポートを提供することができる。

混同行列テーブル、図１７を参照されたい。
混同行列テーブルの計算：ＴＮ、ＦＮ、ＦＰ、ＴＰ、図１８を参照されたい。
混同行列テーブルの計算：感度、図１９を参照されたい。
混同行列テーブルの計算：特異性、図２０を参照されたい。
混同行列テーブルの計算：感度、特異性の文字列レポート出力、図２１を参照されたい。
分類レポート：精度、リコール、Ｆ１スコア、およびサポート、図２２を参照されたい。
最終データ入力＃４および５の場合：ＷＥの検証試験メトリクス結果：ＰＨ＝６０分：概要レポート：精度、交差検証された精度、感度、特異性、低血糖行列（ＴＮ、ＦＮ、ＴＰ、ＦＰ）、図２３を参照されたい。
混同行列関数、図２４を参照されたい。
混同行列関数：出力（１／３）、図２５を参照されたい。
混同行列関数：出力（２／３）：正規化なし、図２６を参照されたい。
混同行列関数：出力（３／３）：正規化あり、図２７を参照されたい。

引用された参考文献および代替的な実施形態
本明細書に引用された全ての参考文献は、各個々の出版物、または特許、または特許出願が、全て目的のためにその全体が参照により組み込まれるように具体的かつ個々に示されるのと同じ程度の範囲で、それらの全体が参照により、全ての目的のために本明細書に組み込まれる。

全ての見出しおよび小見出しは、本明細書では便宜上使用されているだけであり、決して本発明を限定するものとして解釈されるべきではない。

本明細書で提示する任意のおよびいっさいの例または例示的な語句（例えば「など（ｓｕｃｈａｓ）」）の使用は、単に本発明をより明瞭にするという意図しかなく、特に明記しない限り、本発明の範囲を制限するものではない。本明細書中のいずれの語句も、特許の範囲にない任意の要素が本発明の実施に必須であることを示すと解釈すべきではない。

本明細書の特許文書の引用および組み込みは、便宜上行われているだけであり、こうした特許文書の有効性、特許性および／または執行可能性のいっさいの観点を反映するものではない。

本発明は、非一時的コンピュータ可読ストレージ媒体に埋め込まれたコンピュータプログラム機構を備えるコンピュータプログラム製品として実装されてもよい。例えば、コンピュータプログラム製品には、図１および図２の任意の組み合わせで示され、かつ／または図４に描かれるプログラムモジュールが含まれ得る。これらのプログラムモジュールは、ＣＤ－ＲＯＭ、ＤＶＤ、磁気ディスクストレージ製品、ＵＳＢキー、または任意の他の非一時的コンピュータ可読データもしくはプログラムストレージ製品に保存することができる。

本発明の多くの修正および変形を、当業者に明らかであるように、その趣旨および範囲を逸脱することなく行うことができる。本明細書に記載される特定の実施形態は、例証としてのみ提供される。本発明およびその実用的用途の原理を最もよく説明するために実施形態を選択して説明したが、それにより、特定の用途に適した様々な修正を用いて、当業者が本発明および様々な実施形態を最良に利用できるようになる。本発明は、添付の特許請求の範囲の条件と、そのような請求の範囲が適用されるあらゆる等価物によってのみ限定される。

Claims

分類子の取り込みに基づく改善された低血糖症予測のためのデータセット最適化のための方法であって、前記方法が、
－対象者に関する未加工のデータセットを提供する工程であって、前記データセットが、所与のサンプリングレートで取得された複数のＢＧ値、およびそれらの値に関連付けられた、複数日Ｎにわたるタイムスタンプ、を含む、提供する工程と、
－評価ブロック値（ｅＨＨ）を入力Ｘとしてローリングスキームの時間的ビニングによってデータ変換を実施して、対応する予測値（ｐＨＨ）を出力Ｙとして作成する工程と、を含み、
－Ｘが、所与の過去の期間Ｔ－ｐに対する、ＢＧ値を含むスライディングウィンドウとして作成され、
－Ｙが、所与の将来の時間Ｔ－ｆにおけるＢＧ値が、低血糖症状態を示す所与の閾値を下回るか否かを示すインジケータＩとして作成される、方法。
前記データ変換の工程が、
－Ｍ日間（Ｍ≧２、Ｍ＜Ｎ）の評価ブロックへの日ごとのＢＧ値のローリングスキームの時間的ビニングによってデータ拡張を実施する工程の後に行われる、請求項１に記載のデータセット最適化のための方法。
取得される前記未加工のデータセットが、Ｍ日間のインスリン滴定レジメンに基づく、請求項２に記載のデータセット最適化のための方法。
未加工のデータセットを提供する前記工程が、
－公称サンプリングレートに対応するリサンプリング、および欠落ＢＧ値を置き換えるための補間されたＢＧ値の作成を用いてデータプレパレーションを実施する工程の前に行われる、請求項１～３のいずれか一項に記載のデータセット最適化のための方法。
データ変換が、少なくとも２つの異なる過去の期間Ｔ－ｐにわたって実施される、請求項１～４のいずれか一項に記載のデータセット最適化のための方法。
Ｔ－ｆが、Ｔ－ｐに対応する、請求項５に記載のデータセット最適化のための方法。
分類子を訓練するための方法であって、
－請求項１～６のいずれか一項で定義されるように最適化されたデータセットを提供する工程と、
－分類子に前記最適化されたデータセットを取り込む工程と、
－取り込まれた前記データセットに基づいて前記分類子を訓練する工程と、を含む、方法。
前記分類子が、ランダムフォレスト分類子である、請求項７に記載の分類子を訓練するための方法。
将来のＢＧ値を予測するための方法であって、
－対象者からＢＧ値の一連の評価を取得する工程と、
－請求項７または８に定義されるように訓練された分類子に前記ＢＧ値の一連の評価を取り込む工程と、
－予測ＢＧ値を提供する工程と、を含む、方法。
前記ＢＧ値の一連の評価が、継続的な血糖モニタリング（ＣＧＭ）によって取得される、請求項９に記載の将来のＢＧ値を予測するための方法。
対象者からのデータセットの時間的最適化を実施するためのコンピュータ処理システムであって、コンピュータシステムが、１つ以上のプロセッサと、メモリと、を備え、前記メモリが、
－命令を含み、前記命令が、前記１つ以上のプロセッサによって実行されると、請求項１～９のいずれか一項に定義される方法を実施する、コンピュータ処理システム。