JP7019127B2 - 強化学習に基づくインスリンの評価 - Google Patents

強化学習に基づくインスリンの評価 Download PDF

Info

Publication number
JP7019127B2
JP7019127B2 JP2019523199A JP2019523199A JP7019127B2 JP 7019127 B2 JP7019127 B2 JP 7019127B2 JP 2019523199 A JP2019523199 A JP 2019523199A JP 2019523199 A JP2019523199 A JP 2019523199A JP 7019127 B2 JP7019127 B2 JP 7019127B2
Authority
JP
Japan
Prior art keywords
insulin
policy
glucose
control action
patient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019523199A
Other languages
English (en)
Other versions
JP2019525367A (ja
Inventor
モウギアカコウ,スタブローラ
ダスカラキ,エレニ
ディーム,ペーター
Original Assignee
ウニヴェルズィテート ベルン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ウニヴェルズィテート ベルン filed Critical ウニヴェルズィテート ベルン
Publication of JP2019525367A publication Critical patent/JP2019525367A/ja
Application granted granted Critical
Publication of JP7019127B2 publication Critical patent/JP7019127B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • G16H20/17ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients delivered via infusion or injection
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/145Measuring characteristics of blood in vivo, e.g. gas concentration, pH value; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid, cerebral tissue
    • A61B5/14532Measuring characteristics of blood in vivo, e.g. gas concentration, pH value; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid, cerebral tissue for measuring glucose, e.g. by tissue impedance measurement
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7282Event detection, e.g. detecting unique waveforms indicative of a medical condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Evolutionary Computation (AREA)
  • Surgery (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Optics & Photonics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Emergency Medicine (AREA)
  • Computational Mathematics (AREA)
  • Physiology (AREA)
  • Psychiatry (AREA)

Description

本発明は、インスリンの管理分野および対応する人工膵臓に関する。
従来の技術
1型糖尿病(T1D)は、インスリンの欠如または機能不全による、制御不能な血糖値によって特徴付けられる代謝性疾患である。人工膵臓(AP)システムは、生理学的膵臓の機能をシミュレートし、外部の自動グルコース調節システムとして機能することを目的としている。APは、連続グルコースモニタ(CGM)、連続皮下インスリン注入(CSII)ポンプ、および2つのデバイス間のループを閉じてインスリン注入速度を最適化する制御アルゴリズムを組み合わせたものである。
APのための有効な制御アルゴリズムの設計における重要な課題は、皮下グルコース測定および皮下インスリン注入の両方のための皮下経路の使用である。これにより、皮下グルコース測定では最大30分、インスリン吸収では最大20分の遅延が発生する。したがって、ほぼ1時間の合計遅延は、監視と介入の両方をリアルタイムで制限する。さらに、グルコースは遺伝的、生活様式および環境など複数の要因によって影響を受ける。センサ技術の向上により、より多くの情報を制御アルゴリズム(例えば、より正確なグルコース測定および身体活動レベル)に提供することができる。ただし、不確実性のレベルは非常に高いままである。最後に、おろそかにできないが、最も重要な課題の1つは、個人化されたインスリン治療を必要とする高い患者間および患者内の変動性から生じる。
ハードウェアの改善とともに、APの課題は、高度なアルゴリズム戦略の開発によって徐々に解決されている。最も臨床的に研究されている戦略は、比例積分微分(PID)、モデル予測制御器(MPC)およびファジィ論理(例えば、MD-Logic)アルゴリズムである。最近の開発は、インスリンとグルカゴンの両方を使用する双ホルモンAPである。臨床試験の数が増えていることで、広範囲の入院中、そして最近では、管理された病院環境外でのAPの実現可能性の在宅評価が行われている。ほとんどの研究は、誤った食事摂取およびインスリン感受性(SI)変化(例えば身体活動)などの不確実な条件下での患者群のアルゴリズム的評価に限定されている。
これらの有望な結果にもかかわらず、現在提案されている制御戦略はどれも、本質的に不確実性と個別化を処理するように設計されていない。PIDは線形システム用に設計されており、MPCは不確実性が存在する場合に最適とは言えない開ループ最適化問題を解決する。MD-Logicは設計者の経験に直接従うルールベースのアプローチである。患者の多様性の観点から、アルゴリズムは適応コンポーネントで強化されている。これは、体重、補正係数、SIなどの1つまたは複数の患者固有特性を持つアルゴリズムパラメータに含まれる又は関連するモデルの個別化識別に主として基づいている。それにもかかわらず、最先端のAPアルゴリズムの成功した性能は、AP開発が実行可能かつ現実的であり、強く個人化されたインスリン治療に向けたより高度なアルゴリズム研究の新時代への道を開くものである。
強化学習(RL)は、機械学習(ML)の一分野であり、データから学習し、不確実な環境内で最適化を実行することができるアルゴリズムを包含する集中的に活発な研究分野である。RLの分野は、教師あり学習と教師なし学習との間にあり、エージェントがその環境との継続的な相互作用によって経時的に所与のタスクでそのパフォーマンスを改善しようと試みる問題を含む。この作業の間、入出力データは明示的には提供されず、パフォーマンスの向上は、エージェントの経路上の長期的な予想コストの概念を最小限に抑えることと解釈される。RLは1980年代初頭に独立した分野として発展し始め、動物心理学と試行錯誤による学習のアイデアに触発された。RLは、ベルマンの「次元の呪い」が解析的な解決策を制限していた動的プログラミング問題を解くための非常に効率的な方法として、最適制御の分野で急速に採用された。RLでは、エージェントは、アクションuを選択し、現在の状態xから次の状態に移動することに基づいて、特定の制御ポリシーに従う。
各状態遷移の後に、いくつかの事前定義された基準に基づいてこの遷移の品質を表すローカルコストcが続く。エージェントの目的は、その経路全体で予想される総コストを最小限に抑えるような最適な制御ポリシーを見つけることである。RLは、理論的背景が広く研究されている分野であり、現代の計算能力の進歩により、現在実用化に向かって進んでいる。この見解では、現実の問題における応用は、RLの現在の傾向の1つとして強調されている。医学では、RLは主に予後、分類および診断について、ビッグ/ヘテロジニアスデータ収集、融合および分析によって調査されており、治療研究に関する報告は少ない。最近認識され報告されているように、MLおよびRLの利点は、APの課題の解決への有望な道を示している。アルゴリズムを評価するために、決定論的グルコース調節モデルを使用したが、患者の変動性をシミュレートするために不確実性を増した。このプロセスは実際の患者の変動性を表すものではないかもしれず、示された適応能力の強度を制限する。
医学におけるRLの使用を複雑にする1つの要因は、調整または初期化される必要がある多数の一定かつ適応的なパラメータである。これらのパラメータに最適な値を選択することは困難な作業であり、通常は問題固有の特性に基づいて手動で実行される。しかしながら、個人間のばらつきに直面して、この手動プロセスは信頼できないかまたは実行不可能でさえあり得る。RLに対するもう1つの批判は、学習プロセスと最終的な解決策(ブラックボックス)の両方を一般化または定性的に説明することが難しいことである。
本アプローチでは、RLベースのアルゴリズムがT1Dにおける個別化インスリン注入およびグルコース調節のために提案されている。モデルフリーのActor-Critic(AC)アルゴリズムが開発され、大規模な患者群内および変動する環境の不確実性の範囲内で、正常血糖を維持するその能力についてコンピュータを用いて評価されている。このアプローチの範囲は2つある。
i)個人化されたAPとの関連でRLの適用性を調査すること。
ii)一般化して医療経験に直接翻訳することができるAC設計を達成すること。
前述した調整の制約を克服するために、ACアルゴリズムは、インスリンからグルコース信号への情報伝達(IT)の推定に基づいて、自動かつ個別化された調整のための新規な方法で強化される。ACアルゴリズムの初期段階での作業は、予備的な評価結果とともに既に発表されている。
・Daskalaki E、Diem P、Mougiakakou S. 1型糖尿病におけるブドウ糖調節のためのActor-Criticベースのコントローラ、計算方法プログラム 2013; 109(2): 116-25.
・Daskalaki E、Diem P、Mougiakakou S。グルコース調節のための強化学習制御アルゴリズムの個別調整、第35回IEEE Eng Med Biol Soc Conferenceの議事録、 2013年7月3~7日。大阪、日本。
両方の論文の全開示は、参照により本明細書に組み込まれる。本発明では、ACコントローラのための新規な設計が紹介されている。具体的には:
・アルゴリズムの探索スペースを増やすために、制御ポリシーが探索的ポリシーによって強化された。
・アルゴリズムの安全性を高めるために監視制御ポリシーが組み込まれた。
・ACコントローラは、医療経験から引き出された生理学的パラメータ及び/又はアクションに直接リンクされている。
・自動調整方法が拡張され、患者固有の特性に関連付けられた。
要約すると、提案された新規な制御方式は以下の課題を満たすことができる。
・リアルタイム適応学習アルゴリズムを使用した、患者間/患者内のばらつきとインスリン治療の個別設定
・不確実性下での最適化に適した制御アルゴリズムの使用に対する堅牢性
・以下による、病院でそして家で練習への容易な移行
-患者間のばらつきが大きいことを相殺する、限られた先験的な仮定に基づくこと、
-生理学的パラメータに基づいた初期化
本発明は、最適な治療法、例えば注入ポンプなどのインスリン配給装置によって配給される最適なインスリンを推定する方法を提供する。治療は、個人化されたグルコース調節を目的とした強化学習アルゴリズムを使用することによって決定されてもよい。アルゴリズムは、(例えば)彼/彼女の測定されたグルコースプロファイルに基づいて、各患者について1日のベーサル(基礎)インスリンレートおよびインスリン対炭水化物比を最適化することができる。そのようなアルゴリズムは、毎日のグルコースプロファイルに取り込まれたリアルタイムの患者特有の特徴を学習し、個別化されたインスリン治療を提供することができる。自動および個別化された調整方法は、アルゴリズムの性能の最適化に貢献する。アルゴリズムの設計が、医師またはエンジニアのいずれかを含むいかなる介入または中間段階もなく、患者によるその直接使用を可能にし得ることは注目に値する。
例えば、最初の4稼働日の間に、システムは、彼/彼女の医師によって定義されたように患者の標準治療を提供し、そして並行して、彼/彼女の連続グルコースモニタおよびインスリンポンプデータを収集することができる。この期間の終わりに、アルゴリズムは自動的にいくつかのパラメータを初期化する。順番に、アルゴリズムは、毎日のベーサルインスリンレートおよびインスリン対炭水化物比の適応を用いて、インスリン治療の個別化を継続することができる。優先的には、関連するすべての計算に対して、アルゴリズムは最小限の計算時間にて、モバイル/ポータブルデバイス上で円滑に実行することができる。
本発明の一態様は、患者に対するインスリン療法を決定するための方法である。この方法は、以下のステップを含むことができる。
・適応型コントローラを動作させるために強化学習アルゴリズムを使用すること。強化学習アルゴリズムは、以下を含む。
a)インスリン注入レートおよびインスリン対炭水化物比の少なくとも一方を含むインスリン制御ポリシー(S)を評価する評価主体(Critic)、
b)インスリン管理方針を改善する行動主体(Actor)、
・所定の期間(k-1)にわたって所定のインスリン制御ポリシー(Sk-1)を適用すること。
・所定の期間(k-1)にわたって、患者の血糖データまたはプロファイルを収集すること。
・例えば収集された血糖データに基づいて、グルコース調節システムの状態を決定すること。
・例えばグルコース調節システムの状態に基づいて、評価主体により所定のインスリン制御ポリシー(Sk-1)を評価すること。
・例えば決定された制御アクションに基づいて、行動主体によりインスリン制御ポリシー(S)を更新すること。ここで、更新されたインスリン制御ポリシー(S)は、次の期間(k)にわたって適用されることを意図している。
決定された制御アクションは、以下の制御アクションのうちの少なくとも1つを考慮に入れる。
-線形決定論的制御アクション(Pa)
-監視制御アクション(Ps)
-探索的制御アクション(Pe)
線形決定論的制御アクション(Pa)は、グルコース調節システムの状態と決定されたポリシーパラメータベクトルとの線形結合として定義することができる。監視制御アクション(Ps)は、以前のインスリン制御ポリシーの控えめな提案に対応し得る。それは、アルゴリズムによるインスリン制御ポリシー(S)の極端な変化に対する安全モジュールとして、および/または更新の方向のガイダンスとして機能することができる。探索的制御アクション(Pe)は、グルコース調節システムの状態の探索スペースを広げることを可能にし、および/またはより迅速な収束をサポートする。
好ましくは、評価ステップは各期間の終わりに実行され、ポリシーパラメータベクトルは決定された期間の終わりに更新されてもよい。さらに、所定の期間および/またはその後に続く持続時間は、1時間から36時間の間、優先的には実質的に24時間に含まれてもよい。
決定された制御アクションは、所定の期間(k-1)から次の期間(k)までのインスリン制御ポリシー(S)の変化率として定義され得る。
決定された制御アクションは、線形決定論的制御アクション(Pa)、監視制御アクション(Ps)および探索的制御アクション(Pe)のうちの少なくとも2つを考慮に入れることができる。
決定された制御アクションは、線形決定論的制御アクション(Pa)および監視制御アクション(Ps)を考慮に入れる数学的モデルによって決定される総合決定論的制御アクション(Pd)を考慮に入れることができる。優先的には、探索的制御アクション(Pe)は、少なくとも総合決定論的制御アクション(Pd)を考慮に入れた数学的モデルによって決定される。ポリシーパラメータベクトルは、総合決定論的制御アクション(Pd)と探索的制御アクション(Pe)との間の差に依存し得る。
評価主体は、所定の期間(k-1)に発生した高血糖および低血糖状態に関する2つの特徴によって説明されるように、グルコース調節システムの状態を評価することができる。さらに、評価主体は、所定の期間(k-1)中に発生した1日の平均低血糖および高血糖の誤差によって説明されるように、グルコース調節システムの状態を評価することができる。
優先的には、評価主体は、所定期間におけるグルコース調節システムの状態のローカルコストを計算する。そして、行動主体は、状態ごとの平均予想コストを最小化するように構成されてもよい。
初期インスリン制御ポリシーは、彼/彼女の医師および/またはコンピュータシミュレータによって最適化された患者の個々の値を考慮に入れることによって決定されてもよい。ポリシーパラメータベクトルの値または初期値は、インスリンからグルコースへの移行エントロピー計算を使用することによって決定され得る。さらに、インスリンからグルコースへの移行エントロピーは、1日から7日の間、優先的には4日の期間にわたる血糖データおよびインスリン配給データに基づいて推定することができる。
この方法は、初期インスリン制御ポリシーおよび/またはポリシーパラメータベクトルの初期値を決定して患者に適合させることができる初期化段階を含むことができる。そして、初期化段階の期間は、1日から7日の間、優先的には4日で構成することができる。
本発明は、好ましい実施形態の説明および図面を参照することで、よりよく理解されるであろう。
ポンプまたはパッチポンプのための制御システムが、データをリアルタイムで送信するために連続グルコースモニタおよびインスリンポンプの両方に無線で接続された携帯機器に組み込まれているシステム、人工膵臓を示す図である。 図1のAC制御システムの一般的な実施形態を示すブロック図であり、従来技術による閉ループシステムを実施するための図1の装置の概略図である。 図1のAC制御システムの入力/出力を示すブロック図であり、本発明による閉ループシステムを実施するための図1の装置の概略図である。 図1のAC制御システムの入力/出力を示すブロック図であり、本発明による閉ループシステムを実施するための図1の装置の概略図である。 本発明によるAC制御システムを調整するために従うべき手順の例を示す図である。
好ましい実施形態の詳細な説明
本発明は独立請求項に記載され特徴付けられているが、従属請求項は本発明の他の特徴を説明している。本出願は、2016年7月15日にベルン大学の名義で出願されたPCT/IB2016/054242の優先権の利益を主張するものであり、その全開示は参照により本明細書に組み込まれる。
本明細書中で使用される全ての科学技術用語は、他に特定されない限り、当該分野で一般的に使用される意味を有する。本明細書で提供される定義は、本明細書で頻繁に使用される特定の用語の理解を容易にするためのものであり、本開示の範囲を限定することを意味するものではない。
本明細書および添付の特許請求の範囲で使用されるとき、単数形「a」、「an」、および「the」は、その内容が明確に指示されない限り、複数の指示対象を有する実施形態を包含する。
本明細書および添付の特許請求の範囲で使用されるとき、「上」、「下」、「左」、「右」、「上方」、「下方」、および他の方向または向きなどの本明細書で言及される任意の方向は、図面を参照して明確にするためのものであり、実際の装置またはシステムを限定することを意図しない。本明細書に記載の装置およびシステムは、いくつかの方向および向きで使用することができる。
本明細書で使用されるとき、「有する」、「有している」、「含む」、「含んでいる」、「包含する」、「包含している」などは、それらの制限されない意味で使用され、一般に「含むが、それに限定されない」を意味する。
本明細書および添付の特許請求の範囲で使用されているように、「または」という用語は、その内容が明確に指示されていない限り、一般に「および/または」を含む意味で使用される。図1に示すように、連続グルコースモニタとインスリン注入ポンプとの間のループを閉じるための行動主体―評価主体(AC)制御システムは、携帯/モバイル機器およびスマートフォンのうちのいずれか1つで実行されてもよく、以下の段落に提示される。
[行動主体―評価主体アルゴリズム(ACアルゴリズム)]
ACアルゴリズムは、RLのクラスに属し、図2に示す2つの補完的部分へのエージェントの分離によって特徴付けられる。
評価主体:制御ポリシーを評価することを担当する。
行動主体:制御ポリシーを改善することを担当する。
RLファミリー内では、ACアルゴリズムは、より優れた収束特性を持つという点で、評価主体専用または行動主体専用の方法とは異なる。さらに、それらは連続時間最適化を可能にするために、低分散勾配およびパラメータ化方針を本質的に推定するので、それらの計算コストはより低い。
AC学習では、エージェントは特定の制御ポリシーに従い、不確実な環境内で状態間の遷移を実行する。図2は、ACアルゴリズムによって制御されるシステムの概略図を示す。
確率的システムの場合、制御ポリシーは、xの現在の状態が与えられたときに、そこから制御アクションuが撤回される条件付き確率関数μ(u│x、θ)である。エージェントの目的は、その経路全体で予想されるコストを最小限に抑えるために、最適な制御ポリシーを見つけることである。状態xと状態yとの間の遷移は、選択された制御アクションuに依存し、遷移確率分布p(y│x、u)に従う。ローカルコストc(x、u)は、各状態とアクションに関連付けられている。優先的には、平均報償設定において、ACアルゴリズムの目的は、全状態にわたる状態当たりの平均予想コストを最小にするために最適な制御ポリシーを見つけることである。これは、次のように定義できる。
Figure 0007019127000001
ここでηθ(x、u)は、マルコフ連鎖{Xk、Uk}の定常確率である。
(評価主体)
評価主体のエージェントは、関連する予想コストの概算に基づいて現在の制御ポリシーを評価する責任がある。この目的のために使用される最も強力な方法の1つは、時間差(TD)学習であり、これは、状態xから始まるプロセスの総予測コストが、最初の行動uとして取り、それぞれ、値関数Ve(x)とアクション値関数Qθ(x,u)を通して定義されるポリシーμ(u│x、θ)に従うものである。
Figure 0007019127000002
Figure 0007019127000003
値関数およびアクション値関数は以下の式を満たすことができる。
Figure 0007019127000004
Figure 0007019127000005
与えられた観測状態に対して、x=xk-1、y=x、およびアクションu=uk-1であり、ベルマンの式(5)は次のようになりうる。
Figure 0007019127000006
ベルマンの次元呪いは、高次元空間における式(6)の解析解を制限し、近似法の使用を必要とする。TDフレームワークでは、値関数V(x)は、w∈RKであるときに、パラメータ化された関数Vw(x)によって近似され得る。パラメータ化関数に対して最も一般的に使用されるアーキテクチャは、次のように定義される線形近似であり得る。
Figure 0007019127000007
ここで、gθ(x)は、次元Kの基底関数のベクトルである。符号wは転置を表す。値関数の近似は、次の推定値
Figure 0007019127000008
からの近似値関数
Figure 0007019127000009
の偏差として、定義されるTD誤差dの推定を介して実行されてもよい。
Figure 0007019127000010
TD誤差に基づいて、パラメータベクトルwは、以下の式に従って更新されてもよい。
Figure 0007019127000011
ここで、αは正の増加しない学習率シーケンスであり、0<λ<1は定数で、zは次のように定義された適格性ベクトルである。
Figure 0007019127000012
そして、以下の公式に従って更新されてもよい。
Figure 0007019127000013
アクション値関数Qθ(x、u)の近似についても、同様のプロセスに従うことができる。
Figure 0007019127000014
φθ(x、u)は基底関数のベクトル、r∈RLはそれぞれのパラメータベクトルである。
基底関数の一般的に使用される選択は、φθ(x、u)=Ψθ(x、u)であり、ここでΨθ(x、u)=∇θlnμ(u│x、θ)が制御ポリシーの尤度比導関数である。
(行動主体)
行動主体の目的は、
Figure 0007019127000015
状態あたりの平均予想コストの最小化に向けて、制御ポリシーを時間にわたって最適化することである。ポリシーパラメータベクトルθに関して勾配
Figure 0007019127000016
の推定を含むポリシー勾配方法は、次のような目的で使用されることがある。一般ポリシー更新関数は、以下の形式をとることができる。
Figure 0007019127000017

ここで、βは学習率の正のシーケンスである。様々なバージョンの行動主体が提案され、主に勾配
Figure 0007019127000018
の近似戦略によって区別される。この例では、行動主体は次のように使用されてもよい。
Figure 0007019127000019
(ACアルゴリズムに基づくT1Dのグルコース調節)
ACアルゴリズムは、各T1D患者のためのインスリン療法を最適化するように設計されている。インスリン療法は、インスリンベーサルレート(BR)と、インスリン-炭水化物(IC)比との組み合わせとして定義することができる(図3)。この選択は医療行為と一致するようになされた。しかしながら、他のインスリン療法プロファイルを使用することができる。IC比は、次の食事として既知の炭水化物(CHO)の大きさに応じた、ボーラス投与量(Ibolus)の計算のために、以下の式に従って使用される。
Figure 0007019127000020
評価主体エージェントと行動主体エージェントを設計する前に、アルゴリズムの2つの重要なパラメータ、
i)アルゴリズムの更新レートに対応する学習ウィンドウ、
ii)システムの状態
を定義する必要がある。双方については、次の段落で説明する。
(学習ウィンドウ)
学習ウィンドウは、インスリンプロファイルの更新前にデータ収集のために提供される期間としてここに定義される。この決定に影響を与える考慮事項がいくつかある。学習ウィンドウは、CGMによって導入されるループ遅延および皮下インスリン吸収に相当することはあり得ない。さらに、速い学習と遅い学習の間のトレードオフを考慮する必要がある。頻繁な更新は効果的に急速なグルコースダイナミクスに従うかもしれないが、患者の特徴についてのより基本的で一般的な情報を運ぶ「全体像」を見失う。これらを考慮して、この明細書では、最適化ウィンドウが1日(24時間)である例を説明する。「1日」とは、昼夜を問わずに開始することができる24時間の期間を指し、優先的にはその期間は所与の日の真夜中に開始することができ、そしてこの所与の日の終わりに終了することができる。この期間はもっと長くても短くてもよい。この「1日」の選択では、患者の一般的な血糖状態に関する適切な情報が含まれている人体の24時間サークルも考慮される。結果として、インスリンポリシーは、それぞれの毎日のグルコースプロファイルに基づいて、1日に1回評価され更新される(図3および4)。
(システムの状態)
グルコース調節システムのダイナミクスは、マルコフ決定プロセスとして表され、ここで状態xkは、第k日の低血糖および高血糖に関するシステムの状態である。各時間tにおけるグルコース誤差EGは、以下のように定義されることができる。
Figure 0007019127000021

ここで、G(t)は時間tにおけるグルコース値であり、そしてG=180mg/dl、G=70mg/dlは、それぞれ高血糖と低血糖の限界である。第k日の血糖プロファイルは、その日の高血糖および低血糖状態、より具体的には1日平均低血糖および高血糖誤差に関連する2つの特徴によって説明することができる(図4)。
Figure 0007019127000022
Figure 0007019127000023
ここで、H(・)はヘビサイド関数、Niは、高血糖症(i=1)閾値を超える、または低血糖症(i= 2)閾値を下回る時間サンプル数である。最初に、特徴は[0 1]で正規化される。正規化された特徴は以下の状態を定式化する。
Figure 0007019127000024
(評価主体の設計)
評価主体の数学的定式化は上述した。CGMはある期間(例えば24時間)にわたって患者の血糖を測定し、これらの測定はその期間のグルコースプロファイルを定義する。これらのデータの全部または一部は、メモリ装置に記録されていてもよい。第k日の終わりに(一日は期間の一例であることが理解される)、その日のグルコースプロファイルが収集され(メモリ装置から取得されてもよい)、例えば血糖または血糖プロファイルの測定値を考慮に入れることにより状態xが計算される。この状態に基づいて、以下のように定義されるローカルコストc(x)を割り当てることができる(図4)。
Figure 0007019127000025
重みa及びaは、低血糖成分および高血糖成分をスケーリングするために使用される。a及びaは0から50の間、例えばah=1とa=10で構成される。アクション値関数は、式(12)のように線形近似される。基底関数φ(・)は、後のフェーズで導出されることになる制御ポリシーの尤度比導関数(LRD)に等しく設定されてもよい。評価主体の更新のために、定数γおよびλは、それぞれ0から1の間からなることができ、優先的にはすべての患者に対してγ=0.9およびλ=0.5である。評価主体の学習率は、0から1の間に含まれ、優先的にはすべての患者に対してα =0.5である。これらの値は実験的に見出された。初期パラメータrは[-1 1]内のランダムな値に設定され、初期パラメータzはすべての患者に対してゼロ値に設定される。
(行動主体の設計)
行動主体は、初期のBR(IC比)値から出発して毎日のBRおよびIC比を最適化するために、二重の確率論的な制御ポリシーμ(u│x、θ)を実行する(図4)。現在のインスリン療法の絶対レベルからアクションを解離させるために、制御アクションuは、第(k-1)日から第k日までのBR(IC比)の変化率として定義することができる。この選択の利点は後で明らかにされる。したがって、BR(IC比)は以下のように更新されてもよい。
Figure 0007019127000026
Figure 0007019127000027
ここで、S= {BR、IC}、Sは第k日の制御ポリシーであり、P Sは制御アクション、すなわち、第(k-1)日から第k日までの変化率Sである。最後に適用された制御アクションP Sは、現在の状態x及びポリシーパラメータベクトルθ Sに基づいて、制御ポリシーの確率分布μ(u S│x S、θ S)から撤回される。優先的には、確率分布の設計では、3つの異なるタイプの制御アクションの生成に基づいて、以下の3段階のプロセスが続く。
i)線形決定論
ii)監督および
iii)探索的アクション。
しかしながら、確率分布の設計のために、これらのタイプの制御アクションのうちの1つまたは2つのみが使用され得る。以下では、わかりやすくするために、符号kおよびSを省略する。この手順は、BRとIC比についても同じである。
(線形決定論的制御アクション)
線形決定論的制御アクションPは、現在の状態とポリシーパラメータベクトルの線形結合として定義される。
Figure 0007019127000028
言い換えれば、この制御アクションは、毎日の低血糖および高血糖の状態を、翌日に必要なBR(IC比)の変化に関連付ける。
(監視制御アクション)
監視制御アクションPは、アルゴリズムに対する控えめなルールベースのアドバイスであり、主に従うべき変化の方向のガイダンスとして、およびアルゴリズムによる極端なインスリン変化に対する安全モジュールとしての役割を果たす。監督アクションは次のように定義される。
Figure 0007019127000029
上の記号はBR、下の記号はIC比を表する。
優先的には、2つの前のアクションの加重合計は、総合決定論的制御アクションPを定義することができる。
Figure 0007019127000030
ここで、hは各部分の寄与を最終出力にスケールすることを可能にする係数で、hは0から1の間で構成される。たとえば、この明細書では、重み係数はh= 0.5として選択されているため、2つのアクションに等しい寄与が割り当てられている。
(探索的制御アクション)
以下のように、探索的制御アクションPは、ホワイトノイズを最終決定論的ポリシーに追加することによって発生する。
Figure 0007019127000031
ここで、N(0、σ)は、平均がゼロで標準偏差がσのホワイト・ガウスノイズである。探索プロセスの目的は、パフォーマンスと収束率を最適化するためにアルゴリズムの探索スペースを広げることである。探索プロセスの結果は、適用されるべき最終管理アクションである。
以前の分析に基づいて、これで制御ポリシーμ(u│x、θ)を確率分布として導出する準備ができた。ここから最終的な制御アクションu=Pは次のように表せる。
Figure 0007019127000032
制御ポリシーは、決定論的アクションPd(x)と標準偏差σに等しい平均を持つガウス確率分布である。最後に、LRDΨθ(x、u)を導出する必要がある。θに関する制御ポリシーの勾配をとると、以下のようになる。
Figure 0007019127000033
式(25、26)から、LRDは次のようになる。
Figure 0007019127000034
行動主体のポリシーパラメータの更新は次のように定義される。
Figure 0007019127000035
式(28)より、ポリシーパラメータベクトルの更新は、総合決定論的ポリシーと探索的ポリシーとの間の差、すなわちノイズ分散σに依存することがわかる。最適な方針が発見されたとき、それは状態xk~0をもたらすが、発見された解からシステムを遠ざける可能性があるので、探索を減らしたい。この目的のために、分散σは状態xの関数として定義される。
Figure 0007019127000036
状態xが大きいほど、第k日に低血糖/高血糖に費やされる時間が長くなり、すなわち、より良い制御ポリシーのための探索スペースが大きくなる。定数KSは、0と1の間に含まれてもよく、優先的には0.05に設定される(試行錯誤プロセスの後)。同じ推論を用いて、行動主体学習率βを分散σに等しく設定することができる。このように、ACアルゴリズムは、各患者のグルコース調節システムにおける一時的または恒久的な変化を補償するために、常時学習であり得る。
(ACアルゴリズムの個別調整)
前のセクションで説明したように、ACアルゴリズムの設計は調整する必要がある様々なパラメータを含む(図5)。患者のばらつきを考慮して、いくつかのパラメータについては個別の調整が必要になるかもしれない。各患者のために手動で調整することは実行不可能であるか、または患者の安全性を危うくする可能性があるので、自動方法を探す必要がある。
予備シミュレーションに基づき、そして異なる調整形の下で、ACパラメータは、強固(R)または敏感(S)として、最初に2つのクラスに分割されてもよい。
・Rクラスに含まれるパラメータは、患者バラツキに対する低い感受性と関連し、そして前のセクションで与えられたすべての患者に共通の値で、経験的な方法によって手動で調整されうる。
・Sクラスには、患者固有の特性に敏感であることが判明したパラメータが含まれていた。このクラスで識別されるパラメータは、BRとIC比の初期値と行動主体の初期ポリシーパラメータベクトルθ0である。最初の2つのパラメータについては、インスリン要求量は当然別々の糖尿病患者間では異なるため、ユニバーサル調整は不可能である。ポリシーパラメータベクトルθが患者固有の特性と密接に関連している可能性があり、その初期調整がアルゴリズムのパフォーマンスと収束率の両方に影響を与えることが示される。したがって、Sクラスパラメータについては、自動個別調整手順に従うことができる。表1に、ACアルゴリズムのパラメータの例とその説明、値、および調整クラスをまとめている。
Figure 0007019127000037
(BRとICの比率の初期化)
安全性を保証するために、BRとICの比率の初期値は各患者に固有で適切であるべきである。糖尿病の治療における臨床経験により、体重、SIおよび生活習慣の要因に基づいて、CSIIポンプ療法下の患者のBRプロファイルおよびIC比を推定するための多数の経験則が開発された。これらの規則は、最適ではないかもしれないが最初のグルコース調節を確実にする開ループインスリン療法を提供する。したがって、臨床診療に適用されるとき、ACアルゴリズムのBRおよびIC比は、彼/彼女の医師によって最適化された患者の個々の値を使用して初期化することができる(図5)。この実施は、CSIIからAPへの患者の移行が、彼/彼女自身および医師の両方にとってより円滑になり得るというさらなる利点を有する。
(ポリシーパラメータベクトルθの初期化)
ポリシーパラメータベクトルθの初期化は、設計されたインスリン注入制御アルゴリズム内のその自然表現の調査に基づいてもよい(図5)。ポリシーパラメータベクトルθの最適値は、次の質問に答える。
「観察された毎日の高/低血糖に基づいてBRとICの比率をどれだけ変えるべきか?」
その答えは患者のSIに関連している可能性があり、彼/彼女の肥満度指数(BMI)、1日の総インスリン(TDI)のニーズ、ライフスタイルおよび遺伝的要因に左右される。
SIの推定は現在、クランプまたは静脈内グルコース耐性試験を使用して臨床環境において行われており、これは時間がかかりかつ費用がかかる。近年、CGMおよびインスリンポンプデータを使用し、糖尿病生理学的モデルの逆解法に基づいて、APアルゴリズムに組み込まれるべきSIのオンライン推定を達成するための努力がなされてきた。
実際には、この情報には簡単にアクセスできるため、SIは患者のTDIに直接関係していることが多い。しかしながら、同じTDIとBMIを持つ2人の患者でさえ、1Uのインスリンの影響は異なりうる。この研究では、インスリンからグルコース信号へのITを通してこの違いを捉える。インスリンからグルコースへのITは、移行エントロピー(TE)の概念、非線形ランダムプロセスにおけるITの推定のための非常に強力な方法を使用して測定され得る。TEは、原因信号Y(インスリン)から影響信号X(グルコース)までのITを推定する。この値は、2つのシグナルの大きさ、すなわちインスリンの量およびグルコースの密接度とは無関係である。同じTEを有する2人の患者について、より高いTDIはより低いSIに対応する。同様に、2人の患者が同じTDIを有する場合、より高いTEはより低いSIに変換され得る。この推論に続いて、患者のSIについての情報は以下のように推定され得る。
Figure 0007019127000038
ここで、cは正の定数である。SIの定義を付与されると、患者が自分の血糖値をΔGまで下げたい場合、必要なインスリン量は次のようになる。
Figure 0007019127000039
Figure 0007019127000040
を式(30)の推定値で置き換えると、以下の式が得られる。
Figure 0007019127000041
ただし、c=1/cである。
ACアルゴリズムの場合、その目的は、毎日の低血糖症および高血糖症を回避するために、BRおよびIC比の最適な変化を見出すことである。これは式(32)と平行していると見なすことができる。
Figure 0007019127000042
ここでxは、高血糖症(i=1)または低血糖症(i=2)の特徴、すなわち(29a、b)で定義されるような1日の平均低血糖/高血糖誤差であり、ΔSはそれぞれの特徴に基づくBRまたはIC比の変化である。c’は正の定数である。TDIが日々のBRとICの比率に直接反映されていることを考えると、式(33)は次のように書き換えることができる。
Figure 0007019127000043
ここで、θ=c’/TE’とすると、式(34)は、次のようになる。
Figure 0007019127000044
そして、低血糖と高血糖の両方の特徴に基づくBRまたはIC比の総変化は、それぞれの寄与の線形結合である。
Figure 0007019127000045
ここで、θ=[θθと、x=[xが、特徴ベクトルである。P=θxであるとき、式(35)は、次のようになる。
Figure 0007019127000046
ここで、PはSの変化のパーセンテージであり、先の式(33)で定義されたAC決定論的制御アクションを表す。
前述の分析は、インスリンに対するグルコースのITを用いて、かつより面倒なプロセスであるSIを推定する必要なしに、インスリンの変化率として制御アクションを定義することがACの調整を可能にすることを示している。分析はおおよそのものである可能性があり、(唯一)必要なBRまたはICの更新の見積案として使用される可能性がある。ただし、その範囲は、最適化プロセスを強化するためにACのより良い出発点を提供することである。患者pに対するポリシーパラメータベクトルの初期値は、次のように設定されてもよい。
Figure 0007019127000047
ここで、WおよびWは、高血糖および低血糖の特徴に関連する重みであり、-1から1の間に含まれてもよく、優先的にはすべての患者に対して、W=0.1、W=-0.2である。また、低血糖を避けることがより高い優先順位であるので、より高い値が低血糖重みに割り当てられる。
(インスリンからグルコースへのTEの推定)
インスリンからグルコースへのTEは、各患者から収集された(例えば)4日間のCGMおよびインスリンポンプデータに基づいて推定することができる。適切なデータサイズを選択するために、異なる期間のデータセットが使用され、それぞれのTE値間の相関が連続するデータ長について計算された。4日以上のデータが高度に相関したTE値(>99%)を与えることが観察された。
TEの推定値は、以下の式に基づいてもよい。
Figure 0007019127000048
ここで、G,IAは、時間tにおけるグルコースおよび活性インスリンであり、dは、即効型インスリン類似体の平均生理学的インスリン吸収遅延に従って、ここではd=20分として設定されたインスリン時間遅延である。活性インスリンは、ボーラス投与量およびベーサルインスリン注入量に関連するオンボード(IOB)のインスリンの合計として推定することができる。
Figure 0007019127000049
確率分布の推定には、時系列を等しいサイズの容器に分割し、確率分布をヒストグラムとして近似する、固定データ分割方法を使用することができる。グルコースおよびインスリン用の仕切り容器のサイズは、それぞれGbin=10mg/dl、IAbin=1Uであり得る。
(本発明の一般概念)
上記の一態様によれば、本発明は、以下の項目のうちの1つに基づいて患者に適応させる、インスリン注入率(ベーサル)およびインスリン対炭水化物比(ボーラス投与量=今後の食事に含まれる炭水化物×インスリン対炭水化物比)の少なくとも一方を含むインスリン療法を推定する方法を提供する。
・AC学習を使用する適応コントローラ、
・過去24時間のグルコース/インスリンプロファイルを使用して、1日1回評価され(評価主体)および更新(行動主体)されるインスリンコントロールポリシー、
・その日の高血糖および低血糖の状態に関連する2つの特徴によって、より具体的には1日の平均低血糖および/または高血糖の誤差によって示されるグルコース調節システムの状態、
・優先的に時差学習を使用して、グルコース規制システムの状態および対応する割り当てられたローカルコストの計算に基づいて、毎日の終わりにおける制御ポリシー(評価主体)の評価、そして、
・制御ポリシー(行動主体)の更新、最初の期間(この例では一日)から次の期間への、以下の1、2または3の異なるタイプの制御アクションの効果に基づくインスリン変化率、
1) 毎日の低血糖および高血糖状態を翌日に必要なベーサルレートおよびインスリン対炭水化物比の変化の割合に関連付ける決定論的アクション、
2) 制御ポリシーの控えめな提案に対応し、システムに対する安全性およびガイダンスとしての役割を果たす監督的アクション、そして、
3) システムの状態の探索スペースを広げ、より速くより良い収束をサポートする探索的アクション、
・行動主体の範囲は、システムの状態あたりの平均予想コストを最小限に抑えること(管理方針の最適化)。
この方法は、以下の2つの段階を含む。
・方法が初期化される初期化段階、
・適応方法が患者から学習する学習段階(患者固有の管理方針)。
好ましくは、学習段階は連続的であり、初期化段階の後の各期間に実行される。
行動主体の初期ベーサルインスリンレート、初期インスリン対炭水化物比、および/またはポリシーパラメータベクトルは、患者特有のものであり得る。
ACのベーサルインスリンレートおよびインスリン対炭水化物比は、彼/彼女の医師および/またはコンピュータシミュレータによって最適化されるように、患者の個々の値を使用して初期化されてもよい。
ACコントローラのポリシーパラメータベクトルは、各患者から収集した短期間(たとえば4日間)のグルコースおよびインスリンポンプデータに基づいて推定された、インスリンからグルコースへの移行エントロピーを使用して初期化することができる。
インスリンはインスリン類似体であり得る。
この方法は、インスリンを患者に配給する前/最中/後に実施することができる。
この方法は、グルコースモニタおよびインスリンポンプから無線/有線通信インターフェースのリアルタイムデータを受信することができる。
食事は、告知されないか、または患者によって手動で入力されてもよい。
食事は、他のモバイル/スマートフォンアプリケーションまたはセンサとのインターフェースを介してコントローラに伝えられてもよい。
推定ベーサルレートおよびインスリン対炭水化物比は、直接またはポンプの制御ユニットを介して、インスリンポンプまたはインスリンパッチポンプを制御するために使用され得る。
さらなる態様では、本発明は、推定ベーサルレートおよびインスリン対炭水化物比に関して患者に知らせるための装置を提供する。この装置は、本明細書で上述した方法を実行するように構成されたプロセッサを有する任意の携帯用/移動式装置またはスマートフォンであり得る。
この装置は、最適なインスリン療法について患者に通知し、データをクラウド/サーバまたは他の糖尿病技術関連装置に有線/無線で転送するのに必要なすべてのディスプレイおよびインターフェースを含み得る。
この装置は、他のモバイルアプリケーション(例えば、糖尿病電子ログブック、フィットネス/フードアプリなど)とのインターフェースを含み得る。
この装置は、最適なインスリン療法について患者に通知し、データをクラウド/サーバまたは他の糖尿病技術関連装置に有線/無線で転送するのに必要なすべてのディスプレイおよびインターフェースを含み得る。

Claims (18)

  1. 患者のためのインスリン療法を決定するための方法であって、前記方法は、

    データプロセシングシステムに含まれるプロセッサが適応型コントローラを動作させるために強化学習アルゴリズムを実行し、前記強化学習アルゴリズムは、
    a.インスリン注入レートおよびインスリン対炭水化物比の少なくとも一方を含むインスリン制御ポリシー(S)を患者のグルコース調節システムの状態との関連で計算されるコストによって評価する評価主体、および
    b.インスリン制御ポリシー(S)を前記グルコース調節システムの以後の状態との関連で予想される前記コストを最小化するように改善する行動主体を含み、

    所定の期間(k-1)にわたって所定のインスリン制御ポリシー(Sk-1)を適用し、

    血糖値測定装置を用いて前記所定の期間(k-1)にわたって前記患者の血糖データを収集し、

    前記収集された前記血糖データに基づいて前記プロセッサによってグルコース調節システムの状態を決定し、

    前記グルコース調節システムの状態に基づいて、前記プロセッサによって前記強化学習アルゴリズムの前記評価主体を用いて前記所定のインスリン制御ポリシー(Sk-1)を評価し、

    前記プロセッサによって前記強化学習アルゴリズムの前記行動主体を用いて、制御アクションに基づいて前記インスリン制御ポリシー(S)を更新し、前記更新されたインスリン制御ポリシー(S)は、その後の期間(k)にわたって適用されることが意図されており、前記制御アクションは、

    前記グルコース調節システムの状態と、前記グルコース調節システムの状態を以後の期間において必要とされる変化に関連づけるように決定されたポリシーパラメータベクトルとの線形結合を計算する数学的モデルを用いて前記インスリン制御ポリシー(S)を更新する線形決定論的制御アクション(P)、

    前記インスリン制御ポリシー(S)が前記アルゴリズムによって極端に変更されることに対する安全モジュール及び/又は前記更新の方向のガイダンスとしての役割を果たすように、以前のインスリン制御ポリシーの控えめな提案を計算する数学的モデルを用いて前記インスリン制御ポリシー(S)を更新する監視制御アクション(P)、及び

    前記グルコース調節システムの状態の探索スペースを広げ、及び/又はより速い収束をサポートするように白色雑音を計算する数学的モデルを用いて前記インスリン制御ポリシーを更新する探索的制御アクション(P)、

    の少なくとも一つを含む、

    前記患者のためのインスリン療法を決定するための方法。
  2. 前記制御アクションが、前記所定の期間(k-1)から次の期間(k)までの前記インスリン制御ポリシー(S)の変化率として定義される、請求項1に記載の方法。
  3. 前記制御アクションが、前記線形決定論的制御アクション(Pa)、前記監視制御アクション(Ps)および前記探索的制御アクション(Pe)のうちの少なくとも2つを計算するものである、請求項1に記載の方法。
  4. 前記制御アクションが、前記線形決定論的制御アクション(Pa)および前記監視制御アクション(Ps)を計算する数学的モデルによって決定される総合決定論的制御アクション(Pd)を計算するものである、請求項1に記載の方法。
  5. 前記探索的制御アクション(Pe)が、少なくとも前記総合決定論的制御アクション(Pd)を計算する数学的モデルを用いて決定される、請求項4に記載の方法。
  6. 前記評価主体は、前記所定期間(k-1)中に発生した高血糖および低血糖状態に関連する2つの特徴によって前記グルコース調節システムの状態を評価する、請求項1~5のいずれか1項に記載の方法。
  7. 前記評価主体は、前記所定期間(k-1)中に発生した1日の平均低血糖および高血糖の誤差によって前記グルコース調節システムの状態を評価する、請求項1~6のいずれか1項に記載の方法。
  8. 前記評価主体は、前記所定期間における前記グルコース調節システムの状態のローカルコストをさらに計算する、請求項1~7のいずれか1項に記載の方法。
  9. 前記行動主体は、状態当たりの平均予想コストを最小化するように構成される、請求項8に記載の方法。
  10. 評価ステップが各期間の終わりに実行される、請求項1~9のいずれか1項に記載の方法。
  11. 前記ポリシーパラメータベクトルは、総合決定論的制御アクションPと、探索的制御アクションPとの間の差に依存する、請求項4または5に記載の方法。
  12. 前記ポリシーパラメータベクトルが、予め決定された期間の終わりに更新される、請求項1~11のいずれか1項に記載の方法。
  13. 前記ポリシーパラメータベクトルの値または初期値が、インスリンからグルコースへの移行エントロピー計算を使用することによって決定される、請求項1~12のいずれか1項に記載の方法。
  14. インスリンからグルコースへの移行エントロピーが、1から7日の間の期間にわたる血糖データおよびインスリン配給データに基づいて推定される、請求項13に記載の方法。
  15. 初期インスリン制御ポリシーおよび/またはポリシーパラメータベクトルの初期値が決定されて患者に適合される初期化段階をさらに含む、請求項1~14のいずれか1項に記載の方法。
  16. 前記初期化段階の期間が、1~7日の間である、請求項15に記載の方法。
  17. 前記所定の期間および/または後続の期間の持続時間が、1時間~36時間の間である、請求項1~16のいずれか1項に記載の方法。
  18. 前記初期インスリン制御ポリシーが、患者の医師および/またはコンピュータシミュレータによって最適化された患者の個々の値を計算することによって決定される、請求項15又は16に記載の方法。
JP2019523199A 2016-07-15 2017-07-14 強化学習に基づくインスリンの評価 Active JP7019127B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IB2016054242 2016-07-15
IBPCT/IB2016/054242 2016-07-15
PCT/IB2017/054283 WO2018011766A1 (en) 2016-07-15 2017-07-14 Estimation of insulin based on reinforcement learning

Publications (2)

Publication Number Publication Date
JP2019525367A JP2019525367A (ja) 2019-09-05
JP7019127B2 true JP7019127B2 (ja) 2022-02-15

Family

ID=59677263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019523199A Active JP7019127B2 (ja) 2016-07-15 2017-07-14 強化学習に基づくインスリンの評価

Country Status (4)

Country Link
US (1) US10937536B2 (ja)
EP (1) EP3485409A1 (ja)
JP (1) JP7019127B2 (ja)
WO (1) WO2018011766A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3319511B1 (en) 2015-08-07 2021-10-06 Trustees of Boston University Glucose control system with automatic adaptation of glucose target
WO2018167543A1 (en) 2017-03-17 2018-09-20 Universität Bern System and method for drug therapy management
US11457863B1 (en) * 2017-10-27 2022-10-04 Verily Life Sciences Llc Virtual health coach based insulin titration platform
EP3731233A1 (en) 2019-04-24 2020-10-28 Digital Diabetes Analytics Sweden AB Decision support system, and method in relation thereto
US11957876B2 (en) 2019-07-16 2024-04-16 Beta Bionics, Inc. Glucose control system with automated backup therapy protocol generation
AU2020314752A1 (en) 2019-07-16 2022-02-24 Beta Bionics, Inc. Blood glucose control system
DE112020003392T5 (de) 2019-07-16 2022-05-19 Beta Bionics, Inc. Blutzuckerkontrollsystem
EP4042436A4 (en) * 2019-10-04 2023-10-04 Beta Bionics, Inc. BLOOD SUGAR CONTROL SYSTEM
US11931548B2 (en) 2020-08-26 2024-03-19 Anas EL FATHI Method and system for determining optimal and recommended therapy parameters for diabetic subject
US11594314B2 (en) 2020-12-07 2023-02-28 Beta Bionics, Inc. Modular blood glucose control systems

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014204998A (ja) 2007-01-31 2014-10-30 メドトロニック・ミニメッド・インコーポレーテッド インスリン注入を制御および監視するモデル予測の方法およびシステム
US20150100038A1 (en) 2013-10-04 2015-04-09 Animas Corporation Method and system for controlling a tuning factor due to sensor replacement for closed-loop controller in an artificial pancreas

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005113036A1 (en) * 2004-05-13 2005-12-01 The Regents Of The University Of California Method and apparatus for glucose control and insulin dosing for diabetics
GB201319681D0 (en) * 2013-11-07 2013-12-25 Imp Innovations Ltd System and method for drug delivery
US20170277841A1 (en) * 2016-03-23 2017-09-28 HealthPals, Inc. Self-learning clinical intelligence system based on biological information and medical data metrics

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014204998A (ja) 2007-01-31 2014-10-30 メドトロニック・ミニメッド・インコーポレーテッド インスリン注入を制御および監視するモデル予測の方法およびシステム
US20150100038A1 (en) 2013-10-04 2015-04-09 Animas Corporation Method and system for controlling a tuning factor due to sensor replacement for closed-loop controller in an artificial pancreas

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Elena Daskalaki, 外2名,"Personalized Tuning of a Reinforcement Learning Control Algorithm for Glucose Regulation",35th Annual International Conference of the IEEE EMBS,2013年07月03日,pp.3487-3490

Also Published As

Publication number Publication date
EP3485409A1 (en) 2019-05-22
WO2018011766A1 (en) 2018-01-18
JP2019525367A (ja) 2019-09-05
US20190214124A1 (en) 2019-07-11
US10937536B2 (en) 2021-03-02

Similar Documents

Publication Publication Date Title
JP7019127B2 (ja) 強化学習に基づくインスリンの評価
US20220054748A1 (en) Control model for artificial pancreas
US8690820B2 (en) Automatic insulin pumps using recursive multivariable models and adaptive control algorithms
DK2400882T3 (en) METHOD AND SYSTEM FOR AUTOMATIC MONITORING OF DIABETES-RELATED TREATMENTS
US9507917B2 (en) Monitoring device for management of insulin delivery
US20160354543A1 (en) Multivariable artificial pancreas method and system
Daskalaki et al. An Actor–Critic based controller for glucose regulation in type 1 diabetes
Daskalaki et al. Real-time adaptive models for the personalized prediction of glycemic profile in type 1 diabetes patients
Hajizadeh et al. Plasma-insulin-cognizant adaptive model predictive control for artificial pancreas systems
Emerson et al. Offline reinforcement learning for safer blood glucose control in people with type 1 diabetes
De Paula et al. On-line policy learning and adaptation for real-time personalization of an artificial pancreas
Allam et al. Evaluation of using a recurrent neural network (RNN) and a fuzzy logic controller (FLC) in closed loop system to regulate blood glucose for type-1 diabetic patients
Shi et al. Feedback control algorithms for automated glucose management in T1DM: the state of the art
CN111048178A (zh) 胰岛素控制方法、装置和设备
Zhao et al. Multiple order model migration and optimal model selection for online glucose prediction in type 1 diabetes
JP2004033673A (ja) 脳内発作発現を予測し検出する統合確率フレームワークおよび多重治療デバイス
Baucum et al. Adapting reinforcement learning treatment policies using limited data to personalize critical care
Sun et al. Adaptive personalized prior-knowledge-informed model predictive control for type 1 diabetes
Dénes-Fazakas et al. Control of type 1 diabetes mellitus using direct reinforcement learning based controller
Cai et al. Data-enabled learning and control algorithms for intelligent glucose management: The state of the art
Sevil et al. Automated insulin delivery systems for people with type 1 diabetes
Allam et al. Blood glucose regulation using a neural network predictor with a fuzzy logic controller
Yu et al. ARLPE: A meta reinforcement learning framework for glucose regulation in type 1 diabetics
Eren et al. Adaptive control strategy for glucose regulation using recursive linear models
Sinzinger et al. Sedation of simulated ICU patients using reinforcement learning based control

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200526

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210108

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210331

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220113

R150 Certificate of patent or registration of utility model

Ref document number: 7019127

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150