JP7305028B2 - 動的治療のための敵対的協調模倣学習 - Google Patents

動的治療のための敵対的協調模倣学習 Download PDF

Info

Publication number
JP7305028B2
JP7305028B2 JP2022505538A JP2022505538A JP7305028B2 JP 7305028 B2 JP7305028 B2 JP 7305028B2 JP 2022505538 A JP2022505538 A JP 2022505538A JP 2022505538 A JP2022505538 A JP 2022505538A JP 7305028 B2 JP7305028 B2 JP 7305028B2
Authority
JP
Japan
Prior art keywords
patient
model
trajectory
treatment
negative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022505538A
Other languages
English (en)
Other versions
JP2022542283A (ja
Inventor
ウェンチャオ ユ、
ハイフォン チェン、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2022542283A publication Critical patent/JP2022542283A/ja
Application granted granted Critical
Publication of JP7305028B2 publication Critical patent/JP7305028B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Description

関連出願情報
本出願は2019年8月29日に出願された米国仮出願第62/893,324号、および2020年8月20日に出願された米国特許出願第16/998,228号の優先権を主張し、それぞれ、参照によりその全体が本明細書に組み込まれる。
本発明は、患者に医学的治療を提供することに関し、より詳細には、患者の変化する状態に従って経時的に調整されるテーラード治療を決定することに関する。
関連技術の説明
個々の患者の治療法を決定することは、従来、熟練した医師によって行われてきた。医師は、経験と訓練を応用して、患者のニーズを評価し、一連の治療を提供する。しかしながら、人間の判断が誤りやすいことは、誤診につながる。その結果、特に患者の状態の変化に応じた治療計画の改善に適用されるように、医療意思決定のプロセスを自動化する必要がある。
変化する状態に応答する方法は、プロセッサを使用し、正のアウトカムをもたらした軌跡と負のアウトカムをもたらした軌跡とを使用してモデルを訓練することを含む。訓練は、正のアウトカムをもたらした履歴軌跡に類似する軌跡を生成するようにモデルを訓練するために敵対的識別器を使用し、負のアウトカムをもたらした履歴軌跡と異なる軌跡を生成するようにモデルを訓練するために協調的識別器を使用して実行される。動的応答レジームは、訓練されたモデルおよび環境情報を使用して生成される。変化する環境状態への応答は、動的応答レジームに従って実行される。
患者を治療する方法は、正の健康アウトカムをもたらした軌跡と、負の健康アウトカム結果をもたらした軌跡とを含む、履歴治療軌跡についてモデルを訓練することを含む。訓練されたモデルおよび患者情報を使用して、患者のために動的治療レジームが生成される。患者は、患者に治療を施すために1つまたは複数の医療デバイスをトリガすることによって、患者の状態の変化に応答する方法で、動的治療レジームに従って治療される。
患者を治療するシステムは、環境情報を使用するための動的応答レジームを生成するように構成された機械学習モデルを含む。モデルトレーナは、機械学習モデルを訓練するように構成され、正のアウトカムをもたらした軌跡と負のアウトカムをもたらした軌跡とを含み、敵対的識別器を使用することによって、正のアウトカムをもたらした履歴軌跡に類似する軌跡を生成するように機械学習モデルを訓練し、協調的識別器を使用することによって、負のアウトカムをもたらした履歴軌跡と異なる軌跡を生成するように機械学習モデルを訓練する。応答インタフェースは、動的応答レジームに従って、変化する環境状態に対する応答をトリガするように構成される。
これらおよび他の特徴および利点は、添付の図面に関連して読まれるべき、その例示的な実施形態の以下の詳細な説明から明らかになるのであろう。
本開示は、以下の図面を参照して、好ましい実施形態の以下の説明において詳細を提供する。
本発明の一実施形態による、患者の状態の変化に反応するために動的治療レジームを使用するシステムによって監視および治療される患者を示すブロック図である。
本発明の一実施形態による、患者のための動的治療レジームを生成し、実施する方法のブロック/フロー図である。
本発明の一実施形態による、動的治療レジームを生成するために機械学習モデルを訓練する方法のブロック/フロー図である。
本発明の一実施形態による、動的治療レジームを生成するための機械学習モデルのための学習プロセスのための擬似コードである。
本発明の一実施形態による、動的治療レジームを生成し、実施する動的治療レジームシステムのブロック図である。
本発明の一実施形態による、例示的なニューラルネットワーク構造の図である。
本発明の一実施形態による、重みを有する例示的なニューラルネットワーク構造の図である。
本発明の実施形態は、動的治療レジーム(DTR)、すなわち、患者の動的状態に従って、治療が時間を経てどのように調整されるべきかを指定するテーラード治療決定のシーケンスを提供する。DTRのルールは、患者の病歴、検査結果、人口統計学的情報などの入力情報を取得し、推奨される治療を出力して治療プログラムの有効性を向上させることができる。
本実施形態は、例えば、医師の以前の治療計画から治療方針を学習するために、機械学習のための深層強化技術を利用することができる。本実施形態は、行動クローニングと強化学習モデルにおける自己定義報酬信号のスパース性とに基づく教師あり方法から生じる可能性がある合成誤差を回避するように行う。治療経路には、患者にとって正の健康アウトカムが達成された正の軌跡と、負の健康アウトカムがもたらされた負の軌跡の両方が含まれると考えられる。正と負の両方の軌跡を使用することによって、生産的計画が学習され、非生産的計画が回避される。
そのために、本実施形態は、敵対的協調模倣学習(ACIL)モデルを使用して、負の軌跡から離れたままで、正のアウトカムをもたらす動的治療レジームを決定する。敵対的識別器および協調的識別器を含む2つの識別器を使用することができる。敵対的識別器は、訓練データのセットにおける出力軌跡と正の軌跡との間の不一致を最小化し、協調的識別器は、負の軌跡を正の軌跡および出力軌跡から区別する。識別器からの報酬信号は、動的治療レジームを生成するポリシーを洗練するために使用される。
モデルが学習したポリシーに基づき、DTRが特定の患者情報に対応して生成される。そして、これらのDTRは、患者ごとに変化する状態に応答して、患者に指定されたケアおよび治療を提供することによって、実施される。それによって、本実施形態は、負の健康アウトカムの尤度を低減し、優れた動的治療レジームを提供する。
図1を参照すると、本発明の実施形態が示されている。患者102が示されている。患者102は、例えば、治療されている医学的状態を有することができる。1つまたは複数のセンサ104は、患者の状態に関する情報を監視し、その情報を患者モニタ106に提供する。この情報は、心拍数、血中酸素飽和度、血圧、体温、血糖値などのバイタル情報を含むことができる。情報はまた、行動および位置などの患者活動情報を含むことができる。それぞれの場合において、情報は、任意の適切な感知装置または装置104によって収集され得る。また、患者モニタ106は、例えば、患者の人口統計学的情報(例えば、年齢、病歴、家族の病歴等)および患者自身の症状の申告(例えば、患者による入力又は医療専門家による収集)を含む、直接感知されない患者に関する情報を受け付けることもできる。
患者モニタ106は、収集された情報をDTRシステム108に適したフォーマットでレンダリングする。DTRシステム108は、患者の監視情報の更新に基づいて、治療がどのように進行すべきかについてのルールのセットを含む。そのようなルールの単なる一例として、患者の血圧が閾値未満に低下した場合、DTRシステム108は、適切な医学的応答および治療に対する調整を示し得る。DTRシステムのポリシーは、以下でより詳細に説明するように、成功した治療および失敗した治療の過去の事例を組み込むために事前に学習され、それによって、成功した治療軌跡に近いままであり、失敗した治療軌跡から離れたままであるルールのセットを提供する。
治療適用システム110は、DTRシステム108からの指示を受け付け、適切な行動をとる。治療推奨が医療専門家の介入を伴う場合に、治療システム110は、推奨される治療についての警告または指示を出力することができる。他の場合には、治療推奨が1つ以上の医療デバイス112による自動治療介入を含むことができる。そのような自動治療のほんの一例として、DTRシステム108が患者の降下する血圧が迅速な薬学的介入を必要とすることを示す場合、治療システム110は、治療装置に、患者の血流に適切な薬物を導入させてもよい。
このようにして、本実施形態は、患者の変化する医学的状態に応じて、患者の治療に対して迅速な調整を行うことができる。これにより、誤りやすい人間の意思決定への依存を減らし、特に、決定が迅速かつ正確になされる必要があるストレスの多い状況において、優れたアウトカムをもたらすことができる。
図2を参照すると、患者を治療する方法が示されている。ブロック202は、例えば、履歴治療軌跡の記録を含む訓練データのセットを構築する。履歴治療軌跡は、患者さんの状態に関する情報、治療行為や変更のタイミングと種類に関する情報、治療のアウトカムに関する情報などを含み得る。正の健康アウトカムおよび負の健康アウトカムの両方を伴う治療軌跡が、訓練セットに含まれる。
いくつかの実施形態では、軌跡がポリシーπから導出された状態および行動
Figure 0007305028000001
のシーケンスとして表すことができる。したがって、各状態
Figure 0007305028000002
は、時刻tにおいて収集された患者情報を含み、各行動
Figure 0007305028000003
は、K次元の2値ベクトルを含み、ここで、各次元の値は、特定の薬剤、投薬または治療行動の適用を表す。軌跡の一部は、正のアウトカム(π+)をもたらすポリシーに関連付けられているが、他の軌跡は、負のアウトカム(π-)をもたらすポリシーに関連付けられている。正の軌跡は、
Figure 0007305028000004
と表すことができ、負の軌跡は、
Figure 0007305028000005
と表すことができる。
次いで、ブロック204は、訓練セットを使用してACILモデルを訓練する。このモデルは、以下でより詳細に説明する機械学習技術を使用して実施することができる。モデルは、患者情報を入力として受け付け、患者に対する1つ以上のDTRポリシーを出力する。上述のように、DTRポリシーは、治療を変化する患者の状態に適応させるために使用される1つ以上のルールを含む。
次に、ブロック206は、上述したように、特定の患者102に関する情報を収集する。ブロック208において、患者情報は、その患者の治療ニーズに関連して、特定の患者102に対するDTRポリシーを生成するために、ACILモデルへの入力として使用される。出力ポリシーは、特定のポリシールールを示すパラメータベクトルθを用いてπθと表すことができる。次に、ブロック210は、収集された患者情報を使用し、ポリシーπθによって生成される軌跡τθに従って、推奨治療を患者102に適用する。時間が経過するにつれて、ブロック212は、例えば、現在の測定値を用いて患者情報を更新する。次いで、ブロック210は、この更新された情報を使用して、DTRに従って、必要とされ得る任意の更新された治療を決定する。このプロセスは、無期限に継続することができ、または正または負の健康アウトカムによって中断することができる。
次に、図3を参照すると、ブロック204におけるACILモデルの訓練に関する追加情報が示されている。概要として、ブロック302は、環境シミュレータとなる患者モデルを訓練する。次いで、敵対的識別器、協調的識別器、およびポリシーネットワークは、それらがブロック304、306、および308において収束するまで反復的に訓練される。収束は、例えば、1つの反復から次の反復までの改善が所定の閾値を下回ったと判定することによって判定することができる。あるいは、処理が所定の反復回数に達したときに停止することができる。
ブロック302では、モデルベースの強化学習および軌跡埋め込みのために、変分自己符号化器などの生成モデルで環境をシミュレートすることができる。可変自己符号化器を使用する代わりに、敵対的生成ネットワークを代わりに使用することができる。変分自己符号化器アーキテクチャは、状態分布を基礎となる潜在空間に変換する患者モデルを構築する。患者モデルは、現在の状態および行動を潜在分布
Figure 0007305028000006
にマッピングするエンコーダと、潜在zと現在の状態Sと行動
Figure 0007305028000007
とを後続状態(successor state)
Figure 0007305028000008
にマッピングするデコーダと、を含む。患者モデルは、潜在分布zの下で、入力状態St+1と復号器によって生成される再構成状態
Figure 0007305028000009
との間の再構成誤差を最小化するように訓練される。この目的関数は、
Figure 0007305028000010
と表すことができる。ここで、wは再構成誤差であり、Stは時刻tにおける状態であり、
Figure 0007305028000011
は、時刻tにおける行動であり、
Figure 0007305028000012
は、現在の状態Sおよび行動
Figure 0007305028000013
を入力とし、第1のパラメータw1を使用するエンコーダネットワークであり、
Figure 0007305028000014
は、潜在因子zと現在の状態と行動とを入力とし、第2のパラメータw2を使用するデコーダネットワークの出力である。変数αは、2種類の損失間のバランス重みを表し、関数DKLは、カルバックライブラーダイバージェンスである。
一般に、自己符号化器は、入力情報、この場合は「行動」および「状態」を、「符号化」しようとし、それらを潜在空間に変換する。いくつかの実施形態では、この潜在空間は、互いに容易に比較することができるベクトルとして行動および状態を表すことができる。次に、復号器は、これらのベクトルを「行動」および「状態」に変換し戻し、誤差wは、復号器の出力と符号化器への入力との間の差を表す。次いで、自己符号化器のパラメータを修正して、誤差の値を低減する。訓練は、誤差値がそれ以上の訓練が必要とされない点に達するまで、各反復でパラメータが修正されながら継続する。これは、例えば、誤差値が閾値を下回ったとき、または誤差値が反復回数にわたって著しく変化しないときにトリガされてもよい。
ブロック304において、敵対的識別器を訓練することは、正のアウトカムシナリオの軌跡と、ポリシーネットワークによって生成された軌跡との間の比較を含む。一般に、2つのポリシー(例えば、ACILモデルによって生成されたポリシーπθと、正のアウトカムπ+をもつポリシー)の間の差異は、それらが生成する軌跡を比較することによって比較される。ポリシー
Figure 0007305028000015
について、占有度(occupancy measure)
Figure 0007305028000016

Figure 0007305028000017
と定義することができる。ここで、γは割引率であり、Tは最大時間値であり、後続状態は、
Figure 0007305028000018
から導出される。占有度は、ポリシーが環境内で対話する状態行動対の分布として解釈することができる。πθは、多層パーセプトロンネットワークとして実施することができ、ここで、πθは患者の状態を入力として、例えば推奨薬を返す。
敵対的識別器
Figure 0007305028000019
はまた、状態行動対
Figure 0007305028000020
が生成されたポリシーπθではなく、正の軌跡ポリシーπ+から来る確率を推定する、微調整されたパラメータである層の数と次元を有する多層パーセプトロンネットワークとして実施することができる。敵対的識別器の学習は、以下の目的関数として表すことができる。
Figure 0007305028000021
この目的関数は、ポリシーπθとポリシーπ+を使用して環境対話によって生成される、状態行動対
Figure 0007305028000022

Figure 0007305028000023
の分布間のJensen-ShannonダイバージェンスDJSを最小化することに相当する。
Figure 0007305028000024
は、
Figure 0007305028000025
からサンプリングされたすべての
Figure 0007305028000026
対に対する期待値を表す。
Figure 0007305028000027
とπθ を最適化する目標は逆である(
Figure 0007305028000028
は、πθによって生成される状態行動対の確率を最小化しようとし、一方πθは、
Figure 0007305028000029
が誤りを起こす確率を最大化するように選択される)ため、
Figure 0007305028000030
は敵対的識別器と呼ばれる。
ブロック306において、協調的識別器を訓練することは、生成された軌跡と正の軌跡ポリシーとを負の軌跡ポリシーから区別するためにモデルを訓練することを含む。占有度
Figure 0007305028000031
は、異なるポリシーを比較するために再び使用することができる。協調的識別器
Figure 0007305028000032
を学習するための目的関数は、
Figure 0007305028000033
と表すことができる。
この目的関数は、πθおよびπ+から生成された正の軌跡とπ-から生成された負の軌跡とを分類する最適な負のログ損失(optimal negative log loss)を特性化する。これを協調的識別器と呼ぶのは、
Figure 0007305028000034
とπθ との目標が両方ともπθによって生成されるデータの確率を最大にすることであるからである。
Figure 0007305028000035

Figure 0007305028000036
とからの損失は、πθを洗練するのに役立つ報酬関数と考えることができる。分布
Figure 0007305028000037

Figure 0007305028000038
と異なる場合、
Figure 0007305028000039
から大きな報酬を受け取る。最適な
Figure 0007305028000040
では、πθの損失は
Figure 0007305028000041
である。
ブロック308では、ポリシーネットワークを訓練することにより、ポリシーネットワークπθをアップデートして、正の軌跡を模倣し、負の軌跡から離れるようにする。ネットワークは、
Figure 0007305028000042

Figure 0007305028000043
の両方からの報酬信号を組み込む。
Figure 0007305028000044
からの信号は、πθ をπ+に近づけるために使用され、
Figure 0007305028000045
からの信号は、πθ とπ-を分離する。損失関数は、
Figure 0007305028000046
と定義できる。ここで、
Figure 0007305028000047
は、ポリシーのカジュアルエントロピーであり、学習されたポリシーにおける多様性を促進する。λ≧0は、
Figure 0007305028000048
を制御するために使用されるパラメータである。パラメータ
Figure 0007305028000049
および
Figure 0007305028000050
は、0と1との間の値を有する重みであり、報酬信号のバランスをとる。
敵対的識別器
Figure 0007305028000051
、協調的識別器
Figure 0007305028000052
、およびポリシーネットワークπθは、三者のミニマックスゲームにおいて訓練され、
これは、
Figure 0007305028000053
と定義できる。ここで、
Figure 0007305028000054
および
Figure 0007305028000055
は、敵対的識別器および協調的識別器の寄与を重み付けする重みパラメータである。ポリシーπθのエントロピーは、ポリシーの多様性を促進し、
Figure 0007305028000056
と定義される。
Figure 0007305028000057

Figure 0007305028000058
の両方が最適化されるとき、三者のミニマックスゲームのアウトカムは、以下の最適化問題に等しい。
Figure 0007305028000059
これは、占有度が、π+に対するJSダイバージェンスを最小化し、π-に対するJSダイバージェンスを最大化するポリシーを見出す。
図4を参照すると、ACILモデルの学習プロセスの疑似コードが示されている。まず、患者モデル
Figure 0007305028000060
が訓練され、続いて
Figure 0007305028000061
およびπθの反復訓練が行われる。
試験において、本実施形態は、治療軌跡を生成するためのベースラインプロセスを実質的に上回るポリシーを生成した。ACILは、DTRの発見を逐次的な意思決定問題と考え、現在の行動の長期的影響に焦点を当てている。さらに、訓練データとして正および負の両方の軌跡例を使用することにより、ACILは間違いを回避しながら、正の健康アウトカムを有するポリシーを模倣することができる。その結果、優れた治療方針となり、正の健康アウトカムの尤度を最大化する方法で、変化する患者の状態に対応する。
本明細書に記載する実施形態は、完全にハードウェアであってもよく、完全にソフトウェアであってもよく、またはハードウェアおよびソフトウェア要素の両方を含むものであってもよい。好ましい実施形態では、本発明がファームウェア、常駐ソフトウェア、マイクロコードなどを含むが、これらに限定されないソフトウェアで実施される。
実施形態は、コンピュータまたは任意の命令実行システムによって、またはそれに関連して使用するプログラムコードを提供する、コンピュータ使用可能またはコンピュータ可読媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを格納、通信、伝搬、または転送する任意の装置を含むことができる。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体システム(または装置またはデバイス)、または伝搬媒体とすることができる。媒体は、半導体または固体メモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスクおよび光ディスクなどのコンピュータ読み取り可能な記憶媒体を含むことができる。
各コンピュータプログラムは、本明細書に記載する手順を実行するために、記憶媒体または装置がコンピュータによって読み取られるときに、コンピュータの操作を構成し制御するために、汎用または特殊目的のプログラム可能コンピュータによって読み取り可能な、機械読み取り可能な記憶媒体または装置(例えば、プログラムメモリまたは磁気ディスク)に実体的に記憶することができる。本発明のシステムはまた、コンピュータプログラムで構成された、コンピュータ読み取り可能な記憶媒体で実施されるものと考えることができ、その場合、構成された記憶媒体は、コンピュータを特定の所定の方法で動作させて、本明細書に記載する機能を実行させる。
プログラムコードを記憶および/または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接的または間接的に結合された少なくとも1つのプロセッサを含んでもよい。メモリ要素は、プログラムコードの実際の実行中に使用されるローカルメモリ、バルクストレージ、および実行中にバルクストレージからコードが検索される回数を減らすために少なくとも何らかのプログラムコードの一時記憶を提供するキャッシュメモリを含むことができる。入力/出力またはI/O装置(キーボード、ディスプレイ、ポインティングデバイスなどを含むが、これらに限定されない)は、直接または介在するI/Oコントローラを介してシステムに結合され得る。
介在する専用ネットワークまたは公衆ネットワークを介して、データ処理システムを他のデータ処理システムあるいはリモートプリンタまたはストレージデバイスに結合できるようにするために、ネットワークアダプタをシステムに結合することもできる。モデム、ケーブルモデム、およびイーサネットカードは、現在使用可能なネットワークアダプタのタイプの一例に過ぎない。
本明細書で使用されるように、「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、1つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、ソフトウェア、またはそれらの組み合わせを指すことができる。有用な実施形態では、ハードウェアプロセッササブシステムが1つまたは複数のデータ処理要素(例えば、論理回路、処理回路、命令実行デバイスなど)を含むことができる。1つまたは複数のデータ処理要素は、中央処理装置、グラフィックス処理装置、および/または別個のプロセッサまたはコンピューティング要素ベースのコントローラ(たとえば、論理ゲートなど)に含めることができる。ハードウェアプロセッササブシステムは、1つ以上のオンボードメモリ(例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリなど)を含むことができる。いくつかの実施形態では、ハードウェアプロセッササブシステムが、オンボードまたはオフボードにすることができるか、またはハードウェアプロセッササブシステム(例えば、ROM、RAM、基本入出力システム(BIOS)など)によって使用するために専用にすることができる1つ以上のメモリを含むことができる。
ある実施形態では、ハードウェアプロセッササブシステムは、1つ以上のソフトウェア要素を含むことができ、実行することができる。1つ以上のソフトウェア要素は、特定の結果を達成するために、オペレーティングシステムおよび/または1つ以上のアプリケーションおよび/または特定のコードを含むことができる。
他の実施形態では、ハードウェアプロセッササブシステムは、指定された結果を達成するために1つまたは複数の電子処理機能を実行する専用の特殊回路網を含むことができる。そのような回路は、1つまたは複数の特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、および/またはプログラマブルロジックアレイ(PLA)を含むことができる。
ハードウェアプロセッササブシステムのこれらおよび他の変形もまた、本発明の実施形態に従って企図される。
ここで図5を参照すると、DTRシステム108のさらなる詳細が示されている。システム108は、ハードウェアプロセッサ502と、ハードウェアプロセッサ502に結合されたメモリ504とを含むことができる。モニタインタフェース506は、DTRシステム108と患者モニタ106との間の通信を提供し、一方、治療インタフェースは、DTRシステム108と治療適用システム110との間の通信を提供する。
インタフェース106および110は、それぞれ、任意の適切な有線または無線通信プロトコルおよび媒体を含むことができることが理解されるべきである。いくつかの実施形態では、DTRシステム108は、患者モニタ106および治療適用システム110の一方または両方と一体化され、そのインタフェース106、110がバスなどの内部通信を表すようになっていてもよい。いくつかの実施形態では、患者モニタ106および治療適用システム110の一方または両方が、DTRシステム108と通信する、独立した、別個のハードウェアとして実装することができる。
DTRシステム108は、1つまたは複数の機能モジュールを含むことができる。いくつかの実施形態では、このようなモジュールは、メモリ504に記憶され、ハードウェアプロセッサ502によって実行されるソフトウェアとして実現することができる。他の実施形態では、そのようなモジュールは、1つまたは複数の個別ハードウェア構成要素として実装することができ、例えば、特定用途向け集積チップまたはフィールドプログラマブルゲートアレイとして実装することができる。
動作中、患者情報は、モニタインタフェース506を介して受信される。いくつかの実施形態では、この情報は、種々のセンサ104からの離散的なセンサ読み取り値として受信されてもよい。他の実施形態では、この情報は、複数の測定値を表す統合ベクトルとして患者モニタ106から受信されてもよい。いくつかの患者情報はまた、例えば、患者の人口統計学的情報および病歴の形態で、メモリ504に記憶されてもよい。
ACILモデル510は、収集された患者情報を使用して、治療軌跡を生成する。この軌跡は、新しい患者情報が受信されると更新される。治療インタフェース508は、患者と共に使用するために、治療軌跡に関する情報を治療適用システム110に送る。
いくつかの実施形態では、ACILモデル510は、1つ以上の人工ニューラルネットワークを用いて実装されてもよい。これらのネットワークは、例えば、モデルトレーナ512を使用して、上述の方法で訓練される。モデルトレーナは、訓練データのセットを使用する。訓練データのセットは、メモリ504に格納されてもよく、正の健康アウトカムをもたらす治療軌跡、ならびに負の健康アウトカムをもたらす治療軌跡を含んでもよい。
人工ニューラルネットワーク(ANN)は、脳などの生体神経系によって刺激される情報処理システムである。ANNの重要な要素は、情報処理システムの構造であり、この情報処理システムは、特定の問題を解決するために並列に動作する多数の高度に相互接続された処理要素(「ニューロン」と呼ばれる)を含む。さらに、ANNは、ニューロン間に存在する重みの調整を含む学習を用いて、使用中に訓練される。ANNは、そのような学習プロセスを介して、パターン認識またはデータ分類などの特定の適用のために構成される。
図6を参照すると、ニューラルネットワークの一般化された図が示されている。ANNは、複雑または不正確なデータから意味を導出する能力を示し、パターンを抽出し、人間または他のコンピュータベースのシステムによって検出するには複雑すぎる傾向を検出するために使用することができる。ニューラルネットワークの構造は、一般に、1つ以上の「隠れ」ニューロン604に情報を提供する入力ニューロン602を有することが知られている。入力ニューロン602と隠れニューロン604との間の接続608は、重み付けされ、そして、これらの重み付けされた入力は、層間の重み付けされた接続608で、隠れニューロン604でのある関数に従って、隠れニューロン604によって処理される。隠れニューロン604と、異なる関数を実行するニューロンとの任意の数の層が存在し得る。畳み込みニューラルネットワーク、最大出力ネットワーク等のような異なるニューラルネットワーク構造も存在する。最後に、出力ニューロン606のセットは、隠れニューロン604の最後のセットからの重み付けされた入力を受け付けて処理する。
これは、情報が入力ニューロン602から出力ニューロン606に伝播する「フィードフォワード」計算を表す。フィードフォワード計算が完了すると、出力は、訓練データから利用可能な所望の出力と比較される。そして、訓練データに対する誤差は、「フィードバック」計算で処理される。ここで、隠れニューロン604および入力ニューロン602は、出力ニューロン606から後方に伝播する誤差に関する情報を受け取る。一旦、後方への誤差伝播が完了すると、重み付け更新が実行され、重み付けされた接続608が受信された誤差を考慮するように更新される。これは、単に1つの種類のANNを表す。
図7を参照すると、ANNアーキテクチャ700が示されている。本アーキテクチャは、純粋に例示的なものであり、代わりに他のアーキテクチャまたはタイプのニューラルネットワークを使用することができることを理解されたい。本明細書で説明されるANNの実施形態は、高レベルの一般性でニューラルネットワーク計算の一般原理を示すことを意図して含まれており、いかなる形でも限定するものと解釈されるべきではない。
さらに、以下に記載されるニューロンの層およびそれらを接続する重みは、一般的な様式で記載され、任意の適切な程度またはタイプの相互接続性を有する任意のタイプのニューラルネットワーク層によって置き換えられ得る。例えば、層は、畳み込み層、プーリング層、完全に接続された層、ソフトマックス層、または任意の他の適切なタイプのニューラルネットワーク層を含むことができる。さらに、必要に応じて層を追加または除去することができ、相互接続のより複雑な形態について重みを省略することができる。
フィードフォワード動作中、1組の入力ニューロン702はそれぞれ、重み704のそれぞれの行に並列に入力信号を供給する。重み704はそれぞれ、重み出力が重み704からそれぞれの隠れニューロン706に渡されて、隠れニューロン706への重み付けされた入力を表すように、それぞれの設定可能な値を有する。ソフトウェアの実施形態では、重み704は、単に、関連する信号に対して乗算される係数値として表すことができる。各重みからの信号は、列ごとに加算され、隠れニューロン706に流れる。
隠れニューロン706は、重み704のアレイからの信号を使用して、何らかの計算を実行する。次に、隠れニューロン706は、それ自体の信号を重み704の別のアレイに出力する。このアレイは、同じ方法で、重み704の列が、それぞれの隠れニューロン706から信号を受け取り、行方向に加算し、出力ニューロン708に供給される重み付けされた信号出力を生成する。
アレイおよび隠れニューロン706の追加の層を介在させることによって、任意の数のこれらのステージを実施できることを理解されたい。また、いくつかのニューロンは、アレイに一定の出力を提供する定常ニューロン709であってもよいことに注意すべきである。定常ニューロン709は、入力ニューロン702および/または隠れニューロン706の間に存在することができ、フィードフォワード動作中にのみ使用される。
バックプロパゲーションの間、出力ニューロン708は、重み704のアレイを横切って戻る信号を提供する。出力層は、生成されたネットワーク応答を訓練データと比較し、誤差を計算する。誤差信号を誤差値に比例させることができる。この実施例では、重み704の行が、それぞれの出力ニューロン708から並列に信号を受け取り、列ごとに加算して隠れニューロン706に入力を提供する出力を生成する。隠れニューロン706は、重み付けされたフィードバック信号をそのフィードフォワード計算の導関数と組み合わせ、フィードバック信号を重み704のそれぞれの列に出力する前に誤差値を記憶する。このバックプロパゲーションは、すべての隠れニューロン706および入力ニューロン702が誤差値を記憶するまで、ネットワーク700全体を通って進行する。
重み更新の間、記憶された誤差値は、重み704の設定可能な値を更新するために使用される。このようにして、重み704は、ニューラルネットワーク700をその処理における誤差に適応させるように訓練され得る。3つの動作モード、すなわち、フィードフォワード、バックプロパゲーション、および重み更新は、互いに重複しないことに留意されたい。
本明細書では本発明の「一つ実施形態」または「一実施形態」、ならびにその他の変形形態に言及し、実施形態に関連して説明した特定の特徴、構成、特性などは、本発明の少なくとも1つの実施形態に含まれることを意味する。したがって、「一つの実施形態において」または「一実施形態において」という語句の出現、ならびに本明細書全体を通して様々な個所に出現する任意の他の変形形態は、必ずしもすべてが同じ実施形態を参照しているわけではない。しかしながら、本明細書で提供される本発明の教示を前提として、1つまたは複数の実施形態の特徴を組み合わせることができることを理解されたい。
以下の「/」、「および/または」および「少なくとも1つ」、例えば、「A/B」、「Aおよび/またはB」、および「Aおよび/またはBの少なくとも1つ」のいずれかの使用は、第1のリストされたオプション(A)のみの選択、または第2のリストされたオプション(B)のみの選択、または両方のオプション(AおよびB)の選択を包含することが意図されることを理解されたい。さらなる例として、「A、B、および/またはC」および「A、B、およびCの少なくとも1つ」の場合において、このような句は、第1のリストされたオプション(A)のみの選択、または第2のリストされたオプション(B)のみの選択、または第3のリストされたオプション(C)のみの選択、または第1および第2のリストされたオプション(AおよびB)のみの選択、または第1および第3のリストされたオプション(AおよびC)のみの選択、または第2および第3のリストされたオプション(BおよびC)のみの選択、または3つすべてのオプション(AおよびBおよびC)の選択を包含することが意図される。これは、リストされたアイテムの数だけ拡張することができる。
上記はあらゆる点で例示的かつ典型的であるが、限定的ではないと理解されるべきであり、本明細書に開示される本発明の範囲は詳細な説明からではなく、むしろ特許法によって許容される全範囲に従って解釈されるような特許請求の範囲から決定されるべきである。本明細書に示され、説明された実施形態は、本発明の例示にすぎず、当業者は本発明の範囲および精神から逸脱することなく、様々な修正を実施することができることを理解されたい。当業者は、本発明の範囲および精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。このように、本発明の態様を、特許法によって要求される詳細および特殊性と共に説明してきたが、特許証によって保護される、請求され、望まれるものは、添付の特許請求の範囲に記載されている。

Claims (16)

  1. 患者の変化する状態に応答する方法であって、
    プロセッサを用いて、正のアウトカムをもたらした治療の軌跡と負のアウトカムをもたらした治療の軌跡とを含むモデルを訓練し(204)、敵対的識別器を用いることによって、正のアウトカムをもたらした治療の履歴軌跡に類似する軌跡を生成するように前記モデルを訓練し、協調的識別器を用いることによって、負のアウトカムをもたらした治療の履歴軌跡とは異なる軌跡を生成するように前記モデルを訓練することと、
    前記訓練されたモデルおよび前記患者に関する情報を反映する環境情報を使用して動的治療計画を生成する(208)ことと、
    前記動的治療計画に従って、変化する前記患者の状態に応答する(210)ことと、を含む方法。
  2. 前記履歴軌跡は、患者治療軌跡を含む、請求項1に記載の方法。
  3. 前記正のアウトカムが正の患者健康アウトカムであり、前記負のアウトカムが負の患者健康アウトカムである、請求項2に記載の方法。
  4. 前記モデルを訓練することは、三者最適化を使用して、前記敵対的識別器、前記協調的識別器、および前記動的治療計画を反復的に訓練することを含む、請求項2に記載の方法。
  5. 前記敵対的識別器、前記協調的識別器、および前記動的治療計画は、多層パーセプトロンとして実施される、請求項に記載の方法。
  6. 前記モデルを訓練することは、潜在空間におけるベクトルとして前記環境情報を符号化する環境モデルを訓練することを含む、請求項1に記載の方法。
  7. 前記モデルは、変分自己符号化器ネットワークとして実施される、請求項に記載の方法。
  8. 変化する前記患者の状態に応答することは、負の状態を修正するために応答行動を自動的に実行することを含む、請求項1に記載の方法。
  9. 患者の変化する状態に応答するシステムであって、
    前記患者に関する情報を反映する環境情報を使用する動的治療計画を生成するように構成された機械学習モデル(510)と、
    機械学習モデルを訓練するように構成され、正のアウトカムをもたらした治療の軌跡と負のアウトカムをもたらした治療の軌跡とを含み、敵対的識別器を使用することによって、正のアウトカムをもたらした治療の履歴軌跡に類似する軌跡を生成するように前記機械学習モデルを訓練し、協調的識別器を使用することによって、負のアウトカムをもたらした治療の履歴軌跡と異なる軌跡を生成するように前記モデルを訓練するモデルトレーナ(512)と、
    前記動的治療計画に従って、変化する前記患者の状態に対する応答をトリガするように構成された応答インタフェース(508)と、を含むシステム。
  10. 前記履歴軌跡は、患者治療軌跡を含む、請求項に記載のシステム。
  11. 前記正のアウトカムが正の患者健康アウトカムであり、前記負のアウトカムが負の患者健康アウトカムである、請求項10に記載のシステム。
  12. 前記モデルトレーナは、さらに、三者最適化を使用して、前記敵対的識別器、前記協調的識別器、および前記動的治療計画を反復的に訓練するように構成されている、請求項に記載のシステム。
  13. 前記敵対的識別器、前記協調的識別器、および前記動的治療計画は、前記機械学習モデルにおける多層パーセプトロンとして実施される、請求項12に記載のシステム。
  14. 前記モデルトレーナは、前記環境情報を潜在空間におけるベクトルとして符号化する環境モデルを訓練するようにさらに構成される、請求項に記載のシステム。
  15. 前記環境モデルは、前記機械学習モデルにおいて、変分自己符号化器ネットワークとして実施される、請求項14に記載のシステム。
  16. 前記応答インタフェースは、負の状態を修正するための応答行動を自動的に実行するようにさらに構成される、請求項に記載のシステム。
JP2022505538A 2019-08-29 2020-08-21 動的治療のための敵対的協調模倣学習 Active JP7305028B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962893324P 2019-08-29 2019-08-29
US62/893,324 2019-08-29
US16/998,228 2020-08-20
US16/998,228 US11783189B2 (en) 2019-08-29 2020-08-20 Adversarial cooperative imitation learning for dynamic treatment
PCT/US2020/047332 WO2021041185A1 (en) 2019-08-29 2020-08-21 Adversarial cooperative imitation learning for dynamic treatment

Publications (2)

Publication Number Publication Date
JP2022542283A JP2022542283A (ja) 2022-09-30
JP7305028B2 true JP7305028B2 (ja) 2023-07-07

Family

ID=74679893

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022505538A Active JP7305028B2 (ja) 2019-08-29 2020-08-21 動的治療のための敵対的協調模倣学習

Country Status (4)

Country Link
US (4) US11783189B2 (ja)
JP (1) JP7305028B2 (ja)
DE (1) DE112020004025T5 (ja)
WO (1) WO2021041185A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024064953A1 (en) * 2022-09-23 2024-03-28 H. Lee Moffitt Cancer Center And Research Institute, Inc. Adaptive radiotherapy clinical decision support tool and related methods

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015184693A (ja) 2014-03-20 2015-10-22 日本電気株式会社 医薬品有害事象抽出方法及び装置
KR101946402B1 (ko) 2017-10-31 2019-02-11 고려대학교산학협력단 인공 지능망 기반 치료 예측 결과 제공 방법 및 시스템

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866727A (zh) * 2015-06-02 2015-08-26 陈宽 基于深度学习对医疗数据进行分析的方法及其智能分析仪
EP3613060A1 (en) * 2017-04-20 2020-02-26 Koninklijke Philips N.V. Learning and applying contextual similarities between entities
US11266355B2 (en) * 2017-05-19 2022-03-08 Cerner Innovation, Inc. Early warning system and method for predicting patient deterioration
WO2019049819A1 (ja) * 2017-09-08 2019-03-14 日本電気株式会社 医療情報処理システム
BR112020007367A2 (pt) * 2017-10-31 2020-09-29 Ge Healthcare Limited sistemas médicos para predição de uma patologia de doença e para predição da evolução clínica em um indivíduo com estado cognitivo incerto, métodos para predição da patologia de uma doença e para predição da evolução clínica em um indivíduo com estado cognitivo incerto, sistema médico para identificação de indivíduos que estão em risco de desenvolver a doença de alzheimer, métodos para identificação de indivíduos que estão em risco de desenvolver a doença de alzheimer, para determinação de um prognóstico para um paciente com doença de alzheimer e de tratamento de um paciente para doença de alzheimer, uso de dados médicos de um ou mais indivíduos com evoluções desconhecidas para doença de alzheimer, e, sistemas médicos para classificação de indivíduos como portadores de comprometimento cognitivo leve ou doença de alzheimer, para classificação de indivíduos como portadores de doença de alzheimer ou de alguma outra forma de demência e para identificação de indicações adicionais para um fármaco
KR20190002059U (ko) * 2018-02-05 2019-08-14 유정혜 어플리케이션을 활용한 유전자 맞춤형 약물 처방 방법.

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015184693A (ja) 2014-03-20 2015-10-22 日本電気株式会社 医薬品有害事象抽出方法及び装置
KR101946402B1 (ko) 2017-10-31 2019-02-11 고려대학교산학협력단 인공 지능망 기반 치료 예측 결과 제공 방법 및 시스템

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WANG, Lu et al.,Adversarial Cooperative Imitation Learning for Dynamic Treatment Regimes,Proceedings of The Web Conference 2020,米国,ACM,2020年04月20日,pp.1785-1795,[検索日 2023.06.15], インターネット:<URL: https://dl.acm.org/doi/10.1145/3366423.3380248>
角 文真, ほか4名,バイタルデータと投与情報を用いた術中管理支援のための逆強化学習に基づくイベント予測,FIT2019 第18回情報科学技術フォーラム 講演論文集 第2分冊,日本,一般社団法人情報処理学会,2019年08月20日,第119頁-第122頁

Also Published As

Publication number Publication date
WO2021041185A1 (en) 2021-03-04
US11783189B2 (en) 2023-10-10
US20230376773A1 (en) 2023-11-23
DE112020004025T5 (de) 2022-07-21
US20240005163A1 (en) 2024-01-04
US20230376774A1 (en) 2023-11-23
JP2022542283A (ja) 2022-09-30
US20210065009A1 (en) 2021-03-04

Similar Documents

Publication Publication Date Title
Bukhari et al. An improved artificial neural network model for effective diabetes prediction
US11727279B2 (en) Method and apparatus for performing anomaly detection using neural network
Manikandan Diagnosis of diabetes diseases using optimized fuzzy rule set by grey wolf optimization
KR102225894B1 (ko) 딥 어텐션 네트워크를 이용하여 환자 의료 기록으로부터 질병 예후를 예측하는 방법 및 시스템
KR20160012537A (ko) 신경망 학습 방법 및 장치, 데이터 처리 장치
KR102330858B1 (ko) 배변 시트 대변 이미지를 활용한 반려 동물 대변 상태 분석 정보 제공 방법, 장치 및 시스템
Lin Identification of spinal deformity classification with total curvature analysis and artificial neural network
KR102501525B1 (ko) 시계열 데이터 처리 장치 및 이의 동작 방법
JP2023547875A (ja) 個人化された認知介入システム及び方法
US20190258254A1 (en) System and method for conscious machines
CN114127858A (zh) 利用深度学习模型的影像诊断装置及其方法
US20230376774A1 (en) Adversarial Cooperative Imitation Learning for Dynamic Treatment
US20200058399A1 (en) Control method and reinforcement learning for medical system
JP2004033673A (ja) 脳内発作発現を予測し検出する統合確率フレームワークおよび多重治療デバイス
Baucum et al. Adapting reinforcement learning treatment policies using limited data to personalize critical care
KR102564996B1 (ko) 인공지능 기반 사용자 맞춤형 건강기능식품 큐레이션 서비스 제공 방법, 장치 및 시스템
Benyó et al. Artificial intelligence based insulin sensitivity prediction for personalized glycaemic control in intensive care
KR102447046B1 (ko) 인공지능 기반 임상시험 프로토콜 설계 방법, 장치 및 시스템
CN115565636A (zh) 一种药物推荐模型构建方法、装置、设备及可读存储介质
CN112766317B (zh) 基于记忆回放的神经网络权重训练方法以及计算机设备
KR20240006058A (ko) 메타 학습으로 생성된 모델로 개인화된 생물학적 상태를 예측하기 위한 시스템, 방법 및 디바이스
Rad et al. Optimizing Blood Glucose Control through Reward Shaping in Reinforcement Learning
KR102505380B1 (ko) 인공지능을 활용한 사용자 과거 불안유발상황 파악 및 선제적 행동치료 제시 서비스 제공 방법, 장치 및 시스템
US12020789B1 (en) Systems and methods enabling baseline prediction correction
WO2024137377A1 (en) Skill learning for dynamic treatment regimes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230627

R150 Certificate of patent or registration of utility model

Ref document number: 7305028

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350