JP2020529058A - 人間参加型対話式モデル訓練 - Google Patents
人間参加型対話式モデル訓練 Download PDFInfo
- Publication number
- JP2020529058A JP2020529058A JP2019566257A JP2019566257A JP2020529058A JP 2020529058 A JP2020529058 A JP 2020529058A JP 2019566257 A JP2019566257 A JP 2019566257A JP 2019566257 A JP2019566257 A JP 2019566257A JP 2020529058 A JP2020529058 A JP 2020529058A
- Authority
- JP
- Japan
- Prior art keywords
- predicates
- model
- predicate
- boosting
- boosting model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 64
- 230000002452 interceptive effect Effects 0.000 title description 9
- 238000000034 method Methods 0.000 claims abstract description 83
- 230000006870 function Effects 0.000 claims abstract description 22
- 230000001364 causal effect Effects 0.000 claims abstract description 4
- 230000036541 health Effects 0.000 claims description 36
- 238000010801 machine learning Methods 0.000 claims description 20
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 5
- 238000010200 validation analysis Methods 0.000 claims description 3
- 241000282412 Homo Species 0.000 abstract description 27
- 238000012804 iterative process Methods 0.000 abstract description 4
- 230000008878 coupling Effects 0.000 abstract 1
- 238000010168 coupling process Methods 0.000 abstract 1
- 238000005859 coupling reaction Methods 0.000 abstract 1
- 239000003814 drug Substances 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 208000028659 discharge Diseases 0.000 description 10
- 229940079593 drug Drugs 0.000 description 10
- 238000012800 visualization Methods 0.000 description 10
- 238000003745 diagnosis Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 6
- 206010019280 Heart failures Diseases 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 206010007559 Cardiac failure congestive Diseases 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 238000009533 lab test Methods 0.000 description 3
- 239000007937 lozenge Substances 0.000 description 3
- 206010067171 Regurgitation Diseases 0.000 description 2
- 108010059993 Vancomycin Proteins 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000002483 medication Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 229960003165 vancomycin Drugs 0.000 description 2
- MYPYJXKWCTUITO-LYRMYLQWSA-N vancomycin Chemical compound O([C@@H]1[C@@H](O)[C@H](O)[C@@H](CO)O[C@H]1OC1=C2C=C3C=C1OC1=CC=C(C=C1Cl)[C@@H](O)[C@H](C(N[C@@H](CC(N)=O)C(=O)N[C@H]3C(=O)N[C@H]1C(=O)N[C@H](C(N[C@@H](C3=CC(O)=CC(O)=C3C=3C(O)=CC=C1C=3)C(O)=O)=O)[C@H](O)C1=CC=C(C(=C1)Cl)O2)=O)NC(=O)[C@@H](CC(C)C)NC)[C@H]1C[C@](C)(N)[C@H](O)[C@H](C)O1 MYPYJXKWCTUITO-LYRMYLQWSA-N 0.000 description 2
- MYPYJXKWCTUITO-UHFFFAOYSA-N vancomycin Natural products O1C(C(=C2)Cl)=CC=C2C(O)C(C(NC(C2=CC(O)=CC(O)=C2C=2C(O)=CC=C3C=2)C(O)=O)=O)NC(=O)C3NC(=O)C2NC(=O)C(CC(N)=O)NC(=O)C(NC(=O)C(CC(C)C)NC)C(O)C(C=C3Cl)=CC=C3OC3=CC2=CC1=C3OC1OC(CO)C(O)C(O)C1OC1CC(C)(N)C(O)C(C)O1 MYPYJXKWCTUITO-UHFFFAOYSA-N 0.000 description 2
- 238000007794 visualization technique Methods 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 108020001621 Natriuretic Peptide Proteins 0.000 description 1
- 102000004571 Natriuretic peptide Human genes 0.000 description 1
- 244000141353 Prunus domestica Species 0.000 description 1
- 206010040047 Sepsis Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 206010000891 acute myocardial infarction Diseases 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 239000003242 anti bacterial agent Substances 0.000 description 1
- 229940088710 antibiotic agent Drugs 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 235000021152 breakfast Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- ZZUFCTLCJUWOSV-UHFFFAOYSA-N furosemide Chemical compound C1=C(Cl)C(S(=O)(=O)N)=CC(C(O)=O)=C1NCC1=CC=CO1 ZZUFCTLCJUWOSV-UHFFFAOYSA-N 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 229940063711 lasix Drugs 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000000692 natriuretic peptide Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000000955 prescription drug Substances 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000002861 ventricular Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/045—Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
Description
本出願は、2017年8月30日出願の米国仮出願第62/552,088号の優先権利益を主張する。
・複雑さまたはモデルサイズ。疎線形モデルのような、その全体が人間によって理解できるモデル。これの変異形は、人間が妥当な時間量で推論を行い得るかどうかである。これは模擬可能性とも呼ばれてきた。
・理解可能。決定木におけるノードのような、どのようにモデルによる入力が見なされるかの間の明白な関係。これは分解可能性とも呼ばれてきた。
・訓練透明性。凸最適化のような訓練の方法が、線形モデルを訓練するために使用されるもののような性質をよく理解している。
・事後エンドユーザ解釈可能性。すなわち、モデルが、顕著性マップのような予測、または類似の予測を伴う場合の例の事後説明を可能にする。
1)所定数のランダムに選択される新たな述語を生成すること(1つの可能性では、これらの述語は人間が理解可能な述語だけであるが、これは必須でなく、追加的に、人間が信頼できないまたはいずれにしろ無関連として削除するであろう述語を自動的に除外することが可能でよい)。一実施形態において、5,000の述語がランダムに選択される。
2)ブースティングモデルの予測(例えば、退院時の診断請求コード、入院患者死亡率等)と関連するクラスラベルに関する加重情報利得によって全ての新たなランダムな述語を採点すること。
3)最高加重情報利得を持つ所定数、例えば、10の新たなランダムな述語を選択し、そしてそれらをブースティングモデルに追加すること。
4)ブースティングモデルにおける全ての述語に対して重みを計算すること。
5)オペレータまたは介在する人間からの入力に応じてブースティングモデルから最高情報利得を持つ選択された新たな述語の1つまたは複数を取り除くこと(例えば、人間の専門家が述語を閲覧して、信頼しにくい、理解可能でない、無関連である、またはその他と考えられるものを取り除く)。
a)タプルの系列またはタプルの系列の論理演算に作用する2値関数として多数の述語を定義する、ステップと、
b)多数の述語を理解可能性に基づくグループ、すなわち相対的により人間が理解可能な述語の第1のグループおよび相対的に人間が理解可能でない述語の第2のグループに分割する、ステップと、
c)以下を行うことによってブースティングモデルを反復的に訓練する、ステップで:
1)第1のグループの述語から所定数の新たなランダムな述語を生成し、
2)ブースティングモデルの予測と関連するクラスラベルに関する加重情報利得によって全ての新たなランダムな述語を採点し、
3)最高加重情報利得を持つ所定数の新たなランダムな述語を選択し、そしてそれらをブースティングモデルに追加し、
4)ブースティングモデルにおける全ての述語に対して重みを計算し、
5)オペレータからの入力に応じてブースティングモデルから最高情報利得を持つ選択された新たな述語の1つまたは複数を取り除き、
6)ステップ1、2、3、4および5の遂行を複数回繰り返して、それによって最終的な反復的に訓練されたブースティングモデルを生成する、
ステップとを実装することを含む。
一組の述語を定義し、各述語が、特徴の時系列または特徴の時系列の論理結合に適用されると出力を生成する関数である、ステップと、
ブースティングモデルを生成し、ブースティングモデルが、訓練データのサンプルに適用されると一組の述語の各々のそれぞれの出力を入力として受け取る、ステップと、
一連の
(i)複数の追加の述語を自動的に生成するステップと、
(ii)既にブースティングモデルにおける述語に複数の追加の述語を追加して、更新された一組の述語を形成するステップと、
(iii)複数の更新された一組の述語を表示するステップと、
(iv)更新された一組の述語の1つまたは複数を拒否するデータ入力を受け取るステップと、
(v)更新された一組の述語から拒否された1つまたは複数の述語を取り除くステップと
を複数回行う、ステップとを実装することを含む。
1.診断:患者の主たる請求診断を予測する。これらの予測は、精度により健康システムおよび研究者によるデータのより良い二次使用を促進できるコードを内科医が調べる時間を省くことができる。
2.入院患者死亡率:患者が自分の在院中に死にそうであるかどうか、すなわち、患者の死亡率を予測する。モデルの予測は、監視および検査を強化するまたは(予想外に)高い予測死亡リスクの場合に患者に関する予後を検討するように医師を導くために使用できる。
データセット12内のデータは複数の特徴を、潜在的に数十万以上も含む。電子健康記録の例では、特徴は、内科医または看護士によって作成される非構造化臨床メモ(テキスト)内の具体的な単語または句であり得る。特徴は、具体的な研究室値、バイタルサイン、診断、医療遭遇、処方薬剤、症状等であり得る。各特徴は実値および時間成分と関連付けられる。ステップ16で、我々は、データを型{X、xi、ti}のタプル形式にフォーマット化し、ここでXは特徴の名前であり、xiは特徴の実値(例えば、単語または句、薬剤、症状等)であり、そしてtiは実値xiに対する時間成分である。時間成分は、指標(例えば、時間に伴う一連のイベント内の実値の場所を示す指標)、または実値が発生した以後の経過時間およびモデルが生成されるもしくは予測を行う時間であり得る。ステップ16でのタプルの生成は、データセット内のあらゆる患者に対するあらゆる電子健康記録に対して行われる。タプルの例は、{"note:sepsis"、1、1000 seconds}および{"heart_rate_beats_per_minute"、120、1 day}である。
・Exists:X-トークン/特徴Xが患者のタイムラインにいずれかの時点で存在したか。ここでXはメモ内の単語、または、とりわけ研究室の名前もしくは処置コードであることができる。
・Counts:#X>C。全ての時間にわたるトークン/特徴Xの存在数がCを超えたか。より一般に、Counts述語は、数値パラメータCに対する所与の患者に対する電子健康記録データ内の特徴のカウント数に応じて0または1の結果を返す。
・Any x(i)>V at t(i)<T。x(i)の値が過去のT未満の時間にVを超えた(または代替的にX≦V)か。
・Max/Min/Avg_i x(i)>V。全ての時間にわたってXの最大値もしくは最小値もしくは平均値>V(または代替的にX≦V)か。
・Hawkes過程。x(i)>Vのときの指数関数的時間減衰インパルスの和が或る時間窓Tにわたって或る活性化Aを超えたか?活性化=sum_i I(x(i)>V)*exp(-t(i)/T)
・上記の述語のいずれかの2つの連言が使用されるDecision List述語。
・True-常に1を返す。これはブースティングモデルにおける最初の述語(シード)であり、かつバイアス項として作用する。それは、最初のバッチにおいて正クラスの対数オッズ比に初期化される。
1.精度。我々は、検証セットでのモデルの性能のためにAUROCを使用した。
2.複雑さ。我々は、訓練の終了時に述語数を計数した。
3.信頼性。各タスクに対して、我々は、モデルの各々からXの述語をランダムに選んだ(入院患者死亡率、退院時診断)。我々は、述語が当面のタスクに関係がなかった(例えば心不全に関係がない抗生物質)と示す1から、述語がタスクに強く関係があったと示す3まで、1から3の尺度から内科医に各述語を評価させた。我々は、全てのその述語の平均スコアによってモデルの「トラストスコア」または信頼性を報告する。
ワークステーション214は、オペレータ/専門家がモデル訓練中に使用するためのテキストインタフェースを提供できる。本節は、退院時診断としてのうっ血性心不全の予測のためのモデルを構築するためのテキストインタフェースの一例を提供することになる。
Rule #, Keep?, Weight
[ 0, Y, -, 0.0244] E:obsloinc:33762-6pg/mL (Natriuretic peptide.B prohormone N-Terminal)
[ 1, Y, -, 0.0240] E:Composition.section.text.div.tokenized failure
[ 2, Y, -, 0.0237] #:Composition.section.text.div.tokenized ventricular >= 11
[ 3, Y, -, 0.0237] E:Composition.section.text.div.tokenized congestive
[ 4, Y, -, 0.0232] #:Composition.section.text.div.tokenized regurgitation >= 3
[ 5, Y, -, 0.0232] E:Observation.code.loinc.display.tokenized b
[ 6, Y, -, 0.0228] #:Composition.section.text.div.tokenized exertion >= 2
[ 7, Y, -, 0.0224] E:Composition.section.text.div.tokenized lasix
[ 8, Y, -, 0.0220] E:Composition.section.text.div.tokenized la
[ 9, Y, -, 0.0216] E:Composition.section.text.div.tokenized regurgitation
[10, Y, -, 0.0206] Context age_in_years >= 60.000000 @ t <= 1.000000
[11, Y, -, -0.0101] E:Context Patient.gender male
[12, Y, -, -0.0220] Context age_in_years >= 40.000000 @ t <= 1.000000
[13, Y, -, -0.0244] Context age_in_years >= 18.000000 @ t <= 1.000000
[14, Y, -, -0.0256] E:Context Patient.genderfemale
[15, Y, -, -3.3718] TRUE
New Model Test Score: 0.883712, Rules: 16
BOOST> delete 2
我々の研究では、我々は、図1および図2の手順を使用してモデルを開発し、そして図2の人間参加型ステップ210なしで述語から得られるブースティングモデルと結果を比較した。
ユーザがモデル訓練中にモデルを探索および改善するのをさらに支援するために、図2のワークステーションに追加機構を追加して、人間による様々な操作が行われるのを可能にすることが望ましいかもしれない。例えば、ユーザは、モデルに述語を提起または定義する、例えばXがモデルの予測に関連する或る単語または句であるとして、「Xがメモに存在するか」、そしてそれらをブースティングの次の反復に使用するのを可能にされ得る。
14 FHIRリソース
212 人間
214 コンピュータ
300 対話式可視化
301 形状
306 第1のグループ
310 行
312 線
402 反復
404 反復
406 反復
500 列
502 領域
800 アプリケーションユーザインタフェース
802 ヘッダバー
804 内容領域
806 制御バー
808 タイムライン
810 ラベリングタスクカード
812 通知カード
814 訓練オプションカード
902 述語カード
904 述語メモカード
906 述語カード
908 「承認」アイコン
910 「削除」アイコン
912 新たに選択された述語
Claims (37)
- 複数の特徴を含むデータから予測モデルを訓練する、コンピュータで実行される方法であって、各特徴が、実値および時間成分と関連し、前記コンピュータのプロセッサにおいて以下のステップを実行し、前記ステップが、
a)前記特徴の時系列または前記特徴の前記時系列の論理演算に作用する2値関数として多数の述語を定義するステップと、
b)以下の動作を行うことによって、ブースティングモデルを反復的に訓練するステップとを含み、前記動作が
1)所定数の新たなランダムな述語を生成し、
2)前記ブースティングモデルの予測と関連するクラスラベルに関する加重情報利得によって全ての新たなランダムな述語を採点し、
3)最高加重情報利得を持つ所定数の前記新たなランダムな述語を選択して、選択された述語を前記ブースティングモデルに追加し、
4)前記ブースティングモデルにおける前記全てのランダムな述語に対して重みを計算し、
5)オペレータからの入力に応じて前記ブースティングモデルから前記最高加重情報利得を持つ前記選択された新たな述語の1つまたは複数を取り除き、
6)ステップ1、2、3、4および5の遂行を複数回繰り返して、それによって最終的な反復的に訓練されたブースティングモデルを生成することを含む、
コンピュータで実行される方法。 - c)前記最終的な反復的に訓練されたブースティングモデルを評価するステップをさらに含む、
請求項1に記載の方法。 - 前記データが、型{X、xi、ti}のタプル形式であり、
ここで、Xが特徴の名前であり、
xiが前記特徴の実値であり、
tiが前記実値xiに対する時間成分であり、
前記述語が、タプルの系列または前記タプルの系列の論理演算に作用する2値関数として定義される、
請求項1または2に記載の方法。 - 前記データが、複数の患者に対する電子健康記録データを含む、
請求項1から3のいずれか一項に記載の方法。 - 前記方法は、
前記述語を理解可能性に基づくグループ、すなわち相対的により人間が理解可能な述語の第1のグループおよび相対的に人間が理解可能でない述語の第2のグループに分割するステップをさらに含み、
前記新たなランダムな述語が前記第1のグループから選択される、
請求項1から4のいずれか一項に記載の方法。 - ステップb)5)が、
現在前記ブースティングモデルにおける前記述語をグラフィカルに表現するとともに、前記述語の1つまたは複数を取り除く能力を前記オペレータに提供するステップをさらに含む、
請求項1から5のいずれか一項に記載の方法。 - ステップb)6)の反復の各々の後に前記ブースティングモデルに追加される一組の述語をグラフィカルに表現するステップをさらに含む、
請求項1から6のいずれか一項に記載の方法。 - ステップb)4)において、前記述語の各々に対して計算される前記重みをグラフィカルに表現するステップをさらに含む、
請求項6に記載の方法。 - 前記データが複数の患者に対する電子健康記録データを含み、
前記一組の述語が、前記述語の内容または前記電子健康記録データ内の出所を示す方式で表現される、
請求項7に記載の方法。 - 前記評価するステップ(c)が、
精度、複雑さまたは信頼性の少なくとも1つに対して前記最終的な反復的に訓練されたブースティングモデルを評価することを含む、
請求項2に記載の方法。 - 前記述語が、前記複数の患者における所与の患者に対する前記電子健康記録データ内に特徴が存在するかどうかに応じて0または1の結果を返す存在述語、および数値パラメータCに対する前記複数の患者における所与の患者に対する前記電子健康記録データ内の特徴のカウント数に応じて0または1の結果を返すカウント述語を含む、
請求項9に記載の方法。 - ステップb)が、
モデル訓練中に述語を定義する能力を前記オペレータに提供するステップをさらに含む、
請求項1から11のいずれか一項に記載の方法。 - ステップb)が、
冗長な述語を取り除くステップをさらに含む、
請求項1から12のいずれか一項に記載の方法。 - タプルの前記系列が、1日もしくは複数日、1時間もしくは複数時間、1分もしくは複数分、または1月もしくは複数月からなる群から選択される時限によって定義される、
請求項3に記載の方法。 - ステップb)3)で選択される前記述語をランク付けするステップをさらに含む、
請求項1に記載の方法。 - 前記ブースティングモデルにおける述語の統計量を生成し、前記統計量を前記オペレータに提示するステップをさらに含む、
請求項1に記載の方法。 - 複数の患者に対する電子健康記録データから予測モデルを訓練する、コンピュータで実行される方法であって、前記電子健康記録データが、複数の特徴を含み、各特徴が、実値および時間成分と関連し、前記電子健康記録データが、型{X、xi、ti}のタプル形式であり、ここで、Xが特徴の名前であり、xiが、前記特徴の実値であり、tiが、前記実値xiに対する時間成分であり、前記コンピュータのプロセッサにおいて、以下のステップを実行し、前記ステップが、
a)タプルの系列または前記タプルの前記系列の論理演算に作用する2値関数として多数の述語を定義するステップと、
b)前記多数の述語を理解可能性に基づくグループ、すなわち相対的により人間が理解可能な述語の第1のグループおよび相対的に人間が理解可能でない述語の第2のグループに分割するステップと、
c)以下の動作を行うことによってブースティングモデルを反復的に訓練するステップとを含み、前記動作が、
1)前記第1のグループの述語から所定数の新たなランダムな述語を生成し、
2)前記ブースティングモデルの予測と関連するクラスラベルに関する加重情報利得によって全ての新たなランダムな述語を採点し、
3)最高加重情報利得を持つ所定数の前記新たなランダムな述語を選択して、前記選択された述語を前記ブースティングモデルに追加し、
4)前記ブースティングモデルにおける前記全ての述語に対して重みを計算し、
5)オペレータからの入力に応じて、前記ブースティングモデルから前記最高加重情報利得を持つ前記選択された新たな述語の1つまたは複数を取り除き、
6)ステップ1、2、3、4および5の遂行を複数回繰り返して、それによって最終的な反復的に訓練されたブースティングモデルを生成することを含む、
コンピュータで実行される方法。 - d)前記最終的な反復的に訓練されたブースティングモデルを評価するステップをさらに含む、
請求項17に記載の方法。 - 機械学習モデルを実装するコンピューティングプラットフォームを有するコンピューティングデバイスであって、前記機械学習モデルが、実値および時間成分の両方を有する特徴の系列に作用する2値関数として定義される述語から構築される反復的に訓練されたブーストモデルを含み、
前記述語が、オペレータ入力で定義され、
前記反復的に訓練されたブーストモデルへの包含のための述語の選択が、ブースティングモデルの反復訓練中のオペレータによる再検討および選択または選択解除を要することを含む、
コンピューティングデバイス。 - 前記特徴が電子健康記録内の特徴を含む、
請求項19に記載のコンピューティングデバイス。 - ブースティングモデルの反復的訓練に対するオペレータ入力を提供するワークステーションであって、前記ブースティングモデルの予測を行うための加重情報利得を有するとして選択される述語を表示するインタフェース、および前記ブースティングモデルにおける前記述語の1つまたは複数の選択または選択解除のためのツールを提供する前記インタフェースを含む、
ワークステーション。 - 述語が、実値成分および時間成分の両方を有する特徴の系列または前記特徴の系列の論理演算に作用する2値関数として定義される、
請求項21に記載のワークステーション。 - 前記インタフェースが、オペレータが述語を定義することを可能にするためのツールをさらに含む、
請求項21または22に記載のワークステーション。 - 訓練データから予測モデルを生成する、コンピュータで実行される方法であって、前記予測モデルが、複数の特徴Xの各々に対して、複数の時間の各々での前記特徴の値xを示す入力データに基づいて、ラベルを予測するためであり、前記訓練データが、複数のサンプルを含み、各サンプルが、1つまたは複数の時間の各々での前記特徴の1つまたは複数の前記値および対応するラベルを示し、
前記方法は、プロセッサで以下のステップを実行し、前記ステップが、
一組の述語を定義するステップであって、各述語が、前記特徴の時系列または前記特徴の前記時系列の論理結合に適用された場合に出力を生成する関数である、ステップと、
ブースティングモデルを生成するステップであって、前記ブースティングモデルが、前記訓練データの前記サンプルに適用された場合に、前記一組の述語のそれぞれの各出力を入力として受け取る、ステップと、
以下の一連の動作を複数回行うステップとを含み、前記動作が、
(i)複数の追加の述語を自動的に生成するステップと、
(ii)既に前記ブースティングモデルにおける述語に前記複数の追加の述語を追加して、更新された一組の述語を形成するステップと、
(iii)複数の前記更新された一組の述語を表示するステップと、
(iv)前記更新された一組の述語の1つまたは複数を拒否するデータ入力を受け取るステップと、
(v)前記更新された一組の述語から前記拒否された1つまたは複数の述語を取り除くステップとを含む、
コンピュータで実行される方法。 - 前記複数の追加の述語を自動的に生成するステップ(i)が、
(a)疑似ランダムアルゴリズムによって候補述語を生成するステップと、
(b)前記ブースティングモデルにおける加重情報利得に対して前記候補述語を採点するステップと、
(c)スコアに基づいて前記候補述語から前記追加の述語を選択するステップとを含む、
請求項24に記載の方法。 - 各述語の前記出力が2進値である、
請求項24または25に記載の方法。 - 前記訓練データ内の各サンプルが、型{X、xi、ti}のタプル形式を有する複数のデータ項目としてフォーマット化され、
ここで、xiが時間tiでの特徴Xの値を示し、
iが前記サンプルのタプルにラベル付けし、
各述語が、前記サンプルの複数のデータ項目に行われる関数である、
請求項24から26のいずれか一項に記載の方法。 - 前記訓練データが複数の患者に対する電子健康記録データを含む、
請求項24から27のいずれか一項に記載の方法。 - 各述語が、前記特徴の単一の対応する1つに関する前記サンプルの一部の関数である、
請求項24に記載の方法。 - 前記追加の述語が、少なくとも1つの時間に具体的な範囲内の値をとる具体的な特徴を各々示す存在述語、および具体的な回数Cより多く、少なく、または等しく具体的な範囲内の値をとる具体的な特徴を各々示すカウント述語の少なくとも1つを含む、
請求項29に記載の方法。 - 前記特徴が、一組の人間が理解可能なカテゴリまたはグループの対応する1つと各々関連付けられ、
複数の前記一組の述語を表示するステップ(iii)が、
各カテゴリまたはグループの特徴に関するデータの関数である前記述語を共にグループ化して表示することを含む、
請求項24から30のいずれか一項に記載の方法。 - 複数の前記一組の述語を表示するステップ(iii)が、
再生されたブースティングモデルのそれぞれの重み値を表示することを含む、
請求項24に記載の方法。 - 前記訓練データの検証部分集合を使用して前記ラベルを予測する際の前記ブースティングモデルの精度を評価するステップをさらに含む、
請求項24に記載の方法。 - ステップb)5)で、前記ブースティングモデルの前記予測に因果関係がない前記1つまたは複数の述語が取り除かれる、
請求項1または17に記載の方法。 - オペレータによって選択解除される前記述語が前記ブースティングモデルの予測に因果関係がない、
請求項19に記載のコンピューティングデバイス。 - オペレータによって選択解除される前記述語が前記ブースティングモデルの予測に因果関係がない、
請求項22に記載のワークステーション。 - 前記更新された一組の述語の前記拒否された1つまたは複数が前記ブースティングモデルの予測に因果関係がない、
請求項24に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762552088P | 2017-08-30 | 2017-08-30 | |
US62/552,088 | 2017-08-30 | ||
PCT/US2017/054213 WO2019045758A1 (en) | 2017-08-30 | 2017-09-29 | INTERACTIVE MODEL LEARNING WITH HUMAN INTERVENTION |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020529058A true JP2020529058A (ja) | 2020-10-01 |
JP6916310B2 JP6916310B2 (ja) | 2021-08-11 |
Family
ID=65525997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019566257A Active JP6916310B2 (ja) | 2017-08-30 | 2017-09-29 | 人間参加型対話式モデル訓練 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20210358579A1 (ja) |
EP (1) | EP3607502A4 (ja) |
JP (1) | JP6916310B2 (ja) |
KR (1) | KR102368520B1 (ja) |
CN (1) | CN110709864B (ja) |
WO (1) | WO2019045758A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11550970B2 (en) * | 2018-11-02 | 2023-01-10 | Wells Fargo Bank, N.A. | Resolving opaqueness of complex machine learning applications |
US11847424B1 (en) * | 2020-03-20 | 2023-12-19 | Amazon Technologies, Inc. | Natural language generation |
FR3110725A1 (fr) * | 2020-05-21 | 2021-11-26 | Akur8 | Procédé mis en oeuvre par ordinateur pour générer des modèles additifs généralisés |
US11593680B2 (en) | 2020-07-14 | 2023-02-28 | International Business Machines Corporation | Predictive models having decomposable hierarchical layers configured to generate interpretable results |
JP7551370B2 (ja) * | 2020-07-15 | 2024-09-17 | キヤノンメディカルシステムズ株式会社 | 医用データ処理装置及び方法 |
US20220027679A1 (en) * | 2020-07-24 | 2022-01-27 | Feedzai - Consultadoria E Inovação Tecnológica, S.A. | Human-in-the-loop evaluation for explainable artificial intelligence |
US12019747B2 (en) * | 2020-10-13 | 2024-06-25 | International Business Machines Corporation | Adversarial interpolation backdoor detection |
KR102689365B1 (ko) * | 2021-01-06 | 2024-07-29 | 주식회사 에이아이트릭스 | 뉴럴 네트워크 장치 및 그 장치에서의 러닝 방법 |
CN113254641B (zh) * | 2021-05-27 | 2021-11-16 | 中国电子科技集团公司第十五研究所 | 一种情报数据融合方法与装置 |
CN113344086B (zh) * | 2021-06-16 | 2022-07-01 | 深圳市商汤科技有限公司 | 人机回圈方法、装置、系统、电子设备和存储介质 |
CN114661407B (zh) * | 2022-05-20 | 2022-08-23 | 浙江简捷物联科技有限公司 | 一种界面配置的方法、bms和存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7752152B2 (en) * | 2006-03-17 | 2010-07-06 | Microsoft Corporation | Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling |
US7756800B2 (en) * | 2006-12-14 | 2010-07-13 | Xerox Corporation | Method for transforming data elements within a classification system based in part on input from a human annotator/expert |
US9330127B2 (en) * | 2007-01-04 | 2016-05-03 | Health Care Productivity, Inc. | Methods and systems for automatic selection of classification and regression trees |
US20080195577A1 (en) * | 2007-02-09 | 2008-08-14 | Wei Fan | Automatically and adaptively determining execution plans for queries with parameter markers |
US8533224B2 (en) * | 2011-05-04 | 2013-09-10 | Google Inc. | Assessing accuracy of trained predictive models |
US9430460B2 (en) * | 2013-07-12 | 2016-08-30 | Microsoft Technology Licensing, Llc | Active featuring in computer-human interactive learning |
US10318882B2 (en) * | 2014-09-11 | 2019-06-11 | Amazon Technologies, Inc. | Optimized training of linear machine learning models |
US10452992B2 (en) * | 2014-06-30 | 2019-10-22 | Amazon Technologies, Inc. | Interactive interfaces for machine learning model evaluations |
CN104361396A (zh) * | 2014-12-01 | 2015-02-18 | 中国矿业大学 | 基于马尔可夫逻辑网的关联规则迁移学习方法 |
CN104503908A (zh) * | 2014-12-17 | 2015-04-08 | 西北工业大学 | 基于谓词频率统计的软件故障定位方法 |
CN110019658B (zh) * | 2017-07-31 | 2023-01-20 | 腾讯科技(深圳)有限公司 | 检索项的生成方法及相关装置 |
-
2017
- 2017-09-29 JP JP2019566257A patent/JP6916310B2/ja active Active
- 2017-09-29 US US16/618,656 patent/US20210358579A1/en active Pending
- 2017-09-29 WO PCT/US2017/054213 patent/WO2019045758A1/en unknown
- 2017-09-29 KR KR1020197034760A patent/KR102368520B1/ko active IP Right Grant
- 2017-09-29 CN CN201780091409.0A patent/CN110709864B/zh active Active
- 2017-09-29 EP EP17923811.8A patent/EP3607502A4/en active Pending
Also Published As
Publication number | Publication date |
---|---|
KR20190142375A (ko) | 2019-12-26 |
EP3607502A4 (en) | 2021-01-13 |
CN110709864A (zh) | 2020-01-17 |
WO2019045758A1 (en) | 2019-03-07 |
JP6916310B2 (ja) | 2021-08-11 |
CN110709864B (zh) | 2024-08-02 |
EP3607502A1 (en) | 2020-02-12 |
US20210358579A1 (en) | 2021-11-18 |
KR102368520B1 (ko) | 2022-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6916310B2 (ja) | 人間参加型対話式モデル訓練 | |
US11163763B2 (en) | Decision-support application and system for medical differential-diagnosis and treatment using a question-answering system | |
US11295867B2 (en) | Generating and applying subject event timelines | |
CA2843405C (en) | A decision-support application and system for problem solving using a question-answering system | |
US20180011980A1 (en) | Differential medical diagnosis apparatus adapted in order to determine an optimal sequence of diagnostic tests for identifying a pathology by adopting diagnostic appropriateness criteria | |
US11748384B2 (en) | Determining an association rule | |
US11791048B2 (en) | Machine-learning-based healthcare system | |
Dudkina et al. | Classification and Prediction of Diabetes Disease using Decision Tree Method. | |
Enad et al. | A review on artificial intelligence and quantum machine learning for heart disease diagnosis: Current techniques, challenges and issues, recent developments, and future directions | |
Otles et al. | Mind the performance gap: examining dataset shift during prospective validation | |
US20180322942A1 (en) | Medical protocol evaluation | |
Jones et al. | Learning tasks of pediatric providers from electronic health record audit logs | |
Bhadouria et al. | Machine learning model for healthcare investments predicting the length of stay in a hospital & mortality rate | |
CN114579626A (zh) | 数据处理方法、数据处理装置、电子设备和介质 | |
CN116434951A (zh) | 疾病预警方法、装置、电子设备、存储介质以及程序产品 | |
US20180322959A1 (en) | Identification of low-efficacy patient population | |
Roberts et al. | Machine Learning for Enhanced Healthcare: An overview for operational and clinical leads | |
KHALID | GENERATING PREDICTION ANALYSIS FOR STROKE STRIKE | |
Qiu | Modeling Uncertainty in Deep Learning Models of Electronic Health Records | |
Ramu et al. | Diabetic Disease Prediction System using Supervised Machine Learning Approaches | |
Bhat | Comparison of machine learning V/S deep learning model to predict ICD9 code using text mining techniques | |
Otles | Machine Learning for Healthcare: Model Development and Implementation in Longitudinal Settings | |
Nouri | A Visual Analytics System for Investigating Multimorbidity Using Supervised Machine Learning | |
Wang et al. | A Visual Analytics Approach to Exploring the Feature and Label Space Based on Semi-structured Electronic Medical Records | |
Mumtazah et al. | A Combination of Data Mining Methods for Disease Classification Using Patient-Perceived Symptoms from Medical Records |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210513 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210715 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6916310 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |