JP6004084B2 - モデル更新方法、装置、およびプログラム - Google Patents

モデル更新方法、装置、およびプログラム Download PDF

Info

Publication number
JP6004084B2
JP6004084B2 JP2015507882A JP2015507882A JP6004084B2 JP 6004084 B2 JP6004084 B2 JP 6004084B2 JP 2015507882 A JP2015507882 A JP 2015507882A JP 2015507882 A JP2015507882 A JP 2015507882A JP 6004084 B2 JP6004084 B2 JP 6004084B2
Authority
JP
Japan
Prior art keywords
data
model
prediction
model update
determination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015507882A
Other languages
English (en)
Other versions
JPWO2014155690A1 (ja
Inventor
安藤 剛寿
剛寿 安藤
健 小副川
健 小副川
岡本 青史
青史 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Application granted granted Critical
Publication of JP6004084B2 publication Critical patent/JP6004084B2/ja
Publication of JPWO2014155690A1 publication Critical patent/JPWO2014155690A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/20ICT specially adapted for the handling or processing of medical references relating to practices or guidelines

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Business, Economics & Management (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Computational Linguistics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Child & Adolescent Psychology (AREA)

Description

本発明は、モデル更新方法、装置、およびプログラムに関する。
近年、生活習慣病にかかる人の数は増加しつづけており、大きな社会問題の一つとなっている。生活習慣病を防ぐためには、健康指導を行なうことが重要である。健康指導員による健康指導では、健康指導員は被験者の健康診断の結果などの検査データに目を通し、経験に基づいて、その被験者が将来的に生活習慣病になる可能性を判定し、必要に応じて健康指導を行なうことが必要である。一般に、健康診断の結果などの検査データには、被験者の体について複数項目の数値が含まれる。また、夫々の項目には、正常か異常かを判断する際の規準となる境界値が設定されている。ある検査項目について被験者の検査データの値が正常であるか異常であるか、を見ただけでは、その検査項目が関わる疾病に掛かりやすいか否かは分かりにくい。健康状態の悪化は、過去には正常値であった被験者のデータが境界値に近づいたり、境界値を越えたりすることの検出により判断される。このように、健康指導員による健康状態の判定には、その手間ゆえに、一人で予測できる数には限界があり、また、健康指導員の人的リソースは不足している。
たとえば、被験者の遺伝性データや年齢等の属性や疾病履歴のデータを考慮して、被験者の検査データから将来の易罹患性を推定する方法が知られている。その際、易罹患性は集団の分布をクラスタリングし、そのクラスタリングノードごとに集計を行って得られた易罹患性の分布を用いて、被験者の易罹患性の事後確率分布を推定する方法が知られている。
また、所定の疾病ごとに、関連する検査項目(検診項目)と疾病発症の関係を算出し、その疾病の発症を防ぐためには、どの検査項目の検査結果の値をどれだけ改善すべきか、といった具体的なアドバイスが可能な健康指導支援システムが知られている。この方法では、複数の検査項目データのうちのいずれの検査項目が、罹患に関連するかを見出す方法として、夫々のデータの値と実際に罹患したか否かの情報とに基づいて、統計的に計算する。
データの分析(キュレーションサービス)を行うためには、正解が分かっているデータを利用して予めモデル(健康状態判定モデル)を生成する必要がある。一旦モデルができてしまえば、顧客は該モデルに対して新たに採取できたデータを入力することで、モデルに基づく予測結果を得ることができる。
特開2002−109150号公報
モデルを一旦作ったら、その後はずっとそのモデルを使い続けられるわけではない。入力されるデータの傾向や、分析対象そのものに大きな変化があった場合、元のモデルは高い正解率を維持できなくなる可能性が十分にあるという課題がある。
よって、一つの側面として、本発明は、一度出来上がったモデルを更新(再作成)する必要があるかどうかを判定するモデル更新方法、装置、およびプログラムを提供すること
を目的とする。
モデル更新方法が提供される。方法は、コンピュータによって実行されるモデル更新方法であって、複数のデータの各々を判定モデルに用いてデータの各々が正常であるか異常であるかの度合いを示すスコアを算出することと、スコアに基づいてデータの各々が正常であるか異常であるかを予測状態として予測することと、複数のデータの各々に対して、予測状態が正しいか否かを、複数のデータの各々に対応する正解データを参照して判定することと、複数のデータをスコアが所定の順になるように並べたとき、スコアがより異常であることを示す方から所定の数のデータに対する予測状態の正解率を算出することと、正解率に基づいて判定モデルの更新が必要であるかどうかを判定することと、を含むことを特徴とする。
一度出来上がったモデルを更新(再作成)する必要があるかどうかを判定することができる。
実施形態の健康状態判定モデル更新装置および方法が適用される状況の例を説明する図である。 図1の過去の健康診断のデータの例を示す図である。 図1の新規健診データの例を示す図である。 健康状態判定モデル更新装置の機能ブロック図の例である。 健康状態判定モデル更新装置の予測部の出力である予測結果の例を示す図である。 健康状態判定モデル更新装置における予測結果と実際の診断結果の比較の様子を示す図である。 健康状態判定モデル更新装置における予測結果の判定の結果の例を示す図である。 健康状態判定モデル更新装置における予測結果の判定の結果をスコアの降順に並べた例を示す図である。 健康状態判定モデル更新装置における上位5個のデータの正解率を示す図である。 機械学習における分類の例を示す図である。 機械学習における分類の別の例を示す図である。 実施形態の健康状態判定モデル更新装置の構成の例を示す図である。 健康状態判定モデル更新方法におけるモデル更新判定の処理の流れの例を示すフローチャートである。 健康状態判定モデル更新方法におけるモデル更新処理の流れの例を示すフローチャートである。 モデル更新判定の処理の流れの比較例を示すフローチャートである。 比較例における予測結果の正解率を示す図である。 変形例の健康状態判定モデル更新方法におけるモデル更新判定の処理の流れの例を示すフローチャートである。 変形例の健康状態判定モデル更新装置における予測結果と実際の診断結果の比較の様子を示す図である。 変形例の健康状態判定モデル更新装置における予測結果の判定の結果の例を示す図である。 変形例の健康状態判定モデル更新装置における上位5個のデータの正解率を示す図である。
本発明の実施形態について、図面を参照しながら説明をする。
以下では、モデル更新装置、方法の一例として、健康状態判定モデル更新装置、方法について説明する。しかしながら、以下の説明は、モデル更新装置、方法は健康状態判定モデル更新装置、方法に限定されず、全データからなる母集団のうち、データから状態を予測するモデルについて、各データから導かれるスコアの上位から所定の数のデータを用いてそのモデルを更新する必要があるかどうかを判定することによって、予測の精度を向上、維持するための任意の装置、方法に適用可能である。
「モデル」は、データから状態(予測状態)を予測する機能を有し得る。ここで「データ」とは、たとえばある被験者に対する健康診断のデータでも良い。このとき「状態」とは、罹患の可能性の有無であり得る。別の例としては、「データ」は、構造物の安全性に関わる保全検査のデータでも良い。このとき「状態」とは、構造物が安全であるか否かであり得る。
また、「スコア」とは、データが複数の項目の値を含むとき、それら複数の項目の値から得られる「状態」の指標となるスカラー量であり得る。
「健康状態判定モデル」は、健康診断のある被験者のある検査項目の検査データの値を入力することによって、その検査データの値が「正常」または「異常」であることを出力する機能を有し得る。健康状態判定モデルは、予測モデル、判定モデル、または単にモデルと呼ぶこともある。モデルとは、たとえば、ニューラルネットワーク、サポートベクターマシンなど教師あり学習が適用可能なアルゴリズムを実現するための数学モデル、計算模型であり得る。つまり、健康状態判定モデルは、被験者の過去の健康診断の結果と実際の健康状態の記録を用いて、健康診断の結果(データ)から、被験者の健康状態を判定する。健康状態とは、その被験者の特性を考慮した、健康診断の検査項目に対して正常または異常な状態であり得る。たとえば、健康状態判定モデルでは、被験者の健康診断の結果を入力すると、検査項目に関する健康診断のデータに対して、そのデータが正常であるか異常であるかを出力しても良い。モデルは、パラメタを含み得て、パラメタは学習データを用いて算出され得る。
ここで、「モデルを構築する」とは、複数のデータを用いて、モデルが有すべき機能を実現するためのモデルの構造(用いる数式の種類など)やパラメタを設定することであり得る。モデルが健康状態判定モデルの場合は、複数の被験者の健康診断の結果のデータを用いて構築され得る。また、モデルが教師あり学習が適用可能なアルゴリズムを実現するための数学モデル、計算模型である場合には、教師あり学習をすることを意味しても良い。データが正常であるか異常であるかの閾値(判定値とも呼ぶ)を、特定の集団向けに設定することを含み得る。たとえば、国際的な機関や学会等で定められた境界値を、実際の検査データを用いて検証し、必要に応じて、検査データの値と疾病に罹患するまたは易罹患性が高いことの相関が高くなるように境界値を変更しても良い。この際、検査データは、モデルの教師あり学習のためのデータ(学習データ)として用いられ得る。すなわち、モデルは、検査データが入力されると、その検査データの値が「正常」または「異常」であることを出力する。そして、モデルが構造やパラメタを含んでいるとき、モデルの出力の予測精度が高くなるように、実際の検査データや罹患の有無を用いて構造やパラメタを決定する。
ここで、「データの値が異常である」とは、そのデータから予測される状態(予測状態)が好ましくない状態であることを意味しても良い。たとえば、「検査データの値が異常である」とは、検査データの値が、その検査項目に関わる疾病の罹患と関係があることが統計的または医学的に主張可能であることを意味していても良い。また、「検査データの
値が異常である」とは、検査データの値が、その検査項目に関わる疾病の易罹患性との関係が統計的または医学的に主張可能であることを意味していても良い。データの値が異常であることは、将来の発病リスクが高いことを意味しても良い。将来の発病リスクが高いことを単に、罹患可能性有りと呼ぶことがある。また、罹患可能性無しとは、罹患可能性有りでないことであり得る。
以下で開示する健康状態判定モデル更新装置および方法は、健康状態判定モデルを更新すべきか否かを判断する際に、母集団全体に対する正解率ではなく、母集団のデータ数の一部であるn個のデータのみについて正解率を算出し、算出した正解率に基づいてモデルを更新するか否かを判定するものである。ここで、n個のデータは、母集団全体に対する予測結果を予測度合に基づいて順位づけした際の上位n個を含み得る。また、n個のデータのうち、健康指導がなされた人のデータ(対策が取られたデータとも呼ぶ)は、正解率算出の対象から除外しても良い。ここで、nの値は、全体のデータ数の所定のパーセンテージ、たとえば5%、10%などであっても良いし、絶対数、たとえば200であっても良い。nの値は、実際に指導が可能な被験者の数と関連していることが好ましい。
このような健康状態判定モデル更新装置および方法を用いることによって、母集団の中で意味のある一部の予測対象について正解率を向上、維持できるようにモデル更新のタイミングを決定することができる。
「健康状態判定」(または単に健康判定と呼ぶこともある)とは、健康診断を受けた被験者の検査項目の検査データの値に基づいて、その被験者がその検査項目に関係する疾病に罹患しているか、または易罹患性が高いか、を判定することを意味しても良い。疾病の例としては、糖尿病、メタボリックシンドローム、耐糖能異常、高血圧、脂質異常症などの生活習慣病であっても良い。検査項目は、年齢、ボディマス指数(BMI)、腹囲、血糖値、Γ−GTP(ガンマグルタミルトランスペプチダーゼ)、血圧、コレステロール、インスリン抵抗性指数、血漿グルコース、中性脂肪、肝機能(AST、IU/L)、肝機能(ALT、IU/L)、アディポネクチン、グリコアルブミン、遊離脂肪酸、インスリン等を含み得る。
また、健康状態判定モデル更新装置は、汎用コンピュータであっても良いし、専用回路であっても良い。また、汎用コンピュータに一部専用回路を組み合わせて構成されていても良い。
図1は、実施形態の健康状態判定モデル更新装置および方法が適用される状況の例を説明する図である。
図1では、生活習慣病者を対象とする。各生活習慣病者はIDで区別されている。
そして、各生活習慣病者に対して、過去の健康診断のデータを用意する。たとえば、図1に示されているように、ID0001でインデックスされる生活習慣病者に対して、2009年のデータ101a、2010年のデータ101b、2011年のデータ101c(これらをまとめて参照符号101によって示すこともある)を用意する。また、ID0002でインデックスされる生活習慣病者に対して、2009年のデータ102a、2010年のデータ102b、2011年のデータ102c(これらをまとめて参照符号102によって示すこともある)、ID0003でインデックスされる生活習慣病者に対して、2009年のデータ103a、2010年のデータ103b、2011年のデータ103c(これらをまとめて参照符号103によって示すこともある)を用意する。
これらの過去の健康診断データを学習データとして用いて、健康状態判定モデルとしての生活習慣病高リスク者モデル200を構築する。
図2は、図1の過去の健康診断のデータの例を示す図である。図2では、個々の被験者(ユーザ)に対するデータは、身長、体重、腹囲、収縮期血圧、拡張期血圧、心拍数、それに罹患の有無(True(T)またはFalse(F))を含む。図2はある年、たとえば、2011年における個々の被験者のデータ101c、102c、103c等をまとめた表であり得る。
モデルが構築されると、次に、健康診断対象者、すなわち生活習慣病の候補者の健康診断データ101d(以下、誤解が生じない場合は単にデータを呼ぶことがある)を健康状態判定モデル(生活習慣病高リスク者モデル200)に入力する。
図3は、図1の新規健診データ101dの例を示す図である。図3では、個々の被験者(ユーザ)に対するデータは、身長、体重、腹囲、収縮期血圧、拡張期血圧、および心拍数を含む。図3はある年、たとえば、2012年における個々の被験者のデータ101d、102d、103d等をまとめた表であり得る。
モデル200では、健康診断データ101dの検査項目のデータが正常であるか異常であるかを判定する。ここでは、データの値が異常であることは、将来の発病リスクが高いこと、すなわち罹患可能性有りを意味するものとする。
モデルを一旦作ったら、その後はずっとそのモデルを使い続けられるわけではない。入力されるデータの傾向や、分析対象そのものに大きな変化があった場合、元のモデルは高い正解率を維持できなくなる可能性が十分にある。例えば、糖尿病の罹患予測として、日中の事務作業が主である企業Aのモデルで、交代勤務で夜勤も多い企業Bの予測をしようとしても、企業Aと企業Bとでは構成員の特性が異なるため、高い正解率は得られない。また、同じ企業Aに対する罹患予測であっても、毎年社員の入れ替わりがあるため、同じモデルを使い続けると経時的に正解率が低下する可能性もある。
従って、一度出来上がったモデルにつき、モデルを更新(すなわち再作成)する必要があるかどうかを適宜チェックする必要がある。
例えば2万人について糖尿病罹患予測をし、2万人の全員について正しく予測ができたとして、データが「異常」、すなわち「将来罹患する」という結果が出た人に対しては、健康指導担当者が何等かの指導をすることになる。健康指導員の人数が十分であれば全ての「将来罹患する」(罹患可能性有り)と判定された人に対応することができようが、現実的には健康指導員の人数は十分ではないため、「将来罹患する」と判定された人の中でも、「罹患する可能性が非常に高い人」を中心として指導をすることになる。
結局、罹患可能性の有無の予測が正確にできたとしても、指導をできる人数が限られている以上、指導をできる人数以上の予測は意味がないことになる。(実際問題として、企業の健保組合に対する医療費負担の大きさからすると、「罹患する可能性が非常に高い人」達による医療費が多大になることが問題であって、そのほかの人たちの医療費はそれほど負担が大きくない)。2万人の予測ができても、100人にしか対応できないなら、残りの1万9900人については、予測精度は重要ではないという見方も可能である。
以下の実施形態の健康状態判定モデル更新装置および方法では、健康状態判定モデルを更新すべきか否かを判断する際に、健康診断を受診した被験者のデータからなる母集団全体に対する正解率ではなく、母集団のデータ数の一部である所定の個数のデータのみについて正解率を算出し、該算出した正解率に基づいてモデルを更新するか否かを判定する。
<健康状態判定モデル更新装置>
図4は健康状態判定モデル更新装置300の機能ブロック図の例である。
健康状態判定モデル更新装置300は、予測用データ402、正解データ404、モデル構築用データ406を必要に応じて参照するように構成される。また、健康状態判定モデル更新装置300’は、予測部302、予測結果判定部304’、モデル更新判定部306、およびモデル更新部308を含む。本実施例では、健康状態判定モデル更新装置300について説明する。
健康状態判定モデル更新装置300では、次のような手順によって、モデルの更新の必要の有無を判定する。
まず、過去の健康診断結果から罹患情報部分を切り離して、罹患情報を切り離した健康診断結果のデータである予測用データ402を作成する。切り離された罹患情報部分は、正解データ404とする。次に、健康状態判定モデルを用いて、予測用データ402から罹患に関する予測を行う。そして、その予測の結果と正解データ404を照らし合わせて正答率を算出する。正答率が基準値を満たしていれば更新はおこなわず、基準値を下回れば更新を行なう。
予測用データ402は、例が図2に示されているように、被験者ごとの過去の健康診断の検査データと、罹患の有無を含む過去の健康診断のデータ101、102、103の過去の健康診断の検査データ部分であり得る。また、正解データ404は、図2の例では、罹患の有無の欄である。
健康状態判定モデル更新装置300は、複数のデータの各々を判定モデルに用いてデータの各々が正常であるか異常であるかの度合いを示すスコアを算出し、スコアに基づいてデータの各々が正常であるか異常であるかを予測状態として予測する予測部302、複数のデータの各々に対して、予測部302によって予測された予測状態が正しいか否かを判定する予測結果判定部304、複数のデータをスコアが所定の順になるように並べたとき、スコアがより異常であることを示す方から所定の数のデータに対する予測状態の正解率を算出し、正解率に基づいて判定モデルの更新が必要であるかどうかを判定するモデル更新判定部306、およびモデル更新判定部306によって、判定モデルの更新が必要であると判定されたとき、モデルに含まれるパラメタおよび/またはパラメタを決定するために用いられる学習データを変化させることによって正解率が改善されるように判定モデルを更新するモデル更新部308を含む。
予測部302には、予測用データ402が入力される。そして、予測部302では、健康状態判定モデルを用いて予測用データ402が正常であるか異常であるかの度合いを示す「スコア」を算出する。ここで、「スコア」は、予測用データ402から得られる、被験者の健康診断の検査データに関するスカラー量で、予測用データ402が正常であるか異常であるかに関連する量である。たとえば、スコアは、0から1までの数字で表されても良い。そしてたとえば、異常である度合が大きいほど、スコアが大きい値で表されても良い。
予測のアルゴリズムとしては、確率・統計によるもの、重回帰によるもの、機械学習によるものなどあり得る。また、機械学習の手法として、サポートベクターマシン(SVM)を用いても良い。
サポートベクターマシン(SVM)は、教師ありの学習を行なう分類器であり,分類問題において、最も精度良く分類を行なう手法の一つである。SVMは教師データを用いて特徴を学習し、「予測モデル」を構築する「学習フェーズ」と、新たなデータを取得して
予測を行なう「予測フェーズ」の2段階で予測が行われる。健康状態判定モデル更新装置300での更新タイミングは、この「学習フェーズ」をやり直すタイミングを示す。SVMによる予測では、予測対象データを分離した平面(分離超平面と呼ばれる)からの距離が求められる。
図10Aは、機械学習における分類の例を示す図である。図10Aには、3つのデータを分類する場合の様子が示されている。データはあるパラメタ空間に配置されており、各データとパラメタ空間中の直線の距離の大きさによってデータを分類することができる。このとき、パラメタ空間中の直線を分離超平面と呼ぶことがある。また、データとパラメタ空間中の直線の距離を「スコア」と定義する。
図10Bは、機械学習における分類の別の例を示す図である。図10Bには、4つのデータを分類する場合の様子が示されている。データはあるパラメタ空間に配置されており、直線だけではデータを上手に分類することができない。そこで、パラメタ空間の次元を増やし(軸を増やし)、面で分類する。すなわち、データと超平面からの距離を「スコア」と定義する。一般に分離超平面からの距離が遠いほど、予測が正しい確率が上がる。
図5は、予測部302の出力である予測結果の例を示す図である。図5に示されている予測結果の例は、ユーザIDとスコア、そして罹患の有無(True(T)またはFalse(F))の予想の結果を含んでいる。罹患の有無は、スコアに基づいてデータが正常であるか異常であるかを判定した結果を表す。スコアが所定の値より大きい場合に、罹患可能性有り(True(T)、そうでない場合に、罹患可能性無し(False(F))とする。罹患可能性の有無は予測状態と呼ぶことがある。
このように予測部302は、複数の被験者の各々に対応する複数のデータの各々を判定モデルに用いてデータの各々が正常であるか異常であるかの度合いを示すスコアを算出し、そのスコアに基づいてデータの各々が正常であるか異常であるかを予測状態として予測する。
予測結果判定部304では、予測部302で予測された結果と正解データ404と比較して正解率を算出する。
図6は健康状態判定モデル更新装置における予測結果と実際の診断結果の比較の様子を示す図である。たとえば、ユーザID0001の被験者に注目すると、予測部302におけるスコアは「0.9」、予測結果では罹患可能性有り(True(T))であるとの予測であった。しかし、実際には、罹患はせず、結果は罹患無し(False(F))であった。このとき、ユーザID0001の被験者に対する予測は誤りであったと言う。予測が誤りであることを記号「0」で表すことがある。予測が誤りではないこと、すなわち予測が正しいことを記号「1」で表すことがある。予測結果判定部304では、各ユーザについて、予測結果と実際の診断結果の比較を比較して、たとえば図7のような結果を出力する。
図7は、健康状態判定モデル更新装置300の予測結果判定部304における予測結果の判定の結果の例を示す図である。ユーザID0001の被験者に対する予測は当たらなかったので、予測は誤り、すなわち予測の正誤は「0」である。
このように、予測結果判定部304は、複数の被験者の各々に関する複数のデータの各々に対して、予測部302によって予測された予測状態が正しいか否かを判定する。
モデル更新判定部306では、予測結果判定部304での予測結果の判定の結果から、
モデルを更新するかどうかを判定する。このとき、健康状態判定モデルを更新すべきか否かを判断する際に、母集団全体に対する正解率ではなく、母集団のデータ数の一部である所定の個数のデータのみについて正解率を算出し、該算出した正解率に基づいてモデルを更新するか否かを判定する。たとえば、正解率が所定の判定基準値を下回った場合にモデルの更新を行うとしてよい。判定基準値としては、80%、60%、90%など、任意の正解率を設定し得る。
図8は、健康状態判定モデル更新装置300の予測結果判定部304における予測結果の判定の結果をスコアの降順に並べた例を示す図である。
予測結果判定部304では、スコアの降順で上位5件から正解率を算出する。図9は、健康状態判定モデル更新装置における上位5個のデータの正解率を示す図である。図8の場合、スコアの降順で上位5個のデータは、ユーザIDが「0002」、「0001」、「0006」、「0007」、「0003」に対応する5つのデータである。これらのデータから正解率を算出すると、図9に示されているように、0%となる。予測の正誤の欄を参照すると、正解率は60%となる。
ここで、正答率が60%を下回った場合にモデル更新を行なうものとすれば、すなわち判定基準値が0%の場合、図の場合はモデルの更新を行うと判定される。
母集団のデータ数の一部から選ばれる所定の個数を「基準数」と呼ぶことがある。
基準数の決め方の例には、次のような方法がある。
生活習慣病予測の場合,すべてのデータを予測したとしても、実際に健康指導が行える人数には限りがある。そのため、全体的にまんべんなく正しく予測するよりも、健康指導を行う対象者を正しく予想できる方が望ましい。そこで健康状態判定モデル更新装置300では、全体に対する予測精度ではなく、ある特徴を持つデータ集合Nの予測値によって、モデルの精度(たとえば、正解率)を判定する。データの特徴としては、以下のような特徴が考えられる。
(C1)スコアの上位n件
上位n件として、たとえば、上位10%など、割合であっても良い。たとえば、スコアの上位100人の精度(たとえば、正解率)が90%を下回った場合にモデルを更新すると判定しても良い。
(C2)属性による絞込み
例えば、BNIが25以上の上位100人、年齢が40歳以上の人上位100人のデータを用いて、正解率を算出しても良い。
(C3)複数属性の組合せ
たとえば、60歳以上かつBMIが25以上の上位100人、40歳以上かつ前年度からの体重の増加率の上位100人など、複数の属性を組み合わせて基準を設定しても良い。
このようにモデル更新判定部306は、複数の被験者に対応する複数のデータのうち、スコアを降順に並べたとき、スコアの上位から所定の数の複数のデータの一部に対する予測状態の正解率を算出し、正解率に基づいて判定モデルの更新が必要であるかどうかを判定する。正解率を算出する際、所定の値以上のスコアを有する複数のデータの一部に対する予測状態の正解率を算出しても良い。
モデル更新部308では、モデル更新判定部306でモデルを更新すると判定されたとき、健康状態判定モデルを更新する。そして、更新されたモデルは、予測部302で用いられるように設定される。
モデル更新の具体的な方法としては、次のような方法が考えられる。
(M1)モデル構築時の各種パラメタを変更して再構築する
たとえば、使用する式の種類や各種パラメタを変更してモデルを再構築し、再構築したモデルの精度を比較することで、最も適切なパラメタを算出する。
(M2)学習データを変更してモデルを再構築する
たとえば、以前学習に用いたデータと違うデータを準備してモデルを再構築する。また、最後に学習した時点以降に蓄積されたデータを用いて学習しても良い。
(M3)各種パラメタと学習データを変更してモデルを再構築する
上記(M1)と(M2)の両方を同時に実行してモデルを再構築する。
モデル更新部308は、更新判定部306によってモデルの更新が必要であると判定されたとき、モデルのパラメタおよび/または学習データを変化させることによって正解率が改善されるようにモデルを更新する。
上のように構成される健康状態判定モデル更新装置300を用いることによって、 健康診断を受診した被験者のデータからなる母集団のうち、被験者の健康状態を予測する健康状態判定モデルについて、健康指導が可能な数の被験者のデータを用いてその健康状態判定モデルを更新する必要があるかどうかを判定することによって、健康状態の予測の精度を維持することができる。
図11は、実施形態の健康状態判定モデル更新装置300の構成の例を示す図である。健康状態判定モデル更新装置は、汎用コンピュータ500として実現され得る。
このコンピュータ500は、MPU502、ROM504、RAM506、ハードディスク装置508、入力装置510、表示装置512、インタフェース装置514、及び記録媒体駆動装置516を備えている。なお、これらの構成要素はバスライン520を介して接続されており、MPU502の管理の下で各種のデータを相互に授受することができる。
MPU(Micro Processing Unit)502は、このコンピュータ500全体の動作を制御する演算処理装置であり、コンピュータ500の制御処理部として機能する。
ROM(Read Only Memory)504は、所定の基本制御プログラムが予め記録されている読み出し専用半導体メモリである。MPU502は、この基本制御プログラムをコンピュータ500の起動時に読み出して実行することにより、このコンピュータ500の各構成要素の動作制御が可能になる。
RAM(Random Access Memory)506は、MPU502が各種の制御プログラムを実行する際に、必要に応じて作業用記憶領域として使用する、随時書き込み読み出し可能な半導体メモリである。
ハードディスク装置508は、MPU502によって実行される各種の制御プログラムや各種のデータを記憶しておく記憶装置である。MPU502は、ハードディスク装置508に記憶されている所定の制御プログラムを読み出して実行することにより、後述する各種の制御処理を行えるようになる。
入力装置510は、例えばマウス装置やキーボード装置であり、図6のシステムの利用者により操作されると、その操作内容に対応付けられている各種情報の入力を取得し、取得した入力情報をMPU502に送付する。
表示装置512は例えば液晶ディスプレイであり、MPU502から送付される表示データに応じて各種のテキストや画像を表示する。
インタフェース装置514は、このコンピュータ500に接続される各種機器との間での各種情報の授受の管理を行う。
記録媒体駆動装置516は、可搬型記録媒体518に記録されている各種の制御プログラムやデータの読み出しを行う装置である。MPU502は、可搬型記録媒体218に記録されている所定の制御プログラムを、記録媒体駆動装置516を介して読み出して実行することによって、後述する各種の制御処理を行うようにすることもできる。なお、可搬型記録媒体218としては、例えばUSB(Universal Serial Bus)規格のコネクタが備えられているフラッシュメモリ、CD−ROM(Compact Disc Read Only Memory)、DVD−ROM(Digital Versatile Disc Read Only Memory)などがある。
このようなコンピュータ500を用いて健康状態判定モデル更新装置を構成するには、例えば、上述の各処理部における処理をMPU502に行わせるための制御プログラムを作成する。作成された制御プログラムはハードディスク装置508若しくは可搬型記録媒体518に予め格納しておく。そして、MPU502に所定の指示を与えてこの制御プログラムを読み出させて実行させる。こうすることで、健康状態判定モデル更新装置が備えている機能がMPU502により提供される。
<モデル更新判定の方法>
図12〜14を参照して、健康状態判定モデル更新方法について説明する。
また、装置が図11に示されているような汎用コンピュータである場合には、下記の説明は、そのような処理を行う制御プログラムを定義する。すなわち、以下では、下記に説明する処理を汎用コンピュータに行わせる制御プログラムの説明でもある。
処理を開始すると、まず、S102で健康状態判定モデル更新装置300の予測部302は、罹患データのついた健康診断情報N件を取得する。ここで、罹患データのついた健康診断情報とは、図2に示されているような、ユーザに対する身長、体重、腹囲、収縮期血圧、拡張期血圧、心拍数、それに罹患の有無(True(T)またはFalse(F))を含むものであっても良い。そして、処理はS104に進む。
S104で健康状態判定モデル更新装置300の予測部302は、罹患データを切り離した健康診断情報でスコアの算出を行い、罹患可能性の有無(予測状態)を予測する。予測状態は、予測結果でもある。そして、処理はS106に進む。
S106で健康状態判定モデル更新装置300の予測部302は、予測結果のスコアで降順にソートする。スコアの降順にソートされた予測結果の例は、図8に示されている。そして、処理はS108に進む。
S108で健康状態判定モデル更新装置300の予測部302は、ソートされた予測結果の上位からn個(基準数)の予測結果を取得する。図8には、上位5件の予測結果を取得する例が示されている。そして、処理はS110に進む。
S110で健康状態判定モデル更新装置300の予測結果判定部304は、ダミー変数i、T、Fをそれぞれi=1、T=F=0とリセットする。ここで、ダミー変数i、T、
Fは整数である。ダミー変数iは、予測結果のうちの一つを指定するために用いられる。ダミー変数Tは予測結果のうち当たったものの数を示すために用いられる。ダミー変数Fは、予測結果のうち外れたものの数を示すために用いられる。そして、処理はS112に進む。
S112で健康状態判定モデル更新装置300の予測結果判定部304は、ダミー変数iの値を1つ増やす。そして、処理はS114に進む。
S114で健康状態判定モデル更新装置300の予測結果判定部304は、i番目の予測結果について、正しいか否かを判定する。もし、この判定の結果が“Yes”、すなわちi番目の予測結果が正しい場合、処理はS116に進む。もし、この判定の結果がNo”、すなわちi番目の予測結果が外れた場合、処理はS118に進む。
S116で健康状態判定モデル更新装置300の予測結果判定部304は、ダミー変数Tの値を1つ増やす。そして、処理はS120に進む。
S118で健康状態判定モデル更新装置300の予測結果判定部304は、ダミー変数Fの値を1つ増やす。そして、処理はS120に進む。
S120で健康状態判定モデル更新装置300の予測結果判定部304は、ダミー変数iが基準数n以上かどうかを判定する。もし、この判定の結果が“Yes”、すなわちダミー変数iが基準数n以上である場合、処理はS122に進む。また、この判定の結果がNo”、すなわちダミー変数iが基準数n以上ではない場合、処理はS112に戻る。
また、S120で健康状態判定モデル更新装置300の予測結果判定部304は、結果が“Yes”と判定された後、すなわちダミー変数iが基準数n以上であると判定された後、正解率T/n(=T/(T+F))を算出しても良い。
S122で健康状態判定モデル更新装置300のモデル更新判定部306は、正解率T/n(=T/(T+F))が判定基準値より大きいかどうかを判定する。もし、この判定の結果が“Yes”、すなわち正解率T/nが判定基準値より大きい場合、処理を終了する。また、この判定の結果がNo”、すなわち正解率T/nが判定基準値より大きくない場合、処理はS124に進む。
S124で健康状態判定モデル更新装置300のモデル更新部308は、モデル更新処理を行う。モデル更新処理については、図13を参照しながら説明する。
図13は、健康状態判定モデル更新方法におけるモデル更新処理の流れの例を示すフローチャートである。
処理が開始されると、S202で健康状態判定モデル更新装置300のモデル更新部308は、既存の学習データでパラメタを変更して学習する。すなわち、前述の(M1)の方法のように、既存の学習データを用いつつ、モデルのパラメタの一つを変更してモデルを再構築する。ここで健康状態判定モデルの「パラメタ」は、モデル内で使用する式の種類や、数式に含まれるパラメタも含むとする。そして、処理はS202に進む。
S204で健康状態判定モデル更新装置300のモデル更新部308は、予測精度が、判定基準値を上回ったかを判定する。つまり、再構築したモデルの精度が再構築前のモデルの精度を上回ったかを判定する。もし、この判定の結果が“Yes”、すなわち再構築したモデルの精度が再構築前のモデルの精度を上回った場合、処理はS206に進む。ま
た、この判定の結果がNo”、すなわち再構築したモデルの精度が再構築前のモデルの精度を上回らない場合、処理はS208に進む。
S206で健康状態判定モデル更新装置300のモデル更新部308は、S202で得られた学習したモデルを新規予測モデルとして更新する。そして、モデル更新処理は終了する。
S208で健康状態判定モデル更新装置300のモデル更新部308は、変更したパラメタを用い学習データを変更して学習する。すなわち、前述の(M2)の方法のように、以前学習に用いたデータと違うデータを準備してモデルを再構築する。また、最後に学習した時点以降に蓄積されたデータを用いて学習しても良い。そして、処理はS210に進む。
S210で健康状態判定モデル更新装置300のモデル更新部308は、予測精度が、判定基準値を上回ったかを判定する。つまり、再構築したモデルの精度が再構築前のモデルの精度を上回ったかを判定する。もし、この判定の結果が“Yes”、すなわち再構築したモデルの精度が再構築前のモデルの精度を上回った場合、処理はS206に進む。また、この判定の結果がNo”、すなわち再構築したモデルの精度が再構築前のモデルの精度を上回らない場合、処理はS212に進む。
S212で健康状態判定モデル更新装置300のモデル更新部308は、モデルを規定する全てのパラメタを変更したかを判定する。もし、この判定の結果が“Yes”、すなわち既に全てのパラメタを変更した場合、処理はS214に進む。また、この判定の結果がNo”、すなわち全てのパラメタが変更されていない場合、処理はS202に戻り、前回とは別のパラメタを変更する。
S214で健康状態判定モデル更新装置300のモデル更新部308は、各モデルの精度(正解率)を比較し、最も高いものをモデルとして採用する。そして、処理はS206に進む。本ステップで比較されるモデルは、ステップS208で得られたモデルでも良いし、ステップS202およびS208で得られたモデルでも良い。
モデル更新処理が終了すると図12に戻る。
健康状態判定モデル更新装置300のモデル更新部308が図12のS124の処理を終了すると、処理は終了する。
このように、母集団全体に対する正解率ではなく、母集団のデータの一部である所定の個数のデータに基づいて精度(正解率)を算出し、算出した精度(正解率)に基づいてモデルを更新するか否かを判断する。このような方法を採用するまたはこのような方法を採用した装置を用いることによって、健康状態判定モデルを用いた予測の精度を維持することができる。ここで、その母集団のデータの一部であるデータは、前記母集団全体に対する予測結果をスコアに基づいて順位づけした際の上位群であっても良い。
一般に、母集団全体に対する予測結果のうち、現実的に意味があるのはそのうちの一部のみ(例えば罹患可能性が非常に高い上位100人)であり、現実的に意味がある一部のデータに対する正解率が低いとしても、母集団全体の残りのデータの正解率如何によっては、母集団全体の正解率が高く見える場合もある。逆もまた然りであり得る。しかしながら、上記方法であれば、母集団全体に対する正解率によりモデル更新要否を判断したとすると、更新すべきタイミングを見逃したり、更新する必要が無いのに更新してしまうことを避けることができる。また、上記方法であれば、母集団の中で意味のある一部の予測対象について正解率を維持できるようにモデル更新のタイミングを決定することができる。
また上記では、精度(正解率)の算出に用いる母集団のデータの一部は、スコアの降順の上位N個(Nは任意の整数)とした。しかしながら、スコアがS(Sは所定のスコアの値)以上のデータを用いるとしても良い。
<比較例>
図14〜15を参照しながら、比較例について説明する。
比較例では、母集団のデータの全てを用いて精度(正解率)を予測し、モデルを更新するか否かを判断する。
図14は、モデル更新判定の処理の流れの比較例を示すフローチャートである。
図14に示されているフローチャートは、図12に示されているフローチャートのうちステップS106〜108の処理を削除し、正解率を算出するために基準数個のデータではなく、母集団全体のデータを用いることによって得られるものである。
図14の処理を行う健康状態判定モデル更新装置を以下では、健康状態判定モデル更新装置600と呼ぶ。
処理を開始すると、まず、S302で健康状態判定モデル更新装置600は、罹患データのついた健康診断情報N件を取得する。本処理は、図12のS102に相当する。そして、処理はS304に進む。
S304で健康状態判定モデル更新装置600は、罹患データを切り離した健康診断情報で予測を行う。本処理は、図12のS104に相当する。そして、処理はS306に進む。
S306で健康状態判定モデル更新装置600は、ダミー変数i、T、Fをそれぞれi=1、T=F=0とリセットする。本処理は、図12のS110に相当する。ここで、ダミー変数i、T、Fは整数である。ダミー変数iは、予測結果のうちの一つを指定するために用いられる。ダミー変数Tは予測結果のうち当たったものの数を示すために用いられる。ダミー変数Fは、予測結果のうち外れたものの数を示すために用いられる。そして、処理はS308に進む。
S308で健康状態判定モデル更新装置600は、ダミー変数iの値を1つ増やす。そして、処理はS310に進む。
S310で健康状態判定モデル更新装置600は、i番目の予測結果について、正しいか否かを判定する。もし、この判定の結果が“Yes”、すなわちi番目の予測結果が正しい場合、処理はS312に進む。もし、この判定の結果がNo”、すなわちi番目の予測結果が外れた場合、処理はS314に進む。
S312で健康状態判定モデル更新装置600は、ダミー変数Tの値を1つ増やす。そして、処理はS316に進む。
S314で健康状態判定モデル更新装置600は、ダミー変数Fの値を1つ増やす。そして、処理はS316に進む。
S316で健康状態判定モデル更新装置600は、全ての予測結果のデータについて試したかどうかを判定する。もし、この判定の結果が“Yes”、すなわち全ての予測結果
のデータについて試した場合、処理はS318に進む。また、この判定の結果がNo”、すなわち全ての予測結果のデータについて試していない場合、処理はS310に戻る。
また、S316で健康状態判定モデル更新装置600は、結果が“Yes”と判定された後、すなわち全ての予測結果のデータについて試した後、正解率T/n(=T/(T+F))を算出しても良い。
S318で健康状態判定モデル更新装置600は、正解率T/n(=T/(T+F))が判定基準値より大きいかどうかを判定する。もし、この判定の結果が“Yes”、すなわち正解率T/nが判定基準値より大きい場合、処理を終了する。また、この判定の結果がNo”、すなわち正解率T/nが判定基準値より大きくない場合、処理はS320に進む。
S310で健康状態判定モデル更新装置600は、モデル更新処理を行う。本ステップの処理は、図13に示されているものと同一であるまたは類似しているので、説明は省略する。
S310の処理が終了すると、健康状態判定モデル更新装置600は処理を終了する。
健康状態判定モデル更新装置600で実行される上のような処理を図7に示されている予測結果の判定の結果の例に適用した結果が、図15に示されている。図15は、比較例における予測結果の正解率を示す図である。
ID0001〜0010の被験者に対する予測結果の正解率は、80%となる。ここで、判定基準値が80%の場合は、図15の例では、モデルの更新は行わない。
図9に示されている結果は、予測の結果、罹患可能性が非常に高い人たちに対するデータを用いて得たものである。つまり、図で示されている結果は、健康診断の結果に対して実際に指導が可能な人のデータを用いて得たものである。よって、図に示されている結果を用いてモデルの更新の要否を判定することによって、母集団の中で意味のある一部の予測対象について正解率を維持できるようにモデル更新のタイミングを決定できる。
<変形例>
図4、16〜19を参照して健康状態判定モデル更新装置300’および方法について説明する。
本例では、正解率の算出に用いるデータから、何らかの対策が取られた上で得られたデータ、たとえば健康指導がなされた被験者のデータは、正解率算出の対象から除外する。
対策が取られた、たとえば健康指導がなされた被験者のデータは、その被験者の元々のデータが示していた将来状態からは、人為的に異なる状態にさせられていると考えられる。つまり、罹患しないような方向に変化させられていると考えられえる。そのようなデータは、たとえ現時点でのスコアが悪くでも、将来的には「罹患する」の状態からは外れる可能性が高いであろう。よって、そのようなデータは「例外データ」として、正解率の算出のためのデータから除去する。すなわち、「例外データ」とは、健康指導がなされた被験者のデータであり得る。
図4において、本例の健康状態判定モデル更新装置300’は、予測部302、予測結果判定部304’、モデル更新判定部306、およびモデル更新部308を含む。
予測結果判定部304’は、正解率の算出の際、例外データを除いたデータを用いる。予測結果判定部304’は、複数の被験者に関する複数のデータのうち、複数の被験者のうち、既に指導がなされた被験者に対応するデータを除外して正解率を算出する。
健康状態判定モデル更新装置300’は、汎用コンピュータ500として実現され得る。
図16は、変形例の健康状態判定モデル更新方法におけるモデル更新判定の処理の流れの例を示すフローチャートである。
処理を開始すると、まず、S402で健康状態判定モデル更新装置300’の予測部302は、罹患データのついた健康診断情報N件を取得する。本処理は図12のS102に相当する。そして、処理はS404に進む。
S404で健康状態判定モデル更新装置300’の予測部302は、罹患データを切り離した健康診断情報で予測を行う。本処理は図12のS104に相当する。そして、処理はS406に進む。
S406で健康状態判定モデル更新装置300’の予測部302は、予測結果のスコアで降順にソートする。スコアの降順にソートされた予測結果の例は、図8に示されている。本処理は図12のS106に相当する。そして、処理はS08に進む。
S408で健康状態判定モデル更新装置300’の予測部302は、ソートされた予測結果の上位からn個(基準数)の予測結果を取得する。図8には、上位5件の予測結果を取得する例が示されている。本処理は図12のS108に相当する。そして、処理はS10に進む。
S410で健康状態判定モデル更新装置300の予測結果判定部304’は、ダミー変数i、T、Fをそれぞれi=1、T=F=0とリセットする。本処理は図12のS110に相当する。ダミー変数i、T、Fは整数である。ダミー変数iは、予測結果のうちの一つを指定するために用いられる。ダミー変数Tは予測結果のうち当たったものの数を示すために用いられる。ダミー変数Fは、予測結果のうち外れたものの数を示すために用いられる。そして、処理はS412に進む。
S412で健康状態判定モデル更新装置300’の予測結果判定部304’は、ダミー変数iの値を1つ増やす。本処理は図12のS112に相当する。そして、処理はS414に進む。
S414で健康状態判定モデル更新装置300’の予測結果判定部304’は、i番目の予測結果について、例外データであるか否かを判定する。もし、この判定の結果が“Yes”、すなわちi番目の予測結果が例外データである場合、処理はS422に進む。もし、この判定の結果がNo”、すなわちi番目の予測結果が例外データではない場合、処理はS416に進む。
S416で健康状態判定モデル更新装置300’の予測結果判定部304’は、i番目の予測結果について、正しいか否かを判定する。本処理は図12のS114に相当する。もし、この判定の結果が“Yes”、すなわちi番目の予測結果が正しい場合、処理はS418に進む。もし、この判定の結果がNo”、すなわちi番目の予測結果が外れた場合、処理はS420に進む。
S418で健康状態判定モデル更新装置300の予測結果判定部304は、ダミー変数Tの値を1つ増やす。本処理は図12のS116に相当する。そして、処理はS422に進む。
S410で健康状態判定モデル更新装置300の予測結果判定部304は、ダミー変数Fの値を1つ増やす。本処理は図12のS118に相当する。そして、処理はS422に進む。
S422で健康状態判定モデル更新装置300’の予測結果判定部304’は、ダミー変数iが基準数n以上かどうかを判定する。本処理は図12のS120に相当する。もし、この判定の結果が“Yes”、すなわちダミー変数iが基準数n以上である場合、処理はS424に進む。また、この判定の結果がNo”、すなわちダミー変数iが基準数n以上ではない場合、処理はS412に戻る。
また、S422で健康状態判定モデル更新装置300’の予測結果判定部304’は、結果が“Yes”と判定された後、すなわちダミー変数iが基準数n以上であると判定された後、正解率T/n(=T/(T+F))を算出しても良い。
S424で健康状態判定モデル更新装置300’のモデル更新判定部306は、正解率T/n(=T/(T+F))が判定基準値より大きいかどうかを判定する。本処理は図12のS122に相当する。もし、この判定の結果が“Yes”、すなわち正解率T/nが判定基準値より大きい場合、処理を終了する。また、この判定の結果がNo”、すなわち正解率T/nが判定基準値より大きくない場合、処理はS426に進む。
S426で健康状態判定モデル更新装置300’のモデル更新部308は、モデル更新処理を行う。本ステップの処理は、図13に示されているものと同一であるまたは類似しているので、説明は省略する。
S426の処理が終了すると、健康状態判定モデル更新装置300’は処理を終了する。
図17は、変形例の健康状態判定モデル更新装置における予測結果と実際の診断結果の比較の様子を示す図である。図17では、図7に示されている結果と、各ユーザIDを有する被験者に対応するデータが例外データであるかどうかを示す表とを比較している。あるユーザIDを有する被験者のデータが例外データであるか否かは、例外フラグが「1」であるか「0」であるかで判別し得る。例外フラグが「1」の場合、そのデータは、健康指導がなされた被験者のデータであることを意味する。
図18は、変形例の健康状態判定モデル更新装置における予測結果の判定の結果の例を示す図である。図19は、変形例の健康状態判定モデル更新装置における上位5個のデータの正解率を示す図である。図18に示すように、スコアの降順にデータを並べた場合、ユーザID=0006のデータは例外データなので、正解率の算出には用いない。すると、スコアの降順で上位5個のデータは、ユーザIDが「0002」、「0001」、「0007」、「0003」、「0004」に対応する5つのデータである。これらのデータから正解率を算出すると、図19に示されているように、80%となる。
上の例では、図15に示されている結果と図19に示されている結果がたまたま一致したが、図19に示されている結果は、予測の結果、罹患可能性が非常に高く、健康指導がなされていない人たちに対するデータを用いて得たものである。つまり、図19で示されている結果は、健康診断の結果に対して実際に今後、指導が可能な人のデータを用いて得たものである。よって、図19に示されている結果を用いてモデルの更新の要否を判定することによって、母集団の中で意味のある一部の予測対象について正解率を維持できるようにモデル更新のタイミングを決定できる。
300、300’ 健康状態判定モデル更新装置
302 予測部
304、304’ 予測結果判定部
306 モデル更新判定部306
308 モデル更新部
402 予測用データ
404 正解データ
406 モデル構築用データ

Claims (10)

  1. コンピュータによって実行されるモデル更新方法であって、
    複数のデータの各々を判定モデルに用いて前記データの前記各々が正常であるか異常であるかの度合いを示すスコアを算出することと、
    前記スコアに基づいて前記データの前記各々が正常であるか異常であるかを予測状態として予測することと、
    前記複数のデータの各々に対して、前記予測状態が正しいか否かを、前記複数のデータの各々に対応する正解データを参照して判定することと、
    前記複数のデータを前記スコアが所定の順になるように並べたとき、前記スコアがより異常であることを示す方から所定の数の前記データに対する前記予測状態の正解率を算出することと、
    前記正解率に基づいて前記判定モデルの更新が必要であるかどうかを判定することと、
    を含む方法。
  2. 前記データの前記各々が正常であるか異常であるかを予測状態として予測することは、前記複数のデータのうち、既に対策が取られた上で得られた前記データを除外して前記正解率を算出する、請求項1に記載のモデル更新方法。
  3. 前記判定モデルはパラメタを含み、前記パラメタは学習データを用いて算出され、
    さらに、
    前記判定モデルの更新が必要であると判定されたとき、前記パラメタおよび/または前記学習データを変化させることによって前記正解率が改善されるように前記判定モデルを更新することと、
    を含む請求項1または2に記載のモデル更新方法。
  4. 前記複数のデータは、前記複数の被験者の健康診断の結果を含み、前記予測状態は、前記複数の被験者の各々の罹患の有無に関連する、請求項1〜3のいずれか一項に記載のモデル更新方法。
  5. 複数のデータの各々を判定モデルに用いて前記データの前記各々が正常であるか異常であるかの度合いを示すスコアを算出し、前記スコアに基づいて前記データの前記各々が正常であるか異常であるかを予測状態として予測する予測部と、
    前記複数のデータの各々に対して、前記予測部によって予測された前記予測状態が正しいか否かを、前記複数のデータの各々に対応する正解データを参照して判定する予測結果判定部と、
    前記複数のデータを前記スコアが所定の順になるように並べたとき、前記スコアがより異常であることを示す方から所定の数の前記データに対する前記予測状態の正解率を算出し、前記正解率に基づいて前記判定モデルの更新が必要であるかどうかを判定するモデル更新判定部と、
    を含むモデル更新装置。
  6. 前記複数のデータは、前記複数の被験者の健康診断の結果を含み、前記予測状態は、前記複数の被験者の各々の罹患の有無に関連する、請求項5のいずれか一項に記載のモデル更新装置。
  7. 複数の被験者の各々に対応する複数のデータの各々を判定モデルに用いて前記データの前記各々が正常であるか異常であるかの度合いを示すスコアを算出し、
    前記スコアに基づいて前記データの前記各々が正常であるか異常であるかを予測状態として予測し、
    前記複数の被験者の各々に関する前記複数のデータの各々に対して、前記予測状態が正しいか否かを、前記複数のデータの各々に対応する正解データを参照して判定し、
    前記複数のデータを前記スコアが所定の順になるように並べたとき、前記スコアがより異常であることを示す方から所定の数の前記データに対する前記予測状態の正解率を算出し、
    前記正解率に基づいて前記判定モデルの更新が必要であるかどうかを判定する
    処理をコンピュータに実行させるプログラム。
  8. 前記データの前記各々が正常であるか異常であるかを予測状態として予測させる処理では、前記複数の被験者に関する前記複数のデータのうち、前記複数の被験者のうち、既に対策が取られた上で得られた前記被験者に対応する前記データを除外して前記正解率を算出させる、請求項7に記載のプログラム。
  9. 前記判定モデルはパラメタを含み、前記パラメタは学習データを用いて算出され、
    さらに、
    前記判定モデルの更新が必要であると判定させる処理では、前記パラメタおよび/または前記学習データを変化させることによって前記正解率が改善されるように前記判定モデルを更新させる処理をコンピュータに実行させる、請求項7または8に記載のプログラム。
  10. 前記複数のデータは、前記複数の被験者の健康診断の結果を含み、前記予測状態は、前記複数の被験者の各々の罹患の有無に関連する、請求項7〜9のいずれか一項に記載のプログラム。
JP2015507882A 2013-03-29 2013-03-29 モデル更新方法、装置、およびプログラム Active JP6004084B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/059585 WO2014155690A1 (ja) 2013-03-29 2013-03-29 モデル更新方法、装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP6004084B2 true JP6004084B2 (ja) 2016-10-05
JPWO2014155690A1 JPWO2014155690A1 (ja) 2017-02-16

Family

ID=51622744

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015507882A Active JP6004084B2 (ja) 2013-03-29 2013-03-29 モデル更新方法、装置、およびプログラム

Country Status (3)

Country Link
US (1) US9646265B2 (ja)
JP (1) JP6004084B2 (ja)
WO (1) WO2014155690A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6531821B2 (ja) * 2015-03-23 2019-06-19 日本電気株式会社 予測モデル更新システム、予測モデル更新方法および予測モデル更新プログラム
JP6742894B2 (ja) * 2016-06-09 2020-08-19 株式会社日立製作所 データ予測システムおよびデータ予測方法
JP6724149B2 (ja) * 2016-09-30 2020-07-15 三菱電機ビルテクノサービス株式会社 所在人数予測装置、設備管理システム及びプログラム
JP7330665B2 (ja) * 2016-12-28 2023-08-22 キヤノンメディカルシステムズ株式会社 治療計画装置及び臨床モデル比較方法
JP6533243B2 (ja) * 2017-03-01 2019-06-19 ヤフー株式会社 提供装置、提供方法、及び提供プログラム
JP6818701B2 (ja) * 2018-01-04 2021-01-20 日本電信電話株式会社 状態遷移予測モデル学習装置、方法およびプログラム
JP2019215728A (ja) 2018-06-13 2019-12-19 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
EP3709230A4 (en) * 2018-07-30 2021-01-20 Rakuten, Inc. EVALUATION SYSTEM, EVALUATION PROCEDURE AND PROGRAM
JP7273470B2 (ja) * 2018-08-14 2023-05-15 キヤノン株式会社 医用情報処理装置及び医用情報処理方法、プログラム
JP7021052B2 (ja) 2018-11-06 2022-02-16 株式会社東芝 製品状態推定装置
JP7238910B2 (ja) * 2019-02-08 2023-03-14 日本電気株式会社 生体情報処理装置、方法、及びプログラム
CN112241754B (zh) * 2019-07-19 2023-06-23 上海哔哩哔哩科技有限公司 在线模型学习方法、系统、设备及计算机可读存储介质
JP7438693B2 (ja) 2019-09-02 2024-02-27 キヤノンメディカルシステムズ株式会社 診療支援装置
JP7203000B2 (ja) * 2019-11-12 2023-01-12 Hoya株式会社 プログラム、情報処理方法及び情報処理装置
CN111000569B (zh) * 2019-11-29 2022-07-12 中润普达(十堰)大数据中心有限公司 一种异常血糖智能认知的监护系统
JP2021117926A (ja) * 2020-01-29 2021-08-10 キヤノン株式会社 医用情報処理システム、医用情報処理装置、医用情報処理システムの制御方法、及びプログラム
KR102258899B1 (ko) * 2020-11-24 2021-06-01 주식회사 엔젠바이오 통합적 건강 정보를 이용한 식단 및 운동 추천 방법 및 서비스 시스템
CN113433913B (zh) * 2021-07-06 2023-03-24 上海新氦类脑智能科技有限公司 系统监测模型生成及监测方法、处理器芯片以及工业系统
CN115879849B (zh) * 2023-03-03 2023-05-09 青岛海天利达金属技术有限公司 一种物流信息的智能管理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002109150A (ja) * 2000-09-28 2002-04-12 Fuji Electric Co Ltd 時系列データの適応的予測方法
JP2004086896A (ja) * 2002-08-06 2004-03-18 Fuji Electric Holdings Co Ltd 適応的予測モデル構築方法及び適応的予測モデル構築システム
JP2007518972A (ja) * 2003-12-11 2007-07-12 コレロジック システムズ,インコーポレイティド 集中化適応モデル及び遠隔操作サンプルプロセッシングの使用を介した生物学的状態の診断方法
JP2011192032A (ja) * 2010-03-15 2011-09-29 Nippon Steel Corp 疵学習装置、疵学習方法、及びコンピュータプログラム
US20130080125A1 (en) * 2011-09-23 2013-03-28 International Business Machines Corporation Continuous prediction of expected chip performance throuhout the production lifecycle

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7970718B2 (en) * 2001-05-18 2011-06-28 Health Discovery Corporation Method for feature selection and for evaluating features identified as significant for classifying data
JP3743247B2 (ja) 2000-02-22 2006-02-08 富士電機システムズ株式会社 ニューラルネットワークによる予測装置
JP2004280450A (ja) * 2003-03-14 2004-10-07 Toshiba Corp プラントモデルの自動モデリング装置
US7505948B2 (en) * 2003-11-18 2009-03-17 Aureon Laboratories, Inc. Support vector regression for censored data
US7599893B2 (en) * 2005-10-13 2009-10-06 Aureon Laboratories, Inc. Methods and systems for feature selection in machine learning based on feature contribution and model fitness
JP4528984B2 (ja) * 2007-01-29 2010-08-25 国立大学法人広島大学 Pid制御装置及びpid制御方法
PT2145276T (pt) * 2007-04-05 2020-07-30 Fund D Anna Sommer Champalimaud E Dr Carlos Montez Champalimaud Sistemas e métodos de tratamento, diagnóstico e previsão da ocorrência de uma condição médica
AU2009217184B2 (en) * 2008-02-20 2015-03-19 Digital Medical Experts Inc. Expert system for determining patient treatment response
US20100082506A1 (en) * 2008-09-30 2010-04-01 General Electric Company Active Electronic Medical Record Based Support System Using Learning Machines
US20100094784A1 (en) * 2008-10-13 2010-04-15 Microsoft Corporation Generalized kernel learning in support vector regression
JP2012208710A (ja) 2011-03-29 2012-10-25 Panasonic Corp 属性推定装置
KR101993716B1 (ko) * 2012-09-28 2019-06-27 삼성전자주식회사 카테고리별 진단 모델을 이용한 병변 진단 장치 및 방법
AU2014239852A1 (en) * 2013-03-15 2015-11-05 The Cleveland Clinic Foundation Self-evolving predictive model
US9754081B2 (en) * 2013-05-14 2017-09-05 The Regents Of The University Of California Context-aware prediction in medical systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002109150A (ja) * 2000-09-28 2002-04-12 Fuji Electric Co Ltd 時系列データの適応的予測方法
JP2004086896A (ja) * 2002-08-06 2004-03-18 Fuji Electric Holdings Co Ltd 適応的予測モデル構築方法及び適応的予測モデル構築システム
JP2007518972A (ja) * 2003-12-11 2007-07-12 コレロジック システムズ,インコーポレイティド 集中化適応モデル及び遠隔操作サンプルプロセッシングの使用を介した生物学的状態の診断方法
JP2011192032A (ja) * 2010-03-15 2011-09-29 Nippon Steel Corp 疵学習装置、疵学習方法、及びコンピュータプログラム
US20130080125A1 (en) * 2011-09-23 2013-03-28 International Business Machines Corporation Continuous prediction of expected chip performance throuhout the production lifecycle

Also Published As

Publication number Publication date
US9646265B2 (en) 2017-05-09
US20150379432A1 (en) 2015-12-31
WO2014155690A1 (ja) 2014-10-02
JPWO2014155690A1 (ja) 2017-02-16

Similar Documents

Publication Publication Date Title
JP6004084B2 (ja) モデル更新方法、装置、およびプログラム
Dias et al. Artificial intelligence in clinical and genomic diagnostics
JP6075973B2 (ja) 健康状態判定装置およびその作動方法
Luo et al. Guidelines for developing and reporting machine learning predictive models in biomedical research: a multidisciplinary view
CN109313939B (zh) 健康状况预测装置,健康状况预测方法和计算机可读记录介质
EP2755154A2 (en) Information processing apparatus, generating method, medical diagnosis support apparatus, and medical diagnosis support method
Guilleux et al. RespOnse Shift ALgorithm in Item response theory (ROSALI) for response shift detection with missing data in longitudinal patient-reported outcome studies
Rahman et al. Defining and predicting pain volatility in users of the manage my pain app: analysis using data mining and machine learning methods
Cummings et al. Predicting intensive care transfers and other unforeseen events: analytic model validation study and comparison to existing methods
Lim et al. Modelling knowledge, health beliefs, and health-promoting behaviours related to cardiovascular disease prevention among Malaysian university students
Bertens et al. A nomogram was developed to enhance the use of multinomial logistic regression modeling in diagnostic research
Landale et al. Health and development among Mexican, black and white preschool children: An integrative approach using latent class analysis
Khasha et al. Detecting asthma control level using feature-based time series classification
Uckelstam Looking into the Future: How to Use Advanced Statistical Methods for Predicting Psychotherapy Outcomes in Routine Care
Nieto-Palomo et al. Statistical techniques for predicting rupture risk in abdominal aortic aneurysms: A contribution based on bootstrap
JP5100979B2 (ja) 生体シミュレーションシステム及びコンピュータプログラム
Li et al. A face image classification method of autistic children based on the two-phase transfer learning
Pfannschmidt et al. FRI-Feature relevance intervals for interpretable and interactive data exploration
Chattopadhyay Mathematical modelling of doctors’ perceptions in the diagnosis of depression: a novel approach
Bichindaritz Solving safety implications in a case based decision-support system in medicine
US20210271924A1 (en) Analyzer, analysis method, and analysis program
Bakar et al. Predicting depression using social media posts
Rani et al. Identification of lung cancer using ensemble methods based on gene expression data
Anakal et al. Clinical Decision Support System for Diagnosis and Treatment of COPD Using Ensemble Methods
Zhao et al. Comorbidity network analysis using graphical models for electronic health records

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160822

R150 Certificate of patent or registration of utility model

Ref document number: 6004084

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150