JP6988895B2 - 疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラム - Google Patents

疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラム Download PDF

Info

Publication number
JP6988895B2
JP6988895B2 JP2019535490A JP2019535490A JP6988895B2 JP 6988895 B2 JP6988895 B2 JP 6988895B2 JP 2019535490 A JP2019535490 A JP 2019535490A JP 2019535490 A JP2019535490 A JP 2019535490A JP 6988895 B2 JP6988895 B2 JP 6988895B2
Authority
JP
Japan
Prior art keywords
data
insured
predetermined
disease
receipt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019535490A
Other languages
English (en)
Other versions
JPWO2019030840A1 (ja
Inventor
広晃 福西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2019030840A1 publication Critical patent/JPWO2019030840A1/ja
Application granted granted Critical
Publication of JP6988895B2 publication Critical patent/JP6988895B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/06Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
    • H04L9/0643Hash functions, e.g. MD5, SHA, HMAC or f9 MAC
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/42Anonymization, e.g. involving pseudonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Toxicology (AREA)
  • Power Engineering (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Description

本発明は、疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラムに関し、特に被保険者に将来所定の疾病が発症するリスクを予測する疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラムに関する。
各自治体が運営する国民健康保険制度や企業が設立した健康保険組合が運営する健康保険制度において、制度を利用する被保険者に掛かる医療費を削減するための施策の策定が進められている。施策が策定される際、例えばレセプト等のヘルスケアデータが用いられて被保険者の健康状態が分析される。
健康状態の分析は、例えば人工知能(AI;Artificial Intelligence)によって実行される。被保険者の健康状態が将来悪化することが予測されれば、各自治体や健康保険組合は、被保険者の健康状態の悪化を予防するための事業の実行等の対策を計画できる。
健康状態の悪化の原因の1つとして、人口の高齢化が挙げられる。人口の高齢化に伴う患者の増加は、現在の日本において大きな社会問題として捉えられている。患者の増加が大きな社会問題として捉えられている理由の1つは、患者のケアに多額の費用が掛かるためである。
患者のケアに掛かる費用には、医療費、介護費、インフォーマルケアコスト等が含まれる。すなわち、患者が増えると、国や自治体が負担するコストである社会的コストも大きくなる。
なお、インフォーマルケアは、自治体や専門機関等、フォーマル(正式)な制度に基づいて提供される支援ではなく、家族や友人、地域住民、ボランティア等によるフォーマルな制度に基づかない非公式な支援を意味する。インフォーマルケアは、インフォーマルサービスともいう。
従って、被保険者に将来所定の疾病が発症するリスクが早期に予測されれば、各自治体や各健康保険組合は、予防事業の実行により所定の疾病の発症を抑制できる可能性がある。被保険者の所定の疾病の発症が抑制されると、上記の社会的コストが削減される。
特許文献1および特許文献2には、所定の疾病が発症するリスク等を予測する技術が記載されている。例えば、特許文献1には、アルツハイマー病の発症リスクを予測する方法が記載されている。
特許文献1に記載されている方法は、ヒトから採取された生体液中に存在するアミロイドβペプチドのシャペロン活性を喪失したヒトリポカリン型プロスタグランジンD合成酵素(β−トレース)を定量することによって、アルツハイマー病の発症リスクを予測する。または、特許文献1に記載されている方法は、ヒトから採取された生体液におけるアミロイドβペプチドのシャペロン活性を測定することによって、アルツハイマー病の発症リスクを予測する。
特許文献2には、例えば原発性乳がんの治療の際、腋窩リンパ節(AxLN)への転移(AxLN転移)の発生をADTree(Alternative Decisio Tree:交互決定木)で構成される予測モデルを用いて予測する方法が記載されている。特許文献2に記載されている予測モデルを学習する学習装置は、訓練データとして、例えば過去の時点にさかのぼって後ろ向きに得られた臨床データを用いる。
また、特許文献3には、健診情報およびレセプト情報に基づいて、健診情報とレセプト情報の各項目を確率変数とするグラフィカルモデルを作成および可視化することによって、保健指導による医療費削減効果を予測する医療データ分析システムが記載されている。
特許第4981305号公報 特許第5603639号公報 特開2015−090689号公報
特許文献1に記載されている方法が実行される際、上述したようにアルツハイマー病の発症リスクの予測のために特別な検査が要求される。すなわち、特許文献1に記載されている方法では、特別な検査が実行されなくても入手可能な、既に存在する情報を用いてアルツハイマー病の発症リスクを予測することが想定されていない。
また、特許文献2に記載されている学習装置は、上述したように訓練データとして、既に存在する情報である臨床データを用いる。しかし、特許文献2に記載されている学習装置では、臨床データ以外のデータを訓練データとして利用することが想定されていない。
また、特許文献3に記載されている医療データ分析システムは、上述したように出所が異なる複数のデータを結合してグラフィカルモデルを作成および可視化する。しかし、特許文献3に記載されている医療データ分析システムでは、複数のデータが結合される際に個人を識別する情報を秘匿することが想定されていない。
[発明の目的]
そこで、本発明は、上述した課題を解決する、個人情報が保護された上で出所が異なる複数のデータを基に疾病発症リスクを予測できる疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラムを提供することを目的とする。
本発明による疾病発症リスク予測システムは、所定の方法で変換された被保険者の被保険者番号とその被保険者の年齢特定可能項目である生年月日または生年月と性別とを含むデータであるレセプトデータのうち、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と年齢特定可能項目と性別とを結合したキーである結合キーで結合することによって結合データを生成するデータ生成手段と、生成された結合データを用いて被保険者に所定の疾病が発症するリスクを予測する予測モデルを生成するモデル生成手段と、生成された予測モデルを用いて所定の疾病の発症者になる可能性がある被保険者を予測する予測手段とを備え、レセプトデータは、診療行為に対するレセプトを示すデータである医科レセプトデータ、調剤行為に対するレセプトを示すデータである調剤レセプトデータ、または介護サービスに対するレセプトを示すデータである介護保険データのうちのいずれかであり、データ生成手段は、少なくとも医科レセプトデータを用いて結合データを生成し、生成された結合データのうち所定年以前に所定の疾病を発症した被保険者のデータを除外し、所定年の翌年以降に被保険者が所定の疾病を発症したか否かを示す属性を、所定の疾病を発症した被保険者のデータが除外された結合データに追加し、モデル生成手段は、追加された属性を目的変数とし、所定の疾病を発症した被保険者のデータが除外された結合データに含まれる所定年以前の情報を説明変数として予測モデルを生成することを特徴とする。
本発明による疾病発症リスク予測方法は、コンピュータが、所定の方法で変換された被保険者の被保険者番号とその被保険者の年齢特定可能項目である生年月日または生年月と性別とを含むデータであるレセプトデータのうち、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と年齢特定可能項目と性別とを結合したキーである結合キーで結合することによって結合データを生成し、生成された結合データを用いて被保険者に所定の疾病が発症するリスクを予測する予測モデルを生成し、生成された予測モデルを用いて所定の疾病の発症者になる可能性がある被保険者を予測し、診療行為に対するレセプトを示すデータである医科レセプトデータ、調剤行為に対するレセプトを示すデータである調剤レセプトデータ、または介護サービスに対するレセプトを示すデータである介護保険データのうちのいずれかであるレセプトデータの中から、少なくとも医科レセプトデータを用いて結合データを生成し、生成された結合データのうち所定年以前に所定の疾病を発症した被保険者のデータを除外し、所定年の翌年以降に被保険者が所定の疾病を発症したか否かを示す属性を、所定の疾病を発症した被保険者のデータが除外された結合データに追加し、追加された属性を目的変数とし、所定の疾病を発症した被保険者のデータが除外された結合データに含まれる所定年以前の情報を説明変数として予測モデルを生成することを特徴とする。
本発明による疾病発症リスク予測プログラムは、コンピュータに、所定の方法で変換された被保険者の被保険者番号とその被保険者の年齢特定可能項目である生年月日または生年月と性別とを含むデータであるレセプトデータのうち、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と年齢特定可能項目と性別とを結合したキーである結合キーで結合することによって結合データを生成する第1生成処理生成された結合データを用いて被保険者に所定の疾病が発症するリスクを予測する予測モデルを生成する第2生成処理、および生成された予測モデルを用いて所定の疾病の発症者になる可能性がある被保険者を予測する予測処理を実行させるための疾病発症リスク予測プログラムであって、第1生成処理で、診療行為に対するレセプトを示すデータである医科レセプトデータ、調剤行為に対するレセプトを示すデータである調剤レセプトデータ、または介護サービスに対するレセプトを示すデータである介護保険データのうちのいずれかであるレセプトデータの中から、少なくとも医科レセプトデータを用いて結合データを生成させ、生成された結合データのうち所定年以前に所定の疾病を発症した被保険者のデータを除外させ、所定年の翌年以降に被保険者が所定の疾病を発症したか否かを示す属性を、所定の疾病を発症した被保険者のデータが除外された結合データに追加させ、第2生成処理で、追加された属性を目的変数とし、所定の疾病を発症した被保険者のデータが除外された結合データに含まれる所定年以前の情報を説明変数として予測モデルを生成させることを特徴とする。
本発明によれば、個人情報が保護された上で出所が異なる複数のデータを基に疾病発症リスクを予測できる。
本発明による疾病発症リスク予測システムの第1の実施形態の構成例を示すブロック図である。 医科レセプト記憶手段111に記憶されている医科レセプトの例を示す説明図である。 医科レセプトに含まれる項目の例を示す説明図である。 調剤レセプト記憶手段112に記憶されている調剤レセプトの例を示す説明図である。 調剤レセプトに含まれる項目の例を示す説明図である。 介護保険データ記憶手段113に記憶されている介護保険データの例を示す説明図である。 介護保険データに含まれる項目の例を示す説明図である。 生成用データ加工手段121が生成する個人単位で集計された加工データの例を示す説明図である。 加工データの用途の例を示す説明図である。 データ分類手段123による加工データの処理例を示す説明図である。 データ分類手段123による加工データの他の処理例を示す説明図である。 第1の実施形態の疾病発症リスク予測システム100による疾病発症者予測処理の動作を示すフローチャートである。 データ分類手段123が生成する個人単位で集計されたデータの例を示す説明図である。 データ分類手段123によるデータ分類処理の例を示す説明図である。 訓練データと評価データの例を示す説明図である。 データ分類手段123による訓練データの処理例を示す説明図である。 性能評価手段132による性能評価処理の例を示す説明図である。 混合行列を基に算出される性能を表す値の例を示す説明図である。 予測モデルの疾病発症予測性能を表すグラフの例を示す説明図である。 本発明による疾病発症リスク予測システムの概要を示すブロック図である。
実施形態1.
[構成の説明]
以下、本発明の実施形態を、図面を参照して説明する。図1は、本発明による疾病発症リスク予測システムの第1の実施形態の構成例を示すブロック図である。本実施形態の疾病発症リスク予測システムは、被保険者に将来所定の疾病が発症するリスクを予測するシステムである。
本実施形態の疾病発症リスク予測システム100は、疾病発症リスクを予測する予測モデルの生成のために、医科レセプトや調剤レセプト等の多様なデータが個人単位で集計されたデータを予測モデル生成用の訓練データとして利用する。
図1に示すように、本実施形態の疾病発症リスク予測システム100は、記憶部110と、データ加工部120と、予測モデル生成部130と、予測部140とを含む。
また、図1に示すように、記憶部110は、医科レセプト記憶手段111と、調剤レセプト記憶手段112と、介護保険データ記憶手段113とを有する。なお、各記憶手段に記憶されているデータは、編集等が施されていないデータである生データでもよいし、生データがデータ提供者によって加工されたデータでもよい。
図2は、医科レセプト記憶手段111に記憶されている医科レセプトの例を示す説明図である。医科レセプトは、例えば病院での診療行為に対して支払われる費用を示す明細書である。医科レセプトは、医療機関ごとに提供されるデータである。
図2に示すように、医科レセプトは、例えばレセプト番号と、国保被保険者番号と、性別と、生年月日と、医療点数と、傷病コードとを含む。レセプト番号は、医科レセプトを一意に識別する番号である。
また、国保被保険者番号は、レセプト番号に対応する診療行為を受けた被保険者の世帯を一意に識別する国民健康保険制度における番号である。また、性別は、レセプト番号に対応する診療行為を受けた被保険者の性別を表す数字を示す。また、生年月日は、レセプト番号に対応する診療行為を受けた被保険者の生年月日を表す数字を示す。
また、医療点数は、レセプト番号に対応する診療行為に対して支払われる費用を表す数字を示す。また、傷病コードは、レセプト番号に対応する診療行為の対象の傷病を一意に識別する番号である。
なお、図2に示すように、医科レセプトは、月単位のデータとして提供される。また、医科レセプトが提供される際、国保被保険者番号は、個人情報の保護のために通常ハッシュ化されている。
また、医科レセプトには、図2に示す項目以外の他の項目が含まれていてもよい。図3は、医科レセプトに含まれる項目の例を示す説明図である。
図4は、調剤レセプト記憶手段112に記憶されている調剤レセプトの例を示す説明図である。調剤レセプトは、例えば調剤薬局での調剤行為に対して支払われる費用を示す明細書である。調剤レセプトは、調剤薬局ごとに提供されるデータである。
図4に示すように、調剤レセプトは、例えばレセプト番号と、国保被保険者番号と、性別と、生年月日と、調剤点数と、薬価基準収載医薬品コードと、単価とを含む。
レセプト番号は、調剤レセプトを一意に識別する番号である。また、国保被保険者番号、性別、および生年月日は、医科レセプトにおける各項目が表す内容と同様の内容をそれぞれ表す。
調剤点数は、レセプト番号に対応する調剤行為に対して支払われる費用を表す数字を示す。また、薬価基準収載医薬品コードは、レセプト番号に対応する調剤行為において処方された医薬品を一意に識別する番号である。また、単価は、薬価基準収載医薬品コードが表す医薬品の値段を示す。
なお、図4に示すように、調剤レセプトは、月単位のデータとして提供される。また、調剤レセプトが提供される際、国保被保険者番号は、個人情報の保護のために通常ハッシュ化されている。
また、調剤レセプトには、図4に示す項目以外の他の項目が含まれていてもよい。図5は、調剤レセプトに含まれる項目の例を示す説明図である。
図6は、介護保険データ記憶手段113に記憶されている介護保険データの例を示す説明図である。介護保険データは、例えば介護施設での介護サービスに対して支払われる費用を示す明細書である。介護保険データは、介護施設ごとに提供されるデータである。
図6に示すように、介護保険データは、例えばレセプト番号と、国保被保険者番号と、被保険者番号と、性別と、生年月日と、サービス項目点数と、介護状態区分コード(介護度)と、負担額とを含む。
レセプト番号は、介護保険データを一意に識別する番号である。また、国保被保険者番号、性別、および生年月日は、医科レセプトにおける各項目が表す内容と同様の内容をそれぞれ表す。
すなわち、国保被保険者番号が使用されると、同一世帯の介護保険データと医科レセプトおよび調剤レセプトとが結合される。また、被保険者番号は、レセプト番号に対応する介護サービスを受けた被保険者を一意に識別する介護保険制度における番号である。
サービス項目点数は、レセプト番号に対応する介護サービスに対して支払われる費用を表す数字を示す。また、介護状態区分コード(介護度)は、被保険者番号が示す被保険者に要する介護の度合いを表す番号である。介護状態区分コードは、1〜7のいずれかの数字をとる。また、負担額は、レセプト番号に対応する介護サービスに対して支払われる費用のうち被保険者が負担する額を示す。
なお、図6に示すように、介護保険データは、月単位のデータとして提供される。また、介護保険データが提供される際、国保被保険者番号および被保険者番号は、個人情報の保護のために通常ハッシュ化されている。
また、介護保険データには、図6に示す項目以外の他の項目が含まれていてもよい。図7は、介護保険データに含まれる項目の例を示す説明図である。
なお、医科レセプト、調剤レセプト、および介護保険データの各フォーマットは、データの提供元のシステムやデータの提供元での加工処理等に依存するため、図2、図4、図6に示す各例に限られない。
また、本実施形態の各データの国保被保険者番号は、同一の番号であればハッシュ化されると同一の値になる。なお、記憶部110は、国保被保険者番号の一覧を示す台帳を記憶する記憶手段や、被保険者番号の一覧を示す台帳を記憶する記憶手段を有していてもよい。
データ加工部120は、所定の疾病の発症リスクの予測モデルの生成のために、医科レセプト、調剤レセプト、および介護保険データから被保険者ごとに所定の疾病に関わるデータを取得する機能を有する。
図1に示すように、データ加工部120は、生成用データ加工手段121と、生成用加工データ記憶手段122と、データ分類手段123と、訓練データ記憶手段124と、評価データ記憶手段125とを有する。
生成用データ加工手段121は、記憶部110から入力された多様なデータが個人単位に集計されたデータである加工データを生成する機能を有する。以下、生成用データ加工手段121による個人単位に集計された加工データの生成方法の例を説明する。
個人を一意に識別する個人コードは、基本的に個人情報保護の観点で生データから削除されている。よって、多様なデータを個人単位で集計するために、生成用データ加工手段121は、国保被保険者番号、性別、および年齢が結合されたデータを結合キーとして用いる。
すなわち、生成用データ加工手段121は、加工データを生成する際に、例えばハッシュ化された国保被保険者番号と性別と年齢が結合されたデータを結合キーとして入力された多様なデータを結合する。上記の方法によれば、個人情報が保護されたまま、ほぼ一意に識別可能な各被保険者の加工データが生成される。
具体的には、生成用データ加工手段121は、同一世帯の性別が同じ双子を除いて被保険者ごとに区別可能な加工データを生成できる。また、マイナンバー等の個人コードが提供されている場合、生成用データ加工手段121は、直接個人コードを用いて多様なデータを個人単位で集計すればよい。
図8は、生成用データ加工手段121が生成する個人単位で集計された加工データの例を示す説明図である。図8に示す加工データは、個人識別、年度、性別、年齢、年間医療費、各傷病の年間レセプト数、年間調剤費、各医薬品の年間レセプト数、介護サービス項目点数、介護状態区分コード(介護度)、負担額、および各介護サービスの年間利用数を含む。
個人識別は、上記の結合データを表す数字を示す。また、年度は、データの集計対象の年度を示す。本実施形態の生成用データ加工手段121は、加工データを年単位で生成する。また、性別は、医科レセプト等における性別が表す内容と同様の内容を表す。
年齢は、年度基準で算出された個人識別が示す被保険者の年齢である。年齢は、例えば生年月日から算出される。なお、年齢は、年基準で算出されてもよい。
年間医療費と各傷病の年間レセプト数は、医科レセプトを基に対象年度の医療費の総和と各傷病の医科レセプト総数が算出されることによってそれぞれ求められる。各傷病の年間レセプト数は、1年間に被保険者が医療機関で対象の傷病に対する診療を受けた回数を示す。
なお、各傷病の年間レセプト数は、傷病コード単位の代わりに、国際的な単位であるICD-10コード単位で求められてもよい。ICD-10コードは、大分類のコード、中分類のコード、小分類のコードに分けられる。小分類のコードが、最小単位である。
例えば、「糖尿病腎症」という傷病名のコードは、ICD-10コードで表されると、小分類のコードが「E142(糖尿病腎症)」、中分類のコードが「E14 (糖尿病)」、大分類のコードが「E00-E90 (内分泌、栄養及び代謝疾患)」にそれぞれなる。
予測モデルの説明変数として、小分類のコード、中分類のコード、大分類のコードのいずれかが用いられる。ただし、小分類のコードが説明変数として用いられると、説明変数の種類が増大してしまう。また、大分類のコードが説明変数として用いられると、疾病が汎化され過ぎる。
よって、中分類のコードが、説明変数として最も適切なコードである。後述する実施例では、中分類のコードが説明変数として用いられている。
年間調剤費と各医薬品の年間レセプト数は、調剤レセプトを基に対象年度の調剤費の総和と各医薬品の調剤レセプト総数が算出されることによってそれぞれ求められる。各医薬品の年間レセプト数は、1年間に被保険者が調剤薬局で対象の医薬品を処方された回数を示す。
なお、調剤レセプトに記載されている処方された医薬品を表す薬価基準収載医薬品コードは、最小単位である。すなわち、薬価基準収載医薬品コードそのものが説明変数として用いられると、説明変数の種類が5万〜10万に増大してしまう。
よって、薬価基準収載医薬品コードが汎化された薬効を表すコードを、説明変数として用いることが考えられる。薬効を表すコードの種類は、数百程度である。例えば、アスピリンの薬価基準収載医薬品コードは、「1143001X1015」である。薬価基準収載医薬品コードの1桁目−3桁目が、薬効を表すコードである。すなわち、アスピリンの薬効を表すコードは、「114 (解熱鎮痛消炎剤)」である。
介護サービス項目点数、負担額、および各介護サービスの年間利用数は、介護保険データを基に対象年度の介護サービス項目点数の総和、負担額の総和、および各介護サービスの介護保険データ総数が算出されることによってそれぞれ求められる。なお、介護状態区分コード(介護度)は、個人識別が示す被保険者の介護状態区分コードであるため、介護保険データから直接得られる。
なお、図8に示す加工データに、被保険者の生年月日を表すデータが含まれてもよい。しかし、生年月日から個人が特定される可能性もあるため、個人情報の保護の観点では生年月日を表すデータは含まれない方がよい。
例えば、被保険者の生年月日を表すデータから日が削除された、被保険者の生年月を表すデータが図8に示す加工データに含まれてもよい。生成用データ加工手段121は、生年月を用いても同一世帯の性別が同じ双子を除いて被保険者ごとに区別可能な加工データを生成できる。
生成用加工データ記憶手段122は、生成用データ加工手段121が生成した個人単位に集計された加工データを記憶する機能を有する。
データ分類手段123は、生成用加工データ記憶手段122に記憶されている加工データを予測モデルの生成に使用されるデータ(以下、訓練データと呼ぶ。)と、予測モデルの評価に使用されるデータ(以下、評価データと呼ぶ。)に分類する機能を有する。訓練データは、訓練データ記憶手段124に記憶される。また、評価データは、評価データ記憶手段125に記憶される。
以下、データ分類手段123による所定の疾病の発症リスクの予測モデルの生成に用いられる訓練データと評価データの生成方法を説明する。数年分の医科レセプト、調剤レセプト、および介護保険データを基に加工データが生成されている場合、データ分類手段123は、説明変数の生成に用いられる加工データの年数と、目的変数の生成に用いられる加工データの年数をそれぞれ指定する。
データ分類手段123は、X年のデータが含まれる過去に所定の疾病を発症していない被保険者の加工データのみ抽出する。すなわち、データ分類手段123は、個人単位に集計された加工データのうち、所定の疾病に対応する傷病Yの年間レセプト数が指定された年数に渡って全て0である被保険者の加工データを抽出する。
次いで、データ分類手段123は、目的変数として(X+1)年以降に被保険者に所定の疾病が発症したか否かを示す属性であるフラグを生成する。フラグ「1」は、被保険者に所定の疾病が発症したことを示す。また、フラグ「0」は、被保険者に所定の疾病が発症しなかったことを示す。
データ分類手段123は、所定の疾病が発症したか否かを、個人単位に集計された加工データ中の指定された年数における傷病Yの年間レセプト数を基に判定する。以下、フラグ「1」の目的変数を含む加工データを正例、フラグ「0」の目的変数を含む加工データを負例とそれぞれ呼ぶ。
図9は、加工データの用途の例を示す説明図である。図9に示す1つの行が、1つの加工データに相当する。上述したように、本実施形態では、X年以前の加工データが、所定の疾病の発症リスクを予測するモデルの説明変数として使用される。また、(X+1)年以降の加工データのフラグが、モデルの目的変数として使用される。
図10は、データ分類手段123による加工データの処理例を示す説明図である。図10に示す1つの行が、1つの加工データに相当する。本実施形態の予測モデルは、予測される時点で所定の疾病が発症していない被保険者に将来所定の疾病が初めて発症するリスクを予測する。
従って、データ分類手段123は、図10に示すように所定の疾病に対応する傷病Yの年間レセプト数が1以上であるX年以前の加工データ(図10に示す二重枠内の傷病Yの年間レセプト数が1以上である加工データ)をサンプルから除去する。すなわち、データ分類手段123は、X年以前に所定の疾病を発症していない被保険者の加工データのみ抽出する。
なお、データ分類手段123は、所定の疾病に関する説明変数用の加工データを以下のように抽出してもよい。本例では、X年以前の加工データのうちZ年分の加工データから説明変数用の加工データを抽出する場合を考える。Z年分の加工データは、Z×12ヶ月分の医科レセプトの組に対応する。
医科レセプトの組に傷病Yを表す傷病コードが現れた回数が多いほど、該当の被保険者が傷病Yに罹患した確実性が高い。しかし、傷病Yを表す傷病コードが現れた回数が少ない場合、傷病が明確でなく医師が便宜的に該当の被保険者に対して傷病Yに罹患していると診断した可能性がある。
よって、本実施形態のデータ分類手段123は、被保険者が過去に傷病Yに罹患していたか否かをより確実に判定するために、医科レセプトの組に傷病Yを表す傷病コードが現れた回数が閾値k未満である場合に対象の加工データを説明変数用の加工データから除去してもよい。なお閾値kは、任意に変更されてよい値である。上記の判定方法は、診断が困難な疾病に対して特に有効である。
図11は、データ分類手段123による加工データの他の処理例を示す説明図である。図11に示す1つの行が、1つの加工データに相当する。データ分類手段123は、X年以前に所定の疾病を発症していない被保険者の加工データに対して、(X+1)年以降の所定の疾病に対応する傷病Yの年間レセプト数(図11に示す加工データの二重枠内の傷病Yの年間レセプト数)が閾値k以上であれば、目的変数としてフラグ「1」を設定する。
例えば、発症率が低い疾病であれば、正例の取得のために傷病の年間レセプト数が確認される年数は大きくなる。フラグを設定することによって、データ分類手段123は、所定の疾病の発症リスクを予測するモデルの学習に使用される目的変数を生成する。
データ分類手段123は、上記の方法で生成された加工データを所定の割合で訓練データと評価データに分類する。
予測モデル生成部130は、AIや機械学習等を用いて将来所定の疾病の発症者になる可能性がある被保険者の判別に使用されるモデルを生成する機能を有する。図1に示すように、予測モデル生成部130は、予測モデル学習手段131と、性能評価手段132とを有する。
予測モデル学習手段131は、訓練データ記憶手段124に記憶されている訓練データを用いて、予測モデルを学習する機能を有する。予測モデル学習手段131は、ロジスティック回帰、SVM(Support Vector Machine) 等の任意のモデルを学習する。
性能評価手段132は、評価データ記憶手段125に記憶されている評価データを用いて、生成された予測モデルの所定の疾病の発症リスクの予測の性能を評価する機能を有する。
予測部140は、新規データを基に将来所定の疾病の発症者になる可能性がある被保険者を予測する機能を有する。図1に示すように、予測部140は、予測用データ加工手段141と、予測用加工データ記憶手段142と、予測手段143とを有する。
予測用データ加工手段141は、生成用データ加工手段121と同様の機能を有する。すなわち、予測用データ加工手段141は、図8に示すような加工データを生成する。また、予測用加工データ記憶手段142は、予測用データ加工手段141が生成した加工データを記憶する機能を有する。
予測手段143は、予測モデル学習手段131が学習した予測モデルを用いて、予測用加工データ記憶手段142に記憶されている加工データを基に所定の疾病の発症者になる可能性がある被保険者を予測する機能を有する。
[動作の説明]
以下、本実施形態の疾病発症リスク予測システム100が所定の疾病の発症者を予測する動作を図12を参照して説明する。図12は、第1の実施形態の疾病発症リスク予測システム100による疾病発症者予測処理の動作を示すフローチャートである。
最初に、生成用データ加工手段121が、記憶部110から入力された多様なデータを個人単位に集計することによって、予測モデル生成用の加工データを生成する(ステップS101)。生成された加工データは、生成用加工データ記憶手段122に格納される。
次いで、データ分類手段123は、生成用加工データ記憶手段122に記憶されている加工データを基に、予測モデルの生成に使用される訓練データ、および予測モデルの評価に使用される評価データをそれぞれ生成する(ステップS102)。生成された各データは、訓練データ記憶手段124または評価データ記憶手段125のいずれかに格納される。
次いで、予測モデル学習手段131は、訓練データ記憶手段124に記憶されている訓練データを用いて予測モデルを学習する(ステップS103)。
次いで、性能評価手段132は、評価データ記憶手段125に記憶されている評価データを用いて学習された予測モデルの予測の性能を評価する(ステップS104)。例えば、評価された予測の性能が所定の基準を満たす予測モデルのみが、予測部140に入力される。
次いで、予測用データ加工手段141は、記憶部110から入力された多様なデータを個人単位に集計することによって、予測用の加工データを生成する(ステップS105)。生成された加工データは、予測用加工データ記憶手段142に格納される。
次いで、予測手段143は、予測用加工データ記憶手段142に記憶されている加工データを基に、予測モデル学習手段131が学習した予測モデルを用いて所定の疾病の発症者になる可能性がある被保険者を予測する(ステップS106)。予測した後、疾病発症リスク予測システム100は、疾病発症者予測処理を終了する。
以下、本実施形態の疾病発症リスク予測システム100による所定の疾病の発症者を予測する具体例を図13〜図19を参照して説明する。図13は、データ分類手段123が生成する個人単位で集計されたデータの例を示す説明図である。
図13に示すデータは、生成用加工データ記憶手段122に記憶されている加工データに対してデータ分類手段123が図10〜図11に示す各処理を実行した後のデータである。すなわち、基準年度以前に所定の疾病に罹患した被保険者の加工データは、除外されている。
図13に示す1行分のデータが、1人分のデータに相当する。すなわち、図13に示すデータは、10人分のデータである。図13に示す年齢は、X年度での年齢であり、連続値である。また、図13に示す性別において、「0」は男性を表し、「1」は女性を表す。
また、図13に示す介護度において、「1」は「要支援1」を表し、「2」は「要支援2」を表し、「3」は「要介護1」を表し、「4」は「要介護2」を表し、「5」は「要介護3」を表し、「6」は「要介護4」を表し、「7」は「要介護5」を表す。すなわち、X年度の介護度が上記のように連続値に変換されている。なお、介護度には、例えば年度末時点の被保険者の状態を表す値が設定される。
また、図13に示す介護サービス利用において、「1」は「利用有」を表し、「0」は「利用無」を表す。例えば、サービス利用回数が閾値m回以上である場合に「利用有」と判定される。
また、図13に示す疾病1〜疾病5において、「1」は「X年以前の罹患有」を表し、「0」は「X年以前の罹患無」を表す。例えば、医科レセプトに対象の傷病コードがX年以前に閾値k回以上出現した場合に「X年以前の罹患有」と判定される。
また、図13に示す薬効1〜薬効5において、「1」は「X年以前の調剤有」を表し、「0」は「X年以前の調剤無」を表す。例えば、調剤レセプトに対象の薬価基準収載医薬品コードがX年以前に閾値n回以上出現した場合に「X年以前の調剤有」と判定される。
また、図13に示すように、最終列に目的変数が追加されている。目的変数において、「1」は「(X+1)年以降の罹患有」を表し、「0」は「(X+1)年以降の罹患無」を表す。
図14は、データ分類手段123によるデータ分類処理の例を示す説明図である。図13に示すようなデータ(図14に示す「全体」に相当)を生成した後、データ分類手段123は、生成されたデータを訓練データと評価データに分類する。
図14に示す例では、「訓練用 7」「評価用 3」と記載されている。すなわち、データ分類手段123は、生成されたデータを「訓練データ:評価データ=7:3」の割合でランダムに分類する。なお、訓練データと評価データの割合は、任意に指定可能な割合である。
図15は、訓練データと評価データの例を示す説明図である。図15(a)は、訓練データを示す。また、図15(b)は、評価データを示す。
図14に示すように、評価データは、分類された後そのまま評価データ記憶手段125に格納される。また、訓練データは、さらに目的変数が「1」である正例と、目的変数が「0」である負例に分類される。
上記の分類方法が用いられると、予測対象の疾病が発症率の低い疾病である場合、正例は負例よりも少なくなることが多い。正例が負例よりも極端に少ないと、予測モデルが適切に学習されない可能性がある。よって、図14に示すように、データ分類手段123は、「正例:負例=1:1」になるように負例をランダムに除去する。なお、正例と負例の割合は、任意に指定可能な割合である。
図16は、データ分類手段123による訓練データの処理例を示す説明図である。図16(a)は、データ分類手段123により分類された後の訓練データを示す。データ分類手段123は、「正例:負例=1:1」になるように図16(a)に示す訓練データから負例をランダムに除去する。
図16(b)は、負例がランダムに除去された後の訓練データを示す。図16(b)に示す訓練データの目的変数の「0」と「1」の割合は、「1:1」に調整されている。図16(b)に示す調整された後の訓練データは、訓練データ記憶手段124に格納される。
訓練データ記憶手段124に記憶されている訓練データを用いて、予測モデル学習手段131は、予測モデルを学習する。本例では、予測モデル学習手段131が以下の式で表現されるロジスティック回帰に基づいた予測モデルを学習する。
loge(p/(1-p))=B0+B1X1+B2X2+・・・+BpXp ・・・式(1)
なお、式(1)におけるB0〜Bpはパラメータを表し、X1〜Xpは説明変数を表す。式(1)におけるloge(p/(1-p)) の値はロジット(対数オッズ)であり、判別スコアとして使用される。判別スコアは、所定の疾病の発症リスクを表すスコアである。
性能評価手段132は、評価データ記憶手段125に記憶されている評価データを用いて、生成された予測モデルの予測の性能を評価する。図17は、性能評価手段132による性能評価処理の例を示す説明図である。
図17(a)は、性能評価手段132が用いる評価データを示す。図17(a)に示すように、本例における評価用サンプルの数は、3つである。また、評価データの最終列に判別スコアと予測の各項目が追加されている。
判別スコアは、各評価データに対して上記の式(1)で算出された値である。また、予測には、判別スコアに対応する値が格納されている。具体的には、予測には判別スコアが任意の閾値t 以上である場合に「1」が格納され、判別スコアがt 未満である場合に「0」が格納されている。通常、任意の閾値t は、0に設定される。
図17(b)は、性能評価手段132による比較処理を示す。図17(b)に示すように、性能評価手段132は、各サンプルの目的変数と予測とを比較する。次いで、性能評価手段132は、比較結果を混合行列に変換する。
比較結果を参照すると、「実績:あり、予測:あり」のサンプルが1つ、「実績:あり、予測:なし」のサンプルが1つ、「実績:なし、予測:あり」のサンプルが1つ、それぞれ存在する。よって、図17(b)に示す混合行列において、「実績:なし、予測:なし」以外の升目にそれぞれ「1」が格納される。
図18は、混合行列を基に算出される性能を表す値の例を示す説明図である。図18に示すように、性能評価手段132は、生成された混合行列を用いて、正解率や精度等の性能を表す値を算出できる。
また、性能評価手段132は、f 値やAUC(Area under the reciver operator curve)等の評価指標も性能を表す値として用いることができる。例えば、性能を表す値が所定値以上の予測モデルのみが、予測部140で使用される。
上記の処理で生成された予測モデルの性能を図19に示す。図19は、予測モデルの疾病発症予測性能を表すグラフの例を示す説明図である。図19に示すグラフには、予測スコアが高い被保険者順に、予測精度が表示されている。
図19に示す例の予測モデルでは、説明変数に1年分の加工データが、目的変数に3年分の加工データがそれぞれ用いられている。すなわち、本例の予測モデルは、3年以内の所定の疾病の発症リスクを予測する。
また、年間の介護サービスの最低利用数が閾値m回以上、疾病の最低レセプト数が閾値k以上、調剤の最低処方レセプト数が閾値n以上である場合に、図13に示す説明変数である介護サービス利用、対象の疾病、対象の薬効にそれぞれ「1」が設定されている。
また、本例ではデータ分類手段123が、生成されたデータを「7:3」の割合で訓練データと評価データに分類している。さらに、データ分類手段123は、正例と負例の割合が「1:2」になるように訓練データに負例を追加している。
また、データ分類手段123は、正例と負例の割合が実際の疾病の発症率になるように評価データに負例を追加している。予測モデルの学習または評価に使用される正例と負例は、訓練データまたは評価データからそれぞれランダムに選択される。
図19に示すグラフの横軸は、予測スコアによるランキング(人)を表す。図19に示すグラフでは、予測モデルが出力した予測スコアの高い順に被保険者が並べられている。すなわち、値が小さい被保険者程、将来所定の疾病を発症しやすいと予測されている被保険者である。
図19に示すグラフの左の縦軸は、実際の疾病の発症数(人)を表す。また、図19に示す一点鎖線は、予測モデルが予測した被保険者のうち実際に疾病を発症した人数を表す。また、図19に示す破線は、ランダムに抽出された被保険者のうち実際に疾病を発症した人数を表す。
図19に示すグラフの右の縦軸は、予測なし(ランダム抽出)に対する比率を表す。また、図19に示す実線は、図19に示す破線が表す人数に対する図19に示す一点鎖線が表す人数の比率を表す。図19に示すグラフは、ランダムサンプリングに対する予測モデルの抽出力の比率を表す。
すなわち、本例で生成された予測モデルが使用された時の方が、ランダムに被保険者が抽出された時に比べて、将来所定の疾病を発症する被保険者が高い確率で予測される。なお、図19に示すグラフの左の縦軸の目盛には、図18に示す正解率や精度、またはAUC 等が用いられてもよい。
[効果の説明]
本実施形態のデータ加工部120は、AI関連技術がレセプト等のヘルスケア関連データに適用される際、ヘルスケア関連データを基に個人ごとのレコードを生成できる。また、データ加工部120は、個人の匿名性が保たれた状態でレコードを生成できる。
すなわち、本実施形態の予測モデル生成部130が予測モデルを学習する場合であっても、個人の匿名性は保たれたままである。従って、本実施形態の疾病発症リスク予測システム100が使用されると、個人情報が保護された上で出所が異なる複数のデータが、疾病発症リスクの予測モデルの学習データに活用される。
また、本実施形態の予測部140は、個人情報の第三者の利用を合意した被保険者の所定の疾病の発症リスクを予測できる。従って、本実施形態の疾病発症リスク予測システム100は、所定の疾病の発症者になる可能性がある被保険者を予測できる。
なお、本実施形態の疾病発症リスク予測システム100は、例えば、非一時的な記憶媒体に格納されているプログラムに従って処理を実行するプロセッサによって実現されてもよい。すなわち、生成用データ加工手段121、データ分類手段123、予測モデル学習手段131、性能評価手段132、予測用データ加工手段141、および予測手段143は、例えば、プログラム制御に従って処理を実行するプロセッサによって実現されてもよい。プロセッサは、例えばCPU(Central Processing Unit)やGPU(Graphics Processing Unit) である。
また、医科レセプト記憶手段111、調剤レセプト記憶手段112、介護保険データ記憶手段113、生成用加工データ記憶手段122、訓練データ記憶手段124、評価データ記憶手段125、および予測用加工データ記憶手段142は、例えばRAM(Random Access Memory) で実現されてもよい。
また、本実施形態の疾病発症リスク予測システム100における各部は、ハードウェア回路によって実現されてもよい。一例として、医科レセプト記憶手段111、調剤レセプト記憶手段112、介護保険データ記憶手段113、生成用データ加工手段121、生成用加工データ記憶手段122、データ分類手段123、訓練データ記憶手段124、評価データ記憶手段125、予測モデル学習手段131、性能評価手段132、予測用データ加工手段141、予測用加工データ記憶手段142、および予測手段143が、それぞれFPGA(Field Programmable Gate Array) 等のLSI(Large Scale Integration)で実現される。また、それらが1つのFPGAで実現されていてもよい。
次に、本発明の概要を説明する。図20は、本発明による疾病発症リスク予測システムの概要を示すブロック図である。本発明による疾病発症リスク予測システム10は、所定の方法で変換された被保険者の被保険者番号とその被保険者の年齢特定可能項目である生年月日または生年月と性別とを含むデータであるレセプトデータのうち、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と年齢特定可能項目と性別とを結合したキーである結合キーで結合することによって結合データを生成するデータ生成手段11(例えば、生成用データ加工手段121)と、生成された結合データを用いて被保険者に所定の疾病が発症するリスクを予測する予測モデルを生成するモデル生成手段12(例えば、予測モデル学習手段131)とを備える。
そのような構成により、疾病発症リスク予測システムは、個人情報が保護された上で出所が異なる複数のデータを基に疾病発症リスクを予測できる。
また、データ生成手段11は、種類が異なる少なくとも2つのレセプトデータを、ハッシュ化または暗号化により匿名化されている被保険者番号を含む結合キーで結合してもよい。
そのような構成により、疾病発症リスク予測システムは、個人情報の保護の度合いがより高い状態で予測モデルを生成できる。
また、レセプトデータは、診療行為に対するレセプトを示すデータである医科レセプトデータ、調剤行為に対するレセプトを示すデータである調剤レセプトデータ、または介護サービスに対するレセプトを示すデータである介護保険データのうちのいずれかでもよい。
また、疾病発症リスク予測システム10は、生成された予測モデルを用いて所定の疾病の発症者になる可能性がある被保険者を予測する予測手段(例えば、予測手段143)を備え、データ生成手段11は、少なくとも医科レセプトデータを用いて結合データを生成し、生成された結合データのうち所定年以前に所定の疾病を発症した被保険者のデータを除外し、所定年の翌年以降に被保険者が所定の疾病を発症したか否かを示す属性を、所定の疾病を発症した被保険者のデータが除外された結合データに追加し、モデル生成手段12は、追加された属性を目的変数とし、所定の疾病を発症した被保険者のデータが除外された結合データに含まれる所定年以前の情報を説明変数として予測モデルを生成してもよい。
そのような構成により、疾病発症リスク予測システムは、被保険者に初めて所定の疾病が発症する場合の発症リスクを予測する予測モデルを生成できる。
また、データ生成手段11は、所定の疾病に対応する傷病コードが所定年以前または所定年の翌年以降に指定された回数以上医科レセプトデータに含まれている被保険者が所定年以前または所定年の翌年以降に所定の疾病を発症した被保険者であると判定してもよい。
そのような構成により、疾病発症リスク予測システムは、診断が困難な疾病の発症の有無をより確実に判定できる。
また、モデル生成手段12は、医科レセプトデータに含まれるICD-10コードに対応する中分類のコードを説明変数として用いてもよい。また、データ生成手段11は、少なくとも調剤レセプトデータを用いて結合データを生成し、モデル生成手段12は、調剤レセプトデータに含まれる薬価基準収載医薬品コード中の薬効を表す数字を説明変数として用いてもよい。
そのような構成により、疾病発症リスク予測システムは、より予測精度の高い予測モデルを生成できる。
また、データ生成手段11は、介護保険データを用いて結合データを生成し、所定の薬価基準収載医薬品コードが所定年以前に指定された回数以上調剤レセプトデータに含まれている被保険者が所定年以前に所定の薬価基準収載医薬品コードが示す医薬品が処方された被保険者であると判定し、所定の介護サービスに対応する情報が所定年以前に指定された回数以上介護保険データに含まれている被保険者が所定年以前に所定の介護サービスを利用した被保険者であると判定してもよい。
そのような構成により、疾病発症リスク予測システムは、医薬品の処方の有無、および介護サービスの利用の有無をより確実に判定できる。
以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下に限られない。
(付記1)所定の方法で変換された被保険者の被保険者番号と当該被保険者の生年とを含むデータであるレセプトデータのうち、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と前記生年とを結合したキーである結合キーで結合することによって結合データを生成するデータ生成手段と、生成された結合データを用いて前記被保険者に所定の疾病が発症するリスクを予測する予測モデルを生成するモデル生成手段とを備えることを特徴とする疾病発症リスク予測システム。
(付記2)レセプトデータは、被保険者の生年月を含み、データ生成手段は、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と前記生年月とを結合したキーである結合キーで結合する付記1記載の疾病発症リスク予測システム。
(付記3)レセプトデータは、被保険者の性別を含み、データ生成手段は、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と生年月と前記性別とを結合したキーである結合キーで結合する付記2記載の疾病発症リスク予測システム。
(付記4)データ生成手段は、種類が異なる少なくとも2つのレセプトデータを、被保険者の年齢を含む結合キーで結合する付記1から付記3のうちのいずれか1項に記載の疾病発症リスク予測システム。
(付記5)データ生成手段は、種類が異なる少なくとも2つのレセプトデータを、ハッシュ化されている被保険者番号を含む結合キーで結合する付記1から付記4のうちのいずれか1項に記載の疾病発症リスク予測システム。
(付記6)データ生成手段は、種類が異なる少なくとも2つのレセプトデータを、暗号化されている被保険者番号を含む結合キーで結合する付記1から付記4のうちのいずれか1項に記載の疾病発症リスク予測システム。
(付記7)レセプトデータは、診療行為に対するレセプトを示すデータである医科レセプトデータ、調剤行為に対するレセプトを示すデータである調剤レセプトデータ、または介護サービスに対するレセプトを示すデータである介護保険データのうちのいずれかである付記1から付記6のうちのいずれか1項に記載の疾病発症リスク予測システム。
(付記8)データ生成手段は、少なくとも医科レセプトデータと調剤レセプトデータを用いて結合データを生成する付記7記載の疾病発症リスク予測システム。
(付記9)データ生成手段は、生成された結合データのうち所定年以前に所定の疾病を発症した被保険者のデータを除外し、モデル生成手段は、前記被保険者のデータが除外された前記結合データを用いて予測モデルを生成する付記8記載の疾病発症リスク予測システム。
(付記10)データ生成手段は、所定の疾病に対応する傷病コードが所定年以前に指定された回数以上医科レセプトデータに含まれている被保険者が前記所定年以前に前記所定の疾病を発症した被保険者であると判定する付記9記載の疾病発症リスク予測システム。
(付記11)データ生成手段は、所定年の翌年以降に被保険者が所定の疾病を発症したか否かを示す属性を、生成された結合データに追加し、モデル生成手段は、追加された属性を目的変数とし、前記結合データに含まれる前記所定年以前の情報を説明変数として予測モデルを生成する付記9または付記10記載の疾病発症リスク予測システム。
(付記12)モデル生成手段は、医科レセプトデータに含まれるICD-10コードに対応する中分類のコードを説明変数として用いる付記11記載の疾病発症リスク予測システム。
(付記13)モデル生成手段は、調剤レセプトデータに含まれる薬価基準収載医薬品コード中の薬効を表す数字を説明変数として用いる付記11または付記12記載の疾病発症リスク予測システム。
(付記14)生成された予測モデルを用いて所定の疾病の発症者になる可能性がある被保険者を予測する予測手段を備える付記1から付記13のうちのいずれか1項に記載の疾病発症リスク予測システム。
(付記15)所定の方法で変換された被保険者の被保険者番号と当該被保険者の生年とを含むデータであるレセプトデータのうち、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と前記生年とを結合したキーである結合キーで結合することによって結合データを生成し、生成された結合データを用いて前記被保険者に所定の疾病が発症するリスクを予測する予測モデルを生成することを特徴とする疾病発症リスク予測方法。
(付記16)レセプトデータは、被保険者の生年月を含み、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と前記生年月とを結合したキーである結合キーで結合する付記15記載の疾病発症リスク予測方法。
(付記17)コンピュータに、所定の方法で変換された被保険者の被保険者番号と当該被保険者の生年とを含むデータであるレセプトデータのうち、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と前記生年とを結合したキーである結合キーで結合することによって結合データを生成する第1生成処理、および生成された結合データを用いて前記被保険者に所定の疾病が発症するリスクを予測する予測モデルを生成する第2生成処理を実行させるための疾病発症リスク予測プログラム。
(付記18)レセプトデータは、被保険者の生年月を含み、コンピュータに、第1生成処理で、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と前記生年月とを結合したキーである結合キーで結合させる付記17記載の疾病発症リスク予測プログラム。
10、100 疾病発症リスク予測システム
11 データ生成手段
12 モデル生成手段
110 記憶部
111 医科レセプト記憶手段
112 調剤レセプト記憶手段
113 介護保険データ記憶手段
120 データ加工部
121 生成用データ加工手段
122 生成用加工データ記憶手段
123 データ分類手段
124 訓練データ記憶手段
125 評価データ記憶手段
130 予測モデル生成部
131 予測モデル学習手段
132 性能評価手段
140 予測部
141 予測用データ加工手段
142 予測用加工データ記憶手段
143 予測手段

Claims (10)

  1. 所定の方法で変換された被保険者の被保険者番号と当該被保険者の年齢特定可能項目である生年月日または生年月と性別とを含むデータであるレセプトデータのうち、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と前記年齢特定可能項目と前記性別とを結合したキーである結合キーで結合することによって結合データを生成するデータ生成手段と、
    生成された結合データを用い被保険者に所定の疾病が発症するリスクを予測する予測モデルを生成するモデル生成手段と
    生成された予測モデルを用いて前記所定の疾病の発症者になる可能性がある被保険者を予測する予測手段とを備え、
    レセプトデータは、
    診療行為に対するレセプトを示すデータである医科レセプトデータ、調剤行為に対するレセプトを示すデータである調剤レセプトデータ、または介護サービスに対するレセプトを示すデータである介護保険データのうちのいずれかであり、
    前記データ生成手段は、
    少なくとも医科レセプトデータを用いて結合データを生成し、
    生成された結合データのうち所定年以前に前記所定の疾病を発症した被保険者のデータを除外し、
    前記所定年の翌年以降に被保険者が前記所定の疾病を発症したか否かを示す属性を、前記所定の疾病を発症した被保険者のデータが除外された結合データに追加し、
    前記モデル生成手段は、
    追加された属性を目的変数とし、前記所定の疾病を発症した被保険者のデータが除外された結合データに含まれる前記所定年以前の情報を説明変数として予測モデルを生成する
    ことを特徴とする疾病発症リスク予測システム。
  2. データ生成手段は、種類が異なる少なくとも2つのレセプトデータを、ハッシュ化または暗号化により匿名化されている被保険者番号を含む結合キーで結合する
    請求項1記載の疾病発症リスク予測システム。
  3. データ生成手段は、所定の疾病に対応する傷病コードが所定年以前または前記所定年の翌年以降に指定された回数以上医科レセプトデータに含まれている被保険者が前記所定年以前または前記所定年の翌年以降に前記所定の疾病を発症した被保険者であると判定する
    請求項記載の疾病発症リスク予測システム。
  4. モデル生成手段は、医科レセプトデータに含まれるICD-10コードに対応する中分類のコードを説明変数として用いる
    請求項または請求項記載の疾病発症リスク予測システム。
  5. データ生成手段は、
    少なくとも調剤レセプトデータを用いて結合データを生成し、
    モデル生成手段は、
    前記調剤レセプトデータに含まれる薬価基準収載医薬品コード中の薬効を表す数字を説明変数として用いる
    請求項1、請求項3、または請求項4のうちのいずれか1項に記載の疾病発症リスク予測システム。
  6. データ生成手段は、
    介護保険データを用いて結合データを生成し、
    所定の薬価基準収載医薬品コードが所定年以前に指定された回数以上調剤レセプトデータに含まれている被保険者が前記所定年以前に前記所定の薬価基準収載医薬品コードが示す医薬品が処方された被保険者であると判定し、
    所定の介護サービスに対応する情報が前記所定年以前に指定された回数以上前記介護保険データに含まれている被保険者が前記所定年以前に前記所定の介護サービスを利用した被保険者であると判定する
    請求項記載の疾病発症リスク予測システム。
  7. コンピュータが、
    所定の方法で変換された被保険者の被保険者番号と当該被保険者の年齢特定可能項目である生年月日または生年月と性別とを含むデータであるレセプトデータのうち、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と前記年齢特定可能項目と前記性別とを結合したキーである結合キーで結合することによって結合データを生成し、
    生成された結合データを用い被保険者に所定の疾病が発症するリスクを予測する予測モデルを生成し、
    生成された予測モデルを用いて前記所定の疾病の発症者になる可能性がある被保険者を予測し、
    診療行為に対するレセプトを示すデータである医科レセプトデータ、調剤行為に対するレセプトを示すデータである調剤レセプトデータ、または介護サービスに対するレセプトを示すデータである介護保険データのうちのいずれかであるレセプトデータの中から、少なくとも医科レセプトデータを用いて結合データを生成し、
    生成された結合データのうち所定年以前に前記所定の疾病を発症した被保険者のデータを除外し、
    前記所定年の翌年以降に被保険者が前記所定の疾病を発症したか否かを示す属性を、前記所定の疾病を発症した被保険者のデータが除外された結合データに追加し、
    追加された属性を目的変数とし、前記所定の疾病を発症した被保険者のデータが除外された結合データに含まれる前記所定年以前の情報を説明変数として予測モデルを生成する
    ことを特徴とする疾病発症リスク予測方法。
  8. コンピュータが、種類が異なる少なくとも2つのレセプトデータを、ハッシュ化または暗号化により匿名化されている被保険者番号を含む結合キーで結合する
    請求項7記載の疾病発症リスク予測方法。
  9. コンピュータに、
    所定の方法で変換された被保険者の被保険者番号と当該被保険者の年齢特定可能項目である生年月日または生年月と性別とを含むデータであるレセプトデータのうち、種類が異なる少なくとも2つのレセプトデータを、変換された被保険者番号と前記年齢特定可能項目と前記性別とを結合したキーである結合キーで結合することによって結合データを生成する第1生成処理
    生成された結合データを用い被保険者に所定の疾病が発症するリスクを予測する予測モデルを生成する第2生成処理、および
    生成された予測モデルを用いて前記所定の疾病の発症者になる可能性がある被保険者を予測する予測処理を実行させるための疾病発症リスク予測プログラムであって、
    前記第1生成処理で、
    診療行為に対するレセプトを示すデータである医科レセプトデータ、調剤行為に対するレセプトを示すデータである調剤レセプトデータ、または介護サービスに対するレセプトを示すデータである介護保険データのうちのいずれかであるレセプトデータの中から、少なくとも医科レセプトデータを用いて結合データを生成させ、
    生成された結合データのうち所定年以前に前記所定の疾病を発症した被保険者のデータを除外させ、
    前記所定年の翌年以降に被保険者が前記所定の疾病を発症したか否かを示す属性を、前記所定の疾病を発症した被保険者のデータが除外された結合データに追加させ、
    前記第2生成処理で、
    追加された属性を目的変数とし、前記所定の疾病を発症した被保険者のデータが除外された結合データに含まれる前記所定年以前の情報を説明変数として予測モデルを生成させる
    疾病発症リスク予測プログラム
  10. コンピュータに、
    第1生成処理で、種類が異なる少なくとも2つのレセプトデータを、ハッシュ化または暗号化により匿名化されている被保険者番号を含む結合キーで結合させる
    請求項9記載の疾病発症リスク予測プログラム。
JP2019535490A 2017-08-09 2017-08-09 疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラム Active JP6988895B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/028872 WO2019030840A1 (ja) 2017-08-09 2017-08-09 疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラム

Publications (2)

Publication Number Publication Date
JPWO2019030840A1 JPWO2019030840A1 (ja) 2020-07-30
JP6988895B2 true JP6988895B2 (ja) 2022-01-05

Family

ID=65272086

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019535490A Active JP6988895B2 (ja) 2017-08-09 2017-08-09 疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラム

Country Status (3)

Country Link
US (1) US11437146B2 (ja)
JP (1) JP6988895B2 (ja)
WO (1) WO2019030840A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10891352B1 (en) * 2018-03-21 2021-01-12 Optum, Inc. Code vector embeddings for similarity metrics
US10978189B2 (en) 2018-07-19 2021-04-13 Optum, Inc. Digital representations of past, current, and future health using vectors
JP7310171B2 (ja) * 2019-02-28 2023-07-19 富士通株式会社 配分方法、抽出方法、配分プログラム、抽出プログラム、配分装置及び抽出装置
JP6737489B1 (ja) * 2019-06-17 2020-08-12 株式会社エクサウィザーズ 情報処理装置、情報処理方法及びプログラム
CN111008902B (zh) * 2019-11-25 2023-07-18 泰康保险集团股份有限公司 核保数据处理方法、装置、设备和介质
CN110993103B (zh) * 2019-11-28 2023-06-02 阳光人寿保险股份有限公司 疾病风险预测模型的建立方法和疾病保险产品的推荐方法
JP6853917B2 (ja) * 2020-07-06 2021-04-07 株式会社エクサウィザーズ 情報処理装置、情報処理方法、及びプログラム
JP7355303B2 (ja) * 2020-08-20 2023-10-03 株式会社クオリティライフ・クリエイト レセプトデータ有意性判定プログラム、レセプトデータ有意性判定方法、及び、情報処理装置
CN116029839B (zh) * 2023-02-10 2023-09-26 中国人民健康保险股份有限公司深圳分公司 一种业务系统操作自动化执行操作系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1590485A2 (en) * 2003-01-30 2005-11-02 Applera Corporation Genetic polymorphisms associated with rheumatoid arthritis, methods of detection and uses thereof
JP4981305B2 (ja) 2005-11-11 2012-07-18 公益財団法人大阪バイオサイエンス研究所 アルツハイマー病の発症リスク又はアルツハイマー病発症予後の予測方法
JP2008083847A (ja) 2006-09-26 2008-04-10 Fuji Xerox Co Ltd 医療情報処理システムおよび医療情報処理プログラム
JP5603639B2 (ja) 2010-04-23 2014-10-08 国立大学法人京都大学 予測装置の学習装置及びそのコンピュータプログラム
US9536052B2 (en) * 2011-10-28 2017-01-03 Parkland Center For Clinical Innovation Clinical predictive and monitoring system and method
JP6095919B2 (ja) 2012-09-06 2017-03-15 メビックス株式会社 電子カルテスクリーニング結果出力装置、電子カルテスクリーニング結果出力方法及び電子カルテスクリーニング結果出力プログラム
US9147041B2 (en) * 2012-09-13 2015-09-29 Parkland Center For Clinical Innovation Clinical dashboard user interface system and method
JP6182431B2 (ja) * 2013-11-07 2017-08-16 株式会社日立製作所 医療データ分析システム、及び医療データを分析する方法
WO2015071968A1 (ja) 2013-11-13 2015-05-21 株式会社日立製作所 分析システム
JP6734582B2 (ja) * 2015-12-22 2020-08-05 国立研究開発法人理化学研究所 リスク評価方法、リスク評価装置及びリスク評価プログラム

Also Published As

Publication number Publication date
US20200251219A1 (en) 2020-08-06
US11437146B2 (en) 2022-09-06
WO2019030840A1 (ja) 2019-02-14
JPWO2019030840A1 (ja) 2020-07-30

Similar Documents

Publication Publication Date Title
JP6988895B2 (ja) 疾病発症リスク予測システム、疾病発症リスク予測方法および疾病発症リスク予測プログラム
Gyamfi-Bannerman et al. Postpartum hemorrhage outcomes and race
Lucini et al. Text mining approach to predict hospital admissions using early medical records from the emergency department
Katapodi Underestimation of breast cancer risk: influence on screening behavior
Veyron et al. Home care aides’ observations and machine learning algorithms for the prediction of visits to emergency departments by older community-dwelling individuals receiving home care assistance: A proof of concept study
Martínez-García et al. Public insurance program impact on catastrophic health expenditure on acute myocardial infarction
Seow et al. What Influences The Behavioural Intention In Medical Tourism? A Threat and Coping Perspective.
Maia et al. Ex-ante moral hazard: empirical evidence for private health insurance in Brazil
Ford et al. Could dementia be detected from UK primary care patients’ records by simple automated methods earlier than by the treating physician? A retrospective case-control study
Levine et al. The diagnostic and triage accuracy of the GPT-3 artificial intelligence model: an observational study
Qi et al. Predictive models for predicting the risk of maternal postpartum depression: A systematic review and evaluation
Mori et al. Patterns and predictors of adherence to follow-up health guidance invitations in a general health check-up program in Japan: A cohort study with an employer-sponsored insurer database
Barak et al. Internalize at your peril: internalizing disorders as risk factors for dementia—cohort study
Health Quality Ontario Left atrial appendage closure device with delivery system: a health technology assessment
Batani A Deep Learning Model for Predicting Under-Five Mortality in Zimbabwe
Yoder et al. The effect of contraceptive access reform on privately insured patients: evidence from Delaware contraceptive access now
Faust et al. Examining response to negative life events through fitness tracker data
Gholamazad et al. Determination of disease risk factors using binary data envelopment analysis and logistic regression analysis (case study: a stroke risk factors)
Kannan et al. The impact of socioeconomic status on emergency department outcome in a low-income country setting: A registry-based analysis
Mukherji et al. Early Detection of Alzheimer’s Disease with Low-Cost Neuropsychological Tests: A Novel Predict-Diagnose Approach Using Recurrent Neural Networks
Velichkovska et al. A Survey of Bias in Healthcare: Pitfalls of Using Biased Datasets and Applications
Hansen et al. Individual health indices via register-based health records and machine learning
Gutierrez et al. Development of a multivariable model for covid-19 risk stratification based on gradient boosting decision trees
Wana et al. Assessing fairness in machine learning models: A study of racial bias using matched counterparts in mortality prediction for patients with chronic diseases
Badolato et al. The limits of predicting individual-level longevity

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211115

R150 Certificate of patent or registration of utility model

Ref document number: 6988895

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150