CN104166667B

CN104166667B - 分析系统以及保健事业支援方法

Info

Publication number: CN104166667B
Application number: CN201410208444.4A
Authority: CN
Inventors: 三好利升; 长谷川泰隆; 伴秀行; 永崎健; 新庄广
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2013-05-17
Filing date: 2014-05-16
Publication date: 2018-04-20
Anticipated expiration: 2034-05-16
Also published as: CN104166667A; EP2804119A3; JP2014225176A; JP6066826B2; US20140343965A1; EP2804119A2

Abstract

一种分析系统及保健事业支援方法，高精度地预测有关系的将来的现象。具备：因果/转移构造计算部，基于医疗信息和体检信息制作图形构造，将制作的图形构造保存到数据库，该图形构造包含与病态及关于病态的发病概率变量对应的病态节点、与表示对病态的变化产生影响的因子的因子概率变量对应的因子节点以及在病态节点与因子节点之间由有向边或无向边定义的概率依赖性；节点生成部，制作概率变量的现象空间；概率表计算部，计算图形构造的附条件概率；模型重构部，利用由所指定的概率变量构成的图形构造、现象空间以及附条件概率重构模型；病态转移/医疗费预测部，预测病态转移概率和医疗费；以及保健指导支援部，选定保健指导的对象者和保健指导内容。

Description

分析系统以及保健事业支援方法

技术领域

本发明涉及一种数据分析技术，特别是涉及一种对医疗数据进行分析的保健事业支援系统。

背景技术

健康保险组合为了降低医疗费而进行着实施用于生活习惯病的预防和重症化的预防的保健指导的保健事业。但是，为保健指导所能够确保的保健师以及用于保健指导的费用等资源有限。因此，期望支援有效且高效的保健事业的运营的系统。

作为支援保健事业的运营的方法，专利文献1中记载了如下保健事业支援系统：该保健事业支援系统基于诊疗费用账单信息、体检信息以及保健指导信息选择保健指导对象者，该保健事业支援系统具备：医疗费模型制作部，制作表示针对每个健康保险加入者的重症度和检查值的预测医疗费的医疗费模型；检查值改善模型制作部，制作表示针对每个重症度和检查值的改善量的检查值改善模型；预测医疗费削减效果计算部，针对每个重症度和检查值计算保健指导所带来的预测医疗费削减量；以及对象者选择部，选择属于预测医疗费削减量高的重症度和检查值的健康保险加入者作为保健指导对象者。

专利文献1：日本特开2012-128670号公报

为了在健康保险组合的资源中进行有效且高效的保健事业，需要选择优先实施保健指导的对象者。另外，保健指导的内容也需要选择适于各个对象者的内容。

在专利文献1中，在预测医疗费时，基于当前的重症度和检查值预测将来的医疗费。例如基于当前的糖尿病的重症度和血糖值预测将来的糖尿病的重症度，将该重症度的平均的医疗费作为预测医疗费。

但是，关于对于将来的医疗费和重症度的预测有效的因子(在糖尿病中为血糖值)，需要作为事前知识通过人工进行设定。另外，重症度的定义也需要通过人工进行设定。

关于对于将来的医疗费的预测有效的因子，除了血糖值以外，还考虑年龄、性别、其它检查值、药品的处方状况以及生活习惯等各种因子，通过考虑它们，能够进行精度更高的预测。但是，难以通过人工列出这些因子。另外，需要针对每个疾病根据事前知识设定这些因子。因此，难以针对所有疾病进行分析。

发明内容

示出在本申请中公开的发明的代表性一例则如下。即，一种分析系统，具有执行程序的处理器以及保存所述程序的存储器，通过执行所述程序来对医疗数据进行分析，该分析系统的特征在于，所述分析系统能够访问包含医疗信息、费用信息及体检信息的数据库，所述医疗信息包含加入者的伤病名和对所述加入者进行的医疗行为，所述费用信息为所述医疗行为的费用信息，所述体检信息包含所述加入者的健康诊断的检查值，所述分析系统具备：因果/转移构造计算部，所述处理器基于所述医疗信息和所述体检信息制作图形构造，将所述制作的图形构造保存到所述数据库，其中，该图形构造包含与病态及关于所述病态的发病概率变量对应的病态节点、与表示对所述病态的变化产生影响的因子的因子概率变量对应的因子节点、以及在所述病态节点与所述因子节点之间由有向边或无向边定义的概率依赖性；节点生成部，所述处理器基于所述医疗信息和所述体检信息，制作所述发病概率变量和所述因子概率变量的现象空间，将所述制作的现象空间保存到所述数据库；概率计算部，所述处理器基于所述医疗信息、所述体检信息以及所述现象空间，计算所述图形构造的附条件概率，将所述计算的附条件概率保存到所述数据库；模型重构部，所述处理器基于由所述图形构造、所述现象空间以及所述附条件概率构成的模型，利用由所指定的概率变量构成的图形构造、现象空间以及附条件概率重构模型，将所述重构的模型保存到所述数据库；病态转移/医疗费预测部，所述处理器基于所述医疗行为的费用信息和所述重构的模型，预测病态转移概率和医疗费；以及健康指导支援部，所述处理器基于所述预测的病态转移概率和医疗费，选定健康指导的对象者和健康指导内容。

发明效果

根据本发明的代表性实施方式，能够基于各种数据高精度地预测有关系的将来的现象。前述以外的问题、结构以及效果会通过以下的实施例的说明而变得清楚。

附图说明

图1是表示第1实施例的医疗数据分析系统的结构的框图。

图2是表示第2实施例的分析系统的结构的框图。

图3是表示第1实施例的医疗数据分析系统的其它结构的框图。

图4是表示第1实施例的医疗数据分析系统的其它结构的框图。

图5是表示第1实施例的医疗数据分析系统的其它结构的框图。

图6是说明第1实施例的诊疗费用账单基本信息的图。

图7是说明第1实施例的体检信息的图。

图8是说明第1实施例的问诊信息的图。

图9是说明第1实施例的伤病名信息的图。

图10是说明第1实施例的伤病名分类信息的图。

图11是说明第1实施例的诊疗行为信息的图。

图12是说明第1实施例的诊疗行为分类信息的图。

图13是说明第1实施例的药品信息的图。

图14是说明第1实施例的药品分类信息的图。

图15是说明第1实施例的整形信息的一例的图。

图16是说明第1实施例的整形信息的另一例的图。

图17是说明由两个概率变量构成的模型和概率变量的图。

图18是说明由三个概率变量构成的模型和概率变量的图。

图19是说明作为贝叶斯网络的模型的图。

图20是说明第1实施例的因果/转移构造计算部的处理的图。

图21是说明今年和下一年的医疗行为的节点的模型的图。

图22是说明今年的医疗行为、检查值以及生活习惯与下一年的医疗行为的节点的模型的图。

图23A是说明因果/转移关系的边沿的图。

图23B是说明因果/转移关系的边沿的图。

图23C是说明因果/转移关系的边沿的图。

图24是说明第1实施例的节点离散化处理中的事例数的变化的图。

图25是第1实施例的节点离散化处理的流程图。

图26是说明第1实施例的节点的汇集化的图。

图27是第1实施例的节点汇集化处理的流程图。

图28是说明第1实施例的节点汇集化处理中的事例数的变化的图。

图29是第1实施例的节点离散化处理的流程图。

图30是说明第1实施例的节点信息存储部中存储的信息的例子的图。

图31是说明第1实施例的节点的汇集化的图。

图32是说明第1实施例的因果转移模型存储部中存储的信息的例子的图。

图33是说明第1实施例的模型重构部的处理的图。

图34A是第1实施例的面向健康保险事业者的支援功能的处理的流程图。

图34B是第1实施例的面向担当者/对象者的支援功能的处理的流程图。

图35是说明以糖尿病为对象来简化的模型的图。

图36是说明具有有向边沿的路径的模型的图。

图37是说明第2实施例中处理的数据的图。

图38A是说明预测具有图23A所示的边沿的下一年的医疗费的模型的图。

图38B是说明预测具有图23B所示的边沿的下一年的医疗费的模型的图。

图38C是说明预测具有图23C所示的边沿的下一年的医疗费的模型的图。

附图标记说明

101：医疗数据分析装置

102：输入部

103：输出部

104：运算装置

105：存储器

106：存储介质

107：数据整形部

108：病态因果/转移模型制作部

109：因果/转移构造计算部

110：节点生成部

111：概率表计算部

112：发病概率/医疗费预测部

113：模型重构部

114：病态转移概率/医疗费预测部

115：保健指导支援部

116：数据库

117：医疗信息存储部

118：整形信息存储部

119：因果转移模型存储部

120：节点信息存储部

121：重构模型存储部

122：预测结果存储部

201：数据分析装置

202：输入部

203：输出部

204：运算装置

205：存储器

206：存储介质

207：图形模型制作部

208：图形模型构造计算部

209：节点生成部

210：概率表计算部

211：预测部

212：简易图形模型重构部

213：概率推断部

214：数据库

215：表形式信息存储部

216：图形模型存储部

217：节点信息存储部

218：重构模型存储部

219：预测结果存储部

具体实施方式

<实施例1>

在第1实施例中，说明为了疾病的发病预防和重症化预防而基于医疗数据(例如诊疗费用账单信息、体检信息、问诊信息)选择保健指导的对象者、建议保健指导方法并预测保健指导效果的医疗数据分析系统的例子。

诊疗费用账单信息是记录了在健康保险的加入者接受了医疗机关的诊断时的伤病名、所处方的药品、被实施的诊疗行为以及医疗费(分数)的信息，使用图6说明其一例。此外，将所处方的药品以及被实施的诊疗行为统称为医疗行为。

另外，体检信息是存储了在健康保险的加入者接受了健康诊断的情况下的检查值的信息，后面使用图7说明其一例。问诊信息是存储了在健康保险的加入者接受了健康诊断的情况下的生活习惯、既往病历、自觉症状等问诊结果的信息，后面使用图8说明其一例。

在第1实施例中，基于医疗数据，将疾病的因果关系和病态的转移构造模型化。然后，基于该模型提供保健指导对象者的选择、保健指导方法的建议、保健指导效果的预测等各种功能。

图1是表示第1实施例的医疗数据分析系统的结构的框图。另外，图3、图4以及图5是表示第1实施例的医疗数据分析系统的其它结构的框图。

第1实施例的医疗数据分析系统具有医疗数据分析装置101和数据库116。

医疗数据分析装置101具有输入部102、输出部103、运算装置104、存储器105以及存储介质106。

输入部102是鼠标、键盘等人机接口，受理对医疗数据分析装置101的输入。输出部103是输出由医疗数据分析系统得到的运算结果的显示器、打印机。存储介质106是保存用于实现由医疗数据分析系统进行的医疗数据分析处理的各种程序以及医疗数据分析处理的执行结果等的存储装置，例如是非易失性存储介质(磁盘驱动器、非易失性存储器等)。存储器105中展开存储介质106中保存的程序。运算装置104是执行被加载到存储器105的程序的运算装置，例如是CPU、GPU等。以下说明的处理和运算是由运算装置104执行的。

第1实施例的医疗数据分析系统既可以是由一个计算机构成的计算机系统，也可以是由服务器和客户终端构成的计算机系统。另外，医疗数据分析装置101的数据整形部107、病态因果/转移模型制作部108、发病概率/医疗费预测部112也可以如图3、图4、图5所示那样由不同的装置构成。在该情况下，图3、图4所示的装置基于医疗数据制作模型。图5所示的装置提供制作用于基于所制作的模型进行各种保健指导的信息的保健指导支援功能。用户使用图5所示的装置。用户所使用的图5的装置不需要保持作为模型制作的基础的医疗数据，因此对于个人信息的隐匿以及泄漏的防止有效。

医疗数据分析系统是在一个计算机上或在逻辑上或物理上构成的多个计算机上构成的计算机系统，既可以在同一计算机上在不同的线程中动作，也可以在构建于多个物理计算机资源上的虚拟计算机上动作。

由运算装置104执行的程序经由可移动介质(CD-ROM、快闪存储器等)或网络被提供至各服务器，被保存到作为非临时性存储介质的非易失性存储装置。因此，计算机系统最好具有读取可移动介质的接口。

首先，说明第1实施例中处理的医疗数据。

医疗信息存储部117保存被输入到输入部102的医疗数据。医疗数据包含诊疗费用账单信息、体检信息以及问诊信息。诊疗费用账单信息包含诊疗费用账单基本信息、伤病名信息、诊疗行为信息、药品信息、伤病名分类信息、诊疗行为分类信息以及药品分类信息。

接着，说明诊疗费用账单信息。

图6是说明诊疗费用账单基本信息601的图。

诊疗费用账单基本信息601是保持诊疗费用账单与健康保险的加入者的对应关系的信息。诊疗费用账单基本信息601包含搜索号602、健康保险加入者ID603、性别604、年龄605、诊疗年月606以及合计分数607。

搜索号602是用于唯一地识别诊疗费用账单的标识符。健康保险加入者ID603是用于唯一地识别健康保险的加入者的标识符。性别604和年龄605是该加入者的性别和年龄。

诊疗年月606是加入者接受了医疗机关的诊断的年和月。合计分数607是表示一件诊疗费用账单的合计分数的信息。此外，若对合计分数相乘“10”则计算出医疗费(日元)。此外，在图9所示的伤病名信息901中的多个伤病名被登记在一个搜索号的情况下，在合计分数607中登记对于多个伤病的医疗行为的合计分数。

图9是说明伤病名信息901的图。

伤病名信息901包含搜索号602、伤病名码902、伤病名903。

搜索号602是用于唯一地识别诊疗费用账单的标识符，使用与诊疗费用账单基本信息601的搜索号(图6)相同的号。伤病名码902是记载在诊疗费用账单中的伤病名码。伤病名903是与该伤病名码对应的伤病的名称。

此外，一件诊疗费用账单中能够记载多个伤病名。例如在图9所示的伤病名信息901中，搜索号602为“11”的入口的伤病名903是“糖尿病”和“高血压”，搜索号为“11”的诊疗费用账单中记载有糖尿病和高血压的伤病名。

图10是说明伤病名分类信息的图。

伤病名分类信息1001是使伤病分类与属于该伤病分类的伤病名相对应的信息，包含伤病分类1002、伤病名码902、伤病名903以及并发症有无1003。

伤病分类1002是该伤病所属的分类。伤病名码902是诊疗费用账单中记载的伤病名码，使用与伤病名信息901的伤病名码902(图9)相同的号。伤病名903是与该伤病名码对应的伤病的名称，使用与伤病名信息901的伤病名903(图9)相同的名称。并发症有无1003表示该伤病是否为并发症的伤病名。

图11是说明诊疗行为信息的图。

诊疗行为信息1101包含搜索号602、诊疗行为码1102、诊疗行为名1103以及诊疗行为分数1104。

搜索号602是用于唯一地识别诊疗费用账单的标识符，使用与诊疗费用账单基本信息601的搜索号(图6)相同的号。诊疗行为码1102是用于唯一地识别诊疗费用账单中记载的诊疗行为的标识符。诊疗行为名1103是与该诊疗行为码对应的诊疗行为的名称。诊疗行为分数1104是该诊疗行为的保险分数。

在图11中，例如在搜索号602为“11”的诊疗费用账单中记载有“诊疗行为A”和“诊疗行为C”的诊疗行为名1103。

图12是说明诊疗行为分类信息的图。

诊疗行为分类信息1201包含伤病分类1002、诊疗行为码1102以及诊疗行为名1103。

伤病分类1002使用与伤病名分类信息1001的伤病分类1002(图10)相同的分类。诊疗行为码1102是识别根据伤病分类1002的伤病进行的诊疗行为的诊疗行为码，使用与诊疗行为信息1101的诊疗行为码1102(图11)相同的码。诊疗行为名1103是与该诊疗行为码对应的诊疗行为的名称，使用与诊疗行为信息1101的诊疗行为名1103(图11)相同的码。

图13是说明药品信息的图。

药品信息1301包含搜索号602、药品码1302、药品名1303以及药品分数1304。

搜索号602是用于唯一地识别诊疗费用账单的标识符，使用与诊疗费用账单基本信息601的搜索号602(图6)相同的号。药品码1302是用于唯一地识别诊疗费用账单中记载的药品的药品码。药品名1303是诊疗费用账单中记载的药品的名称。药品分数1304是药品的保险分数。

在图13中，例如搜索号602为“11”的诊疗费用账单记载有糖尿病口服药A和高血压口服药A的药品名。

图14是说明药品分类信息的图。

药品分类信息1401包含伤病分类1002、药品码1302以及药品名1303。

伤病分类1002使用与伤病名分类信息1001的伤病分类1002(图10)相同的分类。药品码1302是识别根据伤病分类1002中登记的分类所处方的药品的药品码，使用与药品信息1301的药品码1302(图13)相同的码。药品名1303是与该药品码对应的药品的名称，使用与药品信息1301的药品名1303(图13)相同的名称。

此外，将图11所示的诊疗行为信息1101和图13所示的药品信息统称为医疗行为信息。另外，将图12所示的诊疗行为分类信息1201和图14所示的药品分类信息统称为医疗行为分类信息。

接着，说明体检信息。

图7是说明体检信息的图。

体检信息701是用于管理多个加入者的多年的体检信息的信息，包含健康保险加入者ID603、体检受诊日702以及健康诊断中的各种检查值(例如、BMI703、腰围704、空腹时血糖705、收缩期血压706、中性脂肪707)。

健康保险加入者ID603是接受了健康诊断的健康保险的加入者的标识符，使用与诊疗费用账单基本信息601的健康保险加入者ID603(图6)相同的标识符。体检受诊日702是接受了健康诊断的年月日。BMI703至中性脂肪707是健康诊断的检查的结果。

存在未接受特定的检查的情况等体检信息的数据欠缺的情况。例如在图7中，健康保险加入者ID“K0004”在2004年受诊的检查项目中的收缩期血压706的数据欠缺。

接着，说明问诊信息。

图8是说明问诊信息的图。

问诊信息801是用于管理多个加入者的多年的问诊信息的信息，包含健康保险加入者ID603、问诊受诊日802以及问诊的回答(例如烟803、饮酒804、步行805)。此外，问诊也可以包含生活习惯、既往病历、过敏等体质、自觉症状等。

健康保险加入者ID603是接受了问诊的健康保险的加入者的标识符，使用与诊疗费用账单基本信息601的健康保险加入者ID603(图6)相同的标识符。问诊受诊日802是接受了问诊的年月日。烟803至步行805是问诊的结果。烟803在有吸烟习惯的情况下是一日的平均吸烟根数，在不吸烟的情况下是“无”。饮酒804在有饮酒习惯的情况下是一日的平均饮酒量(单位＝ml)，在没有饮酒习惯的情况下是“无”。步行805是一日的平均步行时间(单位＝分钟)。

此外，在问诊信息中，也有时无法得到步数、饮酒量、吸烟根数等详细的信息。有时不是具体的饮酒量，而是对预先在问诊表中区分的频度中所符合的频度进行回答。例如是在只得到有无吸烟、饮酒的信息的情况下将饮酒的频度分为几个程度(例如、(1)不饮酒、(2)一周1～2次、(3)一周3次以上)来进行回答的情况等。在该情况下，问诊信息的值是没有定量的含义的号。

在不存在对于特定的项目的回答的情况下，有时问诊信息的数据欠缺。例如在图8中，健康保险加入者ID“K0003”在2004年受诊的问诊项目中对于步行805的数据欠缺。

接着，说明数据整形部107的处理。数据整形部107根据医疗信息存储部117中存储的医疗数据对每个加入者的每个期间的诊疗费用账单信息、体检信息以及问诊信息进行总计/合并，整形为表形式。下面，将一个期间设为1年来进行说明，但是也可以是半年、2年、3年等其它期间。

图15是说明整形信息1501的一例的图。使用图15说明数据整形部107的处理。

整形信息1501包含对2004年的诊疗费用账单信息进行整形所得的诊疗费用账单整形信息。整形信息1501的各行是对与一个健康保险加入者ID对应的一年的数据进行总计所得的。

健康保险加入者ID603、性别604、年龄605以及合计分数607分别与诊疗费用账单基本信息601的健康保险加入者ID603、性别604、年龄605以及合计分数607(图6)相同。数据年1502是成为制作该整形信息的基础的数据的年。

伤病名码10(1503)是该健康保险加入者ID的诊疗费用账单中伤病名码为10的诊疗费用账单的数量。伤病名码20(1504)也同样地是该健康保险加入者ID的诊疗费用账单中伤病名码为20的诊疗费用账单的数量。诊疗行为码1000(1505)是该健康保险加入者ID的诊疗费用账单中进行了诊疗行为码为1000的诊疗行为的诊疗费用账单的数量。药品码110(1506)是该健康保险加入者ID的诊疗费用账单中处方了药品码为110的药品的诊疗费用账单的数量。

关于数据整形部107的处理，具体说明对2004年的数据进行整形的情况。

首先，选择一个健康保险加入者ID。从诊疗费用账单基本信息601获取诊疗年月为2004年的该健康保险加入者ID的诊疗费用账单的搜索号。接着，参照伤病名信息901，针对每个伤病名码对记载有该伤病名码的诊疗费用账单的数量进行计数。由此，得到各伤病名码的诊疗费用账单的数量。同样地，参照诊疗行为信息1101，对每个诊疗行为码的诊疗费用账单的数量进行计数，参照药品信息1301，对每个药品码的诊疗费用账单的数量进行计数。由此，生成所选择的健康保险加入者ID的2004年的数据行。对作为分析对象的所有健康保险加入者ID与年的组合进行该处理。

例如在图15所示的整形信息1501中，第1行的健康保险加入者ID“K0001”的2004年的数据能够从搜索号为“11”“12”“13”的诊疗费用账单基本信息601获取。当参照伤病名信息901时，这三个诊疗费用账单中伤病名码为“10”的诊疗费用账单是搜索号“11”和“13”这两个。因而，在整形信息1501的第1行伤病名码10的栏中登记有2。

图15所示的整形信息1501还包含从体检信息整形得到的体检整形信息。各行是对与一个健康保险加入者ID对应的数据进行总计所得的。

各项目的值是健康保险加入者ID603和数据年1502所示的加入者和年的体检数据的值。该体检数据能够从体检信息701获取。在体检信息701包含同一健康保险加入者ID的同一年的体检数据的情况下，既可以使用某一个受诊日的数据，也可以使用该年的多次体检结果的平均。在使用一个受诊日的数据的情况下，可以使用每年几乎相同时期实施的同时体检日的数据。另外，也可以选择缺失少的数据。缺失数据使用预先确定的表示缺失的数值。在图15所示的例子中使用了-1。此外，设没有问诊信息的加入者的值全部为缺失数据。

图15所示的整形信息1501还包含从问诊信息整形所得的问诊整形信息。各行是对与一个健康保险加入者ID对应的数据进行总计所得的。

各项目的值是健康保险加入者ID603和数据年1502所示的加入者和年的问诊数据的值。该问诊数据能够从问诊信息801获取。在问诊信息801包含同一健康保险加入者ID的同一年的问诊数据的情况下，既可以使用某一个受诊日的数据，也可以使用该年的多次问诊结果的平均。在使用一个受诊日的数据的情况下，可以使用每年几乎相同的时期实施的同时体检日的数据。或者，也可以选择缺失少的数据。缺失数据使用预先确定的表示缺失的数值。在图15所示的例子中使用了-1。此外，设没有体检信息的加入者的值全部为缺失数据。

通过以上的处理，能够生成诊疗费用账单整形信息、体检整形信息以及问诊整形信息。此外，图15中仅示出了2004年的数据，但是还制作其它年的整形数据。

在此，在制作诊疗费用账单整形信息时，也可以汇总类似的项目来合并多个项目。例如在药品的项目中糖尿病口服药A的功能与糖尿病口服药B的功能类似的情况下，也可以将它们汇总来视为一个项目进行处理。此时，将使同一年度的糖尿病口服药A的处方次数与糖尿病口服药B的处方次数相加所得的值设为新汇总的项目的值。用于判断项目是否类似的基准可以设为如下。将诊疗行为分类信息1201中属于同一伤病分类的诊疗行为名设为类似项目。另外，将药品分类信息1401中属于同一伤病分类的药品名设为类似项目。另外，预先通过人工制作类似项目信息。

图16是说明将诊疗费用账单整形信息的伤病名码10与伤病名码20合并所得的整形信息1501的例子的图。伤病名码1601的值是将图15的伤病名码1503的值与伤病名码1504的值相加所得的值，是伤病名码为“10”的诊疗费用账单的数量与伤病名码为“20”的诊疗费用账单的数量的合计。

图15、图16所示的所制作的诊疗费用账单整形信息、体检整形信息以及问诊整形信息由数据库116的整形信息存储部118存储。整形信息1501是表形式的数值数据。

此外，诊疗费用账单整形信息的值是以诊疗费用账单的数量、即处方次数进行总计所得的，但是也可以是有无处方的信息。即，也可以将处方次数为1以上的(有处方)情况汇总为1，将处方次数为0的(无处方)的情况设为0，以2值来表示。另外，也可以认为处方次数表示重症度，诊疗费用账单整形信息的值是将处方次数分类为等级的值。例如，也可以将处方次数为0次的情况设为0，将处方次数为1～4次的情况设为1，将处方次数为5次以上的情况设为2等以3等级来表示。

在前述的例子中，以每1年的期间对诊疗费用账单信息、体检信息以及问诊信息进行了汇总，但是例如也可以是每2年、每3年等不同的期间。此外，下面，以每1年的期间进行汇总的情况为例进行说明。

接着，说明病态因果/转移模型制作部108。

病态因果/转移模型制作部108具有因果/转移构造计算部109、节点生成部110以及概率表计算部111。病态因果/转移模型制作部108使用整形信息存储部118中存储的整形信息，制作利用图形模型表示疾病的因果和病态的转移的模型。

能够利用病态因果/转移模型并根据某年(X年)的个人的健康诊断、问诊、诊疗费用账单数据计算以后的年(X+n年)的医疗费的期待值，能够预测发病概率。另外，能够计算X年处于特定状态的集(例如血糖值处于某范围的集)的下一年的医疗费的期待值，能够预测疾病的发病概率。此外，以下说明下一年(n＝1的情况)的医疗费、疾病的状态的预测，但是也可以预测2年后、3年后等其它期间后。

此时，模型制作中至少需要隔着n年的年所获取的医疗数据。例如在n＝3的情况下，需要如2004年和2007年的医疗数据等那样隔着3年的年所获取的医疗数据。下面，设医疗信息存储部117中存储有隔着n年的年所获取的医疗数据，由数据整形部107根据该医疗数据制作的整形信息被存储在整形信息存储部118中，来进行说明。

病态因果/转移模型制作部108使用整形信息存储部118中存储的整形信息制作表示疾病的因果关系和病态的转移的模型。

首先，简单说明图形模型。

图形模型是由节点和边沿构成的模型，节点表示概率变量，边沿表示节点间(概率变量间)的依赖关系。边沿中有有向边和无向边这两种。

现在，考虑两个概率变量X1、X2。

在图17(A)所示的构造1701中，利用圆形表示两个概率变量X1、X2，利用箭头表示从X1向X2的有向边。有向边表示概率变量X2取各状态的概率依赖于概率变量X1的状态。即，通过附条件概率P(X2|X1)提供概率变量X2的各状态的概率。将概率变量X1称为概率变量X2的母体，将概率变量X2称为概率变量X1的子样。

概率变量X1中没有母节点，因此通过事前概率P(X1)提供X1的概率分布。因而，通过P(X1,X2)＝P(X1)P(X2|X1)提供X1、X2的联合概率分布。X1、X2均取1、2、3这三个值(状态)。此时，为了表现，只要存在概率分布P(X1)和概率分布P(X2|X1)即可。概率分布P(X1)和概率分布P(X2|X1)分别由概率表1702和概率表1703来表示(参照图17(B)、图17(C))。ai、aij是概率值，因此是0以上且1以下的实数值。该概率值例如表示P(X1＝2)＝a2、P(X2＝3|X1＝2)＝a23等。概率值为Σai＝1(Σ是关于i的和)、Σaij＝1(Σ是关于j的和)。

在图17(D)所示的构造1704中，两个概率变量X1和X2由无向边来连接。无向边表示概率变量间不独立。概率变量X1与X2独立是指，X1与X2的联合分布P(X1,X2)能够分解为P(X1,X2)＝P(X1)P(X2)。概率表1702表示P(X1,X2)≠P(X1)P(X2)的状况。其中，在不清楚概率变量X1与X2是否独立的情况下，考虑在概率变量间具有依赖性的可能性，有时如构造1704那样表现。该概率分布由概率表1705来表示(参照图17(E))。bij是0以上且1以下的实数值，Σbij＝1(Σ是关于i和j这两者的和)。

由此，能够表现概率变量间的依赖关系。

在第1实施例中，节点(概率变量)是从X年的整形信息的项目和X+n年的整形信息的项目中选择的。例如，图15的X年的伤病名码10、X年的BMI、X年的吸烟、X+n年的伤病名码10、X+n年的BMI、X+n年的吸烟等成为节点。这些对应于诊疗费用账单信息、体检信息、问诊信息的项目或者将诊疗费用账单信息的多个项目合并所得的项目。

关于这些项目的数量，例如在将诊疗费用账单的项目限定为与糖尿病关联而考虑诊疗费用账单、健康诊断、问诊的情况下为数百～数千左右，在考虑所有诊疗费用账单项目、所有体检项目、所有问诊项目的情况下为数十万个。也就是说，节点数为数百以上，多的情况下为数十万。

在病态因果/转移模型制作部108中，使用根据过去的诊疗费用账单信息、体检信息以及问诊信息制作的整形信息制作用于根据某年的加入者的诊疗费用账单信息、体检信息以及问诊信息预测n年后的该加入者的疾病的发病概率、医疗费等的模型。此时，至少需要n年相当的过去的整形信息。例如在n＝3的情况下，使用2004年和2007年这两年的过去的整形信息制作预测3年后的疾病发病概率和医疗费的模型。然后，在当前为2008年且被提供了某加入者的诊疗费用账单信息、体检信息以及问诊信息的全部或一部分数据的情况下，能够预测该加入者的2011年的发病概率和医疗费等。

图35是说明以糖尿病为对象来简化的模型的图。

图35所示的模型是用于根据X年的糖尿病口服药、胰岛素的处方状况以及血糖值预测X+n年的糖尿病口服药和胰岛素制剂的处方状况的模型。例如，通过X年的糖尿病口服药、胰岛素制剂的处方状况以及血糖值的附条件概率提供X+n年的糖尿病口服药的处方状况。病态因果/转移模型制作部108根据整形信息自动制作边沿和附条件概率。在预测时，基于该模型对X年的节点设定当前的值，能够求出变为X+n年的节点各自的状态的概率。关于X年的节点的值，不需要提供全部的值，只要提供一部分值即可。

下面，设n＝1来进行说明。

因果/转移构造计算部109基于这些节点间的依赖性构建边沿。在节点生成部110中，制作各节点的值所取的空间(现象空间)。在概率表计算部111中计算附条件概率。

因果/转移构造计算部109根据数据构建这些节点(概率变量)间的边沿(依赖关系)。对此，使用简单的例子进行说明。

考虑具有两个传感器的系统，考虑根据传感器的状态判定系统的正常、异常的模型。将表示两个传感器的状态的概率变量分别设为X1、X2，该概率变量取两个状态。另外，系统取正常、异常这两个状态，将其概率变量设为X3。以0和1来表示各状态。

如下进行定义：在传感器处于1的状态的情况下，表示系统异常的可能性高。例如在X1是温度传感器且表示比某值高的温度的情况下X1＝1，在X2是声音传感器且检测出与通常不同的声音的情况下X2＝1。这表示，在两个传感器对于系统的正常、异常的判定有效的情况下成为图18(A)的构造1801所表示的构造。在被提供了构造1801和概率表1802的情况下，据此得到的观测数据例如由表1803来表示。表1803的各行是一个观测数据，在各传感器表示异常的情况下，系统异常的可能性高。

在此，与图18(A)所示的例进行比较来说明。在如表1803所示那样被提供了X1、X2、X3的观测数据的情况下，构建符合该数据的构造1801。在实施例的情况下，X1、X2、X3等概率变量相当于整形信息的项目，一个观测数据相当于一个健康保险加入者ID的数据。

在此，在概率变量存在N个的情况下，当考虑概率变量间的边沿的有无时，在前述的模型中，两个概率变量的组合存在从N个选择2个的组合的数量(设为M)。因此，节点间的边沿的有无为2的M乘方。当还考虑边沿的方向时，模型的种类更多。因此，不可能调查所有的可能性。因此，存在通过限定为被称为贝叶斯网络的构造来搜索适于表现数据的构造的方法。

贝叶斯网络是所有边沿为有向边的构造，是跟踪有向边而从某变量X1至某变量X2的路径不存在多个的网络。例如，图19(A)所示的构造1901是贝叶斯网络，图19(B)所示的构造1902不是贝叶斯网络。

提出了用于根据数据自动学习贝叶斯网络的构造的各种方法，但是即使使用该方法，如果节点数多，则也难以调查所有的可能性。另外，在如第1实施例中处理的那样的规模大、种类或性质不同的数据混合存在的情况下，难以自动地学习精度高的网络。

因此，第1实施例的图形模型构造计算部208首先基于诊疗费用账单、健康诊断、问诊的各项目的特征定义因果和转移关系来作为节点间的边沿。接着，基于项目间的定量依赖度和同现依赖度这两个依赖度计算节点间的依赖度。然后，删除依赖性低的节点间的边沿。在第1实施例的图形模型中，考虑表示病态的因果的边沿和表示病态的转移的边沿这两种边沿。

下面，使用图20说明因果/转移构造计算部109的处理。

在图20(A)的因果/转移构造定义步骤2001中，基于诊疗费用账单、健康诊断、问诊的各项目的特征对节点进行分类，定义因果和转移关系来作为所分类的节点间的边沿。第1实施例的模型以描述疾病的因果并预测病态的转移(发病)为目的。因此，将项目分类为与伤病名、医疗行为、检查值、生活习惯、基本信息有关的项目。

伤病名是诊疗费用账单整形信息的伤病名码1503、1504的项目群，医疗行为是诊疗费用账单整形信息的诊疗行为码1505和药品码1506的项目群。检查值是利用体检整形信息得到的检查值的项目群。生活习惯是利用问诊整形信息得到的问诊的与生活习惯和自觉症状有关的项目群。基本信息是年龄、性别。

基于前述的项目的分类对节点进行分类。即，在节点与诊疗费用账单信息、体检信息以及问诊信息的项目对应的情况下，分到该项目所属的分类，在节点与将多个项目合并所得的项目对应的情况下，分到合并所得的项目所属的分类。通过以上，节点被分类为伤病名、医疗行为、检查值、生活习惯以及基本信息。

下面，为了说明处理，使用图来说明一些代表性项目。在图中，将伤病名码10(伤病名)、药品码110(医疗行为)、药品码120(医疗行为)、血糖值(检查值)等设为节点(概率变量)。括弧内表示节点所属的分类。另外，在图中，为了便于理解，将药品码120(医疗行为)等节点置换为表示该节点的更易理解的用语，表示为“糖尿病口服药(医疗行为)”等。

第1实施例的模型以根据今年的各个人的数据预测将来的疾病的转移(发病)概率、医疗费以及/或者确定疾病的转移的原因为目的。因此，希望预测下一年的医疗行为。此时，认为今年的医疗行为的状况是对于下一年的医疗行为的预测有用的信息。因此，如图21(A)所示的构造2101那样，在今年的医疗行为的节点与下一年的医疗行为的节点之间制作从今年的项目向下一年的项目的边沿。图21(A)所示的构造2101表示下一年被处方胰岛素的概率依赖于今年的被处方糖尿病口服药的概率、被处方胰岛素的概率以及被处方透析的概率。一般，如果糖尿病的症状发生重症化时，医疗行为按口服药、胰岛素、透析的顺序被处方。

能够通过使用如图21(B)所示的表2102和图21(C)所示的表2106那样的两年的诊疗费用账单整形信息的数据来计算该模型的附条件概率。由此，能够计算今年仅接受口服药的处方的人接受下一年的胰岛素的处方或透析的处方的概率。将这种波及多年的同一分类项目之间的依赖关系称为转移，将其它关系称为因果。

在此认为，转移的概率依赖于个人的检查值、生活习惯而不同。例如关于今年被处方了糖尿病口服药的人在下一年被处方胰岛素的概率，预计血糖值高的人其概率更高。这样，通过得到个人的更详细的信息，能够得到更严密的转移的概率。

另外，认为被处方下一年的各医疗行为的概率还依赖于今年的检查值，因此定义从今年的检查值向下一年的医疗行为的有向边。同样地，认为生活习惯也对下一年的医疗行为产生影响，因此定义从今年的生活习惯向下一年的医疗行为的有向边。在图22(A)的构造2201中示出以上定义。

并且，医疗费是基于医疗行为计算的，因此在预测医疗费的情况下，定义从今年的医疗行为向下一年的合计分数(医疗费)的有向边。并且，为了提高医疗费的精度，定义从今年的合计分数向下一年的合计分数的有向边。在图22(B)的构造2202中示出以上定义。

汇总以上的因果/转移关系的边沿则如表2301(参照图23A)。表2301中，行项目是母体，列项目是子样，在母子间存在边沿的情况下记载转移或因果，在不存在边沿的情况下空白。该模型是根据今年的检查值、生活习惯以及医疗行为预测下一年的医疗行为、并根据今年的医疗行为、下一年的医疗行为的预测结果以及今年的医疗费预测下一年的医疗费的模型。图38A中，利用一个○来表示属于各分类的节点，示意性地示出分类间的边沿。

图23B和图23C中示出因果/转移关系的其它定义。

在由图23B所示的表2302表示的模型中，根据今年的检查值和今年的生活习惯预测下一年的检查值，基于下一年的检查值预测下一年的医疗行为。

由图23C所示的表2303表示的模型是将表2301和表2302的模型混合所得的类型，根据今年的生活习惯和今年的检查值预测下一年的检查值。另外，根据今年的检查值、今年的医疗行为以及预测出的下一年的检查值预测下一年的医疗行为。

在图38B、图38C中示意性地示出与图23B、图23C所示的因果/转移关系对应的分类间的边沿。

在此说明边沿的方向。如图38A、图38B、图38C所示，边沿被定义为从生活习惯向检查值的方向。这表示生活习惯的结果对检查值产生影响。另外，同样地，边沿被定义为从生活习惯向医疗行为的方向以及从生活习惯向合计分数的方向。这表示生活习惯的结果对医疗行为和合计分数产生影响。另外，边沿被定义为从检查值向医疗行为的方向以及从检查值向合计分数的方向。这表示检查值的结果对医疗行为和合计分数产生影响。另外，边沿被定义为从医疗行为向合计分数的方向。这表示医疗行为对合计分数产生影响。并且，边沿被定义为从X年的分类向X+n年的分类的方向。除了前述的对以外，也可以使用这些组合来定义构造。

在图20(A)的因果/转移构造定义步骤2001中，作为基本信息的年龄和性别是对所有项目广泛地产生影响的项目，因此可以按年龄和性别进行划分来制作不同的模型。例如，可以将男女分开，每5岁进行划分来制作模型。在不按年龄和性别制作不同的模型而仅制作一个模型的情况下，从今年的基本信息对下一年的所有项目定义有向边。除医疗行为、检查值、生活习惯、合计分数以外的项目从模型排除，或者从今年的该项目对下一年的所有项目定义有向边。

通过以上的处理，定义属于不同的分类的节点间的边沿的有无的方向。例如在按照图23A所示的模型的情况下，从属于X年的检查值的分类的节点向属于X+n年的医疗行为的分类的节点定义有向边。另外，从属于X年的生活习惯的分类的节点向属于X+n年的生活习惯的分类的节点不定义边沿。

通过以上，结束因果/转移构造定义步骤2001的处理的说明。下面，设期间不同的节点属于不同的分类来进行处理。也就是说，将X年的检查值的分类和X+n年的检查值的分类视为不同的分类来处理。

接着，计算通过因果/转移构造定义步骤2001定义的属于不同的分类的节点(概率变量)间的转移、因果边沿中的该概率变量间的依赖度，删除依赖度低的概率变量间的边沿。

在节点间依赖度计算步骤2002中，计算节点(概率变量)间的依赖度。此时，各节点分别具有性质不同的值。例如，BMI、空腹时血糖等检查值是连续值，其值的刻度也不同。另外，诊疗费用账单整形信息的医疗行为的项目是表示处方的次数的整数值。另外，问诊的、例如自觉症状的回答号是不具有定量的含义的值。并且，存在缺失的值。在这种状况下需要用于比较性质不同的变量之间的依赖度的方法。

在第1实施例中，示出使用定量依赖度基准和同现依赖度基准这两个基准计算节点间的依赖度的例子。定量依赖度基准是用于计算具有定量的含义的值之间的类似度的基准，同现依赖度基准是用于计算不具有定量的含义的值之间或具有定量的含义的值与不具有定量的含义的值之间的类似度的基准。

首先，说明定量依赖度的计算方法。现在，计算两个概率变量X1、X2的依赖度。作为X1、X2的观测数据，分别被提供x1＝(x11,x12,…,x1n)、x2＝(x21,x22,…,x2n)。以下说明的定量依赖度是基于将x1和x2视为矢量时的相关系数的例子。

在此，将矢量x1与x2的相关系数设为r(x1,x2)。但是，x1、x2中有缺失值。因此去除x1、x2的某一个中有缺失值的元素。例如在x1i缺失的情况下，去除x2i。通过这样，将从x1、x2去除缺失维度后的矢量重新设为v1＝(v11,v12,…,v1m)、v2＝(v21,v22,…,v2m)。

另外，即使相关值r(v1,v2)的值具有相同程度的依赖性，也由于v1、v2的值的性质的差异而在其值中产生偏差。因而，首先，能够设想将v1、v2的元素独立地随机重新排列的矢量w1、w2中不具有依赖度。使用它计算|r(v1,v2)|-|r(w1,w2)|。在|r(v1,v2)|<|r(w1,w2)|的情况下，能够判断为不具有定量依赖度。因此，将该情况下的定量依赖度设为0，将除此以外的情况下的定量依赖度设为|r(v1,v2)|-|r(w1,w2)|。由此，能够计算与随机的情况(不具有依赖性的情况)相比较的定量依赖度。

在此，定量依赖度对于具有定量的值的数据之间的比较有效。例如在图20(B)所示的例子2005中，x1与x2之间明显具有定量的相关。另外，在图20(C)所示的例子2006中，在x1与x2之间，虽比例子2005小，但是也具有定量的相关。在问诊的回答号等的情况下，能够设想这种状况。因此，需要作为对值彼此同现的程度进行计量的指标的同现依赖度。

关于同现依赖度的计算方法，以计算两个概率变量X1、X2的依赖度的情况为例进行说明。

作为X1、X2的观测数据，分别被提供x1＝(x11,x12,…,x1n)、x2＝(x21,x22,…,x2n)。以下说明的同现依赖度是基于x1与x2的熵的例子。

首先，与定量依赖度的情况同样地将去除缺失值后的矢量设为v1、v2。接着，将矢量v1、v2的元素对的集合设为S＝{(v1i,v2i)}(i是1至m的整数值)。S的元素数为m个。对于S的元素p＝(p1,p2)，将与p相等的S的元素的个数设为np。另外，将S的不同的元素的数量设为L。此时，用下式表示以L标准化的v1、v2的对的熵。

e(v1,v2)＝Σ[(-np/m)log(-np/m)]/L

在此，Σ是S的所有元素p的和。与定量依赖度的情况同样地，针对随机化的w1、w2也计算e(w1,w2)。e(v1,v2)是正的值，v1、v2的同现度越大则成为越小的值。因此，在随机的情况下标准化的e(v1,v2)/e(w1,w2)大于1的情况下，能够判断为v1与v2之间没有依赖关系。另外，e(v1,v2)/e(w1,w2)是0以上的值。因此，将e(v1,v2)/e(w1,w2)大于1的情况下的同现依赖度设为0，将除此以外的情况下的同现依赖度设为1-e(v1,v2)/e(w1,w2)。

如前所述那样定义的定量依赖度和同现依赖度是0以上且1以下的值，值越大则依赖度越大。对此，针对具有在因果/转移构造定义步骤2001中定义的边沿的所有概率变量的对进行计算。以下，将定量依赖度设为Q，将同现依赖度设为C。

在图20(A)的依赖度校准步骤2003中，校正定量依赖度Q和同现依赖度C的值。利用f(C)来表示校正函数f。在校正仅为刻度变换的情况下，f既可以是一次函数，也可以是更复杂的函数。在f是二次函数的情况下，能够用下式表示。

f(C)＝αC*C+βC+γ

在此，说明确定f的参数(在上述的情况下为α、β、γ)的方法。例如在图20(B)(C)所示的例子2005的情况和例子2006的情况下，期望例子2005的x1、x2的定量依赖度Q(x1,x2)的值与例子2006的同现依赖度C(x1,x2)的值接近。因此，准备具有各种定量依赖度的矢量x1、x2的多个组合，计算Q(x1,x2)，其中，准备将x2的值随机变更后的x2，计算C(x1,x2)。期望Q(x1,x2)与f(C(x1,x2))为接近的值，因此例如以使f(C(x1,x2))与Q(x1,x2)的最小二乘误差变小的方式确定f的参数。在例子2005和例子2006中，例子2006的x2是将例子2005的x2的值以0→1、1→0、2→3、3→2的方式变换所得的。

通过以上，利用D＝max{Q,f(C)}定义依赖度。

在图20(A)的低依赖节点间边沿删除步骤2004中，删除通过因果/转移构造定义步骤2001确定的边沿中、D小于预先确定的阈值的节点间的边沿。

通过以上，定义属于不同的分类的节点间的边沿的方向和有无。即，在节点N1和节点N2是属于不同的分类的节点的情况下，在因果/转移构造定义步骤2001中定义节点N1与节点N2之间的边沿，且在节点N1与节点N2的依赖度为预先确定的阈值以上的情况下，在节点N1与节点N2之间定义通过因果/转移构造定义步骤2001定义的边沿。除此以外的情况下，在节点N1与节点N2之间不定义边沿。

在带限制的构造学习步骤2007中，决定最终的节点间的边沿构造。在此，说明三个例。

首先，说明第1例。在第1例中，仅将通过到低依赖节点间边沿删除步骤2004为止的处理定义的属于不同的分类且依赖度为阈值以上的节点间的边沿设为最终的病态转移/因果模型的边沿。此时，不定义属于同一期间且同一分类的节点间的边沿。

说明第2例。通过第1例的方法定义属于不同的分类的节点间，使用现有的构造学习方法学习属于同一分类的节点间的边沿构造。通过将学习的结果所构建的边沿构造例如限定为贝叶斯网络的构造，能够高效地进行学习。由此，在属于同一分类的节点间定义边沿的有无，并且在边沿有向的情况下定义边沿的方向。另外，不同的分类间的边沿构造是已经定义的。关于通过以上的处理所制作的边沿构造，即使属于同一分类的节点间的构造是贝叶斯网络的构造，作为整体也未必是贝叶斯网络的构造。

说明第3例。基于通过到低依赖节点间边沿删除步骤2004为止的处理定义的边沿，限制属于不同的分类的节点间的边沿的有无和方向。有在节点间不存在边沿的情况、存在无向边沿的情况、存在有向边沿(根据方向有两种)的情况这四种定义。而在属于不同的分类的节点间通过到低依赖节点间边沿删除步骤2004为止的处理定义了边沿的情况下，限制为节点间没有边沿或存在同一方向的边沿这两种。另外，在通过到低依赖节点间边沿删除步骤2004为止的处理而没有边沿的情况下，限制为节点间无边沿。在该限制下，使用现有的构造学习方法学习节点整体的边沿构造。

此外，在上述的第2例、第3例中，在需要使用现有的构造学习方法将节点的值离散化的情况下，也可以使用稍后在节点生成部209中说明的根据人数的比例进行离散化的方法。

通过以上，因果/转移构造计算部109的处理结束。由此，确定节点间的构造(边沿)。

为了由概率表计算部111制作概率表，节点生成部110定义节点的现象空间，汇集节点。节点中如检查值那样有连续值。另外，在将诊疗费用账单的医疗行为的值设为处方次数的情况下，如果该处方次数的粒度细，则预测精度降低。因此，可以以适当的粒度进行离散化。例如，如果将各处方次数另外处理，则存在各处方次数的事例数变少，概率表的精度降低，或者概率表的制作困难等问题。

此外，也可以预先通过人工来定义现象空间。例如，也可以将体重以5kg划分来表示，将对应的节点的现象空间设为{…,50～54,55～59,…}。在该情况下，将从50kg至54kg的体重值汇总为一个现象来处理。

进一步说明其它现象空间的定义的例子。在前述的方法中，需要针对每个节点定义现象空间。例如，身高和体重其值的含义、刻度不同，因此需要定义不同的划分。在此处说明的例子中，以人数的比例来划分值。因此，能够通过不依赖于节点的一样的方法来定义现象空间。具体地说，以k％为刻度，将低位p％～p+k％总括到一起。例如，当以5％为刻度来将体重的所有加入者的体重中的低位5％为w1千克以下、将低位5％～10％设为w1千克～w2千克等时，现象空间成为{～w1,w1～w2,…}。在5％为刻度的情况下，状态数为20。

另外，节点也可以不汇集。在通过前述的方法提供现象空间而不汇集节点的情况下，进入概率表计算部111的处理。在不汇集节点的情况下，有时用于计算附条件概率的事例数为0。因此，需要用于对此进行估计的处理，后面说明该处理。

接着，说明进行节点的现象空间的定义和节点的汇集的例子。

首先，说明节点的现象空间的定义。节点的现象空间用于定义概率变量所取的状态(值)，通过对应的项目的值空间的离散化来制作。

接着说明离散化的方法。在第1实施例中，节点的离散化是使用两个基准来进行。第1基准是，以能够充分地得到对于离散化后的该节点的各状态的事例数的方式进行离散化。在离散化粗的情况下，更能够充分地得到事例数，因此能够制作统计上可靠性高的概率表。另一方面，如果离散化过粗，则无法充分表现子节点的概率分布对于该节点的状态的依赖性。因此，第2基准是以不丧失子节点的附条件概率分布对于离散化后的该节点的状态的依赖性的表现的方式进行离散化。

图25是对节点进行离散化的处理的流程图。下面，说明以使事例数优先的同时不丧失子节点的概率依赖性的表现的方式对节点进行离散化的处理的例子。

首先，使用图17(A)所示的例子1701说明离散化的必要性。

为了制作模型，需要制作X1的概率表1702和X2的概率表1703。例如，概率表1703的a22是在X1＝2时成为X2＝2的概率，其需要X1＝2且X2＝2的足够数量的事例数。如果X1的粒度细，则事例数变少，根据情况而成为0。由于没有足够的事例数，因此存在无法预测概率值或概率值的可靠性降低等问题。因此，需要向适当的粒度进行离散化。另外，在X1＝1且X1＝2的情况下，在X2的概率分布P(X2|X1＝1)与P(X2|X1＝2)的概率分布几乎相同的情况下，状态X1＝1和X2＝2在汇总为一个状态的情况下从事例数、计算量的观点来看更有利。

首先，说明用于充分地得到对于离散化后的该节点的各状态的事例数的离散化方法。

将所关注的节点设为X1，将其子节点设为X2，X2已经被适当地离散化。图24所示的事例数2401是X1的各状态下的事例数。从左向右，表示状态的值变大。检查值等在含义上是连续值，但是当细分至有效位的粒度时被离散地表示，因此能够这样表示。例如在以小数点2位的精度表示BMI值的情况下，2401的最左端的栏是0.00～0.01的事例数，从左第二个栏是0.01～0.02的事例数、…、等。

首先，在最小值状态选择步骤2501中，选择X1的最左端的状态。在此，事例数2402是X1为以最小值表示的状态的情况下的X2的各状态的事例数。事例数2402也与2401同样地，从左向右，表示状态的值变大。同样地，事例数2403是X1取比最小值大一个的状态的情况下的X2的各状态的事例数。

在下面的说明中，将当前选择的状态设为S。S的初始状态是以X1的最小值表示的状态。

在步骤2502中，将X1＝S的带条件的X2的各状态的事例数与规定的阈值进行比较。在事例数小于规定的阈值的情况下，判定为事例数不够，与右邻的状态结合(2503)。在不存在右邻的状态的情况下，也可以与左邻的状态结合。当将X1的左的两个状态汇总时，事例数为图24所示的事例数2404、2405，汇总后的X1的状态的事例数增加。之后，将结合所得的状态设为S，返回到步骤2502。但是，在所有状态被结合而状态成为一个的情况下，结束处理。

另一方面，在事例数足够的情况下，将S设为完成状态，在步骤2504中调查是否存在未完成状态(右邻的状态)(2504)。在存在未完成状态的情况下，将该状态设为S，返回到步骤2502。另一方面，在不存在未完成状态的情况下，进入步骤2505。

通过该处理，能够以各状态具有稳定的事例数的方式进行离散化，能够得到如事例数2407那样的离散化(参照图24)。

并且，以不丧失子节点对母节点的概率依赖性的方式进行离散化。具体地说，选择事例数2407的左端的状态0及其相邻的状态1(2505)，在P(X2|X1＝0)与P(X2|X1＝1)这两个概率分布上没有大的差异的情况下(2506中“否”)，将状态0与状态1结合(2507)。反复进行该处理直到在概率分布上出现差异为止。接着，转移到X1的右邻的状态(2508中“是”)，通过同样的方法将状态结合。关于P(X2|X1＝0)与P(X2|X1＝1)是否不同，例如在存在P(X2＝a|X1＝0)与P(X2＝b|X1＝0)具有预先确定的阈值以上的差的X2的状态a和b的情况下，判定为在概率分布上有大的差异。

具体地说，在步骤2501中选择结合后的最小的两个状态，在事例数2407的例子中选择左端的状态及其相邻的状态。将所选择的状态分别设为S1、S2。接着，在步骤2506中，将P(X2|X1＝S1)与P(X2|X1＝S2)的差异如前述那样进行判定，如果没有两者的差异则进入步骤2507。在步骤2507中，将S1的状态与S2的状态结合，将结合所得的状态新设为S1，进入步骤2508。如果在步骤2506中概率分布上没有大的差异，则将S2新设为S1，进入步骤2508。在步骤2508中，如果存在S1的右邻的状态，则将该状态设为S2，进入步骤2506。如果不存在S1的右邻的状态，则结束处理。

通过前述的处理，能够在子节点X2被离散化的状态下对X1进行离散化。

因此，从作为不具有子节点的节点的叶子节点起按顺序进行离散化。在存在表示医疗费的合计分数节点的情况下，合计分数节点成为叶子节点。合计分数节点被预先离散化成得到预测所需的粒度。另外，在不存在合计分数节点的情况下，与医疗行为有关的节点成为叶子节点。该离散化方法也预先确定。例如在根据处方的有无来区分的情况下，以0和1以上这两个状态来进行离散化。在需要更细的粒度的情况下，例如以0、1～5、6以上这三个状态等来进行离散化。

通过以上，以归纳方式从叶子节点按顺序朝向根节点(不具有母体的节点)进行离散化。

接着，在节点生成部209中，汇集节点。

如已经说明的那样，在离散化中，仅关注与子节点之间的关系来进行了离散化。但是，在如图26(A)所示的构造2601那样某节点具有两个以上的母节点的情况下，概率表需要对于母节点所有概率变量的状态的组合的事例。例如在图26(A)所示的情况下，X4有三个母节点X1、X2、X3。在该情况下，对于X1、X2、X3所有状态的组合需要事例。因此，如图26(B)所示，将母节点汇集化，将汇集化的节点的状态结合。

图27是将节点汇集化的处理的流程图。

考虑将某节点汇集化并将状态结合。首先，在步骤2701中，判定母节点的所有状态的组合中是否有预先确定的数量以上的事例数。如果事例数足够，则结束该处理。

在事例数不够的情况下，在最大依赖度对汇集步骤2702中，通过与节点间依赖度计算步骤2002相同的方法计算母节点之间的依赖度，选择具有最大的依赖度的节点的对。认为依赖度高而类似的节点对子节点产生的影响类似。因此，将依赖度高的两个节点汇集，设为新的节点。在原来的两个节点的状态数是n1、n2的情况下，新的节点的状态数成为两个节点的状态的组合即n1×n2个。构造2602示出节点X2与节点X3被结合成节点X5的状态(图26(B))。

接着，在状态结合步骤2703中将汇集的节点的状态结合。使用图28和图29说明汇集的节点的状态结合处理。

图28与图24同样地表示节点的状态。但是，与图24不同地，X5的状态是X2与X3的组合，因此如状态2801那样以二维表示。以如下方式配置事例数：从左向右，X2的值变大，从上向下，X3的值变大。

首先，在左上端状态选择步骤2901中，选择左上端的状态。即，是X2和X3均为最小值的组合。下面，将所选择的状态设为S。最初，S是左上端的状态。接着，在步骤2902中，附带X5＝S的条件下调查X4的各状态的事例数，判定是否存在足够的事例数。在X4的各状态的事例数足够的情况下，与该状态有关的处理完成，进入步骤2905。在步骤2905中，从2801的最上层向下、且从各层的左端向右端搜索未完成的状态，将最初发现的未完成的状态设为S并返回到2902。

另一方面，在X4的各状态的事例数不够的情况下，在最佳邻接状态选择步骤2903中，选择最适于结合的邻接状态。邻接状态是在上下左右方向上与当前选择的状态邻接的未完成的状态，这些状态中的、在结合的情况下对子节点X4的附条件概率分布的影响小的状态是最适于结合的状态。在不存在未完成的状态的情况下，从邻接的已完成的状态中选择最佳的状态，并与所选择的状态结合。将结合后的状态新设为S，返回到步骤2902。

说明步骤2903中的计算对子节点X4的附条件概率分布的影响的方法的例子。现在，将所选择的状态设为a，将邻接状态设为b，I(b)＝max|P(X4＝s|X5＝a)-P(X4＝s|X5＝a)|。max是将所有对于X4的状态s的邻接状态b中I(b)的值最小的状态选择为最佳状态的函数。

通过以上，状态以二维结合。状态2804中示意性地示出该情形。在状态2804中，删除被结合的状态间的格线来示出。

通过从叶子节点朝向根节点以归纳方式反复进行该处理，节点的汇集完成。由此，通过将母节点的状态数组合而事例数变少，能够解决难以进行预测或预测精度降低的问题。

接着，节点生成部110制作节点汇集后的因果/转移构造。节点生成部110删除被汇集的节点，插入通过汇集而新制作的汇集节点。此时，将被汇集节点的所有母节点设为汇集节点的母节点。例如如图31所示，从原来的构造3101(图31(A))汇集X2和X3(图31(B))，得到作为X5新插入的构造3103(图31(C))。

最后在节点生成部110中，将该构造的信息存储到因果转移模型存储部119，将该节点的汇集和状态结合的信息存储到节点信息存储部120。图32中示出因果转移模型存储部119中存储的信息的例子。表3201表示构造3103的信息，表示各节点的母节点。图30中示出节点信息存储部120中存储的信息的例子。状态结合信息3001表示节点的状态结合，是通过离散化的处理(图25)生成的。根据状态结合信息3001，BMI值的18.01～20.00的范围的值是一个状态。被汇集节点信息3002是表示汇集节点和被汇集节点的表。根据被汇集节点信息3002，汇集节点1是将身高节点和体重节点结合而成的。汇集节点的状态结合信息与状态结合信息3001同样。

概率表计算部111制作由节点生成部110制作并存储在因果转移模型存储部119中的构造的附条件概率表。这相当于，当将各节点X的母节点设为X1、X2、…、Xn时，针对X、X1、…、Xn的各状态计算P(X|X1,X2,…,Xn)。

以图31的(C)的构造3103为例说明处理。现在，考虑制作P(X5|X6,X7)。在X5、X6、X7都取0和1这两个状态的情况下，P(X5＝a|X6＝b,X7＝c)，需要计算使a、b、c变为0和1时的8个值。例如在计算P(X5＝0|X6＝0,X7＝0)时，首先提取X6＝0、X7＝0的所有事例。将所提取的事例数设为p。接着，将该p个事例中X5＝0的事例数设为q。此时，P(X5＝0|X6＝0,X7＝0)＝q/p。

例如，X6是X年的血糖值，X7是X年的糖尿病口服药处方的有无，X5是X+n年的胰岛素制剂处方的有无，以1来表示有处方。此时，设X年有糖尿病口服药的处方，将糖尿病的值处于以S表示的值的加入者设为p人，将该p人中在n年后接受胰岛素制剂的处方的加入者的人数设为q人。此时，P(X5＝1|X6＝S,X7＝1)＝q/p。

在没有事例数而无法计算附条件概率的情况下，例如也可以通过均匀分布来置换。在前述的例子中，在p＝0的情况下，无法计算P(X5|X6＝S,X7＝1)。因此，设X5的分布均匀，在如前述的例子那样X5取2值的情况下，设P(X5＝1|X6＝S,X7＝1)＝1/2、P(X5＝0|X6＝S,X7＝1)＝1/2。

概率表计算部111针对所有节点计算该概率值，将所制作的概率表存储到因果转移模型存储部119。

以上是病态因果/转移模型制作部108的处理。

接着，说明发病概率/医疗费预测部112。发病概率/医疗费预测部112具有模型重构部113、病态转移概率/医疗费预测部114以及保健指导支援部115。

模型重构部113根据来自保健指导支援部115的要求，根据因果转移模型存储部119中存储的因果转移模型重构与用户的目的相应的模型。所重构的模型被存储到重构模型存储部121。病态转移概率/医疗费预测部114使用由模型重构部113制作的重构模型预测发病概率、医疗费。预测结果被存储到预测结果存储部122。

首先，说明模型重构部113的处理。

由病态因果/转移模型制作部108制作的模型是大量的节点相互有关系的大规模的模型。但是，用户感兴趣的通常是该模型的一部分。因而，模型重构部113提供仅重构与用户需要的节点有关的模型的功能。由此，成为不仅能够削减计算量、对于用户来说也容易使用的模型。

另外，在根据用户的要求从最初开始构建模型的情况下，需要大量的计算量。但是，重构的计算成本小。因此，通过如第1实施例那样的制作精细的模型的病态因果/转移模型制作部以及重构与目的相应的紧凑的模型的模型重构部的2级结构，能够高效且有效地利用从大规模的数据得到的信息。另外，在如图3、图4、图5所示那样由不同的装置构成系统的情况下，用户只要仅使用图5所示的装置即可。一旦由图3、图4所示的装置制作模型之后，用户所使用的图5的装置不需要保持作为模型制作的基础的医疗数据，因此对于个人信息的隐匿以及泄漏的防止有效。

模型重构部113根据保健指导支援部115的要求重构与用户的目的相应的模型。即，模型重构部113在被提供了想要包含在重构模型中的节点的列表时，构建与该节点有关的模型。节点的列表是汇集前的节点。即，是与整形信息的项目对应的节点。例如在关注糖尿病关联的病态因果和转移的情况下，将与关联的医疗行为有关的项目、检查值以及问诊结果设为节点的列表。

首先，说明在节点生成部110中没有汇集节点而由病态因果/转移模型制作部108制作的图形模型是有向图形的情况下的模型重构部113的处理。

作为节点的列表，选择N1、N2、…、Nk。首先，关于边沿构造在由病态因果/转移模型制作部108制作的模型中存在追踪从Ni向Nj的有向边沿的路径的情况下设定从Ni向Nj的有向边沿，在存在追踪从Nj向Ni的有向边沿的路径的情况下设定从Nj向Ni的有向边沿，在除此以外的情况下设为无边沿。接着，通过列表中没有的节点的周边化来求出由此定义的附条件概率。

例如，图36所示的模型为原始模型，X1和X3被提供为节点的列表。此时，由于存在从X1向X3的有向边沿的路径，因此在重构模型中制作从X1向X3的有向边沿。附条件概率P(X3|X1)是基于原始模型将X2周边化来提供的。即，P(X3＝s3|X1＝s1)＝ΣP(X3＝s3|X2＝s2)P(X2＝s2|X3＝s3)。在此，Σ是关于所有X2的状态s2的和。

基于图33所示的例子说明有节点的汇集的情况下的模型重构部113的处理。构造3301是由病态因果/转移模型制作部108制作并存储在因果转移模型存储部119中的模型。X2和X3被汇集而成为X5。另外，作为节点的列表，被提供X3、X4、X8。此时，作为重构模型的节点，从因果转移模型存储部119中存储的模型选择所提供的节点以及将该节点汇集所得的节点，即，在构造3103中选择X5、X4、X8。

接着，模型重构部113重构仅包含X5、X4、X8的模型。此时，如果存在将作为重构模型的节点选择的节点间连接的路径，则在重构模型中也在该节点间构成有向边。在构造3302的情况下如构造3303。

接着，为了完成重构模型而计算附条件概率。通过说明P(X4|X5)的计算的例子来说明处理。能够通过ΣP(X4|X1＝s、X5)来计算P(X4|X5)。在此，Σ是关于X1的所有状态的和。在其它情况下，也能够根据因果转移模型存储部119中存储的模型求出附条件概率。

通过以上，在有节点的汇集的情况下，重构由作为节点的列表选择的节点构成的模型，以及在节点被汇集的情况下重构由汇集后的节点构成的模型。之后的边沿的定义和附条件概率的计算与没有节点汇集的情况同样。

此外，在将所有节点指定为列表的情况下不需要重构，因此模型重构部113使用由病态因果/转移模型制作部108制作的模型。另外，病态转移概率/医疗费预测部114在预测中使用的模型也可以使用由病态因果/转移模型制作部108制作的模型，模型重构部113仅将在保健指导支援部115中显示在显示装置上的网络图设为重构模型。该情况下的网络图、概率表基于前述的重构模型。

病态转移概率/医疗费预测部114使用模型重构部113所重构的模型、或病态因果/转移模型制作部108制作并由因果转移模型存储部119存储的模型，预测疾病的发病概率、医疗费。

使用构造3302说明该处理。在求出X5＝s的概率(例如，X5是与下一年的胰岛素的处方次数有关的项目)的情况下，是胰岛素的处方次数为以s表示的次数的概率。通过下式提供X1、X4、X5、X6、X7、X8的联合分布。

P(X1,X4,X5,X6,X7,X8)＝P(X1)P(X6)P(X8)P(X7|X8)P(X5|X6,X7)P(X4|X1,X5)

通过下式提供P(X5＝s)。此外，Σ是关于X5以外的所有概率变量的状态的和。

P(X5＝s)＝ΣP(X1,X4,X5,X6,X7,X8)

对此，能够通过使用概率表计算部111制作并因果转移模型存储部119存储的概率表来计算。但是，在X5以外的概率变量中存在已计算的概率变量的情况(例如X1＝t的情况)下，通过下式提供概率变量P(X5＝s)。Σ是关于除了观测节点X1和想要预测的节点X5以外的所有概率变量的状态的和。

P(X5＝s)＝ΣP(X1＝t,X4,X5,X6,X7,X8)

这相当于如下情况：例如在得到了今年的健康诊断的检查值的情况下将该节点的状态固定来预测下一年的医疗行为和医疗费。

通过以上，在得到了今年的信息的状态下能够预测与下一年的医疗行为和医疗费相当的节点的状态。当将医疗费节点设为X来求P(X)时，对于医疗费的各分数得到预测概率值。作为其期待值，能够预测下一年的医疗费。

前述的式计算所有状态的和，因此计算时间大。提出了高效地求出它的算法，例如有消息传递算法、Junction Tree Algorithm等。病态转移概率/医疗费预测部114还可以使用这些算法。

保健指导支援部115提供支援用于预防将来的疾病的发病的指导的功能。说明用于健康保险事业者制定保健指导计划的支援功能以及支援保健指导担当者或对象者个人的功能这两个。

首先，说明用于健康保险事业者制作保健指导计划的支援功能。健康保健事业者期望在预算内优先选择保健指导所产生的预防效果高的对象者，进行适于各对象者的指导。健康保险事业者所能够提供的保健指导服务有多个(保健指导服务1、保健指导服务2、…、等)。例如，保健指导服务1是主要用于减小BMI值的指导，保健指导服务2是用于降低胆固醇值的指导等。

说明面向健康保险事业者的支援功能的处理。

图34A是面向健康保险事业者的支援功能的处理的流程图。

首先，在对象疾病设定步骤3401中，设定作为处理的对象的疾病。例如在将作为三大生活习惯病的糖尿病、血脂异常症以及高血压症设为对象的情况下，使用诊疗费用账单整形信息的项目中的符合糖尿病、血脂异常症以及高血压症的医疗行为的项目、健康诊断的项目以及问诊的项目，模型重构部113重构模型。在将所有疾病设为对象的情况下，使用病态因果/转移模型制作部108制作并因果转移模型存储部119所存储的模型。

接着，在保健指导服务设定步骤3402中，设定保健指导服务的种类和各保险指导服务的设想效果。例如，保健指导服务1的设想效果是减体重5kg等。

接着，在保健指导效果预测步骤3403中，针对保健指导服务与保健指导对象候选者的所有组合预测医疗费削减效果。首先，说明针对保健指导服务1与保健指导对象候选者1的组合计算医疗费削减效果的方法。

最初，预测不进行保健指导服务的情况下的保健指导对象候选者1的下一年的医疗费。对此，基于今年的保健指导对象候选者1的诊疗费用账单、健康诊断以及问诊的值，设定与今年的项目对应的节点的状态，病态转移概率/医疗费预测部114预测医疗费(C1)。接着，将通过保健指导服务改善了检查值后的值设定为今年的保健指导对象候选者1的值，病态转移/医疗费预测部114预测下一年的医疗费(C2)。C1为不进行保健指导的情况下的预测医疗费，C2为进行了保健指导的情况下的预测医疗费，因此，当将保健指导所需的费用设为C3时，医疗费削减费用对效果能够通过E＝C1-C2-C3来计算。针对保健指导服务与保健指导对象候选者的所有组合进行该处理，计算医疗费削减费用对效果E。

接着，在保健指导内容制定步骤3404中，从保健指导服务与保健指导对象候选者的组合中选择医疗费削减费用对效果最高的组合。然后，将所选择的保健指导对象候选者设为已选择。接着，从对于未被选择的保健指导对象候选者的保健指导服务与保健指导对象候选者的组合中选择医疗费削减费用对效果最高的组合。然后，将所选择的保健指导对象候选者设为已选择。通过这样，能够按效果从高到低的顺序选择保健指导服务与保健指导对象候选者的组合。最后，在保健指导的预算的范围内选择效果高的组合，设定保健指导对象者和保健指导内容。

在效果预测步骤3405中，对通过保健指导内容制定步骤3404选择的组合的医疗费削减费用对效果进行合计，输出从医疗费削减效果减去保健指导成本所得的值作为效果。

接着，说明面向担当者和对象者的支援功能的处理。

图34B是面向担当者/对象者的支援功能的处理的流程图。

首先，在对象疾病设定步骤3401中，设定作为处理的对象的疾病。例如在将作为三大生活习惯病的糖尿病、血脂异常症以及高血压症设为对象的情况下，使用诊疗费用账单整形信息的项目中的符合糖尿病、血脂异常症以及高血压症的医疗行为的项目、健康诊断的项目、以及问诊的项目，由模型重构部113重构模型。在将所有疾病设为对象的情况下，使用病态因果/转移模型制作部108制作并因果转移模型存储部119存储的模型。

说明对象疾病设定步骤3401的处理的其它例。对象者或担当者选择希望处理的疾病。即，选择与某医疗行为对应的项目。接着，通过与步骤2002～2003同样的方法计算该项目与其它所有项目的依赖度。然后，提取与该选择的项目之间的依赖度为一定程度以上的项目，基于该选择项目以及所提取的项目的列表，使用模型重构部113重构的模型。

在发病概率计算步骤3406中，将所有节点的状态设为未设定的状态下病态转移概率/医疗费预测部114预测下一年的各疾病的病态转移概率以及医疗费。关于各疾病，能够作为下一年的有关与该疾病相当的医疗行为的节点的处方次数为1以上的概率来求出。这可认为是疾病的平均发病概率。接着，基于对象者的今年的诊疗费用账单、健康诊断以及问诊的值，设定与今年的项目对应的节点的状态，病态转移概率/医疗费预测部114预测下一年的各疾病的病态转移概率和医疗费。此时的各疾病的发病概率是该对象者的疾病的发病概率。因此，对于各疾病，通过将对象者的疾病的发病概率除以疾病的平均发病概率，计算对象者的发病风险是平均的几倍。

在高风险疾病提示步骤3407中，提示发病风险比平均高预先确定的阈值以上的疾病及其风险。由此，对象者或保健指导担当者能够获知对象者的疾病风险。

在改善项目提示步骤3408中，提示与通过高风险疾病提示步骤3407计算的高风险疾病对应的医疗行为节点之间具有一定程度以上的依赖度的检查值。通过与图20的(A)的步骤2002～2003同样的方法来计算依赖度。

接着，在目标值用户输入步骤3409中，促使用户输入关于通过改善项目提示步骤3408提示的检查项目的改善目标值(例如体重的目标值)。

最后，在效果预测步骤3410中，目标值更新通过目标值用户输入步骤3409输入的检查项目，通过与步骤3406同样的方法预测目标达到后的疾病的发病概率来提示发病风险的变化。用户通过观察发病风险的变化，能够设定改善目标或使用于自己管理。

此外，在保健指导支援部115中，也可以将分析中使用的模型显示为网络图。另外，也可以将发病风险显示在边沿的附近。由此，用户能够容易地掌握疾病的状态变化的情形、对其产生影响的要因，在保健指导内容的制作以及保健指导所产生的改善目标的设定等时有效。

在第1实施例的结构中，病态因果/转移模型制作部108构建由基于诊疗费用账单信息、体检信息、问诊信息的项目的节点构成的图形模型。然后，模型重构部113重构与目的相应的适当的规模的图形模型。通过该结构，能够使用紧凑的模型进行预测，能够进行高速的预测。另外，不需要处理包含目的外的节点的大规模的模型，因此用户容易理解模型的构造，可读性提高，分析变得容易。

另一方面，还考虑按目的根据医疗数据制作模型的研究。但是，在该方法中，如果不始终保持医疗数据，则无法应对各种目的。因此，在个人信息的隐匿的观点上存在问题。另外，在不保持医疗数据的情况下，预先设想用途，制作各目的的模型，因此只能应对特定疾病等特定目的。另外，根据医疗数据进行的模型的制作与重构相比计算量大，因此在计算量的观点上也不利。在第1实施例的结构中，能够如图3、图4以及图5所示那样分割装置，只要使用图3、图4的装置制作一次模型，用户就能够仅使用图5的装置来重构模型并进行预测。

因果/转移构造计算部109限制了表示医疗费、医疗行为、检查值以及生活习惯的节点间的边沿的方向。这表示，生活习惯对检查值产生影响，检查值对医疗行为产生影响，医疗行为对医疗费产生影响，过去的它们的状态对将来的它们的状态产生影响。通过追加这种对节点间的限制，能够削减构造学习的计算量，能够得到直观上也容易理解的模型。

节点生成部110基于制作附条件概率表时的事例数的确保和子节点的概率分布对母节点的依赖性的维持这两个观点汇集节点，定义现象空间。由此，能够制作统计上的可靠性高的附条件概率表，能够提高预测精度。另外，能够使节点(概率变量)的现象空间小，因此在计算量的观点上也有利。

保健指导支援部115使用所重构的模型预测将来的疾病的状态、医疗费。在第1实施例的模型中，考虑各种要因，因此能够进行精度高的预测。另外，只要有诊疗费用账单信息，就能够应对任何疾病对象。并且，通过将保险加入者的当前的检查值置换为保健指导所产生的改善设想值来进行预测，能够预测保健指导所产生的介入效果。

并且，通过将这些分析中使用的模型显示为网络图，用户能够掌握疾病的状态变化所引起的影响，对于保健指导内容的制作以及保健指导所达到的改善目标的设定等有效。该模型是重构模型，因此是由用户关注的节点构成的图，因此用户感兴趣的可读性高。

如以上所说明的那样，根据第1实施例，基于诊疗费用账单信息、体检信息、问诊信息等医疗数据高精度地预测将来的疾病的发病概率和医疗费。另外，基于数据能够自动选择对于预测有效的因子，能够进行考虑到了大量的要因的预测。并且，能够针对诊疗费用账单信息所包含的疾病进行分析，因此能够针对各种疾病选择费用对效果高的保健指导对象者和保健指导内容。

另外，通过由模型制作功能(因果/转移构造计算部109)和模型重构功能(模型重构部113)构成，个人信息的隐匿性高，能够以各种疾病为对象来高速地进行预测。

即，通过由模型制作功能和模型重构功能构成，模型制作功能制作以所有疾病(所有诊疗费用账单项目、体检项目)为对象的精细且大规模的模型，模型重构功能重构与目的相应的紧凑的模型。例如，如果仅利用模型制作功能，则模型的规模变大，预测的计算量增大，因此模型难以使用。另外，在想要仅分析特定疾病的情况下，还包含无关的疾病的模型难以使用。另外，作为其它研究，也可以按目的(例如糖尿病、血脂异常症、高血压症等)制作模型，但是存在如下问题：模型构建中需要大的计算量，需要保持原始数据(诊疗费用账单信息、体检信息)。

在第1实施例中，通过模型制作功能制作以所有疾病为对象的大规模且精细的模型，根据所制作的模型重构与目的相应的模型。涉及模型重构的计算量不大，因此能够容易地重构模型。另外，所重构的模型紧凑，因此预测的计算成本小。另外，只要保持通过模型制作功能制作的模型即可，不需要原始数据，因此在预测时不需要保持机密信息(个人信息)。由此，能够有效且高效地利用大规模的数据。

另外，将诊疗费用账单和健康诊断等项目作为节点，将节点的状态作为项目的值，将节点间的概率依赖性作为边沿来通过图形模型制作节点。因此，子节点的状态依赖于母节点的状态，能够通过母节点的附条件概率提供子节点的状态。

另外，根据转移和因果对图形模型的边沿附加特征。例如，当前的生活习惯与当前的检查值之间具有因果关系，当前的检查值与当前的诊疗行为之间具有因果关系，当前的诊疗行为与将来的诊疗行为之间具有转移关系，将来的诊疗行为与将来的医疗费之间具有转移关系。另外，当前的生活习惯与当前的检查值之间具有因果关系，当前的检查值与将来的检查值之间具有转移关系，将来的检查值与将来的诊疗行为之间具有因果关系，将来的诊疗行为与将来的医疗费之间具有转移关系。另外，当前的医疗费→将来的医疗费之间具有转移关系。

并且，为了通过前述的模型制作功能制作大规模的模型，存在由于模型的规模的增大而用于定义各节点的母附条件概率的事例数不足的问题。在母节点大的情况下，由于通过母节点的状态的组合提供子节点的状态的概率分布，因此需要对于母节点的状态的所有组合足够的事例数。因此，母节点的状态的分辨率和母节点的数小为宜。但是，如果母节点的状态的分辨率和母节点的数小，则模型的精度下降。因此，节点生成部110以对子节点的概率分布的影响小且充分收集事例数的方式进行母节点的汇集和离散化。从叶子节点按顺序朝向根节点进行该处理。

另外，模型制作功能按必须区分的项目、即按加入者的年龄且性别制作模型，由此能够构建便利性高的模型。

另外，通过由保健指导支援部选择糖尿病、高血压症以及血脂异常症的全部或一部分的概率变量的列表，能够针对成为使医疗费高涨的原因的主要成人病进行分析。

<实施例2>

在第2实施例中，基于由项目和数据入口构成的表形式信息构建图形模型。并且，说明基于所构建的模型预测新得到的数据的未知的值的分析系统的例子。

图2是表示第2实施例的分析系统的结构的框图。

第2实施例的分析系统具有数据分析装置201和数据库214。

数据分析装置201具有输入部202、输出部203、运算装置204、存储器205以及存储介质206。这些元素的结构和功能分别与第1实施例1的力部102、输出部103、运算装置104、存储器105以及存储介质106相同。

首先，说明第2实施例中处理的数据。第2实施例中处理的数据是图37(A)所示的表形式数据3701，X1、X2、…是项目名，一个数据入口表示为1行。各列保存有对于一个项目的数据入口的值。该表形式数据3701被存储到表形式信息存储部215。

在第2实施例中，构建以项目X1、X2、…为节点(概率变量)的图形模型。下面，利用表示项目名的Xi表示节点。此外，各行与第1实施例的健康保险加入者对应，项目与诊疗费用账单信息、体检信息、问诊信息的项目对应。

图形模型制作部207构建以项目X1、X2、…为节点的图形模型。

图形模型构造计算部208定义项目间的边沿。在存在事前知识的情况下，也可以进行与节点的有无、其种类有关的限制。当将构造假定为贝叶斯网络时，存在学习边沿构造的高效的算法。此时，也可以通过与因果/转移构造计算部109同样的方法计算项目间的依赖度，在依赖度为阈值以下的情况下，限制为没有边沿来学习构造。所制作的边沿构造被存储到图形模型存储部216。

节点生成部209进行与第1实施例的节点生成部110同样的处理。所制作的节点信息被保存到节点信息存储部217。

概率表计算部210进行与第1实施例的概率表计算部111同样的处理。所制作的概率表被存储到图形模型存储部216。

预测部211预测被提供的新的数据入口所包含的未知的值。例如在得到了图37(B)所示的数据3702的情况下，数据3702中项目X4、X5的值是未知的。因此，基于数据3702的已知的值以及图形模型制作部207所构建的模型预测项目X4、X5的值。已知的值与第1实施例的今年的诊疗费用账单信息、体检信息以及问诊信息的值对应，未知的值与第1实施例的来年的诊疗费用账单信息、体检信息以及问诊信息的值对应。

简易图形模型重构部212重构由所指定的节点的列表构成的模型。简易图形模型重构部212进行与第1实施例的模型重构部113同样的处理。所重构的模型被存储到重构模型存储部218。

为了由简易图形模型重构部212重构模型，概率推断部213根据目的指定所需的节点的列表。并且，概率推断部213使用简易图形模型重构部212所重构的模型，预测从输入部202输入的数据的未知的值。预测结果被存储到预测结果存储部219。

第2实施例的分析系统既可以是由一个计算机构成的计算机系统，也可以是由服务器和客户终端构成的计算机系统。另外，数据分析装置201的图形模型制作部207、预测部211也可以由不同的装置构成。

分析系统是在一个计算机上或在逻辑上或物理上构成的多个计算机上构成的计算机系统，既可以在同一计算机上在不同的线程中动作，也可以在构建于多个物理计算机资源上的虚拟计算机上动作。

由运算装置204执行的程序经由可移动介质(CD-ROM、快闪存储器等)或网络被提供至各服务器，被保存到作为非临时性存储介质的非易失性存储装置。因此，计算机系统可以具备读取可移动介质的接口。

如以上所说明的那样，根据第2实施例，能够基于医疗数据以外的各种数据高精度地预测将来产生的现象。

此外，本发明不限定于前述的实施例，包括所附的权利要求书的宗旨内的各种变形例以及同等的结构。例如，前述的实施例是为了容易理解本发明而详细说明的，本发明不限定于具备所说明的所有结构。另外，也可以将某实施例的结构的一部分置换为其它实施例的结构。另外，也可以对某实施例的结构追加其它实施例的结构。另外，关于各实施例的结构的一部分，也可以进行其它结构的追加/删除/置换。

另外，关于前述的各结构、功能、处理部、处理单元等，例如可以通过集成电路对它们的一部分或全部进行设计等来以硬件实现，也可以通过由处理器解释并执行实现各个功能的程序来以软件实现。

实现各功能的程序、表、文件等信息能够保存到存储器、硬盘、SSD(Solid StateDrive：固态硬盘)等存储装置或IC卡、SD卡、DVD等记录介质。

另外，控制线、信息线表示认为在说明上所需要的，不限于表示实际安装上需要的全部控制线、信息线。实际上，可认为几乎所有的结构相互连接。

Claims

1.一种分析系统，具有执行程序的处理器以及保存所述程序的存储器，通过执行所述程序来对医疗数据进行分析，该分析系统的特征在于，

所述分析系统能够访问包含医疗信息、费用信息及体检信息的数据库，所述医疗信息包含加入者的伤病名和对所述加入者进行的医疗行为，所述费用信息为所述医疗行为的费用信息，所述体检信息包含所述加入者的健康诊断的检查值，

所述分析系统具备：

因果/转移构造计算部，所述处理器基于所述医疗信息和所述体检信息制作图形构造，将所述制作的图形构造保存到所述数据库，其中，该图形构造包含与病态及关于所述病态的发病概率变量对应的病态节点、与表示对所述病态的变化产生影响的因子的因子概率变量对应的因子节点、以及在所述病态节点与所述因子节点之间由有向边或无向边定义的概率依赖性；

节点生成部，所述处理器基于所述医疗信息和所述体检信息，制作所述发病概率变量和所述因子概率变量的现象空间，将所述制作的现象空间保存到所述数据库；

概率计算部，所述处理器基于所述医疗信息、所述体检信息以及所述现象空间，计算所述图形构造的附条件概率，将所述计算的附条件概率保存到所述数据库；

模型重构部，所述处理器基于由所述图形构造、所述现象空间以及所述附条件概率构成的模型，利用由所指定的概率变量构成的图形构造、现象空间以及附条件概率重构模型，将所述重构的模型保存到所述数据库；

病态转移/医疗费预测部，所述处理器基于所述医疗行为的费用信息和所述重构的模型，预测病态转移概率和医疗费；以及

健康指导支援部，所述处理器基于所述预测的病态转移概率和医疗费，选定健康指导的对象者和健康指导内容，

所述因果/转移构造计算部制作如下图形构造，其包含从与第1期间的检查值对应的节点向与比所述第1期间在规定期间之后的第2期间的医疗行为对应的节点的方向定义的有向边、以及从与所述第1期间的医疗行为对应的节点向与所述第2期间的医疗行为对应的节点的方向定义的有向边。

2.一种分析系统，具有执行程序的处理器以及保存所述程序的存储器，通过执行所述程序来对医疗数据进行分析，该分析系统的特征在于，

所述分析系统具备：

所述因果/转移构造计算部制作如下图形构造，其包含从与第1期间的检查值对应的节点向与比所述第1期间在规定期间之后的第2期间的检查值对应的节点的方向定义的有向边、从与第1期间的生活习惯对应的节点向与所述第2期间的检查值对应的节点的方向定义的有向边、从与所述第2期间的检查值对应的节点向与所述第2期间的医疗行为对应的节点的方向定义的有向边、以及从与所述第1期间的医疗行为对应的节点向与所述第2期间的医疗行为对应的节点的方向定义的有向边。

3.一种分析系统，具有执行程序的处理器以及保存所述程序的存储器，通过执行所述程序来对医疗数据进行分析，该分析系统的特征在于，

所述分析系统具备：

所述因果/转移构造计算部制作如下图形构造，其包含从与第1期间的医疗费对应的节点向与比所述第1期间在规定期间之后的第2期间的医疗费对应的节点的方向定义的有向边、以及从与所述第2期间的医疗行为对应的节点向与所述第2期间的医疗费对应的节点的方向定义的有向边。

4.根据权利要求1～3任一项所述的分析系统，其特征在于，

具备数据整形部，在该数据整形部中，所述处理器从所述医疗信息和所述体检信息获取进行了医疗行为的次数、医疗行为的费用以及所述体检信息，制作将所述获取的信息按每个所述加入者且每个规定期间汇总而得到的整形信息，将所述制作的整形信息保存到所述数据库。

5.根据权利要求4所述的分析系统，其特征在于，

所述因果/转移构造计算部将所述整形信息中的进行了医疗行为的次数和所述体检信息的内容作为概率变量来制作图形构造。

6.根据权利要求4所述的分析系统，其特征在于，

所述因果/转移构造计算部制作以所述整形信息的事例中、在所述发病概率变量及因子概率变量中不缺失值的事例的值为元素的两个矢量v1和v2，

制作将所述两个矢量v1和v2的元素分别独立地重新排列而得到的矢量w1和w2，

求出基于从所述矢量v1的相关系数减去所述矢量w1的相关系数而得到的值与从所述矢量v2的相关系数减去所述矢量w2的相关系数而得到的值之间的定量关联性的类似度，

求出由所述w1和w2的各元素的组构成的集合的熵与由v1和v2的各元素的组构成的集合的熵之比作为基于同现性的类似度，

计算通过以使同一矢量下的所述求出的两个类似度的值接近的方式制作变换函数来校正了值的两个类似度中的大的值作为两个概率变量间的概率依赖度。

7.根据权利要求6所述的分析系统，其特征在于，

所述因果/转移构造计算部在所述节点间的概率依赖度为规定的基准以下的节点间既不定义无向边，也不定义有向边。

8.根据权利要求6所述的分析系统，其特征在于，

所述节点生成部将所述节点间的概率依赖度为规定的基准以上的节点彼此汇集，定义为新的一个节点，

利用所述新定义的节点的图形构造来重构模型。

9.根据权利要求4所述的分析系统，其特征在于，

所述节点生成部针对具有子节点的母节点，将与所述母节点的值和所述子节点的值的各个组一致的事例数少的现象进行合并，以使所述事例数在所述整形信息中达到规定的基准阈值以上，由此确定所述节点的现象空间。

10.根据权利要求1～3中任一项所述的分析系统，其特征在于，

所述节点生成部通过将具有子节点的母节点的现象中、所述子节点的附条件概率分布的变化为规定的基准以下的现象进行合并，来确定所述节点的现象空间。

11.根据权利要求1～3中任一项所述的分析系统，其特征在于，

所述健康指导支援部从所述加入者的预测医疗费减去将所述加入者的检查值置换为保健指导服务所产生的改善后检查值而得到的第2预测医疗费和所述保健指导服务的费用，来计算预测效果，

将所述计算的预测效果高的加入者与健康指导服务的组选定为健康指导的对象者和健康指导内容。

12.根据权利要求1～3中任一项所述的分析系统，其特征在于，

所述健康指导支援部根据所述加入者的病态的转移概率与病态的平均转移概率之比，计算第1发病风险，

通过由用户输入检查值改善目标值，使用将所述加入者的检查值置换为所述改善目标值而得到的病态的转移概率，计算第2发病风险，

通过比较所述第1发病风险与所述第2发病风险，生成用于显示改善所产生的风险降低效果的数据。