CN104166881A

CN104166881A - 数据分析装置以及保健事业支援方法

Info

Publication number: CN104166881A
Application number: CN201410208266.5A
Authority: CN
Inventors: 三好利升; 长谷川泰隆; 伴秀行; 永崎健; 新庄广
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2013-05-17
Filing date: 2014-05-16
Publication date: 2014-11-26
Also published as: EP2804121A3; JP2014225175A; US20140343966A1; JP6066825B2; EP2804121A2

Abstract

一种数据分析装置以及保健事业支援方法，将实例配置在适当的维度的空间。一种分析系统，具有处理器和存储器，对数据进行分析，所述分析系统能够访问保存包含实例间的类似度的数据间类似度信息的存储装置，所述分析系统具备：数据映射部，所述处理器基于所述数据间类似度信息设定作用于所述实例间的引力和斥力，将所述实例在某维度的矢量空间配置成，所述引力和斥力的能量小于预先确定的阈值；以及聚类分析部，对配置在所述矢量空间的实例进行分类，其中，所述数据映射部在所述矢量空间中虚拟地追加一个维度，使所述实例的坐标向所述追加的维度方向微小变动，计算对于所述微小变动而言为稳定的矢量空间的最小的维度数。

Description

数据分析装置以及保健事业支援方法

技术领域

本发明涉及一种数据分析技术，特别是涉及一种对医疗数据进行分析来支援保健事业的系统。

背景技术

健康保险组合为了降低医疗费而进行着实施用于生活习惯病的预防和重症化的预防的保健指导的保健事业。但是，为保健指导所能够确保的保健师以及用于保健指导的费用等资源有限。因此，期望支援有效且高效的保健事业的运营的系统。

作为支援保健事业的运营的方法，专利文献1中记载了如下保健事业支援系统：该保健事业支援系统基于诊疗费用账单信息、体检信息以及保健指导信息，选择保健指导对象者，该保健事业支援系统具备：医疗费模型制作部，制作表示针对每个健康保险加入者的重症度和检查值的预测医疗费的医疗费模型；检查值改善模型制作部，制作表示针对每个重症度和检查值的改善量的检查值改善模型；预测医疗费削减效果计算部，针对每个重症度和检查值计算保健指导所带来的预测医疗费削减量；以及对象者选择部，选择属于预测医疗费削减量高的重症度和检查值的健康保险加入者作为保健指导对象者。

专利文献1：日本特开2012-128670号公报

非专利文献1：Y.F.Hu,“Efficient,High Quality Force-Directed GraphDrawing”,The Mathematica Journal,vol.10,no.1,pp.37-71,2006

为了在健康保险组合的资源中进行有效且高效的保健事业，需要选择优先实施保健指导的对象者。另外，保健指导的内容也需要选择适于各个对象者的内容。

在专利文献1中，在预测医疗费时，基于当前的重症度和检查值预测将来的医疗费。例如基于当前的糖尿病的重症度和血糖值预测将来的糖尿病的重症度，将该重症度的平均的医疗费作为预测医疗费。

但是，关于对于将来的医疗费和重症度的预测有效的因素(在糖尿病中为血糖值)，需要作为现有知识通过人工进行设定。另外，重症度的定义也需要通过人工进行设定。

关于对于将来的医疗费的预测有效的因素，除了血糖值以外，还考虑年龄、性别、其它检查值、药品的处方状况以及生活习惯等各种因素，通过考虑它们，能够进行精度更高的预测。但是，难以通过人工列出这些因素。另外，需要针对每个疾病根据现有知识设定这些因素。因此，难以针对所有疾病进行分析。

发明内容

示出在本申请中公开的发明的代表性一例则如下。即，一种分析系统，具有执行程序的处理器以及保存所述程序的存储器，通过执行所述程序来对数据进行分析，所述分析系统能够访问保存包含实例间的类似度的数据间类似度信息的存储装置，所述分析系统具备：数据映射部，所述处理器基于所述数据间类似度信息，设定作用于所述实例间的引力和斥力，将所述实例在某维度的矢量空间配置成，所述引力和斥力的能量小于预先确定的阈值；以及聚类分析部，对配置在所述矢量空间的实例进行分类，所述数据映射部在所述矢量空间中虚拟地追加一个维度，使所述实例的坐标向所述追加的维度方向微小变动，计算对于所述微小变动而言为稳定的矢量空间的最小的维度数。

发明效果

根据本发明的代表性实施方式，能够基于实例间的类似度将实例配置在适当的维度的矢量空间中。因此，能够通过以往的聚类分析方法对实例适当地进行分类。前述以外的问题、结构以及效果会通过以下的实施例的说明而变得清楚。

附图说明

图1是表示第2实施例的医疗数据分析系统的结构的框图。

图2是表示第1实施例的数据聚类分析装置的结构的框图。

图3是说明第1实施例的数据间类似度信息的图。

图4是说明本发明的关联技术的图。

图5是第1实施例的数据映射部的处理的流程图。

图6是说明第2实施例的诊疗费用账单基本信息的图。

图7是说明第2实施例的体检信息的图。

图8是说明第2实施例的问诊信息的图。

图9是说明第2实施例的伤病名信息的图。

图10是说明第2实施例的伤病名分类信息的图。

图11是说明第2实施例的诊疗行为信息的图。

图12是说明第2实施例的诊疗行为分类信息的图。

图13是说明第2实施例的药品信息的图。

图14是说明第2实施例的药品分类信息的图。

图15是说明第2实施例的整形信息的一例的图。

图16A是说明第2实施例的整形信息的另一例的图。

图16B是第2实施例的项目合并处理的流程图。

图17A是第2实施例的面向健康保险事业者的支援功能的处理的流程图。

图17B是第2实施例的面向担当者/对象者的支援功能的处理的流程图。

图18A是第2实施例的群组特征附加处理的流程图。

图18B是说明第2实施例的所选定的项目和值的显示例的图。

图19是第2实施例的重构处理的流程图。

附图标记说明

101：医疗数据分析装置

102、202：输入部

103、203：输出部

104、204：运算装置

105、205：存储器

106、206：存储介质

107：数据整形部

108：状态转移模型制作部

109：加入者配置坐标生成部

110：聚类分析部

111：状态转移概率计算部

112：状态转移预测部

113：状态特征附加/重构部

114：状态转移/医疗费预测部

115：保健指导支援部

116：数据库

117：医疗信息存储部

118：整形信息存储部

119：配置坐标存储部

120：聚类分析信息存储部

121：状态转移概率存储部

122：预测结果存储部

201：数据聚类分析装置

207：数据映射部

208：聚类分析部

209：数据间类似度信息

具体实施方式

<实施例1>

在第1实施例中，说明在被提供了描述数据对彼此的类似度的数据间类似度信息的情况下基于类似度对数据进行聚类分析的数据分析装置的例子。

图2是表示第1实施例的数据分析装置的结构的框图。

数据分析装置201具有输入部202、输出部203、运算装置204、存储器205以及存储介质206。

输入部202是鼠标、键盘等人机接口，受理对数据分析装置201的输入。输出部203是输出由医疗数据分析系统得到的运算结果的显示器、打印机。存储介质206是保存用于实现由数据分析装置201进行的数据分析处理的各种程序以及医疗数据分析处理的执行结果等的存储装置，例如是非易失性存储介质(磁盘驱动器、非易失性存储器等)。运算装置204是执行被加载到存储器205的程序的运算装置，例如是CPU、GPU等。

第1实施例的数据分析装置201既可以是由一个计算机构成的计算机系统，也可以是由服务器和客户终端构成的计算机系统。另外，数据分析装置201的各部也可以由不同的装置构成。数据分析装置201是在一个计算机上或在逻辑上或物理上构成的多个计算机上构成的计算机系统，既可以在同一计算机上在不同的线程中动作，也可以在构建于多个物理计算机资源上的虚拟计算机上动作。

由运算装置204执行的程序经由可移动介质(CD-ROM、快闪存储器等)或网络被提供至各服务器，被保存到作为非临时性存储介质的非易失性存储装置。因此，计算机系统可以具有读取可移动介质的接口。

接着，说明由第1实施例中的数据分析装置201实施的处理。

首先，说明第1实施例所处理的数据间类似度信息。

图3是说明数据间类似度信息的图。

数据间类似度信息301记载有两个不同的实例(instance)间的类似度。例如，表示实例D1与实例D3的类似度是0.92。实例例如是“人”。在该情况下，数据间类似度信息301规定通过某些方法(例如邮件的发送接收频度)定义的2个人的类似度。实例的其它例是“文档”。在该情况下，数据间类似度信息301规定通过某些方法(例如，两个文档中出现的所有单词中、两文档中出现的单词的比例)定义的文档间的类似度。数据分析装置201进行对类似的实例进行分类的聚类分析。

接着，使用图4说明本发明的关联技术、即非专利文献1所记载的技术中与本实施例关联的部分。

非专利文献1所记载的技术是用于将网络在二维或三维的空间上可视化的技术。在以下说明中，网络是由节点的集合V和边沿的集合E构成的组，由图形G＝(V，E)表示。将两个第i个节点和第j个节点通过由E定义的边连接表示为。

以下说明的Force-Directed Algorithm基于边沿的有无来定义节点间的引力和斥力。而且，基于所定义的引力和斥力，在二维或三维的空间上修正节点的集合V的配置使得节点间的能量变小，确定节点的稳定的配置。

说明在两个节点间作用的引力和斥力的定义。能够利用式(1)(2)来定义作用于第i个节点和第j个节点的斥力fr(i，j)和引力fa(i，j)。

fr(i，j)＝-CK²/|xi-xj|i≠j、i，j∈V…(1)

fa(i，j)＝|xi-xj|²/K 时 …(2)

fa(i，j)＝0不是时

在式(1)(2)中，xi、xj分别是第i个、第j个节点在二维或三维的空间上的坐标，|xi-xj|是xi与xj之间的欧几里得距离。另外，C、K是正的常数，对于值X和n，Xⁿ表示X的n次方。关于斥力fr，以在所有节点间作用的方式进行定义，关于引力fa，以在由边(边沿)连接的节点间作用的方式进行定义。节点间的斥力也可以设为p>1而利用式(3)来定义。

fr(i，j)＝-CK^(1+p)/|xi-xj|^p i≠j、i，j∈V …(3)

式(3)直观上具有调整斥力有效地作用的范围的含义，p的值越大，则斥力有效地作用的范围越窄。

根据如上述那样定义的力的合计，作用于节点i的力f(i)利用式(4)来表示。

f(i)＝-Σfr(i，j)v(j、i)+Σfa(i，j)v(j，i)…(4)

在式(4)中，和是针对所有i以外的节点j计算的。另外，v(j，i)是从xi朝向xj的单位矢量，能够利用式(5)来定义。

v(j，i)＝(xj-xi)/|xj-xi|…(5)

使用它，系统整体的能量E能够利用式(6)来定义。

E({xi}，K，C)＝Σ|f(i)|²…(6)

在式(6)中，和是针对所有节点i计算的，|f(i)|是矢量f(i)的大小。另外，利用{xi}＝{x1，x2，…}表示节点整体的坐标配置。

算法反复修正节点的坐标{xi}使得能量E变小。由此，确定最终的节点整体的配置。

在式(6)中，常数K、C是理论上与坐标的刻度有关的常数，与本质上的节点间的配置无关。现在，设使使用常数K、C时的能量E最小的最优配置为{xi}。此时，在设使使用常数K’、C’时的能量E最小的最优配置为s＝(K’/K)(C’/C)^1/3时，节点整体的坐标配置{xi}能够利用式(7)来定义。

{xi}＝{sx1，sx2，…}…(7)

在式(7)中，sxi是对xi的各要素乘以s而生成的矢量。这从式(8)的关系成立可知。

E({xi}，K，C)＝(K/K’)²(C/C’)^4/3E({sxi}，K’，C’)…(8)

在此，使用图4说明一边计算前述的引力和斥力、一边逐次修正节点的坐标位置并将节点配置在二维或三维的空间上的算法。

首先，在初始坐标设定步骤401中，设定二维或三维的维度，在所设定的维度数的矢量空间上确定各节点的坐标{xi}的初始配置。节点的坐标{xi}的初始配置例如也可以利用随机数等来设定。另外，也可以预先通过某些方法对节点进行分类，属于同一分类的节点配置于附近。并且，也可以将使用其它的简便的可视化算法确定的配置设为初始配置。

接着，在引力斥力设定步骤402中，如前所述，在有边沿的节点间设定引力，在所有节点间设定斥力。常数C、K、斥力fr的参数p等使用预先确定的值。

接着，在坐标配置步骤409中，逐次修正各节点的坐标配置{xi}使得能量E变小。即，坐标配置步骤409是从图形G按顺序选择节点来修正节点的坐标的周期。是将节点整体循环一回的1周期。

坐标修正环410是按顺序选择数据来修正数据的坐标的周期，将所有节点循环一回而结束1周期的处理。

首先，在样本选择步骤403中，从节点整体选择一个节点i。接着，在力的计算步骤404中，计算作用于所选择的节点i的力的矢量的合计f(i)。f(i)能够利用前述的式(4)来计算。

接着，在坐标修正步骤405中，使用式(9)沿作用于所选择的节点i的力的方向修正坐标xi。

xi←xi+t×f(i)/|f(i)|…(9)

在式(9)中，|f(i)|是f(i)的大小，t是调整修正的幅度的参数。关于t，最初为了大幅修正坐标而设为大的值，但是由于最终成为微调，因此最好随着周期经过而一点一点地减小值。例如，也可以最初设定适当的大小的初始值，在1周期的坐标修正结束的时间点，利用式(10)更新t。

t←0.9×t…(10)

接着，在步骤406中，判定所有节点中是否存在未被选择的节点。在判定的结果为所有节点中存在未被选择的节点的情况下，返回到样本选择步骤403，选择下一个样本。此时，由于坐标xi被修正，从节点i作用于其它节点的力发生了变化，因此在力的计算步骤404中，反映坐标的修正来计算基于新的坐标配置的力矢量。另一方面，在从所有节点中选择了所有节点之后，进入收敛判定步骤407。

在收敛判定步骤407中，判定算法的收敛程度，判定是否结束算法。例如，将前次的坐标修正的1周期结束后的节点i的坐标配置{yi}与本次的坐标修正的1周期结束后的节点i的坐标配置{xi}进行比较，在修正量小于规定的阈值的情况下，判定为坐标已充分收敛，结束算法。修正量例如能够利用Σ|xi-yi|来计算。

之后，在可视化步骤408中，基于二维或三维的各节点的配置将图形G的节点配置在画面上，进行可视化。

到此为止使用图4说明的方法以可视化为目的，因此最初将配置维度数设定为二维、三维等。但是，在存在大量的节点的情况下，在二维、三维等低维度的空间中难以表现节点的位置关系。在图4所示的方法中，还能够将节点配置在维度数更高的空间，对节点的配置进行修正，由此容易地扩展到四维以上的空间。但是，在图4所示的方法中，由于在配置节点之前确定空间的维度数，因此难以选择适于表现数据间的位置关系的维度数。例如在预先确定的维度数小的情况下，无法充分地表现数据的位置关系。另一方面，在预先确定的维度数大的情况下，数据的表现退化，之后进行的聚类分析等的精度降低，计算量增大。

在第1实施例中，提供基于数据间的类似度来选择用于表现数据间的位置关系的适当的维度数的方法。由此，能够基于数据间的类似度将数据配置在具有适当的维度数的矢量空间上。

图5是第1实施例的数据映射部207的处理的流程图。

数据映射部207基于数据间类似度信息209将数据配置在适当的维度数的空间上。

首先，在初始维度数设定步骤501中，设定坐标的维度的初始值。坐标的维度的初始值尽量设为小的值，但是在已知数据的表现中明显需要n维以上(n为正整数)的情况下，设定为n。特别是在没有现有知识的情况下，也可以设定为二维。

接着，在初始坐标设定步骤502中，在通过初始维度数设定步骤501设定的维度数的矢量空间上确定各数据的坐标{xi}的初始配置。数据的坐标{xi}的初始配置例如也可以利用随机数等来设定。另外，也可以预先通过某些方法对数据进行分类，属于同一分类的节点配置于附近。并且，也可以将使用其它简便的可视化算法确定的配置设为初始配置。

在引力斥力设定步骤503中，定义数据间的引力和斥力。当将数据i与数据j之间的类似度设为s(i，j)时，使用规定的阈值h能够利用式(11)来定义数据i与数据j之间的引力fa(i，j)。

fa(i，j)＝s(i，j)|xi-xj|²/K s(i，j)≥h时

fa(i，j)＝0s(i，j)<h时 …(11)

即，在数据i与数据j的类似度为规定的阈值h以上的情况下，引力以与类似度成比例的大小来作用。另外，斥力与图4的情况同样地利用数式(1)来定义。预先确定常数C和K。

接着，在坐标配置步骤513中，逐次修正各数据的坐标配置{xi}使得能量E变小。由此，确定最终的数据整体的配置。能量E能够与图4的同样地定义。即，作用于数据i的力能够与图4的情况同样地利用数式(4)来定义。使用它，系统整体的能量能够与图4的情况同样地利用数式(6)来定义。

算法反复修正节点的坐标{xi}使得能量E变小。由此，确定最终的数据整体的配置。

坐标修正环514是按顺序选择数据来修正数据的坐标的周期，将所有节点循环一回而结束1周期的处理。

在样本选择步骤504中，从数据整体选择一个数据i。在力的计算步骤505中，计算作用于所选择的数据i的力矢量的合计f(i)。f(i)能够利用前述的式(4)来计算。

在坐标修正步骤506中，使用前述的式(9)沿作用于所选择的数据i的力的方向修正坐标xi。

在式(9)中，t是调整修正的幅度的参数。关于t，最初为了大幅修正坐标而设为大的值，但是由于最终成为微调，因此最好随着周期经过而一点一点地减小值。例如，也可以最初设定适当的大小的初始值，在1周期的坐标修正结束的时间点，利用式(10)更新t。

接着，在步骤507中，判定所有节点中是否存在未被选择的数据。在判定的结果为所有数据中存在未被选择的数据的情况下，返回到样本选择步骤504，选择下一个样本。此时，由于坐标xi被修正，从数据i作用于其它数据的力发生了变化，因此在力的计算步骤505中，反映坐标的修正来计算基于新的坐标配置的力矢量。另一方面，在从所有数据中选择了所有数据之后，进入收敛判定步骤508。

在收敛判定步骤508中，判定算法的收敛程度，判定是否结束算法。例如，将前次的坐标修正的1周期结束后的数据i的坐标配置{yi}与本次的坐标修正的1周期结束后的数据i的坐标配置{xi}进行比较，在修正量小于规定的阈值的情况下，判定为坐标已充分收敛，结束算法。修正量例如能够利用Σ|xi-yi|来计算。

在判定为坐标收敛的情况下，进入不稳定性计算步骤509。

在第1实施例中，为了适当地选择维度数，计算通过步骤513生成的数据的配置的稳定性。在维度数不足的情况下，由于在数据的位置关系上发生不合理，因此估计为存在力的变形。通过计算该变形的大小来估计稳定性。如果数据的配置稳定，则判断为维度数足够。另一方面，如果数据的配置不稳定，则在维度数加法运算步骤511中将维度数增加1维度，在增加了维度的空间中再次配置数据的坐标。

在不稳定性计算步骤509中，通过以下方法来计算通过坐标配置步骤513生成的数据配置的不稳定性。在当前设定的维度数为N的情况下，数据被配置在N维空间。根据在对该维度N虚拟地追加了1维度时当前的配置变得不稳定的程度来计算不稳定性。即，在使数据沿追加维度方向微小变动时，在力沿拉回该变动的方向作用的情况下是稳定的。另一方面，在力沿该变动的方向作用的情况下是不稳定的。

更具体地说，数据i与数据j之间的斥力以前述的式(1)来表示，引力以前述的式(11)来表示。

在使数据i沿追加维度方向微小变动δ的情况下，沿追加维度方向作用于数据i的引力能够以式(12)来表示，斥力能够以式(13)来表示。

fr(i，j)＝-δCK²/(|xi-xj|²+δ²)≒-δCK²/|xi-xj|² …(12)

fa(i，j)＝δs(i，j)(|xi-xj|²+δ²)^1/2/K≒δs(i，j)|xi-xj|/K s(i，j)≥h时

fa(i，j)＝0s(i，j)<h时 …(13)

在此，如果fr、fa的值为正，则力沿拉回向追加维度方向的微小振动的方向作用，因此数据的配置稳定。另一方面，如果fr、fa的值为负，则力沿使向追加维度方向的微小振动变大的方向作用，因此数据的配置不稳定。因而，当将从所有数据作用于数据i的追加维度方向的力进行合计时，能够以式(14)来表示。

u(i，{xi}，K，C)＝-Σfr(i，j)-Σfa(i，j)…(14)

在此，和是针对数据i以外的所有数据j计算的。在此，考虑与坐标的刻度有关的常数K、C以及对于数据数M的刻度，当设为δ＝K时，不稳定性的程度U能够以式(15)来表示。

U＝Σu(i，{xi}，K，C)/(KC^1/3M(M-1))…(15)

在此，和是针对不稳定的数据、即u(i，{xi}，K，C)>0的数据计算的。分母的M(M-1)是用于以起因于样本数的和的数来进行标准化的项，KC^1/3是用于对坐标刻度进行标准化的项。

在不稳定性计算步骤509中，通过以上的处理，计算U作为表示不稳定性的指标。之后，在结束判定步骤510中，判定U是否为规定的阈值以上。在判定的结果U为规定的阈值以上的情况下，判定为数据的配置不稳定，进入维度数加法运算步骤511。另一方面，在U小于规定的阈值的情况下，判定为数据的配置稳定，进入数据配置输出步骤512，输出数据的坐标。此外，也可以在与前次的周期相比U急剧减小的情况下，判定为数据的配置稳定。

在结束判定步骤510中，在判定为数据的配置不稳定的情况下，返回到维度数加法运算步骤511，使维度数增加1。将追加维度中的数据的坐标设定为0。即，在坐标配置步骤513中数据i配置在坐标xi＝(xi1，xi2，…，xiN)的情况下，将数据i在N+1维空间中的初始坐标设定为xi＝(xi1，xi2，…，xiN，0)。另外，在引力斥力设定步骤503中，设定N+1维空间中的引力和斥力。之后，在坐标配置步骤513中，确定N+1维空间中的坐标配置。

通过以上的处理，能够将数据配置在适当的维度数的空间上。将该维度设为N维，将数据i的坐标设为xi＝(xi1，xi2，…，xiN)。

此外，在上述内容中说明了使用Force Directed Algorithm的例子，但是也可以将改进该方法所得的Multilevel Force Directed Algorithm应用于前述的方法。

在聚类分析部208中，对配置在N维空间的数据进行聚类分析。由于将数据表示为N维空间上的点，因此在聚类分析中能够使用K-means法、EM法等。

例如在K-means法中，首先确定群组数K。接着，将各数据随机地分配到某一个群组。接着，针对每个群组求出属于该群组的数据的平均矢量。接着，将各数据分配到与最近的平均矢量对应的群组。如果没有因再分配产生的变化，则结束聚类分析。另一方面，如果有因再分配产生的变化，则返回到针对每个群组求出属于该群组的数据的平均矢量的处理，反复进行处理。通过该处理，能够将数据分类为K个群组。

如以上所说明的那样，根据本发明的第1实施例的数据聚类分析装置，能够基于数据间的类似度将数据配置在适当的维度的矢量空间。例如适于如下情况：在被提供了人物彼此的类似度、文档彼此的类似度的情况下，对相近的人物、类似的文档进行分类。

另外，由于将数据配置在适当的维度的矢量空间，因此能够通过以往的聚类分析方法适当地对实例进行分类。即，以往存在对在N维空间中配置于相近的位置的点进行聚类分析的分类方法，但是根据配置了数据的空间的维度数而有时无法通过以往的聚类分析方法适当地进行分类。因此，在第1实施例中，基于数据间的类似度确定矢量空间的适当的维度数，将数据配置在该维度的空间，因此能够应用以往的聚类分析方法。

另外，通过计算数据的配置的不稳定性来决定适当的维度数，因此能够自动地且不需要与数据有关的现有知识而决定适当的维度数。

<实施例2>

在第2实施例中，说明为了疾病的发病预防和重症化预防而基于医疗数据(例如诊疗费用账单信息、体检信息、问诊信息)建议保健指导对象者的选定、保健指导方法并预测保健指导效果的医疗数据分析系统的例子。

诊疗费用账单信息是记录了当健康保险的加入者接受医疗机关的诊断时的伤病名、所处方的药品、被实施的诊疗行为以及医疗费(分数)的信息，使用图6说明其一例。此外，将所处方的药品以及被实施的诊疗行为统称为医疗行为。

另外，体检信息是健康保险的加入者在体检机关接受的检查的结果的信息，后面使用图7说明其一例。问诊信息是健康保险的加入者在体检机关接受的问诊(例如生活习惯、既往病历、自觉症状等)的结果的信息，后面使用图8说明其一例。

在第2实施例中，基于医疗数据对相似状态的健康保险的加入者进行聚类分析。群组代表疾病的状态(发病的有无、重症度、检查值等)。在第2实施例中，制作基于群组间的状态转移的模型，基于所制作的模型并根据群组内的加入者的统计对加入者整体的倾向进行分析，预测将来的状态，预测医疗费。

图1是表示第2实施例的医疗数据分析系统的结构的框图。

医疗数据分析系统具有医疗数据分析装置101和数据库116。

本实施例的医疗数据分析装置101具有输入部102、输出部103、运算装置104、存储器105以及存储介质106。

输入部102是鼠标、键盘等人机接口，受理对医疗数据分析装置101的输入。输出部103是输出由医疗数据分析系统得到的运算结果的显示器、打印机。存储介质106是保存用于实现由医疗数据分析系统进行的医疗数据分析处理的各种程序以及医疗数据分析处理的执行结果等的存储装置，例如是非易失性存储介质(磁盘驱动器、非易失性存储器等)。存储器105中展开存储介质106中保存的程序。运算装置104是执行被加载到存储器105的程序的运算装置，例如是CPU、GPU等。以下说明的处理和运算是由运算装置104执行的。

本实施例的医疗数据分析系统既可以是由一个计算机构成的计算机系统，也可以是由服务器和客户终端构成的计算机系统。

医疗数据分析系统是在一个计算机上或在逻辑上或物理上构成的多个计算机上构成的计算机系统，既可以在同一计算机上在不同的线程中动作，也可以在构建于多个物理计算机资源上的虚拟计算机上动作。

由处理器执行的程序经由可移动介质(CD-ROM、快闪存储器等)或网络被提供至各服务器，被保存到作为非临时性存储介质的非易失性存储装置。因此，计算机系统可以具有读取可移动介质的接口。

首先，说明第2实施例所处理的医疗数据。

医疗信息存储部117保存被输入部102输入的医疗数据。医疗数据包含诊疗费用账单信息、体检信息以及问诊信息。诊疗费用账单信息包含诊疗费用账单基本信息、伤病名信息、诊疗行为信息、药品信息、伤病名分类信息、诊疗行为分类信息以及药品分类信息。

接着，说明诊疗费用账单信息。

图6是说明诊疗费用账单基本信息601的图。

诊疗费用账单基本信息601是保持诊疗费用账单与加入者的对应关系的信息。诊疗费用账单基本信息601包含搜索号602、健康保险加入者ID603、性别604、年龄605、诊疗年月606以及合计分数607。

搜索号602是用于唯一地识别诊疗费用账单的标识符。健康保险加入者ID603是用于唯一地识别健康保险的加入者的标识符。性别604是表示健康保险加入者的性别的信息。年龄605是表示健康保险加入者的年龄的信息。

诊疗年月606是健康保险加入者接受了医疗机关的诊断的年和月。合计分数607是表示一件诊疗费用账单的合计分数的信息。此外，若对合计分数相乘“10”则计算出医疗费(日元)。此外，在图9所示的伤病名信息901中的多个伤病名被登记在一个搜索号的情况下，在合计分数607中登记对于多个伤病的医疗行为的合计分数。

图9是说明伤病名信息901的图。

伤病名信息901包含搜索号602、伤病名码902、伤病名903。

搜索号602是用于唯一地识别诊疗费用账单的标识符，使用与诊疗费用账单基本信息601的搜索号(图6)相同的号。伤病名码902是记载在诊疗费用账单中的伤病名码。伤病名903是与该伤病名码对应的伤病名。

此外，一件诊疗费用账单中能够记载多个伤病名。例如在图9所示的伤病名信息901中，搜索号602为“11”的记录的伤病名903是“糖尿病”和“高血压”，搜索号为“11”的诊疗费用账单中记载有糖尿病和高血压的伤病名。

图10是说明伤病名分类信息的图。

伤病名分类信息1001是使伤病分类与属于该伤病分类的伤病名相对应的信息。另外，并发症有无1003是表示伤病名是否为并发症的伤病名的信息。

图11是说明诊疗行为信息的图。

诊疗行为信息1101包含搜索号602、诊疗行为码1102、诊疗行为名1103以及诊疗行为分数1104。

搜索号602是用于唯一地识别诊疗费用账单的标识符，使用与诊疗费用账单基本信息601的搜索号(图6)相同的号。诊疗行为码1102是用于唯一地识别诊疗费用账单中记载的诊疗行为的标识符。诊疗行为名1103是诊疗费用账单中记载的诊疗行为的名称。诊疗行为分数1104是诊疗行为所涉及的分数。

在图11中，例如在搜索号602为“11”的诊疗费用账单中记载有“诊疗行为A”和“诊疗行为C”的诊疗行为名1103。

图12是说明诊疗行为分类信息的图。

诊疗行为分类信息1201包含伤病分类1002、诊疗行为码1102以及诊疗行为名1103。

伤病分类1002使用与伤病名分类信息1001的伤病分类1002(图10)相同的分类。诊疗行为码1102是识别根据伤病分类1002的伤病进行的诊疗行为的诊疗行为码，使用与诊疗行为信息1101的诊疗行为码1102(图11)相同的码。诊疗行为名1103是与该诊疗行为码对应的诊疗行为的名称，使用与诊疗行为信息1101的诊疗行为名1103(图11)相同的码。

图13是说明药品信息的图。

药品信息1301包含搜索号602、药品码1302、药品名1303以及药品分数1304。

搜索号602是用于唯一地识别诊疗费用账单的标识符，使用与诊疗费用账单基本信息601的搜索号602(图6)相同的号。药品码1302是用于唯一地识别诊疗费用账单中记载的药品的药品码。药品名1303是诊疗费用账单中记载的药品的名称。药品分数1304是药品的保险分数。

在图13中，例如搜索号602为“11”的诊疗费用账单记载有糖尿病口服药A和高血压口服药A的药品名。

图14是说明药品分类信息的图。

药品分类信息1401包含伤病分类1002、药品码1302以及药品名1303。

伤病分类1002使用与伤病名分类信息1001的伤病分类1002(图10)相同的分类。药品码1302是识别根据伤病分类1002中登记的分类所处方的药品的药品码，使用与药品信息1301的药品码1302(图13)相同的码。药品名1303是与该药品码对应的药品的名称，使用与药品信息1301的药品名1303(图13)相同的名称。

此外，将图11所示的诊疗行为信息1101和图13所示的药品信息统称为医疗行为信息。另外，将图12所示的诊疗行为分类信息1201和图14所示的药品分类信息统称为医疗行为分类信息。

接着，说明体检信息。

图7是说明体检信息的图。

体检信息701是用于管理多个加入者的多年的体检信息的信息，包含健康保险加入者ID603、体检受诊日702以及健康诊断中的各种检查值(例如、BMI703、腰围704、空腹时血糖705、收缩期血压706、中性脂肪707)。

健康保险加入者ID603是接受了健康诊断的健康保险的加入者的标识符，使用与诊疗费用账单基本信息601的健康保险加入者ID603(图6)相同的标识符。体检受诊日702是接受了健康诊断的年月日。BMI703至中性脂肪707是健康诊断的检查的结果。

存在未接受特定的检查的情况等体检信息的数据欠缺的情况。例如在图7中，健康保险加入者ID“K0004”在2004年受诊的检查项目中的收缩期血压706的数据欠缺。

接着，说明问诊信息。

图8是说明问诊信息的图。

问诊信息801是用于管理多个加入者的多年的问诊信息的信息，包含健康保险加入者ID603、问诊受诊日802以及问诊的回答(例如烟803、饮酒804、步行805)。此外，问诊也可以包含生活习惯、既往病历、过敏等体质、自觉症状等。

健康保险加入者ID603是接受了问诊的健康保险的加入者的标识符，使用与诊疗费用账单基本信息601的健康保险加入者ID603(图6)相同的标识符。问诊受诊日802是接受了问诊的年月日。烟803至步行805是问诊的结果。烟803在有吸烟习惯的情况下是一日的平均吸烟根数，在不吸烟的情况下是“无”。饮酒804在有饮酒习惯的情况下是一日的平均饮酒量(单位＝ml)，在没有饮酒习惯的情况下是“无”。步行805是一日的平均步行时间(单位＝分钟)。

此外，在问诊信息中，也有时无法得到步数、饮酒量、吸烟根数等详细的信息。有时不是具体的饮酒量，而是对预先在问诊表中区分的频度中所符合的频度进行回答。例如是在只得到有无吸烟、饮酒的信息的情况下将饮酒的频度分为几个程度(例如、(1)不饮酒、(2)一周1～2次、(3)一周3次以上)来进行回答的情况等。在该情况下，问诊信息的值是没有定量的含义的号。

在不存在对于特定的项目的回答的情况下，有时问诊信息的数据欠缺。例如在图8中，健康保险加入者ID“K0003”在2004年受诊的问诊项目中对于步行805的数据欠缺。

接着，说明数据整形部107的处理。数据整形部107根据医疗信息存储部117中存储的医疗数据对每个加入者的每个期间的诊疗费用账单信息、体检信息以及问诊信息进行总计/合并，整形为表形式。下面，将一个期间设为1年来进行说明，但是也可以是半年、2年、3年等其它期间。

图15是说明整形信息1501的一例的图。使用图15说明数据整形部107的处理。

整形信息1501包含对2004年的诊疗费用账单信息进行整形所得的诊疗费用账单整形信息。整形信息1501的各行是对与一个健康保险加入者ID对应的一年的数据进行总计所得的。

健康保险加入者ID603、性别604、年龄605以及合计分数607分别与诊疗费用账单基本信息601的健康保险加入者ID603、性别604、年龄605以及合计分数607(图6)相同。数据年1502是成为制作该整形信息的基础的数据的年。

伤病名码10(1503)是该健康保险加入者ID的诊疗费用账单中伤病名码为10的诊疗费用账单的数量。伤病名码20(1504)也同样地是该健康保险加入者ID的诊疗费用账单中伤病名码为20的诊疗费用账单的数量。诊疗行为码1000(1505)是该健康保险加入者ID的诊疗费用账单中进行了诊疗行为码为1000的诊疗行为的诊疗费用账单的数量。药品码110(1506)是该健康保险加入者ID的诊疗费用账单中处方了药品码为110的药品的诊疗费用账单的数量。

关于数据整形部107的处理，具体说明对2004年的数据进行整形的情况。

首先，选择一个健康保险加入者ID。从诊疗费用账单基本信息601获取诊疗年月为2004年的该健康保险加入者ID的诊疗费用账单的搜索号。接着，参照伤病名信息901，针对每个伤病名码对记载有该伤病名码的诊疗费用账单的数量进行计数。由此，得到各伤病名码的诊疗费用账单的数量。同样地，参照诊疗行为信息1101，对每个诊疗行为码的诊疗费用账单的数量进行计数，参照药品信息1301，对每个药品码的诊疗费用账单的数量进行计数。由此，生成所选择的健康保险加入者ID的2004年的数据行。对作为分析对象的所有健康保险加入者ID与年的组合进行该处理。

例如在图15所示的整形信息1501中，第1行的健康保险加入者ID“K0001”的2004年的数据是能够从搜索号为“11”“12”“13”的诊疗费用账单基本信息601获取。当参照伤病名信息901时，这三个诊疗费用账单中伤病名码为“10”的诊疗费用账单是搜索号“11”和“13”这两个。因而，在整形信息1501的第1行伤病名码10的栏中登记有2。

图15所示的整形信息1501还包含从体检信息整形得到的体检整形信息。各行是对与一个健康保险加入者ID对应的数据进行总计所得的。

各项目的值是健康保险加入者ID603和数据年1502所示的加入者和年的体检数据的值。该体检数据能够从体检信息701获取。在体检信息701包含同一健康保险加入者ID的同一年的体检数据的情况下，既可以使用某一个受诊日的数据，也可以使用该年的多次体检结果的平均。在使用一个受诊日的数据的情况下，可以使用每年几乎相同时期实施的同时体检日的数据。另外，也可以选择缺失少的数据。缺失数据使用预先确定的表示缺失的数值。在图15所示的例子中使用了-1。此外，设没有体检信息的加入者的值全部为缺失数据。

图15所示的整形信息1501还包含从问诊信息整形所得的问诊整形信息。各行是对与一个健康保险加入者ID对应的数据进行总计所得的。

各项目的值是健康保险加入者ID603和数据年1502所示的加入者和年的问诊数据的值。该问诊数据能够从问诊信息801获取。在问诊信息801包含同一健康保险加入者ID的同一年的问诊数据的情况下，既可以使用某一个受诊日的数据，也可以使用该年的多次问诊结果的平均。在使用一个受诊日的数据的情况下，可以使用每年几乎相同的时期实施的同时体检日的数据。或者，也可以选择缺失少的数据。缺失数据使用预先确定的表示缺失的数值。在图15所示的例子中使用了-1。此外，设没有问诊信息的加入者的值全部为缺失数据。

通过以上的处理，能够生成诊疗费用账单整形信息、体检整形信息以及问诊整形信息。此外，图15中仅示出了2004年的数据，但是还制作其它年的整形数据。

在此，在制作诊疗费用账单整形信息时，也可以汇总类似的项目来合并多个项目。例如在药品的项目中糖尿病口服药A的功能与糖尿病口服药B的功能类似的情况下，也可以将它们汇总来视为一个项目进行处理。此时，将使同一年度的糖尿病口服药A的处方次数与糖尿病口服药B的处方次数相加所得的值设为新汇总的项目的值。用于判断项目是否类似的基准可以设为如下。将诊疗行为分类信息1201中属于同一伤病分类的诊疗行为名设为类似项目。另外，将药品分类信息1401中属于同一伤病分类的药品名设为类似项目。另外，预先通过人工制作类似项目信息。

图16A是说明将诊疗费用账单整形信息的伤病名码10与伤病名码20合并所得的整形信息1501的例子的图。伤病名码1601的值是将图15的伤病名码1503的值与伤病名码1504的值相加所得的值，是伤病名码为“10”的诊疗费用账单的数量与伤病名码为“20”的诊疗费用账单的数量的合计。

图16B是项目合并处理的流程图。

首先，在合并对象项目选定步骤1602中，从诊疗费用账单基本信息601的项目中选定作为合并对象的项目。说明项目的选定的三个例子。第1例是在诊疗行为分类信息1201和药品分类信息1401等的诊疗行为和药品被分类的情况下将属于同一伤病分类的项目设为合并对象的方法。第2例是使用国际疾病分类10版(ICD10)等基准对属于同一分类的项目进行合并的方法。第3例是通过与后述的聚类分析部110同样的方法对项目进行聚类分析来对属于同一群组的项目进行合并的方法。

接着，在处方次数合算步骤1603中，对合并的项目的值进行合算。

图15、图16A所示的所制作的诊疗费用账单整形信息、体检整形信息以及问诊整形信息由数据库116的整形信息存储部118存储。整形信息1501是表形式的数值数据。

此外，诊疗费用账单整形信息的值是以诊疗费用账单的数量、即处方次数进行总计所得的，但是也可以是有无处方的信息。即，也可以将处方次数为1以上的(有处方)情况汇总为1，将处方次数为0的(无处方)的情况设为0，以2值来表示。另外，也可以认为处方次数表示重症度，诊疗费用账单整形信息的值是将处方次数分类为等级的值。例如，也可以将处方次数为0次的情况设为0，将处方次数为1～4次的情况设为1，将处方次数为5次以上的情况设为2等以3等级来表示。

在前述的例子中，以每1年的期间对诊疗费用账单信息、体检信息以及问诊信息进行了汇总，但是例如也可以是每2年、每3年等不同的期间。此外，下面，以每1年的期间进行汇总的情况为例进行说明。

接着，说明状态转移模型制作部108。状态转移模型制作部108具有加入者配置坐标生成部109、聚类分析部110以及状态转移概率计算部111。

加入者配置坐标生成部109使用整形信息计算加入者彼此的类似度，基于类似度将加入者配置在适当的维度数的空间。加入者配置坐标生成部109将加入者在被配置的空间中的坐标保存到配置坐标存储部119。聚类分析部110基于加入者向空间的配置对加入者进行聚类分析(分类)。关于基于类似度的加入者向空间的配置以及聚类分析，能够使用前述的第1实施例的方法。聚类分析部110将对加入者进行聚类分析所得的结果保存到聚类分析信息存储部120。

下面，说明健康保险的加入者彼此的类似度的计算方法。其中，将年不同的同一加入者处理为不同人。即，在1万人的医疗数据有3年量的情况下，针对3万人进行聚类分析。当将2个加入者彼此的项目i的非类似度设为d(i)时，2个加入者的非类似度是通过对非类似度计算中使用的项目的非类似度进行合计的D＝Σd(i)来计算。在此，和是针对非类似度计算中使用的所有同一年的项目i计算的。在着眼于特定的疾病(例如糖尿病)的情况下，关于非类似度计算中使用的项目能够选定诊疗费用账单信息的与该疾病对应的医疗行为。

接着，说明项目i的非类似度d(i)的计算方法。在项目i是问诊的回答号等不具有定量的含义的项目的情况下，在2个加入者的回答相同时设为d(i)＝0，在2个加入者的回答不同时设为d(i)＝v。此外，v使用预先确定的值。

接着，说明项目i是处方次数和检查值等具有定量的含义的项目的情况。在项目i是具有定量的含义的项目的情况下，求出值的累积概率F(t)＝P(X≤t)。F(t)是该项目的值为t以下的加入者数相对于所有加入者数的比例，F(t)的最大值是1。接着，在将2个加入者的该项目的值分别设为t1、t2的情况下，设为d(i)＝|F(t1)-F(t2)|。

在2个加入者中某一人的项目i的值欠缺的情况下，设为d(i)＝w。此外，w使用预先确定的值。

通过以上，能够计算非类似度D＝Σd(i)。类似度例如能够通过-D+max{d(i)}来计算。如上，通过对加入者进行聚类分析，能够对加入者进行分类。

另外，在非类似度的计算中，也可以使用如图16A所示那样类似的疾病彼此被合并的整形信息。当使用疾病被合并的整形信息时，具有类似的效果的诊疗行为被汇总而计数，因此能够得到接近实际情况的非类似度。诊疗行为的合并中也可以使用诊疗行为分类信息(图12)、药品分类信息(图14)。另外，也可以使用以下说明的其它合并方法。

在其它合并方法中，计算项目彼此的类似度，通过第1实施例的方法对项目进行聚类分析，对聚类分析所得的项目彼此进行合并。

说明项目彼此的类似度的计算方法。关于两个项目，将其值按健康保险加入者ID的顺序排列的矢量分别设为x1＝(x11，x12，…，x1n)、x2＝(x21，x22，…，x2n)。将矢量x1与x2的相关系数设为r(x1，x2)。但是，x1、x2中包含缺失值，因此去除x1、x2的某一个中缺失的要素。例如，在x1i缺失的情况下，x2i也去除。通过这样，将从x1、x2去除缺失维度后的矢量分别设为v1＝(v11，v12，…，v1m)、v2＝(v21，v22，…，v2m)。

在v1与v2具有相同程度的依赖性的情况下，也由于v1、v2的值的性质的差异而在相关值r(v1，v2)的值中产生偏差。因而，首先，当将v1、v2的要素分别独立地随机重新排列的矢量设为w1、w2时，能够估计矢量w1和w2中不具有依赖性。使用它计算|r(v1，v2)|-|r(w1，w2)|。在|r(v1，v2)|<|r(w1，w2)|的情况下能够判断为不具有依赖度。因此，将该情况下的依赖度设为0，将除此以外的情况下的依赖度设为|r(v1，v2)|-|r(w1，w2)|。由此，能够计算与随机的情况(无依赖性的情况)比较的类似度。

如上，通过使用合并所得的项目对加入者进行聚类分析，能够对加入者进行分类。

加入者被分类为K个群组C1、C2、…、CK。在第2实施例中，各群组是表示疾病的状态的群组，加入者被分类到某一个群组。但是，如已经说明的那样，不同的年的数据即使是同一加入者也处理为不同人。

状态转移概率计算部111计算群组间的转移概率。具体说明从群组Ci向Cj的转移概率的计算方法。首先，将属于群组Ci的加入者中存在下一年的数据的加入者的数量设为M1。其中，将下一年处于群组Cj的状态的加入者的数量设为M2。从群组Ci向Cj的转移概率为M2/M1。状态转移概率计算部111将所有从群组Ci向Cj的组合的转移概率的值存储到状态转移概率存储部121。

接着，说明状态转移预测部112。状态转移预测部112具有状态特征附加/重构部113、状态转移/医疗费预测部114以及保健指导支援部115。

状态特征附加/重构部113附加状态的含义(附加特征)，重构模型。在状态转移模型制作部108所制作的模型中，通过聚类分析对加入者进行分类，构成群组。通过求出所构成的群组间的状态转移概率，将疾病的状态的转移模型化。但是，群组是加入者的集合，因此需要对该群组附加特征。对群组附加特征，并将群组所表示的疾病的状态显示在输出部上，由此能够直观地获知疾病发病或重症化的情形。

首先，说明群组的特征附加的方法。群组是根据属于该群组的加入者被附加特征的。

图18A是群组特征附加处理的流程图。

首先，在群组内统计量计算步骤1802中，计算属于该群组的加入者的各项目的值的统计量，使用所计算出的统计量表示该群组的状态。例如，能够以属于该群组的加入者的各项目的值的平均值来表现。例如，群组的血糖值是属于该群组的加入者的血糖值的平均等。

接着，在异常项目计算步骤1803中，针对该群组的各项目，计算各加入者相对于平均值的脱离率。脱离率能够通过以下说明的方法来计算。例如将该群组的某项目的值设为k。将所有加入者中该项目的值为k以下的人的比例设为Y，将该项目的值小于k的人的比例设为X。此时，设为Z＝(X+Y)/2，认为，Z越接近0.5则与该项目有关的该群组的值越是平均的值。相反，认为，越比0.5大或小则脱离率越高。因此，以|Z-0.5|来计算脱离率。这意味着，关于某项目，与所有加入者的平均相比该群组的值大幅不同的情况、或脱离正常值的情况下脱离率大。越是该脱离率高的项目，越有用于对该群组附加特征。

在特征附加项目选定步骤1804中，选定使用于特征附加的项目。此时，也可以通过人工预先确定使用于特征附加的项目候选。在此，也可以从使用于特征附加的项目候选中将脱离率高的居上位的项目选定规定的数量，制作用于将所选定的项目和值显示在输出部103上的画面数据。图18B是说明所选定的项目和值的显示例的图。在显示例1801中，Pij表示从群组i向群组j的转移概率。

接着，说明重构的方法。存在如下问题：在状态转移模型制作部108中制作的模型包含大量群组，在该状态下预测的计算量大，模型复杂而显示变得繁杂，难以理解。因此，通过将所制作的模型重构为紧凑的模型，关于当前所关注的状态和转移进行模型化。

图19是重构处理的流程图。

首先，在群组选定步骤1901中，基于被指定为关注的对象的项目，选定对该项目附加特征的群组。例如在关注糖尿病的情况下，关注的对象的项目是胰岛素的处方次数、糖尿病口服药的处方次数、血糖值等。首先，选定在这些项目中脱离率为预先确定的值以上的群组。然后，选择与该群组的转移概率高的(转移概率为预先确定的值以上的)群组。

接着，在对象外群组合并步骤1902中，将未被选择的群组合并为一个。将所选择的群组设为R1、R2、…、RL，将未被选择的群组汇总为一个群组O。即，使不属于R1、R2、…、RL的加入者属于群组O，由L+1个群组构成模型。

在转移概率计算步骤1903中，计算构成模型的L+1个群组间的转移概率。设群组Ri与Rj之间的转移概率与由状态转移模型制作部108制作的原始的群组间的转移概率pij相同。从群组R1向群组O的转移概率为1-Σp1j。和是j从1至L计算的。相反，从群组O向群组R1的转移概率为1-Σpj1。和是j从1至L计算的。通过以上，制作重构模型中的群组和群组间的转移概率。另外，通过与已经说明的方法相同的方法对群组附加特征。

状态转移/医疗费预测部114使用状态转移模型制作部108所制作的模型或状态特征附加/重构部113所重构的模型，根据保健指导支援部115所指示的作为分析对象的加入者的今年的信息预测明年的疾病的状态、医疗费。状态转移/医疗费预测部114将所预测的疾病的状态和医疗费保存到预测结果存储部122。

首先，说明根据状态转移预测、即由保健指导支援部115指示的作为分析对象的加入者的今年的信息预测明年的状态的方法。首先，将作为分析对象的加入者的今年的信息变换为图15或图16A所示的形式的整形信息。接着，基于变换得到的整形信息计算群组C1、…、CK与所有加入者的类似度。将类似度最高的群组Ci设为作为分析对象的加入者的今年的状态。向明年的各状态的转移概率能够使用状态转移概率存储部121中存储的状态转移概率来计算。

接着，说明医疗费预测的处理。首先，通过与状态转移预测同样的方法，基于作为分析对象的加入者的今年的信息确定所属的群组Ci。另外，计算各群组的医疗费。设群组Cj的医疗费为属于Cj的加入者的平均医疗费M(j)。当将从群组Ci向群组Cj的转移概率设为P(j|i)时，P(j|i)是分析对象的加入者处于明年的群组Cj的状态的概率。因此，明年的医疗费的期待值(预测医疗费)能够利用ΣP(j|i)M(j)来计算。

保健指导支援部115提供为了预防将来的疾病的发病并削减医疗费而进行支援的功能。

健康保健事业者期望在预算内优先选择保健指导所产生的预防效果高的对象者，进行适于各对象者的指导。健康保健事业者所能够提供的保健指导服务有多个(保健指导服务1、保健指导服务2、…、等)。例如，保健指导服务1是主要用于减小BMI值的指导，保健指导服务2是用于降低胆固醇值的指导等。

说明面向健康保健事业者的支援功能的处理。

图17A是面向健康保健事业者的支援功能的处理的流程图。

首先，在对象疾病设定步骤1701中，设定作为处理的对象的疾病。例如在将作为三大生活习惯病的糖尿病、血脂异常症以及高血压症设为对象的情况下，使用诊疗费用账单整形信息的项目中的符合糖尿病、血脂异常症以及高血压症的医疗行为的项目、健康诊断的项目以及问诊的项目，状态特征附加/重构部113重构模型。在将所有疾病设为对象的情况下，使用状态转移模型制作部108所制作的模型。

接着，在保健指导服务设定步骤1702中，设定保健指导服务的种类和各保健指导服务的设想效果。例如，保健指导服务1的设想效果是减体重5kg等。

接着，在保健指导效果预测步骤1703中，针对保健指导服务与保健指导对象候选者的所有组合预测医疗费削减效果。首先，说明针对保健指导服务1与保健指导对象候选者1的组合计算医疗费削减效果的方法。

最初，预测不进行保健指导服务的情况下的保健指导对象候选者1的下一年的医疗费。其中，基于今年的保健指导对象候选者1的诊疗费用账单、健康诊断以及问诊的值，设定与今年的项目对应的节点的状态，状态转移/医疗费预测部114预测医疗费(M1)。接着，将通过保健指导服务改善了检查值的值设定为今年的保健指导对象候选者1的值，状态转移/医疗费预测部114预测下一年的医疗费(M2)。M1为不进行保健指导的情况下的预测医疗费，M2为进行了保健指导的情况下的预测医疗费，因此，当将保健指导所需的费用设为M3时，医疗费削减费用对效果能够通过E＝M1-M2-M3来计算。针对保健指导服务与保健指导对象候选者的所有组合进行该处理，计算医疗费削减费用对效果E。

接着，在保健指导内容制定步骤1704中，从保健指导服务与保健指导对象候选者的组合中选择医疗费削减费用对效果最高的组合。然后，将所选择的保健指导对象候选者设为已选择。接着，从对于未被选择的保健指导对象候选者的保健指导服务与保健指导对象候选者的组合中选择医疗费削减费用对效果最高的组合。然后，将所选择的保健指导对象候选者设为已选择。通过这样，能够按效果从高到低的顺序选择保健指导服务与保健指导对象候选者的组合。最后，在保健指导的预算的范围内选择效果高的组合，设定保健指导对象者和保健指导内容。

在效果预测步骤1705中，对通过保健指导内容制定步骤1704选择的组合的医疗费削减费用对效果进行合计，输出从医疗费削减效果减去保健指导成本所得的值作为效果。

接着，说明面向担当者和对象者的支援功能的处理。

图17B是面向担当者/对象者的支援功能的处理的流程图。

说明对象疾病设定步骤1701的处理的其它例。选择对象者或担当者希望处理的疾病。即，选择与某医疗行为对应的项目。接着，计算该项目与其它所有项目之间的依赖度。然后，提取与该所选择的项目之间的依赖度为一定程度以上的项目，基于该选择项目以及所提取的项目的列表，使用状态特征附加/重构部113重构的模型。在此，依赖度中也可以使用上述的项目彼此的类似度。

在发病概率计算步骤1706中，将所有节点的状态设为未设定的状态下状态转移/医疗费预测部114预测下一年的各疾病的病态转移概率和医疗费。关于各疾病，能够作为下一年的有关与该疾病相当的医疗行为的节点的处方次数为1以上的概率来求出。这可认为是疾病的平均发病概率。接着，基于对象者的今年的诊疗费用账单、健康诊断以及问诊的值，设定与今年的项目对应的节点的状态，状态转移/医疗费预测部114预测下一年的各疾病的病态转移概率和医疗费。此时的各疾病的发病概率是该对象者的疾病的发病概率。因此，对于各疾病，通过将对象者的疾病的发病概率除以疾病的平均发病概率，计算对象者的发病风险是平均的几倍。

在高风险疾病提示步骤1707中，提示发病风险比平均高预先确定的阈值以上的疾病及其风险。由此，对象者或保健指导担当者能够获知对象者的疾病风险。

在改善项目提示步骤1708中，提示与通过高风险疾病提示步骤1707计算的高风险疾病所对应的医疗行为节点之间具有一定程度以上的依赖度的检查值。在此，依赖度中也可以使用上述的项目彼此的类似度。

接着，在目标值用户输入步骤1709中，促使用户输入关于通过改善项目提示步骤1708提示的检查项目的改善目标值(例如体重的目标值)。

最后，在效果预测步骤1710中，以目标值更新通过目标值用户输入步骤1709输入的检查项目，通过与步骤1706同样的方法预测达到目标后的疾病的发病概率来提示发病风险的变化。用户通过观察发病风险的变化，能够设定改善目标或使用于自己管理。

通过以上的处理，能够进行对于医疗费削减有效的保健指导支援。

如以上所说明的那样，在第2实施例的医疗数据分析系统中，基于诊疗费用账单信息和体检信息计算加入者间的类似度，基于类似度进行对类似的疾病的状态的人进行分类的聚类分析。因此，能够对类似的状态的加入者进行聚类分析来利用群组表示加入者的状态。

另外，利用属于群组的加入者的平均状态对群组的状态附加特征。因此，能够利用群组来表现疾病的状态、重症度。例如，利用BMI值、血糖值、诊疗行为的处方次数、医疗费等的平均值来表示群组的状态。

另外，使用相对于母集的偏离大的项目对群组附加特征，因此能够自动地对群组附加特征。

然后，根据群组间的转移概率将状态间的转移(疾病的状态、重症化)模型化。某年的一个加入者属于某一个群组，疾病的一个状态对应于一个群组。因此，能够利用转移概率来表现属于该群组的人明年所属的群组。因此，能够以群组间的移动来直观且易懂地表示将来的转移的情形。

另外，根据属于各群组的加入者的数量，能够容易地掌握属于何种状态的人有几个。另外，在与其它集之间比较属于各群组的加入者的数量的比例，能够获知集的特征的差异。例如，通过将血糖值为规定值以下的集与血糖值超过规定值的集进行比较，能够获知糖尿病的患病率、重症者的比例、重症化的情形的差异等。

通过该模型，能够有效利用包含大量项目的诊疗费用账单信息和体检信息，能够表现大量疾病及其状态。通过该模型，能够精细且高精度地预测将来的疾病的状态转移、医疗费。

然后，通过基于预测结果选定保健指导对象者和保健指导内容，能够支援有效且高效的保健指导。

另外，根据加入者间的类似度决定分析对象者所属的群组，因此能够对未知的对象者进行聚类分析。

另外，使用将诊疗费用账单信息的多个项目合并所得的项目计算加入者间的类似度，因此能够高精度地计算类似度。

另外，使用加入者相对于母集的位置的差来计算加入者间的类似度，因此在不同的项目间也能够以同一尺度计算类似度。

另外，利用M1-M2-M3计算医疗费削减费用对效果(M1＝不进行保健指导的情况下的预测医疗费、M2＝进行了保健指导的情况下的预测医疗费、M3＝保健指导所需的费用)，因此能够正确地估计医疗费削减费用对效果。

另外，使用群组间的转移概率计算相对于改善目标值的发病风险，因此能够易懂地显示改善所产生的风险降低效果。

另外，选择糖尿病、高血压症以及血脂异常症的至少一个转移概率，因此能够以作为三大生活习惯病的糖尿病、血脂异常症以及高血压症为对象来进行保健指导。

此外，本发明不限定于前述的实施例，包括所附的权利要求书的宗旨内的各种变形例以及同等的结构。例如，前述的实施例是为了容易理解本发明而详细说明的，本发明不限定于具备所说明的所有结构。另外，也可以将某实施例的结构的一部分置换为其它实施例的结构。另外，也可以对某实施例的结构追加其它实施例的结构。另外，关于各实施例的结构的一部分，也可以进行其它结构的追加/删除/置换。

另外，关于前述的各结构、功能、处理部、处理单元等，例如可以通过集成电路对它们的一部分或全部进行设计等来以硬件实现，也可以通过由处理器解释并执行实现各个功能的程序来以软件实现。

实现各功能的程序、表、文件等信息能够保存到存储器、硬盘、SSD(SolidState Drive：固态硬盘)等存储装置或IC卡、SD卡、DVD等记录介质。

另外，控制线、信息线表示认为在说明上所需要的，不限于表示实际安装上需要的全部控制线、信息线。实际上，可认为几乎所有的结构相互连接。

Claims

1.一种分析系统，具有执行程序的处理器以及保存所述程序的存储器，通过执行所述程序来对数据进行分析，该分析系统的特征在于，

所述分析系统能够访问保存包含实例间的类似度的数据间类似度信息的存储装置，

所述分析系统具备：

数据映射部，所述处理器基于所述数据间类似度信息，设定作用于所述实例间的引力和斥力，将所述实例在某维度的矢量空间配置成，所述引力和斥力的能量小于预先确定的阈值；以及

聚类分析部，对配置在所述矢量空间的实例进行分类，

所述数据映射部在所述矢量空间中虚拟地追加一个维度，使所述实例的坐标向所述追加的维度方向微小变动，计算对于所述微小变动而言为稳定的矢量空间的最小的维度数。

2.一种分析系统，具有执行程序的处理器以及保存所述程序的存储器，通过执行所述程序来对医疗数据进行分析，该分析系统的特征在于，

所述分析系统能够访问保存包含加入者的伤病名和对所述加入者进行的医疗行为的医疗信息、所述医疗行为的费用信息、以及包含所述加入者的健康诊断的检查值的体检信息的数据库，

所述分析系统具备：

加入者配置坐标生成部，所述处理器基于所述医疗信息和所述体检信息，计算所述加入者间的类似度，基于所述计算的类似度将所述加入者配置在同一维度数的矢量空间；

聚类分析部，所述处理器基于配置有所述加入者的坐标，将所述加入者分类为群组，通过所述分类的群组构成模型；

状态转移概率计算部，所述处理器计算所述分类的群组间的转移概率；

状态特征附加/重构部，所述处理器基于以所指定的项目附加特征的群组、以及根据该群组和所述转移概率确定的群组重构所述模型；

状态转移/医疗费预测部，所述处理器基于所述医疗行为的费用信息和所述构成的模型或所述重构的模型，预测将来的疾病的状态和医疗费；以及

健康指导支援部，所述处理器基于所述预测的病态的状态和医疗费，选定健康指导的对象者和健康指导内容，

所述加入者配置坐标生成部将所述加入者在某维度的矢量空间配置成，基于所述类似度设定的作用于所述加入者间的引力和斥力的能量小于预先确定的阈值；在所述某维度的矢量空间中虚拟地追加一个维度；使所述加入者的坐标向所述追加的维度方向微小变动；计算对于所述微小变动而言为稳定的矢量空间的最小的维度数；将所述加入者配置在所述计算的维度数的矢量空间。

3.根据权利要求2所述的分析系统，其特征在于，

所述健康指导支援部确定与分析对象的加入者之间的类似度高的加入者所属的群组来作为所述分析对象的加入者的当前的状态，

所述健康指导支援部根据从所述确定的群组向其它群组的转移概率，计算所述分析对象的加入者属于所述其它群组的概率。

4.根据权利要求2所述的分析系统，其特征在于，

所述健康指导支援部在将分析对象的加入者的体检信息置换为接受健康指导后的预计值之后，确定与所述分析对象的加入者之间的类似度高的加入者所属的群组，

所述健康指导支援部根据从所述确定的群组向其它群组的转移概率，计算在接受健康指导之后所述分析对象的加入者属于所述其它群组的概率。

5.根据权利要求2所述的分析系统，其特征在于，

所述状态特征附加/重构部通过对属于所述群组的加入者的各项目的值进行统计处理所得的值，对该群组附加特征，

针对所述统计处理所得的值相对于所有加入者的平均值的偏离大的项目，所述状态特征附加/重构部制作用于显示对该群组附加特征的项目和所述统计处理所得的值的数据。

6.根据权利要求2所述的分析系统，其特征在于，

所述加入者配置坐标生成部使用将所述医疗信息的多个项目合并所得的项目，计算所述加入者间的类似度。

7.根据权利要求2所述的分析系统，其特征在于，

还具备数据整形部，所述处理器从所述医疗信息获取进行了医疗行为的次数和医疗行为的费用，从所述体检信息获取所述检查值，制作将所述获取的信息针对每个所述加入者按每个规定期间汇总而得到的整形信息，将所述制作的整形信息保存到所述数据库，

所述加入者配置坐标生成部针对所述整形信息的某项目，使用第1加入者的值以下的值的人的比例与第2加入者的值以下的值的人的比例之差，计算所述第1加入者与所述第2加入者之间的类似度。

8.根据权利要求2所述的分析系统，其特征在于，

所述健康指导支援部通过从所述加入者的预测医疗费减去将所述加入者的检查值置换为接受健康指导之后的检查值而得到的第2预测医疗费以及所述健康指导的费用，来计算预测效果，

所述健康指导支援部选定所述计算的预测效果高的加入者与健康指导的组作为健康指导的对象者和健康指导内容。

9.根据权利要求2所述的分析系统，其特征在于，

所述健康指导支援部根据所述加入者的病态的转移概率与病态的平均转移概率之比来计算第1发病风险，

通过由用户输入检查值改善目标值，所述健康指导支援部使用将所述加入者的检查值置换为所述改善目标值而得到的病态的转移概率，计算第2发病风险，

所述健康指导支援部通过比较所述第1发病风险与所述第2发病风险，生成用于显示改善所产生的风险降低效果的数据。

10.根据权利要求9所述的分析系统，其特征在于，

构成关于糖尿病、高血压症以及血脂异常症中的至少一个的模型。

11.一种健康事业支援方法，使用具有执行程序的处理器和保存所述程序的存储器的计算机来支援健康指导，其特征在于，

所述计算机能够访问数据库，该数据库保存包含加入者的伤病名和对所述加入者进行的医疗行为的医疗信息、所述医疗行为的费用信息、以及包含所述加入者的健康诊断的检查值的体检信息，

所述健康事业支援方法包括如下步骤：

加入者配置坐标生成步骤，所述处理器基于所述医疗信息和所述体检信息，计算所述加入者间的类似度，基于所述计算的类似度将所述加入者配置在同一维度数的矢量空间；

聚类分析步骤，所述处理器基于所述加入者被配置的坐标，制作所述加入者被分类而成的群组，通过所述制作的群组构成模型；

状态特征附加/重构步骤，所述处理器通过属于所述群组的加入者的特征对所述群组附加特征，基于所述医疗信息和所述体检信息，计算所述制作的群组间的转移概率，基于所述转移概率来重构通过以所指定的项目附加特征的群组构成的模型；

状态转移/医疗费预测步骤，所述处理器基于包含所述医疗行为的费用的信息、以及所述构成的模型或所述重构的模型，预测将来的疾病的状态和医疗费；以及

健康指导支援步骤，所述处理器基于所述预测的病态的状态和医疗费，选定健康指导的对象者和健康指导内容，

在所述聚类分析步骤中，

基于所述加入者间的类似度，设定作用于所述加入者间的引力和斥力；

将所述加入者在某维度的矢量空间配置成，所述引力和斥力的能量小于预先确定的阈值；

在所述某维度的矢量空间中虚拟地追加一个维度；

使所述加入者的坐标向所述追加的维度方向微小变动；

计算对于所述微小变动而言为稳定的矢量空间的最小的维度数；

将所述加入者配置在所述计算的维度数的矢量空间。