CN116348961A

CN116348961A - 健康改善路径探索装置及健康改善路径探索方法

Info

Publication number: CN116348961A
Application number: CN202180070202.1A
Authority: CN
Inventors: 中村和贵; 奥野恭史; 小岛谅介; 内野咏一郎; 村下公一; 伊东健; 中路重之
Original assignee: Kyoto University; Kyowa Hakko Bio Co Ltd; Hirosaki University NUC
Current assignee: Kyoto University; Kyowa Hakko Bio Co Ltd; Hirosaki University NUC
Priority date: 2020-10-23
Filing date: 2021-10-22
Publication date: 2023-06-27
Also published as: US20230395221A1; EP4235683A1; JPWO2022085785A1; WO2022085785A1

Abstract

健康改善路径探索装置具备：第一模型生成部，生成第一模型，上述该第一模型基于多个说明变量的值来预测作为目的变量的健康指标的值；第二模型生成部，生成第二模型，上述第二模型导出表示输入到第一模型的多个说明变量的值及预测出的健康指标的值的每个组合的存在容易度的存在概率；及路径探索部，将多个测定对象值作为输入，基于第一模型及第二模型，导出与各测定对象值对应的健康指标的值及存在概率，确定以当前值为起点而迁移各测定对象值的多个路径，将多个路径中的、终点处的健康指标的值比当前值处的健康指标的值得到改善的路径确定为候补路径，并将候补路径中包含的各测定对象值的存在概率的积为最大的路径确定为健康改善路径。

Description

健康改善路径探索装置及健康改善路径探索方法

技术领域

本发明的一个方式涉及健康改善路径探索装置及健康改善路径探索方法。

背景技术

个体化医疗作为进行匹配于个人的体质及环境等的医疗上的决定、治疗或介入的治疗法而受到期待。作为个体化医疗所涉及的技术的一例，在专利文献1中，记载了一种生活习惯改善支援系统，其基于用户的生物体信息，提取生活习惯信息中的应改善的因子即改善因子，决定用于改善该改善因子的改善对策。

现有技术文献

专利文献1：日本特开2009-217703号公报

非专利文献1：T.Chen,C.Guestrin,XGBoost,in:Proceedings of the22nd ACMSIGKDD International Conference on KnowledgeDiscovery and Data Mining,ACM,NewYork,NY,USA,2016:pp.785-794.

非专利文献2：Tibshirani,R.,Johnstone,I.,Hastie,T.&Efron,B.Least angleregression.The Annals of Statistics 32,407-499(2004).

非专利文献3：Hastie,T.&Efron,B.lars:Least Angle Regression,Lasso andForward Stagewise.R package version 1.2(2013).

发明内容

发明所要解决的课题

在此，专利文献1中记载的发明虽然能够提出生活习惯的改善对策，但由于没有提出具体的改善过程，因此不能提出对人来说能够执行的(即，容易实施的)改善过程。

本发明的一个方式鉴于上述实际情况而作出，其目的在于提出一种能够由人执行的健康改善过程。

用于解决课题的技术方案

本发明的一个方式所涉及的健康改善路径探索装置具备：第一模型生成部，生成第一模型，上述第一模型基于多个说明变量的值来预测作为目的变量的健康指标的值；第二模型生成部，生成第二模型，上述第二模型导出表示输入到第一模型的多个说明变量的值及由第一模型基于该多个说明变量的值预测出的健康指标的值的每个组合的存在容易度的存在概率；及路径探索部，从多个说明变量的当前值开始将预定范围内的多个测定对象值作为输入，基于第一模型及第二模型，分别导出与各测定对象值对应的健康指标的值及存在概率，以在相互连续的多个说明变量的值间迁移的方式，确定以当前值为起点而迁移各测定对象值的多个路径，将多个路径中的、终点处的健康指标的值比当前值处的健康指标的值得到改善的一个或多个路径确定为候补路径，并将候补路径中的、路径中包含的各测定对象值的存在概率的积为最大的路径确定为健康改善路径。

本发明的一个方式所涉及的健康改善路径探索方法包含如下的步骤：生成第一模型，上述第一模型基于多个说明变量的值来预测作为目的变量的健康指标的值；生成第二模型，上述第二模型导出表示输入到第一模型的多个说明变量的值及由第一模型基于该多个说明变量的值预测出的健康指标的值的每个组合的存在容易度的存在概率；及从多个说明变量的当前值开始将预定范围内的多个测定对象值作为输入，基于第一模型及第二模型，分别导出与各测定对象值对应的健康指标的值及存在概率，以在相互连续的多个说明变量的值间迁移的方式，确定以当前值为起点而迁移各测定对象值的多个路径，将多个路径中的、终点处的健康指标的值比当前值处的健康指标的值改善的一个或多个路径确定为候补路径，并将候补路径中的、路径中包含的各测定对象值的存在概率的积为最大的路径确定为健康改善路径。

在本发明的一个方式所涉及的健康改善路径探索装置及健康改善路径探索方法中，生成基于多个说明变量来预测作为目的变量的健康指标的第一模型，生成导出所输入的多个说明变量的值及作为其预测值的健康指标的值的每个组合的存在概率的第二模型。当向第一模型及第二模型输入多个测定对象值时，分别导出各测定对象值及作为其预测值的健康指标的值的每个组合的存在概率。并且，在本健康改善路径探索装置及健康改善路径探索方法中，以多个说明变量的当前值为起点，将迁移各测定对象值的多个路径中的、终点处的健康指标的值比当前值处的健康指标的值得到改善且路径内的各测定对象值的存在概率的积为最大的路径确定为健康改善路径。根据这样的结构，在输入了通过健康诊断等取得的多个说明变量的当前值时，根据从当前值开始的预定范围内的多个测定对象值，导出各测定对象值及作为其预测值的健康指标的值的组合的存在概率。并且，确定迁移各测定对象值的路径中的、从起点到终点健康指标得到改善且路径内的各测定对象值的存在概率为最大的路径。这样确定的路径由于在存在概率高的各测定对象值中迁移直至健康指标改善，所以成为仅经由现实的值、具体地表示改善健康的顺序的路径。通过示出这样的健康改善路径，能够提出对人来说能够执行的健康改善过程。

发明效果

根据本发明的一个方式，能够提出一种对人来说能够执行的健康改善过程，更具体地能够提出用于改善健康指标的值的能够执行的人的测定值的改善顺序。

附图说明

图1是表示健康改善路径探索装置的功能结构的框图。

图2是表示预测模型中的说明变量与目的变量之间的关系的概念图。

图3是表示代理模型中的数据的存在概率的概念图。

图4是表示路径探索结果的概念图。

图5是表示路径探索的算法的伪代码的图。

图6是健康改善路径探索装置的硬件结构图。

图7是健康改善路径探索装置执行的处理的流程图。

图8表示实施例1中的数据集的例子。

图9是表示实施例1中的回归模型的得分的图。

图10是表示实施例1中的回归模型的变量重要度的图。

图11是表示实施例1中的分层贝叶斯模型的图形模型的图。

图12是表示实施例1中的WBIC的评价结果的图。

图13是表示实施例1中的各实例的可执行性得分的直方图。

图14是表示实施例1中的路径探索结果的例子的图。

图15表示实施例2中的数据集的例子。

图16是表示实施例2中的回归模型的变量重要度的图。

图17是表示实施例2中的回归模型的得分的图。

图18是表示实施例2中的WBIC的评价结果的图。

图19是表示实施例2中的各实例的可执行性得分的直方图。

图20是表示实施例2中的路径探索结果的例子的图。

具体实施方式

以下，参照附图对实施方式详细地进行说明。在说明中，对同一要素或具有同一功能的要素标注同一附图标记，并省略重复的说明。

实施方式所涉及的健康改善路径探索装置1是基于多个说明变量来预测作为目的变量的健康指标并探索作为健康指标的改善过程的路径的装置。所谓变量，是指通过健康诊断等计测出的人的测定值、即身体的特征、身体组成、生物体信息等，具体而言，可举出年龄、性别、身高、体重、BMI、血压值、血糖值、HbA1c、γ-GTP、AST、ALT、白蛋白、肌酸酐、HDL胆固醇、LDL胆固醇、中性脂肪、血氧饱和度、肺活量、红血球、白血球、血细胞比容、腿得分(legscore)等。所谓说明变量，是指成为因果关系的原因的变量，所谓目的变量，是指成为因果关系的结果的变量。例如，可以将健康指标的值、具体来说高血压症的指标即血压值、糖尿病的指标即血糖值、HbA1c、肾功能的指标即肌酸酐、肝功能的指标即γ-GTP、AST或ALT、高脂血症、动脉硬化症的指标即HDL胆固醇、LDL胆固醇或中性脂肪、肺功能的指标即血氧饱和度、肺活量等成为疾病或脏器功能的指标的测定值作为目的变量，将目的变量以外的变量的一部分或全部作为说明变量。所谓路径，是指针对根据多个说明变量预测的健康指标，连接从当前的健康指标的值(起点)到改善后的健康指标的值(终点)的路径，表示各变量的改善顺序(改善过程)。在此，在仅将路径设为直线的路径(最短距离)的情况下，有可能在路径上包含人无法取得的非现实的变量的值。在路径中包含这样的非现实的变量的值的情况下，该路径对于人来说不是能够执行的路径。健康改善路径探索装置1通过探索经由人能够取得的现实的变量的值的路径，避免包含人无法取得的非现实的变量的值的路径。

图1是表示本实施方式所涉及的健康改善路径探索装置1的功能结构的框图。健康改善路径探索装置1具备：数据库11、第一模型生成部12、第二模型生成部13及路径探索部14。

数据库11针对健康诊断的就诊者或患者等的每个实例，将身体的特征、身体组成及生物体信息等数据作为数据集进行存储。数据中例如包含作为变量的年龄、性别、身高、体重、血压值、血糖值、γ-GTP(γ-glutamyl transpeptidase：γ-谷氨酰转肽酶)及腿得分(leg score)等，但不限于此。数据库11也可以是能够经由因特网等网络而访问的外部的存储装置。

第一模型生成部12生成第一模型，该第一模型基于多个说明变量的值来预测作为目的变量的健康指标的值。第一模型生成部12通过从数据库11取得数据集并执行机器学习，而生成预测模型(第一模型)。第一模型生成部12例如选择数据集的数据作为说明变量及目的变量，生成根据多个说明变量对作为目的变量的健康指标进行回归的回归模型。第一模型生成部12例如将每个人的身体组成数据及血液数据等作为说明变量，生成对作为目的变量的血压值进行回归的回归模型。

作为机器学习的前处理，第一模型生成部12将从数据库11取得的数据集分割为train数据11a(训练数据集)和test数据11b(测试数据集)。第一模型生成部12也可以以使train数据11a和test数据11b成为预定的比率(例如，80％及20％)的方式将数据集随机地分割。第一模型生成部12也可以通过mean(平均)及标准偏差将连续值的说明变量标准化。第一模型生成部12也可以通过独热编码(One-hot encoding)将离散值的说明变量置换为虚拟变量。第一模型生成部12也可以通过多重插补法来补充说明变量的欠缺值。第一模型生成部12也可以使用作为GBDT(Gradient Boosting Decision Tree：梯度提升决策树)系的算法的XGBoost(参照非专利文献1)来生成回归模型。第一模型生成部12也可以通过对train数据11a的5-折交叉验证(5-Fold cross validation)来决定回归模型的超参数。

图2是表示预测模型中的说明变量与目的变量之间的关系的概念图。图2的横轴表示第一说明变量，纵轴表示第二说明变量，作为变量空间的图表内的绘图表示目的变量。目的变量的值根据第一说明变量的值及第二说明变量的值进行回归。绘图的浓淡表示目的变量的健康指标中的改善的程度。第一说明变量及第二说明变量例如分别是身体组成数据及血液数据等。目的变量例如是血压值等成为改善对象的值。

返回图1，第二模型生成部13生成第二模型，该第二模型导出表示输入到第一模型的多个说明变量的值及由第一模型基于该多个说明变量的值预测出的健康指标的值的每个组合的存在容易度的存在概率。第二模型生成部13例如生成能够将多个说明变量的变量空间中的预测值的取得容易度作为概率来计算的代理模型(第二模型)。第二模型生成部13例如通过分层贝叶斯建模来生成分层贝叶斯模型。分层贝叶斯模型在使输入数据变化的情况下也能够灵活地表现概率。

图3是表示代理模型中的数据的存在概率的概念图。图3的横轴表示第一说明变量，纵轴表示第二说明变量，作为变量空间的图表内的浓淡表示数据的存在概率。图3表示第一说明变量及第二说明变量的值与作为预测值的健康指标的值的组合的存在概率的关系。在图3中，数据的存在概率越高，则图表内的浓淡越浓。

返回图1，路径探索部14从多个说明变量的当前值开始将预定范围内的多个测定对象值作为输入，基于第一模型及第二模型，分别导出与各测定对象值对应的健康指标的值及存在概率，以在相互连续的多个说明变量的值间迁移的方式，确定以当前值为起点而迁移各测定对象值的多个路径，将多个路径中的、终点处的健康指标的值比当前值处的健康指标的值得到改善的一个或多个路径确定为候补路径，将候补路径中的、路径中包含的各测定对象值的存在概率的积为最大的路径确定为健康改善路径。

路径探索部14例如根据体重及血液数据等说明变量，通过预测模型来预测血压值等目的变量，通过代理模型将其值的取得容易度作为存在概率导出。路径探索部14也可以通过使多个说明变量的值在预定的范围内变化而作为预测模型及代理模型的输入，由此作为各测定对象值的输入。路径探索部14导出与所输入的各测定对象值对应的健康指标的值及存在概率，确定以当前值为起点而迁移各测定对象值的路径，将终点处的健康指标的值比当前值处的健康指标得到改善的候补路径中的、路径内的各测定对象值的存在概率的积为最大的路径确定为健康改善路径。

另外，所有的说明变量能够介入预测模型，但存在不适合路径探索的说明变量(例如性别等)。因此，在进行路径探索时，需要选择适当的说明变量。路径探索部14决定所有的说明变量中的、介入预测模型的说明变量(以下，称为“介入变量”。)。路径探索部14例如也可以通过从预测模型中的变量的重要度的上位起选择预定的数量等来决定介入变量。路径探索部14使用所决定的介入变量，通过预测模型来预测目的变量。

路径探索部14将多个说明变量的变量空间作为呈格子状地划分的图表进行处理，通过将格子点作为节点连接来构筑路径。在本说明书中，将取得使用预测模型及代理模型计算出的各个节点的状态的概率定义为节点的概率，将特定的路径上的节点的概率的积定义为“可执行性(actionability)”。可执行性的值越大，经由存在概率越高的节点，表示对人来说越是能够执行的路径。另一方面，可执行性的值越小，经由存在概率越低的节点，表示对人来说越是不能够执行的路径。路径探索部14例如计算可执行性的对数的负值作为路径成本，以与当前值对应的节点为起点，求出到与各测定对象值对应的各节点的路径成本为最小的路径。即，路径探索部14求出到各节点的路径成本最小且可执行性为最大的路径。将这样求出的路径的概念图在图4中示出。图4用节点间的箭头表示路径的顺序的例子。

路径探索部14也可以将健康指标的值比当前值处的健康指标的值得到改善的路径中的、健康指标的值最为改善的路径确定为候补路径。另外，路径探索部14也可以在执行了第一处理后反复执行第二处理，上述第一处理将当前值作为基准值并将与该基准值近似的多个说明变量的值选择为测定对象值，上述第二处理将所选择的测定对象值中的、输入到第二模型时的存在概率最高的测定对象值作为新的基准值，并将与该基准值近似的多个说明变量的值选择为测定对象值。

图5是路径探索的算法的伪代码。路径探索部14通过图5所示的伪代码，探索到达在宽度优先探索中在探索反复数L内达到最为改善的预测值的节点的路径。路径探索部14在伪代码的第3行取得与当前的节点相邻的节点的列表，在第5-7行对这些节点进行路径成本的更新。相邻的节点例如是从当前的节点的值变动了1个单位(例如，train数据11a中的各介入变量的0.2σ)的节点。相邻的节点也可以被称为近似的节点。1个单位对应于将变量空间划分为格子状的单元的尺寸。路径探索部14在第11行选择成为下一探索起点的节点。成为探索起点的节点是未探索的节点中的、路径成本为最小的节点。路径探索部14以在第2-12行进行预定的次数(例如，探索反复数L＝20000次)的路径探索的方式循环，在第13行将回归模型的预测值为最为改善的节点选择为终点节点，取得到终点节点的路径作为健康改善路径。在存在多个预测值相同的节点的情况下，路径探索部14取得路径成本最小的路径作为健康改善路径。

路径探索部14也可以将最短且随机地迁移从起点到终点的各测定对象值的路径确定为随机路径，将候补路径中的、路径中包含的各测定对象值的存在概率的积为最大且为随机路径中包含的各测定对象值的存在概率的积以上的路径确定为健康改善路径。路径探索部14例如将通过路径探索的算法取得的候补路径中的、路径中包含的各测定对象值的存在概率的积为最大的路径确定为最佳路径。路径探索部14确定将最佳路径的起点及终点以最短次序随机连接的路径。然后，路径探索部14将最佳路径中包含的各测定对象值的存在概率的积为随机路径中包含的各测定对象值的存在概率的积以上的路径确定为健康改善路径。

路径探索部14例如计算由可执行性得分＝log(最佳路径的可执行性)-log(随机路径的可执行性)表示的得分。在此，随机路径可执行性可以是例如10个随机路径的可执行性的几何平均。可执行性得分表示最佳路径可执行性与随机路径可执行性相比有多么高效。在可执行性得分为0的情况下，最佳路径具有与随机路径相同的可执行性。路径探索部14可以评价为，可执行性得分越大，则相比于随机路径，最佳路径的可执行性越高。路径探索部14在可执行性得分小于0的情况下，可以评价为随机路径比最佳路径的可执行性高。这样，路径探索部14评价最佳路径的妥当性。

路径探索部14输出表示路径的探索结果的结果数据。结果数据的数据结构不作限定。

图6是健康改善路径探索装置1的硬件结构图。如图6所示，健康改善路径探索装置1由具有一个或多个处理器103、存储器104、存储设备105、输入输出端口106的信息处理装置100构成。输入输出端口106在其与外部的设备等之间进行控制信号的输入输出。存储设备105存储用于执行各种处理的程序。存储设备105只要是计算机可读取的，就可以是任意的存储设备。作为具体例，可举出硬盘、非易失性的半导体存储器、磁盘及光盘等。存储器104暂时存储从存储设备105加载的程序及处理器103的运算结果等。处理器103通过与存储器104协作而执行程序，从而构成上述的各功能模块。

另外，健康改善路径探索装置1的硬件结构不必限于由程序构成各功能模块。例如健康改善路径探索装置1的各功能模块可以由专用的逻辑电路或集成了专用的逻辑电路的ASIC(Application Specific Integrated Circuit：专用集成电路)构成。

接下来，参照图7，对健康改善路径探索装置1执行的健康改善路径探索方法进行说明。图7是健康改善路径探索装置1执行的处理的流程图。

健康改善路径探索装置1生成第一模型，该第一模型基于多个说明变量的值来预测作为目的变量的健康指标的值(步骤S1)。健康改善路径探索装置1例如选择数据集的数据作为说明变量及目的变量，生成根据多个说明变量对作为目的变量的健康指标进行回归的回归模型。

健康改善路径探索装置1生成第二模型，该第二模型导出表示输入到第一模型的多个说明变量的值及由第一模型基于该多个说明变量的值预测出的健康指标的值的每个组合的存在容易度的存在概率(步骤S2)。健康改善路径探索装置1例如通过分层贝叶斯建模来生成分层贝叶斯模型。

健康改善路径探索装置1从多个说明变量的当前值开始将预定范围内的多个测定对象值作为输入，基于第一模型及第二模型，分别导出与各测定对象值对应的健康指标的值及存在概率，以在相互连续的多个说明变量的值间迁移的方式，确定以当前值为起点而迁移各测定对象值的多个路径，将多个路径中的、终点处的健康指标的值比当前值处的健康指标的值得到改善的一个或多个路径确定为候补路径，将候补路径中的、路径中包含的各测定对象值的存在概率的积为最大的路径确定为健康改善路径(步骤S3)。健康改善路径探索装置1例如使体重及血液数据等的说明变量变化，通过预测模型来预测目的变量，通过代理模型将其值的取得容易度作为存在概率导出。健康改善路径探索装置1导出与所输入的各测定对象值对应的健康指标的值及存在概率，确定以当前值为起点而迁移各测定对象值的路径，将终点处的健康指标的值比当前值处的健康指标得到改善的候补路径中的、路径内的各测定对象值的存在概率的积为最大的路径确定为健康改善路径。

以下，具体说明实施例，但本发明并不限定于这些实施例。

[实施例1]

在实施例1中，使用与糖尿病相关的公开数据集(参照非专利文献2、3)(以下，简称为“公开数据集”。)作为成为基准的数据集，进行了可执行性的评价。图8表示实施例1中的数据集的例子。说明变量包括年龄、性别、bmi，血压值(average blood pressure)、T细胞(T-Cells)、低密度脂蛋白(low-density lipoproteins)、高密度脂蛋白(high-densitylipoproteins)、促甲状腺激素(thyroid stimulating hormone)、拉莫三嗪(lamotrigine)及血糖值(blood sugar level)。公开数据集中不包含欠缺值。

在实施例1中，将公开数据集以成为80％及20％的比率的方式随机地分割，并分别作为训练数据集及测试数据集，使用XGBoost生成回归模型。回归模型是根据公开数据集中的、9种连续值的说明变量及1种离散值的说明变量对作为目的变量的糖尿病的将来进展程度进行回归的模型。

图9是表示实施例1中的回归模型的得分的图。图9的横轴表示真正的目的变量，纵轴表示回归模型对目的变量的预测值。生成的回归模型的测试数据集的RMSE(Root MeanSquared Error：均方根误差)为62.19，R ²(决定系数)为0.246。

图10是表示实施例1中的回归模型的变量重要度的图。图10的横轴表示变量重要度，纵轴表示变量的种类。在基于XGBoost的回归模型中，能够计算出回归模型中的变量重要度。变量重要度也可以说是基于XGBoost的回归模型中的贡献度。在实施例1中，作为路径探索中的介入变量，选择了变量重要度的上位5个变量。具体而言，前5个变量为bmi、bp(血压值)、s1(T细胞)、s3(高密度脂蛋白)及s5(拉莫三嗪)。

接下来，基于公开数据集和回归模型的预测值，通过分层贝叶斯建模，导出了分层贝叶斯模型。图11是表示实施例1中的分层贝叶斯模型的图形模型的例子的图。在实施例1中，使用WBIC(Widely applicable Bayesian information criterion：广泛适用的贝叶斯信息准则)，进行分层贝叶斯模型中的混合要素(mixture components)的妥当的数量的评价。混合要素(mixture components)也可以说是分层贝叶斯模型中的数据的簇数。图12是表示实施例1中的WBIC的评价结果的图。图12的横轴表示混合要素(mixture components)的数量，纵轴表示WBIC的值。WBIC的值越小，表示作为分层贝叶斯模型中的混合要素(mixture components)的数量是越妥当的。在实施例1中，在混合要素(mixturecomponents)的数量为2时，得到了WBIC的最小值。

然后，使用导出的分层贝叶斯模型进行了路径探索。从10种说明变量中选择上述的变量重要度的上位5个变量作为介入变量，固定其余的5种变量进行路径探索。使介入变量变动的单位设定为训练数据集中的0.2σ。对各实例实施探索反复数L＝20000次的探索，取得具有最低的糖尿病的将来进展程度的值的路径作为最佳路径。

图13是表示实施例1中的各实例的可执行性得分的直方图。可执行性得分在87个实例中的83个实例中为0以上，中央值为2.06。该结果表示，即使改善后的目的变量相同，到达该目的变量的可执行性也因路径而不同。另外，结果还表示，由健康改善路径探索装置1探索到的路径大部分具有比随机路径高的可执行性。

图14是表示实施例1中的路径探索结果的例子的图。图14(a)及图14(b)分别表示针对不同的实例的路径探索结果的例子。图14(a)及图14(b)的左侧的图表表示从路径探索结果的起点(initial)到终点(destination)的最佳路径(Optimal Path)的例子。最佳路径经由实际的数据(Actual Data)存在的概率高的节点。图14(a)及图14(b)的右侧的图表表示最佳路径中的健康指标的改善值及介入变量的改善顺序。在图14(a)的例子中，bp、bmi、bp、s5、bp的改善顺序是用于糖尿病的改善、即用于改善作为健康指标的糖尿病的将来进展程度的可执行性高的路径。在图14(b)的例子中，bmi、s5、s3、bmi的改善顺序是用于改善糖尿病的可执行性高的路径。

[实施例2]

在实施例2中，使用通过岩木健康增进项目(Iwaki Health PromotionProject，以下，称为“IHPP”。UMIN试验ID：UMIN000040459)所取得的数据集(以下，称为“IHPP数据集”。)进行了可执行性的评价。在IHPP中，以日本的青森县弘前市岩木地区的20岁以上的居住者为对象，从2005年起取得了生理、生物化学数据、个人生活活动数据、社会环境数据等广泛的健康诊断数据。图15是表示实施例2中的数据集的例子的图。在IHPP数据集中包含年龄、BMI、收缩期血压(Systolic Blood Pressure，以下称为“SBP”。)、扩张期血压(DiastolicBlood Pressure)、性别及高血压的病历。在实施例2中，研究了改善收缩期血压(SBP)的方案。

在IHPP数据集中包含2000个以上的测定项目和调查回答项目，还包含欠缺值多的项目，因此进行了变量的选择。具体而言，通过从说明变量排除与血压相关的测定项目、与调查回答相关的项目、包含25％以上的欠缺值的项目等，而进行了变量的选择。另外，通过实施基于XGBoost的RFE(Recursive Feature Elimination：递归式特征消除)，削减了说明变量。在RFE中使用的数据中，对类别变量应用独热编码，利用中央值置换了欠缺值。通过这样的处理，变量减少到25种。图16是表示实施例2中的回归模型的变量重要度的图。在变量重要度的上位项目中，是年龄、腿得分(腿部肌肉量分数)、BMI、腰围、血清血糖及γ-GTP等与高血压相关的项目，作为收缩期血压的预测模型，可以推测为从临床的角度出发选择了妥当的说明变量。

在实施例2中，将IHPP数据集以成为80％及20％的比率的方式随机地分割，并分别作为训练数据集及测试数据集，使用XGBoost生成了回归模型。在实施例2中，使用多重代入法置换了欠缺值之后生成了回归模型。在多重代入法的欠缺值的推定中，对连续变量使用了Bayesian Ridge(贝叶斯脊)，对离散变量使用了Random Forest(随机森林)。

图17是表示实施例2中的回归模型的得分的图。图17的横轴表示真正的目的变量，纵轴表示回归模型对目的变量的预测值。生成的回归模型的测试数据集的RMSE为15.42，R²为0.330。

接下来，基于IHPP数据集和回归模型的预测值，通过分层贝叶斯建模，导出了分层贝叶斯模型。图18是表示实施例2中的WBIC的评价结果的图。图18的横轴表示混合要素(mixture components)的数量，纵轴表示WBIC的值。在实施例2中，在混合要素(mixturecomponents)的数量为5时，得到了WBIC的最小值。

然后，使用导出的分层贝叶斯模型进行了路径探索。从25种说明变量中，选择上述的变量重要度的上位5个变量、即腿得分、血清血糖、BMI、腰围及γ-GTP作为介入变量。使介入变量的单位设定为训练数据集中的0.2σ。关于收缩期血压，设想降低具有高值的参加者的血压的方案，将预测收缩期血压为训练数据集中的mean+1σ以上且介入变量没有欠缺的参加者数据作为分析对象的实例。成为分析对象的实例为391件。对各实例实施探索反复数L＝20000次的探索，取得具有最低的收缩期血压值的路径作为最佳路径。

图19是表示实施例2中的各实例的可执行性得分的直方图。可执行性得分在391个实例中的341个实例中为0以上，中央值为0.78。该结果表示能够使用通过实际的健康诊断而取得的数据集来探索用于改善收缩期血压的能够执行的路径，表示由健康改善路径探索装置1探索到的路径大部分具有比随机路径高的可执行性。

图20是表示实施例2中的路径探索结果的例子的图。图20(a)及图20(b)分别表示针对不同的实例的路径探索结果的例子。图20(a)及图20(b)的左侧的图表表示最佳路径的例子。最佳路径经由实际的数据存在的概率高的节点。图20(a)及图20(b)的右侧的图表表示最佳路径中的健康指标的改善值及介入变量的改善顺序。在图20(a)的例子中，大致为血清血糖、腿得分、γ-GTP的改善顺序是为了改善作为健康指标的值的收缩期血压的可执行性高的路径。这些变量相互有关联，作为多个变量为了血压改善而变动的路径是妥当的。从用于改善血压的临床的视点来看，这些变量的变化的方向是妥当的。例如，有报告指出，高值的血清血糖是高血压的风险因子。在图20(b)的例子中，γ-GTP、腿得分、γ-GTP的改善顺序是可执行性高的路径。与图20(a)相同地，介入变量的值在临床的视点上的变化的方向是妥当的，但在图20(b)的例子中，经由回归模型的预测值暂时比原来的预测值高的节点。这是因为，选择预测值为最佳的节点，求出到达该节点的概率上的最佳路径，没有考虑经由的节点的预测值。健康改善路径探索装置1也可以将预测值恶化的节点从探索范围中排除。

[作用效果]

接下来，对本实施方式所涉及的健康改善路径探索装置1的作用效果进行说明。

本实施方式所涉及的健康改善路径探索装置1具备：第一模型生成部12，生成第一模型，上述第一模型基于多个说明变量的值来预测作为目的变量的健康指标的值；第二模型生成部13，生成第二模型，上述第二模型导出表示输入到第一模型的多个说明变量的值及由第一模型基于该多个说明变量的值预测出的健康指标的值的每个组合的存在容易度的存在概率；及路径探索部14，将从多个说明变量的当前值开始的预定范围内的多个测定对象值作为输入，基于第一模型及第二模型，分别导出与各测定对象值对应的健康指标的值及存在概率，以在相互连续的多个说明变量的值间迁移的方式，确定以当前值为起点而迁移各测定对象值的多个路径，将多个路径中的、终点处的健康指标的值比当前值处的健康指标的值得到改善的一个或多个路径确定为候补路径，将候补路径中的、路径中包含的各测定对象值的存在概率的积为最大的路径确定为健康改善路径。

本实施方式所涉及的健康改善路径探索方法包含如下的步骤：生成第一模型，上述第一模型基于多个说明变量的值来预测作为目的变量的健康指标的值；生成第二模型，上述第二模型导出表示输入到第一模型的多个说明变量的值及由第一模型基于该多个说明变量的值预测出的健康指标的值的每个组合的存在容易度的存在概率；及将从多个说明变量的当前值开始的预定范围内的多个测定对象值作为输入，基于第一模型及第二模型，分别导出与各测定对象值对应的健康指标的值及存在概率，以在相互连续的多个说明变量的值间迁移的方式，确定以当前值为起点而迁移各测定对象值的多个路径，将多个路径中的、终点处的健康指标的值比当前值处的健康指标的值改善的一个或多个路径确定为候补路径，并将候补路径中的、路径中包含的各测定对象值的存在概率的积为最大的路径确定为健康改善路径。

在本实施方式所涉及的健康改善路径探索装置1及健康改善路径探索方法中，生成基于多个说明变量来预测作为目的变量的健康指标的第一模型，生成导出所输入的多个说明变量的值及作为其预测值的健康指标的值的每个组合的存在概率的第二模型。当向第一模型及第二模型输入多个测定对象值时，分别导出各测定对象值及作为其预测值的健康指标的值的每个组合的存在概率。并且，在本健康改善路径探索装置1及健康改善路径探索方法中，以多个说明变量的当前值为起点，将迁移各测定对象值的多个路径中的、终点处的健康指标的值比当前值处的健康指标的值得到改善且路径内的各测定对象值的存在概率的积为最大的路径确定为健康改善路径。根据这样的结构，在输入了通过健康诊断等取得的多个说明变量的当前值时，根据从当前值开始的预定范围内的多个测定对象值，导出各测定对象值及作为其预测值的健康指标的值的组合的存在概率。并且，确定迁移各测定对象值的路径中的、从起点到终点健康指标得到改善且路径内的各测定对象值的存在概率为最大的路径。这样确定的路径由于在存在概率高的各测定对象值中迁移直至健康指标改善，所以成为仅经由现实的值、具体地表示改善健康的顺序的路径。通过示出这样的健康改善路径，能够提出对人来说能够执行的健康改善过程。

在上述健康改善路径探索装置1中，路径探索部14也可以将健康指标的值比当前值处的健康指标的值得到改善的路径中的、健康指标的值最为改善的路径确定为候补路径。由此，能够提出预期健康指标的改善的结果最好的健康改善过程。

路径探索部14也可以在执行了第一处理之后，反复执行第二处理，第一处理是将当前值作为基准值，并将与该基准值近似的多个说明变量的值选择为测定对象值的处理，第二处理是将所选择的测定对象值中输入到第二模型时的存在概率最高的测定对象值作为新的基准值，并将与该基准值近似的多个说明变量的值选择为测定对象值的处理。通过避免迁移所输入的测定对象值中存在概率低的测定对象值的路径，能够高效地探索现实的路径。

在上述健康改善路径探索装置1中，路径探索部14可以将最短且随机地迁移从起点到终点位置的各测定对象值的路径确定为随机路径，将候补路径中的、路径中包含的各测定对象值的存在概率的积为最大且为随机路径中包含的各测定对象值的存在概率的积以上的路径确定为健康改善路径。通过确定具有随机路径以上的存在概率的积的健康改善路径，可以基于存在概率的积来表示所确定的健康改善路径与随机路径相比有多么高效，能够提出对人来说更能够执行的健康改善过程。

以上，对本实施方式所涉及的健康改善路径探索装置1进行了说明，但本发明不限于上述实施方式。说明了将健康指标的值比当前值处的健康指标的值得到改善的路径中的、健康指标的值最为改善的路径确定为候补路径，但路径探索部14也可以将健康指标的值比当前值处的健康指标的值得到改善的路径中的、健康指标的值与预先确定的目标值的健康指标的值一致的路径确定为候补路径。路径探索部14例如也可以附加在预测值与目标值一致或低于目标值(或者高于目标值)的情况下结束探索等这样的探索条件。由此，即使在根据健康指标的方针或临床的见解等预先确定了健康指标的目标值的情况下，也能够在减小探索成本的同时探索路径。

另外，在实施方式中，说明了第一模型生成部12使用XGBoost的例子，但由于本发明不依赖于模型，因此也可以使用深度学习那样的回归模型。对于分层贝叶斯建模中的说明变量，假设正态分布或类别分布进行了说明，但也可以选择按照数据的分布。由此，也能够应对在医疗数据中常见的噪声多的数据、欠缺多的数据等。路径探索部14以特定的单位使介入变量变动来进行路径探索，但对于能够更精密地测定的变量，也可以根据用户的喜好或环境来调整变动单位。另外，在实施方式中，从变量重要度的上位选择介入变量，但也可以与XAI(explainable AI)中的Counterfactuals那样的技术组合来发现介入点。另外，在实施方式中，对作为第二模型而生成分层贝叶斯模型的例子进行了说明，但不限于此，可以使用能够表现数据的存在概率的任意的模型作为第二模型。

附图标记说明

1…健康改善路径探索装置，11…数据库，12…第一模型生成部，13…第二模型生成部，14…路径探索部。

Claims

1.一种健康改善路径探索装置，具备：

第一模型生成部，生成第一模型，所述第一模型基于多个说明变量的值来预测作为目的变量的健康指标的值；

第二模型生成部，生成第二模型，所述第二模型导出表示输入到所述第一模型的所述多个说明变量的值及由所述第一模型基于该多个说明变量的值而预测出的所述健康指标的值的每个组合的存在容易度的存在概率；及

路径探索部，将从所述多个说明变量的当前值开始的预定范围内的多个测定对象值作为输入，基于所述第一模型及所述第二模型，分别导出与各测定对象值对应的所述健康指标的值及所述存在概率，以在相互连续的所述多个说明变量的值间迁移的方式，确定以所述当前值为起点而迁移各测定对象值的多个路径，将所述多个路径中的、终点处的所述健康指标的值比所述当前值处的所述健康指标的值得到改善的一个或多个路径确定为候补路径，并将所述候补路径中的、路径中包含的各测定对象值的所述存在概率的积为最大的路径确定为健康改善路径。

2.根据权利要求1所述的健康改善路径探索装置，其中，

所述路径探索部将所述健康指标的值比所述当前值处的所述健康指标的值得到改善的路径中的、所述健康指标的值最为改善的路径确定为所述候补路径。

3.根据权利要求1或2所述的健康改善路径探索装置，其中，

所述路径探索部将所述健康指标的值比所述当前值处的所述健康指标的值得到改善的路径中的、所述健康指标的值与预先确定的目标值处的所述健康指标的值一致的路径确定为所述候补路径。

4.根据权利要求1～3中任一项所述的健康改善路径探索装置，其中，

所述路径探索部在执行了第一处理后反复执行第二处理，

所述第一处理是将所述当前值作为基准值，并将与该基准值近似的所述多个说明变量的值选择为所述测定对象值的处理，

所述第二处理是将所选择的所述测定对象值中的、输入到所述第二模型时的所述存在概率最高的所述测定对象值作为新的所述基准值并将与该基准值近似的所述多个说明变量的值选择为所述测定对象值的处理。

5.根据权利要求1～4中任一项所述的健康改善路径探索装置，其中，

所述路径探索部将最短且随机地迁移从所述起点到所述终点的各测定对象值的路径确定为随机路径，将所述候补路径中的、路径中包含的各测定对象值的所述存在概率的积最大且为所述随机路径中包含的各测定对象值的存在概率的积以上的路径确定为所述健康改善路径。

6.一种健康改善路径探索方法，是由信息处理装置执行的健康改善路径探索方法，

所述健康改善路径探索方法包含如下的步骤：

生成第一模型，所述第一模型基于多个说明变量的值来预测作为目的变量的健康指标的值；

生成第二模型，所述第二模型导出表示输入到所述第一模型的所述多个说明变量的值及由所述第一模型基于该多个说明变量的值预测出的所述健康指标的值的每个组合的存在容易度的存在概率；及

从所述多个说明变量的当前值开始将预定范围内的多个测定对象值作为输入，基于所述第一模型及所述第二模型，分别导出与各测定对象值对应的所述健康指标的值及所述存在概率，以在相互连续的所述多个说明变量的值间迁移的方式，确定以所述当前值为起点而迁移各测定对象值的多个路径，将所述多个路径中的、终点处的所述健康指标的值比所述当前值处的所述健康指标的值得到改善的一个或多个路径确定为候补路径，并将所述候补路径中的、路径中包含的各测定对象值的所述存在概率的积为最大的路径确定为健康改善路径。