CN109949936A

CN109949936A - 一种基于深度学习混合模型的再住院风险预测方法

Info

Publication number: CN109949936A
Application number: CN201910190496.6A
Authority: CN
Inventors: 张岩龙; 幸勇; 邓军; 罗林; 王利亚
Original assignee: Chengdu Shu Lian Yi Kang Technology Co Ltd
Current assignee: Chengdu Shu Lian Yi Kang Technology Co Ltd
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2019-06-28
Anticipated expiration: 2039-03-13
Also published as: CN109949936B

Abstract

本发明公开了一种基于深度学习混合模型的再住院风险预测方法，该方法包括以下步骤：步骤1：收集数据集，包括患者个体特征和外部环境特征；步骤2：特征分组及预处理，将特征分为静态特征和时间序列特征；步骤3：时间序列特征挖掘，对时间序列特征进行统计分析、构建LDA模型和双向LSTM模型；步骤4：特征拼接，将静态特征和经特征工程处理的时间序列特征融合，作为CNN模型的输入；步骤5：构建CNN模型，预测患者再住院风险。本发明基于深度学习算法，对患者健康医疗大数据及所处外部环境进行研究分析，构建再住院风险预测模型，有助于医疗机构合理安排医疗资源，为患者提供更好的医疗服务，也有助于提升保险机构对参保人再住院风险识别的效率和准确率。

Description

一种基于深度学习混合模型的再住院风险预测方法

技术领域

本发明涉及医疗健康领域、机器学习技术，具体来讲涉及一种基于LDA、LSTM、CNN混合模型的再住院风险预测方法。

背景技术

随着医疗信息化的不断完善，我国医疗机构已迈入到信息化和数字化的时代，医疗健康领域积累了大量数据，为“人工智能+医疗”研究提供了坚实的数据基础。同时，精准健康医疗已被越来越多的国家和机构所重视，而再住院风险预测是精准健康医疗的一个重要研究方向。

精准化和个性化的再住院风险预测对提升医疗公共服务水平和医疗保险统筹规划具有重大的应用价值。在医疗公共服务方面，再住院风险预测有助于医疗机构合理安排医疗资源，为患者提供更好的医疗服务；在医疗保险管理方面，再住院风险预测有助于提升保险机构对参保人理赔风险识别的效率和准确性，为实现差异化服务提供数据支撑。

分析健康医疗大数据的特性及再住院风险预测模型相关研究情况，目前工作还存在一些问题有待研究，主要体现在以下三个方面：(1)再住院风险预测模型主要考虑患者个体特征，忽略了外部环境对患者再住院的影响；(2)对患者疾病变化趋势、治疗路径和患病相似性的信息挖掘不足；(3)目前，构建再住院风险预测模型主要采用传统的机器学习算法，而基于树模型的传统机器学习算法处理大样本量的运行效率极低。

鉴于此，探索基于时间序列模型和主题模型的特征处理方法，探索基于深度学习框架的分类算法，构建再住院风险预测模型，为医疗健康领域个人再住院风险识别提供支撑是本发明主要解决的问题。

发明内容

为解决上述不足，本发明在此提供一种基于深度学习混合模型的再住院风险预测方法。本发明基于深度学习算法，对患者健康医疗大数据及所处外部环境进行研究分析，构建再住院风险预测模型，有助于医疗机构合理安排医疗资源，为患者提供更好的医疗服务，也有助于提升保险机构对参保人再住院风险识别的效率和准确率。

本发明是这样实现的，构造一种基于深度学习混合模型的再住院风险预测方法，其特征在于：该方法包括以下步骤：

步骤1：收集数据集，包括患者个体特征和外部环境特征；

步骤2：特征分组及预处理，将特征分为静态特征和时间序列特征；

步骤3：时间序列特征挖掘，对时间序列特征进行统计分析、构建LDA模型和双向LSTM模型；

步骤4：特征拼接，将静态特征和经特征工程处理的时间序列特征融合，作为CNN模型的输入；

步骤5：构建CNN模型，预测患者再住院风险。

根据本发明所述一种基于深度学习混合模型的再住院风险预测方法，其特征在于：步骤(1)所述的收集数据集，包括如下子步骤：

步骤1.1：获取与患者健康相关的数据和家族史信息；

步骤1.2：获取患者现住址的外部环境特征，包括地区经济水平、空气污染和气象信息；

步骤1.3：设定样本集合和标签集合，所述样本集合为X＝{x₁,K,x_n}，为患者i的n_i条记录，r_ij为元组(s_ij,t_ij)，其中s_ij∈R^d为在时间t_ij的一个d维向量；划分动态时间分割点，对样本集合未来某个时间段(如1年)是否再住院打标签，标签集合为Y＝{y₁,K,y_n}，

根据本发明所述一种基于深度学习混合模型的再住院风险预测方法，其特征在于：对于步骤1.3来讲，划分动态时间分割点，包括如下子步骤：

步骤1.3.1：定义时间滑动窗口；

步骤1.3.2：选择时间滑动窗口中的任意一天为时间分割点；

步骤1.3.3：时间分割点之前的样本集合定义为患者特征，时间分割点之后某个时间段(如1年)的样本集合定义为再住院标签。

根据本发明所述一种基于深度学习混合模型的再住院风险预测方法，其特征在于：步骤2所述的特征分组及预处理，包括如下子步骤：

步骤2.1：在特征集中，提取距时间分割点最近的患者基本信息、家族史、外部环境特征，作为静态特征；

步骤2.2：按患者就诊记录、体检记录的时间先后顺序，提取特征集中患者所有的诊疗信息、体检信息、药物治疗信息，作为时间序列特征；

步骤2.3：针对静态特征，对特征进行预处理，即去噪、填补缺失值、离散化处理等；

步骤2.4：针对时间序列特征，对疾病名称和手术操作按ICD(国际疾病分类(International Classification of Diseases,ICD))编码进行标准化处理，对药物名称按社会保险药品分类进行标准化处理，对体检指标是否正常用“0-1”表示。

根据本发明所述一种基于深度学习混合模型的再住院风险预测方法，其特征在于：步骤3所述的时间序列特征挖掘，包括如下子步骤：

步骤3.1：对时间序列特征进行统计分析，包括住院次数计数、住院时长求和、住院费用求平均值、入院病情计数等；

步骤3.2：对时间序列特征中的手术操作按ICD-9编码计数，出院诊断及出院病情按ICD-10编码计数，并分别构建LDA模型，挖掘患者疾病间的相似性；

所述的，LDA模型为隐含狄利克雷分布模型(Latent Dirichlet Allocation)，该模型采用词袋模型，将每一篇文档视为一个词频向量，通过将文档表示为一个主题向量来达到特征降维的目的；

将研究期间每个患者所患疾病作为一个文档，每种疾病编码为一个字符，运用LDA模型计算文档之间的语义相似度，寻找字符间的语义主题；

构建LDA模型，包括如下子步骤：输入患者手术操作、出院诊断或出院病情计数；通过分析困惑度与聚类效果计算主题数l；对特征进行训练，构建LDA模型；反复迭代，直至收敛；提取各主题模型前m个主题关键词；

以出院诊断编码为例，主题模型计算公式为：

Topic_i＝α_i1*jbbm_i1+L+α_ij*jbbm_ij+L+α_im*jbbm_im,(i＝1,K,l)

其中，α_ij为主题模型中出院诊断编码jbbm_ij的系数；m表示构成每个主题模型中的关键词数量；l表示出院诊断编码的主题数，通过分析困惑度与聚类效果的相关关系确定，计算公式为：

其中，p(w)指训练集中每个单词出现的概率，p(w)＝p(z|d)*p(w|z)。p(z|d)表示一个文档中每个主题出现的概率，p(w|z)表示词典中每一个单词在某个主题下出现的概率；

步骤3.3：对时间序列特征，构建双向LSTM模型，挖掘患者的疾病变化趋势及治疗路径；

所述的，LSTM模型为长短期记忆网络(Long Short-Term Memory)，通过分析患者本次住院前后所患疾病及药物治疗情况，挖掘患者的疾病变化趋势及治疗路径，计算公式为：

h_t＝o_t⊙tanh(c_t)

其中f_t，i_t和o_t为三个门控制单元，主要用来控制信息传递；遗忘门f_t控制上一个时刻的内部状态c_t-1需要丢弃多少信息；输入门i_t控制当前时刻的候选状态有多少信息需要保留；输出门o_t控制当前时刻的内部状态c_t有多少信息需要输出给外部状态h_t；⊙表示向量元素乘积；c_t-1为上一时刻的内部状态；是通过非线性函数得到的获选状态，公式如下所示：

其中tanh()为双曲正切函数；W，U和b为可学习的网络参数；x_t为当前时刻的输入数据。在每个时刻t，长短期记忆网络的内部状态c_t记录了从开始到当前时刻的历史信息。

根据本发明所述一种基于深度学习混合模型的再住院风险预测方法，其特征在于：步骤4所述的特征拼接，具体包括：根据患者ID，将静态特征和经特征工程处理的时间序列特征融合，得到CNN模型的输入。

根据本发明所述一种基于深度学习混合模型的再住院风险预测方法，其特征在于：步骤5所述的CNN模型构建步骤如下：

步骤5.1：卷积层，输入拼接特征，通过卷积操作提取患者的局部特征信息；

步骤5.2：池化层，从卷积层提取的特征中选出最重要的特征值；

步骤5.3：全连接层，将特征表示映射到样本的标记空间，实现特征降维；

步骤5.4：使用激活函数计算患者属于每个类别的概率，实现分类操作，输出患者再住院分类结果；

步骤5.5：输入测试集，根据样本集合的模型训练结果预测测试集的再住院风险。

本发明具有如下优点：

(1)本发明构建的再住院风险预测模型，除了考虑患者自身特征，还考虑了患者家族史、患者所处环境特征，较好地分析了外部环境对患者再住院的影响，有利于提升再住院风险预测的准确率。

(2)本发明通过时间序列特征挖掘，能更好地捕捉患者既往住院史、体检记录、药物治疗记录对患者再住院的影响。通过统计分析，整体掌握患者既往住院史的严重程度；通过主题模型，对特征进行降维，挖掘患者疾病间的相似性；通过双向LSTM模型，挖掘患者疾病变化趋势及治疗路径。

(3)本发明基于深度学习框架构建再住院风险预测模型，有利于提升预测效果，且适用于处理大样本量，比传统的机器学习算法运行效率更高。

附图说明

图1为一种基于深度学习混合模型的再住院风险预测方法的流程图；

图2为动态时间分割点划分流程图；

图3为特征分组及预处理流程图；

图4为构建LDA模型的流程图；

图5为构建CNN模型的流程图。

具体实施方式

下面将结合附图1-图5对本发明进行详细说明，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明通过改进在此提供一种基于深度学习混合模型的再住院风险预测方法，包括以下步骤：

步骤1：收集数据集，包括患者个体特征和外部环境特征；

步骤5：构建CNN模型，预测患者再住院风险。

所述的收集数据集，包括如下子步骤：

步骤1.1：获取与患者健康相关的数据和家族史信息；

所述的，与患者健康相关的数据包括：

患者基本信息：患者年龄、性别、民族、职业、现住址、婚姻状况等；

临床诊疗信息：研究期间患者每次住院记录的入院时间、出院时间、住院费用、入院病情、手术编码、手术级别、出院诊断编码、出院病情、离院方式等；

药物治疗信息：研究期间患者服用的药物名称及用药量；

体检信息：研究期间患者每次体检的各项体检指标数据；

家族史信息：研究期间患者家庭成员的出院诊断编码计数。

所述的，患者现住址的外部环境特征包括：

地区经济水平：人均可支配收入、人均GDP等；

空气污染：PM2.5、PM10、SO2、NO2、O3、CO的日平均浓度；

气象信息：日平均温度、最高温度、最低温度、日平均相对湿度等。

如图2所示，划分动态时间分割点，包括如下子步骤：

步骤1.3.1：定义时间滑动窗口；

步骤1.3.2：选择时间滑动窗口中的任意一天为时间分割点；

如图3所示，所述的特征分组及预处理，包括如下子步骤：

在具体实施例中，提取静态特征表现为：定义距时间分割点最近的患者住院信息为患者基本信息；定义研究起始时间至时间分割点的外部环境指标的平均值作为外部环境特征；定义研究起始时间至时间分割点的家庭成员所有住院记录中，出院诊断编码的计数为家族史特征。

所述的时间序列特征挖掘，包括如下子步骤：

所述的，LDA模型为隐含狄利克雷分布模型(Latent Dirichlet Allocation)，该模型采用词袋模型，将每一篇文档视为一个词频向量，通过将文档表示为一个主题向量来达到特征降维的目的。

在具体实施例中，将研究期间每个患者所患疾病作为一个文档，每种疾病编码为一个字符，运用LDA模型计算文档之间的语义相似度，寻找字符间的语义主题。

如图4所示，构建LDA模型，包括如下子步骤：输入患者手术操作、出院诊断或出院病情计数；通过分析困惑度与聚类效果计算主题数l；对特征进行训练，构建LDA模型；反复迭代，直至收敛；提取各主题模型前m个主题关键词。

以出院诊断编码为例，主题模型计算公式为：

Topic_i＝α_i1*jbbm_i1+L+α_ij*jbbm_ij+L+α_im*jbbm_im,(i＝1,K,l)

其中，p(w)指训练集中每个单词出现的概率，p(w)＝p(z|d)*p(w|z)。p(z|d)表示一个文档中每个主题出现的概率，p(w|z)表示词典中每一个单词在某个主题下出现的概率。

步骤3.3：对时间序列特征，构建双向LSTM模型，挖掘患者的疾病变化趋势及治疗路径。

h_t＝o_t⊙tanh(c_t)

所述的特征拼接，具体包括：

步骤4：根据患者ID，将静态特征和经特征工程处理的时间序列特征融合，得到CNN模型的输入。

所述的CNN模型，全称为卷积神经网络(Convolutional Neural Network，CNN)，是一种深度前馈人工神经网络。

如图5所示，构建CNN模型包括如下子步骤：

在具体的实施例中，可使用平均值池化函数，即使用某一个位置相邻数据的平均值来代替网络在该位置的数据，使数据的表示近似保持不变，从而提取对分类最重要的信息。在卷积神经网络中使用池化，在一定程度上可以防止过拟合，有助于模型的优化。

步骤5.4：使用激活函数计算患者属于每个类别的概率，实现分类操作，输出患者再住院分类结果。

在具体的实施例中，可使用Sigmoid函数作为激活函数，将输出响应的值域压缩在[0,1]之间，公式为：

其中x为全连接层的输出结果。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于深度学习混合模型的再住院风险预测方法，其特征在于：该方法包括以下步骤：

步骤1：收集数据集，包括患者个体特征和外部环境特征；

步骤5：构建CNN模型，预测患者再住院风险。

2.根据权利要求1所述一种基于深度学习混合模型的再住院风险预测方法，其特征在于：步骤(1)所述的收集数据集，包括如下子步骤：

步骤1.1：获取与患者健康相关的数据和家族史信息；

3.根据权利要求2所述一种基于深度学习混合模型的再住院风险预测方法，其特征在于：对于步骤1.3来讲，划分动态时间分割点，包括如下子步骤：

步骤1.3.1：定义时间滑动窗口；

步骤1.3.2：选择时间滑动窗口中的任意一天为时间分割点；

4.根据权利要求1所述一种基于深度学习混合模型的再住院风险预测方法，其特征在于：步骤2所述的特征分组及预处理，包括如下子步骤：

步骤2.4：针对时间序列特征，对疾病名称和手术操作按ICD编码进行标准化处理，对药物名称按社会保险药品分类进行标准化处理，对体检指标是否正常用“0-1”表示。

5.根据权利要求1所述一种基于深度学习混合模型的再住院风险预测方法，其特征在于：步骤3所述的时间序列特征挖掘，包括如下子步骤：

以出院诊断编码为例，主题模型计算公式为：

Topic_i＝α_i1*jbbm_i1+L+α_ij*jbbm_ij+L+α_im*jbbm_im,(i＝1,K,l)

6.根据权利要求1所述一种基于深度学习混合模型的再住院风险预测方法，其特征在于：步骤4所述的特征拼接，具体包括：根据患者ID，将静态特征和经特征工程处理的时间序列特征融合，得到CNN模型的输入。

7.根据权利要求1所述一种基于深度学习混合模型的再住院风险预测方法，其特征在于：步骤5所述的CNN模型构建步骤如下：