CN112037925B

CN112037925B - 一种基于lstm算法的新发重大传染病预警方法

Info

Publication number: CN112037925B
Application number: CN202010741889.4A
Authority: CN
Inventors: 翟运开; 赵杰; 卢耀恩; 石金铭; 张文杰; 马倩倩; 陈昊天; 叶明�
Original assignee: First Affiliated Hospital of Zhengzhou University
Current assignee: First Affiliated Hospital of Zhengzhou University
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2023-06-23
Anticipated expiration: 2040-07-29
Also published as: CN112037925A

Abstract

本发明公开了一种基于LSTM算法的新发重大传染病预警方法，属于大数据领域，建立基于LSTM算法的新发重大传染病预警平台包括数据采集与处理系统、特征分析及预警指标筛选系统和新发重大传染病预警系统，解决了单一医院预警模式病例数量有限、无法对局部地区进行研判的缺陷的技术问题，本发明提出基于新发重大传染病注意力机制的长短期记忆人工神经网络预警模型。根据患者的患者的临床病例数据、关联影像数据、医学检验数据和远程会诊数据等，构造多时间尺度金字塔结构时序数据，并分别对不同尺度的时序数据构建基于新发重大传染病注意力机制的长短期记忆人工神经网络预警模型，满足不同时间灵敏程度的预警需求，平衡准确性和响应时间之间的矛盾。

Description

一种基于LSTM算法的新发重大传染病预警方法

技术领域

本发明属于大数据技术领域，涉及一种基于LSTM算法的新发重大传染病预警方法。

背景技术

新发重大传染病因其不确定性、难以预测性而使人们无法及时做出决策、采取特异性的预防和控制措施，造成高病死率并严重影响社会稳定和经济发展，成为世界性的重大公共卫生问题。

深度学习近些年得到了迅速发展，并且被广泛地应用于计算机视觉、语音识别、医学诊断等诸多实际领域，尤其是传染病监测、预警领域。利用深度学习算法强大的特征提取能力来实现对海量临床医疗数据、流行病学数据的挖掘，发掘数据中潜在的新发传染病的发病规律，对新发传染病的预警研究具有一定的现实意义和科研价值。基于深度学习的传染病预测模型越来越多，但大部分都是针对已知法定传染病或单一病种传染病，预测其数量随时间变化情况，超过一定阈值时预警，并不适用于未知新发重大传染病预警。新发传染病的爆发具有偶然性，其模式较为复杂，依靠单一阈值难以准确刻画由传染病所引起的医疗就诊数据的时序变化模式，往往会导致预警效果不及时、准确度不高等问题。

发明内容

本发明的目的是提供一种基于LSTM算法的新发重大传染病预警方法，解决了单一医院预警模式病例数量有限、无法对局部地区进行研判的缺陷的技术问题。

为实现上述目的，本发明采用如下技术方案：

一种基于LSTM算法的新发重大传染病预警方法，包括如下步骤：

步骤1:建立基于LSTM算法的新发重大传染病预警平台，基于LSTM算法的新发重大传染病预警平台包括数据采集与处理系统、特征分析及预警指标筛选系统和新发重大传染病预警系统；

数据采集与处理系统包括Hadoop大数据处理模块和数据统一共享平台，Hadoop大数据处理模块用于采集医疗数据，医疗数据包含就诊数据；

数据统一共享平台用采集预警外部数据；

特征分析及预警指标筛选系统包括传染病患者人群画像模块、传染病患者特征分析模块、预警指标整合模块、预警指标评价模块和预警指标验证模块；

传染病患者人群画像模块用于构建传染病患者人群画像，以人工可读的标签形式刻画一个患者的基本属性和行为特征；

传染病患者特征分析模块用于描述传染病患者的特点，以体现传染病患者基本特征为目标，构建传染病患者个人画像标签体系；

预警指标整合模块用于构建预警指标集，整合传染病患者的特征信息，生成指标分类标记；

预警指标评价模块用于利用评价函数对指标分类标记进行计算，选择出预警指标体系，并使用标注好的数据对预警指标体系进行验证；

新发重大传染病预警系统包括LSTM模型建立模块、模型训练模块和预测模块；

LSTM模型建立模块用于构建LSTM模型；

模型训练模块用于对LSTM模型进行训练；

预测模块用于对LSTM模型输入预警指标体系，并通过LSTM模型计算的预警结果进行输出；

步骤2：数据采集与处理系统获取医疗数据和预警外部数据，制定数据纳入与排除标准，对医疗数据和预警外部数据进行数据清洗、数据标准化和数据融合，构建预警数据库；

医疗数据包含临床病例数据；

步骤3：在特征分析及预警指标筛选系统中，传染病患者人群画像模块调取预警数据库中的传染病患者数据，基于传染病患者相关数据，采用机器学习、深度学习、知识图谱数据挖掘分析技术，识别一个传染病患者的特征、属性和行为模式，并以人工可读的标签形式刻画一个传染病患者的基本属性和行为特征；

全面的描述一个传染病患者的特点，以体现传染病患者基本特征为目标，构建传染病患者个人画像标签体系；

步骤4：预警指标整合模块对传染病患者个人画像标签体系中的数据分类为6个一级预警指标，一级预警指标包括患者基本信息、传染病相关信息、患者地址位置信息、临床相关信息、影像学信息和医学检验信息；

在一级指标类别下收集所有可能的二级指标特征，组成初始的预警指标集；

在初始指标集合上使用序列后向选择算法搜索指标子空间，整合预警指标集，生成指标分类标记；

步骤5：预警指标评价模块选择出预警指标体系，并使用标注好的数据对预警指标体系进行验证；

步骤6：新发重大传染病预警系统中的LSTM模型建立，其步骤如下：

步骤S1：按照时间金字塔模型，分别对“分钟”、“小时”、“天”的多种时间尺度的临床病例数据进行分类整理，得到不同精细程度的临床数据；

步骤S2：构建LSTM模型，LSTM模型包括数个LSTM单元，将特定时长的临床数据按照时间序列输入到LSTM单元中，并对每个时刻的LSTM单元输出进行加权计算，使得所提出的LSTM模型对异常数据所对应的LSTM单元具有较高的权重，使其不淹没在大量的临床数据中；

步骤S3：模型训练模块将预警指标体系中的数据转换为时间序列模式，使用LSTM模型对不同时刻的就诊数据进行建模，判断就诊数据是否出现异常；得到训练好的LSTM模型；

步骤S4：模型训练模块根据医疗数据构建测试集，向训练好的LSTM模型中输入测试集，输出测试集结果，得到混淆矩阵，通过敏感度Sensitivity、特异性Specificity、准确率Accuracy、G-mean、受试者工作特征曲线ROC和下面积AUC指标评估训练好的LSTM模型的性能；

步骤S5：设定瓶颈特征，使用历史正常的就诊数据建立历史瓶颈特征库，将待测医疗数据的瓶颈特征和历史瓶颈特征库使用sigmoid函数进行比较，得到判定指标：异常时，判定指标的就诊数据趋于1；正常时，判定指标的就诊数据趋于0，将判定指标作为预警程度的量化指标；

瓶颈特征即为所述6个一级预警指标；

步骤S6：将医疗数据输入到LSTM模型中，获取预测结果。

优选的，医疗数据包括从HIS医院信息系统、LIS医院信息系统、PACS医院信息系统、EMR医院信息系统、国家远程医疗中心远程医疗系统、新型冠状病毒远程会商系统和互联网医疗监管平台提取的临床病例数据、远程会诊数据、新冠肺炎数据和互联网诊疗数据；

预警外部数据包括天气数据、人口数据、人群迁徙数据和经济数据。

优选的，所述特征分析及预警指标筛选系统和所述新发重大传染病预警系统均部署在分布式服务器集群中。

优选的，在执行步骤5时，具体步骤如下：

步骤A1：使用信息增益IG作为评价函数J(X)，设定所述分类标记为分类标记C，计算分类标记C的信息熵H(C)和将指标特征Fj用于预警分类后的分类标记C的条件信息熵，用IG(C|Fj)表示，公式为：

IG(C|F_j)＝H(C)-H(C|F_j)；

步骤A2：利用停止的准则选择出特征子集，将特征子集作为预警指标体系；

步骤A3：使用已经标注好的数据对预警指标特征进行验证。

优选的，在执行步骤4时，所述二级指标特征包括患者自然属性、传染病属性、患者位置属性、临床属性、影像学属性和医学检验属性。

本发明所述的一种基于LSTM算法的新发重大传染病预警方法，解决了单一医院预警模式病例数量有限、无法对局部地区进行研判的缺陷的技术问题，本发明提出基于新发重大传染病注意力机制的长短期记忆人工神经网络预警模型。根据患者的关联影像数据、医学检验数据和远程会诊数据，构造多时间尺度金字塔结构时序数据，并分别对不同尺度的时序数据构建基于新发重大传染病注意力机制的长短期记忆人工神经网络预警模型，学习不同时间精度的预警模式，满足不同时间灵敏程度的预警需求，平衡准确性和响应时间之间的矛盾。

附图说明

图1为本发明的系统架构图；

图2是本发明的流程图。

具体实施方式

如图1-图2所示的一种基于LSTM算法的新发重大传染病预警方法，包括如下步骤：

数据统一共享平台用采集预警外部数据；

本实施例中，传染病患者个人画像标签体系如患者自然属性(性别、年龄、联系方式等)、传染病属性(传染病类型、传播途径、传染源、聚集史等)、患者位置属性(家庭地址、交通情况、患者活动轨迹等)、临床属性(发热、咳嗽、腹泻、呕吐等)、影像学属性(肺部X线检查或CT检查等)、医学检验属性(白细胞总数、淋巴细胞数、肌红蛋白数等)等。

LSTM模型建立模块用于构建LSTM模型；

模型训练模块用于对LSTM模型进行训练；

医疗数据包含临床病例数据；

对于异常特征较为明显的新发重大传染病，“分钟”尺度下的模型则能够有效及时响应；对于特征不太明显的传染病，短时特征往往不够突出，需要观察一定时长的临床数据，才可以有效的检测到行为异常。

具体公式如下：

其中n_pos为异常时间数目，n_neg是正常就诊日数目。rank_i为概率得分由小到大排序后，第i条样本的序号，∑_i∈posClass rank_i为非正常日的序号累加。

为了优化所提出神经网络的预警性能，本实施例使用网格搜索的超参数优化算法，将待测试的各超参数区间组合为多维空间，根据每一区间的搜索步长将测试空间划分为具体网格，每一个网格对应着一个参数组取值，然后每一个网格对应一次模型试验，得到各超参数组合对应的评价指标，选择最优评价指标多对应的超参数作为预警模型的优化超参数，从而提升预警性能。

瓶颈特征即为所述6个一级预警指标；

Sigmoid函数是LSTM模型中的一个函数。

步骤S6：将医疗数据输入到LSTM模型中，获取预测结果。

本实施例中，在预警后完成预警短信发送、预警结果展示和预警报告生成等功能。

优选的，在执行步骤5时，具体步骤如下：

步骤A1：使用信息增益IG(Information Gain)作为评价函数J(X)，设定所述分类标记为分类标记C，计算分类标记C的信息熵H(C)和将指标特征Fj用于预警分类后的分类标记C的条件信息熵，用IG(C|Fj)表示，公式为：

IG(C|F_j)＝H(C)-H(C|F_j)；

停止的准则是假设存在指标特征子集A和指标特征子集B，分类变量为C，若IG(C|A)>IG(C|B),则认为选用特征子集A的分类结果比B好，因此倾向于选用特征子集A。

步骤A3：使用已经标注好的数据对预警指标特征进行验证。

优选的，在执行步骤4时，所述二级指标特征包括患者自然属性(性别、年龄、联系方式等)、传染病属性(传染病类型、传播途径、传染源、聚集史等)、患者位置属性(家庭地址、交通情况、患者活动轨迹等)、临床属性(发热、咳嗽、腹泻、呕吐等)、影像学属性(肺部X线检查或CT检查等)、医学检验属性(白细胞总数、淋巴细胞数、肌红蛋白数等)。

本发明所述的一种基于LSTM算法的新发重大传染病预警方法，提出综合利用临床病例数据、远程会诊数据、新冠肺炎数据、互联网诊疗数据等临床数据以及天气数据、人口数据、人群迁移数据、经济数据等外部数据对新发重大传染病进行预警，解决了单一医院预警模式病例数量有限、无法对局部地区进行研判的缺陷，本发明提出基于新发重大传染病注意力机制的长短期记忆人工神经网络预警模型。根据患者的关联影像数据、医学检验数据和远程会诊数据，构造多时间尺度金字塔结构时序数据，并分别对不同尺度的时序数据构建基于新发重大传染病注意力机制的长短期记忆人工神经网络预警模型，学习不同时间精度的预警模式，满足不同时间灵敏程度的预警需求，平衡准确性和响应时间之间的矛盾。

Claims

1.一种基于LSTM算法的新发重大传染病预警方法，其特征在于：包括如下步骤：

数据统一共享平台用采集预警外部数据；

LSTM模型建立模块用于构建LSTM模型；

模型训练模块用于对LSTM模型进行训练；

医疗数据包含临床病例数据；

瓶颈特征即为所述6个一级预警指标；

步骤S6：将医疗数据输入到LSTM模型中，获取预测结果。

2.如权利要求1所述的一种基于LSTM算法的新发重大传染病预警方法，其特征在于：医疗数据包括从HIS医院信息系统、LIS医院信息系统、PACS医院信息系统、EMR医院信息系统、国家远程医疗中心远程医疗系统、新型冠状病毒远程会商系统和互联网医疗监管平台提取的临床病例数据、远程会诊数据、新冠肺炎数据和互联网诊疗数据；

3.如权利要求1所述的一种基于LSTM算法的新发重大传染病预警方法，其特征在于：所述特征分析及预警指标筛选系统和所述新发重大传染病预警系统均部署在分布式服务器集群中。

4.如权利要求1所述的一种基于LSTM算法的新发重大传染病预警方法，其特征在于：在执行步骤5时，具体步骤如下：

IG(C|F_j)＝H(C)-H(C|F_j)；

步骤A3：使用已经标注好的数据对预警指标特征进行验证。

5.如权利要求1所述的一种基于LSTM算法的新发重大传染病预警方法，其特征在于：在执行步骤4时，所述二级指标特征包括患者自然属性、传染病属性、患者位置属性、临床属性、影像学属性和医学检验属性。