CN110136841B - 疾病发病预测方法、装置及计算机可读存储介质 - Google Patents

疾病发病预测方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110136841B
CN110136841B CN201910238718.7A CN201910238718A CN110136841B CN 110136841 B CN110136841 B CN 110136841B CN 201910238718 A CN201910238718 A CN 201910238718A CN 110136841 B CN110136841 B CN 110136841B
Authority
CN
China
Prior art keywords
seasonal
data
disease
model
sarima
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910238718.7A
Other languages
English (en)
Other versions
CN110136841A (zh
Inventor
陈娴娴
阮晓雯
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910238718.7A priority Critical patent/CN110136841B/zh
Publication of CN110136841A publication Critical patent/CN110136841A/zh
Application granted granted Critical
Publication of CN110136841B publication Critical patent/CN110136841B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Medical Informatics (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Development Economics (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本方案涉及人工智能,提供疾病发病预测方法、装置及存储介质,提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;利用特征工程进行特征提取,获取设定维度的特征数据集,并以特征数据集中的数据分别形成训练数据、测试数据;利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;将训练数据输入模型,确定模型的参数;运用训练的SARIMA模型对疾病的周发病人数进行预测。本发明能够捕捉到疾病周发病人数较近周次的人数变化规律,还能够捕捉到不同周期相同周次的季节性规律,预测更准确。爬取天气数据辅助预测,结合LASSO模型,能基于天气的变化增强预测疾病发病人数的变化规律。

Description

疾病发病预测方法、装置及计算机可读存储介质
技术领域
本发明涉及人工智能,具体地说,涉及一种疾病发病预测方法、装置及计算机可读存储介质。
背景技术
随着全球经济一体化进程的加快,经济与交流活动增加,人群流动日益频繁,为疾病的传播与爆发提供了有利环境,公共卫生健康问题越来越严峻。同时,社会与自然环境也发生着变化,环境污染、自然灾害等影响公众健康事件的增多也增加了突发公共卫生事件爆发的可能性。
如何能早期识别到疾病突发公共卫生事件,及时发出预警,尽早采取相应的控制措施,将突发公共卫生事件造成的损失降到最低,是公共卫生领域长期以来关注的焦点,也是卫生应急工作的重要内容。突发公共卫生事件预警,是通过对有关数据的收集,整理、分析和整合,运用计算机、网络、通讯等现代先进的技术,对事件的征兆进行监测、识别、诊断与评价,及时报警,告知有关部门和公众做好相关的应对和准备工作,及时采取有效的防控措施,尽可能阻止或减缓突发事件的发生或减少事件的危害。
突发公共卫生事件预警中的一个重要工作是疾病预测,即根据历史的疾病监测数据(即病患数据)预测未来的疾病监测数据。随着机器学习技术的发展,越来越多的机器学习方法应用在疾病预测上。
目前针对手足口病通常是在患病后进行药物治疗,但由于目前缺乏有效治疗药物,所以有必要结合疾病预防措施来防治手足口病,但目前对于手足口病的预测并没有有效的技术手段。
发明内容
为解决以上技术问题,本发明提供一种疾病发病预测办法,应用于电子装置,提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;运用经过训练的SARIMA模型对疾病的周发病人数进行预测。
优选地,SARIMA模型为基于周期为s的时间序列模型,表达式如下:
Figure BDA0002008994270000021
其中,L为非季节性疾病时间序列的滞后算子;
Ls为季节性疾病时间序列的滞后算子;
Δd为d次疾病的非季节性差分;
Figure BDA0002008994270000022
为D次疾病的非季节性差分;
Figure BDA0002008994270000023
代表了系数为p的自回归(MA(q))多项式;
Figure BDA0002008994270000024
代表了系数为q的移动平均多项式;
BQ代表系数为Q的季节移动平均多项式;
Δ与Δs分别表示非季节与s期季节性差分;
d,D分别表示的非季节与季节性差分数,用于把时间性季节序列yt转换为一个平稳的时间序列;
ut是白噪声;
Figure BDA0002008994270000025
与Ap(Ls)用来分别表示为非季节与季节性自回归算子;
Figure BDA0002008994270000026
与BQ(Ls)用来分别称为非季节与季节移动平均算子;
p表示为非季节性自回归项数;
q表示为非季节性移动平均算子的最大滞后阶数;
P表示为季节性自回归项数;
Q表示为季节性移动平均算子的最大滞后阶数。
优选地,将经过训练的SARIMA预测模型作为一个参数K,结合温度T、降水W、气压PR来更进一步判断周发病人数,经过训练的SARIMA预测模型产生预测数据,将参数K、温度T、降水W、气压PR,输入到Lasso回归模型中,并通过训练数据,确定参数K、温度T、降水W、气压PR在预测上的权重分配,其中,参数K的训练数据即为经过训练的SARIMA模型的预测数据,即经过训练的SARIMA模型的输入即为参数K的输入,经过训练的SARIMA模型的输出即为Lasso回归模型的输出,Lasso回归模型公式如下,
Figure BDA0002008994270000031
其中,前四项是分别对应参数K、温度T、降水W、气压PR四项在Lasso回归模型中的权重分配,λ||β||1是惩罚函数,通过训练数据输入Lasso回归模型,获取权重参数X1、X2、X3、X4的数值,从而确定Lasso回归模型,并以该Lasso回归模型来预测疾病的周发病人数,
其中,y为预测的周发病人数;
λ为惩罚函数的系数;
X1、X2、X3、X4为权重参数;
β是估计参数。
优选地,在利用特征工程扩充特征维度之前,先将所述疾病数据进行特征预处理,所述特征预处理包括填补缺失值、删除异常值。
优选地,疾病发病人数的数据包括手足口病的数据。
优选地,提取以周为频次的疾病发病人数的数据和对应的天气数据的方法是:将以天为频次的疾病发病人数转化为以周为频次的疾病发病人数,利用爬虫方法从网站上爬取对应周次的天气数据,所述天气数据包括气温、气压、降水、湿度、风力数据,并对各天气数据求取平均值,作为以周为频次的疾病发病人数对应的天气数据。
本发明还提供一种电子装置,该电子装置包括:存储器和处理器,所述存储器中存储有疾病发病预测程序,所述疾病发病预测程序被所述处理器执行时实现如下步骤:提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;运用经过训练的SARIMA模型对疾病的周发病人数进行预测。
优选地,SARIMA模型为基于周期为s的时间序列模型,表达式如下:
Figure BDA0002008994270000041
其中,L为非季节性疾病时间序列的滞后算子;
Ls为季节性疾病时间序列的滞后算子;
Δd为d次疾病的非季节性差分;
Figure BDA0002008994270000042
为D次疾病的非季节性差分;
Figure BDA0002008994270000043
代表了系数为p的自回归(MA(q))多项式;
Figure BDA0002008994270000044
代表了系数为q的移动平均多项式;
BQ代表系数为Q的季节移动平均多项式;
Δ与Δs分别表示非季节与s期季节性差分;
d,D分别表示的非季节与季节性差分数,用于把时间性季节序列yt转换为一个平稳的时间序列;
ut是白噪声;
Figure BDA0002008994270000045
与Ap(Ls)用来分别表示为非季节与季节性自回归算子;
Figure BDA0002008994270000046
与BQ(Ls)用来分别称为非季节与季节移动平均算子;
p表示为非季节性自回归项数;
q表示为非季节性移动平均算子的最大滞后阶数;
P表示为季节性自回归项数;
Q表示为季节性移动平均算子的最大滞后阶数。
优选地,将经过训练的SARIMA预测模型作为一个参数K,结合温度T、降水W、气压PR来更进一步判断周发病人数,经过训练的SARIMA预测模型产生预测数据,将参数K、温度T、降水W、气压PR,输入到Lasso回归模型中,并通过训练数据,确定参数K、温度T、降水W、气压PR在预测上的权重分配,其中,参数K的训练数据即为经过训练的SARIMA模型的预测数据,即经过训练的SARIMA模型的输入即为参数K的输入,经过训练的SARIMA模型的输出即为Lasso回归模型的输出,Lasso回归模型公式如下,
Figure BDA0002008994270000051
其中,前四项是分别对应参数K、温度T、降水W、气压PR四项在Lasso回归模型中的权重分配,λ||β||1是惩罚函数,通过训练数据输入Lasso回归模型,获取权重参数X1、X2、X3、X4的数值,从而确定Lasso回归模型,并以该Lasso回归模型来预测疾病的周发病人数,
其中,y为预测的周发病人数;
λ为惩罚函数的系数;
X1、X2、X3、X4为权重参数;
β是估计参数。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现如上所述的疾病发病预测方法。
本发明的疾病发病预测方法、装置及计算机可读存储介质基于SARIMA模型不仅能够捕捉到疾病周发病人数较近周次的人数变化规律,还能够捕捉到不同周期相同周次的季节性规律,使得模型预测更为准确。其次,爬取气温、气压、降水等多维度的天气因子,辅助预测,结合LASSO模型,能够基于天气的变化增强预测手足口病发病人数的变化规律。组合模型准确率能稳定在85%以上,尤其对于对手足口病的防控起到极大的预警作用。
附图说明
通过结合下面附图对其实施例进行描述,本发明的上述特征和技术优点将会变得更加清楚和容易理解。
图1是本发明实施例的疾病发病预测方法的流程示意图;
图2是本发明实施例的电子装置的硬件架构示意图;
图3是本发明实施例的疾病发病预测程序的模块构成图。
具体实施方式
下面将参考附图来描述本发明所述的疾病发病预测方法、装置及计算机可读存储介质的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
图1为本发明实施例提供的疾病发病预测方法的流程示意图,应用于电子装置,该方法包括以下步骤:
步骤S10,提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;
步骤S20,利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;
步骤S30,利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;
步骤S40,将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;
步骤S50,运用经过训练的SARIMA模型对疾病的周发病人数进行预测。
进一步地,SARIMA模型为基于周期为s的时间序列模型,表达式如下:
Figure BDA0002008994270000061
其中,L为非季节性疾病时间序列的滞后算子;
Ls为季节性疾病时间序列的滞后算子;
Δd为d次疾病的非季节性差分;
Figure BDA0002008994270000062
为D次疾病的非季节性差分;
Figure BDA0002008994270000063
代表了系数为p的自回归(MA(q))多项式;
Figure BDA0002008994270000064
代表了系数为q的移动平均多项式;
BQ代表系数为Q的季节移动平均多项式;
Δ与Δs分别表示非季节与s期季节性差分;
d,D分别表示的非季节与季节性差分数,用于把时间性季节序列yt转换为一个平稳的时间序列;
ut是白噪声;
Figure BDA0002008994270000071
与Ap(Ls)用来分别表示为非季节与季节性自回归算子;
Figure BDA0002008994270000072
与BQ(Ls)用来分别称为非季节与季节移动平均算子;
p表示为非季节性自回归项数;
q表示为非季节性移动平均算子的最大滞后阶数;
P表示为季节性自回归项数;
Q表示为季节性移动平均算子的最大滞后阶数。
进一步地,将经过训练的SARIMA模型作为一个参数K,结合温度T、降水W、气压PR来更进一步判断周发病人数,经过训练的SARIMA模型产生预测数据,将参数K、温度T、降水W、气压PR,输入到Lasso回归模型中,并通过训练数据,确定参数K、温度T、降水W、气压PR在预测上的权重分配。其中,参数K的训练数据即为经过训练的SARIMA模型的预测数据,即经过训练的SARIMA模型的输入即为参数K的输入,经过训练的SARIMA模型的输出即为Lasso回归模型的输出,Lasso回归模型公式如下,
Figure BDA0002008994270000073
其中,前四项是分别对应参数K、温度T、降水W、气压PR四项在Lasso回归模型中的权重分配,λ||β||1是惩罚函数,通过训练数据输入Lasso回归模型,获取权重参数X1、X2、X3、X4的数值,从而确定Lasso回归模型,并以该Lasso回归模型来预测疾病的周发病人数,
其中,y为预测的周发病人数;
λ为惩罚函数的系数;
X1、X2、X3、X4为权重参数;
β是估计参数。
在一个可选实施例中,在利用特征工程扩充特征维度之前,先将所述疾病数据进行特征预处理,所述特征预处理包括填补缺失值、删除异常值。
在一个可选实施例中,疾病发病人数的数据包括手足口病的数据。
在一个可选实施例中,提取以周为频次的疾病发病人数的数据和对应的天气数据的方法是:将以天为频次的疾病发病人数转化为以周为频次的疾病发病人数,利用爬虫方法从网站上爬取对应周次的天气数据,所述天气数据包括气温、气压、降水、湿度、风力数据,并对各天气数据求取平均值,作为以周为频次的疾病发病人数对应的天气数据。
参阅图2所示,是本发明电子装置的实施例的硬件架构示意图。本实施例中,所述电子装置2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图2所示,所述电子装置2至少包括,但不限于,可通过系统总线相互通信连接的存储器21、处理器22、网络接口23。其中:所述存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器21可以是所述电子装置2的内部存储单元,例如该电子装置2的硬盘或内存。在另一些实施例中,所述存储器21也可以是所述电子装置2的外部存储设备,例如该电子装置2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器21还可以既包括所述电子装置2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器21通常用于存储安装于所述电子装置2的操作系统和各类应用软件,例如所述疾病发病预测程序代码等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子装置2的总体操作,例如执行与所述电子装置2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的疾病发病预测程序等。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述电子装置2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述电子装置2与推送平台相连,在所述电子装置2与推送平台之间建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCodeDivision Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
可选地,该电子装置2还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)显示器等。显示器用于显示在电子装置2中处理的信息以及用于显示可视化的用户界面。
需要指出的是,图2仅示出了具有组件21-23的电子装置2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
包含可读存储介质的存储器21中可以包括操作系统、疾病发病预测程序50等。处理器22执行存储器21中疾病发病预测程序50时实现如下步骤:
步骤S10,提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;
步骤S20,利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;
步骤S30,利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;
步骤S40,将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;
步骤S50,运用经过训练的SARIMA模型对疾病的周发病人数进行预测。
在本实施例中,存储于存储器21中的所述疾病发病预测程序可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并可由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。例如,图3示出了所述疾病发病预测程序的程序模块示意图,该实施例中,所述疾病发病预测程序50可以被分割为疾病数据获取模块501、特征提取模块502、平稳化处理模块503、训练模块504、预测模块505。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述疾病发病预测程序在所述电子装置2中的执行过程。以下描述将具体介绍所述程序模块的具体功能。
其中,疾病数据获取模块501用于提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据。
特征提取模块502用于利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;
平稳化处理模块503用于利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;
训练模块504用于将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;
预测模块505用于运用经过训练的SARIMA模型对疾病的周发病人数进行预测。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括疾病发病预测程序等,所述疾病发病预测程序50被处理器22执行时实现如下操作:
步骤S10,提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;
步骤S20,利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;
步骤S30,利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;
步骤S40,将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;
步骤S50,运用经过训练的SARIMA模型对疾病的周发病人数进行预测。
本发明之计算机可读存储介质的具体实施方式与上述疾病发病预测方法以及电子装置2的具体实施方式大致相同,在此不再赘述。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种疾病发病预测方 法,应用于电子装置,其特征在于,
提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;
利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;
利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;
将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;
运用经过训练的SARIMA模型对疾病的周发病人数进行预测;其中,
将经过训练的SARIMA模型作为一个参数K,结合温度T、降水W、气压PR来更进一步判断周发病人数,经过训练的SARIMA模型产生预测数据,将参数K、温度T、降水W、气压PR,输入到Lasso回归模型中,并通过训练数据,确定参数K、温度T、降水W、气压PR在预测上的权重分配,其中,参数K的训练数据即为经过训练的SARIMA模型的预测数据,即经过训练的SARIMA模型的输入即为参数K的输入,经过训练的SARIMA模型的输出即为Lasso回归模型的输入,Lasso回归模型公式如下,
Figure FDA0003553546110000011
其中,前四项是分别对应参数K、温度T、降水W、气压PR四项在Lasso回归模型中的权重分配,λ||β||1是惩罚函数,通过训练数据输入Lasso回归模型,获取权重参数X1、X2、X3、X4的数值,从而确定Lasso回归模型,并以该Lasso回归模型来预测疾病的周发病人数,
其中,y为预测的周发病人数;
λ为惩罚函数的系数;
X1、X2、X3、X4为权重参数;
β是估计参数。
2.根据权利要求1所述的疾病发病预测方 法,其特征在于:
SARIMA模型为基于周期为s的时间序列模型,表达式如下:
Figure FDA0003553546110000021
其中,L为非季节性疾病时间序列的滞后算子;
Ls为季节性疾病时间序列的滞后算子;
Δd为d次疾病的非季节性差分;
Figure FDA0003553546110000022
为D次疾病的非季节性差分;
Figure FDA0003553546110000023
代表了系数为p的自回归(MA(q))多项式;
Figure FDA0003553546110000024
代表了系数为q的移动平均多项式;
BQ代表系数为Q的季节移动平均多项式;
Δ与Δs分别表示非季节与s期季节性差分;
d,D分别表示的非季节与季节性差分数,用于把时间性季节序列yt转换为一个平稳的时间序列;
ut是白噪声;
Figure FDA0003553546110000025
与Ap(Ls)用来分别表示为非季节与季节性自回归算子;
Figure FDA0003553546110000026
与BQ(Ls)用来分别称为非季节与季节移动平均算子;
p表示为非季节性自回归项数;
q表示为非季节性移动平均算子的最大滞后阶数;
P表示为季节性自回归项数;
Q表示为季节性移动平均算子的最大滞后阶数。
3.根据权利要求1所述的疾病发病预测方 法,其特征在于:
在利用特征工程扩充特征维度之前,先将所述疾病数据进行特征预处理,所述特征预处理包括填补缺失值、删除异常值。
4.根据权利要求1所述的疾病发病预测方 法,其特征在于:
疾病发病人数的数据包括手足口病的数据。
5.根据权利要求1所述的疾病发病预测方 法,其特征在于:
提取以周为频次的疾病发病人数的数据和对应的天气数据的方法是:将以天为频次的疾病发病人数转化为以周为频次的疾病发病人数,利用爬虫方法从网站上爬取对应周次的天气数据,所述天气数据包括气温、气压、降水、湿度、风力数据,并对各天气数据求取平均值,作为以周为频次的疾病发病人数对应的天气数据。
6.一种电子装置,其特征在于,该电子装置包括:存储器和处理器,所述存储器中存储有疾病发病预测程序,所述疾病发病预测程序被所述处理器执行时实现如下步骤:
提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;
利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;
利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;
将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;
运用经过训练的SARIMA模型对疾病的周发病人数进行预测;其中,
将经过训练的SARIMA模型作为一个参数K,结合温度T、降水W、气压PR来更进一步判断周发病人数,经过训练的SARIMA模型产生预测数据,将参数K、温度T、降水W、气压PR,输入到Lasso回归模型中,并通过训练数据,确定参数K、温度T、降水W、气压PR在预测上的权重分配,其中,参数K的训练数据即为经过训练的SARIMA模型的预测数据,即经过训练的SARIMA模型的输入即为参数K的输入,经过训练的SARIMA模型的输出即为Lasso回归模型的输入,Lasso回归模型公式如下,
Figure FDA0003553546110000031
其中,前四项是分别对应参数K、温度T、降水W、气压PR四项在Lasso回归模型中的权重分配,λ||β||1是惩罚函数,通过训练数据输入Lasso回归模型,获取权重参数X1、X2、X3、X4的数值,从而确定Lasso回归模型,并以该Lasso回归模型来预测疾病的周发病人数,
其中,y为预测的周发病人数;
λ为惩罚函数的系数;
X1、X2、X3、X4为权重参数;
β是估计参数。
7.根据权利要求6所述的电子装置,其特征在于:
SARIMA模型为基于周期为s的时间序列模型,表达式如下:
Figure FDA0003553546110000041
其中,L为非季节性疾病时间序列的滞后算子;
Ls为季节性疾病时间序列的滞后算子;
Δd为d次疾病的非季节性差分;
Figure FDA0003553546110000042
为D次疾病的非季节性差分;
Figure FDA0003553546110000043
代表了系数为p的自回归(MA(q))多项式;
Figure FDA0003553546110000044
代表了系数为q的移动平均多项式;
BQ代表系数为Q的季节移动平均多项式;
Δ与Δs分别表示非季节与s期季节性差分;
d,D分别表示的非季节与季节性差分数,用于把时间性季节序列yt转换为一个平稳的时间序列;
ut是白噪声;
Figure FDA0003553546110000045
与Ap(Ls)用来分别表示为非季节与季节性自回归算子;
Figure FDA0003553546110000046
与BQ(Ls)用来分别称为非季节与季节移动平均算子;
p表示为非季节性自回归项数;
q表示为非季节性移动平均算子的最大滞后阶数;
P表示为季节性自回归项数;
Q表示为季节性移动平均算子的最大滞后阶数。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现权利要求1至5中任一项所述的疾病发病预测方法。
CN201910238718.7A 2019-03-27 2019-03-27 疾病发病预测方法、装置及计算机可读存储介质 Active CN110136841B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910238718.7A CN110136841B (zh) 2019-03-27 2019-03-27 疾病发病预测方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910238718.7A CN110136841B (zh) 2019-03-27 2019-03-27 疾病发病预测方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110136841A CN110136841A (zh) 2019-08-16
CN110136841B true CN110136841B (zh) 2022-07-08

Family

ID=67568973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910238718.7A Active CN110136841B (zh) 2019-03-27 2019-03-27 疾病发病预测方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110136841B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112423327B (zh) * 2019-08-22 2024-02-09 中兴通讯股份有限公司 一种容量预测方法及设备、存储介质
CN110706823A (zh) * 2019-11-15 2020-01-17 广州地理研究所 一种基于滞后分析和lstm的呼吸系统疾病发病人数预测方法
CN113327682A (zh) * 2020-02-28 2021-08-31 天津职业技术师范大学(中国职业培训指导教师进修中心) 一种基于关键词搜索时间序列的传染病疫情预测与监控系统、方法及其应用
WO2024130488A1 (zh) * 2022-12-19 2024-06-27 京东方科技集团股份有限公司 序列模型训练方法、感染人数预测方法、介质及设备
CN117409984B (zh) * 2023-09-21 2024-07-02 山东第一医科大学附属省立医院 一种糖尿病随访管理系统、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194508A (zh) * 2017-05-18 2017-09-22 成都数联易康科技有限公司 一种基于时间序列动态预测中短期区域儿科门诊人次的方法
CN107688872A (zh) * 2017-08-20 2018-02-13 平安科技(深圳)有限公司 预测模型建立装置、方法及计算机可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194508A (zh) * 2017-05-18 2017-09-22 成都数联易康科技有限公司 一种基于时间序列动态预测中短期区域儿科门诊人次的方法
CN107688872A (zh) * 2017-08-20 2018-02-13 平安科技(深圳)有限公司 预测模型建立装置、方法及计算机可读存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Hockey Stick回归和SARIMA模型在细菌性痢疾疫情预测中的应用;关鹏等;《实用预防医学》;20081225;第15卷(第06期);第1671-1675页 *
SARIMA模型预测山东省手足口病发病趋势;刘涛等;《中国卫生统计》;20131025;第30卷(第05期);全文 *
北京市东城区细菌性痢疾与气象因素的时间序列分析;周艳丽等;《疾病监测》;20090930;第24卷(第09期);全文 *
基于SARIMA模型东莞市某区手足口病发病趋势研究;饶懿;《中国医院统计》;20160225(第01期);全文 *
某市暴雨洪涝对细菌性痢疾发病影响的时间序列分析;李晓梅等;《中国现代医学杂志》;20180913;第28卷(第25期);第41-46页 *
重庆市沙坪坝区手足口病发病数预测模型的构建与评价;段清浩等;《西南国防医药》;20181020;第28卷(第10期);第979-981页 *

Also Published As

Publication number Publication date
CN110136841A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN110136841B (zh) 疾病发病预测方法、装置及计算机可读存储介质
CN112071425B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN108063699B (zh) 网络性能监控方法、装置、电子设备、存储介质
CN111241694B (zh) 一种基于大数据处理的飞机机群健康评估方法,设备及可读存储介质
EP3509019A1 (en) Software product development defect and issue prediction and diagnosis
CN115062674B (zh) 基于深度学习的刀具排布及换刀方法、设备及存储介质
WO2019227711A1 (zh) 流感预测模型的生成方法、装置及计算机可读存储介质
CN112766535B (zh) 一种考虑负荷曲线特征的建筑负荷预测方法及系统
CN109643087B (zh) 用于选择用于设备操作安全的可控参数的系统和方法
JP2009086896A (ja) コンピュータの障害予測システムおよび障害予測方法
CN115314528A (zh) 桥梁结构健康监测系统、方法和平台
CN111522859A (zh) 告警分析方法、装置、计算机设备和存储介质
CN113110961B (zh) 设备异常检测方法、装置、计算机设备及可读存储介质
CN113220551A (zh) 指标趋势预测及预警方法、装置、电子设备及存储介质
CN112488484B (zh) 人员可靠性评估方法、系统、计算机设备及存储介质
CN113123955B (zh) 柱塞泵异常检测方法、装置、存储介质及电子设备
CN116012019B (zh) 一种基于大数据分析的金融风控管理系统
CN117036947A (zh) 基于图像识别的农险出险预警方法、装置、设备及介质
CN110705420A (zh) 电梯轿厢广告精准推送方法、装置及存储介质
CN113642669B (zh) 基于特征分析的防欺诈检测方法、装置、设备及存储介质
CN115543735A (zh) 日志处理方法、装置、电子设备及存储介质
CN116168403A (zh) 医疗数据分类模型训练方法、分类方法、装置及相关介质
CN115760486A (zh) 临建规模评估方法、装置、设备和可读存储介质
CN113902199A (zh) 用户流失预测方法及系统
CN112783949A (zh) 人体数据预测方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant