CN110136841B - 疾病发病预测方法、装置及计算机可读存储介质 - Google Patents
疾病发病预测方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110136841B CN110136841B CN201910238718.7A CN201910238718A CN110136841B CN 110136841 B CN110136841 B CN 110136841B CN 201910238718 A CN201910238718 A CN 201910238718A CN 110136841 B CN110136841 B CN 110136841B
- Authority
- CN
- China
- Prior art keywords
- seasonal
- data
- disease
- model
- sarima
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 123
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 123
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000001932 seasonal effect Effects 0.000 claims abstract description 158
- 241000728173 Sarima Species 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 35
- 230000003442 weekly effect Effects 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000006641 stabilisation Effects 0.000 claims abstract description 10
- 238000011105 stabilization Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 230000009193 crawling Effects 0.000 claims abstract description 5
- 238000001556 precipitation Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 12
- 230000002123 temporal effect Effects 0.000 claims description 10
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 8
- 208000020061 Hand, Foot and Mouth Disease Diseases 0.000 claims description 7
- 208000025713 Hand-foot-and-mouth disease Diseases 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000018199 S phase Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000011049 filling Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 239000000284 extract Substances 0.000 abstract 1
- 230000005180 public health Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006806 disease prevention Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 208000030194 mouth disease Diseases 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Medical Informatics (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Development Economics (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本方案涉及人工智能,提供疾病发病预测方法、装置及存储介质,提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;利用特征工程进行特征提取,获取设定维度的特征数据集,并以特征数据集中的数据分别形成训练数据、测试数据;利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;将训练数据输入模型,确定模型的参数;运用训练的SARIMA模型对疾病的周发病人数进行预测。本发明能够捕捉到疾病周发病人数较近周次的人数变化规律,还能够捕捉到不同周期相同周次的季节性规律,预测更准确。爬取天气数据辅助预测,结合LASSO模型,能基于天气的变化增强预测疾病发病人数的变化规律。
Description
技术领域
本发明涉及人工智能,具体地说,涉及一种疾病发病预测方法、装置及计算机可读存储介质。
背景技术
随着全球经济一体化进程的加快,经济与交流活动增加,人群流动日益频繁,为疾病的传播与爆发提供了有利环境,公共卫生健康问题越来越严峻。同时,社会与自然环境也发生着变化,环境污染、自然灾害等影响公众健康事件的增多也增加了突发公共卫生事件爆发的可能性。
如何能早期识别到疾病突发公共卫生事件,及时发出预警,尽早采取相应的控制措施,将突发公共卫生事件造成的损失降到最低,是公共卫生领域长期以来关注的焦点,也是卫生应急工作的重要内容。突发公共卫生事件预警,是通过对有关数据的收集,整理、分析和整合,运用计算机、网络、通讯等现代先进的技术,对事件的征兆进行监测、识别、诊断与评价,及时报警,告知有关部门和公众做好相关的应对和准备工作,及时采取有效的防控措施,尽可能阻止或减缓突发事件的发生或减少事件的危害。
突发公共卫生事件预警中的一个重要工作是疾病预测,即根据历史的疾病监测数据(即病患数据)预测未来的疾病监测数据。随着机器学习技术的发展,越来越多的机器学习方法应用在疾病预测上。
目前针对手足口病通常是在患病后进行药物治疗,但由于目前缺乏有效治疗药物,所以有必要结合疾病预防措施来防治手足口病,但目前对于手足口病的预测并没有有效的技术手段。
发明内容
为解决以上技术问题,本发明提供一种疾病发病预测办法,应用于电子装置,提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;运用经过训练的SARIMA模型对疾病的周发病人数进行预测。
优选地,SARIMA模型为基于周期为s的时间序列模型,表达式如下:
其中,L为非季节性疾病时间序列的滞后算子;
Ls为季节性疾病时间序列的滞后算子;
Δd为d次疾病的非季节性差分;
BQ代表系数为Q的季节移动平均多项式;
Δ与Δs分别表示非季节与s期季节性差分;
d,D分别表示的非季节与季节性差分数,用于把时间性季节序列yt转换为一个平稳的时间序列;
ut是白噪声;
p表示为非季节性自回归项数;
q表示为非季节性移动平均算子的最大滞后阶数;
P表示为季节性自回归项数;
Q表示为季节性移动平均算子的最大滞后阶数。
优选地,将经过训练的SARIMA预测模型作为一个参数K,结合温度T、降水W、气压PR来更进一步判断周发病人数,经过训练的SARIMA预测模型产生预测数据,将参数K、温度T、降水W、气压PR,输入到Lasso回归模型中,并通过训练数据,确定参数K、温度T、降水W、气压PR在预测上的权重分配,其中,参数K的训练数据即为经过训练的SARIMA模型的预测数据,即经过训练的SARIMA模型的输入即为参数K的输入,经过训练的SARIMA模型的输出即为Lasso回归模型的输出,Lasso回归模型公式如下,
其中,前四项是分别对应参数K、温度T、降水W、气压PR四项在Lasso回归模型中的权重分配,λ||β||1是惩罚函数,通过训练数据输入Lasso回归模型,获取权重参数X1、X2、X3、X4的数值,从而确定Lasso回归模型,并以该Lasso回归模型来预测疾病的周发病人数,
其中,y为预测的周发病人数;
λ为惩罚函数的系数;
X1、X2、X3、X4为权重参数;
β是估计参数。
优选地,在利用特征工程扩充特征维度之前,先将所述疾病数据进行特征预处理,所述特征预处理包括填补缺失值、删除异常值。
优选地,疾病发病人数的数据包括手足口病的数据。
优选地,提取以周为频次的疾病发病人数的数据和对应的天气数据的方法是:将以天为频次的疾病发病人数转化为以周为频次的疾病发病人数,利用爬虫方法从网站上爬取对应周次的天气数据,所述天气数据包括气温、气压、降水、湿度、风力数据,并对各天气数据求取平均值,作为以周为频次的疾病发病人数对应的天气数据。
本发明还提供一种电子装置,该电子装置包括:存储器和处理器,所述存储器中存储有疾病发病预测程序,所述疾病发病预测程序被所述处理器执行时实现如下步骤:提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;运用经过训练的SARIMA模型对疾病的周发病人数进行预测。
优选地,SARIMA模型为基于周期为s的时间序列模型,表达式如下:
其中,L为非季节性疾病时间序列的滞后算子;
Ls为季节性疾病时间序列的滞后算子;
Δd为d次疾病的非季节性差分;
BQ代表系数为Q的季节移动平均多项式;
Δ与Δs分别表示非季节与s期季节性差分;
d,D分别表示的非季节与季节性差分数,用于把时间性季节序列yt转换为一个平稳的时间序列;
ut是白噪声;
p表示为非季节性自回归项数;
q表示为非季节性移动平均算子的最大滞后阶数;
P表示为季节性自回归项数;
Q表示为季节性移动平均算子的最大滞后阶数。
优选地,将经过训练的SARIMA预测模型作为一个参数K,结合温度T、降水W、气压PR来更进一步判断周发病人数,经过训练的SARIMA预测模型产生预测数据,将参数K、温度T、降水W、气压PR,输入到Lasso回归模型中,并通过训练数据,确定参数K、温度T、降水W、气压PR在预测上的权重分配,其中,参数K的训练数据即为经过训练的SARIMA模型的预测数据,即经过训练的SARIMA模型的输入即为参数K的输入,经过训练的SARIMA模型的输出即为Lasso回归模型的输出,Lasso回归模型公式如下,
其中,前四项是分别对应参数K、温度T、降水W、气压PR四项在Lasso回归模型中的权重分配,λ||β||1是惩罚函数,通过训练数据输入Lasso回归模型,获取权重参数X1、X2、X3、X4的数值,从而确定Lasso回归模型,并以该Lasso回归模型来预测疾病的周发病人数,
其中,y为预测的周发病人数;
λ为惩罚函数的系数;
X1、X2、X3、X4为权重参数;
β是估计参数。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现如上所述的疾病发病预测方法。
本发明的疾病发病预测方法、装置及计算机可读存储介质基于SARIMA模型不仅能够捕捉到疾病周发病人数较近周次的人数变化规律,还能够捕捉到不同周期相同周次的季节性规律,使得模型预测更为准确。其次,爬取气温、气压、降水等多维度的天气因子,辅助预测,结合LASSO模型,能够基于天气的变化增强预测手足口病发病人数的变化规律。组合模型准确率能稳定在85%以上,尤其对于对手足口病的防控起到极大的预警作用。
附图说明
通过结合下面附图对其实施例进行描述,本发明的上述特征和技术优点将会变得更加清楚和容易理解。
图1是本发明实施例的疾病发病预测方法的流程示意图;
图2是本发明实施例的电子装置的硬件架构示意图;
图3是本发明实施例的疾病发病预测程序的模块构成图。
具体实施方式
下面将参考附图来描述本发明所述的疾病发病预测方法、装置及计算机可读存储介质的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
图1为本发明实施例提供的疾病发病预测方法的流程示意图,应用于电子装置,该方法包括以下步骤:
步骤S10,提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;
步骤S20,利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;
步骤S30,利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;
步骤S40,将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;
步骤S50,运用经过训练的SARIMA模型对疾病的周发病人数进行预测。
进一步地,SARIMA模型为基于周期为s的时间序列模型,表达式如下:
其中,L为非季节性疾病时间序列的滞后算子;
Ls为季节性疾病时间序列的滞后算子;
Δd为d次疾病的非季节性差分;
BQ代表系数为Q的季节移动平均多项式;
Δ与Δs分别表示非季节与s期季节性差分;
d,D分别表示的非季节与季节性差分数,用于把时间性季节序列yt转换为一个平稳的时间序列;
ut是白噪声;
p表示为非季节性自回归项数;
q表示为非季节性移动平均算子的最大滞后阶数;
P表示为季节性自回归项数;
Q表示为季节性移动平均算子的最大滞后阶数。
进一步地,将经过训练的SARIMA模型作为一个参数K,结合温度T、降水W、气压PR来更进一步判断周发病人数,经过训练的SARIMA模型产生预测数据,将参数K、温度T、降水W、气压PR,输入到Lasso回归模型中,并通过训练数据,确定参数K、温度T、降水W、气压PR在预测上的权重分配。其中,参数K的训练数据即为经过训练的SARIMA模型的预测数据,即经过训练的SARIMA模型的输入即为参数K的输入,经过训练的SARIMA模型的输出即为Lasso回归模型的输出,Lasso回归模型公式如下,
其中,前四项是分别对应参数K、温度T、降水W、气压PR四项在Lasso回归模型中的权重分配,λ||β||1是惩罚函数,通过训练数据输入Lasso回归模型,获取权重参数X1、X2、X3、X4的数值,从而确定Lasso回归模型,并以该Lasso回归模型来预测疾病的周发病人数,
其中,y为预测的周发病人数;
λ为惩罚函数的系数;
X1、X2、X3、X4为权重参数;
β是估计参数。
在一个可选实施例中,在利用特征工程扩充特征维度之前,先将所述疾病数据进行特征预处理,所述特征预处理包括填补缺失值、删除异常值。
在一个可选实施例中,疾病发病人数的数据包括手足口病的数据。
在一个可选实施例中,提取以周为频次的疾病发病人数的数据和对应的天气数据的方法是:将以天为频次的疾病发病人数转化为以周为频次的疾病发病人数,利用爬虫方法从网站上爬取对应周次的天气数据,所述天气数据包括气温、气压、降水、湿度、风力数据,并对各天气数据求取平均值,作为以周为频次的疾病发病人数对应的天气数据。
参阅图2所示,是本发明电子装置的实施例的硬件架构示意图。本实施例中,所述电子装置2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图2所示,所述电子装置2至少包括,但不限于,可通过系统总线相互通信连接的存储器21、处理器22、网络接口23。其中:所述存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器21可以是所述电子装置2的内部存储单元,例如该电子装置2的硬盘或内存。在另一些实施例中,所述存储器21也可以是所述电子装置2的外部存储设备,例如该电子装置2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器21还可以既包括所述电子装置2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器21通常用于存储安装于所述电子装置2的操作系统和各类应用软件,例如所述疾病发病预测程序代码等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子装置2的总体操作,例如执行与所述电子装置2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的疾病发病预测程序等。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述电子装置2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述电子装置2与推送平台相连,在所述电子装置2与推送平台之间建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCodeDivision Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
可选地,该电子装置2还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)显示器等。显示器用于显示在电子装置2中处理的信息以及用于显示可视化的用户界面。
需要指出的是,图2仅示出了具有组件21-23的电子装置2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
包含可读存储介质的存储器21中可以包括操作系统、疾病发病预测程序50等。处理器22执行存储器21中疾病发病预测程序50时实现如下步骤:
步骤S10,提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;
步骤S20,利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;
步骤S30,利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;
步骤S40,将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;
步骤S50,运用经过训练的SARIMA模型对疾病的周发病人数进行预测。
在本实施例中,存储于存储器21中的所述疾病发病预测程序可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并可由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。例如,图3示出了所述疾病发病预测程序的程序模块示意图,该实施例中,所述疾病发病预测程序50可以被分割为疾病数据获取模块501、特征提取模块502、平稳化处理模块503、训练模块504、预测模块505。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述疾病发病预测程序在所述电子装置2中的执行过程。以下描述将具体介绍所述程序模块的具体功能。
其中,疾病数据获取模块501用于提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据。
特征提取模块502用于利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;
平稳化处理模块503用于利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;
训练模块504用于将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;
预测模块505用于运用经过训练的SARIMA模型对疾病的周发病人数进行预测。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括疾病发病预测程序等,所述疾病发病预测程序50被处理器22执行时实现如下操作:
步骤S10,提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;
步骤S20,利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;
步骤S30,利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;
步骤S40,将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;
步骤S50,运用经过训练的SARIMA模型对疾病的周发病人数进行预测。
本发明之计算机可读存储介质的具体实施方式与上述疾病发病预测方法以及电子装置2的具体实施方式大致相同,在此不再赘述。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种疾病发病预测方 法,应用于电子装置,其特征在于,
提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;
利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;
利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;
将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;
运用经过训练的SARIMA模型对疾病的周发病人数进行预测;其中,
将经过训练的SARIMA模型作为一个参数K,结合温度T、降水W、气压PR来更进一步判断周发病人数,经过训练的SARIMA模型产生预测数据,将参数K、温度T、降水W、气压PR,输入到Lasso回归模型中,并通过训练数据,确定参数K、温度T、降水W、气压PR在预测上的权重分配,其中,参数K的训练数据即为经过训练的SARIMA模型的预测数据,即经过训练的SARIMA模型的输入即为参数K的输入,经过训练的SARIMA模型的输出即为Lasso回归模型的输入,Lasso回归模型公式如下,
其中,前四项是分别对应参数K、温度T、降水W、气压PR四项在Lasso回归模型中的权重分配,λ||β||1是惩罚函数,通过训练数据输入Lasso回归模型,获取权重参数X1、X2、X3、X4的数值,从而确定Lasso回归模型,并以该Lasso回归模型来预测疾病的周发病人数,
其中,y为预测的周发病人数;
λ为惩罚函数的系数;
X1、X2、X3、X4为权重参数;
β是估计参数。
2.根据权利要求1所述的疾病发病预测方 法,其特征在于:
SARIMA模型为基于周期为s的时间序列模型,表达式如下:
其中,L为非季节性疾病时间序列的滞后算子;
Ls为季节性疾病时间序列的滞后算子;
Δd为d次疾病的非季节性差分;
BQ代表系数为Q的季节移动平均多项式;
Δ与Δs分别表示非季节与s期季节性差分;
d,D分别表示的非季节与季节性差分数,用于把时间性季节序列yt转换为一个平稳的时间序列;
ut是白噪声;
p表示为非季节性自回归项数;
q表示为非季节性移动平均算子的最大滞后阶数;
P表示为季节性自回归项数;
Q表示为季节性移动平均算子的最大滞后阶数。
3.根据权利要求1所述的疾病发病预测方 法,其特征在于:
在利用特征工程扩充特征维度之前,先将所述疾病数据进行特征预处理,所述特征预处理包括填补缺失值、删除异常值。
4.根据权利要求1所述的疾病发病预测方 法,其特征在于:
疾病发病人数的数据包括手足口病的数据。
5.根据权利要求1所述的疾病发病预测方 法,其特征在于:
提取以周为频次的疾病发病人数的数据和对应的天气数据的方法是:将以天为频次的疾病发病人数转化为以周为频次的疾病发病人数,利用爬虫方法从网站上爬取对应周次的天气数据,所述天气数据包括气温、气压、降水、湿度、风力数据,并对各天气数据求取平均值,作为以周为频次的疾病发病人数对应的天气数据。
6.一种电子装置,其特征在于,该电子装置包括:存储器和处理器,所述存储器中存储有疾病发病预测程序,所述疾病发病预测程序被所述处理器执行时实现如下步骤:
提取以周为频次的疾病发病人数的数据和对应的天气数据,组成疾病数据;
利用特征工程进行特征提取,然后再通过奇异值分解的方法进行特征降维,获取设定维度的特征数据集,并以特征数据集中的部分数据作为训练数据,另一部分数据作为测试数据;
利用SARIMA模型对疾病数据进行平稳化处理分别得出d阶非季节性差分与D阶季节性差分;
将训练数据输入SARIMA模型,确定参数:非季节性分差次数d,非季节性自回归项数p,非季节性移动平均算子的最大滞后阶数q,季节性差分次数D、季节性自回归项数P,季节性移动平均算子的最大滞后阶数Q;
运用经过训练的SARIMA模型对疾病的周发病人数进行预测;其中,
将经过训练的SARIMA模型作为一个参数K,结合温度T、降水W、气压PR来更进一步判断周发病人数,经过训练的SARIMA模型产生预测数据,将参数K、温度T、降水W、气压PR,输入到Lasso回归模型中,并通过训练数据,确定参数K、温度T、降水W、气压PR在预测上的权重分配,其中,参数K的训练数据即为经过训练的SARIMA模型的预测数据,即经过训练的SARIMA模型的输入即为参数K的输入,经过训练的SARIMA模型的输出即为Lasso回归模型的输入,Lasso回归模型公式如下,
其中,前四项是分别对应参数K、温度T、降水W、气压PR四项在Lasso回归模型中的权重分配,λ||β||1是惩罚函数,通过训练数据输入Lasso回归模型,获取权重参数X1、X2、X3、X4的数值,从而确定Lasso回归模型,并以该Lasso回归模型来预测疾病的周发病人数,
其中,y为预测的周发病人数;
λ为惩罚函数的系数;
X1、X2、X3、X4为权重参数;
β是估计参数。
7.根据权利要求6所述的电子装置,其特征在于:
SARIMA模型为基于周期为s的时间序列模型,表达式如下:
其中,L为非季节性疾病时间序列的滞后算子;
Ls为季节性疾病时间序列的滞后算子;
Δd为d次疾病的非季节性差分;
BQ代表系数为Q的季节移动平均多项式;
Δ与Δs分别表示非季节与s期季节性差分;
d,D分别表示的非季节与季节性差分数,用于把时间性季节序列yt转换为一个平稳的时间序列;
ut是白噪声;
p表示为非季节性自回归项数;
q表示为非季节性移动平均算子的最大滞后阶数;
P表示为季节性自回归项数;
Q表示为季节性移动平均算子的最大滞后阶数。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现权利要求1至5中任一项所述的疾病发病预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910238718.7A CN110136841B (zh) | 2019-03-27 | 2019-03-27 | 疾病发病预测方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910238718.7A CN110136841B (zh) | 2019-03-27 | 2019-03-27 | 疾病发病预测方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110136841A CN110136841A (zh) | 2019-08-16 |
CN110136841B true CN110136841B (zh) | 2022-07-08 |
Family
ID=67568973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910238718.7A Active CN110136841B (zh) | 2019-03-27 | 2019-03-27 | 疾病发病预测方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110136841B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112423327B (zh) * | 2019-08-22 | 2024-02-09 | 中兴通讯股份有限公司 | 一种容量预测方法及设备、存储介质 |
CN110706823A (zh) * | 2019-11-15 | 2020-01-17 | 广州地理研究所 | 一种基于滞后分析和lstm的呼吸系统疾病发病人数预测方法 |
CN113327682A (zh) * | 2020-02-28 | 2021-08-31 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种基于关键词搜索时间序列的传染病疫情预测与监控系统、方法及其应用 |
WO2024130488A1 (zh) * | 2022-12-19 | 2024-06-27 | 京东方科技集团股份有限公司 | 序列模型训练方法、感染人数预测方法、介质及设备 |
CN117409984B (zh) * | 2023-09-21 | 2024-07-02 | 山东第一医科大学附属省立医院 | 一种糖尿病随访管理系统、装置、电子设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194508A (zh) * | 2017-05-18 | 2017-09-22 | 成都数联易康科技有限公司 | 一种基于时间序列动态预测中短期区域儿科门诊人次的方法 |
CN107688872A (zh) * | 2017-08-20 | 2018-02-13 | 平安科技(深圳)有限公司 | 预测模型建立装置、方法及计算机可读存储介质 |
-
2019
- 2019-03-27 CN CN201910238718.7A patent/CN110136841B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194508A (zh) * | 2017-05-18 | 2017-09-22 | 成都数联易康科技有限公司 | 一种基于时间序列动态预测中短期区域儿科门诊人次的方法 |
CN107688872A (zh) * | 2017-08-20 | 2018-02-13 | 平安科技(深圳)有限公司 | 预测模型建立装置、方法及计算机可读存储介质 |
Non-Patent Citations (6)
Title |
---|
Hockey Stick回归和SARIMA模型在细菌性痢疾疫情预测中的应用;关鹏等;《实用预防医学》;20081225;第15卷(第06期);第1671-1675页 * |
SARIMA模型预测山东省手足口病发病趋势;刘涛等;《中国卫生统计》;20131025;第30卷(第05期);全文 * |
北京市东城区细菌性痢疾与气象因素的时间序列分析;周艳丽等;《疾病监测》;20090930;第24卷(第09期);全文 * |
基于SARIMA模型东莞市某区手足口病发病趋势研究;饶懿;《中国医院统计》;20160225(第01期);全文 * |
某市暴雨洪涝对细菌性痢疾发病影响的时间序列分析;李晓梅等;《中国现代医学杂志》;20180913;第28卷(第25期);第41-46页 * |
重庆市沙坪坝区手足口病发病数预测模型的构建与评价;段清浩等;《西南国防医药》;20181020;第28卷(第10期);第979-981页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110136841A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136841B (zh) | 疾病发病预测方法、装置及计算机可读存储介质 | |
CN112071425B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN108063699B (zh) | 网络性能监控方法、装置、电子设备、存储介质 | |
CN111241694B (zh) | 一种基于大数据处理的飞机机群健康评估方法,设备及可读存储介质 | |
EP3509019A1 (en) | Software product development defect and issue prediction and diagnosis | |
CN115062674B (zh) | 基于深度学习的刀具排布及换刀方法、设备及存储介质 | |
WO2019227711A1 (zh) | 流感预测模型的生成方法、装置及计算机可读存储介质 | |
CN112766535B (zh) | 一种考虑负荷曲线特征的建筑负荷预测方法及系统 | |
CN109643087B (zh) | 用于选择用于设备操作安全的可控参数的系统和方法 | |
JP2009086896A (ja) | コンピュータの障害予測システムおよび障害予測方法 | |
CN115314528A (zh) | 桥梁结构健康监测系统、方法和平台 | |
CN111522859A (zh) | 告警分析方法、装置、计算机设备和存储介质 | |
CN113110961B (zh) | 设备异常检测方法、装置、计算机设备及可读存储介质 | |
CN113220551A (zh) | 指标趋势预测及预警方法、装置、电子设备及存储介质 | |
CN112488484B (zh) | 人员可靠性评估方法、系统、计算机设备及存储介质 | |
CN113123955B (zh) | 柱塞泵异常检测方法、装置、存储介质及电子设备 | |
CN116012019B (zh) | 一种基于大数据分析的金融风控管理系统 | |
CN117036947A (zh) | 基于图像识别的农险出险预警方法、装置、设备及介质 | |
CN110705420A (zh) | 电梯轿厢广告精准推送方法、装置及存储介质 | |
CN113642669B (zh) | 基于特征分析的防欺诈检测方法、装置、设备及存储介质 | |
CN115543735A (zh) | 日志处理方法、装置、电子设备及存储介质 | |
CN116168403A (zh) | 医疗数据分类模型训练方法、分类方法、装置及相关介质 | |
CN115760486A (zh) | 临建规模评估方法、装置、设备和可读存储介质 | |
CN113902199A (zh) | 用户流失预测方法及系统 | |
CN112783949A (zh) | 人体数据预测方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |