CN108389631A - 水痘发病预警方法、服务器及计算机可读存储介质 - Google Patents
水痘发病预警方法、服务器及计算机可读存储介质 Download PDFInfo
- Publication number
- CN108389631A CN108389631A CN201810125016.3A CN201810125016A CN108389631A CN 108389631 A CN108389631 A CN 108389631A CN 201810125016 A CN201810125016 A CN 201810125016A CN 108389631 A CN108389631 A CN 108389631A
- Authority
- CN
- China
- Prior art keywords
- varicella
- data
- morbidity
- early warning
- models
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H80/00—ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种水痘发病预警方法,该方法包括:设置进行水痘发病预测的样本范围;根据所述样本范围获取样本数据;获取外部因子数据;根据所述样本数据和外部因子数据构造多个时间序列模型,并进行训练及测试;根据预设规则从所述多个时间序列模型中筛选最优模型;以所述最优模型及实时数据进行水痘发病实时预测。本发明还提供一种服务器及计算机可读存储介质。本发明提供的水痘发病预警方法、服务器及计算机可读存储介质能够比较准确地对未来一周水痘发病人数进行实时预测。
Description
技术领域
本发明涉及数据分析技术领域,尤其涉及一种水痘发病预警方法、服务器及计算机可读存储介质。
背景技术
水痘是由水痘-带状疱疹病毒初次感染引起的急性传染病。主要发生在婴幼儿和学龄前儿童,成人发病症状比儿童更严重。冬春两季多发,其传染力强,水痘患者是惟一的传染源,自发病前1~2天直至皮疹干燥结痂期均有传染性,接触或飞沫吸入均可传染,易感儿发病率可达95%以上。水痘在易感人群中的播散主要取决于气候、人口密度和医疗卫生条件等因素。
传统的传染病预防系统一般都是在已经开始暴发后进行控制,很难实现提高预测及时预防及管控。尽管目前已经有些针对水痘的机器学习理论实现水痘预测的实验,但往往由于数据样本范围小、外部影响因素考虑不全面等原因导致效果并不理想。
发明内容
有鉴于此,本发明提出一种水痘发病预警方法、服务器及计算机可读存储介质,以解决如何实现比较准确地对未来水痘发病人数进行实时预测的问题。
首先,为实现上述目的,本发明提出一种水痘发病预警方法,该方法包括步骤:
设置进行水痘发病预测的样本范围;
根据所述样本范围获取样本数据;
获取外部因子数据;
根据所述样本数据和外部因子数据构造多个时间序列模型,并进行训练及测试;
根据预设规则从所述多个时间序列模型中筛选最优模型;及
以所述最优模型及实时数据进行水痘发病实时预测。
可选地,所述样本范围包括时间、地区、数据类型,所述样本数据为水痘发病数据。
可选地,所述外部因子数据包括所述地区在所述时间内的气象数据。
可选地,所述时间序列模型为滑动窗口预测模型。
可选地,所述滑动窗口预测模型采用九年时间的样本数据为滑动窗口,以前九年的周数据为训练集,预测未来一周的水痘发病人数,以第十年的周数据为测试集。
可选地,所述预设规则为均方根误差最优原则,选取均方根误差最小的时间序列模型为最优模型。
可选地,该方法还包括步骤:
根据所述最优模型分析水痘发病的主要影响因子;
将所述主要影响因子提示用户注意。
此外,为实现上述目的,本发明还提供一种服务器,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的水痘发病预警系统,所述水痘发病预警系统被所述处理器执行时实现如下步骤:
设置进行水痘发病预测的样本范围;
根据所述样本范围获取样本数据;
获取外部因子数据;
根据所述样本数据和外部因子数据构造多个时间序列模型,并进行训练及测试;
根据预设规则从所述多个时间序列模型中筛选最优模型;及
以所述最优模型及实时数据进行水痘发病实时预测。
可选地,所述水痘发病预警系统被所述处理器执行时还实现步骤:
根据所述最优模型分析水痘发病的主要影响因子;
将所述主要影响因子提示用户注意。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有水痘发病预警系统,所述水痘发病预警系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的水痘发病预警方法的步骤。
相较于现有技术,本发明所提出的水痘发病预警方法、服务器及计算机可读存储介质,可以根据设置的样本范围,从预设的数据源中获取对应的水痘发病数据,并获取气象等外部因子,同时考虑外部因子的滞后性,根据所述样本数据和外部因子数据构造多个时间序列模型,并进行训练及测试,选取最优模型,从而将实时数据代入所述最优模型,实现对未来一周水痘发病人数的实时预测。该方案的样本覆盖范围广,且考虑了气象等外部因子对水痘发病数据的影响和滞后性,能够比较准确地得到未来水痘发病人数的预测结果。并且,还可以根据所述最优模型分析出对于水痘发病的主要影响因子并提示用户,以便及时对即将发生的发病状况进行相应预防和应对。
附图说明
图1是本发明服务器一可选的硬件架构的示意图;
图2是本发明水痘发病预警系统第一实施例的程序模块示意图;
图3是本发明水痘发病预警系统第二佳实施例的程序模块示意图;
图4是本发明水痘发病预警方法第一实施例的流程示意图;
图5是本发明水痘发病预警方法第二实施例的流程示意图。
附图标记:
服务器 | 2 |
存储器 | 11 |
处理器 | 12 |
网络接口 | 13 |
水痘发病预警系统 | 200 |
设置模块 | 201 |
获取模块 | 202 |
建模模块 | 203 |
筛选模块 | 204 |
预测模块 | 205 |
分析模块 | 206 |
提示模块 | 207 |
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参阅图1所示,是本发明服务器2一可选的硬件架构的示意图。
本实施例中,所述服务器2可包括,但不仅限于,可通过系统总线相互通信连接存储器11、处理器12、网络接口13。需要指出的是,图1仅示出了具有组件11-13的服务器2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,所述服务器2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备,该服务器2可以是独立的服务器,也可以是多个服务器所组成的服务器集群。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述服务器2的内部存储单元,例如该服务器2的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述服务器2的外部存储设备,例如该服务器2上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述服务器2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器11通常用于存储安装于所述服务器2的操作系统和各类应用软件,例如水痘发病预警系统200的程序代码等。此外,所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述服务器2的总体操作。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行所述的水痘发病预警系统200等。
所述网络接口13可包括无线网络接口或有线网络接口,该网络接口13通常用于在所述服务器2与其他电子设备之间建立通信连接。
至此,己经详细介绍了本发明相关设备的硬件结构和功能。下面,将基于上述介绍提出本发明的各个实施例。
首先,本发明提出一种水痘发病预警系统200。
参阅图2所示,是本发明水痘发病预警系统200第一实施例的程序模块图。
本实施例中,所述水痘发病预警系统200包括一系列的存储于存储器11上的计算机程序指令,当该计算机程序指令被处理器12执行时,可以实现本发明各实施例的水痘发病预警操作。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,水痘发病预警系统200可以被划分为一个或多个模块。例如,在图2中,所述水痘发病预警系统200可以被分割成设置模块201、获取模块202、建模模块203、筛选模块204、预测模块205。其中:
所述设置模块201,用于设置进行水痘发病预测的样本范围。
具体地,所述样本范围包括时间、地区、数据类型等。例如A地区,时间为2007年1月到2016年12月连续10年的水痘发病数据。所述水痘发病数据包括每周的水痘病例数,每个水痘病例对应的患者信息,例如年龄、性别、职业等。本实施例的样本涉及到较长历史时间(例如连续10年)的水痘发病数据,并且可以覆盖一整个城市的发病人群,覆盖面广,基于该样本可以为后续的预测提供较为准确的依据。
所述获取模块202,用于根据所述样本范围获取样本数据。
具体地,根据所设置的样本范围,从预设的数据源中获取对应的样本数据。所述样本数据为水痘发病数据。例如,从A地区的医疗就诊信息系统中获取2007年1月到2016年12月连续10年的水痘发病数据。
所述获取模块202,还用于获取外部因子数据。
具体地,除了获取水痘发病数据之外,还可以在所述样本中增加所述地区在所述时间内的气象等外部因子对发病的影响,同时考虑外部因子造成影响的滞后性。所述气象因子数据包括气温、降水、气压、湿度等。
针对所述外部因子造成影响的滞后性,可以通过试验不同的滞后周期,并根据因子的相关性,筛选相关性低于预设阈值的因子,依次根据不同的组合形式(双因子、三因子组合形式)加入自回归积分滑动平均模型(ARIMA)中实现。为了避免所筛选的外部因子之间互相影响,从而造成对滞后周期的误判,因此筛选相关性对于所述预设阈值的因子加入所述ARIMA模型。所述ARIMA模型是一种时间序列预测方法,指将非平稳时间序列转化为平稳时间序列,然后将因变量及其滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。其中较常用的ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归,p为自回归项;MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。
所述建模模块203,用于根据所述样本数据和外部因子数据构造多个时间序列模型,并进行训练及测试。
在本实施例中,所述时间序列模型为滑动窗口预测模型。所述滑动窗口为一段时间内的样本数据集合,所述滑动是指该窗口随着时间在不断往前移动。例如,采用九年时间的样本数据为滑动窗口,构建多个模型,以预测未来一周的发病情况。
具体地,采用滑动窗口的形式,将前九年(例如2007年1月-2015年12月)的周数据作为训练集,第十年(例如2016年1月-2016年12月)的周数据作为测试集。一年有52个周,因此第十年的52个周作为测试集,也就是构造了52个模型。
首先,根据前九年的周数据,预测第十年第一周的发病人数,然后将滑动时间窗口向后移动一周,即前九年数据去掉第一周,加上第十年第一周的数据,预测第十年第二周的发病人数,以此类推得到第十年的52个周的预测结果。通过测试集的数据,可以验证所述52个周的预测结果的准确性。
所述筛选模块204,用于根据预设规则筛选最优模型。
具体地,所述预设规则为通过RMSE(均方根误差/标准误差)最优原则,即计算每个模型的预测结果的RMSE,从中选取RMSE最小的时间序列模型为最优模型。
RMSE是在回归问题中广泛应用的一种评价指标。其中的“平方根”使这个指标可以很好的显示出较大的偏差,且“平方”本质上可以防止正向误差和负向误差被相互抵消,使得这个指标可以给出一个更稳健的结果。换言之,这个指标可以恰当的表现出误差项的合理区间。当样本数据很多的时候,利用RMSE来重新构建误差项的分布会更为可靠,从而使筛选出的最优模型误差较低,预测结果更准确。
当根据所述多个时间序列模型对第十年的发病人数进行预测之后,根据测试集的数据和各个模型的预测结果计算每个时间序列模型对应的均方根误差,即根据测试集中第十年52个周的数据和52个模型得到的预测结果计算出对应的52个均方根误差,然后从中选取均方根误差最小的时间序列模型,即为最优模型。
所述预测模块205,用于以最优模型及实时数据进行实时预测。
具体地,根据所述最优模型的时间窗口长度获取实时数据(例如获取截止当日之前九年的数据),将所述实时数据代入所述最优模型,实现对未来一周水痘发病人数的实时预测。
参阅图3所示,是本发明水痘发病预警系统200第二实施例的程序模块图。本实施例中,所述的水痘发病预警系统200除了包括第一实施例中的所述设置模块201、获取模块202、建模模块203、筛选模块204、预测模块205之外,还包括分析模块206和提示模块207。
所述分析模块206,用于根据所述最优模型分析水痘发病的主要影响因子。
具体地,从筛选得到的所述最优模型中,可以分析出对水痘发病造成影响的有哪些因子,每个因子的权重等数据。所述因子包括内部因子,例如年龄等,以及外部因子,例如气温、降水、气压、湿度等气象因子。从而,可以从这些因子出挑选出水痘发病的主要影响因子(权重大于预设阈值的因子)。对于所述主要影响因子中的外部因子,还可以知道对应的滞后期。
所述提示模块207,用于将所述主要影响因子提示用户注意。
具体地,可以将分析得到的所述主要影响因子通过图表等形式展示给用户查看,以便提示用户注意。所述提示模块207可以展示每个所述主要影响因子及对应的影响权重,并且对应外部因子还可以展示对应的滞后期。
此外,本发明还提出一种水痘发病预警方法。
参阅图4所示,是本发明水痘发病预警方法第一实施例的流程示意图。在本实施例中,根据不同的需求,图4所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。
步骤S300,设置进行水痘发病预测的样本范围。
具体地,所述样本范围包括时间、地区、数据类型等。例如A地区,时间为2007年1月到2016年12月连续10年的水痘发病数据。所述水痘发病数据包括每周的水痘病例数,每个水痘病例对应的患者信息,例如年龄、性别、职业等。本实施例的样本涉及到较长历史时间(例如连续10年)的水痘发病数据,并且可以覆盖一整个城市的发病人群,覆盖面广,基于该样本可以为后续的预测提供较为准确的依据。
步骤S302,根据所述样本范围获取样本数据。
具体地,根据所设置的样本范围,从预设的数据源中获取对应的样本数据。所述样本数据为水痘发病数据。例如,从A地区的医疗就诊信息系统中获取2007年1月到2016年12月连续10年的水痘发病数据。
步骤S304,获取外部因子数据。
具体地,除了获取水痘发病数据之外,还可以在所述样本中增加所述地区的气象等外部因子对发病的影响,同时考虑外部因子造成影响的滞后性。所述气象因子数据包括气温、降水、气压、湿度等。
针对所述外部因子造成影响的滞后性,可以通过试验不同的滞后周期,并根据因子的相关性,筛选相关性低于预设阈值的因子,依次根据不同的组合形式(双因子、三因子组合形式)加入自回归积分滑动平均模型(ARIMA)中实现。为了避免所筛选的外部因子之间互相影响,从而造成对滞后周期的误判,因此筛选相关性对于所述预设阈值的因子加入所述ARIMA模型。所述ARIMA模型是一种时间序列预测方法,指将非平稳时间序列转化为平稳时间序列,然后将因变量及其滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。其中较常用的ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归,p为自回归项;MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。
步骤S306,根据所述样本数据和外部因子数据构造多个时间序列模型,并进行训练及测试。
在本实施例中,所述时间序列模型为滑动窗口预测模型。所述滑动窗口为一段时间内的样本数据集合,所述滑动是指该窗口随着时间在不断往前移动。例如,采用九年时间的样本数据为滑动窗口,构建多个模型,以预测未来一周的发病情况。
具体地,采用滑动窗口的形式,将前九年(例如2007年1月-2015年12月)的周数据作为训练集,第十年(例如2016年1月-2016年12月)的周数据作为测试集。一年有52个周,因此第十年的52个周作为测试集,也就是构造了52个模型。
首先,根据前九年的周数据,预测第十年第一周的发病人数,然后将滑动时间窗口向后移动一周,即前九年数据去掉第一周,加上第十年第一周的数据,预测第十年第二周的发病人数,以此类推得到第十年的52个周的预测结果。通过测试集的数据,可以验证所述52个周的预测结果的准确性。
步骤S308,根据预设规则筛选最优模型。
具体地,所述预设规则为通过RMSE(均方根误差/标准误差)最优原则,即计算每个模型的预测结果的RMSE,从中选取RMSE最小的时间序列模型为最优模型。
RMSE是在回归问题中广泛应用的一种评价指标。其中的“平方根”使这个指标可以很好的显示出较大的偏差,且“平方”本质上可以防止正向误差和负向误差被相互抵消,使得这个指标可以给出一个更稳健的结果。换言之,这个指标可以恰当的表现出误差项的合理区间。当样本数据很多的时候,利用RMSE来重新构建误差项的分布会更为可靠,从而使筛选出的最优模型误差较低,预测结果更准确。
当根据所述多个时间序列模型对第十年的发病人数进行预测之后,根据测试集的数据和各个模型的预测结果计算每个时间序列模型对应的均方根误差,即根据测试集中第十年52个周的数据和52个模型得到的预测结果计算出对应的52个均方根误差,然后从中选取均方根误差最小的时间序列模型,即为最优模型。
步骤S310,以最优模型及实时数据进行实时预测。
具体地,根据所述最优模型的时间窗口长度获取实时数据(例如获取截止当日之前九年的数据),将所述实时数据代入所述最优模型,实现对未来一周水痘发病人数的实时预测。
本实施例提出的水痘发病预警方法,可以根据设置的样本范围,从预设的数据源中获取对应的水痘发病数据,并获取气象等外部因子,同时考虑外部因子的滞后性,根据所述样本数据和外部因子数据构造多个时间序列模型,并进行训练及测试,选取最优模型,从而将实时数据代入所述最优模型,实现对未来一周水痘发病人数的实时预测。该方法的样本覆盖范围广,且考虑了气象等外部因子对水痘发病数据的影响和滞后性,能够比较准确地得到未来水痘发病人数的预测结果。
参阅图5所示,是本发明水痘发病预警方法第二实施例的流程示意图。在本实施例中,所述水痘发病预警方法的步骤S500-S510与第一实施例的步骤S300-S310相类似,区别在于该方法还包括步骤S512-S514。
步骤S500,设置进行水痘发病预测的样本范围。
具体地,所述样本范围包括时间、地区、数据类型等。例如A地区,时间为2007年1月到2016年12月连续10年的水痘发病数据。所述水痘发病数据包括每周的水痘病例数,每个水痘病例对应的患者信息,例如年龄、性别、职业等。本实施例的样本涉及到较长历史时间(例如连续10年)的水痘发病数据,并且可以覆盖一整个城市的发病人群,覆盖面广,基于该样本可以为后续的预测提供较为准确的依据。
步骤S502,根据所述样本范围获取样本数据。
具体地,根据所设置的样本范围,从预设的数据源中获取对应的样本数据。所述样本数据为水痘发病数据。例如,从A地区的医疗就诊信息系统中获取2007年1月到2016年12月连续10年的水痘发病数据。
步骤S504,获取外部因子数据。
具体地,除了获取水痘发病数据之外,还可以在所述样本中增加所述地区的气象等外部因子对发病的影响,同时考虑外部因子造成影响的滞后性。所述气象因子数据包括气温、降水、气压、湿度等。
针对所述外部因子造成影响的滞后性,可以通过试验不同的滞后周期,并根据因子的相关性,筛选相关性低于预设阈值的因子,依次根据不同的组合形式(双因子、三因子组合形式)加入自回归积分滑动平均模型(ARIMA)中实现。为了避免所筛选的外部因子之间互相影响,从而造成对滞后周期的误判,因此筛选相关性对于所述预设阈值的因子加入所述ARIMA模型。所述ARIMA模型是一种时间序列预测方法,指将非平稳时间序列转化为平稳时间序列,然后将因变量及其滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。其中较常用的ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归,p为自回归项;MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。
步骤S506,根据所述样本数据和外部因子数据构造多个时间序列模型,并进行训练及测试。
在本实施例中,所述时间序列模型为滑动窗口预测模型。所述滑动窗口为一段时间内的样本数据集合,所述滑动是指该窗口随着时间在不断往前移动。例如,采用九年时间的样本数据为滑动窗口,构建多个模型,以预测未来一周的发病情况。
具体地,采用滑动窗口的形式,将前九年(例如2007年1月-2015年12月)的周数据作为训练集,第十年(例如2016年1月-2016年12月)的周数据作为测试集。一年有52个周,因此第十年的52个周作为测试集,也就是构造了52个模型。
首先,根据前九年的周数据,预测第十年第一周的发病人数,然后将滑动时间窗口向后移动一周,即前九年数据去掉第一周,加上第十年第一周的数据,预测第十年第二周的发病人数,以此类推得到第十年的52个周的预测结果。通过测试集的数据,可以验证所述52个周的预测结果的准确性。
步骤S508,根据预设规则筛选最优模型。
具体地,所述预设规则为通过RMSE(均方根误差/标准误差)最优原则,即计算每个模型的预测结果的RMSE,从中选取RMSE最小的时间序列模型为最优模型。
RMSE是在回归问题中广泛应用的一种评价指标。其中的“平方根”使这个指标可以很好的显示出较大的偏差,且“平方”本质上可以防止正向误差和负向误差被相互抵消,使得这个指标可以给出一个更稳健的结果。换言之,这个指标可以恰当的表现出误差项的合理区间。当样本数据很多的时候,利用RMSE来重新构建误差项的分布会更为可靠,从而使筛选出的最优模型误差较低,预测结果更准确。
当根据所述多个时间序列模型对第十年的发病人数进行预测之后,根据测试集的数据和各个模型的预测结果计算每个时间序列模型对应的均方根误差,即根据测试集中第十年52个周的数据和52个模型得到的预测结果计算出对应的52个均方根误差,然后从中选取均方根误差最小的时间序列模型,即为最优模型。
步骤S510,以最优模型及实时数据进行实时预测。
具体地,根据所述最优模型的时间窗口长度获取实时数据(例如获取截止当日之前九年的数据),将所述实时数据代入所述最优模型,实现对未来一周水痘发病人数的实时预测。
步骤S512,根据所述最优模型分析水痘发病的主要影响因子。
具体地,从筛选得到的所述最优模型中,可以分析出对水痘发病造成影响的有哪些因子,每个因子的权重等数据。所述因子包括内部因子,例如年龄等,以及外部因子,例如气温、降水、气压、湿度等气象因子。从而,可以从这些因子出挑选出水痘发病的主要影响因子(权重大于预设阈值的因子)。对于所述主要影响因子中的外部因子,还可以知道对应的滞后期。
步骤S514,将所述主要影响因子提示用户注意。
具体地,可以将分析得到的所述主要影响因子通过图表等形式展示给用户查看,以便提示用户注意。在本实施例中,可以展示每个所述主要影响因子及对应的影响权重,并且对应外部因子还可以展示对应的滞后期。
本实施例提出的水痘发病预警方法,可以根据设置的样本范围,从预设的数据源中获取对应的水痘发病数据,并获取气象等外部因子,同时考虑外部因子的滞后性,根据所述样本数据和外部因子数据构造多个时间序列模型,并进行训练及测试,选取最优模型,从而将实时数据代入所述最优模型,实现对未来一周水痘发病人数的实时预测。该方案的样本覆盖范围广,且考虑了气象等外部因子对水痘发病数据的影响和滞后性,能够比较准确地得到未来水痘发病人数的预测结果。并且,在根据所述最优模型进行发病预测之外,还可以根据所述最优模型分析出对于水痘发病的主要影响因子并提示用户,以便及时对即将发生的发病状况进行相应预防和应对。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种水痘发病预警方法,应用于服务器,其特征在于,所述方法包括步骤:
设置进行水痘发病预测的样本范围;
根据所述样本范围获取样本数据;
获取外部因子数据;
根据所述样本数据和外部因子数据构造多个时间序列模型,并进行训练及测试;
根据预设规则从所述多个时间序列模型中筛选最优模型;及
以所述最优模型及实时数据进行水痘发病实时预测。
2.如权利要求1所述的水痘发病预警方法,其特征在于,所述样本范围包括时间、地区、数据类型,所述样本数据为水痘发病数据。
3.如权利要求2所述的水痘发病预警方法,其特征在于,所述外部因子数据包括所述地区在所述时间内的气象数据。
4.如权利要求1所述的水痘发病预警方法,其特征在于,所述时间序列模型为滑动窗口预测模型。
5.如权利要求4所述的水痘发病预警方法,其特征在于,所述滑动窗口预测模型采用九年时间的样本数据为滑动窗口,以前九年的周数据为训练集,预测未来一周的水痘发病人数,以第十年的周数据为测试集。
6.如权利要求1所述的水痘发病预警方法,其特征在于,所述预设规则为均方根误差最优原则,选取均方根误差最小的时间序列模型为最优模型。
7.如权利要求1所述的水痘发病预警方法,其特征在于,该方法还包括步骤:
根据所述最优模型分析水痘发病的主要影响因子;
将所述主要影响因子提示用户注意。
8.一种服务器,其特征在于,所述服务器包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的水痘发病预警系统,所述水痘发病预警系统被所述处理器执行时实现如下步骤:
设置进行水痘发病预测的样本范围;
根据所述样本范围获取样本数据;
获取外部因子数据;
根据所述样本数据和外部因子数据构造多个时间序列模型,并进行训练及测试;
根据预设规则从所述多个时间序列模型中筛选最优模型;及
以所述最优模型及实时数据进行水痘发病实时预测。
9.如权利要求8所述的服务器,其特征在于,所述水痘发病预警系统被所述处理器执行时还实现步骤:
根据所述最优模型分析水痘发病的主要影响因子;
将所述主要影响因子提示用户注意。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有水痘发病预警系统,所述水痘发病预警系统可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-7中任一项所述的水痘发病预警方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810125016.3A CN108389631A (zh) | 2018-02-07 | 2018-02-07 | 水痘发病预警方法、服务器及计算机可读存储介质 |
PCT/CN2018/089344 WO2019153596A1 (zh) | 2018-02-07 | 2018-05-31 | 水痘发病预警方法、服务器及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810125016.3A CN108389631A (zh) | 2018-02-07 | 2018-02-07 | 水痘发病预警方法、服务器及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108389631A true CN108389631A (zh) | 2018-08-10 |
Family
ID=63075535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810125016.3A Pending CN108389631A (zh) | 2018-02-07 | 2018-02-07 | 水痘发病预警方法、服务器及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108389631A (zh) |
WO (1) | WO2019153596A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109616218A (zh) * | 2018-12-04 | 2019-04-12 | 泰康保险集团股份有限公司 | 数据处理方法、装置、介质及电子设备 |
CN109637670A (zh) * | 2018-12-04 | 2019-04-16 | 泰康保险集团股份有限公司 | 数据处理方法、装置、介质及电子设备 |
CN110120264A (zh) * | 2019-04-19 | 2019-08-13 | 上海依智医疗技术有限公司 | 一种哮喘的预后评估方法及装置 |
CN110136842A (zh) * | 2019-04-04 | 2019-08-16 | 平安科技(深圳)有限公司 | 急性传染病的发病预测方法、装置及计算机可读存储介质 |
CN110675959A (zh) * | 2019-08-19 | 2020-01-10 | 平安科技(深圳)有限公司 | 数据智能分析方法、装置、计算机设备及存储介质 |
WO2020125361A1 (zh) * | 2018-12-17 | 2020-06-25 | 中国科学院深圳先进技术研究院 | 传染病预测方法、装置、电子设备及计算机可读介质 |
CN111415680A (zh) * | 2020-03-26 | 2020-07-14 | 心图熵动科技(苏州)有限责任公司 | 一种基于语音的焦虑预测模型的生成方法和焦虑预测系统 |
CN111419249A (zh) * | 2020-03-26 | 2020-07-17 | 心图熵动科技(苏州)有限责任公司 | 一种抑郁预测模型的生成方法和预测系统 |
CN113327682A (zh) * | 2020-02-28 | 2021-08-31 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种基于关键词搜索时间序列的传染病疫情预测与监控系统、方法及其应用 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101631317A (zh) * | 2009-08-19 | 2010-01-20 | 哈尔滨工业大学 | 一种移动通信话务量的多步预测方法 |
CN101894309A (zh) * | 2009-11-05 | 2010-11-24 | 南京医科大学 | 传染病疫情预测预警方法 |
CN102495937A (zh) * | 2011-10-18 | 2012-06-13 | 南京信息工程大学 | 一种基于时间序列的预测方法 |
CN103886203A (zh) * | 2014-03-24 | 2014-06-25 | 美商天睿信息系统(北京)有限公司 | 一种基于指标预测的自动建模系统及其方法 |
CN104251815A (zh) * | 2014-10-14 | 2014-12-31 | 北京科技大学 | 一种基于时间序列模型的轴类零件裂纹判别方法 |
CN104657788A (zh) * | 2015-02-04 | 2015-05-27 | 国家电网公司 | 基于行业景气指数的重点行业用电量预测方法 |
US20160267223A1 (en) * | 2015-03-10 | 2016-09-15 | Practice Fusion, Inc. | Integrated health data analysis system |
WO2017201323A1 (en) * | 2016-05-18 | 2017-11-23 | Massachusetts Institute Of Technology | Methods and systems for pre-symptomatic detection of exposure to an agent |
CN107633331A (zh) * | 2017-09-26 | 2018-01-26 | 北京福布罗科技有限公司 | 时间序列模型建立方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ZA201704685B (en) * | 2016-07-12 | 2019-06-26 | Tata Consultancy Services Ltd | Systems and methods for pest forecasting using historical pesticide usage information |
CN106778014B (zh) * | 2016-12-29 | 2020-06-16 | 浙江大学 | 一种基于循环神经网络的患病风险预测建模方法 |
CN107146015B (zh) * | 2017-05-02 | 2023-06-27 | 联想(北京)有限公司 | 多变量时间序列预测方法和系统 |
CN107633254A (zh) * | 2017-07-25 | 2018-01-26 | 平安科技(深圳)有限公司 | 建立预测模型的装置、方法及计算机可读存储介质 |
-
2018
- 2018-02-07 CN CN201810125016.3A patent/CN108389631A/zh active Pending
- 2018-05-31 WO PCT/CN2018/089344 patent/WO2019153596A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101631317A (zh) * | 2009-08-19 | 2010-01-20 | 哈尔滨工业大学 | 一种移动通信话务量的多步预测方法 |
CN101894309A (zh) * | 2009-11-05 | 2010-11-24 | 南京医科大学 | 传染病疫情预测预警方法 |
CN102495937A (zh) * | 2011-10-18 | 2012-06-13 | 南京信息工程大学 | 一种基于时间序列的预测方法 |
CN103886203A (zh) * | 2014-03-24 | 2014-06-25 | 美商天睿信息系统(北京)有限公司 | 一种基于指标预测的自动建模系统及其方法 |
CN104251815A (zh) * | 2014-10-14 | 2014-12-31 | 北京科技大学 | 一种基于时间序列模型的轴类零件裂纹判别方法 |
CN104657788A (zh) * | 2015-02-04 | 2015-05-27 | 国家电网公司 | 基于行业景气指数的重点行业用电量预测方法 |
US20160267223A1 (en) * | 2015-03-10 | 2016-09-15 | Practice Fusion, Inc. | Integrated health data analysis system |
WO2017201323A1 (en) * | 2016-05-18 | 2017-11-23 | Massachusetts Institute Of Technology | Methods and systems for pre-symptomatic detection of exposure to an agent |
CN107633331A (zh) * | 2017-09-26 | 2018-01-26 | 北京福布罗科技有限公司 | 时间序列模型建立方法及装置 |
Non-Patent Citations (2)
Title |
---|
郑代坤等: "基于自回归求和移动平均模型预测我国手足口病月报告发病数", 《疾病监测》 * |
陶长余等: "南通市水痘疫情时间序列分析", 《中国学校卫生》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109616218A (zh) * | 2018-12-04 | 2019-04-12 | 泰康保险集团股份有限公司 | 数据处理方法、装置、介质及电子设备 |
CN109637670A (zh) * | 2018-12-04 | 2019-04-16 | 泰康保险集团股份有限公司 | 数据处理方法、装置、介质及电子设备 |
WO2020125361A1 (zh) * | 2018-12-17 | 2020-06-25 | 中国科学院深圳先进技术研究院 | 传染病预测方法、装置、电子设备及计算机可读介质 |
CN110136842A (zh) * | 2019-04-04 | 2019-08-16 | 平安科技(深圳)有限公司 | 急性传染病的发病预测方法、装置及计算机可读存储介质 |
CN110120264A (zh) * | 2019-04-19 | 2019-08-13 | 上海依智医疗技术有限公司 | 一种哮喘的预后评估方法及装置 |
CN110675959A (zh) * | 2019-08-19 | 2020-01-10 | 平安科技(深圳)有限公司 | 数据智能分析方法、装置、计算机设备及存储介质 |
CN113327682A (zh) * | 2020-02-28 | 2021-08-31 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种基于关键词搜索时间序列的传染病疫情预测与监控系统、方法及其应用 |
CN111415680A (zh) * | 2020-03-26 | 2020-07-14 | 心图熵动科技(苏州)有限责任公司 | 一种基于语音的焦虑预测模型的生成方法和焦虑预测系统 |
CN111419249A (zh) * | 2020-03-26 | 2020-07-17 | 心图熵动科技(苏州)有限责任公司 | 一种抑郁预测模型的生成方法和预测系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2019153596A1 (zh) | 2019-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108389631A (zh) | 水痘发病预警方法、服务器及计算机可读存储介质 | |
US20220139070A1 (en) | Learning apparatus, estimation apparatus, data generation apparatus, learning method, and computer-readable storage medium storing a learning program | |
CN107730087A (zh) | 预测模型训练方法、数据监控方法、装置、设备及介质 | |
Kell et al. | Evaluation of the prediction skill of stock assessment using hindcasting | |
US20210192586A1 (en) | Systems and Methods for Detecting and Responding to Anomalous Traffic Conditions | |
CN104270281B (zh) | 一种Web Service QoS组合预测方法 | |
CN107992968B (zh) | 基于集成时间序列分析技术的电能表计量误差预测方法 | |
CN108257675A (zh) | 慢阻肺发病风险预测方法、服务器及计算机可读存储介质 | |
CN102185731B (zh) | 网络健康度测试方法及系统 | |
CN110445680A (zh) | 网络流量异常检测方法、装置及服务器 | |
CN109726764A (zh) | 一种模型选择方法、装置、设备和介质 | |
CN110517481A (zh) | 车流量预测方法、介质、设备及装置 | |
JP2023518771A (ja) | 機械学習に基づくデータ・モニタリング | |
CN117543544A (zh) | 一种负荷预测方法、装置、设备及存储介质 | |
CN114820262A (zh) | 一种二氧化碳排放变化及排放贡献评估方法和装置 | |
Sinha | Short term load forecasting using artificial neural networks | |
CN113688564B (zh) | 一种预测ssd硬盘剩余寿命的方法、装置、终端及存储介质 | |
CN114139931A (zh) | 企业数据评估方法、装置、计算机设备及存储介质 | |
CN109308660B (zh) | 一种征信评分模型评估方法、装置、设备及存储介质 | |
CN109409786A (zh) | 配电网可靠性的评估方法及系统 | |
CN117235633A (zh) | 机构分类方法、装置、计算机设备及存储介质 | |
CN108805603A (zh) | 营销活动质量评估方法、服务器及计算机可读存储介质 | |
CN112085517A (zh) | 优惠券发放方法、装置、电子设备及可读存储介质 | |
CN105227410A (zh) | 基于自适应神经网络的服务器负载检测的方法及系统 | |
CN116954627A (zh) | 游戏产品的参数预测方法、装置、设备、介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180810 |
|
RJ01 | Rejection of invention patent application after publication |