CN115775634A - 一种基于多变量核密度估计的虫媒疾病预测方法及系统 - Google Patents
一种基于多变量核密度估计的虫媒疾病预测方法及系统 Download PDFInfo
- Publication number
- CN115775634A CN115775634A CN202211671730.5A CN202211671730A CN115775634A CN 115775634 A CN115775634 A CN 115775634A CN 202211671730 A CN202211671730 A CN 202211671730A CN 115775634 A CN115775634 A CN 115775634A
- Authority
- CN
- China
- Prior art keywords
- model
- bandwidth
- grid
- disease
- kernel density
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于多变量核密度估计的虫媒疾病预测方法及系统,包括收集目标区域内的虫媒疾病病例信息和传播媒介信息,使用网格划分目标区域,形成包含目标区域的划分网格;设置模型训练的时间区间、近邻点个数下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,分别建立虫媒疾病病例动态带宽核密度估计模型和传播媒介动态带宽核密度估计模型;建立多变量组合模型,使用平均命中面积比评估不同参数下的多变量组合模型预测结果,得到最优多变量组合模型及其密度分布网格;使用自适应等高线分级图呈现最优多变量组合模型预测结果。本发明使用多变量核密度估计方法,提升虫媒疾病疫情态势预测精度,为虫媒疾病疫情防控决策提供帮助。
Description
技术领域
本发明涉及一种基于多变量核密度估计的虫媒疾病预测方法及系统,属于计算机应用领域。
背景技术
随着全球气候不断变化,世界范围内虫媒疾病的爆发频次呈上升趋势,尤其是在虫媒疾病高发地区。虫媒疾病的传播区域从边、少、穷地区逐渐蔓延至周边地区,甚至出现虫媒疾病跨境传播的复杂情况,使用信息技术实现虫媒疾病疫情准确预测成为亟待解决的问题。
面对虫媒疾病疫情预测问题,往往需要收集虫媒疾病环境变量和种群分布信息,其中虫媒疾病疫情的地理空间预测是主要难题之一。通过传统的统计方法如累积和控制图、小波变换等无法直接运用到空间预测领域进行疫情区域预测,也无法实现多变量综合预测,空间自相关分析方法需要进行随机实验确定评估阈值,无法满足细粒度、多场景的地理空间疫情预测需求,基于空间聚类的方法无法解决动态距离引起的权值偏重纠正问题,预测准确度较低,Ripley's K函数虽然引入多距离方法解决单一距离阈值估计的局限性,但对小范围区域的预测能力不足,无法满足疫情防控的实际需求。
发明内容
本发明技术解决问题:克服现有技术中存在的不足,提供一种基于多变量核密度估计的虫媒疾病预测方法及系统,具有科学可行、准确度高的优点,不仅可以实现可变距离地理空间疫情分布态势预测,而且克服依靠单一变量预测的缺点,提升了虫媒疾病疫情态势的预测结果。
本发明解决其技术问题所采用的技术方案是:
第一方面,本发明的提供一种基于多变量核密度估计的虫媒疾病预测方法,包括以下步骤:
步骤一,收集目标区域内的虫媒疾病病例信息和传播媒介信息,通过虫媒疾病病例信息和传播媒介信息构建多变量的训练样本集,通过选择方框并保证方框包含目标区域,使用网格划分包含目标区域的方框,形成包含目标区域的划分网格;
步骤二,在步骤一训练样本集和包含目标区域的划分网格的基础上,设置模型训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,结合虫媒疾病病例和传播媒介信息,计算生成核密度估计模型,遍历近邻点个数和带宽阈值的所有取值,每种取值对应生成一个核密度估计模型,分别建立虫媒疾病病例动态带宽核密度估计模型和虫媒疾病传播媒介动态带宽核密度估计模型;
步骤三,融合虫媒疾病病例动态带宽核密度估计模型和传播媒介动态带宽核密度估计模型,建立多变量组合模型,使用平均命中面积比评估不同参数条件下的多变量组合模型预测结果,得到最优多变量组合模型及其密度分布网格;
步骤四,采用自适应等高线分级图的形式,呈现最优多变量组合模型的预测结果,直观展示虫媒疾病疫情态势的空间分布,为虫媒疾病疫情态势的研究、判断和防控决策提供科学依据。
进一步的,所述步骤一中,收集虫媒疾病病例信息包括虫媒疾病病例的现居住地址位置坐标和发病日期,病例的现居住地址位置坐标直接通过数据采集得到,或通过现居住地址名称映射得到,收集的病例信息作为一个变量,该变量由若干条病例数据组成,每条病例数据包含一个虫媒疾病病例的现居住地址位置坐标和发病日期。
进一步的,所述步骤一中,收集虫媒疾病传播媒介信息包括指传播媒介监测点的位置坐标、监测时间和监测指标,传播媒介监测点可以是街道、社区、公司、学校、居民区,也可以是片区、疫情监测点、行政区划等地理单位,传播媒介监测点的位置坐标通过直接采集得到,或通过传播媒介监测点的名称映射得到,监测指标可以是布雷图指数、房屋指数、容器指数,也可以是成蚊个数、幼虫个数等表示传播媒介密度、数量的直接或间接统计量,收集的传播媒介信息作为一个变量,该变量由若干条传播媒介数据组成,每条传播媒介数据包含一个传播媒介监测点的位置坐标、监测时间和监测指标。
进一步的,所述步骤一中,使用网格划分目标区域是指选定一个方框包含目标区域,在平面地图上,目标区域被包含在该方框内,同时该方框能够被正方形划分成网格,每个正方形是一个网格单元,本发明对该方框的长和宽不做限定,可以相等,也可以不相等,形成包含目标区域的划分网格,将每个网格单元的几何中心坐标作为该网格单元的位置坐标。
进一步的,所述步骤二中,建立虫媒疾病病例动态带宽核密度估计模型和虫媒疾病传播媒介动态带宽核密度估计模型是指在步骤一训练样本集的基础上,通过虫媒疾病病例信息建立虫媒疾病病例动态带宽核密度估计模型,设置训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,根据模型训练时的时间区间,从训练样本集中选取虫媒疾病病例信息作为虫媒疾病病例训练样本,根据近邻点个数的下限值和上限值、带宽最低阈值和最高阈值,选择近邻点个数和带宽阈值,模型训练时的时间区间、近邻点个数、带宽阈值、核密度函数形式构成虫媒疾病病例动态带宽核密度估计模型的参数;对每条病例数据,根据近邻点个数和带宽阈值,计算得到每条数据的若干近邻数据及其与每条近邻数据的距离,并与带宽阈值比较,取较大者作为该条病例数据的带宽值;对于相同的近邻点个数和带宽阈值,由于每个病例的位置不同,所以计算得到的带宽值不同,从而构成动态带宽。基于步骤一包含目标区域的划分网格,对划分网格的每个网格单元,通过核密度函数计算每个病例在该网格单元的密度值,核密度函数形式包括但不限于高斯函数、Epanechnikov函数、Biweight函数,累积所有病例在该网格单元的密度值得到该网格单元密度,进一步计算每个网格单元密度,得到虫媒疾病病例密度分布网格,虫媒疾病病例动态带宽核密度估计模型参数及虫媒疾病病例密度分布网格构成虫媒疾病病例动态带宽核密度估计模型;固定模型训练时的时间区间和核密度函数形式,对每个近邻点个数和带宽阈值的取值,通过计算,得到一个虫媒疾病病例动态带宽核密度估计模型,遍历近邻点个数和带宽阈值的所有取值,建立若干虫媒疾病病例动态带宽核密度估计模型;通过虫媒疾病传播媒介信息建立虫媒疾病传播媒介动态带宽核密度估计模型,设置训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,根据模型训练时的时间区间,从训练样本集中选取虫媒疾病传播媒介信息作为虫媒疾病传播媒介训练样本,根据近邻点个数的下限值和上限值、带宽最低阈值和最高阈值,选择近邻点个数和带宽阈值,模型训练时的时间区间、近邻点个数、带宽阈值、核密度函数形式构成传播媒介动态带宽核密度估计模型的参数;对每条传播媒介数据,根据近邻点个数和带宽阈值,计算得到每条数据的若干近邻数据及其与每条近邻数据的距离,并与带宽阈值比较,取较大者作为该条传播媒介数据的带宽值;对于相同的近邻点个数和带宽阈值,每个传播媒介监测点的位置不同,计算得到不同的带宽值,构成动态带宽。基于步骤一包含目标区域的划分网格,对划分网格的每个网格单元,通过核密度函数计算每个传播媒介监测点在该网格单元的密度值,核密度函数形式包括但不限于高斯函数、Epanechnikov函数、Biweight函数,累积所有传播媒介监测点在该网格单元的密度值得到该网格单元密度,进一步计算每个网格单元的密度,得到虫媒疾病传播媒介密度分布网格,虫媒疾病传播媒介动态带宽核密度估计模型的参数及虫媒疾病传播媒介密度分布网格构成虫媒疾病传播媒介动态带宽核密度估计模型。固定模型训练时的时间区间和核密度函数形式,对每个近邻点个数和带宽阈值的取值,通过计算,都对应得到一个传播媒介动态带宽核密度估计模型,遍历近邻点个数和带宽阈值的所有取值,建立若干传播媒介动态带宽核密度估计模型。
进一步的,所述步骤三中,建立多变量组合模型,使用平均命中面积比评估不同参数条件下的多变量组合模型预测结果,得到最优多变量组合模型及其密度分布网格,包括如下过程:从步骤二中分别选取虫媒疾病病例动态带宽核密度估计模型及对应的病例密度分布网格、传播媒介动态带宽核密度估计模型及对应的传播媒介密度分布网格,融合虫媒疾病病例动态带宽核密度估计模型和传播媒介动态带宽核密度估计模型形成多变量组合模型,多变量组合模型由多变量组合模型参数及多变量密度分布网格构成,叠加病例密度分布网格和传播媒介密度分布网格,形成多变量密度分布网格;多变量组合模型参数由步骤二的虫媒疾病病例动态带宽核密度估计模型参数和传播媒介动态带宽核密度估计模型参数共同组成,包括虫媒疾病病例动态带宽核密度估计模型训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,以及传播媒介动态带宽核密度估计模型训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,对不同参数条件下的多变量组合模型,使用平均命中面积比评估多变量组合模型预测结果,选取平均命中面积比最大的多变量组合模型作为最优多变量组合模型,计算最优多变量组合模型在包含目标区域的划分网格中的每个网格单元的密度值,得到最优多变量组合模型密度分布网格。
进一步的,所述步骤四中,使用自适应等高线分级图的形式,呈现最优多变量组合模型的预测结果,包括以下过程:基于步骤三得到的最优多变量组合模型密度分布网格,提取最优多变量组合模型密度分布网格中各网格单元的分布密度值,按照分布密度值从大到小顺序进行排序,依次取10%、20%、30%、40%、50%处的值作为等高线分级图的阈值。对一个等高线分级图的阈值,将该阈值与多变量组合模型密度分布网格中各网格单元的分布密度值比较,进一步使用Marching Squares算法计算得到在该阈值条件下的等高线。对多个等高线分级图的阈值,计算产生多个等高线,形成等高线分级图,使用自适应等高线分级图的形式,呈现多变量核密度估计的虫媒疾病预测结果。自适应特征在于等高线图的绘制不依赖于区域形状及密度分布值的量纲,在最优模型的预测结果集上,结合阈值区间着色,呈现自适应等高线分级图展示最优模型预测结果。
根据本发明的另一方面,提供一种基于多变量动态带宽核密度估计的虫媒疾病预测系统,包括数据收集模块、数据训练模块、融合预测模块、结果呈现模块,其中:
数据收集模块:选定目标区域、模型预测的时间区间和训练模型时间范围,收集目标区域内的虫媒疾病病例信息和传播媒介信息,提取训练模型时间范围内的虫媒疾病病例信息和传播媒介信息作为训练样本集,用于提供动态带宽核密度估计模型的虫媒疾病病例和传播媒介数据,选择方框并保证方框包含目标区域,使用网格划分包含目标区域的方框,形成由网格单元组成的包含目标区域的划分网格,用于建立虫媒疾病病例动态带宽核密度估计模型和传播媒介动态带宽核密度估计模型的密度分布网格;
数据训练模块:基于虫媒疾病病例信息,选取不同参数,包括模型训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,根据模型训练时的时间区间从数据收集模块的训练样本集中选取病例训练样本,根据近邻点个数的下限值和上限值、带宽最低阈值和最高阈值,选择近邻点个数和带宽阈值,计算每个病例的带宽值,包含目标区域的划分网格,通过核密度函数计算每个网格单元密度,得到虫媒疾病病例密度分布网格,遍历近邻点个数和带宽阈值的所有取值,建立若干虫媒疾病病例动态带宽核密度估计模型;基于虫媒疾病传播媒介信息,选取不同参数,包括模型训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,根据模型训练时的时间区间从数据收集模块的训练样本集中选取传播媒介训练样本,根据近邻点个数的下限值和上限值、带宽最低阈值和最高阈值,选择近邻点个数和带宽阈值,计算每个媒介监测点的带宽值,基于包含目标区域的划分网格,通过核密度函数计算每个网格单元密度,得到虫媒疾病传播媒介密度分布网格,遍历近邻点个数和带宽阈值的所有取值,建立若干虫媒疾病传播媒介动态带宽核密度估计模型及传播媒介密度分布网格;
融合预测模块:融合由数据训练模块计算得到的虫媒疾病病例动态带宽核密度估计模型和传播媒介动态带宽核密度估计模型,形成多变量组合模型,叠加病例密度分布网格和传播媒介密度分布网格,成为多变量组合模型密度分布网格,多变量组合模型的参数由数据训练模块中虫媒疾病病例动态带宽核密度估计模型参数和传播媒介动态带宽核密度估计模型参数共同组成,对不同参数条件下的多变量组合模型,使用平均命中面积比评估多变量组合模型预测结果,选取平均命中面积比最大的多变量组合模型作为最优多变量组合模型,同时得到最优多变量组合模型密度分布网格;
结果呈现模块:设置等高线分级图的阈值,对一个等高线分级图的阈值,将该阈值与融合预测模块得到的最优多变量组合模型密度分布网格的每个网格单元密度值比较,得到在该阈值条件下的等高线,通过设置多个等高线分级图的阈值,计算产生多个等高线,形成等高线分级图,使用自适应等高线分级图的形式,呈现多变量核密度估计的虫媒疾病预测结果。
与现有技术方案相比,本发明的有益结果是:
(1)本发明包括收集目标区域内的虫媒疾病病例信息和传播媒介信息,得到训练样本集,使用网格划分目标区域,形成包含目标区域的划分网格;设置模型训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,分别建立虫媒疾病病例动态带宽核密度估计模型和虫媒疾病传播媒介动态带宽核密度估计模型;基于虫媒疾病病例动态带宽核密度估计模型和传播媒介动态带宽核密度估计模型,建立多变量组合模型,使用平均命中面积比评估不同参数条件下的多变量组合模型预测结果,得到最优多变量组合模型及其密度分布网格;使用自适应等高线分级图的形式,呈现最优多变量组合模型的预测结果。本发明将基于动态带宽核密度估计方法应用于虫媒疾病疫情态势预测领域,更准确地提取病例人群和媒介种群分布特征,提升虫媒疾病疫情态势预测精度,运用疫情态势分布呈现技术,为虫媒疾病疫情形势判断和制定防控策略提供帮助。
(2)本发明设计一种动态带宽核密度估计方法,通过设置近邻点个数的下限值和上限值、带宽最低阈值和最高阈值,进一步选择近邻点个数和带宽阈值,对病例数据,根据近邻点个数,计算得到病例与近邻点之间的距离,将此距离和带宽阈值比较,计算得到病例的带宽值,每个病例的现居住地址位置坐标不同,容易得到,每个病例与近邻点的距离也不同。因此,对相同的近邻点个数和带宽阈值,每个病例将对应计算得到不同的带宽值,此带宽值不仅仅取决于固定的距离,而与病例及近邻点有关,成为动态带宽,能够应用于病例相对集中的情形和病例相对分散的情形,对传播媒介数据,根据近邻点个数,计算得到传播媒介监测点与近邻点之间的距离,将此距离和带宽阈值比较,计算得到传播媒介监测点的带宽值,每个传播媒介监测点的位置不同,容易得到,每个传播媒介监测点与近邻点的距离也不同。因此,对于相同的近邻点个数和带宽阈值,每个传播媒介监测点将对应计算得到不同的带宽值,此带宽值不仅仅取决于固定的距离,而与传播媒介监测点及近邻点有关,成为动态带宽,能够应用于传播媒介监测点相对密集和相对分散两种情形,计算产生分布密度网格,实现疫情态势预测。
(3)本发明将单一变量动态带宽核密度估计扩展到多变量动态带宽核密度估计,收集的病例信息作为一个变量,该变量由若干条病例数据组成,收集的传播媒介信息作为一个变量,该变量由若干条传播媒介数据组成,通过为每个变量设置模型训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式等参数,分别建立虫媒疾病病例动态带宽核密度估计模型和虫媒疾病传播媒介动态带宽核密度估计模型,虫媒疾病病例信息和传播媒介信息构成多变量,相较于单一变量的核密度估计模型,结合病例和传播媒介信息,更加全面地对虫媒传染病疫情进行预测,解决单因素预测导致的风险区域偏移问题,提高预测准确率。
(4)本发明融合虫媒疾病病例动态带宽核密度估计模型和传播媒介动态带宽核密度估计模型形成多变量组合模型,设计使用平均命中面积比评估多变量组合模型预测结果,提取多变量组合模型密度分布网格中密度值高于阈值的网格单元,计算被包含在这些网格单元的病例百分比与这些网格单元面积之和百分比的比值,将病例百分比与面积百分比相结合,使在有限的面积内预测出更多的病例,提升风险区域的病例预测精度,有效控制风险区域范围,为精准防控提供科学依据。平均命中面积比这一指标可以应用于两个及以上的多变量组合模型预测结果的评估,克服单纯使用病例数衡量模型预测效果的局限性。
(5)本发明设计使用自适应等高线分级图的形式,呈现多变量核密度估计的虫媒疾病预测结果。通过不同阈值界定绘制风险区域等高线图,等高线图的绘制不依赖于区域形状及密度分布值的量纲,基于最优多变量组合模型,结合阈值区间着色,形象展示最优多变量组合模型在包含目标区域的划分网格中的每个网格单元密度值,易于识别高风险区域,为疫情决策提供可视分析支持,同时该技术支持其他领域在地理二维空间中的多变量核密度估计结果展示。
附图说明
图1为本发明方法流程示意图;
图2为本发明数据流示意图;
图3为本发明系统运行过程示意图;
图4为本发明基于最优多变量组合模型预测结果的等高线分级图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
第一步,收集目标区域内的虫媒疾病病例信息和传播媒介信息,得到训练样本集,使用网格划分目标区域,形成包含目标区域的划分网格;
第二步,设置模型训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,分别建立虫媒疾病病例动态带宽核密度估计模型和虫媒疾病传播媒介动态带宽核密度估计模型;
第三步,基于虫媒疾病病例动态带宽核密度估计模型和传播媒介动态带宽核密度估计模型,建立多变量组合模型,使用平均命中面积比评估不同参数条件下的多变量组合模型预测结果,得到最优多变量组合模型及其密度分布网格;
第四步,使用自适应等高线分级图的形式,呈现最优多变量组合模型的预测结果。
本发明的基本思路在于,选定目标区域、训练模型时间范围和模型预测的时间区间,收集在目标区域内的虫媒疾病病例信息和传播媒介信息,提取训练模型时间范围内的虫媒疾病病例信息和传播媒介信息作为训练样本集,虫媒疾病病例信息和传播媒介信息分别作为变量,选择方框并保证方框包含目标区域,使用网格划分包含目标区域的方框,形成包含目标区域的划分网格,每一个网格都作为一个网格单元。设置模型训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,分别建立虫媒疾病病例动态带宽核密度估计模型和虫媒疾病传播媒介动态带宽核密度估计模型。通过虫媒疾病病例信息建立虫媒疾病病例动态带宽核密度估计模型,设置训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,根据模型训练时的时间区间,从训练样本集中选取虫媒疾病病例信息作为虫媒疾病病例训练样本,根据近邻点个数的下限值和上限值、带宽最低阈值和最高阈值,选择近邻点个数和带宽阈值,对每条病例数据,根据近邻点个数和带宽阈值计算得到该病例的带宽值。基于包含目标区域的划分网格,对划分网格的每个网格单元,通过核密度函数计算每个病例在该网格单元的密度值,累积所有病例在该网格单元的密度值得到该网格单元密度,进一步计算每个网格单元密度,得到虫媒疾病病例密度分布网格,建立虫媒疾病病例动态带宽核密度估计模型。通过虫媒疾病传播媒介信息建立虫媒疾病传播媒介动态带宽核密度估计模型,设置训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,根据模型训练时的时间区间,从训练样本集中选取虫媒疾病传播媒介信息作为虫媒疾病传播媒介训练样本,根据近邻点个数的下限值和上限值、带宽最低阈值和最高阈值,选择近邻点个数和带宽阈值,对每个传播媒介监测点,根据近邻点个数和带宽阈值计算得到该传播媒介监测点的带宽值。基于包含目标区域的划分网格,对划分网格的每个网格单元,通过核密度函数计算每个传播媒介监测点在该网格单元的密度值,累积所有传播媒介监测点在该网格单元的密度值得到该网格单元密度,进一步计算每个网格单元的密度,得到虫媒疾病传播媒介密度分布网格,建立若干传播媒介动态带宽核密度估计模型。基于虫媒疾病病例动态带宽核密度估计模型和传播媒介动态带宽核密度估计模型,建立多变量组合模型,使用平均命中面积比评估不同参数条件下的多变量组合模型预测结果,得到最优多变量组合模型及其密度分布网格。设置等高线分级图的阈值,对一个等高线分级图的阈值,将该阈值与最优多变量组合模型密度分布网格的每个网格单元密度值比较,得到在该阈值条件下的等高线,通过设置多个等高线分级图的阈值,计算产生多个等高线,形成等高线分级图,使用自适应等高线分级图的形式,呈现多变量核密度估计的虫媒疾病预测结果。
本发明流程示意图如图1所示,数据流图如图2所示,为了实现本发明的方法,实施过程中使用四核阿里云服务器,本地使用华为RH2288v3服务器,用户设备使用联想电脑,数据收集过程如图3所示,用户将虫媒疾病病例信息和传播媒介信息通过用户设备上传到本地服务器,本地服务器处理原始数据,形成训练样本集,将训练样本集上传至云服务器,云服务器训练得到虫媒疾病病例动态带宽核密度估计模型和虫媒疾病传播媒介动态带宽核密度估计模型,进一步建立多变量组合模型,通过对不同参数条件下的多变量组合模型使用平均命中面积比评估模型预测结果,得到最优多变量组合模型及其密度分布网格,云服务器将最优多变量组合模型及其密度分布网格返回本地服务器,本地服务器将结果传送至用户设备,通过本地设备呈现最优多变量组合模型的疫情分布态势预测结果。该方法具体步骤如下所示:
第一步,收集目标区域内的虫媒疾病病例信息和传播媒介信息,得到训练样本集,使用网格划分目标区域,形成包含目标区域的划分网格。选定目标区域、训练模型时间范围和模型预测的时间区间,收集目标区域内的虫媒疾病病例信息和传播媒介信息,虫媒疾病病例信息和传播媒介信息分别作为变量,由用户通过本地设备收集并上报虫媒疾病病例信息和传播媒介信息,整理形成虫媒疾病病例和传播媒介两个变量,包括病例现居住地址位置坐标和发病日期,媒介监测点的位置坐标、监测时间和监测指标等数据,提取训练模型时间范围内的虫媒疾病病例信息和传播媒介信息作为训练样本集。
本实施例中以云南省景洪市作为目标区域,收集2019年8月1日至31日期间云南省景洪市的虫媒疾病病例信息和传播媒介信息作为训练样本集,其中虫媒疾病病例信息包括虫媒疾病病例的现居住地址位置坐标和发病日期,虫媒疾病传播媒介信息包括传播媒介监测点的位置坐标、监测时间和监测指标。设虫媒疾病病例总数为N,依次编号为C1,C2,...CN,传播媒介监测点总数为M,依次编号为V1,V2,...VM。
设置训练模型时间范围从2019年8月1日至31日,模型预测的时间区间为2019年9月1日至7日。选择方框并保证方框包含目标区域,使用网格划分包含目标区域的方框,形成包含目标区域的划分网格,即在平面地图上选择方框,该方框包含目标区域,本发明对该方框的长和宽不做限定,可以相等,也可以不相等,但应保证该方框能够被正方形划分成网格,每一个网格都作为一个网格单元,设网格单元的边长为1,方框由a*b个网格单元构成,横向共有a列,纵向共有b行,设i、j分别表示网格单元横向编号和纵向编号,有1≤i≤a,1≤j≤b,第i列第j行网格单元记为Eij,将每个网格单元的几何中心坐标作为该网格单元的位置坐标,在本实施例中,以云南省景洪市政府所在地作为方框中心,取长、宽各10千米的区域构成方框包含目标区域,每个网格单元的实际边长为100米,a=100,b=100,从而形成包含目标区域的划分网格。
第二步,设置模型训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,分别建立虫媒疾病病例动态带宽核密度估计模型和虫媒疾病传播媒介动态带宽核密度估计模型。
在步骤一训练样本集的基础上,通过虫媒疾病病例信息建立虫媒疾病病例动态带宽核密度估计模型,设置训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,根据模型训练时的时间区间,从训练样本集中选取虫媒疾病病例信息作为虫媒疾病病例训练样本。本实施例根据虫媒疾病特点设置模型训练时的时间区间,设置距离预测的时间区间最近的14天为模型训练时的时间区间,即2019年8月18日至31日,应当明确,基于训练样本集,模型训练时的时间区间可以有不同的选择方法,可以根据经验设置,也可以通过最终模型的预测效果进行回顾性分析确定。根据步骤一得到包含目标区域的划分网格,对于第i列第j行网格单元Eij,虫媒疾病病例密度分布网格在该处的网格单元密度记为DCij,虫媒疾病病例密度分布网格每个网格单元初始值为0,即DCij初始化为0。设置虫媒疾病病例近邻点个数的下限值KCl和上限值KCu,虫媒疾病病例带宽最低阈值TCl和最高阈值TCu,在本实施例中,KCl=3,KCu=20,TCl=200米,TCu=1000米。在本实施例中,近邻点个数依次取遍KCl到KCu间的所有整数,KC表示当前选择的近邻点个数,带宽阈值在TCl与TCu间,每隔100米取值一次,TC表示当前选择的带宽阈值,KC和TC满足如下条件:
根据近邻点个数和带宽阈值,依次计算每个虫媒疾病病例的带宽值,本实施例中,设当前虫媒疾病病例Cn,有1≤n≤N,根据此病例与其他病例的位置坐标,依次计算Cn与其他病例的距离,得到与Cn最近的第KC个病例的距离,记为LC,本发明对与Cn最近的第KC个病例间距离的计算方法不做限定,可以使用kd树、R树等方法计算得到,此处的距离可以使用基于两点的任何一种可测距的距离计算得到,比如曼哈顿距离、马氏距离等,在本实施例中,使用两点之间欧式距离表示两点之间的距离。进一步将LC与TC比较,取较大者作为病例Cn的带宽,记为WC,有:
WC=max(LC,TC),max运算符表示取最大值运算
每个虫媒疾病病例的现居住地址位置坐标不同,每个虫媒疾病病例与近邻点的距离LC也不同,因此,对相同的近邻点个数和带宽阈值,每个病例将对应计算得到不同的带宽值WC,此带宽值不仅仅取决于固定的距离,而与病例及近邻点有关,对于病例分布较为集中的情形,由以上计算过程可知,LC相对于TC较小,虫媒疾病病例的带宽WC取值等于TC,提升虫媒疾病病例密度分布网格在病例聚集区域网格单元的密度值,扩大病例聚集区域的影响范围,对于病例分布较为分散的情形,由以上计算过程可知,LC相对于TC较大,虫媒疾病病例的带宽WC取值等于LC,提升虫媒疾病病例密度分布网格在病例分散区域网格单元的密度值,适用于病例间距离较远的情形。综上,虫媒疾病病例的带宽值与病例及其近邻点有关,能够在病例相对集中和相对分散的两种条件下计算产生分布密度网格,进一步实现疫情态势预测。
基于病例Cn依次更新虫媒疾病病例密度分布网格的网格单元,对于第i列第j行网格单元Eij,设Eij与Cn的距离为EC,本实施例通过如下核密度函数形式,得到虫媒疾病病例密度分布网格在网格单元密度DCij处的更新值△DCij:
进一步将△DCij累加到DCij,更新DCij,实现虫媒疾病病例Cn对虫媒疾病病例密度分布网格在Eij网格单元的密度值更新。基于病例Cn,使用上述方法依次更新虫媒疾病病例密度分布网格的每个网格单元,实现病例Cn对整个虫媒疾病病例密度分布网格的更新,形成一个虫媒疾病病例密度分布网格,此虫媒疾病病例动态带宽核密度估计模型参数包括模型训练时的时间区间、当前选择的近邻点个数KC,当前选择的带宽阈值TC、核密度函数形式,此处,由虫媒疾病病例动态带宽核密度估计模型参数及虫媒疾病病例密度分布网格构成一个虫媒疾病病例动态带宽核密度估计模型。不难推出,每次近邻点个数和带宽阈值的不同取值都将形成不同的虫媒疾病病例动态带宽核密度估计模型参数,相应计算产生一个虫媒疾病病例动态带宽核密度估计模型。进一步,近邻点个数依次取遍KCl到KCu间的所有整数,带宽阈值在TCl与TCu间,每隔100米取值一次,因此,近邻点个数和带宽阈值的不同取值将会建立若干虫媒疾病病例动态带宽核密度估计模型。
在步骤一训练样本集的基础上,通过虫媒疾病传播媒介信息建立虫媒疾病传播媒介动态带宽核密度估计模型,设置训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,根据模型训练时的时间区间,从训练样本集中选取虫媒疾病传播媒介信息作为虫媒疾病传播媒介训练样本。本实施例根据虫媒疾病特点设置模型训练时的时间区间,设置距离预测的时间区间最近的31天为模型训练时的时间区间,即2019年8月1日至31日,应当明确,基于训练样本集,模型训练时的时间区间可以有不同的选择方法,可以根据经验设置,也可以通过最终模型的预测效果进行回顾性分析确定。根据步骤一得到包含目标区域的划分网格,对于第i列第j行网格单元Eij,虫媒疾病传播媒介密度分布网格在该处的网格单元密度记为DVij,虫媒疾病传播媒介密度分布网格每个网格单元初始值为0,即DVij初始化为0。设置近邻点个数的下限值KVl和上限值KVu,带宽最低阈值TVl和最高阈值TVu,在本实施例中,KVl=3,KVu=10,TVl=200米,TVu=2000米。在本实施例中,传播媒介近邻点个数依次取遍KVl到KVu间的所有整数,KV表示当前选择的近邻点个数,传播媒介带宽阈值在TVl与TVu间,每隔100米取值一次,TV表示当前选择的带宽阈值,KV和TV满足如下条件:
根据近邻点个数和带宽阈值,依次计算每个虫媒疾病传播媒介监测点的带宽值,本实施例中,设当前虫媒疾病传播媒介监测点Vm,有1≤m≤M,根据此传播媒介监测点与其他传播媒介监测点的位置坐标,依次计算Vm与其他传播媒介监测点的距离,得到与Vn最近的第KV个传播媒介监测点的距离,记为LV,本发明对与Vm最近的第KV个传播媒介监测点间距离的计算方法不做限定,可以使用kd树、R树等方法计算得到,此处的距离可以使用基于两点的任何一种可测距的距离计算得到,比如曼哈顿距离、马氏距离等,在本实施例中,使用两点之间欧式距离表示两点之间的距离。进一步将LV与TV比较,取较大者作为传播媒介监测点Vm的带宽,记为WV,有:
WV=max(LV,TV),max运算符表示取最大值运算
每个虫媒疾病传播媒介监测点的位置坐标不同,每个虫媒疾病传播媒介监测点与近邻点的距离LV也不同,因此,对相同的近邻点个数和带宽阈值,每个传播媒介监测点将对应计算得到不同的带宽值WV,此带宽值不仅仅取决于固定的距离,也与传播媒介监测点及近邻点有关,对于传播媒介监测点分布密集的情形,由以上计算过程可知,LV相对于TV较小,虫媒疾病传播媒介监测点的带宽WV取值等于TV,提升虫媒疾病传播媒介密度分布网格在传播媒介监测点密集区域的网格单元的密度值,扩大传播媒介监测点密集区域的影响范围,对于传播媒介监测点分布稀疏的情形,由以上计算过程可知,LV相对于TV较大,虫媒疾病传播媒介的带宽WV取值等于LV,提升虫媒疾病传播媒介密度分布网格在传播媒介监测点稀疏区域的网格单元的密度值,适用于传播媒介监测点间距离较远的情形。综上,虫媒疾病传播媒介监测点的带宽值与传播媒介监测点及其近邻点有关,能够在传播媒介相对密集和相对稀疏两种条件下计算产生分布密度网格,进一步实现疫情态势预测。
基于传播媒介监测点Vm依次更新虫媒疾病传播媒介密度分布网格的网格单元,对于第i列第j行网格单元Eij,设Eij与Vm的距离为EV,本实施例通过如下核密度函数形式,得到虫媒疾病传播媒介密度分布网格在网格单元密度DVij处的更新值△DVij:
其中BIm表示传播媒介监测点Vm处的传播媒介监测指标,进一步将△DVij累加到DVij,更新DVij,实现虫媒疾病传播媒介监测点Vm对虫媒疾病传播媒介密度分布网格在Eij网格单元的密度值更新。基于传播媒介监测点Vm,使用上述方法依次更新虫媒疾病传播媒介密度分布网格的每个网格单元,实现传播媒介监测点Vm对整个虫媒疾病传播媒介密度分布网格的更新,形成一个虫媒疾病传播媒介密度分布网格,此虫媒疾病传播媒介动态带宽核密度估计模型参数包括模型训练时的时间区间、当前选择的近邻点个数KV,当前选择的带宽阈值TV、核密度函数形式,此处,由虫媒疾病传播媒介动态带宽核密度估计模型参数及虫媒疾病传播媒介密度分布网格构成一个虫媒疾病传播媒介动态带宽核密度估计模型。不难推出,每次近邻点个数和带宽阈值的不同取值都将形成不同的虫媒疾病传播媒介动态带宽核密度估计模型参数,相应计算产生一个虫媒疾病传播媒介动态带宽核密度估计模型。进一步,近邻点个数依次取遍KVl到KVu间的所有整数,带宽阈值在TVl与TVu间,每隔100米取值一次,因此,近邻点个数和带宽阈值的不同取值将会建立若干虫媒疾病传播媒介动态带宽核密度估计模型。通过设置模型训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,结合病例和传播媒介信息,计算生成核密度估计模型,是一种核密度估计新的建模方法,遍历近邻点个数和带宽阈值的取值,每种取值对应生成一个核密度估计模型,为虫媒疾病病例动态带宽核密度估计模型和传播媒介动态带宽核密度估计模型提供新的模型扩展技术。
第三步,基于虫媒疾病病例动态带宽核密度估计模型和传播媒介动态带宽核密度估计模型,建立多变量组合模型,使用平均命中面积比评估不同参数条件下的多变量组合模型预测结果,得到最优多变量组合模型及其密度分布网格。
基于步骤二得到的若干虫媒疾病病例动态带宽核密度估计模型和若干传播媒介动态带宽核密度估计模型,依次选择每个虫媒疾病病例动态带宽核密度估计模型与每个传播媒介动态带宽核密度估计模型进行组合,形成若干多变量组合模型。
根据步骤一得到包含目标区域的划分网格,对于第i列第j行网格单元Eij,当前选取虫媒疾病病例动态带宽核密度估计模型的虫媒疾病病例密度分布网格在网格单元Eij处的网格单元密度为DCij,当前选取虫媒疾病病例动态带宽核密度估计模型的虫媒疾病传播媒介密度分布网格在网格单元Eij处的网格单元密度为DVij,叠加对应的病例密度分布网格和传播媒介密度分布网格,成为一个多变量组合模型密度分布网格,在本实施例中,此多变量组合模型密度分布网格在网格单元Eij处的网格单元密度值Dij为DCij与DVij的乘积,满足:
Dij=DCij*DVij
应当明确,本发明的融合方法不仅限于直接相乘,包括对数处理、归一化、标准化等可能涉及的数据过滤和清洗操作,也包括任何可行的分类、回归、推理、映射及其组合形成的算法,本发明提出的方法容易推广应用于两个及以上变量的分布密度网格融合计算,包括两个或更多的向量或张量融合计算,在本实施例中融合病例变量与媒介变量密度分布网格,得到多变量组合模型密度分布网格。本发明将单一变量动态带宽核密度估计扩展到多变量动态带宽核密度估计,收集的虫媒疾病病例信息和传播媒介信息构成多变量,基于已建立的建立虫媒疾病病例动态带宽核密度估计模型和虫媒疾病传播媒介动态带宽核密度估计模型,融合两种模型的密度分布网格形成多变量组合模型密度分布网格,能够捕捉到病例密度分布网格中密度较高的单元,即病例密集区,也能捕捉到传播媒介密度分布网格中密度较高的单元,即媒介调查点集中的区域,两者均会增加多变量组合模型密度分布网格的网格单元密度值,相较于单一变量的核密度估计模型,更加全面地对虫媒传染病疫情进行预测,解决单因素预测导致的风险区域偏移问题,提高预测准确率。
进一步计算平均命中面积比,评估该多变量组合模型的预测效果。设共取r个阈值,将多变量组合模型密度分布网格中每个网格单元的密度值按照从大到小的顺序进行排序,分别取S1,S2,...Sr处的值作为阈值,满足S1到Sr的取值严格递增。对于Sk,1≤k≤r,提取多变量组合模型密度分布网格的网格单元,这些网格单元满足:多变量组合模型密度分布网格在网格单元的网格单元密度高于Sk,记这些网格单元为Ak,进一步计算在模型预测的时间区间内被包含在这些网格单元Ak的病例占模型预测的时间区间内所有虫媒疾病病例的百分比,设为XCk,同时由步骤一中包含目标区域的划分网格共有a列b行,计算得到这些网格单元Ak的面积与全部网格单元面积之和的百分比,设为YCk,得到Sk对应的命中面积比Qk满足:
Qk=XCk/YCk
进一步得到该多变量组合模型的平均命中面积比P满足:
P=Average(Qk),1≤k≤r
其中Average为求平均值运算符。在本实施例中,从S1到Sr分别取前10%、20%、30%、40%、50%处的值计算多变量组合模型的平均命中面积比,不难推断,平均命中面积比越高,意味着使用较小的面积预测出更多的病例,即模型预测效果越好。基于包含在网格单元Ak的病例占模型预测的时间区间内所有病例的百分比和网格单元Ak的面积与全部网格单元面积之和的百分比,通过百分比的形式消除了人为定义区域面积导致的误差对模型预测结果的影响,使在有限的面积内预测出更多的病例,提升风险区域的病例预测精度,有效控制风险区域范围,为精准防控提供科学依据。平均命中面积比这一指标可以应用于两个及以上的多变量组合模型预测结果的评估,克服单纯使用病例数衡量模型预测效果的局限性。
通过融合当前选取虫媒疾病病例动态带宽核密度估计模型的虫媒疾病病例密度分布网格和当前选取虫媒疾病病例动态带宽核密度估计模型的虫媒疾病传播媒介密度分布网格,计算得到一个多变量组合模型密度分布网格,将当前选取虫媒疾病病例动态带宽核密度估计模型参数与当前选取虫媒疾病病例动态带宽核密度估计模型参数合并,组成多变量组合模型参数,从而形成一个多变量组合模型。进一步选择其他虫媒疾病病例动态带宽核密度估计模型与传播媒介动态带宽核密度估计模型的组合,建立若干多变量组合模型,并计算得到每个多变量组合模型的平均命中面积比,选取平均命中面积比最大的多变量组合模型作为最优多变量组合模型,同时得到最优多变量组合模型参数和最优多变量组合模型密度分布网格。
本实施例中基于多变量动态带宽核密度估计方法,使虫媒疾病疫情分布态势预测的平均命中面积比达到2.2,基于网格化累计和控制图法、空间自相关分析、空间聚类算法的平均命中面积比均低于1.8,本发明综合虫媒疾病病例和传播媒介,实现在虫媒疾病疫情分布态势预测,提升了区域疫情预测精度。
第四步,使用自适应等高线分级图的形式,呈现最优多变量组合模型的预测结果。
基于步骤三得到的最优多变量组合模型和最优多变量组合模型密度分布网格,设置等高线分级图的阈值,在本实施例中,提取最优多变量组合模型密度分布网格各网格单元密度值,按照密度值从大到小的顺序进行排序,依次取前3%、5%、10%、15%、20%、25%、30%、40%、50%处的值作为等高线分级图的阈值,对于每个阈值,使用MarchingSquares算法计算并连接生成等高线图,通过不同阈值绘制形成若干等高线。进一步,使用阈值区间着色方法,绘制等高线分级图,比如3%阈值标记的等高线内的区域绘制颜色A,处于3%和5%阈值标记的两种等高线之间的区域绘制颜色B等。云南省景洪市2019年9月1日至7日虫媒疾病预测结果如图4所示,基于上述等高线分级图的阈值和最优多变量组合模型密度分布网格,并连接生成等高线图,对两个等高线之间的区域着色,得到本实施例最优多变量组合模型预测结果,图4中颜色较深的区域预测出现病例的概率较高,更有可能发生疫情,颜色相对较浅的区域预测出现病例的概率较低,在这些区域发生疫情的概率也相对较低,通过不同颜色标识区域,对应不同等高线间的区域,呈现最优多变量组合模型预测结果。等高线的阈值排列并不局限于本实施例中的方式,通过本发明的方法,容易实现按不同的等高线阈值排列,绘制产生不同的疫情态势预测结果。由此可见,本发明通过不同阈值绘制风险区域等高线图,自适应体现在等高线图的绘制不依赖于区域形状及密度分布网格密度值的量纲,基于最优多变量组合模型,结合阈值区间着色,形象展示最优多变量组合模型在包含目标区域的划分网格中的每个网格单元密度值,易于识别高风险区域,为虫媒疾病疫情态势的研究、判断和防控决策提供科学依据,同时该技术支持其他领域在地理二维空间中的多变量核密度估计结果展示。
以上所述仅为本说明书一个或多个实施例的实施例而己,并不用于限制本说明书一个或多个实施例。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在权利要求范围之内。
Claims (6)
1.一种基于多变量核密度估计的虫媒疾病预测方法,其特征在于,包括以下步骤:
步骤一,收集目标区域内的虫媒疾病病例信息和传播媒介信息,通过虫媒疾病病例信息和传播媒介信息构建多变量的训练样本集,通过选择方框并保证方框包含目标区域,使用网格划分包含目标区域的方框,形成包含目标区域的划分网格;
步骤二,在步骤一训练样本集和包含目标区域的划分网格的基础上,设置模型训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,结合虫媒疾病病例和传播媒介信息,计算生成核密度估计模型,遍历近邻点个数和带宽阈值的所有取值,每种取值对应生成一个核密度估计模型,最终分别建立虫媒疾病病例动态带宽核密度估计模型和虫媒疾病传播媒介动态带宽核密度估计模型;
步骤三,融合虫媒疾病病例动态带宽核密度估计模型和传播媒介动态带宽核密度估计模型,建立多变量组合模型,使用平均命中面积比评估不同参数条件下的多变量组合模型预测结果,得到最优多变量组合模型及其密度分布网格;
步骤四,采用自适应等高线分级图的形式,呈现最优多变量组合模型的预测结果,直观展示虫媒疾病疫情态势的空间分布。
2.根据权利要求1所述的一种基于多变量核密度估计的虫媒疾病预测方法,其特征在于:所述步骤一中,
所述虫媒疾病病例信息是指虫媒疾病病例的现居住地址位置坐标和发病日期,病例的现居住地址位置坐标直接通过数据采集得到,或通过现居住地址名称映射得到,收集的病例信息作为一个变量,该变量由若干条病例数据组成,每条病例数据包含一个虫媒疾病病例的现居住地址位置坐标和发病日期;
所述虫媒疾病传播媒介信息是指传播媒介监测点的位置坐标、监测时间和监测指标,传播媒介监测点可以是街道、社区、公司、学校、居民区,也可以是片区、疫情监测点、行政区划地理单位,传播媒介监测点的位置坐标直接通过数据采集得到,或通过传播媒介监测点的名称映射得到,监测指标可以是布雷图指数、房屋指数、容器指数,也可以是成蚊个数、幼虫个数等表示传播媒介密度、数量的直接或间接统计量,收集的传播媒介信息作为一个变量,该变量由若干条传播媒介数据组成,每条传播媒介数据包含一个传播媒介监测点的位置坐标、监测时间和监测指标;
所述使用网格划分目标区域是指选定一个方框包含目标区域,将选定的方框用正方形划分成网格,得到包含目标区域的划分网格,将每个网格的几何中心坐标作为该网格的位置坐标。
3.根据权利要求1所述的一种基于多变量核密度估计的虫媒疾病预测方法,其特征在于:所述步骤二中,分别建立虫媒疾病病例动态带宽核密度估计模型和虫媒疾病传播媒介动态带宽核密度估计模型包括如下过程:
设置训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,从训练样本集中选取训练样本,根据近邻点个数的下限值和上限值、带宽最低阈值和最高阈值,选择近邻点个数和带宽阈值,对每条病例数据,根据近邻点个数,计算得到该病例与近邻点之间的距离,将此距离和带宽阈值比较,计算得到该病例的带宽值,对于相同的近邻点个数和带宽阈值,每个病例将对应计算得到不同的带宽值,构成动态带宽;固定模型训练时的时间区间和核密度函数形式,对每个近邻点个数和带宽阈值的取值,通过计算均对应得到一个虫媒疾病病例动态带宽核密度估计模型;基于步骤一中的包含目标区域的划分网格,对于每个网格单元,通过核密度函数计算每一个病例在该网格单元的密度值,累积所有病例在该网格单元的密度值得到该网格单元密度,遍历所有网格单元,得到虫媒疾病病例密度分布网格,虫媒疾病病例动态带宽核密度估计模型由虫媒疾病病例动态带宽核密度估计模型参数及虫媒疾病病例密度分布网格构成,进一步遍历近邻点个数和带宽阈值的所有取值,建立若干虫媒疾病病例动态带宽核密度估计模型;对每条传播媒介数据,根据近邻点个数,计算得到该传播媒介监测点与近邻点之间的距离,将此距离和带宽阈值比较,计算得到该传播媒介监测点的带宽值,每个传播媒介监测点的位置不同,计算得到不同的带宽值,构成动态带宽。固定模型训练时的时间区间和核密度函数形式,对每个近邻点个数和带宽阈值的取值,通过计算,都对应计算得到一个虫媒疾病传播媒介动态带宽核密度估计模型;基于步骤一中的包含目标区域的划分网格,对于每个网格单元,通过核密度函数计算每一个媒介监测点在该网格单元的密度值,累积所有传播媒介监测点在该网格单元的密度值得到该网格单元密度,遍历所有网格单元,得到虫媒疾病传播媒介密度分布网格,虫媒疾病传播媒介动态带宽核密度估计模型由虫媒疾病传播媒介动态带宽核密度估计模型参数及虫媒疾病传播媒介密度分布网格构成,进一步遍历近邻点个数和带宽阈值的所有取值,建立若干传播媒介动态带宽核密度估计模型;
所述模型训练时的时间区间是指在训练模型时间范围内选取一个时间段,从训练样本集中提取该时间段内的数据作为训练样本进行模型训练。
4.根据权利要求1所述的一种基于多变量核密度估计的虫媒疾病预测方法,其特征在于:所述步骤三具体包括如下过程:
从步骤二中分别选取虫媒疾病病例动态带宽核密度估计模型及对应的病例密度分布网格、传播媒介动态带宽核密度估计模型及对应的传播媒介密度分布网格,融合虫媒疾病病例动态带宽核密度估计模型和传播媒介动态带宽核密度估计模型形成多变量组合模型,多变量组合模型由多变量组合模型参数及多变量密度分布网格构成,叠加病例密度分布网格和传播媒介密度分布网格,形成多变量密度分布网格;多变量组合模型参数由步骤二的虫媒疾病病例动态带宽核密度估计模型参数和传播媒介动态带宽核密度估计模型参数共同组成,包括虫媒疾病病例动态带宽核密度估计模型训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,以及传播媒介动态带宽核密度估计模型训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,对不同参数条件下的多变量组合模型,使用平均命中面积比评估多变量组合模型预测结果,选取平均命中面积比最大的多变量组合模型作为最优多变量组合模型,计算最优多变量组合模型在包含目标区域的划分网格中的每个网格单元的密度值,得到最优多变量组合模型密度分布网格;
所述平均命中面积比是指设置若干阈值,将分布网格的网格单元逐一与每个阈值比较,进一步计算产生一系列比值,再计算这些比值的平均值得到;此处的比值是指在预测时间范围内,提取密度分布网格中密度值高于阈值的网格单元,计算被包含在这些网格单元的病例百分比与这些网格单元面积之和百分比的比值,被包含在这些网格单元的病例百分比是指被包含在这些网格单元的病例数与步骤一中目标区域内病例总数的百分比,这些网格单元面积之和百分比是这些网格单元面积之和与全部网格单元面积之和的百分比。
5.根据权利要求1所述的一种基于多变量核密度估计的虫媒疾病预测方法,其特征在于:所述步骤四中,使用自适应等高线分级图的形式,呈现最优多变量组合模型的预测结果,包括以下过程:
基于步骤三得到的最优多变量组合模型密度分布网格,提取最优多变量组合模型密度分布网格中各网格单元的分布密度值,按照分布密度值从大到小顺序进行排序,依次取10%、20%、30%、40%、50%处的值作为等高线分级图的阈值,对一个等高线分级图的阈值,将该阈值与多变量组合模型密度分布网格中各网格单元的分布密度值比较,进一步使用MarchingSquares算法计算得到在该阈值条件下的等高线,对多个等高线分级图的阈值,计算产生多个等高线,形成等高线分级图,使用自适应等高线分级图的形式,呈现最优多变量组合模型的预测结果。
6.一种基于多变量动态带宽核密度估计的虫媒疾病预测系统,其特征在于:包括数据收集模块、数据训练模块、融合预测模块、结果呈现模块,其中:
数据收集模块:选定目标区域、模型预测的时间区间和训练模型时间范围,收集目标区域内的虫媒疾病病例信息和传播媒介信息,提取训练模型时间范围内的虫媒疾病病例信息和传播媒介信息作为训练样本集,用于提供动态带宽核密度估计模型的虫媒疾病病例和传播媒介数据,选择方框并保证方框包含目标区域,使用网格划分包含目标区域的方框,形成由网格单元组成的包含目标区域的划分网格,用于建立虫媒疾病病例动态带宽核密度估计模型和传播媒介动态带宽核密度估计模型的密度分布网格;
数据训练模块:基于虫媒疾病病例信息,选取不同参数,包括模型训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,根据模型训练时的时间区间从数据收集模块的训练样本集中选取病例训练样本,根据近邻点个数的下限值和上限值、带宽最低阈值和最高阈值,选择近邻点个数和带宽阈值,计算每个病例的带宽值,包含目标区域的划分网格,通过核密度函数计算每个网格单元密度,得到虫媒疾病病例密度分布网格,遍历近邻点个数和带宽阈值的所有取值,建立若干虫媒疾病病例动态带宽核密度估计模型;基于虫媒疾病传播媒介信息,选取不同参数,包括模型训练时的时间区间、近邻点个数的下限值和上限值、带宽最低阈值和最高阈值、核密度函数形式,根据模型训练时的时间区间从数据收集模块的训练样本集中选取传播媒介训练样本,根据近邻点个数的下限值和上限值、带宽最低阈值和最高阈值,选择近邻点个数和带宽阈值,计算每个媒介监测点的带宽值,基于包含目标区域的划分网格,通过核密度函数计算每个网格单元密度,得到虫媒疾病传播媒介密度分布网格,遍历近邻点个数和带宽阈值的所有取值,建立若干虫媒疾病传播媒介动态带宽核密度估计模型及传播媒介密度分布网格;
融合预测模块:融合由数据训练模块计算得到的虫媒疾病病例动态带宽核密度估计模型和传播媒介动态带宽核密度估计模型,形成多变量组合模型,叠加病例密度分布网格和传播媒介密度分布网格,成为多变量组合模型密度分布网格,多变量组合模型的参数由数据训练模块中虫媒疾病病例动态带宽核密度估计模型参数和传播媒介动态带宽核密度估计模型参数共同组成,对不同参数条件下的多变量组合模型,使用平均命中面积比评估多变量组合模型预测结果,选取平均命中面积比最大的多变量组合模型作为最优多变量组合模型,同时得到最优多变量组合模型密度分布网格;
结果呈现模块:设置等高线分级图的阈值,对一个等高线分级图的阈值,将该阈值与融合预测模块得到的最优多变量组合模型密度分布网格的每个网格单元密度值比较,得到在该阈值条件下的等高线,通过设置多个等高线分级图的阈值,计算产生多个等高线,形成等高线分级图,使用自适应等高线分级图的形式,呈现多变量核密度估计的虫媒疾病预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211671730.5A CN115775634A (zh) | 2022-12-26 | 2022-12-26 | 一种基于多变量核密度估计的虫媒疾病预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211671730.5A CN115775634A (zh) | 2022-12-26 | 2022-12-26 | 一种基于多变量核密度估计的虫媒疾病预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115775634A true CN115775634A (zh) | 2023-03-10 |
Family
ID=85392893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211671730.5A Pending CN115775634A (zh) | 2022-12-26 | 2022-12-26 | 一种基于多变量核密度估计的虫媒疾病预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115775634A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116721781A (zh) * | 2023-07-11 | 2023-09-08 | 中国科学院地理科学与资源研究所 | 虫媒传染病传播风险的预测方法、装置、电子设备及介质 |
CN117423476A (zh) * | 2023-12-18 | 2024-01-19 | 中国科学院地理科学与资源研究所 | 基于降尺度和贝叶斯模型的包虫病流行率预测方法 |
-
2022
- 2022-12-26 CN CN202211671730.5A patent/CN115775634A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116721781A (zh) * | 2023-07-11 | 2023-09-08 | 中国科学院地理科学与资源研究所 | 虫媒传染病传播风险的预测方法、装置、电子设备及介质 |
CN117423476A (zh) * | 2023-12-18 | 2024-01-19 | 中国科学院地理科学与资源研究所 | 基于降尺度和贝叶斯模型的包虫病流行率预测方法 |
CN117423476B (zh) * | 2023-12-18 | 2024-03-08 | 中国科学院地理科学与资源研究所 | 基于降尺度和贝叶斯模型的包虫病流行率预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115775634A (zh) | 一种基于多变量核密度估计的虫媒疾病预测方法及系统 | |
Peeters et al. | Getis–Ord’s hot-and cold-spot statistics as a basis for multivariate spatial clustering of orchard tree data | |
CN106372277B (zh) | 森林立地指数时空估测中的变异函数模型优化方法 | |
Corral-Rivas et al. | A permutation test of spatial randomness: application to nearest neighbour indices in forest stands | |
CN104156984B (zh) | 一种不均匀杂波环境下多目标跟踪的概率假设密度方法 | |
Jellema et al. | Landscape character assessment using region growing techniques in geographical information systems | |
CN110610258B (zh) | 融合多源时空数据的城市空气质量精细化估测方法及装置 | |
CN105243435A (zh) | 一种基于深度学习元胞自动机模型的土壤含水量预测方法 | |
CN113902580B (zh) | 一种基于随机森林模型的历史耕地分布重建方法 | |
CN108961429A (zh) | 一种文物碎片模型自动分割及拼接方法 | |
CN114723149A (zh) | 土壤墒情预测方法、装置、电子设备及存储介质 | |
CN108764527B (zh) | 一种土壤有机碳库时空动态预测最优环境变量筛选方法 | |
Liu et al. | Using the ART-MMAP neural network to model and predict urban growth: a spatiotemporal data mining approach | |
CN111984701A (zh) | 乡村聚落演化的预测方法、装置、设备及存储介质 | |
CN115345069A (zh) | 一种基于最大水深记录和机器学习的湖泊水量估算方法 | |
CN114972984A (zh) | 基于随机森林的积雪时空分析与预测方法 | |
Ji et al. | Multicascaded feature fusion-based deep learning network for local climate zone classification based on the So2Sat LCZ42 benchmark dataset | |
Noor et al. | Prediction map of rainfall classification using random forest and inverse distance weighted (IDW) | |
Hildemann et al. | Quantifying uncertainty in Pareto fronts arising from spatial data | |
CN117131991A (zh) | 基于混合神经网络的城市降雨量预测方法及平台 | |
CN111353525A (zh) | 一种不均衡不完整数据集的建模及缺失值填补方法 | |
CN115564989A (zh) | 面向土地利用分类的随机森林算法 | |
CN115359197A (zh) | 一种基于空间自相关神经网络的地质曲面重构方法 | |
Shareef et al. | Integrating of GIS and fuzzy multi-criteria method to evaluate land degradation and their impact on the urban growth of Kirkuk city, Iraq | |
Fang et al. | Zonation and scaling of tropical cyclone hazards based on spatial clustering for coastal China |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |