CN117423476A - 基于降尺度和贝叶斯模型的包虫病流行率预测方法 - Google Patents
基于降尺度和贝叶斯模型的包虫病流行率预测方法 Download PDFInfo
- Publication number
- CN117423476A CN117423476A CN202311734550.1A CN202311734550A CN117423476A CN 117423476 A CN117423476 A CN 117423476A CN 202311734550 A CN202311734550 A CN 202311734550A CN 117423476 A CN117423476 A CN 117423476A
- Authority
- CN
- China
- Prior art keywords
- echinococcosis
- epidemic rate
- epidemic
- livestock
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000009366 Echinococcosis Diseases 0.000 title claims abstract description 159
- 206010014096 Echinococciasis Diseases 0.000 title claims abstract description 158
- 238000000034 method Methods 0.000 title claims abstract description 73
- 244000144972 livestock Species 0.000 claims abstract description 74
- 230000008569 process Effects 0.000 claims abstract description 40
- 241000282472 Canis lupus familiaris Species 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 201000010099 disease Diseases 0.000 claims abstract description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 8
- 241001465754 Metazoa Species 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 241000282465 Canis Species 0.000 description 9
- 238000005070 sampling Methods 0.000 description 8
- 238000013213 extrapolation Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 208000015181 infectious disease Diseases 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 241000283690 Bos taurus Species 0.000 description 1
- 241000824799 Canis lupus dingo Species 0.000 description 1
- 201000003808 Cystic echinococcosis Diseases 0.000 description 1
- 241000244160 Echinococcus Species 0.000 description 1
- 208000030852 Parasitic disease Diseases 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 241000283984 Rodentia Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000005802 health problem Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种基于降尺度和贝叶斯模型的包虫病流行率预测方法,包括:获取区域尺度的包虫病流行率数据,包括牲畜患包虫病的流行率数据和犬类患包虫病的流行率数据;以牲畜密度或人口密度为抽取概率,在各区域内抽取公里尺度的多个栅格,并对所述多个栅格进行空间聚类,得到代表各区域患病泛化情况的多个聚类中心;将各区域的包虫病流行率赋值给区域内各聚类中心,得到点级尺度的包虫病流行率数据;利用所述点级尺度的包虫病流行率数据,训练贝叶斯时空高斯过程模型,并生成牲畜患包虫病流行率的空间分布预测图和犬类患包虫病流行率的空间分布预测图。本实施例实现公里尺度的精细预测。
Description
技术领域
本发明实施例涉及疾病预测领域,尤其涉及一种基于降尺度和贝叶斯模型的包虫病流行率预测方法。
背景技术
包虫病是一种由棘球绦虫引起的人畜共患寄生虫病,该病在全球广泛传播,给牲畜和人类造成严重的健康问题。包虫病的传播周期十分复杂,涉及到多种循环。其中,囊型包虫病常常在牲畜(主要包括牛、羊)和犬之间循环传播,泡型包虫病常常在啮齿类动物和犬之间循环传播。
一方面,现有研究大多基于统计模型识别与包虫病空间分布相关的危险因素,或基于机器学习模型对包虫病的空间风险分布进行预测。但这些研究大多由于数据限制,研究的空间尺度限制在县级/乡镇尺度,没有实现公里格网尺度的包虫病风险预测。另一方面,目前研究大多基于包虫病在人群中的感染风险研究,忽略了包虫病在动物宿主的风险研究。
发明内容
本发明实施例提供一种基于降尺度和贝叶斯模型的包虫病流行率预测方法,以解决上述技术问题。
第一方面,本发明实施例提供了一种基于降尺度和贝叶斯模型的包虫病流行率预测方法,包括:
获取区域尺度的包虫病流行率数据,包括牲畜患包虫病的流行率数据和犬类患包虫病的流行率数据;
以牲畜密度或人口密度为抽取概率,在各区域内抽取公里尺度的多个栅格,并对所述多个栅格进行空间聚类,得到代表各区域患病泛化情况的多个聚类中心;将各区域的包虫病流行率赋值给区域内各聚类中心,得到点级尺度的包虫病流行率数据;
利用所述点级尺度的包虫病流行率数据,训练贝叶斯时空高斯过程模型,并生成牲畜患包虫病流行率的空间分布预测图和犬类患包虫病流行率的空间分布预测图。
第二方面,本发明实施例提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现任一实施例所述的基于降尺度和贝叶斯模型的包虫病流行率预测方法。
第三方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一实施例所述的基于降尺度和贝叶斯模型的包虫病流行率预测方法。
本发明实施例首先收集区域尺度包虫病在牲畜和犬中的流行率数据,以及公里格网尺度的牲畜密度/人口密度数据;其次,从每个地区根据牲畜/人口密度分布情况生成随机采样代表点。然后通过空间聚类确定聚类中心及其权重,最终生成一系列采样点用于训练地理统计模型。最后,利用贝叶斯模型对点尺度的包虫病流行率数据,进行空间外推,以得到研究范围内连续性数据。通过上述流程,能够在更精细尺度分析和预测疾病的分布情况,从而提供更精准的分析预测结果。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于降尺度和贝叶斯模型的包虫病流行率预测方法的流程图;
图2是本发明实施例提供的一种点级尺度的牲畜患包虫病流行率数据示意图;
图3是本发明实施例提供的一种点级尺度的犬类患包虫病流行率数据示意图;
图4是本发明实施例提供的另一种基于降尺度和贝叶斯模型的包虫病流行率预测方法的流程图;
图5是本发明实施例提供的一种牲畜患包虫病流行率的空间预测分布图;
图6是本发明实施例提供的一种犬类患包虫病流行率的空间预测分布图;
图7为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行清楚、完整的描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
为了解决背景技术中提到的技术问题,本实施例基于村镇尺度的包虫病流行率数据以及1公里×1公里分辨率的人口密度/牲畜密度数据,实现了公里格网尺度的包虫病风险预测。首先,基于牲畜密度/人口密度数据,分别对村镇尺度的包虫病在牲畜和犬中的流行率数据进行降尺度处理,以获得点级尺度的包虫病流行率数据。然后,基于贝叶斯时空高斯过程模型,对所获得的点级尺度包虫病流行率数据进行了空间外推分析,以生成更具空间连续性的包虫病流行率的预测结果。该方法基于可获取的大尺度数据,对包虫病流行率进行更精细尺度的预测,为制定相关预防和控制措施提供数据支持。
图1是本发明实施例提供的一种基于降尺度和贝叶斯模型的包虫病流行率预测方法的流程图。如图1所示,该方法由电子设备执行,具体包括如下步骤:
S110、获取区域尺度的包虫病流行率数据,包括牲畜患包虫病的流行率数据和犬类患包虫病的流行率数据。
本实施例考虑到包虫病的传染途径,分别获取牲畜患包虫病的流行率数据(中间宿主)和犬类患包虫病的流行率数据(终极宿主)。其中,牲畜包虫病流行率是指特定观察牲畜群中患有包虫病的病例数,犬类包虫病流行率是指特定观察犬群中患有包虫病的病例数。实际应用中,流行率多是以行政区域为单位进行观察统计的,因此获取到的区域尺度的流行率数据,可以包括村镇、市、省等不同规模的尺度级别。本实施例可以获取村镇尺度的牲畜患包虫病流行率数据和犬类换包虫病流行率数据,作为整个方法的数据源。
在一具体实施方式中,分别从不同来源收集了三类数据,具体情况如表1所示:
第一类、从疾病控制与预防部门获取了一定地理范围内村镇尺度的包虫病流行率数据,包括牲畜患包虫病的流行率数据以及犬类患包虫病的流行率数据。
第二类、从资源环境部门获取了相同地理范围内公里格网尺度的人口密度数据,从粮食与农业部门获取了牲畜密度数据,用于对上述区域尺度的包虫病流行率数据进行扩样。各栅格的尺寸为1公里×1公里。
第三类、从资源环境数据部门获取了土地利用类型数据,高程数据和社会经济状况(GDP)等数据,用于在贝叶斯时空高斯过程模型中作为协变量数据。
表 1
S120、以牲畜密度或人口密度为抽取概率,在各区域内抽取公里尺度的多个栅格,并对所述多个栅格进行空间聚类,得到代表各区域患病泛化情况的多个聚类中心;将各区域的包虫病流行率赋值给区域内各聚类中心,得到点级尺度的包虫病流行率数据。
本步骤根据牲畜密度数据和人口密度数据进行扩充采样,将面尺度的包虫病流行率数据降尺度到点尺度。在一具体实施方式中,首先,根据牲畜或人的活动范围,确定需要扩样的区域。示例性的,将牲畜或人的日常活动范围取为25km2。面积小于等于25km2的村镇无需进行扩样,直接将村镇中心默认为采样点,该点的牲畜患包虫病流行率即为该村镇牲畜患包虫病流行率,该点的犬类患包虫病流行率即为该村镇的犬类患包虫病流行率。面积大于25km2的村镇,则作为需要扩样的区域。
然后,以各栅格的牲畜密度或人口密度值作为抽取概率,在所述区域内有放回地抽取多个栅格。栅格抽取的过程即为扩大样本集的过程,对于面积大于25km2的村镇,以各栅格的牲畜密度或人口密度度作为抽取概率,有放回地重复抽取多个栅格。示例性的,抽取出1000个栅格,来以模拟该区域的随机样本。需要说明的是,由于无法直接获取犬类密度数据,本实施例根据人与犬类的密切关系,利用人口密度来代替家养犬密度。
最后,根据所述区域的面积确定空间聚类数,并对所述多个栅格进行空间聚类,得到多个聚类簇和聚类中心;再将该区域的包虫病流行率赋值给各聚类中心,作为该区域最终的采样点。概括性的,区域面积越大,所需的最终的采样点越多,则需设置较大的聚类数。聚类过程可以通过k-means聚类方法实现,具体的,按村镇面积确定聚类中心数量k,执行k-means聚类得到k个簇和k个聚类中心,并计算相应的权重,每个聚类中心的权重为聚类簇内的样本数量占该区域内样本数量的比例。聚类完成后,将该区域牲畜患包虫病流行率作为各聚类中心的牲畜患包虫病流行率,将该区域的犬类患包虫病流行率作为各聚类中心的犬类患包虫病流行率。
对各区域均执行上述操作后,将最终的所有采样点及其包虫病感染率数据集合起来,构成点级尺度的包虫病流行率数据。图2和图3示例性的显示了一个矩形地区内点级尺度的牲畜患包虫病流行率数据和犬类患包虫病流行率数据,该矩形可以包括多个区域(区域边界未在图中显示),其中圆点位置处存在点级尺度的包虫病流行率数据,圆点的面积代表了数据的大小(如图例所示)。
本实施例首先通过栅格抽取对大面积区域进行样本扩充,由于牲畜密度或人口密度越大,病例传染的概率越大,因此根据该密度抽取的栅格一定程度上代表了该区域内的病例发生点;然后通过空间聚类对扩充样本进行泛化概括,各聚类中心代表了该区域内患病分布的泛化情况;聚类中心的权重越大,越能代表该区域的泛化情况。
S130、利用所述点级尺度的包虫病流行率数据,训练贝叶斯时空高斯过程模型,得到牲畜患包虫病流行率的空间分布预测图和犬类患包虫病流行率的空间分布预测图。
本步骤使用贝叶斯时空高斯过程模型,对点级尺度的包虫病流行率数据进行空间外推预测,以生成对未观测位置的包虫病流行率估计值。具体的模型原理如下:
其中,表示在位置/>处的包虫病流行率的值;/>为截距;/>为第j个协变量的系数,/>为第j个协变量;/>为空间随机效应,其服从均值为零和马特恩协方差函数的高斯过程。
本实施例首先确定包虫病流行率的至少一个影响因素,然后以所述至少一个影响因素为协变量,构建包虫病流行率的贝叶斯时空高斯过程模型;再利用所述点级尺度的包虫病流行率数据和协变量数据进行模型训练,得到最终的贝叶斯时空高斯过程模型。在一具体实施方式中,可以选取高程、土地利用类型以及GDP三个协变量,通过ARCGIS(地理信息系统)提取包虫病发生点对应的协变量数据,基于上述模型原理在R中利用INLA包实现。
需要说明的是,本实施例的牲畜患包虫病流行率和犬类患包虫病流行率是分别预测的,二者相互独立。图4是本发明实施例提供的另一种基于降尺度和贝叶斯模型的包虫病流行率预测方法的流程图,从另一角度展示了本实施例的技术路线。结合图4,本实施例对牲畜患包虫病的流行率数据进行降尺度和空间外推后,得到牲畜患包虫病流行率的贝叶斯时空高斯过程模型,能够预测任一位置x i 处的牲畜患包虫病流行率;对犬类患包虫病的流行率数据进行降尺度、空间外推后,得到犬类患包虫病流行率的贝叶斯时空高斯过程模型,能够预测任一位置x i 处的犬类患包虫病流行率。通过这些模型预测的包虫病流行率能够在空间上覆盖所有栅格,得到更加连续的空间分布。示例性的,对图2和图3的点级尺度数据进行空间外推后,分别得到如图5和图6所示的公里格网尺度的牲畜患包虫病流行率数据和犬类患包虫病流行率数据,这些数据形成了更加连续的空间分布图,图中的色标代表了包虫病流行率的高低。
进一步的,得到贝叶斯时空高斯过程模型后,还可以通过真实数据对模型预测的准确性进行验证;如果准确性不满足要求,还可以通过多种方式调整模型,以提高预测准确性。在一具体实施方式中,该过程可以包括如下步骤:
步骤一、通过所述贝叶斯时空高斯过程模型预测任一区域的包虫病流行率,并与所述区域包虫病流行率的真实数据进行比对,验证预测的准确性。可选的,以牲畜包虫病为例,首先选取有真实牲畜包虫病流行率的乡镇作为研究区,其次结合预测得到的公里格网尺度的牲畜包虫病预测流行率的数据,利用ArcGIS的分区统计工具得到研究区内各乡镇的预测牲畜包虫病的平均流行率。然后依据各乡镇真实值与预测值计算R方。
如果预测值与真实值之间的R方达到设定阈值(例如0.7),则准确性达标。犬类患包虫病流行率的验证过程类似,不再赘述。
步骤二、如果准确性未达标,则提高S120中栅格的抽取数量和聚类中心数量,重复S120-S130的操作,生成新的聚类中心,并训练新的贝叶斯时空高斯过程模型。抽取的栅格数量越多,扩充样本越多,聚类效果越好;聚类中心越多,最终确定的训练样本越多,有利于提高模型的预测精度。新模型训练完毕后,再次通过已调查区域包虫病流行率的真实数据,对新模型进行准确性验证。此次选取的验证区域也可以有多个,与步骤一中选取的区域可以相同,也可以不同,还可以部分相同、部分不同。验证过程也与步骤一相同,不再赘述。
步骤三、如果经步骤二多次调整,模型的准确性仍未达标,还可以选取聚类过程中权重小于设定阈值的聚类中心,对其包虫病流行率进行修正;利用修正后的点级尺度的包虫病流行率数据,重复S120-S130的操作,得到新的贝叶斯时空高斯过程模型。如上所述,聚类中心的权重越大,越能代表该区域的泛化情况,如果聚类中心的权重过小,其对于区域的泛化概括能力较弱,则将区域流行率赋值给聚类中心可能引起不可忽视的误差,从而影响模型准确性。为此,本实施例基于以下原理对该聚类中心进行数据修正。仍以牲畜患包虫病流行率为例,将区域流行率的观察牲畜群扩大到整个区域,将聚类簇流行率的观察牲畜群扩大到整个聚类簇包括的所有栅格,将栅格流行率的观察牲畜群视为单个栅格,则各变量之间满足如下关系:
区域病例数×权重=聚类簇的病例数(2)
而:
区域内病例数=区域的牲畜数量×区域流行率=(区域内各栅格的牲畜密度×栅格面积)×区域流行率(3),其中,/>表示对区域内的栅格求和;
聚类簇的病例数=聚类簇的牲畜数量×聚类簇流行率=(聚类簇内各栅格的牲畜密度×栅格面积)×聚类簇流行率(4),其中,/>表示对聚类簇内的栅格求和;
将公式(3)(4)代入公式(2),可得:
(区域内各栅格的牲畜密度×栅格面积)×区域流行率×权重=/>(聚类簇内各栅格的牲畜密度×栅格面积)×聚类簇流行率(5)
将公式(5)各项中的栅格面积消去,则有:
(区域内各栅格的牲畜密度)×区域流行率×权重=/>(聚类簇内各栅格的牲畜密度)×聚类簇流行率(6)
基于以上关系,针对权重小于预设值(例如0.6)的任一聚类中心,可以将区域内各栅格的牲畜密度、区域流行率、权重和聚类簇内各栅格的牲畜密度共同代入公式(6),得到聚类簇流行率;将该数据赋值给聚类中心,作为修正后的聚类中心的流行率。与整个区域相比,聚类簇与聚类中心的相似度更大,将聚类中心的流行率赋值给聚类中心,有利于提高点数据的准确性。
得到新的贝叶斯时空高斯过程模型后,可以再次通过已调查区域包虫病流行率的真实数据,对新模型进行准确性验证。具体过程不再赘述。
步骤四、如果经过步骤三多次修正,模型的准确性仍未达标,则需重新确定S130中包虫病流行率的至少一个影响因素,以新的影响因素为协变量重复S130的操作,训练新的贝叶斯时空高斯过程模型。
需要说明的是,本实施例通过步骤二、三、四提供了三种提高模型预测准确性的方式,其实现难度和复杂性依次递增,上述具体实施方式给出了一种优选组合方式与执行顺序。实际应用中可以根据需要,选取其中任一方式或任意组合,以任意顺序和次数依次执行,本实施例不作限制。
综上所述,本实施例首先收集村镇尺度包虫病在牲畜和犬中的流行率数据,以及公里格网尺度牲畜密度/人口密度数据。其次,从每个地区根据牲畜/人口密度分布情况生成随机采样代表点,然后应用k-means聚类确定聚类中心及其权重,最终生成一系列采样点用于训练地理统计模型。最后,利用贝叶斯模型对点尺度的包虫病流行率数据,进行空间外推,以得到研究范围内连续性数据。通过上述流程,能够在更精细尺度分析和预测疾病的分布情况,从而提供更精准的分析预测结果。此外,本实施例根据面数据对点尺度的预测模型进行准确性验证,并提供三种方式对模型进行修正,充分保证模型的预测精度。
图7为本发明实施例提供的一种电子设备的结构示意图,如图7所示,该设备包括处理器60、存储器61、输入装置62和输出装置63;设备中处理器60的数量可以是一个或多个,图7中以一个处理器60为例;设备中的处理器60、存储器61、输入装置62和输出装置63可以通过总线或其他方式连接,图7中以通过总线连接为例。
存储器61作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的基于降尺度和贝叶斯模型的包虫病流行率预测方法对应的程序指令/模块。处理器60通过运行存储在存储器61中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的基于降尺度和贝叶斯模型的包虫病流行率预测方法。
存储器61可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器61可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器61可进一步包括相对于处理器60远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置62可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置63可包括显示屏等显示设备。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一实施例的基于降尺度和贝叶斯模型的包虫病流行率预测方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案。
Claims (10)
1.一种基于降尺度和贝叶斯模型的包虫病流行率预测方法,其特征在于,包括:
获取区域尺度的包虫病流行率数据,包括牲畜患包虫病的流行率数据和犬类患包虫病的流行率数据;
以牲畜密度或人口密度为抽取概率,在各区域内抽取公里尺度的多个栅格,并对所述多个栅格进行空间聚类,得到代表各区域患病泛化情况的多个聚类中心;将各区域的包虫病流行率赋值给区域内各聚类中心,得到点级尺度的包虫病流行率数据;
利用所述点级尺度的包虫病流行率数据,训练贝叶斯时空高斯过程模型,并生成牲畜患包虫病流行率的空间分布预测图和犬类患包虫病流行率的空间分布预测图。
2.根据权利要求1所述的方法,其特征在于,所述以牲畜密度或人口密度为抽取概率,在各区域内抽取公里尺度的多个栅格,并对所述多个栅格进行空间聚类,包括:
根据牲畜或人的活动范围,确定需要扩样的区域;
以各栅格的牲畜密度或人口密度度作为抽取概率,在所述区域内有放回地抽取多个栅格;
根据所述区域的面积确定空间聚类数,并对所述多个栅格进行空间聚类。
3.根据权利要求1所述的方法,其特征在于,所述利用所述点级尺度的包虫病流行率数据,训练贝叶斯时空高斯过程模型,包括:
确定包虫病流行率的至少一个影响因素,包括土地利用类型、高程和社会经济状况;
以所述至少一个影响因素为协变量,构建包虫病流行率的贝叶斯时空高斯过程模型;
利用所述点级尺度的包虫病流行率数据和协变量数据进行模型训练,得到最终的贝叶斯时空高斯过程模型。
4.根据权利要求1所述的方法,其特征在于,在所述利用所述点级尺度的包虫病流行率数据,训练贝叶斯时空高斯过程模型之后,还包括:
通过所述贝叶斯时空高斯过程模型预测任一区域的包虫病流行率,并与所述区域包虫病流行率的真实数据进行比对,验证预测的准确性;
如果准确性未达标,返回栅格抽取操作,并提高栅格的抽取数量和聚类中心数量,训练新的贝叶斯时空高斯过程模型。
5.根据权利要求4所述的方法,其特征在于,所述通过所述贝叶斯时空高斯过程模型预测任一区域的包虫病流行率,包括:
利用所述贝叶斯时空高斯过程模型,预测任一区域内各栅格的包虫病流行率;
根据各栅格的包虫病流行率的预测结果,利用ArcGIS的分区统计工具预测所述区域包虫病的平均流行率。
6.根据权利要求1所述的方法,其特征在于,在所述利用所述点级尺度的包虫病流行率数据,训练贝叶斯时空高斯过程模型之后,还包括:
通过所述贝叶斯时空高斯过程模型预测任一区域的包虫病流行率,并与所述区域包虫病流行率的真实数据进行比对,验证预测的准确性;
如果准确性未达标,根据聚类过程中各聚类簇的栅格数量,确定各聚类中心的权重;选取权重小于设定阈值的聚类中心,并根据聚类簇内各栅格的牲畜密度或人口密度度,对所述聚类中心的包虫病流行率进行修正;
根据修正后的点级尺度的包虫病流行率数据,训练新的贝叶斯时空高斯过程模型。
7.根据权利要求6所述的方法,其特征在于,所述根据聚类簇内各栅格的牲畜密度或人口密度度,对所述聚类中心的包虫病流行率进行修正,包括:
根据以下公式,计算所述聚类中心所在聚类簇的牲畜患包虫病流行率:(区域内各栅格的牲畜密度)×区域的牲畜患包虫病流行率×聚类中心的权重=/>(聚类簇内各栅格的牲畜密度)×聚类簇的牲畜患包虫病流行率,其中,/>表示对栅格求和;
将所述聚类簇的牲畜患包虫病流行率,赋值给所述聚类中心。
8.根据权利要求3所述的方法,其特征在于,在所述利用所述点级尺度的包虫病流行率数据,训练贝叶斯时空高斯过程模型之后,还包括:
通过所述贝叶斯时空高斯过程模型预测任一区域的包虫病流行率,并与所述区域包虫病流行率的真实数据进行比对,验证预测的准确性;
如果准确性未达标,重新确定所述至少一个影响因素,以新的影响因素为协变量,训练新的贝叶斯时空高斯过程模型。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现权利要求1-8任一所述的基于降尺度和贝叶斯模型的包虫病流行率预测方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-8任一所述的基于降尺度和贝叶斯模型的包虫病流行率预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311734550.1A CN117423476B (zh) | 2023-12-18 | 2023-12-18 | 基于降尺度和贝叶斯模型的包虫病流行率预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311734550.1A CN117423476B (zh) | 2023-12-18 | 2023-12-18 | 基于降尺度和贝叶斯模型的包虫病流行率预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117423476A true CN117423476A (zh) | 2024-01-19 |
CN117423476B CN117423476B (zh) | 2024-03-08 |
Family
ID=89530531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311734550.1A Active CN117423476B (zh) | 2023-12-18 | 2023-12-18 | 基于降尺度和贝叶斯模型的包虫病流行率预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117423476B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242022A (zh) * | 2020-01-10 | 2020-06-05 | 西安科技大学 | 基于低分辨率遥感产品降尺度的高分辨率fapar估算方法 |
CN111462919A (zh) * | 2020-03-31 | 2020-07-28 | 中国科学院软件研究所 | 一种基于滑动窗口时序模型的虫媒疾病预测方法及系统 |
CN114141385A (zh) * | 2021-10-27 | 2022-03-04 | 翼健(上海)信息科技有限公司 | 一种用于传染病的预警方法、系统和可读存储介质 |
CN115775634A (zh) * | 2022-12-26 | 2023-03-10 | 中国科学院软件研究所 | 一种基于多变量核密度估计的虫媒疾病预测方法及系统 |
WO2023137627A1 (zh) * | 2022-01-19 | 2023-07-27 | 深圳先进技术研究院 | 基于数字病理图像的肿瘤微环境空间关系建模系统与方法 |
CN116628560A (zh) * | 2023-07-24 | 2023-08-22 | 四川互慧软件有限公司 | 基于聚类算法的蛇伤病例数据识别方法、装置及电子设备 |
CN116721781A (zh) * | 2023-07-11 | 2023-09-08 | 中国科学院地理科学与资源研究所 | 虫媒传染病传播风险的预测方法、装置、电子设备及介质 |
CN116796649A (zh) * | 2023-07-20 | 2023-09-22 | 北京师范大学 | 一种基于机器学习的spei粗分辨率数据空间降尺度方法及装置 |
-
2023
- 2023-12-18 CN CN202311734550.1A patent/CN117423476B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242022A (zh) * | 2020-01-10 | 2020-06-05 | 西安科技大学 | 基于低分辨率遥感产品降尺度的高分辨率fapar估算方法 |
CN111462919A (zh) * | 2020-03-31 | 2020-07-28 | 中国科学院软件研究所 | 一种基于滑动窗口时序模型的虫媒疾病预测方法及系统 |
CN114141385A (zh) * | 2021-10-27 | 2022-03-04 | 翼健(上海)信息科技有限公司 | 一种用于传染病的预警方法、系统和可读存储介质 |
WO2023137627A1 (zh) * | 2022-01-19 | 2023-07-27 | 深圳先进技术研究院 | 基于数字病理图像的肿瘤微环境空间关系建模系统与方法 |
CN115775634A (zh) * | 2022-12-26 | 2023-03-10 | 中国科学院软件研究所 | 一种基于多变量核密度估计的虫媒疾病预测方法及系统 |
CN116721781A (zh) * | 2023-07-11 | 2023-09-08 | 中国科学院地理科学与资源研究所 | 虫媒传染病传播风险的预测方法、装置、电子设备及介质 |
CN116796649A (zh) * | 2023-07-20 | 2023-09-22 | 北京师范大学 | 一种基于机器学习的spei粗分辨率数据空间降尺度方法及装置 |
CN116628560A (zh) * | 2023-07-24 | 2023-08-22 | 四川互慧软件有限公司 | 基于聚类算法的蛇伤病例数据识别方法、装置及电子设备 |
Non-Patent Citations (5)
Title |
---|
CHAO SONG等: "Disease relative risk downscaling model to localize spatial epidemiologic indicators for mapping hand, foot, and mouth disease over China", 《STOCHASTIC ENVIRONMENTAL RESEARCH AND RISK ASSESSMENT 》, 12 September 2019 (2019-09-12) * |
刘璐: "多尺度血吸虫病分布及影响因素的研究", 《中国优秀硕士论文 医药卫生科技》, 15 March 2015 (2015-03-15) * |
李德云, 高亚礼: "地理信息系统及在疾病监测中的应用", 中国地方病防治杂志, no. 02, 30 April 2005 (2005-04-30), pages 1 * |
王佳欣等: "基于面到面泊松克里格方法的手足口病发病率空间分布降尺度研究", 《中华流行病学杂志》, 27 October 2017 (2017-10-27) * |
王涛: "中国蚊和蚊媒病毒的空间分布及预测研究", 《中国优秀硕士论文 医药卫生科技》, 15 February 2023 (2023-02-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN117423476B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jia et al. | Human brucellosis occurrences in inner mongolia, China: a spatio-temporal distribution and ecological niche modeling approach | |
Clements et al. | Further shrinking the malaria map: how can geospatial science help to achieve malaria elimination? | |
Brunker et al. | Landscape attributes governing local transmission of an endemic zoonosis: Rabies virus in domestic dogs | |
Menéndez‐Guerrero et al. | Climate change and the future restructuring of Neotropical anuran biodiversity | |
Pan et al. | Evaluating the accessibility of healthcare facilities using an integrated catchment area approach | |
US20140032271A1 (en) | System and method for processing demographic data | |
Perez-Heydrich et al. | Influence of demographic and health survey point displacements on raster-based analyses | |
Zhang | Spatial and temporal patterns in volunteer data contribution activities: A case study of eBird | |
Doyle et al. | Population mobility dynamics estimated from mobile telephony data | |
CN115688760B (zh) | 一种智能化导诊方法、装置、设备及存储介质 | |
Bond et al. | Review of 20 years of human acute Q fever notifications in Victoria, 1994–2013 | |
Lenormand et al. | Towards a better understanding of cities using mobility data | |
Gupta et al. | Quality of life, big data and the power of statistics | |
CN109376932A (zh) | 基于预测模型的年龄预测方法、装置、服务器及存储介质 | |
CN108600340A (zh) | 一种基于移动大样本数据的历史人群规模推总方法及装置 | |
Huang et al. | Urban spatial epidemic simulation model: A case study of the second COVID‐19 outbreak in Beijing, China | |
Núñez-Corrales et al. | The epidemiology workbench: a tool for communities to strategize in response to covid-19 and other infectious diseases | |
Lin et al. | The relationship between natural environments and subjective well-being as measured by sentiment expressed on Twitter | |
CN117423476B (zh) | 基于降尺度和贝叶斯模型的包虫病流行率预测方法 | |
CN114141385A (zh) | 一种用于传染病的预警方法、系统和可读存储介质 | |
Tierney et al. | Evaluating health facility access using Bayesian spatial models and location analysis methods | |
Brancher et al. | Are empirical equations an appropriate tool to assess separation distances to avoid odour annoyance? | |
CN116721781A (zh) | 虫媒传染病传播风险的预测方法、装置、电子设备及介质 | |
Georgati et al. | Spatially explicit population projections: The case of Copenhagen, Denmark | |
CN114374953B (zh) | 基于Hadoop和RAPIDS的多源特征转换基站下APP使用预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |