CN111128398B - 一种基于人口迁徙大数据的流行病感染人数估算方法 - Google Patents

一种基于人口迁徙大数据的流行病感染人数估算方法 Download PDF

Info

Publication number
CN111128398B
CN111128398B CN202010236392.7A CN202010236392A CN111128398B CN 111128398 B CN111128398 B CN 111128398B CN 202010236392 A CN202010236392 A CN 202010236392A CN 111128398 B CN111128398 B CN 111128398B
Authority
CN
China
Prior art keywords
epidemic
population
target
district
county
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010236392.7A
Other languages
English (en)
Other versions
CN111128398A (zh
Inventor
许剑辉
邓应彬
黄吴蒙
陈裕婵
杨骥
张虹鸥
李勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Institute of Geography of GDAS
Southern Marine Science and Engineering Guangdong Laboratory Guangzhou
Original Assignee
Guangzhou Institute of Geography of GDAS
Southern Marine Science and Engineering Guangdong Laboratory Guangzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Institute of Geography of GDAS, Southern Marine Science and Engineering Guangdong Laboratory Guangzhou filed Critical Guangzhou Institute of Geography of GDAS
Priority to CN202010236392.7A priority Critical patent/CN111128398B/zh
Publication of CN111128398A publication Critical patent/CN111128398A/zh
Application granted granted Critical
Publication of CN111128398B publication Critical patent/CN111128398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Public Health (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Development Economics (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种基于人口迁徙大数据的流行病感染人数估算方法,包括:获取各疫区市迁出至各目标市的人口数量、各疫区市的感染比例,以及各目标市的常住人口、各目标区/县的常住人口、主要道路长度、铁路长度和住宅小区点数量;以各疫区市的感染比例作为加权系数,对人口数量进行加权求和计算,得到第一加权人口数量;根据所述第一加权人口数量,得到第二加权人口数量;将第二加权人口数量、各目标区/县的常住人口、主要道路长度、铁路长度和住宅小区点数量输入至已训练的流行病感染人数估算模型,获得各目标区/县的流行病感染人数。相对于现有技术,本发明从多维角度对区/县尺度的流行病感染人数进行估算,为区/县疫情防控提供技术支撑。

Description

一种基于人口迁徙大数据的流行病感染人数估算方法
技术领域
本发明涉及数据分析领域,特别是涉及一种基于人口迁徙大数据的流行病感染人数估算方法。
背景技术
目前,新型冠状病毒感染肺炎(Corona Virus Disease 2019,COVID-19)对群众生产生活、社会公共卫生安全造成严重的影响,并且,COVID-19疫区的人群迁出数量相对较大,会对输入地区造成较大的流行风险。在这种情况下,亟需对输入省份内各区/县的COVID-19感染人数进行快速预估,以实现对不同区/县的防控等级进行科学预划分,为后续的差异化防控管理提供支撑。
目前主要通过流行病传播模型SIR,进行城市尺度的COVID-19感染人群估算,模型需要参数比较多,而且很多参数较难准确获取,导致无法实现在区/县尺度的COVID-19感染人群的估算。
发明内容
为克服相关技术中存在的问题,本发明实施例提供了一种基于人口迁徙大数据的流行病感染人数估算方法、装置及设备。
根据本发明实施例的第一方面,提供了一种基于人口迁徙大数据的流行病感染人数估算方法,包括如下步骤:
获取第一疫情期间内从各疫区市i分别迁出至目标省内各目标市j的人口数量qianxii,j、所述第一疫情期间内所述各疫区市i的感染比例infection_ratei,以及所述各目标市j的常住人口popj、所述各目标市j内各目标区/县k的常住人口
Figure GDA0002520915910000011
所述各目标区/县k的主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk
以所述各疫区市i的感染比例infection_ratei作为加权系数,对所述各疫区市i分别迁出至所述各目标市j的人口数量qianxii,j进行加权求和计算,得到所有疫区市i迁出至每个所述各目标市j的第一加权人口数量qianxi_weightj
根据所述第一加权人口数量qianxi_weightj以及所述各目标区/县k的常住人口
Figure GDA0002520915910000021
占所述各目标市j的常住人口popj的比例
Figure GDA0002520915910000022
得到所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量
Figure GDA0002520915910000023
将所述第二加权人口数量
Figure GDA0002520915910000024
以及所述各目标区/县k的常住人口
Figure GDA0002520915910000025
主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk输入至已训练的流行病感染人数估算模型,获得所述第一疫情期间内所述各目标区/县k的流行病感染人数。
可选的,基于百度迁徙大数据,获取第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比ratei,t
基于所述各疫区市i对应的统计年鉴,获取所述各疫区市i的常住人口popi
根据所述各疫区市i每天的迁徙规模指数indexi,t和所述各疫区市i的常住人口popi,得到所述各疫区市i每天的迁出人口数量
Figure GDA0002520915910000026
根据所述各疫区市i每天的迁出人口数量
Figure GDA0002520915910000027
和所述各疫区市i每天的迁出目的地占比ratei,t,得到所述第一疫情期间内从所述各疫区市i分别迁出至所述目标市j的人口数量qianxii,j
可选的,获取百度迁徙大数据的统一资源定位符,根据所述统一资源定位符,爬取所述第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比ratei,t
可选的,获取所述第一疫情期间内所述各疫区市i的初始感染比例initial_ratei,其中,所述各疫区市i的初始感染比例initial_ratei为所述各疫区市i的确诊病例数量casei与该疫区市i的常住人口popi之间的比值;
对所述各疫区市i的初始感染比例initial_ratei进行归一化处理,得到所述第一疫情期间内所述各疫区市i的感染比例infection_ratei
可选的,基于OSM公开地图,获取所述目标省内道路图层属性字段为预设道路图层属性字段的第一主要道路图层,并提取所述目标省内铁路图层属性字段为预设铁路图层属性自段的第一铁路图层;
根据所述各目标区/县k的行政区划分图,分别裁剪所述第一主要道路图层和第一铁路图层,得到所述各目标区/县k对应的第二主要道路图层和第二铁路图层;
根据所述第二主要道路图层和所述第二铁路图层,得到所述各目标区/县k的主要道路长度roadsk和铁路长度railsk
可选的,获取第二疫情期间内所述各目标区/县k的确诊病例数
Figure GDA0002520915910000031
所述第二疫情期间内所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量
Figure GDA0002520915910000032
以及所述各目标区/县k的所述常住人口、所述主要道路长度roadsk、所述铁路长度railsk和所述住宅小区点数量livingsk
基于XGBoost算法,以所述第二疫情期间内所述各目标区/县k的确诊病例数
Figure GDA0002520915910000033
为因变量,以所述第二疫情期间内所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量
Figure GDA0002520915910000034
以及所述各目标区/县k的所述常住人口
Figure GDA0002520915910000035
所述主要道路长度roadsk、所述铁路长度railsk和所述住宅小区点数量livingsk为自变量,训练得到所述流行病感染人数估算模型。
根据本发明实施例的第二方面,提供一种基于人口迁徙大数据的流行病感染人数估算装置,包括:
第一采集单元,用于获取第一疫情期间内从各疫区市i分别迁出至目标省内各目标市j的人口数量qianxii,j、所述第一疫情期间内所述各疫区市i的感染比例infection_ratei,以及所述各目标市j的常住人口popj、所述各目标市j内各目标区/县k的常住人口
Figure GDA0002520915910000036
所述各目标区/县k的主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk
第一处理单元,用于以所述各疫区市i的感染比例infection_ratei作为加权系数,对所述各疫区市i分别迁出至所述各目标市j的人口数量qianxii,j进行加权求和计算,得到所有疫区市i迁出至每个所述各目标市j的第一加权人口数量qianxi_weightj
第二处理单元,用于根据所述第一加权人口数量qianxi_weightj以及所述各目标区/县k的常住人口
Figure GDA0002520915910000041
占所述各目标市j的常住人口popj的比例
Figure GDA0002520915910000042
得到所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量
Figure GDA0002520915910000043
估算单元,用于将所述第二加权人口数量
Figure GDA0002520915910000044
以及所述各目标区/县k的常住人口
Figure GDA0002520915910000045
主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk输入至已训练的流行病感染人数估算模型,获得所述第一疫情期间内所述各目标区/县k的流行病感染人数。
根据本发明实施例的第三方面,提供一种基于人口迁徙大数据的流行病感染人数估算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于人口迁徙大数据的流行病感染人数估算方法的步骤。
根据本发明实施例的第四方面,提供一种计算机可读存储介质,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的基于人口迁徙大数据的流行病感染人数估算方法的步骤。
相对于现有技术,本申请实施例综合考虑了各疫区市的感染比例对迁出人口流行性的影响,根据该感染比例对各疫区市的迁出人口数量进行加权处理,得到从所有疫区市迁出至各目标市的第一加权人口数量,进而再根据各目标区/县在目标市内的人口占比,得到从所有疫区市迁出至各目标区/县的第二加权人口数量;之后,再将各目标区/县的第二加权人口数量、常住人口、主要道路长度、铁路长度和住宅小区点数量共同输入至已训练的流行病感染人数估算模型,快速估算出目标省内各区/县的流行病感染人数。本申请实施例通过从迁出人口的数量、迁出人口流行性、交通建设程度、人口密集程度等多维角度对区/县尺度的流行病感染人数进行估算,提高了估算的准确性,有利于各区/县精准地进行差异化防控。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明一个示例性实施例提供的基于人口迁徙大数据的流行病感染人数估算方法的流程示意图;
图2为本发明一个示例性实施例提供的基于人口迁徙大数据的流行病感染人数估算装置的结构示意图;
图3为本发明一个示例性实施例提供的基于人口迁徙大数据的流行病感染人数估算设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。
请参阅图1,图1为本发明一个示例性实施例提供的基于人口迁徙大数据的流行病感染人数估算方法的流程示意图,所述方法由基于人口迁徙大数据的流行病感染人数估算设备(以下简称估算设备)执行,包括如下步骤:
S101:获取第一疫情期间内从各疫区市i分别迁出至目标省内各目标市j的人口数量qianxii,j、所述第一疫情期间内所述各疫区市i的感染比例infection_ratei,以及所述各目标市j的常住人口popj、所述各目标市j内各目标区/县k的常住人口
Figure GDA0002520915910000061
所述各目标区/县k的主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk
流行病的发展过程在大多数情况下具有严格规律性,可以分为潜伏期、前驱期、发病期和转归期这四个阶段,由于流行病在发病期才会出现明显症状,因而当感染人员处于潜伏期、前驱期以及发病期前期时难以被发现,从而易造成大面积感染,故需要对流行病感染人数进行预估。
所述第一疫情期间可以为疫情发生后的任意阶段,在一个可选的实施例中,结合COVID-19的疫情发展,将第一疫情期间设置为2020.01.01至2020.2.15日;在其他可选的实施例中,所述第一疫情期间可以结合具体流行病疫情的发生时间以及流行病感染人数的预估需求进行合理化设置。
所述疫区市为疫情发病率较高的城市,在一个可选实施例中,所述疫区市可以为发病率大于预设阈值的城市,该发病率指确诊人数与常住人口的比值,预设阈值可以根据疫情状况进行设置。
所述目标省可以为任意省份,所述目标市为目标省内所有城市。具体地,在一个可选的实施例中,选取广东省为目标省,目标市为广东省内所有城市,进而第一疫情期内从各疫区市i分别迁出至目标省内各目标市j的人口数量qianxii,j可以理解为从公元年2020.01.01日至2020.2.15日期间从湖北省内各市i分别迁出至广州市各目标市j的人口数量qianxii,j
下面对获取第一疫情期间内从各疫区市i分别迁出至目标省内各目标市j的人口数量qianxii,j、第一疫情期间内所述各疫区市i的感染比例infection_ratei,以及所述各目标市j的常住人口popj、所述各目标市j内各目标区/县k的常住人口
Figure GDA0002520915910000062
所述各目标区/县k的主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk的步骤分别进行详细说明:
(1)获取第一疫情期间内从各疫区市i分别迁出至目标省内各目标市j的人口数量qianxii,j的过程如下:
在一个可选的实施例中,估算设备首先基于百度迁徙大数据,获取第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比ratei,t
其中,百度迁徙大数据为百度地图提供的定位大数据可视化软件,百度迁徙大数据的网址为:http://qianxi.baidu.com,其通过界面向用户展示迁徙规模指数、迁出目的地占比以及迁入目的地占比。该迁徙规模指数分为迁入规模指数和迁出规模指数,迁入规模指数为迁入人口数量与该地区常住人口的比值,迁出规模指数为迁出人口数量与该地区常住人口的比值。
在本申请实施例中,所述迁徙规模指数indexi,t具体指迁出规模指数,即各疫区市i每天的迁出人口数量
Figure GDA0002520915910000071
与该疫区市常住人口popi的比值。
所述各疫区市i每天的迁出目的地占比ratei,t表示从各疫区市i每天迁出至各目的地的人口数量与从各疫区市i每天迁出的总人口数量之比。
可选的,估算设备可通过获取百度迁徙大数据的统一资源定位符(UniformResourse Locator,URL),根据所述统一资源定位符,爬取所述第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比ratei,t
其中,该URL为信息资源在万维网服务程序上指定的唯一地址,估算设备通过URL链接百度迁徙大数据的数据资源,请求获取迁徙数据,该种获取方式更为快捷且准确性更高。
此外,估算设备也可以基于网络上发布的全国迁徙数据整理文档,获取第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比ratei,t
需要说明的是,百度迁徙大数据并不直接提供各疫区市i每天的迁出人口数量
Figure GDA0002520915910000081
估算设备需根据所述各疫区市i每天的迁徙规模指数indexi,t和所述各疫区市i的常住人口popi,获取所述第一疫情期间内所述各疫区市i每天的迁出人口数量
Figure GDA0002520915910000082
其中,各疫区市i的常住人口popi可以通过从各疫区市i对应的统计年鉴中获取,在本申请实施例中,估算设备获取2018年中各疫区市i所在省份的统计年鉴,得到各疫区市i的常住人口popi
之后,估算设备再根据所述各疫区市i每天的迁出人口数量
Figure GDA0002520915910000083
和所述各疫区市i每天的迁出目的地占比ratei,t,得到所述第一疫情期间内从所述各疫区市i分别迁出至所述目标市j的人口数量qianxii,j
在另一个可选的实施例中,估算设备也可以通过手机信令数据获取第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比ratei,t,最终获取到第一疫情期间内从各疫区市i分别迁出至目标省内各目标市j的人口数量qianxii,j
该手机信令数据是指手机用户与发射基站或者微站之间的通信数据,基于手机信令数据能够对手机用户进行定位并能够判断该手机用户在某地的停留时间,从而得到手机用户的迁徙数据。
因而,通过运营商服务可以获取到第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比ratei,t
(2)获取所述第一疫情期间内所述各疫区市i的感染比例infection_ratei的过程如下:
在一个可选的实施例中,所述各疫区市i的感染比例infection_ratei为所述各疫区市i的确诊病例数量casei与该疫区市i的常住人口popi之间的比值。
具体地,估算设备可直接从腾讯疫情大数据中获取所述第一疫情期间的截止日各疫区市的确诊病例数量casei,从各疫区市i对应的统计年鉴中获取各疫区市i的常住人口popi,进而得到所述第一疫情期间内所述各疫区市i的感染比例infection_ratei
需要说明的是,该感染比例infection_ratei是根据确诊病例预估的感染比例,并非实际感染比例,但可应用于对各疫区市i的感染程度的分析中。
在另一个可选的实施例中,所述各疫区市的感染比例infection_ratei是一个归一化的感染比例。
具体地,估算设备获取所述第一疫情期间内所述各疫区市i的初始感染比例initial_ratei,其中,所述各疫区市i的初始感染比例initial_ratei为所述各疫区市i的确诊病例数量casei与该疫区市i的常住人口popi之间的比值。所述确诊病例数量casei和常住人口popi的获取方式在此不再赘述。
之后,估算设备对所述各疫区市i的初始感染比例initial_ratei进行归一化处理,得到所述第一疫情期间内所述各疫区市i的感染比例infection_ratei
所述归一化处理是将各疫区市i的初始感染比例initial_ratei映射到(0,1)之间,从而能够更好地反应出各疫区市i的感染程度的差异性,有利于判断各疫区市迁出人口的流行性。
(3)获取所述各目标市j的常住人口popj、所述各目标市j内各目标区/县k的常住人口
Figure GDA0002520915910000091
的过程如下:
在本申请实施例中,估算设备获取所述各目标市j的常住人口popj、所述各目标市j内各目标区/县k的常住人口
Figure GDA0002520915910000093
具体地,估算设备获取所述各目标市j对应的统计年鉴,根据该统计年鉴,得到所述各目标市j的常住人口popj、所述各目标市j内各目标区/县k的常住人口
Figure GDA0002520915910000092
(4)获取所述各目标区/县k的主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk的过程如下:
在一个可选的实施例中,估算设备首先基于OSM公开地图,获取所述目标省内道路图层属性字段为预设道路图层属性字段的第一主要道路图层,并提取所述目标省内铁路图层属性字段为预设铁路自段的第一铁路图层。
其中,OSM公开地图是一个开源地图,其内部定义了公路(即道路)、铁路、水路、自行车道路等不同类型道路的线图层数据。
所述道路图层属性字段为OSM公开地图中的道路线图层标识,在本实施例中,所述预设道路图层属性字段为5111、5112、5113、5114和5115,在其他实施例中,所述预设道路图层属性字段可根据目标省内实际情况进行设置,在此不做限制。
所述铁路图层属性字段为OSM公开地图中的铁路线图层标识,在本实施例中,所述预设铁路图层属性字段为6101、6102和6133,在其他实施例中,所述预设铁路图层属性字段可根据目标省内实际情况进行设置,在此不做限制。
估算设备之后根据所述各目标区/县k的行政区划分图,分别裁剪所述第一主要道路图层和第一铁路图层,得到所述各目标区/县k对应的第二主要道路图层和第二铁路图层;并根据所述第二主要道路图层和所述第二铁路图层,得到所述各目标区/县k的主要道路长度roadsk和铁路长度railsk
具体地,所述行政区划分图可以从地理国情监测云平台中获取,该行政区划分图对各目标市内各目标区/县k的行政区域进行了划分。
不同区/县交通建设的程度与人口流动的程度密切相关,进而影响疫情的传播,通过准确获取主要公路长度和铁路长度,能够更为准确地进行感染人数的估算。
在另一个可选实施例中,估算设备还可基于国家公路网建设及规划示意图、铁路网建设及规划示意图铁路建设数据,获取各目标区/县k的主要道路长度roadsk、铁路长度railsk
估算设备可通过高德POI数据获取各目标区/县k的住宅小区点数量livingsk,也可以通过访问房管局网站抓取各目标区/县k的住宅小区点数量livingsk
S102:以所述各疫区市i的感染比例infection_ratei作为加权系数,对所述各疫区市i分别迁出至所述各目标市j的人口数量qianxii,j进行加权求和计算,得到所有疫区市i迁出至每个所述各目标市j的第一加权人口数量qianxi_weightj
估算设备以所述各疫区市i的感染比例infection_ratei作为加权系数,对所述各疫区市i分别迁出至所述各目标市j的人口数量qianxii,j进行加权求和计算,得到所有疫区市i迁出至每个所述各目标市j的第一加权人口数量qianxi_weightj。其中,所述感染比例infection_ratei已在步骤S101中进行详细描述,在此不再赘述。
上述方式不仅仅从迁出人口数量的角度进行感染人数的分析与估算,而是综合考虑了各疫区市的发病率,体现出不同疫区市的迁出人口的流行强度。将发病率较高的疫区市的迁出人口数量乘以更大的加权系数,将发病率较低的疫区市的迁出人口数量乘以更小的加权系数,从而使得第一加权人口数量与流行性的关联性更加密切,进一步提高基于人口迁徙大数据的流行病感染人数估算准确度。
S103:根据所述第一加权人口数量qianxi_weightj以及所述各目标区/县k的常住人口
Figure GDA0002520915910000111
占所述各目标市j的常住人口popj的比例
Figure GDA0002520915910000112
得到所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量
Figure GDA0002520915910000113
在本申请实施例中,估算设备根据所述第一加权人口数量qianxi_weightj以及所述各目标区/县k的常住人口
Figure GDA0002520915910000114
占所述各目标市j的常住人口popj的比例
Figure GDA0002520915910000115
得到所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量
Figure GDA0002520915910000116
其中,所述各目标区/县k的常住人口
Figure GDA0002520915910000117
和所述各目标市j的常住人口popj可以从目标市j对应的统计年鉴中获取,所述
Figure GDA0002520915910000118
Figure GDA0002520915910000119
与popj的比例,通过该比例
Figure GDA00025209159100001110
估算迁出至各目标市j的第一加权人口数量的流动去向,从而得到所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量
Figure GDA00025209159100001111
实现区/县尺度的划分。
S104:将所述第二加权人口数量
Figure GDA00025209159100001112
以及所述各目标区/县k的常住人口
Figure GDA00025209159100001113
主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk输入至已训练的流行病感染人数估算模型,获得所述第一疫情期间内所述各目标区/县k的流行病感染人数。
在本申请实施例中,所述已训练的流行病感染人数估算模型是基于XGBoost算法,以所述第二疫情期间内所述各目标区/县k的确诊病例数
Figure GDA0002520915910000121
为因变量,以所述第二疫情期间内所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量
Figure GDA0002520915910000122
以及所述各目标区/县k的所述常住人口
Figure GDA0002520915910000123
所述主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk为自变量而训练得到的。
其中,所述第二疫情期间相对于第一疫情期间,其时长相对较短,通常设置为疫情开始蔓延的阶段,在一个可选的实施例中,结合COVID-19的疫情发展,将第二疫情期间设置为2020.01.01至2020.1.26日。在其他可选的实施例中,也可以结合具体流行病的特点对第二疫情期间进行合理设置,在此不做限制。
所述第二疫情期间内所述各目标区/县k的确诊病例数
Figure GDA0002520915910000124
为第二疫情期间的截止日所述各目标区/县k的确诊病例数
Figure GDA0002520915910000125
具体地,估算设备可以从腾讯疫情大数据中爬取所述各目标区/县k的确诊病例数
Figure GDA0002520915910000126
所述第二疫情期间内所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量
Figure GDA0002520915910000127
以及所述各目标区/县k的所述常住人口
Figure GDA0002520915910000128
所述主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk的获取方式均与步骤S101中提出的获取方式相同,不同点仅在于此处获取的是第二疫情期间的数据,故不再对获取方式进行赘述。
所述XGBoost算法是一种提升树模型,通过将多个树模型进行集成,形成为一个强分类器,其中,树模型为CART回归树模型。
在训练前,对所述流行病感染人数估算模型进行参数设置,所述参数包括迭代次数、收缩步长、子节点的最小权重值、子样本数目、节点分裂所需的最小损失函数下降值和节点分裂的最大深度。在一个可选的实施例中,可设置迭代次数为1000、收缩步长未0.2、子节点的最小权重值为1、子样本数目为1、节点分裂所需的最小损失函数下降值为0和节点分裂的最大深度为5。
具体地,所述流行病感染人数估算模型的训练过程可以在估算设备中执行,也可以在外部设备中执行,在此不做限制。当在外部设备中执行时,估算设备将上述获取到的第二疫情期间的数据传输至外部设备,并在外部设备中完成训练。
本申请实施例综合考虑了各疫区市的感染比例对迁出人口流行性的影响,通过从迁出人口的数量、迁出人口流行性、交通建设程度、人口密集程度等多维角度对区/县尺度的流行病感染人数进行估算,提高了估算的准确性,有利于各区/县精准地进行差异化防控。
请参见图2,图2为本发明一个示例性实施例示出的基于人口迁徙大数据的流行病感染人数估算装置的结构示意图。包括的各单元用于执行图1对应的实施例中的各步骤,具体请参阅图1各自对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图2,基于人口迁徙大数据的流行病感染人数估算装置2包括:
第一采集单元21,用于获取第一疫情期间内从各疫区市i分别迁出至目标省内各目标市j的人口数量qianxiij、所述第一疫情期间内所述各疫区市i的感染比例infection_ratei,以及所述各目标市j的常住人口popj、所述各目标市j内各目标区/县k的常住人口
Figure GDA0002520915910000131
所述各目标区/县k的主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk
第一处理单元22,用于以所述各疫区市i的感染比例infection_ratei作为加权系数,对所述各疫区市i分别迁出至所述各目标市j的人口数量qianxii,j进行加权求和计算,得到所有疫区市i迁出至每个所述各目标市j的第一加权人口数量qianxi_weightj
第二处理单元23,用于根据所述第一加权人口数量qianxi_weightj以及所述各目标区/县k的常住人口占所述各目标市j的常住人口popj的比例
Figure GDA0002520915910000133
得到所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量
Figure GDA0002520915910000134
估算单元24,用于将所述第二加权人口数量
Figure GDA0002520915910000135
以及所述各目标区/县k的常住人口
Figure GDA0002520915910000136
主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk输入至已训练的流行病感染人数估算模型,获得所述第一疫情期间内所述各目标区/县k的流行病感染人数。
可选的,所述基于人口迁徙大数据的流行病感染人数估算装置2还包括:
第二采集单元25,用于获取第二疫情期间内所述各目标区/县k的确诊病例数
Figure GDA0002520915910000141
所述第二疫情期间内所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量
Figure GDA0002520915910000142
以及所述各目标区/县k的所述常住人口、所述主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk
构建单元26,用于基于XGBoost算法,以所述第二疫情期间内所述各目标区/县k的确诊病例数
Figure GDA0002520915910000143
为因变量,以所述第二疫情期间内所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量
Figure GDA0002520915910000144
以及所述各目标区/县k的所述常住人口
Figure GDA0002520915910000145
所述主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk为自变量,训练得到所述流行病感染人数估算模型。
可选的,所述第一采集单元21包括:
第三采集单元211,用于基于百度迁徙大数据,获取第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比ratei,t
第四采集单元212,用于基于所述各疫区市i对应的统计年鉴,获取所述各疫区市i的常住人口popi
第一运算单元213,用于根据所述各疫区市i每天的迁徙规模指数indexi,t和所述各疫区市i的常住人口popi,得到所述各疫区市i每天的迁出人口数量
Figure GDA0002520915910000146
第二运算单元214,用于根据所述各疫区市i每天的迁出人口数量
Figure GDA0002520915910000147
和所述各疫区市i每天的迁出目的地占比ratei,t,得到所述第一疫情期间内从所述各疫区市i分别迁出至所述目标市j的人口数量qianxii,j
可选的,所述第三采集单元211包括:
资源定位单元2111,用于获取百度迁徙大数据的统一资源定位符,根据所述统一资源定位符,爬取所述第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比ratei,t
可选的,所述第一采集单元21还包括:
第五采集单元215,用于获取所述第一疫情期间内所述各疫区市i的初始感染比例initial_ratei,其中,所述各疫区市i的初始感染比例initial_ratei为所述各疫区市i的确诊病例数量casei与该疫区市i的常住人口popi之间的比值;
归一化处理单元216,用于对所述各疫区市i的初始感染比例initial_ratei进行归一化处理,得到所述第一疫情期间内所述各疫区市i的感染比例infection_ratei
可选的,所述第一采集单元21还包括:
第六采集单元217,用于基于OSM公开地图,获取所述目标省内道路图层属性字段为预设道路图层属性字段的第一主要道路图层,并提取所述目标省内铁路图层属性字段为预设铁路图层属性自段的第一铁路图层;
裁剪单元218,用于根据所述各目标区/县k的行政区划分图,分别裁剪所述第一主要道路图层和第一铁路图层,得到所述各目标区/县k对应的第二主要道路图层和第二铁路图层;
第三运算单元219,用于根据所述第二主要道路图层和所述第二铁路图层,得到所述各目标区/县k的主要道路长度roadsk和铁路长度railsk
请参见图3,图3是本发明一个示例性实施例提供的基于人口迁徙大数据的流行病感染人数估算设备的结构示意图。如图3所示,该实施例的基于人口迁徙大数据的流行病感染人数估算设备3包括:处理器30、存储器31以及存储在所述存储器31中并可在所述处理器30上运行的计算机程序32,例如基于人口迁徙大数据的流行病感染人数估算程序。所述处理器30执行所述计算机程序32时实现上述各个基于人口迁徙大数据的流行病感染人数估算方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,所述处理器30执行所述计算机程序32时实现上述各装置实施例中各模块/单元的功能,例如图2所示单元21至24的功能。
示例性的,所述计算机程序32可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述处理器30执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序32在所述基于人口迁徙大数据的流行病感染人数估算设备3中的执行过程。例如,所述计算机程序32可以被分割成第一采集单元、第一处理单元、第二处理单元和估算单元,各单元功能如下:
第一采集单元,用于获取第一疫情期间内从各疫区市i分别迁出至目标省内各目标市j的人口数量qianxii,j、所述第一疫情期间内所述各疫区市i的感染比例infection_ratei,以及所述各目标市j的常住人口popj、所述各目标市j内各目标区/县k的常住人口
Figure GDA0002520915910000161
所述各目标区/县k的主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk
第一处理单元,用于以所述各疫区市i的感染比例infection_ratei作为加权系数,对所述各疫区市i分别迁出至所述各目标市j的人口数量qianxii,j进行加权求和计算,得到所有疫区市i迁出至每个所述各目标市j的第一加权人口数量qianxi_weightj
第二处理单元,用于根据所述第一加权人口数量qianxi_weightj以及所述各目标区/县k的常住人口
Figure GDA0002520915910000162
占所述各目标市j的常住人口popj的比例
Figure GDA0002520915910000163
得到所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量
Figure GDA0002520915910000164
估算单元,用于将所述第二加权人口数量
Figure GDA0002520915910000165
以及所述各目标区/县k的常住人口
Figure GDA0002520915910000166
主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk输入至已训练的流行病感染人数估算模型,获得所述第一疫情期间内所述各目标区/县k的流行病感染人数。
可选的,所述基于人口迁徙大数据的流行病感染人数估算装置还包括:
第二采集单元,用于获取第二疫情期间内所述各目标区/县k的确诊病例数
Figure GDA0002520915910000171
所述第二疫情期间内所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量
Figure GDA0002520915910000172
以及所述各目标区/县k的所述常住人口、所述主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk
构建单元,用于基于XGBoost算法,以所述第二疫情期间内所述各目标区/县k的确诊病例数
Figure GDA0002520915910000173
为因变量,以所述第二疫情期间内所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量
Figure GDA0002520915910000174
以及所述各目标区/县k的所述常住人口
Figure GDA0002520915910000175
所述主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk为自变量,训练得到所述流行病感染人数估算模型。
可选的,所述第一采集单元包括:
第三采集单元,用于基于百度迁徙大数据,获取第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比ratei,t
第四采集单元,用于基于所述各疫区市i对应的统计年鉴,获取所述各疫区市i的常住人口popi
第一运算单元,用于根据所述各疫区市i每天的迁徙规模指数indexi,t和所述各疫区市i的常住人口popi,得到所述各疫区市i每天的迁出人口数量
Figure GDA0002520915910000176
第二运算单元,用于根据所述各疫区市i每天的迁出人口数量
Figure GDA0002520915910000177
和所述各疫区市i每天的迁出目的地占比ratei,t,得到所述第一疫情期间内从所述各疫区市i分别迁出至所述目标市j的人口数量qianxii,j
可选的,所述第三采集单元包括:
资源定位单元,用于获取百度迁徙大数据的统一资源定位符,根据所述统一资源定位符,爬取所述第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比ratei,t
可选的,所述第一采集单元还包括:
第五采集单元,用于获取所述第一疫情期间内所述各疫区市i的初始感染比例initial_ratei,其中,所述各疫区市i的初始感染比例initial_ratei为所述各疫区市i的确诊病例数量casei与该疫区市i的常住人口popi之间的比值;
归一化处理单元,用于对所述各疫区市i的初始感染比例initial_ratei进行归一化处理,得到所述第一疫情期间内所述各疫区市i的感染比例infection_ratei
可选的,所述第一采集单元21还包括:
第六采集单元,用于基于OSM公开地图,获取所述目标省内道路图层属性字段为预设道路图层属性字段的第一主要道路图层,并提取所述目标省内铁路图层属性字段为预设铁路图层属性自段的第一铁路图层;
裁剪单元,用于根据所述各目标区/县k的行政区划分图,分别裁剪所述第一主要道路图层和第一铁路图层,得到所述各目标区/县k对应的第二主要道路图层和第二铁路图层;
第三运算单元,用于根据所述第二主要道路图层和所述第二铁路图层,得到所述各目标区/县k的主要道路长度roadsk和铁路长度railsk
所述基于人口迁徙大数据的流行病感染人数估算设备3可包括,但不仅限于,处理器30、存储器31。本领域技术人员可以理解,图3仅仅是基于人口迁徙大数据的流行病感染人数估算设备3的示例,并不构成对基于人口迁徙大数据的流行病感染人数估算设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述基于人口迁徙大数据的流行病感染人数估算设备3还可以包括输入输出设备、网络接入设备、总线等。
所称处理器30可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器31可以是所述基于人口迁徙大数据的流行病感染人数估算设备3的内部存储单元,例如基于人口迁徙大数据的流行病感染人数估算设备3的硬盘或内存。所述存储器31也可以是所述基于人口迁徙大数据的流行病感染人数估算设备3的外部存储设备,例如所述基于人口迁徙大数据的流行病感染人数估算设备3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器31还可以既包括所基于人口迁徙大数据的流行病感染人数估算设备3的内部存储单元也包括外部存储设备。所述存储器31用于存储所述计算机程序以及所述基于人口迁徙大数据的流行病感染人数估算设备所需的其他程序和数据。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。

Claims (10)

1.一种基于人口迁徙大数据的流行病感染人数估算方法,其特征在于,包括步骤:
获取第一疫情期间内从各疫区市i分别迁出至目标省内各目标市j的人口数量qianxii,j、所述第一疫情期间内所述各疫区市i的感染比例infection_ratei,以及所述各目标市j的常住人口popj、所述各目标市j内各目标区/县k的常住人口
Figure FDA0002513136390000011
所述各目标区/县k的主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk;其中,所述各目标区/县k的主要道路长度roadsk为根据第二主要道路图层得到的道路长度,所述第二主要道路图层为根据所述各目标区/县k的行政区划分图,裁剪第一主要道路图层,得到所述各目标区/县k对应的第二主要道路图层,所述第一主要道路图层为所述目标省内道路图层属性字段为预设道路图层属性字段的第一主要道路图层;
以所述各疫区市i的感染比例infection_ratei作为加权系数,对所述各疫区市i分别迁出至所述各目标市j的人口数量qianxii,j进行加权求和计算,得到所有疫区市i迁出至每个所述各目标市j的第一加权人口数量qianxi_weightj
根据所述第一加权人口数量qianxi_weightj以及所述各目标区/县k的常住人口
Figure FDA0002513136390000012
占所述各目标市j的常住人口popj的比例
Figure FDA0002513136390000013
得到所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量
Figure FDA0002513136390000014
将所述第二加权人口数量
Figure FDA0002513136390000015
以及所述各目标区/县k的常住人口
Figure FDA0002513136390000016
主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk输入至已训练的流行病感染人数估算模型,获得所述第一疫情期间内所述各目标区/县k的流行病感染人数。
2.根据权利要求1所述的基于人口迁徙大数据的流行病感染人数估算方法,其特征在于,所述获取第一疫情期间内从各疫区市i分别迁出至目标省内各目标市j的人口数量qianxii,j,包括步骤:
基于百度迁徙大数据,获取第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比ratei,t
基于所述各疫区市i对应的统计年鉴,获取所述各疫区市i的常住人口popi
根据所述各疫区市i每天的迁徙规模指数indexi,t和所述各疫区市i的常住人口popi,得到所述各疫区市i每天的迁出人口数量
Figure FDA0002513136390000021
根据所述各疫区市i每天的迁出人口数量
Figure FDA0002513136390000022
和所述各疫区市i每天的迁出目的地占比ratei,t,得到所述第一疫情期间内从所述各疫区市i分别迁出至所述目标市j的人口数量qianxii,j
3.根据权利要求2所述的基于人口迁徙大数据的流行病感染人数估算方法,其特征在于,所述基于百度迁徙大数据,获取第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比ratei,t,包括步骤:
获取百度迁徙大数据的统一资源定位符,根据所述统一资源定位符,爬取所述第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比ratei,t
4.根据权利要求1至3任意一项所述的基于人口迁徙大数据的流行病感染人数估算方法,其特征在于,所述获取所述第一疫情期间内所述各疫区市i的感染比例infection_ratei,包括步骤:
获取所述第一疫情期间内所述各疫区市i的初始感染比例initial_ratei,其中,所述各疫区市i的初始感染比例initial_ratei为所述各疫区市i的确诊病例数量casei与该疫区市i的常住人口popi之间的比值;
对所述各疫区市i的初始感染比例initial_ratei进行归一化处理,得到所述第一疫情期间内所述各疫区市i的感染比例infection_ratei
5.根据权利要求1至3任意一项所述的基于人口迁徙大数据的流行病感染人数估算方法,其特征在于,所述获取所述各目标区/县k的主要道路长度roadsk和铁路长度railsk,包括步骤:
基于OSM公开地图,获取所述目标省内道路图层属性字段为预设道路图层属性字段的第一主要道路图层,并提取所述目标省内铁路图层属性字段为预设铁路图层属性自段的第一铁路图层;
根据所述各目标区/县k的行政区划分图,分别裁剪所述第一主要道路图层和第一铁路图层,得到所述各目标区/县k对应的第二主要道路图层和第二铁路图层;
根据所述第二主要道路图层和所述第二铁路图层,得到所述各目标区/县k的主要道路长度roadsk和铁路长度railsk
6.根据权利要求1至3任意一项所述的基于人口迁徙大数据的流行病感染人数估算方法,其特征在于,所述流行病感染人数估算模型的训练过程包括步骤:
获取第二疫情期间内所述各目标区/县k的确诊病例数
Figure FDA0002513136390000031
所述第二疫情期间内所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量
Figure FDA0002513136390000032
以及所述各目标区/县k的所述常住人口
Figure FDA0002513136390000033
所述主要道路长度roadsk、所述铁路长度railsk和所述住宅小区点数量livingsk
基于XGBoost算法,以所述第二疫情期间内所述各目标区/县k的确诊病例数
Figure FDA0002513136390000034
为因变量,以所述第二疫情期间内所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量
Figure FDA0002513136390000035
以及所述各目标区/县k的所述常住人口
Figure FDA0002513136390000036
所述主要道路长度roadsk、所述铁路长度railsk和所述住宅小区点数量livingsk为自变量,训练得到所述流行病感染人数估算模型。
7.一种基于人口迁徙大数据的流行病感染人数估算装置,其特征在于,包括:
第一采集单元,用于获取第一疫情期间内从各疫区市i分别迁出至目标省内各目标市j的人口数量qianxii,j、所述第一疫情期间内所述各疫区市i的感染比例infection_ratei,以及所述各目标市j的常住人口popj、所述各目标市j内各目标区/县k的常住人口
Figure FDA0002513136390000037
所述各目标区/县k的主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk;其中,所述各目标区/县k的主要道路长度roadsk为根据第二主要道路图层得到的道路长度,所述第二主要道路图层为根据所述各目标区/县k的行政区划分图,裁剪第一主要道路图层,得到所述各目标区/县k对应的第二主要道路图层,所述第一主要道路图层为所述目标省内道路图层属性字段为预设道路图层属性字段的第一主要道路图层;
第一处理单元,用于以所述各疫区市i的感染比例infection_ratei作为加权系数,对所述各疫区市i分别迁出至所述各目标市j的人口数量qianxii,j进行加权求和计算,得到所有疫区市i迁出至每个所述各目标市j的第一加权人口数量qianxi_weightj
第二处理单元,用于根据所述第一加权人口数量qianxi_weightj以及所述各目标区/县k的常住人口
Figure FDA0002513136390000041
占所述各目标市j的常住人口popj的比例
Figure FDA0002513136390000042
得到所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量
Figure FDA0002513136390000043
估算单元,用于将所述第二加权人口数量
Figure FDA0002513136390000044
以及所述各目标区/县k的常住人口
Figure FDA0002513136390000045
主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk输入至已训练的流行病感染人数估算模型,获得所述第一疫情期间内所述各目标区/县k的流行病感染人数。
8.根据权利要求7所述的基于人口迁徙大数据的流行病感染人数估算装置,其特征在于,还包括:
第二采集单元,用于获取第二疫情期间内所述各目标区/县k的确诊病例数
Figure FDA0002513136390000046
所述第二疫情期间内所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量
Figure FDA0002513136390000047
以及所述各目标区/县k的所述常住人口、所述主要道路长度roadsk、所述铁路长度railsk和所述住宅小区点数量livingsk
构建单元,用于基于XGBoost算法,以所述第二疫情期间内所述各目标区/县k的确诊病例数
Figure FDA0002513136390000048
为因变量,以所述第二疫情期间内所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量
Figure FDA0002513136390000049
以及所述各目标区/县k的所述常住人口
Figure FDA00025131363900000410
所述主要道路长度roadsk、所述铁路长度railsk和所述住宅小区点数量livingsk为自变量,训练得到所述流行病感染人数估算模型。
9.一种基于人口迁徙大数据的流行病感染人数估算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。
CN202010236392.7A 2020-03-30 2020-03-30 一种基于人口迁徙大数据的流行病感染人数估算方法 Active CN111128398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010236392.7A CN111128398B (zh) 2020-03-30 2020-03-30 一种基于人口迁徙大数据的流行病感染人数估算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010236392.7A CN111128398B (zh) 2020-03-30 2020-03-30 一种基于人口迁徙大数据的流行病感染人数估算方法

Publications (2)

Publication Number Publication Date
CN111128398A CN111128398A (zh) 2020-05-08
CN111128398B true CN111128398B (zh) 2020-08-14

Family

ID=70493878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010236392.7A Active CN111128398B (zh) 2020-03-30 2020-03-30 一种基于人口迁徙大数据的流行病感染人数估算方法

Country Status (1)

Country Link
CN (1) CN111128398B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113764102B (zh) * 2020-06-03 2024-03-29 阿里巴巴集团控股有限公司 疾病预测方法、装置、电子设备及计算机存储介质
CN111739658B (zh) * 2020-07-20 2021-02-02 医渡云(北京)技术有限公司 基于输入病例预测传染病趋势的方法及装置
CN112835877B (zh) * 2020-08-20 2022-06-14 同济大学 一种面向公共突发事务的疫情大数据清理方法
CN112287513B (zh) * 2020-09-10 2022-09-16 浙江大学 减少车厢内传染概率的铁路客运乘客车厢分配优化方法
CN112967817B (zh) * 2021-02-02 2022-06-10 武汉大学 基于医疗大数据的流行病学研究人群筛选方法及存储介质
CN113643823B (zh) * 2021-07-15 2023-07-28 医渡云(北京)技术有限公司 入境人数控制方法、装置、存储介质与电子设备
CN113688205A (zh) * 2021-08-25 2021-11-23 辽宁工程技术大学 一种基于深度学习的疾病检测方法
CN113793690B (zh) * 2021-08-31 2024-03-12 医渡云(北京)技术有限公司 传染病的区域风险评估方法、装置、存储介质及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777092A (zh) * 2009-12-18 2010-07-14 中国人民解放军防化指挥工程学院 基于考虑空间非均匀性的传染病传播模型疫情预测方法
ES2456043T3 (es) * 2006-12-22 2014-04-21 Hvidovre Hospital Receptor soluble del activador de plasminógeno de tipo uroquinasa (suPAR) como marcador predictivo de enfermedades cardiovasculares
CN103793619A (zh) * 2014-02-27 2014-05-14 成都医学院 一种新型传染病空间扩散模拟方法
CN109656918A (zh) * 2019-01-04 2019-04-19 平安科技(深圳)有限公司 流行病发病指数的预测方法、装置、设备及可读存储介质
CN110706823A (zh) * 2019-11-15 2020-01-17 广州地理研究所 一种基于滞后分析和lstm的呼吸系统疾病发病人数预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766277B2 (en) * 2001-06-15 2004-07-20 Northrop Grumman Corporation Early warning network for biological terrorism
CN108172301B (zh) * 2018-01-31 2021-02-02 中国科学院软件研究所 一种基于梯度提升树的蚊媒传染病疫情预测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2456043T3 (es) * 2006-12-22 2014-04-21 Hvidovre Hospital Receptor soluble del activador de plasminógeno de tipo uroquinasa (suPAR) como marcador predictivo de enfermedades cardiovasculares
CN101777092A (zh) * 2009-12-18 2010-07-14 中国人民解放军防化指挥工程学院 基于考虑空间非均匀性的传染病传播模型疫情预测方法
CN103793619A (zh) * 2014-02-27 2014-05-14 成都医学院 一种新型传染病空间扩散模拟方法
CN109656918A (zh) * 2019-01-04 2019-04-19 平安科技(深圳)有限公司 流行病发病指数的预测方法、装置、设备及可读存储介质
CN110706823A (zh) * 2019-11-15 2020-01-17 广州地理研究所 一种基于滞后分析和lstm的呼吸系统疾病发病人数预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Early Prediction of the 2019 Novel Coronavirus Outbreak in the Mainland China Based on Simple Mathematical Model";L. Zhong et al;《 IEEE Access》;20200309;第8卷;第51761 - 51769页 *
"基于时变参数-SIR 模型的2019-nCoV 疫情评估和预测";喻孜等;《电子科技大学学报》;20200210;第1-5页 *

Also Published As

Publication number Publication date
CN111128398A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111128398B (zh) 一种基于人口迁徙大数据的流行病感染人数估算方法
LaPoint et al. Animal behavior, cost-based corridor models, and real corridors
WO2021218314A1 (zh) 基于位置定位的事件识别方法、装置、设备及存储介质
Karimi et al. Pedestrian network map generation approaches and recommendation
CN104254865A (zh) 凭经验的专家确定和问题路由系统和方法
Sallah et al. Mathematical models for predicting human mobility in the context of infectious disease spread: introducing the impedance model
US20120220274A1 (en) Position information analysis device and position information analysis method
WO2005104436A1 (en) Method and system for generating a population representative of a set of users of a communication network
Pflügler et al. Predicting the availability of parking spaces with publicly available data
CN106022634A (zh) 基于大数据分析的基坑风险管理方法与系统
CN115511308B (zh) 一种区域无障碍设施布局合理性的评价方法及相关装置
CN105376223A (zh) 网络身份关系的可靠度计算方法
CN115062873A (zh) 交通出行方式预测方法和装置、存储介质及电子设备
CN112861972A (zh) 一种展业区域的选址方法、装置、计算机设备和介质
CN105844031B (zh) 一种基于手机定位数据的城市交通廊道识别方法
Bowyer Measuring urban growth, urban form and accessibility as indicators of urban sprawl in Hamilton, New Zealand
Bakkal et al. Modeling and querying trajectories using Neo4j spatial and TimeTree for carpool matching
CN111611337B (zh) 终端数据处理系统
CN111242723B (zh) 用户子女情况判断方法、服务器及计算机可读存储介质
Costa et al. Generation of road maps from trajectories collected with smartphone–a method based on genetic algorithm
CN111352964B (zh) 获取兴趣点信息的方法、装置、设备及存储介质
CN107944767A (zh) 基于bim和电子地图的建筑物选址方法及其系统
US20200320090A1 (en) Method and device for data fusion, non-transitory storage medium and server
Pedersen et al. Geolocating traffic signs using crowd-sourced imagery
CN117596551B (zh) 一种基于手机信令数据的绿道网用户行为还原方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 510075 one of the compound No. 100, Xianlie Middle Road, Yuexiu District, Guangzhou City, Guangdong Province

Patentee after: Guangzhou Institute of geography, Guangdong Academy of Sciences

Patentee after: Guangdong Provincial Laboratory of marine science and engineering of South China (Guangzhou)

Address before: 510075 one of the compound No. 100, Xianlie Middle Road, Yuexiu District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU INSTITUTE OF GEOGRAPHY

Patentee before: Guangdong Provincial Laboratory of marine science and engineering of South China (Guangzhou)