CN112835877B - 一种面向公共突发事务的疫情大数据清理方法 - Google Patents
一种面向公共突发事务的疫情大数据清理方法 Download PDFInfo
- Publication number
- CN112835877B CN112835877B CN202010841018.XA CN202010841018A CN112835877B CN 112835877 B CN112835877 B CN 112835877B CN 202010841018 A CN202010841018 A CN 202010841018A CN 112835877 B CN112835877 B CN 112835877B
- Authority
- CN
- China
- Prior art keywords
- data
- case
- county
- epidemic situation
- cleaning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000011161 development Methods 0.000 claims description 35
- 238000002790 cross-validation Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000002265 prevention Effects 0.000 description 8
- 230000036541 health Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 206010035664 Pneumonia Diseases 0.000 description 5
- 241000711573 Coronaviridae Species 0.000 description 3
- 230000002354 daily effect Effects 0.000 description 3
- 230000005180 public health Effects 0.000 description 3
- 244000223014 Syzygium aromaticum Species 0.000 description 2
- 235000016639 Syzygium aromaticum Nutrition 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 208000025721 COVID-19 Diseases 0.000 description 1
- 241000272041 Naja Species 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Public Health (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Pure & Applied Mathematics (AREA)
- Development Economics (AREA)
- Medical Informatics (AREA)
- Computational Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Operations Research (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Remote Sensing (AREA)
Abstract
本发明涉及一种面向公共突发事务的疫情大数据清理方法,包括以下步骤:1)获取病例位置数据,并采用病例位置数据清洗策略,对该病例位置数据进行数据清洗;2)获取区县统计数据,并采用区县统计数据清洗策略,对该区县统计数据进行数据清洗;3)根据数据清洗后的病例位置数据和区县统计数据,获得疫情大数据;病例位置数据清洗策略包括:S11:获取官方发布的原始疫情数据,构建第一病例位置数据;S12:从第三方平台中获取病例位置数据,作为第二病例位置数据;S13:进行数据匹配,如果匹配成功,则获得数据清洗后的病例位置数据,否则,进行数据核对处理。与现有技术相比,本发明可以实现疫情数据的快速获取、有效清洗和高效管理。
Description
技术领域
本发明涉及数据清理方法领域,尤其是涉及一种面向公共突发事务的疫情大数据清理方法。
背景技术
准确、及时、完备的疫情大数据是疫情防控的重要支撑。但疫情数据具备数据量大且增长快速、发布形式多样、发布渠道广、数据结构复杂、数据类型丰富等特点,因此数据的快速获取、清洗、管理也具备较大的难点。
当前,疫情数据发布平台主要包括两类:第一类数据发布是国家卫健委等官方发布的原始疫情数据,这类数据主要由描述性数据组成,缺乏规范化的数据库格式,不便于后续统计分析。另一类数据发布是第三方数据发布平台,例如丁香网、腾讯疫情大数据平台、百度疫情大数据平台,这类数据发布的特点是在国家卫健委等信息基础上进行了初步加工,生成了具有规范化的数据库格式,可直接获取统计报表,但也存在数据不完备、数据冗余等质量问题,且多数平台对疫情数据的统计都是按地级市为最小统计单元,缺乏区县详细统计数据。
发明内容
本发明的目的就是为了克服上述现有技术存在疫情数据不完备、规范化的缺陷而提供一种面向公共突发事务的疫情大数据清理方法。
本发明的目的可以通过以下技术方案来实现:
一种面向公共突发事务的疫情大数据清理方法,包括以下步骤:
病例位置数据清洗步骤:获取病例位置数据,并采用预先建立的病例位置数据清洗策略,对该病例位置数据进行数据清洗;
区县统计数据清洗步骤:获取区县统计数据,并采用预先建立的区县统计数据清洗策略,对该区县统计数据进行数据清洗;
疫情大数据构建步骤:根据数据清洗后的所述病例位置数据和数据清洗后的所述区县统计数据,获得数据清洗后的疫情大数据;
所述病例位置数据清洗策略包括以下步骤:
S11:获取官方发布的原始疫情数据,从该原始疫情数据中病例的描述性信息中,提取病例的位置信息,对该位置信息进行地理编码,解析出空间位置坐标,构建第一病例位置数据;
S12:从第三方平台中获取病例位置数据,作为第二病例位置数据;
S13:对所述第一病例位置数据和第二病例位置数据进行匹配,如果匹配成功,则获得数据清洗后的病例位置数据,否则,进行数据核对处理。
进一步地,所述步骤S11中,通过关键词查找,从原始疫情数据中病例的描述性信息中,提取病例的位置信息,所述关键词查找采用的关键词包括居住地、常住地、家庭住址。
进一步地,所述步骤S12中,利用爬虫技术从第三方平台中获取病例位置数据。
进一步地,步骤S12中,所述匹配的方法具体为:
S121:采用语义匹配方法,对所述第一病例位置数据和第二病例位置数据进行匹配,若匹配则进行步骤S122,否则匹配不成功;
S122:采用空间匹配方法,对所述第一病例位置数据和第二病例位置数据进行匹配,若匹配则匹配成功,否则匹配不成功。
进一步地,所述空间匹配方法为K近邻匹配。
进一步地,所述K近邻匹配中选择K=2。
进一步地,所述区县统计数据清洗策略包括以下步骤:
S21:获取官方发布的原始疫情数据,从该原始疫情数据中病例的描述性信息中,提取病例的区县统计数据;
S22:获取经济开发区的疫情数据,结合该经济开发区的疫情数据对所述区域位置统计数据进行数据清洗。
进一步地,所述结合该经济开发区的疫情数据对所述区域位置统计数据进行数据清洗的策略包括:
第一策略:按行政管理权限,获取经济开发区对应的区县,将所述经济开发区的疫情数据与对应的区县的区县统计数据关联;
第二策略:获取与该经济开发区相关的所有区县,将所述经济开发区的疫情数据赋值给,相关的所有区县的区县统计数据关联。
进一步地,所述第一策略中,若一区县对应n个经济开发区,则所述将经济开发区的疫情数据与对应的区县的区县统计数据关联的表达式为:
Total_computed=Total_区县+Total_经开区1+…+Total_经开区n
式中,Total_computed为一区县关联后的区县统计数据,Total_区县为该区县原始的区县统计数据,Total_经开区n为第n个经济开发区的疫情数据。
进一步地,所述疫情大数据清理方法还包括病例位置数据和区县统计数据的交叉验证步骤:根据所述病例位置数据进行区县病例统计,并与所述区县统计数据进行对比,进行验证结果的判断。
与现有技术相比,本发明具有以下优点:
(1)本发明将疫情大数据划分为病例位置数据和区县统计数据,分别采用对应的策略进行数据清洗,在病例位置数据清洗策略中,通过分别从官方发布的原始疫情数据和第三方平台中,提取病例位置数据,数据获取全面,并进行数据匹配,确保提取出的病例位置数据的准确性。
(2)数据匹配的方法具体为先采用采用语义匹配方法,再采用空间匹配方法,使得匹配结果更加准确可靠。
(3)区县统计数据清洗策略中考虑了没有行政边界,也没有被分配区县的经济开发区的疫情数据,并对对应的区域位置统计数据进行了修正,考虑全面。
(4)本发明还对获取的病例位置数据和区县统计数据进行交叉验证,排除错误数据,提升了数据准确性。
(5)本发明可以实现疫情数据的快速获取、有效清洗、高效管理,获取详细病例位置和区县级别疫情统计两类疫情大数据,为新型冠状病毒肺炎突发公共卫生事件的防控与解决提供大数据支持。
附图说明
图1为本发明的发明技术流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
本实施例提供一种面向公共突发事务的疫情大数据清理方法,包括以下步骤:
病例位置数据清洗步骤:获取病例位置数据,并采用预先建立的病例位置数据清洗策略,对该病例位置数据进行数据清洗;
区县统计数据清洗步骤:获取区县统计数据,并采用预先建立的区县统计数据清洗策略,对该区县统计数据进行数据清洗;
疫情大数据构建步骤:根据数据清洗后的病例位置数据和数据清洗后的区县统计数据,获得数据清洗后的疫情大数据。
下面对各步骤进行详细描述。
a、病例位置数据清洗策略
病例位置数据清洗策略包括以下步骤:
S11:获取官方发布的原始疫情数据,从该原始疫情数据中病例的描述性信息中,提取病例的位置信息,对该位置信息进行地理编码,解析出空间位置坐标,构建第一病例位置数据;
具体地,通过关键词查找,从原始疫情数据中病例的描述性信息中,提取病例的位置信息,关键词查找采用的关键词包括居住地、常住地、家庭住址。
S12:利用爬虫技术从第三方平台中获取病例位置数据,作为第二病例位置数据;
匹配的方法具体为:
S121:采用语义匹配方法,对第一病例位置数据和第二病例位置数据进行匹配,若匹配则进行步骤S122,否则匹配不成功;
S122:采用空间匹配方法,对第一病例位置数据和第二病例位置数据进行匹配,若匹配则匹配成功,否则匹配不成功。
空间匹配方法为K近邻匹配,并选择K=2。
S13:对第一病例位置数据和第二病例位置数据进行匹配,如果匹配成功,则获得数据清洗后的病例位置数据,否则,进行数据核对处理。
b、区县统计数据清洗策略
区县统计数据清洗策略包括以下步骤:
S21:获取官方发布的原始疫情数据,从该原始疫情数据中病例的描述性信息中,提取病例的区县统计数据;
S22:获取经济开发区的疫情数据,结合该经济开发区的疫情数据对区域位置统计数据进行数据清洗。
结合该经济开发区的疫情数据对区域位置统计数据进行数据清洗的策略包括:
第一策略:按行政管理权限,获取经济开发区对应的区县,将经济开发区的疫情数据与对应的区县的区县统计数据关联;
第二策略:获取与该经济开发区相关的所有区县,将经济开发区的疫情数据赋值给,相关的所有区县的区县统计数据关联。
第一策略中,若一区县对应n个经济开发区,则将经济开发区的疫情数据与对应的区县的区县统计数据关联的表达式为:
Total_computed=Total_区县+Total_经开区1+…+Total_经开区n
式中,Total_computed为一区县关联后的区县统计数据,Total_区县为该区县原始的区县统计数据,Total_经开区n为第n个经济开发区的疫情数据。
c、交叉验证步骤
疫情大数据清理方法还包括病例位置数据和区县统计数据的交叉验证步骤:根据病例位置数据进行区县病例统计,并与区县统计数据进行对比,进行验证结果的判断。
本实施例的具体实施过程的详细描述如下:
世界卫生组织宣布将新型冠状病毒肺炎(COVID-19)疫情列为“国际关注的突发公共卫生事件”,并强调疫情防控的重要性。其中,准确、及时、完备的疫情大数据是疫情防控的重要支撑。但疫情数据具备数据量大且增长快速、发布形式多样、发布渠道广、数据结构复杂、数据类型丰富等特点,因此数据的快速获取、清洗、管理也是难点问题之一。本发明提出一种面向公共突发事务解决的疫情大数据清理方法,具体将疫情数据划分为两类:病例位置数据和区县统计数据。其中,病例位置数据为全国范围内出现肺炎确诊病例的地理位置,包含了省、市、县、详细街道信息,以及该位置出现的确诊病例数量以及时间;区县统计数据为全国范围内全部区县的每日疫情信息,包括区县描述信息以及每天新增确诊病例、累计确诊病例。针对这两类数据,分别采用不同的数据清洗策略:对于病例位置数据,构建针对卫健委官网病例描述性文字中空间位置信息的地理编码方法,构建基于爬虫技术的第三方平台病例位置获取方法,构建异源病例位置数据匹配与融合方法;对于区县统计数据,构建针对卫健委官网病例描述性文字中的空间区域统计数据提取方法,结合经济开发区域数据对提取的区域统计数据进行清洗;最后,结合病例位置数据和区县统计数据进行交叉验证,排除错误数据。本专利可以实现疫情数据的快速获取、有效清洗、高效管理,获取详细病例位置和区县级别疫情统计两类疫情大数据,为新型冠状病毒肺炎突发公共卫生事件的防控与解决提供大数据支持。
具体地,如图1所示,本实施例方法将疫情数据划分为两类:病例位置数据和区县统计数据。其中,病例位置数据为全国范围内出现肺炎确诊病例的地理位置,包含了省、市、县、详细街道信息,以及该位置出现的确诊病例数量以及时间;区县统计数据为全国范围内全部区县的每日疫情信息,包括区县描述信息以及每天新增确诊病例、累计确诊病例。
针对这两类数据,分别采用不同的数据清洗策略。对于病例位置数据,构建针对卫健委官网病例描述性文字中空间位置信息的地理编码方法,构建基于爬虫技术的第三方平台病例位置获取方法,构建异源病例位置数据匹配与融合方法。对于区县统计数据,构建针对卫健委官网病例描述性文字中的空间区域统计数据提取方法,结合经济开发区域数据对提取的区域统计数据进行清洗。最后,结合病例位置数据和区县统计数据进行交叉验证,排除错误数据。
下面对各步骤进行具体介绍。
1、病例位置数据清洗方法
包括以下子步骤:
1.1、基于病例描述性信息的空间位置解析
从卫健委中获取病例的详细描述性信息,按“居住地”、“常住地”、“家庭住址”等关键词查找其常住或活跃出入位置,提取其位置信息;进一步地,通过高德地图 API对该位置信息进行地理编码,将其解析为空间位置坐标。例如,广州卫健委发布一例病例信息:“新增境外输入关联确诊病例:男,64岁,中国广东籍,广州居住地在天河区龙洞街梁婆街,退休人员。……”,即可提取有效位置信息“广州居住地在天河区龙洞街梁婆街”;进一步地,调用API接口“https://restapi.amap.com/v3/geocode/geo?address=广州居住地在天河区龙洞街梁婆街&key={申请的Key}”返回地理编码,记录其“province”(省)、“city”(市)、“district”(区县)以及“location”(经纬度)信息。
1.2、基于爬虫技术获取第三方平台位置数据
利用Python爬虫技术,从丁香园、腾讯、阿里、百度、今日头条等第三方平台获取公开的病例位置数据。以腾讯平台为例,首先按照高德地图中的adcode编码体系构建省、市、区三级行政区划数据,然后利用腾讯API接口“https://ncov.html5.qq.com/api/getCommunityNew?&province={省}&city={市}&dist rict={县}”获取该区县内全部病例位置,解析返回的JSON或XML格式数据,获取其“province”(省)、“city”(市)、“district”(区县)、“详细街道”以及“location” (经纬度)等信息。
1.3、异源病例位置数据匹配与融合
由于发布口径不同、地理参考系不同、地理编码过程存在误差等原因,不同来源病例数据之间存在一定的差异,针对该问题,本发明提出一种异源病例位置数据的清洗方法,基本思想是对不同来源数据进行匹配,对于匹配成功的数据,构建一条病例位置数据;匹配不成功的数据,通过与卫健委发布原始信息的再次核对,如果成功,则构建一条病例位置数据,否则语义清除。
所述的匹配方法如下:首先,采用语义匹配,例如同名方法,即比较“province”(省)、“city”(市)、“district”(区县)、“详细街道”等信息,如果一致,则匹配成功。其次,采用空间匹配方法,例如K近邻匹配,即针对每一个空间位置点,选择K个与其距离最近的点,如果这K个点之间的区别足够大,则选择最相似的那个点作为匹配点,通常选择K=2,也就是最近邻匹配;对每个匹配返回两个最近邻的匹配,如果第一匹配和第二匹配距离比率足够大(向量距离足够远),则认为这是一个成功的匹配,比率的阈值通常在2左右;否则,匹配不成功。
2、区县统计数据清洗方法
包括以下子步骤:
2.1、基于病例描述信息提取区域统计数据
从国家、各省市卫健委发布的疫情描述性文字中提取区域位置统计数据,基于该信息,可以提取各地区的累计确诊病例数据。进一步地,通过与前一日的累计确诊病例比较,计算得出当日新增确诊病例数据。
2.2、结合经济开发区数据的区县统计数据清洗
在一些地市级发布的疫情数据中,存在一些经济开发区,这些开发区在地图上没有行政边界,也没有被分配adcode,因此难以与病例位置数据相关联。对此,本发明采取的策略是:1.按行政管理权限找到经开区所对应的区县,例如江西省九江市西海管委会在行政管辖上对应着永修县和武宁县;2.按照从严原则,将经开区的病例数据赋给全部相关的区县,例如西海管委会的病例数据N=1。则永修和武宁的病例数都加上1;3.病例表中增加一列Total_computed,记录相关区县经过经开区修正的数据,如表1所示。
表1经开区数据记录表结构说明
区县真实数据 | 经“经开区”修正的数据 | |
Total | Total_computed | |
武宁县 | 3 | 3+1 |
永修县 | 5 | 5+1 |
西海管委 | 1 | 1+0 |
需说明的是,对于没有经开区的区县,例如北京西城,Total_computed=Total;对于存在多个经开区管辖的区县,比如江西省南昌市青山湖区(360111)管辖“南昌高新区、南昌经开区”两个经开区,那青山湖区(360111)的修正数据需要加上这两个经开区的数据,即Total_computed=青山湖区的Total+南昌高新区的Total +南昌经开区的Total。新增病例数据处理方式类似。
2.3、病例位置数据与区县统计数据交叉验证
病例位置数据和区县统计数据本质上是相同数据的不同表达方式,因此可以相互交叉验证,提升数据准确性。验证过程分为几种情况:1.在卫健委公布数据中,一个病例给出一个位置的区县。这种情况下,病例位置数据与区县统计结果能保持一致。据统计,这类情况的区县为851个。2.卫健委公布统计数据,但并没有公布位置数据的区县,这种情况下,病例位置数据为零,但卫健委存在数据。据统计,这类情况的区县为636个。3.只有爬虫数据,但没有统计数据的区县。这种情况主要是区县数据统计过程中出现误差引起的。4.有区县统计数据及病例位置数据的,且病例位置数据比区县统计数据少。这种情况主要是位置数据公布不完整,即不是每一个病例都会公布其详细位置信息。5.有区县统计数据及病例位置数据的,且病例位置数据比区县统计数据多。这种情况主要是一个病例记录了多个活动位置。通过这五种情况的统计和比较,最大程度清楚数据采集和整理过程中的不确定性,提升疫情数据质量。
3、方法应用
本实施例所构建的一种面向公共突发事务解决的疫情大数据清理方法,可在高校学生返校风险评估和返校方案制定等疫情防控工作中发挥重要作用,具体表现为:在制定返校方案阶段,利用所构建的区县统计数据可确定不同区县的疫情严重程度,为分批次、分地区的返校方案制定提供重要数据支撑。在学生申请返校阶段,利用所构建的区县统计数据分析该生常住地是否处于疫情重点区域、分析该生返校路线是否途径疫情重点区域,可以利用所构建的病例位置数据分析该生周边一定范围内是否存在确诊病例、分析该生返校路线的一定范围内是否存在确诊病例,可为该生的返校风险评估提供了重要支撑。此外,在学生返校后,利用所构建的病例位置数据反朔分析该生在返校途中是否存在密切接触确诊病例的可能性,可为校园防控提供预警、便于及时采取防控措施。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种面向公共突发事务的疫情大数据清理方法,其特征在于,包括以下步骤:
病例位置数据清洗步骤:获取病例位置数据,并采用预先建立的病例位置数据清洗策略,对该病例位置数据进行数据清洗;
区县统计数据清洗步骤:获取区县统计数据,并采用预先建立的区县统计数据清洗策略,对该区县统计数据进行数据清洗;
疫情大数据构建步骤:根据数据清洗后的所述病例位置数据和数据清洗后的所述区县统计数据,获得数据清洗后的疫情大数据;
所述病例位置数据清洗策略包括以下步骤:
S11:获取官方发布的原始疫情数据,从该原始疫情数据中病例的描述性信息中,提取病例的位置信息,对该位置信息进行地理编码,解析出空间位置坐标,构建第一病例位置数据;
S12:从第三方平台中获取病例位置数据,作为第二病例位置数据;
S13:对所述第一病例位置数据和第二病例位置数据进行匹配,如果匹配成功,则获得数据清洗后的病例位置数据,否则,进行数据核对处理。
2.根据权利要求1所述的一种面向公共突发事务的疫情大数据清理方法,其特征在于,所述步骤S11中,通过关键词查找,从原始疫情数据中病例的描述性信息中,提取病例的位置信息,所述关键词查找采用的关键词包括居住地、常住地、家庭住址。
3.根据权利要求1所述的一种面向公共突发事务的疫情大数据清理方法,其特征在于,所述步骤S12中,利用爬虫技术从第三方平台中获取病例位置数据。
4.根据权利要求1所述的一种面向公共突发事务的疫情大数据清理方法,其特征在于,步骤S12中,所述匹配的方法具体为:
S121:采用语义匹配方法,对所述第一病例位置数据和第二病例位置数据进行匹配,若匹配则进行步骤S122,否则匹配不成功;
S122:采用空间匹配方法,对所述第一病例位置数据和第二病例位置数据进行匹配,若匹配则匹配成功,否则匹配不成功。
5.根据权利要求4所述的一种面向公共突发事务的疫情大数据清理方法,其特征在于,所述空间匹配方法为K近邻匹配。
6.根据权利要求5所述的一种面向公共突发事务的疫情大数据清理方法,其特征在于,所述K近邻匹配中选择K=2。
7.根据权利要求1所述的一种面向公共突发事务的疫情大数据清理方法,其特征在于,所述区县统计数据清洗策略包括以下步骤:
S21:获取官方发布的原始疫情数据,从该原始疫情数据中病例的描述性信息中,提取病例的区县统计数据;
S22:获取经济开发区的疫情数据,结合该经济开发区的疫情数据对区域位置统计数据进行数据清洗。
8.根据权利要求7所述的一种面向公共突发事务的疫情大数据清理方法,其特征在于,所述结合该经济开发区的疫情数据对所述区域位置统计数据进行数据清洗的策略包括:
第一策略:按行政管理权限,获取经济开发区对应的区县,将所述经济开发区的疫情数据与对应的区县的区县统计数据关联;
第二策略:获取与该经济开发区相关的所有区县,将所述经济开发区的疫情数据赋值给,相关的所有区县的区县统计数据关联。
9.根据权利要求8所述的一种面向公共突发事务的疫情大数据清理方法,其特征在于,所述第一策略中,若一区县对应n个经济开发区,则所述将经济开发区的疫情数据与对应的区县的区县统计数据关联的表达式为:
Total_computed=Total_区县+Total_经开区1+…+Total_经开区n
式中,Total_computed为一区县关联后的区县统计数据,Total_区县为该区县原始的区县统计数据,Total_经开区n为第n个经济开发区的疫情数据。
10.根据权利要求1所述的一种面向公共突发事务的疫情大数据清理方法,其特征在于,所述疫情大数据清理方法还包括病例位置数据和区县统计数据的交叉验证步骤:根据所述病例位置数据进行区县病例统计,并与所述区县统计数据进行对比,进行验证结果的判断。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010841018.XA CN112835877B (zh) | 2020-08-20 | 2020-08-20 | 一种面向公共突发事务的疫情大数据清理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010841018.XA CN112835877B (zh) | 2020-08-20 | 2020-08-20 | 一种面向公共突发事务的疫情大数据清理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112835877A CN112835877A (zh) | 2021-05-25 |
CN112835877B true CN112835877B (zh) | 2022-06-14 |
Family
ID=75923820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010841018.XA Active CN112835877B (zh) | 2020-08-20 | 2020-08-20 | 一种面向公共突发事务的疫情大数据清理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112835877B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539512B (zh) * | 2021-07-21 | 2023-06-16 | 医渡云(北京)技术有限公司 | 传染病传播趋势的预测方法及装置、存储介质、电子设备 |
CN113793690B (zh) * | 2021-08-31 | 2024-03-12 | 医渡云(北京)技术有限公司 | 传染病的区域风险评估方法、装置、存储介质及设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130339053A1 (en) * | 2012-04-11 | 2013-12-19 | Children's National Medical Center | Regional analysis of electronic health record data using geographic information systems and statistical data mining |
CN105893765B (zh) * | 2016-04-06 | 2018-09-11 | 成都数联易康科技有限公司 | 一种基于Echarts的分级诊疗分析及数据可视化系统 |
CN108428187A (zh) * | 2017-12-21 | 2018-08-21 | 中国平安人寿保险股份有限公司 | 地址匹配方法、装置及存储介质 |
CN111128398B (zh) * | 2020-03-30 | 2020-08-14 | 广州地理研究所 | 一种基于人口迁徙大数据的流行病感染人数估算方法 |
-
2020
- 2020-08-20 CN CN202010841018.XA patent/CN112835877B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112835877A (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107656913B (zh) | 地图兴趣点地址提取方法、装置、服务器和存储介质 | |
CN103279542B (zh) | 数据导入处理方法及数据处理装置 | |
Loo | Validating crash locations for quantitative spatial analysis: a GIS-based approach | |
CN112835877B (zh) | 一种面向公共突发事务的疫情大数据清理方法 | |
Yang et al. | Improving geocoding practices: evaluation of geocoding tools | |
US9270712B2 (en) | Managing moderation of user-contributed edits | |
CN103514235B (zh) | 一种增量码库的建立方法和装置 | |
Zhang et al. | Quality evaluation of volunteered geographic information: The case of OpenStreetMap | |
CN111159973B (zh) | 一种中文地址的行政区划补齐及标准化方法 | |
CN104537102B (zh) | 一种获取经纬度的正向地理编码服务方法及系统 | |
US8650024B1 (en) | Generating address term synonyms | |
Christen et al. | A probabilistic geocoding system based on a national address file | |
CN107368480B (zh) | 一种兴趣点数据错误类型定位、重复识别方法及装置 | |
Davis Jr et al. | Evaluation of the quality of an online geocoding resource in the context of a large Brazilian city | |
Miler et al. | Extracting accurate location information from a highly inaccurate traffic accident dataset: A methodology based on a string matching technique | |
CN112988715B (zh) | 一种基于开源方式的全球网络地名数据库的构建方法 | |
CN108446283B (zh) | 数据存储方法及装置 | |
CN116414823A (zh) | 一种基于分词模型的地址定位方法和装置 | |
Moradi et al. | Exploring five indicators for the quality of OpenStreetMap road networks: A case study of Québec, Canada | |
CN108345662A (zh) | 一种考虑用户分布区域差异的签到微博数据加权统计方法 | |
CN108021638B (zh) | 一种离线地理编码非结构化地址解析系统 | |
Dong et al. | GSDM-WBT: global station-based daily maximum wet-bulb temperature data for 1981–2020 | |
van Erp et al. | Georeferencing animal specimen datasets | |
CN110569546A (zh) | 交通小区的划分方法及装置 | |
CN106920461B (zh) | 一种生成电子眼分布地图的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |