CN112835877B

CN112835877B - 一种面向公共突发事务的疫情大数据清理方法

Info

Publication number: CN112835877B
Application number: CN202010841018.XA
Authority: CN
Inventors: 谢欢; 晏雄锋; 童小华; 冯永玖; 陈鹏; 魏超; 刘世杰; 金雁敏; 许雄; 柳思聪; 王超; 肖长江; 郭艺友
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2022-06-14
Anticipated expiration: 2040-08-20
Also published as: CN112835877A

Abstract

本发明涉及一种面向公共突发事务的疫情大数据清理方法，包括以下步骤：1)获取病例位置数据，并采用病例位置数据清洗策略，对该病例位置数据进行数据清洗；2)获取区县统计数据，并采用区县统计数据清洗策略，对该区县统计数据进行数据清洗；3)根据数据清洗后的病例位置数据和区县统计数据，获得疫情大数据；病例位置数据清洗策略包括：S11：获取官方发布的原始疫情数据，构建第一病例位置数据；S12：从第三方平台中获取病例位置数据，作为第二病例位置数据；S13：进行数据匹配，如果匹配成功，则获得数据清洗后的病例位置数据，否则，进行数据核对处理。与现有技术相比，本发明可以实现疫情数据的快速获取、有效清洗和高效管理。

Description

一种面向公共突发事务的疫情大数据清理方法

技术领域

本发明涉及数据清理方法领域，尤其是涉及一种面向公共突发事务的疫情大数据清理方法。

背景技术

准确、及时、完备的疫情大数据是疫情防控的重要支撑。但疫情数据具备数据量大且增长快速、发布形式多样、发布渠道广、数据结构复杂、数据类型丰富等特点，因此数据的快速获取、清洗、管理也具备较大的难点。

当前，疫情数据发布平台主要包括两类：第一类数据发布是国家卫健委等官方发布的原始疫情数据，这类数据主要由描述性数据组成，缺乏规范化的数据库格式，不便于后续统计分析。另一类数据发布是第三方数据发布平台，例如丁香网、腾讯疫情大数据平台、百度疫情大数据平台，这类数据发布的特点是在国家卫健委等信息基础上进行了初步加工，生成了具有规范化的数据库格式，可直接获取统计报表，但也存在数据不完备、数据冗余等质量问题，且多数平台对疫情数据的统计都是按地级市为最小统计单元，缺乏区县详细统计数据。

发明内容

本发明的目的就是为了克服上述现有技术存在疫情数据不完备、规范化的缺陷而提供一种面向公共突发事务的疫情大数据清理方法。

本发明的目的可以通过以下技术方案来实现：

一种面向公共突发事务的疫情大数据清理方法，包括以下步骤：

病例位置数据清洗步骤：获取病例位置数据，并采用预先建立的病例位置数据清洗策略，对该病例位置数据进行数据清洗；

区县统计数据清洗步骤：获取区县统计数据，并采用预先建立的区县统计数据清洗策略，对该区县统计数据进行数据清洗；

疫情大数据构建步骤：根据数据清洗后的所述病例位置数据和数据清洗后的所述区县统计数据，获得数据清洗后的疫情大数据；

所述病例位置数据清洗策略包括以下步骤：

S11：获取官方发布的原始疫情数据，从该原始疫情数据中病例的描述性信息中，提取病例的位置信息，对该位置信息进行地理编码，解析出空间位置坐标，构建第一病例位置数据；

S12：从第三方平台中获取病例位置数据，作为第二病例位置数据；

S13：对所述第一病例位置数据和第二病例位置数据进行匹配，如果匹配成功，则获得数据清洗后的病例位置数据，否则，进行数据核对处理。

进一步地，所述步骤S11中，通过关键词查找，从原始疫情数据中病例的描述性信息中，提取病例的位置信息，所述关键词查找采用的关键词包括居住地、常住地、家庭住址。

进一步地，所述步骤S12中，利用爬虫技术从第三方平台中获取病例位置数据。

进一步地，步骤S12中，所述匹配的方法具体为：

S121：采用语义匹配方法，对所述第一病例位置数据和第二病例位置数据进行匹配，若匹配则进行步骤S122，否则匹配不成功；

S122：采用空间匹配方法，对所述第一病例位置数据和第二病例位置数据进行匹配，若匹配则匹配成功，否则匹配不成功。

进一步地，所述空间匹配方法为K近邻匹配。

进一步地，所述K近邻匹配中选择K＝2。

进一步地，所述区县统计数据清洗策略包括以下步骤：

S21：获取官方发布的原始疫情数据，从该原始疫情数据中病例的描述性信息中，提取病例的区县统计数据；

S22：获取经济开发区的疫情数据，结合该经济开发区的疫情数据对所述区域位置统计数据进行数据清洗。

进一步地，所述结合该经济开发区的疫情数据对所述区域位置统计数据进行数据清洗的策略包括：

第一策略：按行政管理权限，获取经济开发区对应的区县，将所述经济开发区的疫情数据与对应的区县的区县统计数据关联；

第二策略：获取与该经济开发区相关的所有区县，将所述经济开发区的疫情数据赋值给，相关的所有区县的区县统计数据关联。

进一步地，所述第一策略中，若一区县对应n个经济开发区，则所述将经济开发区的疫情数据与对应的区县的区县统计数据关联的表达式为：

Total_computed＝Total_区县+Total_经开区1+…+Total_经开区n

式中，Total_computed为一区县关联后的区县统计数据，Total_区县为该区县原始的区县统计数据，Total_经开区n为第n个经济开发区的疫情数据。

进一步地，所述疫情大数据清理方法还包括病例位置数据和区县统计数据的交叉验证步骤：根据所述病例位置数据进行区县病例统计，并与所述区县统计数据进行对比，进行验证结果的判断。

与现有技术相比，本发明具有以下优点：

(1)本发明将疫情大数据划分为病例位置数据和区县统计数据，分别采用对应的策略进行数据清洗，在病例位置数据清洗策略中，通过分别从官方发布的原始疫情数据和第三方平台中，提取病例位置数据，数据获取全面，并进行数据匹配，确保提取出的病例位置数据的准确性。

(2)数据匹配的方法具体为先采用采用语义匹配方法，再采用空间匹配方法，使得匹配结果更加准确可靠。

(3)区县统计数据清洗策略中考虑了没有行政边界，也没有被分配区县的经济开发区的疫情数据，并对对应的区域位置统计数据进行了修正，考虑全面。

(4)本发明还对获取的病例位置数据和区县统计数据进行交叉验证，排除错误数据，提升了数据准确性。

(5)本发明可以实现疫情数据的快速获取、有效清洗、高效管理，获取详细病例位置和区县级别疫情统计两类疫情大数据，为新型冠状病毒肺炎突发公共卫生事件的防控与解决提供大数据支持。

附图说明

图1为本发明的发明技术流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

本实施例提供一种面向公共突发事务的疫情大数据清理方法，包括以下步骤：

疫情大数据构建步骤：根据数据清洗后的病例位置数据和数据清洗后的区县统计数据，获得数据清洗后的疫情大数据。

下面对各步骤进行详细描述。

a、病例位置数据清洗策略

病例位置数据清洗策略包括以下步骤：

具体地，通过关键词查找，从原始疫情数据中病例的描述性信息中，提取病例的位置信息，关键词查找采用的关键词包括居住地、常住地、家庭住址。

S12：利用爬虫技术从第三方平台中获取病例位置数据，作为第二病例位置数据；

匹配的方法具体为：

S121：采用语义匹配方法，对第一病例位置数据和第二病例位置数据进行匹配，若匹配则进行步骤S122，否则匹配不成功；

S122：采用空间匹配方法，对第一病例位置数据和第二病例位置数据进行匹配，若匹配则匹配成功，否则匹配不成功。

空间匹配方法为K近邻匹配，并选择K＝2。

S13：对第一病例位置数据和第二病例位置数据进行匹配，如果匹配成功，则获得数据清洗后的病例位置数据，否则，进行数据核对处理。

b、区县统计数据清洗策略

区县统计数据清洗策略包括以下步骤：

S22：获取经济开发区的疫情数据，结合该经济开发区的疫情数据对区域位置统计数据进行数据清洗。

结合该经济开发区的疫情数据对区域位置统计数据进行数据清洗的策略包括：

第一策略：按行政管理权限，获取经济开发区对应的区县，将经济开发区的疫情数据与对应的区县的区县统计数据关联；

第二策略：获取与该经济开发区相关的所有区县，将经济开发区的疫情数据赋值给，相关的所有区县的区县统计数据关联。

第一策略中，若一区县对应n个经济开发区，则将经济开发区的疫情数据与对应的区县的区县统计数据关联的表达式为：

Total_computed＝Total_区县+Total_经开区1+…+Total_经开区n

c、交叉验证步骤

疫情大数据清理方法还包括病例位置数据和区县统计数据的交叉验证步骤：根据病例位置数据进行区县病例统计，并与区县统计数据进行对比，进行验证结果的判断。

本实施例的具体实施过程的详细描述如下：

世界卫生组织宣布将新型冠状病毒肺炎(COVID-19)疫情列为“国际关注的突发公共卫生事件”，并强调疫情防控的重要性。其中，准确、及时、完备的疫情大数据是疫情防控的重要支撑。但疫情数据具备数据量大且增长快速、发布形式多样、发布渠道广、数据结构复杂、数据类型丰富等特点，因此数据的快速获取、清洗、管理也是难点问题之一。本发明提出一种面向公共突发事务解决的疫情大数据清理方法，具体将疫情数据划分为两类：病例位置数据和区县统计数据。其中，病例位置数据为全国范围内出现肺炎确诊病例的地理位置，包含了省、市、县、详细街道信息，以及该位置出现的确诊病例数量以及时间；区县统计数据为全国范围内全部区县的每日疫情信息，包括区县描述信息以及每天新增确诊病例、累计确诊病例。针对这两类数据，分别采用不同的数据清洗策略：对于病例位置数据，构建针对卫健委官网病例描述性文字中空间位置信息的地理编码方法，构建基于爬虫技术的第三方平台病例位置获取方法，构建异源病例位置数据匹配与融合方法；对于区县统计数据，构建针对卫健委官网病例描述性文字中的空间区域统计数据提取方法，结合经济开发区域数据对提取的区域统计数据进行清洗；最后，结合病例位置数据和区县统计数据进行交叉验证，排除错误数据。本专利可以实现疫情数据的快速获取、有效清洗、高效管理，获取详细病例位置和区县级别疫情统计两类疫情大数据，为新型冠状病毒肺炎突发公共卫生事件的防控与解决提供大数据支持。

具体地，如图1所示，本实施例方法将疫情数据划分为两类：病例位置数据和区县统计数据。其中，病例位置数据为全国范围内出现肺炎确诊病例的地理位置，包含了省、市、县、详细街道信息，以及该位置出现的确诊病例数量以及时间；区县统计数据为全国范围内全部区县的每日疫情信息，包括区县描述信息以及每天新增确诊病例、累计确诊病例。

针对这两类数据，分别采用不同的数据清洗策略。对于病例位置数据，构建针对卫健委官网病例描述性文字中空间位置信息的地理编码方法，构建基于爬虫技术的第三方平台病例位置获取方法，构建异源病例位置数据匹配与融合方法。对于区县统计数据，构建针对卫健委官网病例描述性文字中的空间区域统计数据提取方法，结合经济开发区域数据对提取的区域统计数据进行清洗。最后，结合病例位置数据和区县统计数据进行交叉验证，排除错误数据。

下面对各步骤进行具体介绍。

1、病例位置数据清洗方法

包括以下子步骤：

1.1、基于病例描述性信息的空间位置解析

从卫健委中获取病例的详细描述性信息，按“居住地”、“常住地”、“家庭住址”等关键词查找其常住或活跃出入位置，提取其位置信息；进一步地，通过高德地图 API对该位置信息进行地理编码，将其解析为空间位置坐标。例如，广州卫健委发布一例病例信息：“新增境外输入关联确诊病例：男，64岁，中国广东籍，广州居住地在天河区龙洞街梁婆街，退休人员。……”，即可提取有效位置信息“广州居住地在天河区龙洞街梁婆街”；进一步地，调用API接口“https://restapi.amap.com/v3/geocode/geo？address＝广州居住地在天河区龙洞街梁婆街&key＝{申请的Key}”返回地理编码，记录其“province”(省)、“city”(市)、“district”(区县)以及“location”(经纬度)信息。

1.2、基于爬虫技术获取第三方平台位置数据

利用Python爬虫技术，从丁香园、腾讯、阿里、百度、今日头条等第三方平台获取公开的病例位置数据。以腾讯平台为例，首先按照高德地图中的adcode编码体系构建省、市、区三级行政区划数据，然后利用腾讯API接口“https://ncov.html5.qq.com/api/getCommunityNew？&province＝{省}&city＝{市}&dist rict＝{县}”获取该区县内全部病例位置，解析返回的JSON或XML格式数据，获取其“province”(省)、“city”(市)、“district”(区县)、“详细街道”以及“location” (经纬度)等信息。

1.3、异源病例位置数据匹配与融合

由于发布口径不同、地理参考系不同、地理编码过程存在误差等原因，不同来源病例数据之间存在一定的差异，针对该问题，本发明提出一种异源病例位置数据的清洗方法，基本思想是对不同来源数据进行匹配，对于匹配成功的数据，构建一条病例位置数据；匹配不成功的数据，通过与卫健委发布原始信息的再次核对，如果成功，则构建一条病例位置数据，否则语义清除。

所述的匹配方法如下：首先，采用语义匹配，例如同名方法，即比较“province”(省)、“city”(市)、“district”(区县)、“详细街道”等信息，如果一致，则匹配成功。其次，采用空间匹配方法，例如K近邻匹配，即针对每一个空间位置点，选择K个与其距离最近的点，如果这K个点之间的区别足够大，则选择最相似的那个点作为匹配点，通常选择K＝2，也就是最近邻匹配；对每个匹配返回两个最近邻的匹配，如果第一匹配和第二匹配距离比率足够大(向量距离足够远)，则认为这是一个成功的匹配，比率的阈值通常在2左右；否则，匹配不成功。

2、区县统计数据清洗方法

包括以下子步骤：

2.1、基于病例描述信息提取区域统计数据

从国家、各省市卫健委发布的疫情描述性文字中提取区域位置统计数据，基于该信息，可以提取各地区的累计确诊病例数据。进一步地，通过与前一日的累计确诊病例比较，计算得出当日新增确诊病例数据。

2.2、结合经济开发区数据的区县统计数据清洗

在一些地市级发布的疫情数据中，存在一些经济开发区，这些开发区在地图上没有行政边界，也没有被分配adcode，因此难以与病例位置数据相关联。对此，本发明采取的策略是：1.按行政管理权限找到经开区所对应的区县，例如江西省九江市西海管委会在行政管辖上对应着永修县和武宁县；2.按照从严原则，将经开区的病例数据赋给全部相关的区县，例如西海管委会的病例数据N＝1。则永修和武宁的病例数都加上1；3.病例表中增加一列Total_computed，记录相关区县经过经开区修正的数据，如表1所示。

表1经开区数据记录表结构说明

	区县真实数据	经“经开区”修正的数据
				Total	Total_computed
武宁县	3	3+1
			永修县	5	5+1
西海管委	1	1+0

需说明的是，对于没有经开区的区县，例如北京西城，Total_computed＝Total；对于存在多个经开区管辖的区县，比如江西省南昌市青山湖区(360111)管辖“南昌高新区、南昌经开区”两个经开区，那青山湖区(360111)的修正数据需要加上这两个经开区的数据，即Total_computed＝青山湖区的Total+南昌高新区的Total +南昌经开区的Total。新增病例数据处理方式类似。

2.3、病例位置数据与区县统计数据交叉验证

病例位置数据和区县统计数据本质上是相同数据的不同表达方式，因此可以相互交叉验证，提升数据准确性。验证过程分为几种情况：1.在卫健委公布数据中，一个病例给出一个位置的区县。这种情况下，病例位置数据与区县统计结果能保持一致。据统计，这类情况的区县为851个。2.卫健委公布统计数据，但并没有公布位置数据的区县，这种情况下，病例位置数据为零，但卫健委存在数据。据统计，这类情况的区县为636个。3.只有爬虫数据，但没有统计数据的区县。这种情况主要是区县数据统计过程中出现误差引起的。4.有区县统计数据及病例位置数据的，且病例位置数据比区县统计数据少。这种情况主要是位置数据公布不完整，即不是每一个病例都会公布其详细位置信息。5.有区县统计数据及病例位置数据的，且病例位置数据比区县统计数据多。这种情况主要是一个病例记录了多个活动位置。通过这五种情况的统计和比较，最大程度清楚数据采集和整理过程中的不确定性，提升疫情数据质量。

3、方法应用

本实施例所构建的一种面向公共突发事务解决的疫情大数据清理方法，可在高校学生返校风险评估和返校方案制定等疫情防控工作中发挥重要作用，具体表现为：在制定返校方案阶段，利用所构建的区县统计数据可确定不同区县的疫情严重程度，为分批次、分地区的返校方案制定提供重要数据支撑。在学生申请返校阶段，利用所构建的区县统计数据分析该生常住地是否处于疫情重点区域、分析该生返校路线是否途径疫情重点区域，可以利用所构建的病例位置数据分析该生周边一定范围内是否存在确诊病例、分析该生返校路线的一定范围内是否存在确诊病例，可为该生的返校风险评估提供了重要支撑。此外，在学生返校后，利用所构建的病例位置数据反朔分析该生在返校途中是否存在密切接触确诊病例的可能性，可为校园防控提供预警、便于及时采取防控措施。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种面向公共突发事务的疫情大数据清理方法，其特征在于，包括以下步骤：

所述病例位置数据清洗策略包括以下步骤：

2.根据权利要求1所述的一种面向公共突发事务的疫情大数据清理方法，其特征在于，所述步骤S11中，通过关键词查找，从原始疫情数据中病例的描述性信息中，提取病例的位置信息，所述关键词查找采用的关键词包括居住地、常住地、家庭住址。

3.根据权利要求1所述的一种面向公共突发事务的疫情大数据清理方法，其特征在于，所述步骤S12中，利用爬虫技术从第三方平台中获取病例位置数据。

4.根据权利要求1所述的一种面向公共突发事务的疫情大数据清理方法，其特征在于，步骤S12中，所述匹配的方法具体为：

5.根据权利要求4所述的一种面向公共突发事务的疫情大数据清理方法，其特征在于，所述空间匹配方法为K近邻匹配。

6.根据权利要求5所述的一种面向公共突发事务的疫情大数据清理方法，其特征在于，所述K近邻匹配中选择K＝2。

7.根据权利要求1所述的一种面向公共突发事务的疫情大数据清理方法，其特征在于，所述区县统计数据清洗策略包括以下步骤：

8.根据权利要求7所述的一种面向公共突发事务的疫情大数据清理方法，其特征在于，所述结合该经济开发区的疫情数据对所述区域位置统计数据进行数据清洗的策略包括：

9.根据权利要求8所述的一种面向公共突发事务的疫情大数据清理方法，其特征在于，所述第一策略中，若一区县对应n个经济开发区，则所述将经济开发区的疫情数据与对应的区县的区县统计数据关联的表达式为：

Total_computed＝Total_区县+Total_经开区1+…+Total_经开区n

10.根据权利要求1所述的一种面向公共突发事务的疫情大数据清理方法，其特征在于，所述疫情大数据清理方法还包括病例位置数据和区县统计数据的交叉验证步骤：根据所述病例位置数据进行区县病例统计，并与所述区县统计数据进行对比，进行验证结果的判断。