CN115098487A - 一种多维的传染病数据分析治理系统 - Google Patents

一种多维的传染病数据分析治理系统 Download PDF

Info

Publication number
CN115098487A
CN115098487A CN202210824110.4A CN202210824110A CN115098487A CN 115098487 A CN115098487 A CN 115098487A CN 202210824110 A CN202210824110 A CN 202210824110A CN 115098487 A CN115098487 A CN 115098487A
Authority
CN
China
Prior art keywords
data
module
chart
infectious disease
relevant information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210824110.4A
Other languages
English (en)
Inventor
陈乃全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Oge Technology Co ltd
Original Assignee
Zhejiang Oge Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Oge Technology Co ltd filed Critical Zhejiang Oge Technology Co ltd
Priority to CN202210824110.4A priority Critical patent/CN115098487A/zh
Publication of CN115098487A publication Critical patent/CN115098487A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种多维的传染病数据分析治理系统,包括:采集与预处理模块,通过爬虫技术从多个维度爬取历史传染病疫区的第一相关信息,以及现存传染病疫区的第二相关信息;对采集到的数据进行预处理并存储入数据库中;Cube模块,将预处理后的数据按字段划分成维度与度量,构建Cube,并利用MOLAP操作对数据进行Cube预计算,将构建的Cube存储在HBase中;可视化模块,依据用户选择的Cube构建数据图表,并通过WebSocket将数据变化信息推送到相应图表中;分析模块,对比第一相关信息和第二相关信息,从而给出对现存疫区的防疫建议。本发明采用上述数据分析治理系统,能够实时对传染病数据进行更新,并从历史数据角度给出防疫建议。

Description

一种多维的传染病数据分析治理系统
技术领域
本发明涉及数据分析技术领域,尤其是涉及一种多维的传染病数据分析治理系统。
背景技术
在所有公共卫生突发事件中,传染病因其具有突发性和重大健康风险,是全球公共卫生重点关注的领域。近年来,随着新发重大传染病疫情的大范围传播,对人类的生命健康造成严重威胁。建立强有力的传染病监测、预警和报告体系,能够提前发现传染病发病苗头和流行趋势,为及时有效地采取防控措施,减少传染病危害提供支撑。
传染病可视化系统,能够综合考虑传染病数据的多维时空特性,有效挖掘传染病传播的时空模式,快速寻找传染病暴发时间节点和空间分布转移事件,从而更好地进行预防、把控和分析。现有的可视化系统,基本上都只停留在对数据统计阶段,并不能直接给出相关建议以及建议凭据。
发明内容
本发明的目的是提供了一种多维的传染病数据分析治理系统,对采集的大规模数据进行可视化统计并结合历史数据对当前数据进行评价,以给出对当前疫情的准确判断及防疫建议。
为实现上述目的,本发明提供了如下技术方案,
一种多维的传染病数据分析治理系统,包括:
采集与预处理模块,通过爬虫技术从多个维度爬取历史传染病疫区的第一相关信息,以及现存传染病疫区的第二相关信息;对采集到的数据进行数据清洗、降维和聚类操作,并将处理后的数据存储入数据库中;
Cube模块,将预处理后的数据按字段划分成维度与度量,构建Cube,并利用MOLAP操作对数据进行Cube预计算,将构建的Cube存储在HBase中;
可视化模块,依据用户选择的Cube构建数据图表,并通过WebSocket将数据变化信息推送到相应图表中,完成数据跟图表的同步更新;
分析模块,对比第一相关信息和第二相关信息,从而给出对现存疫区的防疫政策;防疫政策直接由图表的点击事件触发。
优选的,所述第一相关信息和第二相关信息均至少包括时间、气候特征、区域发展度、感染趋势、医疗资源配置等级、防疫等级六个维度;除时间维度外,每个维度均由专家组针对传染病进行量化评分;在分析模块下,对第一相关信息和第二相关信息的多个维度分别作差,并赋予权值进行加权求和,以判断是否需要调高/调低防疫等级。
优选的,所述可视化模块还用于根据用户的配置操作对图表进行颜色、标签、标题以及坐标轴的修改,且提供对图表进行上卷下钻和切片切块的交互操作,并对图表进行多样化设置。
优选的,所述分析模块还设置有人工干预接口,人工干预接口接入外部专家库,专家库结合第三方数据对第一相关信合和第二相关信息进行分析。
本发明采用上述结构的多维的传染病数据分析治理系统,具备如下优势:
1、利用Kylin架构和MOLAP实现海量数据Cube的预计算,迅速返回查询结果;运用WebSocket实时推送,实现多维数据跟图表的实时更新;
2、参照历史传染病数据,结合加权求和公式,能够快速对疫区当下防疫政策进行判断,提高传染病防控水平。
附图说明
图1为本发明实施例的框架图。
具体实施方式
以下结合附图和实施例对本发明的技术方案作进一步说明。
如图所示的一种多维的传染病数据分析治理系统,包括如下模块:
采集与预处理模块,通过爬虫技术从多个维度爬取历史传染病疫区的第一相关信息,以及现存传染病疫区的第二相关信息;对采集到的数据进行数据清洗、降维和聚类操作,并将处理后的数据存储入数据库中;
Cube模块,通过Kylin将预处理后的数据按字段划分成维度与度量,构建Cube,并利用MOLAP操作对数据进行Cube预计算,将构建的Cube存储在HBase中;Kylin架构和MOLAP共同实现Cube的增量计算和存储,从而增加实时查询多维数据的速度;
可视化模块,依据用户选择的Cube构建数据图表,并通过WebSocket将数据变化信息推送到相应图表中,完成数据跟图表的同步更新。
分析模块,对比第一相关信息和第二相关信息,从而给出对现存疫区的防疫政策;防疫政策直接由图表的点击事件触发。
本实施例中,第一相关信息和第二相关信息均至少包括时间、气候特征、区域发展度(GDP)、感染趋势、医疗物资配置等级、防疫等级六个维度。六个维度中,时间、气候特征、区域发展度、感染趋势均是非人为可控因素,医疗物资配置等级为固定因素,防疫等级为人为可控且决定性因素。除时间维度外,每个维度均可以由专家组针对传染病进行量化评分。在分析模块下,对第一相关信息和第二相关信息的多个维度分别作差,并赋予权值进行加权求和,以判断是否需要调高/调低防疫等级。而且,通过聚类操作与Cube能够很好的对一些地域性传染病进行表征。
通过Kylin将用户处理完成的数据进行Cube立方体的建立,在此过程中,多维数据进行了维度与度量的划分,一个Cube立方体中可以拥有多个维度以及多个事实表,在后续的可视化模块可以拖拽相应的维度与度量形成对应的可视化图表。Kylin创建Cube的主要过程如下:
(1)根据Cube定义的事实表以及维度表,利用Hive创建一张宽表。
(2)抽取事实表上的维度的distinct值,将事实表上的维度以字典树方式压缩编码成目录,将维度表以字典树的方式编码。
(3)利用MapReduce将(1)得到的宽表文件作为输入,创建N-cuboid,然后每次根据前一步的结果串行生成N-1cuboid,N-2cuboid…0-Cuboid。
(4)根据生成的Cuboid数据量计算HTable的Region分割策略,创建HTab le,并导入HFile。
形成Cube立方体之后,由于多维数据规模庞大以及频繁发生变化,所以采用MOLAP对Cube立方体进行预计算,从而优化查询性能。主要是将维度的属性值映射成多维数组的下标或者下标范围,事实以多维数组的值存储在数组单元中。用户还可以通过OLAP工具从多个角度来进行数据的多维分析。
可视化模块还可以根据用户的配置操作对图表进行颜色、标签、标题以及坐标轴的修改,且提供对图表进行上卷下钻和切片切块的交互操作,并对图表进行多样化设置。可视化模块的图表支持折线图、曲线图、柱状体、堆叠图等多种形式,增加了可读性。
分析模块还设置有人工干预接口,人工干预接口接入外部专家库,专家库结合第三方数据对第一相关信合和第二相关信息进行分析。专家库录入有传染病领域专家依据疫区现状给出的建议。引入专家库目的是,在加权计算存在过大误差时,可人为对疫区现状作出判断并给出防疫建议。
以上是本发明的具体实施方式,但本发明的保护范围不应局限于此。任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内,因此本发明的保护范围应以权利要求书所限定的保护范围为准。

Claims (4)

1.一种多维的传染病数据分析治理系统,其特征在于,包括:
采集与预处理模块,通过爬虫技术从多个维度爬取历史传染病疫区的第一相关信息,以及现存传染病疫区的第二相关信息;对采集到的数据进行数据清洗、降维和聚类操作,并将处理后的数据存储入数据库中;
Cube模块,将预处理后的数据按字段划分成维度与度量,构建Cube,并利用MOLAP操作对数据进行Cube预计算,将构建的Cube存储在HBase中;
可视化模块,依据用户选择的Cube构建数据图表,并通过WebSocket将数据变化信息推送到相应图表中,完成数据跟图表的同步更新;
分析模块,对比第一相关信息和第二相关信息,从而给出对现存疫区的防疫建议;防疫建议直接由图表的点击事件触发。
2.根据权利要求1所述的数据分析治理系统,其特征在于,所述第一相关信息和第二相关信息均至少包括时间、气候特征、区域发展度、感染趋势、医疗资源配置等级、防疫等级六个维度;除时间维度外,每个维度均由专家组针对传染病进行量化评分;在分析模块下,对第一相关信息和第二相关信息的多个维度分别作差,并赋予权值进行加权求和,以判断是否需要调高/调低防疫等级。
3.根据权利要求1所述的数据分析治理系统,其特征在于,所述可视化模块还用于根据用户的配置操作对图表进行颜色、标签、标题以及坐标轴的修改,且提供对图表进行上卷下钻和切片切块的交互操作,并对图表进行多样化设置。
4.根据权利要求1所述的数据分析治理系统,其特征在于,所述分析模块还设置有人工干预接口,人工干预接口接入外部专家库,专家库结合第三方数据对第一相关信合和第二相关信息进行分析。
CN202210824110.4A 2022-07-13 2022-07-13 一种多维的传染病数据分析治理系统 Pending CN115098487A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210824110.4A CN115098487A (zh) 2022-07-13 2022-07-13 一种多维的传染病数据分析治理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210824110.4A CN115098487A (zh) 2022-07-13 2022-07-13 一种多维的传染病数据分析治理系统

Publications (1)

Publication Number Publication Date
CN115098487A true CN115098487A (zh) 2022-09-23

Family

ID=83295937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210824110.4A Pending CN115098487A (zh) 2022-07-13 2022-07-13 一种多维的传染病数据分析治理系统

Country Status (1)

Country Link
CN (1) CN115098487A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116705342A (zh) * 2023-06-12 2023-09-05 广东工业大学 一种呼吸道传染病风险控制决策方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372114A (zh) * 2016-08-23 2017-02-01 电子科技大学 一种基于大数据的联机分析处理系统和方法
CN110084730A (zh) * 2019-04-28 2019-08-02 中国疾病预防控制中心 一种突发公共卫生事件处理及展示的方法和系统
CN110111904A (zh) * 2019-04-28 2019-08-09 中国疾病预防控制中心 一种应急作业评估数据的处理方法及装置
CN110457331A (zh) * 2019-07-19 2019-11-15 北京邮电大学 通用的实时更新多维数据可视化系统及方法
CN112365997A (zh) * 2020-11-10 2021-02-12 陈昱帆 用于流行病预警和防控的新策略
CN113360472A (zh) * 2021-06-11 2021-09-07 杭州东方通信软件技术有限公司 基于Kylin OLAP的多维数据分析方法及系统
CN113537709A (zh) * 2021-06-10 2021-10-22 济南市疾病预防控制中心 一种基于健康医疗大数据的疫情防控系统
CN114611860A (zh) * 2020-12-09 2022-06-10 华为技术有限公司 一种疫情防控方法、电子设备、应用服务器和系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372114A (zh) * 2016-08-23 2017-02-01 电子科技大学 一种基于大数据的联机分析处理系统和方法
CN110084730A (zh) * 2019-04-28 2019-08-02 中国疾病预防控制中心 一种突发公共卫生事件处理及展示的方法和系统
CN110111904A (zh) * 2019-04-28 2019-08-09 中国疾病预防控制中心 一种应急作业评估数据的处理方法及装置
CN110457331A (zh) * 2019-07-19 2019-11-15 北京邮电大学 通用的实时更新多维数据可视化系统及方法
CN112365997A (zh) * 2020-11-10 2021-02-12 陈昱帆 用于流行病预警和防控的新策略
CN114611860A (zh) * 2020-12-09 2022-06-10 华为技术有限公司 一种疫情防控方法、电子设备、应用服务器和系统
CN113537709A (zh) * 2021-06-10 2021-10-22 济南市疾病预防控制中心 一种基于健康医疗大数据的疫情防控系统
CN113360472A (zh) * 2021-06-11 2021-09-07 杭州东方通信软件技术有限公司 基于Kylin OLAP的多维数据分析方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116705342A (zh) * 2023-06-12 2023-09-05 广东工业大学 一种呼吸道传染病风险控制决策方法及系统
CN116705342B (zh) * 2023-06-12 2024-02-02 广东工业大学 一种呼吸道传染病风险控制决策方法及系统

Similar Documents

Publication Publication Date Title
CN108172301B (zh) 一种基于梯度提升树的蚊媒传染病疫情预测方法及系统
Traina et al. Fast indexing and visualization of metric data sets using slim-trees
CN105808712A (zh) 将文本类医疗报告转换为结构化数据的智能系统及方法
US20130006976A1 (en) Search tool that utilizes scientific metadata matched against user-entered parameters
CN109947791B (zh) 一种数据库语句优化方法、装置、设备及存储介质
CN111639243B (zh) 时空数据渐进式多维模式提取与异常检测可视分析方法
CN112055079B (zh) 一种基于云计算平台的病虫害监测预警系统
CN115098487A (zh) 一种多维的传染病数据分析治理系统
CN109753526A (zh) 一种基于时序相似度对告警信息分析查询的装置及方法
CN108595627A (zh) 一种自助式数据分析建模平台
CN109359126B (zh) 基于业务用户习惯的智能学习查询模型的构建方法及系统
CN106294815A (zh) 一种url的聚类方法及装置
CN101984415A (zh) 一种设定监控指标阈值的方法和装置
CN107784393A (zh) 一种输电线路的缺陷预测方法及装置
EP4272087A1 (en) Automated linear clustering recommendation for database zone maps
CN117391625B (zh) 一种基于数字孪生的智能制造管理系统及方法
CN107357840A (zh) 一种渔业大数据检测分析方法及系统
Matis et al. An application of the Markov chain approach to forecasting cotton yields from surveys
CN111949658A (zh) 一种面向数据立方体的可操作图形透视表构建方法
CN103927392B (zh) 一种深层网络数据源异常点的检测方法及系统
CN110428159A (zh) 一种输变电工程质量管理大数据统计分析系统及方法
Lee et al. Design and implementation of a system for environmental monitoring sensor network
CN110222022B (zh) 智能算法优化的数据图书馆建设方法
Kabir et al. Association rule mining for both frequent and infrequent items using particle swarm optimization algorithm
Bae et al. IRSJ: Incremental refining spatial joins for interactive queries in GIS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination