CN116307829B - 基于信息熵评估传染病对社会承载力的影响方法及装置 - Google Patents
基于信息熵评估传染病对社会承载力的影响方法及装置 Download PDFInfo
- Publication number
- CN116307829B CN116307829B CN202310070861.6A CN202310070861A CN116307829B CN 116307829 B CN116307829 B CN 116307829B CN 202310070861 A CN202310070861 A CN 202310070861A CN 116307829 B CN116307829 B CN 116307829B
- Authority
- CN
- China
- Prior art keywords
- data
- social
- index
- bearing capacity
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 208000035473 Communicable disease Diseases 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000002265 prevention Effects 0.000 claims abstract description 70
- 208000015181 infectious disease Diseases 0.000 claims abstract description 50
- 238000011156 evaluation Methods 0.000 claims abstract description 18
- 238000013499 data model Methods 0.000 claims abstract description 17
- 230000008859 change Effects 0.000 claims description 23
- 238000007637 random forest analysis Methods 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 239000002028 Biomass Substances 0.000 claims description 5
- 238000013500 data storage Methods 0.000 claims description 5
- 238000004519 manufacturing process Methods 0.000 claims description 5
- 208000028399 Critical Illness Diseases 0.000 claims description 2
- 238000007726 management method Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 10
- 238000001514 detection method Methods 0.000 description 8
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 150000007523 nucleic acids Chemical class 0.000 description 5
- 102000039446 nucleic acids Human genes 0.000 description 5
- 108020004707 nucleic acids Proteins 0.000 description 5
- 238000004659 sterilization and disinfection Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 208000024891 symptom Diseases 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 241000700605 Viruses Species 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 2
- 230000036760 body temperature Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 230000001932 seasonal effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000013339 cereals Nutrition 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 235000019198 oils Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 235000002639 sodium chloride Nutrition 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001550 time effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Physics (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Analysis (AREA)
- Marketing (AREA)
- Computational Mathematics (AREA)
- Primary Health Care (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Algebra (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供的基于信息熵评估传染病对社会承载力的影响方法及装置,其方法包括:获取与社会承载力相关的各个社会指标的历史数据,分别评估得到每一个社会指标的数据阈值;获取与防疫策略相关的各个防疫指标的实时传染病数据,输入至已经训练好的评估数据模型中,以得到输出数据,其输出数据包括各个社会指标的预测数据;根据各个社会指标的预测数据和其对应的数据阈值的大小关系得到实时传染病数据对社会承载力的预测影响程度。本发明能评估出实时传染病数据对社会承载力的预测影响程度,该预测影响程度提供给制定防疫政策的相关部门,从而能够制定出更加合理有效的防疫政策,以在控制住疫情的同时显著减少对社会承载力的影响。
Description
技术领域
本发明涉及大数据分析技术领域,特别涉及一种基于信息熵评估传染病对社会承载力的影响方法及装置。
背景技术
防疫工作是为了更好地控制住疫情的发展。
现有对于社会承载力的评估方法存在以下缺点:
缺点1:社会承载力的评估对象一般为生态系统或是社会中的某一领域,比如交通路况、水利等等,缺乏防疫工作对社会承载力的影响评估方法。
缺点2:现有社会承载力的评估方法侧重于模型对于影响参数的处理,比如申请日CN202210267512.9的一种区域生态承载力边界阈值检测方法及装置,其通过构建区域生态承载力安全边界框架,得到各生态承载力边界控制变量的季节时间序列和季节去趋势时间序列,以分别获取各生态承载力边界控制变量在不同季节的单方法阈值,以及获取区域生态承载力边界控制变量在不同季节的多方法集成阈值检测结果。这种基于现有数据的直接使用是无法处理数据量大、数据关系复杂的问题。
因此,为了以更科学、更合理的方式进行防疫,同时对社会承载力的影响最小,有必要探索研究一种新的方法用于评估防疫工作对社会承载力的影响。
发明内容
为了解决现有技术的上述问题,本发明提供一种基于信息熵评估传染病对社会承载力的影响方法及装置,能够准确评估出防疫工作对社会承载力的影响。
为了达到上述目的,本发明采用的技术方案为:
第一方面,本发明提供一种基于信息熵评估传染病对社会承载力的影响方法,包括:
获取与社会承载力相关的各个社会指标的历史数据,分别评估得到每一个社会指标的数据阈值;
获取与防疫策略相关的各个防疫指标的实时传染病数据,将所述实时传染病数据作为输入数据放入到已经训练好的评估数据模型中,以得到所述评估数据模型的输出数据,所述输出数据包括各个社会指标的预测数据;
根据各个社会指标的预测数据和其对应的数据阈值的大小关系得到所述实时传染病数据对所述社会承载力的预测影响程度。
本发明的有益效果在于:基于大数据分析的评估数据模型,能够挖掘出防疫工作和社会承载力之间的数据关系,从而预测出实时传染病数据下,社会承载力的各个社会指标的预测数据,基于预测数据和其对应的数据阈值评估出实时传染病数据对社会承载力的预测影响程度,该预测影响程度提供给制定防疫政策的相关部门,从而能够制定出更加合理有效的防疫政策,以在控制住疫情的同时显著减少对社会承载力的影响。
可选地,所述评估数据模型为包括模型类构造函数和分类器构造函数的随机森林算法模型,所述以得到所述评估数据模型的输出数据包括:
调用训练好的模型类构造函数对所述实时传染病数据进行处理,以得到各个社会指标和各个疫情指标的预测数据;
调用训练好的分类器构造函数获得每一个预测数据和各个输入数据之间的增益信息;
根据所有的预测数据以及每一个预测数据和各个输入数据之间的增益信息来分析得到对所述社会承载力的预测影响程度以及对疫情变化的预测影响程度均为正面的关键传染病数据;
所述根据各个社会指标的预测数据和其对应的数据阈值的大小关系得到所述实时传染病数据对所述社会承载力的预测影响程度之后还包括:
根据各个疫情指标的预测数据和实时数据的大小关系得到所述实时传染病数据对所述疫情变化的预测影响程度;
当所述疫情变化或者所述社会承载力的预测影响程度为负面时,将所述关键传染病数据也一并输出。
根据上述描述可知,通过预测数据得到实时传染病数据对社会承载力、疫情变化的影响是正面的还是负面的,通过增益信息得到实时传染病数据中哪些指标对社会承载力、疫情变化的影响较大,从而结合预测数据和其对应的增益信息来得到对社会承载力、疫情变化程度均为正面的关键传染病数据,以在影响程度为负面时,能够一并输出给制定防疫政策的相关部门,从而在控制住疫情的同时显著减少对社会承载力的影响。
可选地,计算所述预测数据和各个输入数据之间的增益信息包括:
将预测数据作为随机变量Y,将输入数据作为随机变量X,则得到所述预测数据和单个所述输入数据的增益信息H(Y|X),其计算公式如下:
其中,x为随机变量X的取值,R为x的取值范围,p(x)为随机变量X发生的概率,H(Y|X=x)为随机变量X取值x时Y的信息熵,H(X)为信息熵。
根据上述描述可知,通过信息熵可以确定随机变量X取何值时对随机变量Y影响最大,通过增益信息来表示每一个输入特征对于分类系统的信息量,即重要性,从而确定出对疫情变化和社会承载力有重要影响的数据指标。
可选地,所述分别评估得到每一个社会指标的数据阈值包括:
计算每一个社会指标的历史数据的平均数μ和标准差σ,将每一个社会指标的(μ-kσ,μ+kσ)作为数据阈值,其中,k为正整数。
根据上述描述可知,基于概率统计学中sigma原则,将在小概率出现的指标数据认为是异常数据,以准确评估出社会承载力阈值。
可选地,所述随机森林算法模型是基于Spark MLib库中的模型类构造函数和分类器构造函数所训练得到的。
根据上述描述可知,基于大数据系统中自带的随机森林算法模型,减少开发量。
可选地,所述疫情指标包括感染人数以及重症人数,所述社会指标包括医疗资源维度、人口结构维度、民生物质维度、生产学习维度和社会信息维度下的各个指标。
根据上述描述可知,通过选取合适的指标数据能够更好的反映出疫情变化和社会承载力。
可选地,从各个数据源获取各种指标数据的过程包括:
基于Hadoop大数据平台所构建的大数据存储系统,由所述大数据存储系统从各个数据源获取到各种指标数据,对获取到的各种指标数据依次进行存储、质量探测和数据治理,得到并存储治理后的各种指标数据。
根据上述描述可知,通过Hadoop大数据平台来实现大数据的抽取、调度和后续的数据处理,从而得到相对干净的数据进行后续的预测分析。
可选地,还包括步骤:
基于Hadoop大数据平台的Apache Kylin构建多维分析模型,由所述多维分析模型对存储的各种指标数据进行决策回溯分析和多维报表分析。
根据上述描述可知,将每个周期内的各种指标数据存储存放到Hadoop大数据平台的Apache Kylin系统中,用于多维分析能力以支持超大规模数据查询,且能够对执行防疫政策进行历史回溯。
可选地,所述获取与防疫策略相关的各个防疫指标的实时传染病数据包括:
实时获取在单位时间内和设定区域内的防疫策略,根据所述防疫策略拆解出各个防疫指标相关的指标数据作为实时传染病数据。
第二方面,本发明提供基于信息熵评估传染病对社会承载力的影响装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面的基于信息熵评估传染病对社会承载力的影响方法。
其中,第二方面所提供的基于信息熵评估传染病对社会承载力的影响装置所对应的技术效果参照第一方面所提供的基于信息熵评估传染病对社会承载力的影响方法的相关描述。
附图说明
图1为本发明实施例的基于信息熵评估传染病对社会承载力的影响方法的主要流程示意图;
图2为本发明实施例涉及的基于信息熵评估传染病对社会承载力的影响方法的具体流程示意图;
图3为本发明实施例的基于信息熵评估传染病对社会承载力的影响装置的结构示意图。
【附图标记说明】
1:基于信息熵评估传染病对社会承载力的影响装置;
2:处理器;
3:存储器。
具体实施方式
为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更清楚、透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
实施例一
现有技术中缺乏防疫工作对社会承载力的影响评估方法以及无法处理数据量大、数据关系复杂的问题,因此,为了更好的评估防疫工作,同时避免防疫工作对社会承载力造成冲击,有必要探索研究一种新的方法用于评估防疫工作对社会承载力的影响。
其中,关于本实施例涉及到的一些技术特征说明如下:
(1)社会承载力存在且复杂的客观事实
社会作为一个巨型系统是有负载能力的,这种负载能力是有阈值的,一旦超过社会的运转便会出问题。社会承载力受多方面因素影响,各方面因素彼此间又相互的影响,形成复杂的业务场景。为了解决社会承载力问题需要选择合理数据模型与强大的计算系统。
(2)信息熵应用广泛性
现在我们正处于数据爆炸时代,数据经过收集、存储、处理后生成信息。基于信息可以反应事、物的变化,变化的原因受与其相关联事、物决定。通过信息熵可用于评估造成变化的重要事、物。
相关的机器学习算法是基于信息熵作为理论基础,最为常见的就是“决策树”和“随机森林”,由于“决策树”容易忽略数据集中属性的关联性,并且容易出现过拟合问题。“随机森林”由多棵“决策树”构成,但“随机森林”不需要特意的做特征选择且能解决过拟合问题。
(3)大数据技术的成熟
随着大数据技术应用的成熟,过去难以处理大规模、复杂的数据问题现在可处理,使用大数据平台中机器学习算法对数据进行训练、挖掘发现潜在数据关系。从而能解决社会承载力这样的巨型系统的问题。
请参照图1至图2,基于信息熵评估传染病对社会承载力的影响方法,包括步骤:
S0、确定防疫策略和社会承载力的相关指标数据的对象和方法。
在本实施例中,步骤S0包括:
S01、防疫策略依据国家颁布的防疫指导意见制定,是动态变化的。所以有必要依据实际情况收集各省颁布的具体防疫策略、方法、行为;社会承载力是相对宽泛的概念,没有现成具体的指标,但社会运转过程时不同方面的统计数据可以反应出承载力的阈值。
比如,数据对象可以从各政府行政单位相关系统中获取,其中,各政府行政单位如卫健委、市场监督管理局、社保局等;没有现成数据的指标,可基于统计学中的问卷调查方式收集。
S02、确定评估过程中的时间维度和地区维度。
在确定两个静态维度数据时,时间维度最小粒度为“日”,定义一个时间单位为记为T,其初始计算设为7天,可依据实际情况动态变化;地区维度最小粒度为小区,地区维度层级方式体现:省份、城市、区县、街道、社区、小区,定义一个区域单位为记为L,初始计算设为小区,可依据实际情况动态变化。所有指标数据在时间维度T和地区维度L范围内计算,作为最小统计样本。
S03、确定与防疫策略相关的各个防疫指标。
在步骤S01中收集的防疫相关政策、方法、行为一般都是文字描述,无法直接进行数值处理,需要量化为对应的数据指标。
具体而言,防疫策略的所相关的防疫维度包括核酸检测策略、消杀预防策略、体温检测监控、入境管理、风险管控、防疫宣导策略、病毒特性、商业场所管控、重点场所管控、信息监控、防疫信息流管理。各个防疫维度下对应的指标化数据分别为:
核酸检测策略对应的指标化数据包括核酸检测频率、核酸检测数量;消杀预防策略对应的指标化数据包括消杀频率、消杀范围、消杀药品剂量;体温检测监控对应的指标化数据包括出入L区域是否有自动测温仪器、检测的平均温度、高温大于37.3的比例;入境管理对应的指标化数据包括入境平均人数、管理天数;风险管控对应的指标化数据包括风险管控点个数、风险管控天数、风险人员划分数、风险区域数;防疫宣导策略对应的指标化数据包括宣传媒介有几类、防疫信息推送频率;病毒特性对应的指标化数据:R0值、变异频率、复阳率、病程平均时长、重症率;商业场所管控对应的指标化数据包括平均营业时长、接待人数、营业时间区间;重点场所管控对应的指标化数据包括核酸证明时效、接待人数、从业人员数;信息监控对应的指标化数据包括各方面信息比例;防疫信息流管理对应的指标化数据包括信息流渠道数、信息流通时效、信息响应时效。
S04、与社会承载力相关的各个社会指标。
在本实施例中,社会承载力的数据阈值需要通过社会面中的不同的对象、行为、方法的数据指标进行评估,因此,需要选择与防疫相关的社会指标。
在本实施例中,社会承载力的社会指标是指从单位时间T和区域L内合理选择各社会维度中有代表性的数据指标。
具体而言,与社会承载力相关的各个社会维度包括医疗资源维度、人口结构维度、民生物质维度、生产学习维度和社会信息维度。各个社会维度下对应的指标化数据分别为:医疗资源维度包括官方指导药物储备量、病床空余数、可用救护车数量、千人医生比例等;民生物质维度包括物价、粮米油盐等基础民生物质储备量、商店平均营业时间;工作生产维度包括日均工作时长、平均停产时长、工作人员到岗数;教育学习维度包括平均线下学习时长、平均在线学习时长、考试安排数;交通物流维度包括日均配送快递数、公共交通停运比例、公共交通日均客流。
S1、获取与社会承载力相关的各个社会指标的历史数据,分别评估得到每一个社会指标的数据阈值。
在本实施例中,分别评估得到每一个社会指标的数据阈值包括:
计算每一个社会指标的历史数据的平均数μ和标准差σ,将每一个社会指标的(μ-kσ,μ+kσ)作为数据阈值,其中,k为正整数。
其中,平均数μ和标准差σ的计算公式分别如下:
其中,xi表示样本值,n表示样本个数。
在本实施例中,考虑的数据符合正态分布的情况,则基于概率统计学中3sigma原则评估社会承载力阈值,数据在(μ-3σ,μ+3σ)区间之外时概率很小,可认为异常值,作为数据阈值。即本实施例中的k为3,在其他实施例中,k值可按实际情况与数据处理经验增加会不断的调整,所有社会指标的数据阈值构成集合K。
若数据不服从正态分布,则用远离平均值的k倍标准差来描述、评估数据的异常值。
S2、获取与防疫策略相关的各个防疫指标的实时传染病数据,将实时传染病数据作为输入数据放入到已经训练好的评估数据模型中,以得到评估数据模型的输出数据,输出数据包括各个社会指标的预测数据;
在本实施例中,步骤S2具体包括:
S21、获取与防疫策略相关的各个防疫指标的传染病数据。
其中,传染病数据包括实时传染病数据和历史传染病数据,则获取与防疫策略相关的各个防疫指标的实时传染病数据包括:
实时获取在单位时间内和设定区域内的防疫策略,根据防疫策略拆解出各个防疫指标相关的指标数据作为实时传染病数据。
S22、基于Hadoop大数据平台所构建的大数据存储系统,由大数据存储系统从各个数据源获取到各种指标数据,对获取到的各种指标数据依次进行存储、质量探测和数据治理,得到并存储治理后的各种指标数据。
由此,上述步骤中的S01至S04、S1以及步骤S21均为数据准备阶段,此时,考虑到需要从不同的数据源获取各种指标数据,则需要通过Hadoop大数据平台来实现大数据的抽取、调度和后续的数据处理,从而得到相对干净的数据进行后续的预测分析。
关于上述的大数据处理说明如下:
构建数据湖、数据仓库系统;
通过数据湖、数据仓库系统中的调度系统,配置连接各数据源的调度任务与获取数据,存储在HDFS(Hadoop Distributed File System,是一个分布式文件系统)或S3(Simple Storage Service简单存储服务)文件系统;
使用数据湖、数据仓库中的Hadoop大数据体系中的Hive和Spark等组件进行数据质量探测和数据治理,治理得到的数据用于后续步骤计算信息熵H(X)和增益信息H(Y│X)。
其中,探测内容包括数据统计学指标和数据业务规则。数据统计学指标包括平均值、众数、中位数、标准差等,数据业务规则包括判断数据业务主键、代理主键、判断合理的业务边界值、缺失值处理、重复值处理等。
S23、将实时传染病数据作为输入数据放入到已经训练好的评估数据模型中,以得到评估数据模型的输出数据,输出数据包括各个社会指标的预测数据。
其中,“随机森林”调用算法时的参数必须是经过特征处理的,并且要明确算法的输入和输出。因此,将防疫策略的实时传染病数据化转换为特征向量,作为算法输入参数,将感染人数、重症人数和社会承载力数据指标作为算法的输出。
在本实施例中,评估数据模型为包括模型类构造函数和分类器构造函数的随机森林算法模型,而随机森林算法模型是基于Spark MLib库中的模型类构造函数和分类器构造函数所训练得到的。其中,Spark MLib库中的“随机森林”算法相关的类为RandomForestClassifier(分类器构造函数)、RandomForestClassificationModel(模型类构造函数),注意RandomForestClassifier构造函数中的impurity参数值为“entropy”表示以信息增益方式计算特征的重要性,构造函数中的其他参数可以设置决策树个数、树的最大深度、树节点拆分特征数、输入输出字段名等。
由此,步骤S23中以得到评估数据模型的输出数据包括:
S231、调用训练好的模型类构造函数对实时传染病数据进行处理,以得到各个社会指标和各个疫情指标的预测数据。
具体而言,创建RandomForestClassifier对象记为C,调用C.fit方法训练数据得到随机森林模型对象即RandomForestClassificationModel类对象记为M。调用M.transform方法转换数据并返回带预测结果的DataFrame类型数据,记为D,在D数据中有名为prediction的列,是对输出的分类预测,预测结果记为R。
S232、调用训练好的分类器构造函数获得每一个预测数据和各个输入数据之间的增益信息。
具体而言,调用M.featureImportances对象获得特征的增益信息,基于得到的数据选择重要的特征,记为集合A。
其中,计算预测数据和各个输入数据之间的增益信息包括:
将预测数据作为随机变量Y,将输入数据作为随机变量X,则得到预测数据和单个输入数据的增益信息H(Y|X),其计算公式如下:
其中,x为随机变量X的取值,R为x的取值范围,p(x)为随机变量X发生的概率,H(Y|X=x)为随机变量X取值x时Y的信息熵,H(X)为信息熵。
其中,通过信息熵可以确定随机变量X取何值时对随机变量Y影响最大,通过增益信息来表示每一个输入特征对于分类系统的信息量,即重要性,从而确定出对疫情变化和社会承载力有重要影响的数据指标。
在本实施例中,为通过Spark MLib库中的随机森林算法进行计算,在其他实施例中,可通过Hadoop大数据体系支持的Java、Scala、Python等语言基于上述公式定义进行自行编写代码。
对于增益信息的说明如下:信息增益是特征选择的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,说明该特征越重要,相应的信息增益也就越大。即增益信息越大,上游树节点决定下游节点的确定性就越高。
S233、根据所有的预测数据以及每一个预测数据和各个输入数据之间的增益信息来分析得到对社会承载力的预测影响程度以及对疫情变化的预测影响程度均为正面的关键传染病数据。
其中,由于每次防疫指标的具体数值不同,使得每一个防疫指标是否有影响会在每一个时间周期内发生变化,因此,每一个时间周期内都要重新计算关键传染病数据以引导相关部门进行修订。
应当说明的是,上述步骤中提供了较多维度的指标,在实际实施过程中,可以根据政府相关部门的需求以及处理效率等方面的影响来进行指标的对应增加或者舍弃。
S3、根据各个社会指标的预测数据和其对应的数据阈值的大小关系得到实时传染病数据对社会承载力的预测影响程度。
其中,可以使用Python、Excel等工具进行分析,或是自行编写对应的处理对比程序,然后集成到数据湖、数据仓库系统中,由于数据阈值和预测数据都是已经获取得到的,两者进行对比之后得到每一个社会指标的影响程度,再根据各个社会指标的所占权重综合考虑对于社会承载力的预测影响程度,比如预测影响程度为会对社会承载力造成较大冲击。
S4、根据各个疫情指标的预测数据和实时数据的大小关系得到实时传染病数据对疫情变化的预测影响程度;
其中,本实施例中的疫情指标为感染人数、重症人数,则预测出来的感染人数、重症人数和当前实时的感染人数、重症人数进行对比之后得到感染人数、重症人数的变化趋势,即为预测影响程度,比如感染人数上升,重症人数上升。
S5、当疫情变化或者社会承载力的预测影响程度为负面时,将关键传染病数据也一并输出。
由此,当两者中任一的预测影响程度是负面的,即对社会承载力会造成冲击、感染人数上升、重症人数上升即为负面的。在其中,关于感染人数、重症人数的变化趋势,并不仅仅是限定于实时数据,也包括旧防疫政策下的预测数据和新防疫政策下的预测数据来判断变化趋势。
应当说明的是,防疫策略是政府相关部门制定的,本实施例是根据政府相关部门制定的防疫策略进行数据挖掘分析,以判断对于疫情变化和社会承载力是否会影响,并在影响为负面时,能够提供给有效合理的改进方向供政府相关部门参考,从而能够制定出更加合理有效的防疫政策,以在控制住疫情的同时显著减少对社会承载力的影响。
S6、基于Hadoop大数据平台的Apache Kylin构建多维分析模型,由多维分析模型对存储的各种指标数据进行决策回溯分析和多维报表分析。
其中,步骤S1至S5为基于实际情况循环执行,在一个时间周期T计算出来的各种指标数据,而防疫政策是动态变化的,在每个时间周期T中计算、分析的防疫政策及对应的明细数据也是动态变化的。因此,为了能够对执行防疫政策进行历史回溯,及多维分析指标明细数据,本实施例的步骤S6将每个周期内的各种指标数据存储存放到Hadoop大数据平台的Apache Kylin系统中,用于多维分析能力以支持超大规模数据查询,且能够对执行防疫政策进行历史回溯。
实施例二
请参照图3,基于信息熵评估传染病对社会承载力的影响装置1,包括存储器3、处理器2及存储在存储器3上并可在处理器2上运行的计算机程序,所述处理器2执行所述计算机程序时实现上述实施例一或二中的步骤。
由于本发明上述实施例所描述的装置/装置,为实施本发明上述实施例的方法所采用的装置/装置,故而基于本发明上述实施例所描述的方法,本领域所属技术人员能够了解该装置/装置的具体结构及变形,因而在此不再赘述。凡是本发明上述实施例的方法所采用的装置/装置都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。
应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中,这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用,仅是为了表述方便,而不表示任何顺序。可将这些词语理解为部件名称的一部分。
此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。
Claims (8)
1.基于信息熵评估传染病对社会承载力的影响方法,其特征在于,包括:
获取与社会承载力相关的各个社会指标的历史数据,分别评估得到每一个社会指标的数据阈值,所述社会指标包括医疗资源维度、人口结构维度、民生物质维度、生产学习维度和社会信息维度下的各个指标;
获取与防疫策略相关的各个防疫指标的实时传染病数据,将所述实时传染病数据作为输入数据放入到已经训练好的评估数据模型中,以得到所述评估数据模型的输出数据,所述输出数据包括各个社会指标的预测数据;
根据各个社会指标的预测数据和其对应的数据阈值的大小关系得到所述实时传染病数据对所述社会承载力的预测影响程度;
所述评估数据模型为包括模型类构造函数和分类器构造函数的随机森林算法模型,所述以得到所述评估数据模型的输出数据包括:
调用训练好的模型类构造函数对所述实时传染病数据进行处理,以得到各个社会指标和各个疫情指标的预测数据;
调用训练好的分类器构造函数获得每一个预测数据和各个输入数据之间的增益信息;
根据所有的预测数据以及每一个预测数据和各个输入数据之间的增益信息来分析得到对所述社会承载力的预测影响程度以及对疫情变化的预测影响程度均为正面的关键传染病数据;
所述根据各个社会指标的预测数据和其对应的数据阈值的大小关系得到所述实时传染病数据对所述社会承载力的预测影响程度之后还包括:
根据各个疫情指标的预测数据和实时数据的大小关系得到所述实时传染病数据对所述疫情变化的预测影响程度;
当所述疫情变化或者所述社会承载力的预测影响程度为负面时,将所述关键传染病数据也一并输出;
计算所述预测数据和各个输入数据之间的增益信息包括:
将预测数据作为随机变量Y,将输入数据作为随机变量X,则得到所述预测数据和单个所述输入数据的增益信息H(Y|X),其计算公式如下:
其中,x为随机变量X的取值,R为x的取值范围,p(x)为随机变量X发生的概率,H(Y|X=x)为随机变量X取值x时Y的信息熵,H(X)为信息熵。
2.根据权利要求1所述的基于信息熵评估传染病对社会承载力的影响方法,其特征在于,所述分别评估得到每一个社会指标的数据阈值包括:
计算每一个社会指标的历史数据的平均数μ和标准差σ,将每一个社会指标的(μ-kσ,μ+kσ)作为数据阈值,其中,k为正整数。
3.根据权利要求1所述的基于信息熵评估传染病对社会承载力的影响方法,其特征在于,所述随机森林算法模型是基于Spark MLib库中的模型类构造函数和分类器构造函数所训练得到的。
4.根据权利要求1所述的基于信息熵评估传染病对社会承载力的影响方法,其特征在于,所述疫情指标包括感染人数以及重症人数。
5.根据权利要求1至4任一所述的基于信息熵评估传染病对社会承载力的影响方法,其特征在于,从各个数据源获取各种指标数据的过程包括:
基于Hadoop大数据平台所构建的大数据存储系统,由所述大数据存储系统从各个数据源获取到各种指标数据,对获取到的各种指标数据依次进行存储、质量探测和数据治理,得到并存储治理后的各种指标数据。
6.根据权利要求5所述的基于信息熵评估传染病对社会承载力的影响方法,其特征在于,还包括步骤:
基于Hadoop大数据平台的Apache Kylin构建多维分析模型,由所述多维分析模型对存储的各种指标数据进行决策回溯分析和多维报表分析。
7.根据权利要求1至4任一所述的基于信息熵评估传染病对社会承载力的影响方法,其特征在于,所述获取与防疫策略相关的各个防疫指标的实时传染病数据包括:
实时获取在单位时间内和设定区域内的防疫策略,根据所述防疫策略拆解出各个防疫指标相关的指标数据作为实时传染病数据。
8.基于信息熵评估传染病对社会承载力的影响装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一所述的基于信息熵评估传染病对社会承载力的影响方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310070861.6A CN116307829B (zh) | 2023-01-17 | 2023-01-17 | 基于信息熵评估传染病对社会承载力的影响方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310070861.6A CN116307829B (zh) | 2023-01-17 | 2023-01-17 | 基于信息熵评估传染病对社会承载力的影响方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116307829A CN116307829A (zh) | 2023-06-23 |
CN116307829B true CN116307829B (zh) | 2024-03-29 |
Family
ID=86777029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310070861.6A Active CN116307829B (zh) | 2023-01-17 | 2023-01-17 | 基于信息熵评估传染病对社会承载力的影响方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116307829B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111768875A (zh) * | 2020-06-23 | 2020-10-13 | 深圳市城市公共安全技术研究院有限公司 | 传染病疫情预测方法、系统、装置及存储介质 |
CN112667965A (zh) * | 2019-10-15 | 2021-04-16 | 北京航天长峰科技工业集团有限公司 | 基于熵值法的人员流动社会治安评估方法 |
CN112734153A (zh) * | 2020-11-11 | 2021-04-30 | 重庆医科大学附属儿童医院 | 一种突发公共卫生事件中应急资源分配方法、系统及应用 |
CN113642777A (zh) * | 2021-07-21 | 2021-11-12 | 国网山东省电力公司经济技术研究院 | 一种评估特殊事件冲击影响电力需求的模型方法 |
CN114255058A (zh) * | 2020-09-21 | 2022-03-29 | 国网能源研究院有限公司 | 基于新冠疫情影响的电力消费影响获取方法及装置 |
CN114971535A (zh) * | 2022-05-09 | 2022-08-30 | 河海大学 | 基于极差标准化和熵权法预测森林生态系统资源综合承载力的方法 |
CN115115260A (zh) * | 2022-07-19 | 2022-09-27 | 东南大学溧阳研究院 | 基于bp神经网络的突发事件对社会用电影响量化分析方法 |
CN115587309A (zh) * | 2022-10-25 | 2023-01-10 | 云南电网有限责任公司电力科学研究院 | 一种变压器抗短路能力关键特征提取方法、装置及设备 |
KR20230007794A (ko) * | 2021-07-06 | 2023-01-13 | 연세대학교 산학협력단 | 제한된 임상 데이터 및 의료 자원 하에서 감염병 환자를 최적 분류하기 최적의 임계 값을 제공하기 위한 방법 및 장치 |
-
2023
- 2023-01-17 CN CN202310070861.6A patent/CN116307829B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667965A (zh) * | 2019-10-15 | 2021-04-16 | 北京航天长峰科技工业集团有限公司 | 基于熵值法的人员流动社会治安评估方法 |
CN111768875A (zh) * | 2020-06-23 | 2020-10-13 | 深圳市城市公共安全技术研究院有限公司 | 传染病疫情预测方法、系统、装置及存储介质 |
CN114255058A (zh) * | 2020-09-21 | 2022-03-29 | 国网能源研究院有限公司 | 基于新冠疫情影响的电力消费影响获取方法及装置 |
CN112734153A (zh) * | 2020-11-11 | 2021-04-30 | 重庆医科大学附属儿童医院 | 一种突发公共卫生事件中应急资源分配方法、系统及应用 |
KR20230007794A (ko) * | 2021-07-06 | 2023-01-13 | 연세대학교 산학협력단 | 제한된 임상 데이터 및 의료 자원 하에서 감염병 환자를 최적 분류하기 최적의 임계 값을 제공하기 위한 방법 및 장치 |
CN113642777A (zh) * | 2021-07-21 | 2021-11-12 | 国网山东省电力公司经济技术研究院 | 一种评估特殊事件冲击影响电力需求的模型方法 |
CN114971535A (zh) * | 2022-05-09 | 2022-08-30 | 河海大学 | 基于极差标准化和熵权法预测森林生态系统资源综合承载力的方法 |
CN115115260A (zh) * | 2022-07-19 | 2022-09-27 | 东南大学溧阳研究院 | 基于bp神经网络的突发事件对社会用电影响量化分析方法 |
CN115587309A (zh) * | 2022-10-25 | 2023-01-10 | 云南电网有限责任公司电力科学研究院 | 一种变压器抗短路能力关键特征提取方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
旅游环境承载力预警系统研究――以青岛市为例;王乃春;臧一哲;;山东科技大学学报(社会科学版);20151231;17(第06期);第57-64页 * |
朝乐门编.《数据分析原理与实践 基于经典算法及Python编程实现》.机械工业出版社,2022,第155页. * |
Also Published As
Publication number | Publication date |
---|---|
CN116307829A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
El-Zein et al. | Assessment of vulnerability to climate change using a multi-criteria outranking approach with application to heat stress in Sydney | |
CN110610767B (zh) | 发病率监测方法、装置、设备及存储介质 | |
CN111506723A (zh) | 问答响应方法、装置、设备及存储介质 | |
Huamaní et al. | Analysis and prediction of recorded COVID-19 infections in the constitutional departments of Peru using specialized machine learning techniques | |
da Fonseca Silveira et al. | Educational data mining: Analysis of drop out of engineering majors at the UnB-Brazil | |
Ramesh et al. | Exploring big data analytics in health care | |
Fox | City data: Big, open and linked | |
Henckaerts et al. | When stakes are high: Balancing accuracy and transparency with Model-Agnostic Interpretable Data-driven suRRogates | |
CN111178701A (zh) | 一种基于特征衍生技术的风险控制方法方法、装置和电子设备 | |
CN114638498A (zh) | Esg评价方法、系统、电子设备及存储设备 | |
Lokker et al. | Deep learning to refine the identification of high-quality clinical research articles from the biomedical literature: Performance evaluation | |
Levashkin et al. | Adaptive-compartmental model of coronavirus epidemic and its optimization by the methods of artificial intelligence | |
CN116307829B (zh) | 基于信息熵评估传染病对社会承载力的影响方法及装置 | |
Wang | Public health emergency decision-making and management system sound research using rough set attribute reduction and blockchain | |
Kariyapperuma et al. | Classification of Covid19 vaccine-related tweets using deep learning | |
Aragão et al. | COVID-19 patterns in araraquara, brazil: A multimodal analysis | |
Pinckney et al. | When the levee breaks: A forecasting model of violent and nonviolent dissent | |
Anbu et al. | Machine learning approach for predicting womens health risk | |
Gupta et al. | Towards Information Discovery On Large Scale Data: state-of-the-art | |
Li | Python Data Analysis and Attribute Information Extraction Method Based on Intelligent Decision System | |
Gurcan et al. | Big data research landscape: A meta-analysis and literature review from 2009 to 2018 | |
Serrano et al. | Social services diagnosis by deep learning | |
Den Yeoh et al. | Predicting Price Trends Using Sentiment Analysis: A Study of StepN’s SocialFi and GameFi Cryptocurrencies | |
Chen | Employment environment for overseas students based on big data | |
Curry et al. | Aggregative dynamic urban models oriented towards policy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |