CN112151185A - 一种儿童呼吸疾病与环境数据关联分析方法及系统 - Google Patents
一种儿童呼吸疾病与环境数据关联分析方法及系统 Download PDFInfo
- Publication number
- CN112151185A CN112151185A CN202011038303.4A CN202011038303A CN112151185A CN 112151185 A CN112151185 A CN 112151185A CN 202011038303 A CN202011038303 A CN 202011038303A CN 112151185 A CN112151185 A CN 112151185A
- Authority
- CN
- China
- Prior art keywords
- data
- children
- respiratory disease
- association
- environmental
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000023504 respiratory system disease Diseases 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000010219 correlation analysis Methods 0.000 title claims abstract description 12
- 230000007613 environmental effect Effects 0.000 claims abstract description 43
- 238000005065 mining Methods 0.000 claims abstract description 15
- 230000000875 corresponding effect Effects 0.000 claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 9
- 230000002596 correlated effect Effects 0.000 claims abstract description 3
- 201000010099 disease Diseases 0.000 claims description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000000241 respiratory effect Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 238000003915 air pollution Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 210000002345 respiratory system Anatomy 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000003344 environmental pollutant Substances 0.000 description 2
- 238000003912 environmental pollution Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 231100000719 pollutant Toxicity 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001681 protective effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000012097 association analysis method Methods 0.000 description 1
- 208000006673 asthma Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005713 exacerbation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种儿童呼吸疾病与环境数据关联分析方法及系统,所述方法包括以下步骤:获取儿童呼吸疾病数据和环境数据;根据日期对儿童呼吸疾病数据和环境数据进行关联,其中,建立关联的儿童呼吸疾病数据比相应环境数据滞后一定时间;基于Aprior算法对儿童呼吸疾病数据和环境数据进行关联规则挖掘。本发明能够挖掘出多维度、多层次的儿童呼吸疾病与气象因子、空气质量等环境因子的关联规则,有助于建立有效的儿童呼吸疾病预测模型,以便于及时预防。
Description
技术领域
本发明属于数据挖掘技术领域,尤其涉及一种儿童呼吸疾病与环境数据关联分析方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
随着工业化进程的加快和汽车保有量直线上升,我省大部分地区空气质量下降、雾霾天气频发,与此同时,呼吸系统疾病也伴随着二者频繁发生,在儿童群体中体现的尤为明显。
目前关于呼吸系统疾病的监测和预警等的研究很多,如专利CN201680053359.2提出了一种可穿戴式呼吸疾病监测设备通过呼吸组件用于任何状况的监测和警报系统;Razieh Khamutian等研究了用泊松回归分析的方法分析了伊朗西部克尔曼沙阿哮喘病人的就诊人数与空气污染的关系;Sanja等分析了呼吸系统疾病的发生与恶化与在法律允许范围内的大气污染的相关性研究。但是,这些研究都是采用人为定义的影响因子进行的分析,具有一定的主观性。呼吸系统疾病的影响因素很多,不仅仅包括大气污染,还应包括气象因素,但是,不论是空气质量还是气象因素,都包含多种指标,例如气象因素包含气温、风速等,即空气质量、气象因素等环境因素数据维度高,且数据间存在交叉影响,为影响因子的客观选取造成了困难。
关联规则挖掘因其无需明确因变量和自变量,容易发现研究价值关联关系的优点被广泛应用于电网故障分析、疾病症状分析等商业企业、公共卫生健康等领域。由于环境数据需要采用爬虫技术从气象网获取,且爬取的环境数据为文本数据,涵盖气象数据和空气质量数据,需要进行聚类分析和数据量化。因此,针对评估环境数据对儿童呼吸疾病的影响,即不同环境情况下儿童呼吸疾病发病率的反应关系分析时,存在评估数据获取难、环境数据类型杂、分析步骤繁琐的问题。导致儿童呼吸疾病患病人数、空气质量数据、气象数据三类数据难以关联的问题。
发明内容
为克服上述现有技术的不足,本发明提供了一种儿童呼吸疾病与环境数据关联分析方法及系统,其核心思想是通过将环境数据量化并聚类,通过候选集生成频繁项集,建立关联规则,从而挖掘出满足最小置信度的儿童呼吸疾病与气象因子、空气质量等环境因子的关联规则,有助于建立有效的儿童呼吸疾病预测模型,以便于及时预防。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
一种儿童呼吸疾病与环境数据关联分析方法,包括以下步骤:
获取儿童呼吸疾病数据和环境数据;
根据日期对儿童呼吸疾病数据和环境数据进行关联,其中,建立关联的儿童呼吸疾病数据比相应环境数据滞后一定时间;
基于Aprior算法对儿童呼吸疾病数据和环境数据进行关联规则挖掘。
进一步地,获取儿童呼吸疾病数据和环境数据后,还进行预处理:剔除冗余数据、填充空项数据、数据类型的量化并聚类。
进一步地,获取儿童呼吸疾病数据和环境数据后,还进行数据量化和聚类处理:将儿童呼吸疾病数据和各类环境数据,按照正则匹配规则提取环境数据并分别根据划定的聚类区间进行数据聚类,得到各数据对应的聚类项。
进一步地,根据日期对儿童呼吸疾病数据和环境数据进行关联,得到关联数据库,所述关联数据库中每一条事务包括:一日儿科呼吸疾病挂号数据、环境数据以及相应所属聚类项。
进一步地,进行关联规则挖掘包括:
根据设定的支持度阈值进行频繁项搜索,得到频繁项集;
在频繁项集中找到满足最小置信度的阈值关联规则。
进一步地,所述方法还包括:根据关联规则确定儿童呼吸疾病的影响因素,构建预测模型,用于儿童呼吸疾病预测。
一个或多个实施例提供了一种儿童呼吸疾病与环境数据关联分析系统,包括:
数据获取模块,获取儿童呼吸疾病数据和环境数据;
数据关联模块,根据日期对儿童呼吸疾病数据和环境数据进行关联,其中,建立关联的儿童呼吸疾病数据比相应环境数据滞后一定时间;
关联规则挖掘模块,基于Aprior算法对儿童呼吸疾病数据和环境数据进行关联规则挖掘。
一个或多个实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的方法。
一个或多个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的方法。
一个或多个实施例提供了一种儿童呼吸疾病预测系统,包括:
数据获取模块,获取多个环境数据;
疾病预测模块,根据所述预测模型对儿童呼吸疾病的患病概率进行预测。
以上一个或多个技术方案存在以下有益效果:
提供了一种基于Apriori的应用于儿童呼吸系统和空气质量、气象等环境因素之间关联分析方法,通过采用丰富的儿童呼吸系统疾病数据和多维度环境数据,能够挖掘出多维度、多层次的儿童呼吸疾病与气象因子、空气质量因子的关联规则,有助于准确客观的确定影响儿童呼吸疾病的因子,以便于提高后续针对儿童呼吸系统疾病预测的精度。
提供了基于数据聚类的气象数据、空气质量数据和儿科呼吸疾病挂号数据的结构化方法,降低了数据复杂度,从而在采用Aprior算法挖掘关联规则时,使得相同的数据构成的相同项目之间能够组成Ki-项集(i=1,2,...,n),从而能够更好的挖掘出儿童呼吸疾病发生的气象与空气质量影响因素。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例中儿童呼吸疾病与环境数据关联分析方法流程图。
图2为本发明实施例中基于Apriori的儿童呼吸疾病与环境数据关联规则生成过程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例公开了一种儿童呼吸疾病与环境数据关联分析方法,包括以下步骤:
步骤1:获取儿童呼吸疾病数据和环境数据,并进行预处理;
其中,所述儿童呼吸疾病数据主要包括儿科呼吸疾病挂号数据。环境数据包括气象数据、空气质量等数据。本实施例中,儿童呼吸系统疾病数据选取济南市某几个三级甲等医院2017年-2018年儿科呼吸系统挂号数据共87862例,包括了专家号和普通号的数据,挂号数据包括日期信息和挂号人数;采用爬虫技术爬取济南市同期的常规地面气象观测资料(气象数据来源于天气网),包括最高气温、最低气温、天气、风向、风力等气象数据。爬取济南市同期的空气质量(数据来源于天气后报网),选取济南市同期的逐日AQI检测数据值。
所述预处理包括:剔除冗余数据、填充空项数据、数据类型的统一并完成数据聚类。
所用的空气质量数据中缺失了几个数据项,使用插值法进行填充。填充方法为:k=(nj-ni)/(j-i+1)其中nt(t=1…n),(j-i+1)是缺失的数据的个数,则缺失项的填充值为:nl=ni+k*l。
例如:
表1空气质量原数据
日期 | 质量等级 | AQI指数 | PM2.5 | PM10 |
2018-03-26 | 良 | 99 | 59 | 121 |
2018-03-27 | 良 | 89 | Null | 116 |
2018-03-28 | 轻度污染 | 103 | 66 | 150 |
2018-03-29 | 轻度污染 | 146 | 78 | 222 |
2018-03-30 | 轻度污染 | 118 | 60 | 184 |
2018-03-31 | 良 | 93 | 61 | 128 |
2018-04-01 | 轻度污染 | 119 | 85 | 168 |
2018-04-02 | 轻度污染 | 125 | Null | 188 |
2018-04-03 | 中度污染 | 157 | 48 | 256 |
则填充后的数据为:
表2空气质量处理后的数据
日期 | 质量等级 | AQI指数 | PM2.5 | PM10 |
2018-03-26 | 良 | 99 | 59 | 121 |
2018-03-27 | 良 | 89 | 57 | 116 |
2018-03-28 | 轻度污染 | 103 | 66 | 150 |
2018-03-29 | 轻度污染 | 146 | 78 | 222 |
2018-03-30 | 轻度污染 | 118 | 60 | 184 |
2018-03-31 | 良 | 93 | 61 | 128 |
2018-04-01 | 轻度污染 | 119 | 85 | 168 |
2018-04-02 | 轻度污染 | 125 | 83 | 188 |
2018-04-03 | 中度污染 | 157 | 48 | 256 |
对于环境数据,还需要进行数据格式统一为数值型,并进行聚类处理,详细举例如下:
首先将采用正则表达式的形式提取文本数据中的数据,将文本型数据转换为数值型数据,如气象原数据见表3所示,处理后的数据见表4:
表3气象原数据
表4数据格式化后的气象数据
进行聚类化:分别将每种类型的天气数据的测量范围划分成若干聚类区间;将落入同一聚类区间内的同一类型的历史气象、空气质量数据归为同一聚类项。聚类区间如下表:
表5气象、空气质量数据聚类区间
将每种气象数据的运用等深分组(即每组数的数量相等)方法划分各数据项,将在同一区间内的历史气象数据归为同一类。表中Ti(i=0,1,...,3)表示每天中最高温度与最低温度的温差的聚类,Wi(i=0,1,...,3)表示风力数据的聚类;Hi(i=0,1,...,5)表示平均湿度的聚类;Ai(i=0,1,...,5)表示AQI的聚类。将空气质量数据按照国家《环境空气质量指数(AQI)技术规定(试行)》规定空气污染指数划分为0-50、51-100、101-150、151-200、201-300和大于300六档,对应于空气质量的优、良、轻度污染、中度污染、重度污染和严重污染六个级别;将儿科呼吸疾病挂号数据采用等深分组的方法划分各数据项,具体地,将普通儿科挂号和专家儿科挂号数据合并,按时间根据人数进行分组,每组人数相同,将同一区间内的数据归为同一类。
现举例说明聚类化的过程:设某一条历史气象数据中的“风力”这一天气类型的原始测量数据为2级,另一条历史气象数据中的“风力”这一天气类型的原始测量数据为3.5级,则2级与3.5级都落入了[2,4.5]这一聚类区间内,则风力2级与3.5级为同一聚类项。
对每种类型的气象、空气质量数据进行聚类化,同类型的天气、气象数据在形式上虽然不同,但是本质上是相同的情况,这样更利于Aprior算法挖掘出本质性的关联规则。另外,聚类化后能够将非结构化的文本天气数据转化为结构化的字符数据。
步骤2:根据日期对儿童呼吸疾病数据和环境数据进行关联,得到关联数据库;
将当前日期滞后三天的儿科呼吸疾病挂号数据与当前日期的历史环境数据一一对应起来,从而建立起数据间连接。建立连接后的数据项包括:日期、最高温度、最低温度、风力、湿度、AQI、医院、普通儿科挂号数、专家儿科挂号数。
具体地,首先将气象、空气质量和儿科呼吸疾病挂号数据按时间升序排序,从而使得属于历史气象、空气质量与和儿科呼吸疾病挂号数据具有相同的日期编号;然后按日期升序组织数据,并按当前日期的气象、空气质量和滞后三天儿科呼吸就诊数据的关联数据库,形成三合一的结构化的样本数据库,包括温差、温差聚类、平均风力、风力聚类、湿度、湿度聚类、AQI、AQI聚类、儿科呼吸疾病挂号数等,构成项目集合;如:2016-12-29的气象、空气质量数据和2017-01-01的儿科挂号数据建立关联,便能体现出呼吸疾病滞后性。
将一个儿科呼吸疾病挂号事件和相应环境数据作为一个事务,每个事务中包含一次儿科呼吸疾病挂号数据、对应的历史气象和空气质量数据,以及各数据项所属聚类类别,一个事务的数据组成如表2。
表2一个事务的数据组成结构
步骤3:基于Aprior算法对儿童呼吸疾病数据和环境数据进行关联规则挖掘。
具体地,设定支持度阈值,搜索频繁项,形成频繁项集;设定置信度阈值,产生影响儿科呼吸就诊量的强关联规则。
步骤3.1:首先找出候选的1-项集,表示为P1;
步骤3.2:计算单个项的支持度SP,表示事务集合中包含项集A1与A2的概率,即同时包含A1与A2的事务数占所有事务数的比例,表示该规则在所有事务中的普遍程度,可表示为:
将计算得出的单个项的支持度与最小支持度阈值并进行比较,当不小于最小支持度SPmin时生成1-项集,表示为K1;
步骤3.3:利用K1为种子集,重新扫描数据集并计算支持度并与SPmin比较大小,生成2-项集,表示为K2;重复步骤3.2得到该数据集的所有频繁项集Ki(i=1,2,...,n)。
步骤3.4:计算每个关联规则的置信度CF,表示的是事务集合中包含项集A1与A2的事务数与包含A1的事务数之比,表示出现项集A1的全部事务中出现A2的概率表示为:
在频繁项集中找到满足最小置信度的阈值关联规则。对每个频繁项集Ki(i=1,2,...,n),取其所有的非空子集表示为Kci(i=1,2,...,n),若SP(Ki)/∑SP(Kci)≥CFmin,则存在强关联规则
以如上的样本数据作为输入,通过Aprior方法计算Ki-项集(i=1,2,...,n)的支持度,设定支持度阈值为0.2,搜索频繁项,如表3;
表3频繁项集与支持度计算结果
设置置信度阈值为0.9,计算每个频繁项的置信度,从频繁项集中筛选出符合置信度阈值的频繁项,筛选出满足支持度和置信度阈值的强关联规则,即产生影响儿科呼吸就诊量的强关联规则;
表4影响儿科呼吸就诊量的强关联规则
编号 | 关联规则 | 置信度 |
1 | 空气质量A2=>儿童呼吸疾病 | 0.94 |
2 | 降温T2=>儿童呼吸疾病 | 0.96 |
3 | 风力W1=>儿童呼吸疾病 | 0.91 |
4 | 湿度H3=>儿童呼吸疾病 | 0.96 |
5 | 风力W1,昼夜温差T1=>儿童呼吸疾 | 0.88 |
6 | 病空气质量A1,昼夜温差T1=>儿童呼 | 0.89 |
7 | 吸空疾气质病量A1,风力W1=>儿童呼吸疾 | 0.91 |
将气象及空气质量数据与儿科呼吸疾病就诊人数进行关联分析,由关联规则可以看出:昼夜温差变化较大、大风天气、轻度空气污染等气象条件均会导致儿科呼吸就诊人数增加。空气质量为良时,降温和大风天气存在也会导致就诊人数增加。重度污染情况对儿科呼吸疾病的影响反而不明显,原因是我们在恶劣天气会主动采取防护措施,缩短儿童户外暴露时间。因此,通过儿科呼吸疾病患病人数与环境数据的关联规则发现影响呼吸疾病发病的影响因素,可通过加强儿童防护措施,以及对大气污染物浓度监测及对环境污染控制来降低儿童呼吸系统疾病的就诊率。
步骤5:根据关联规则确定影响因素,据此建立气象、空气质量与儿童呼吸疾病患病的量化关系模型,进行回归分析。
由于气象数据包括了日期、最高温度、最低温度、风力、湿度、AQI等维度,然后挂号数据包括医院、普通儿科挂号数、专家儿科挂号数,挖掘的规则可能是任意维度的,所以使用本方法即可挖掘出潜在的儿童呼吸疾病与气象和空气质量等的强关联规则。
分析气温、湿度、风力等级、空气质量等数据,挖掘气象和空气质量对儿童呼吸系统疾病的影响,定量表达呼吸发病人数与气象因子的关联关系,可以为预测儿科呼吸系统疾病提供依据,并可为医药采购、医生排班及优化医疗资源的配置提供决策依据。
实施例二
本实施例的目的是提供一种儿童呼吸疾病与环境数据关联分析系统,包括:
数据获取模块,获取儿童呼吸疾病数据和环境数据;
数据关联模块,根据日期对儿童呼吸疾病数据和环境数据进行关联,其中,建立关联的儿童呼吸疾病数据比相应环境数据滞后一定时间;
关联规则挖掘模块,基于Aprior算法对儿童呼吸疾病数据和环境数据进行关联规则挖掘。
实施例三
本实施例的目的是提供一种电子设备。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例一中所述的方法。
实施例四
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例一中所述的方法。
实施例五
本实施例的目的是提供一种儿童呼吸疾病预测系统。预先采用实施例一所述的方法构建儿童呼吸疾病预测模型,所述系统包括:
数据获取模块,获取多个环境数据;所述多个环境数据可以根据天气预报获取。
疾病预测模块,根据预测模型对儿童呼吸疾病的患病概率进行预测。
所述系统还可以进一步包括:
可视化模块,将获取的环境数据和预测结果进行可视化。
进一步地,还可为用户提供预防建议,例如建议减少儿童户外暴露时间,加强防护措施,或者向决策部门建议对大气污染物浓度监测及对环境污染控制来降低儿童呼吸系统疾病的就诊率。
以上实施例二至五的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种儿童呼吸疾病与环境数据关联分析方法,其特征在于,包括以下步骤:
获取儿童呼吸疾病数据和环境数据;
根据日期对儿童呼吸疾病数据和环境数据进行关联,其中,建立关联的儿童呼吸疾病数据比相应环境数据滞后一定时间;
基于Aprior算法对儿童呼吸疾病数据和环境数据进行关联规则挖掘。
2.如权利要求1所述的一种儿童呼吸疾病与环境数据关联分析方法,其特征在于,获取儿童呼吸疾病数据和环境数据后,还进行预处理:剔除冗余数据和填充空项数据。
3.如权利要求1所述的一种儿童呼吸疾病与环境数据关联分析方法,其特征在于,获取儿童呼吸疾病数据和环境数据后,还进行数据聚类处理:将儿童呼吸疾病数据和各类环境数据,分别根据划定的聚类区间进行数据聚类,得到各数据对应的聚类项。
4.如权利要求3所述的一种儿童呼吸疾病与环境数据关联分析方法,其特征在于,根据日期对儿童呼吸疾病数据和环境数据进行关联,得到关联数据库,所述关联数据库中每一条事务包括:一次儿科呼吸疾病数据、环境数据以及相应所属聚类项。
5.如权利要求1所述的一种儿童呼吸疾病与环境数据关联分析方法,其特征在于,进行关联规则挖掘包括:
根据设定的支持度阈值进行频繁项搜索,得到频繁项集;
在频繁项集中找到满足最小置信度的阈值关联规则。
6.如权利要求1所述的一种儿童呼吸疾病与环境数据关联分析方法,其特征在于,所述方法还包括:根据关联规则确定儿童呼吸疾病的影响因素,构建预测模型,用于儿童呼吸疾病预测。
7.一种儿童呼吸疾病与环境数据关联分析系统,其特征在于,包括:
数据获取模块,获取儿童呼吸疾病数据和环境数据;
数据关联模块,根据日期对儿童呼吸疾病数据和环境数据进行关联,其中,建立关联的儿童呼吸疾病数据比相应环境数据滞后一定时间;
关联规则挖掘模块,基于Aprior算法对儿童呼吸疾病数据和环境数据进行关联规则挖掘。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-6任一项所述的方法。
10.一种儿童呼吸疾病预测系统,其特征在于,包括:
数据获取模块,获取多个环境数据;
疾病预测模块,根据权利要求6中所述预测模型对儿童呼吸疾病的患病概率进行预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011038303.4A CN112151185A (zh) | 2020-09-28 | 2020-09-28 | 一种儿童呼吸疾病与环境数据关联分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011038303.4A CN112151185A (zh) | 2020-09-28 | 2020-09-28 | 一种儿童呼吸疾病与环境数据关联分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112151185A true CN112151185A (zh) | 2020-12-29 |
Family
ID=73894831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011038303.4A Pending CN112151185A (zh) | 2020-09-28 | 2020-09-28 | 一种儿童呼吸疾病与环境数据关联分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112151185A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112669976A (zh) * | 2021-03-18 | 2021-04-16 | 清华大学 | 基于生态环境变化的人群健康评估方法及系统 |
CN113077896A (zh) * | 2021-04-27 | 2021-07-06 | 郑州大学 | 一种基于gam的心脑血管疾病门诊量评价系统及其使用方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020256A (zh) * | 2012-12-21 | 2013-04-03 | 电子科技大学 | 一种大规模数据的关联规则挖掘方法 |
CN104281617A (zh) * | 2013-07-10 | 2015-01-14 | 广州中国科学院先进技术研究所 | 一种基于领域知识的多层关联规则挖掘方法及系统 |
CN110047594A (zh) * | 2019-05-27 | 2019-07-23 | 北京气象在线科技有限公司 | 基于气象环境监测数据的呼吸系统疾病发病趋势预测方法 |
-
2020
- 2020-09-28 CN CN202011038303.4A patent/CN112151185A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020256A (zh) * | 2012-12-21 | 2013-04-03 | 电子科技大学 | 一种大规模数据的关联规则挖掘方法 |
CN104281617A (zh) * | 2013-07-10 | 2015-01-14 | 广州中国科学院先进技术研究所 | 一种基于领域知识的多层关联规则挖掘方法及系统 |
CN110047594A (zh) * | 2019-05-27 | 2019-07-23 | 北京气象在线科技有限公司 | 基于气象环境监测数据的呼吸系统疾病发病趋势预测方法 |
Non-Patent Citations (3)
Title |
---|
乐满: "气象条件和空气污染对遵义市呼吸和循环系统疾病的影响及预测研究", 《中国硕士学位论文全文数据库(电子期刊)》 * |
翟广宇: "兰州市上呼吸道疾病与气象条件和空气质量的关联规则分析", 《兰州大学学报》 * |
赵笑颜: "气象要素对农村地区呼吸和循环系统疾病影响及干预方案研究与效果评估", 《中国博士学位论文全文数据库(电子期刊)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112669976A (zh) * | 2021-03-18 | 2021-04-16 | 清华大学 | 基于生态环境变化的人群健康评估方法及系统 |
CN113077896A (zh) * | 2021-04-27 | 2021-07-06 | 郑州大学 | 一种基于gam的心脑血管疾病门诊量评价系统及其使用方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110796284B (zh) | 细颗粒物污染等级的预测方法、装置及计算机设备 | |
US20180349384A1 (en) | Differentially private database queries involving rank statistics | |
US11449673B2 (en) | ESG-based company evaluation device and an operation method thereof | |
CN112820415B (zh) | 一种基于gis的慢性病时空演化特征分析及环境健康风险监测系统及方法 | |
CN112151185A (zh) | 一种儿童呼吸疾病与环境数据关联分析方法及系统 | |
Sumathi et al. | Data mining: analysis of student database using classification techniques | |
CN107480441B (zh) | 一种儿童脓毒性休克预后预测的建模方法及系统 | |
CN111126865B (zh) | 一种基于科技大数据的技术成熟度判断方法和系统 | |
CN116034379A (zh) | 使用深度学习和机器学习的活动性水平测量 | |
CN113257425B (zh) | 一种优化LSTM和LightGBM参数的流感预测系统、存储介质和装置 | |
CN115168669A (zh) | 传染病筛查方法、装置、终端设备及介质 | |
CN114764682A (zh) | 一种基于多机器学习算法融合的大米安全风险评估方法 | |
CN116644184B (zh) | 基于数据聚类的人力资源信息管理系统 | |
CN117093890A (zh) | 一种能源资源开发区域生态环境综合评价方法 | |
CN106778252A (zh) | 基于粗糙集理论与waode算法的入侵检测方法 | |
CN116383645A (zh) | 一种基于异常检测的系统健康度智能监测评估方法 | |
CN113642669B (zh) | 基于特征分析的防欺诈检测方法、装置、设备及存储介质 | |
Wheadon | Classification accuracy and consistency under item response theory models using the package classify | |
CN112506930B (zh) | 一种基于机器学习技术的数据洞察系统 | |
CN111965733B (zh) | 一种预报因子与太阳耀斑发生的相关性评估方法 | |
CN113205274A (zh) | 一种施工质量定量化排名方法 | |
Wang et al. | Stacking Based LightGBM-CatBoost-RandomForest Algorithm and Its Application in Big Data Modeling | |
CN113435713A (zh) | 基于gis技术和两模型融合的风险地图编制方法及系统 | |
WO2020045107A1 (ja) | 評価更新装置、方法、及びプログラム | |
Albraikan et al. | Future challenges of particulate matters (PMs) monitoring by computing associations among extracted multimodal features applying Bayesian network approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201229 |