CN114141385A - 一种用于传染病的预警方法、系统和可读存储介质 - Google Patents
一种用于传染病的预警方法、系统和可读存储介质 Download PDFInfo
- Publication number
- CN114141385A CN114141385A CN202111255411.1A CN202111255411A CN114141385A CN 114141385 A CN114141385 A CN 114141385A CN 202111255411 A CN202111255411 A CN 202111255411A CN 114141385 A CN114141385 A CN 114141385A
- Authority
- CN
- China
- Prior art keywords
- early warning
- data
- deep learning
- value
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 208000035473 Communicable disease Diseases 0.000 title claims abstract description 78
- 238000013135 deep learning Methods 0.000 claims abstract description 57
- 230000008859 change Effects 0.000 claims abstract description 30
- 208000015181 infectious disease Diseases 0.000 claims abstract description 28
- 238000012544 monitoring process Methods 0.000 claims abstract description 27
- 208000011580 syndromic disease Diseases 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 230000005856 abnormality Effects 0.000 claims abstract description 11
- 230000004927 fusion Effects 0.000 claims abstract description 8
- 230000002776 aggregation Effects 0.000 claims description 77
- 238000004220 aggregation Methods 0.000 claims description 77
- 230000011218 segmentation Effects 0.000 claims description 45
- 238000013136 deep learning model Methods 0.000 claims description 32
- 238000001514 detection method Methods 0.000 claims description 25
- 238000012937 correction Methods 0.000 claims description 19
- 230000002265 prevention Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000002159 abnormal effect Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims 1
- 201000010099 disease Diseases 0.000 description 13
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 13
- 238000011161 development Methods 0.000 description 8
- 230000018109 developmental process Effects 0.000 description 8
- 239000003814 drug Substances 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000006403 short-term memory Effects 0.000 description 6
- 238000004088 simulation Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 229940079593 drug Drugs 0.000 description 5
- 206010012735 Diarrhoea Diseases 0.000 description 4
- 206010047700 Vomiting Diseases 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000008673 vomiting Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007787 long-term memory Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 208000031662 Noncommunicable disease Diseases 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000007110 pathogen host interaction Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B31/00—Predictive alarm systems characterised by extrapolation or other computation using updated historic data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Pathology (AREA)
- Emergency Management (AREA)
- Business, Economics & Management (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种用于传染病的预警方法、系统和可读存储介质,所述方法包括:构建用于传染病预警的深度学习架构,采集有关传染病和症候群的多源头、多种类原始数据;通过深度学习架构的嵌入层对多源头、多种类原始数据进行预处理,以均衡各个原始数据的维度差异,得到不同的预处理数据;由深度学习架构的融合层将不同的预处理数据拼接成统一的数据矢量;由深度学习架构预测层的预测模型进行时间和空间两个维度的疫情预测,并得到预测发病人数值;根据深度学习架构得到的预测发病人数值,监测在时间和空间上的变化状态,当出现异常时,则发出预警信号。本发明能够实现对传染病和症候群疫情的准确预警,进一步防止疫情的扩散。
Description
技术领域
本发明涉及传染病预测技术领域,尤其涉及一种用于传染病的预警方法、系统和可读存储介质。
背景技术
如何对地区传染病以及症候群危险进行预测及预警,防止疫情进一步蔓延成了这个时代需要解决的问题。防控措施与疫情发展息息相关。利用历史数据模拟针对传染病和症候群实现预判,提升防控能力和水平是本发明所攻克的难关。
原先的流行病和症候群预测大多采取动力学模型的方式,利用微分方程进行模拟预测。这种动力学模型可以通过拟合易感人群、暴露人群、感病人群、传染率、康复率等数据进行传染病和症候群检测。比如说行业内广泛通用的SEIRS模型,对疫情中四个状态之间的人员流动进行建模,即易感性 (S)、暴露性(E)、受感染(I)和抵抗性(R)。通过定量分析和数值模拟,即可分析疾病的发展过程、解释规律、预测变化。动力学模型预测的方式在理论层面绝对有效,但由于传染病在现实中实际情况复杂,而早期模型的参数设置大多缺乏现实根据,因此动力学模型所能考虑到的参数数量有限,无法考虑到诊疗方法变化、病例确诊滞后、病毒变异等现实中可能发生的特殊情况。所以这种模型无法反映数学模型以外的各种因素,较难准确地预测真正的疫情趋势。
发明内容
为了解决上述至少一个技术问题,本发明提出了一种用于传染病的预警方法、系统和可读存储介质,能够准确地预测真正的疫情变化趋势,有利于防疫工作的正常开展,降低了防疫的难度,进一步有效防止疫情的扩散。
本发明第一方面提出了一种用于传染病的预警方法,所述方法包括:
构建用于传染病预警的深度学习架构,采集有关传染病和症候群的多源头、多种类原始数据;
通过所述深度学习架构的嵌入层对多源头、多种类原始数据进行预处理,以均衡各个原始数据的维度差异,得到不同的预处理数据;
由所述深度学习架构的融合层将不同的预处理数据拼接成统一的数据矢量;
基于所述数据矢量,并由所述深度学习架构预测层的预测模型进行时间和空间两个维度的疫情预测,并得到不同时间点、不同区域的预测发病人数值;
根据所述深度学习架构得到的不同时间点、不同区域的预测发病人数值,监测所述预测发病人数值在时间和空间上的变化状态,当出现异常时,则发出预警信号。
本方案中,通过所述深度学习架构的嵌入层对多源头、多种类原始数据进行预处理,以均衡各个原始数据的维度差异,具体包括:
预设原始数据为医疗数据,构建用于医疗数据的分词深度学习模型;
由所述分词深度学习模型的文字嵌入层接收某患者的医疗数据,完成对医疗数据的基本意义和医学知识的理解,生成一个完整的标准化医疗语句;
将所述标准化医疗语句输入至所述分词深度学习模型的双向LSTM层,并将所述标准化医疗语句中的每个字对应的LSTM输出结果映射到所述分词深度学习模型的CRF层,得到所有的分词序列;
计算所有的分词序列的概率,并将概率最大的分词序列作为所述分词深度学习模型的分词输出结果;
对所述分词输出结果基于医疗数据特性进行增维或降维处理,得到所述医疗数据对应的预处理数据。
本方案中,根据所述深度学习架构得到的不同时间点、不同区域的预测发病人数值,监测所述预测发病人数值在时间和空间上的变化状态,当出现异常时,则发出预警信号,具体包括:
组建自动触发的预警层,并将移动百分位数法与空间探测方法组合形成预警模型,将所述预警模型置入所述预警层;
通过预警层的预警模型实时监测指定区域的预测发病人数值在时间维度上的变动特征;
采用移动百分位数法探测所述指定区域当前预测发病人数值在时间维度上是否存在异常变化;
如果存在,获取当前预测发病人数值中各个病例的坐标位置,利用空间探测方法轮询所述指定区域,并筛选出病例聚集区域,基于筛选出的病例聚集区域向所述指定区域的疫情防控中心发出预警信号,其中所述预警信号至少包括病例聚集区域的边界范围。
本方案中,在通过预警层的预警模型实时监测指定区域的预测发病人数值在时间维度上的变动特征之后,所述方法还包括:
获取所述指定区域当前时间的天气数据,并从中提取当前时间的天气特征;
基于当前时间的天气特征遍历所述指定区域的历史数据库,所述历史数据库记录所述指定区域的所有历史数据,每一条历史数据至少记录对应历史时间的天气特征和发病人数值;
分别计算当前时间的天气特征与所述历史数据库中所有历史时间的天气特征之间的匹配度;
并根据所述匹配度对所述历史数据库中的历史数据进行排序,选取匹配度最高的历史数据,并将匹配度最高的历史数据中的发病人数值作为预警参考阈值;
判断所述指定区域当前时间的预测发病人数值是否超过K倍的预警参考阈值,如果是,则直接获取当前预测发病人数值中各个病例的坐标位置,利用空间探测方法轮询所述指定区域,并筛选出病例聚集区域,基于筛选出的病例聚集区域向所述指定区域的疫情防控中心发出预警信号;如果否,则进一步采用移动百分位数法探测所述指定区域当前预测发病人数值在时间维度上是否存在异常变化。
本方案中,在利用空间探测方法轮询所述指定区域,并筛选出病例聚集区域之后,所述方法还包括:
在指定区域对应的电子地图上标记出各个病例聚集区域,并确定出各个病例聚集区域的中心点;
将相邻接的病例聚集区域认定为同一组领域病例聚集区域,将同一组领域病例聚集区域中的各个病例聚集区域中心点进行聚类计算分析,得到聚类中心;
将所述聚类中心为圆心,分别计算所述圆心与同一组领域病例聚集区域中所有覆盖点之间的直线距离,并选取最大的直线距离作为半径;
分别以所述圆心和所述半径在电子地图上作出圆形区域,并将所述圆形区域作为同一组领域病例聚集区域的整合病例聚集区域。
本方案中,在通过预警层的预警模型实时监测指定区域的预测发病人数值在时间维度上的变动特征之后,所述方法还包括:
获取所述指定区域当前时间的预测发病人数值,并判断当前时间的预测发病人数值在时间维度上是否突增状态;
如果是,则在预设地域范围内找出所有发生过传染病疫情的历史疫情区域,并获取所有历史疫情区域的历史疫情数据,所述历史疫情数据至少包括发生疫情的历史时间以及处于历史时间的多源头、多种类原始数据;
针对所有历史疫情区域的历史疫情数据进行特征计算,分别得到各自的第一特征值;
针对所述指定区域当前时间的多源头、多种类原始数据进行特征计算,得到第二特征值;
对比每个历史疫情区域对应的第一特征值与所述指定区域的第二特征值之间的差别率;
将差别率小于预设阈值的历史疫情区域对应历史时间的原始数据以及真实发病人数值加入修正队列中;
采用所述深度学习架构分别对所述修正队列中每个历史疫情区域对应的原始数据进行深度学习,并由预测模型预测出每个历史疫情区域对应的预测发病人数值;
针对每个历史疫情区域,分别将对应的预测发病人数值与对应的真实发病人数值进行作差,得到对应的差值;
对所有历史疫情区域的差值进行均值化处理,得到修正值;
将所述指定区域当前时间的预测发病人数值与所述修正值进行相加,得到修正后的预测发病人数值。
本发明第二方面还提出一种用于传染病的预警系统,包括存储器和处理器,所述存储器中包括一种用于传染病的预警方法程序,所述用于传染病的预警方法程序被所述处理器执行时实现如下步骤:
构建用于传染病预警的深度学习架构,采集有关传染病和症候群的多源头、多种类原始数据;
通过所述深度学习架构的嵌入层对多源头、多种类原始数据进行预处理,以均衡各个原始数据的维度差异,得到不同的预处理数据;
由所述深度学习架构的融合层将不同的预处理数据拼接成统一的数据矢量;
基于所述数据矢量,并由所述深度学习架构预测层的预测模型进行时间和空间两个维度的疫情预测,并得到不同时间点、不同区域的预测发病人数值;
根据所述深度学习架构得到的不同时间点、不同区域的预测发病人数值,监测所述预测发病人数值在时间和空间上的变化状态,当出现异常时,则发出预警信号。
本方案中,通过所述深度学习架构的嵌入层对多源头、多种类原始数据进行预处理,以均衡各个原始数据的维度差异,具体包括:
预设原始数据为医疗数据,构建用于医疗数据的分词深度学习模型;
由所述分词深度学习模型的文字嵌入层接收某患者的医疗数据,完成对医疗数据的基本意义和医学知识的理解,生成一个完整的标准化医疗语句;
将所述标准化医疗语句输入至所述分词深度学习模型的双向LSTM层,并将所述标准化医疗语句中的每个字对应的LSTM输出结果映射到所述分词深度学习模型的CRF层,得到所有的分词序列;
计算所有的分词序列的概率,并将概率最大的分词序列作为所述分词深度学习模型的分词输出结果;
对所述分词输出结果基于医疗数据特性进行增维或降维处理,得到所述医疗数据对应的预处理数据。
本方案中,根据所述深度学习架构得到的不同时间点、不同区域的预测发病人数值,监测所述预测发病人数值在时间和空间上的变化状态,当出现异常时,则发出预警信号,具体包括:
组建自动触发的预警层,并将移动百分位数法与空间探测方法组合形成预警模型,将所述预警模型置入所述预警层;
通过预警层的预警模型实时监测指定区域的预测发病人数值在时间维度上的变动特征;
采用移动百分位数法探测所述指定区域当前预测发病人数值在时间维度上是否存在异常变化;
如果存在,获取当前预测发病人数值中各个病例的坐标位置,利用空间探测方法轮询所述指定区域,并筛选出病例聚集区域,基于筛选出的病例聚集区域向所述指定区域的疫情防控中心发出预警信号,其中所述预警信号至少包括病例聚集区域的边界范围。
本发明第三方面还提出一种计算机可读存储介质,所述计算机可读存储介质中包括一种用于传染病的预警方法程序,所述用于传染病的预警方法程序被处理器执行时,实现如上述的一种用于传染病的预警方法的步骤。
本发明提出的一种用于传染病的预警方法、系统和可读存储介质,可利用信息多,考虑因素周全,可利用多源头,多种类数据进行预测。本发明的方法契合传染病和症候群检测的特性,其发生和潜在发展与各种方面数据挂钩,本发明可以有效利用这些数据。具体的,通过医疗、居民、学籍数据,天气数据,药物销售数据以及百度搜索,再加以利用长短期记忆网络模型和时空图卷积网络模型以及其他模型搭建模型预测层,进行预测。这种方法相比于传统利用动力学模型的预测方法有更强的学习能力,可以反映现实中各种多方面因素。而利用预测值和时空预警模型,同时关注监测预测值在时间和空间两个维度上的变化,使预警的准确性得到进一步改善。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1示出了本发明一种用于传染病的预警方法的流程图;
图2示出了本发明具体实施例的深度学习框架的结构图;
图3示出了本发明具体实施例的BiLSTM+CRF模型结构图;
图4示出了本发明一种用于传染病的预警系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种用于传染病的预警方法的流程图。
如图1所示,本发明第一方面提出一种用于传染病的预警方法,所述方法包括:
S102,构建用于传染病预警的深度学习架构,采集有关传染病和症候群的多源头、多种类原始数据;
S104,通过所述深度学习架构的嵌入层对多源头、多种类原始数据进行预处理,以均衡各个原始数据的维度差异,得到不同的预处理数据;
S106,由所述深度学习架构的融合层将不同的预处理数据拼接成统一的数据矢量;
S108,基于所述数据矢量,并由所述深度学习架构预测层的预测模型进行时间和空间两个维度的疫情预测,并得到不同时间点、不同区域的预测发病人数值;
S110,根据所述深度学习架构得到的不同时间点、不同区域的预测发病人数值,监测所述预测发病人数值在时间和空间上的变化状态,当出现异常时,则发出预警信号。
需要说明的是,利用机器去学习的模型预测往往会有更好的准确度。而给予深度学习的机器学习方法近期被证明有着更强大的学习能力,能善用更多信息考虑各种因素预测发病或传播趋势。因为其学习能力强的特点,深度学习模型相对于利用动力学模型用于预测传染病和症候群时,更加通用。
可以理解,时间和空间是现实世界最基本最重要的属性。具有空间位置的自然环境和社会经济数据在近几年呈现出快速增长态势,多年的积累已形成海量时空数据集和时空大数据。时空大数据就是具有空间位置和时间序列特征的规模巨大到无法透过传统软件工具在合理时间内达到抓取、管理和处理的大型数据集。时空大数据包含空间、时间、专题属性三维信息,具有多源、海量、更新快速的综合特点。而时空大数据技术则是空间信息技术与大数据技术的结合。时间和空间信息对传染病的预测预警具有重要意义,因为传染病的发生、发展、时空分布与地理地貌、生态景观、人文环境有密切关系,自然环境及人类社会活动对传染病病原体-宿主交互作用的影响越来越重要。“3S(RS、GIS、GPS)”技术的发展与应用,成为从时间和空间上跟踪、监测传染病蔓延、传播的重要手段,尤其是涉及大范围、多因素的动态研究,多源、多时相、多尺度的空间数据就更能体现出其独特优势。时空大数据技术的发展,使得传染病预测预警方式由过去的手工、单一、静态、以定性为主的监测分析方法,发展为多时相、多因素、时空结合、定性定量相结合的综合监测分析方式。时空大数据技术的应用能够突破传统预测方法的局限,达到快速、及时、动态预测预警的目的,从而有效提高疫情防控的效率和效果。
图2示出了本发明具体实施例的深度学习框架的结构图。
根据本发明的具体实施例,所述预测层的预测模型包括但不限于:长短期记忆网络(Long Short-term Memory,LSTM)和时空图卷积网络(Spatial- Temporal GraphConvolutional Networks,STGCN)。
长短期记忆网络可以通过门控状态来控制传输状态,对一些信息进行选择性“记忆”与“遗忘”,能够记住长时期内的信息。长短期记忆网络可是一种改进之后的神经网络,利用传染概率、传染系数(率)、潜伏率、退出率等参数调整,通过模拟计算开展时间序列预测分析,预测新增感染数随时间的变化情况。长短期记忆网络的特质契合疾病预测中,环境因素或疾病的潜伏期对发病人数带来一定时段的影响。由于疫情潜伏期时间较长,用于预测的相关信息与需要信息位置之间的距离可能会较大,而长短期记忆模型可以有效解决这一问题。
时空图卷积网络用于针对传染病与症候群在城市区域新增患者人数的预测,其输入为城市间人口流动的情况。而时空卷积网络模型特点在于能够做到以地理位置作为不同的节点,对节点特征进行训练并良好的保留节点的特性。这一特质契合疾病预测中,环境因素或疾病的潜伏期和地理位置传播对发病人数带来的影响。可以考虑到难以预知事件潜在对于传染病和症候群扩散以及治疗的影响。
根据本发明的具体实施例,多源头、多种类原始数据包括但不限于医疗数据、学籍数据、居民数据、天气数据、用药数据、药品销售数据、以及网络资源数据。
本发明的实施例解决的核心问题在于如何统一及利用这些来源于多源头、多领域、多特征的数据,并用于传染病和症候群的预测与预警。深度学习架构通过嵌入层(Embedding)、融合层及预测层,形成全套针对传染病与症候群爆发监测解决方案,并可预测各区域内的发病趋势。
根据本发明的实施例,通过所述深度学习架构的嵌入层对多源头、多种类原始数据进行预处理,以均衡各个原始数据的维度差异,具体包括:
预设原始数据为医疗数据,构建用于医疗数据的分词深度学习模型;
由所述分词深度学习模型的文字嵌入层接收某患者的医疗数据,完成对医疗数据的基本意义和医学知识的理解,生成一个完整的标准化医疗语句;
将所述标准化医疗语句输入至所述分词深度学习模型的双向LSTM层,并将所述标准化医疗语句中的每个字对应的LSTM输出结果映射到所述分词深度学习模型的CRF层,得到所有的分词序列;
计算所有的分词序列的概率,并将概率最大的分词序列作为所述分词深度学习模型的分词输出结果;
对所述分词输出结果基于医疗数据特性进行增维或降维处理,得到所述医疗数据对应的预处理数据。
需要说明的是,本发明的实施例在数据预处理方面,通过基于NLP (NaturalLanguage Processor)的病历结构化任务,把患者的症状进行结构化,利用诊断数据以及症状数据对病例加上传染病或症候群的标签。如图3所示,本实施例利用深度学习模型BiLSTM+CRF的方法,无需建立字典,通过标注后的病历直接学习。首先采用word embedding方法完成对于汉语单字,特别是医疗语言文字的表达,形成对基本意义和医学知识的理解。然后将一个完整的标准化医疗语句的embedding输入到双向LSTM中,将每一个字的对应的LSTM输出结果映射到CRF层,然后计算所有可能的分词序列的概率,找到其中最大概率的序列,作为分词的结果。举例来说,若患者的症状为「腹泻伴呕吐半天」,句子中有用的讯息为「腹泻」,「呕吐」,和「半天」。把「腹泻伴呕吐半天」输入模型便可得出「腹泻」,「呕吐」,和「半天」这三个分词的结果。
其中CRF的全称为Conditional Random Field,即条件随机场,其是一个序列化标注算法(sequence labeling algorithm),用于接收一个输入序列,并且输出目标序列。LSTM的Long Short-term Memory,即长短期记忆网络,其是一种特殊的循环神经网络(Recurrent Neural Network,RNN),LSTM的内部结构通过门控状态来控制传输状态,记住需要长时间记忆的,忘记不重要的信息;LSTM内部主要有三个阶段:1.忘记阶段,这个阶段主要是对上一个节点传进来的输入进行选择性忘记;2.选择记忆阶段,这个阶段将这个阶段的输入有选择性地进行“记忆”;3.输出阶段,这个阶段将决定哪些将会被当成当前状态的输出。而BiLSTM则是双向长短期记忆网络,其可以看成两层神经网络,第一层从左边作为序列的起始输入,在时序处理上可以理解成从序列的开头开始输入,而第二层则是从右边作为序列的起始输入,在时序处理上可以理解成从序列的末尾开始输入,最后对这两层得到的结果进行处理。
可以理解,采集得到的数据的维度按数据原来的特性不尽相同,所以需要先把数据的维度进行预处理,通过本发明深度学习架构中的嵌入 (embedding)层给各个种类数据增维/降维,以便深度学习架构有一个更准确的输出。例如药物的原始数据维度为2000以上,选取最有关联的25种药物,嵌入层会对药物的原始数据进行降维到4个。
根据本发明的实施例,根据所述深度学习架构得到的不同时间点、不同区域的预测发病人数值,监测所述预测发病人数值在时间和空间上的变化状态,当出现异常时,则发出预警信号,具体包括:
组建自动触发的预警层,并将移动百分位数法与空间探测方法组合形成预警模型,将所述预警模型置入所述预警层;
通过预警层的预警模型实时监测指定区域的预测发病人数值在时间维度上的变动特征;
采用移动百分位数法探测所述指定区域当前预测发病人数值在时间维度上是否存在异常变化;
如果存在,获取当前预测发病人数值中各个病例的坐标位置,利用空间探测方法轮询所述指定区域,并筛选出病例聚集区域,基于筛选出的病例聚集区域向所述指定区域的疫情防控中心发出预警信号,其中所述预警信号至少包括病例聚集区域的边界范围。
根据本发明的具体实施例,采用移动百分位数法探测所述指定区域当前预测发病人数值在时间维度上是否存在异常变化,具体包括:
分别计算不同时间点所述指定区域的发病人数值与总居民人口之间的比值,并进行百分位换算,得到百分位值,然后判断所述百分位值在时间维度上是否出现突增现象。
根据本发明的具体实施例,利用空间探测方法轮询所述指定区域,并筛选出病例聚集区域,具体包括:
预设指定区域由多个子区域组成,以子区域为搜索单元,计算覆盖1个或多个子区域的搜索圆的空间扫描统计量;
采用Monte-Carlo方法,筛选出统计学上病例存在空间聚集性的搜索圆,并将所述搜索圆作为病例聚集区域。
可以理解,Monte-Carlo(蒙特.卡罗)算法就是随机过程的模拟算法,模拟的输出就是随机过程的样本,通过对模拟得到的样本进行统计,就可以求积分,求最优解。
根据本发明的具体实施例,预设搜索圆出现病例空间聚集性的极限数量为L,在计算出某搜索圆的空间扫描统计量后,将空间扫描统计量与L进行比对,如果超过L,则判定该搜索圆为病例聚集区域,反之,则不为病例聚集区域。
可以理解,上述指定区域可以为某县(区),上述子区域可以为乡(镇、街道),但不限于此。
需要说明的是,本实施例的预警模型关注指定区域内监测指标的时间分布或变动特征,以此来反映传染病发生是否显著增高,或者其在某时间段内出现聚集。预警模型同时关注监测指标在时间和空间两个维度上的变化,在两个维度上以不同的粒度进行检测,并可同时利用移动百分位数法探测当前病例数对比历史同期是否存在异常变化,以达灵活及有效的预警,并使预警的准确性得到进一步改善。
根据本发明的实施例,在通过预警层的预警模型实时监测指定区域的预测发病人数值在时间维度上的变动特征之后,所述方法还包括:
获取所述指定区域当前时间的天气数据,并从中提取当前时间的天气特征;
基于当前时间的天气特征遍历所述指定区域的历史数据库,所述历史数据库记录所述指定区域的所有历史数据,每一条历史数据至少记录对应历史时间的天气特征和发病人数值;
分别计算当前时间的天气特征与所述历史数据库中所有历史时间的天气特征之间的匹配度;
并根据所述匹配度对所述历史数据库中的历史数据进行排序,选取匹配度最高的历史数据,并将匹配度最高的历史数据中的发病人数值作为预警参考阈值;
判断所述指定区域当前时间的预测发病人数值是否超过K倍的预警参考阈值,如果是,则直接获取当前预测发病人数值中各个病例的坐标位置,利用空间探测方法轮询所述指定区域,并筛选出病例聚集区域,基于筛选出的病例聚集区域向所述指定区域的疫情防控中心发出预警信号;如果否,则进一步采用移动百分位数法探测所述指定区域当前预测发病人数值在时间维度上是否存在异常变化。
需要说明的是,在非传染病影响的情况下,通常一个区域的发病人数多收到季节或天气状况的影响,如果天气骤然变冷,则容易引起过多的人发生感冒、发烧等疾病,因此在考虑一个区域是否出现传染病聚集时,则需要根据当前时间的天气状况在历史数据库中查找与之匹配度较高的历史数据,并根据历史数据的发病人数值来确定准确的预警参考阈值,进而提升传染病疫情预警的准确度。可以理解,所述K为大于等于1的自然数。
根据本发明的具体实施例,在分别计算当前时间的天气特征与所述历史数据库中所有历史时间的天气特征之间的匹配度之后,所述方法还包括:
将匹配度大于第一预设阈值的历史数据作为候选历史数据;
对所有候选历史数据的发病人数值进行加权平均化计算,得到对应的平均值,并将所述平均值作为预警参考阈值,所述加权平均化的计算公式为其中H为预警参考阈值,Pi为第i个候选历史数据的天气特征与当前时间的天气特征之间的匹配度,Gi为第i个候选历史数据的发病人数值,且i∈1,2,...,n;
判断所述指定区域当前时间的预测发病人数值是否超过K倍的预警参考阈值,如果是,则直接获取当前预测发病人数值中各个病例的坐标位置,利用空间探测方法轮询所述指定区域,并筛选出病例聚集区域,基于筛选出的病例聚集区域向所述指定区域的疫情防控中心发出预警信号;如果否,则进一步采用移动百分位数法探测所述指定区域当前预测发病人数值在时间维度上是否存在异常变化。
可以理解,本实施例综合多个匹配度较高的历史数据的发病人数值,并进行加权平均化,从而得到更加准确且稳定的预警参考阈值,进一步提升了传染病疫情预警的准确度,有利于防疫工作的正常开展。
根据本发明的具体实施例,在通过预警层的预警模型实时监测指定区域的预测发病人数值在时间维度上的变动特征之后,所述方法还包括:
将所述指定区域历史时间的居民人口、天气数据以及发病人数值记录在历史数据库中;
基于历史数据库中所有历史数据进行分析,获取居民人口、天气数据与发病人数值之间的对应关系,并根据所述对应关系建立普通疾病预测模型;
获取当前时间的天气数据,并根据历史时间的居民人口、人口增长率以及人口迁移率计算得到当前时间的居民人口;
将当前时间的天气数据和居民人口输入所述普通疾病预测模型,预测得到普通发病人数值,并将预测得到的普通发病人数值作为预警参考阈值;
判断所述指定区域当前时间的预测发病人数值是否超过K倍的预警参考阈值,如果是,则直接获取当前预测发病人数值中各个病例的坐标位置,利用空间探测方法轮询所述指定区域,并筛选出病例聚集区域,基于筛选出的病例聚集区域向所述指定区域的疫情防控中心发出预警信号;如果否,则进一步采用移动百分位数法探测所述指定区域当前预测发病人数值在时间维度上是否存在异常变化。
可以理解,一个区域的普通疾病的发病人数受限于该区域的居民人口和天气状况,居民人口增多,则对应的普通疾病人数也会相应的增多,天气状况突变恶劣,则普通发病人数也会增多,本实施例研究居民人口、天气状况与普通发病人数之间的对应关系,从而建立普通疾病预测模型,并将当前时间普通疾病预测模型预测得到的普通发病人数值作为传染病疫情的预警参考阈值,从而能够实现在普通发病人的基础上准确排查出传染病发生的情况,有效提升了疫情预警的准确度。
根据本发明的实施例,在利用空间探测方法轮询所述指定区域,并筛选出病例聚集区域之后,所述方法还包括:
在指定区域对应的电子地图上标记出各个病例聚集区域,并确定出各个病例聚集区域的中心点;
将相邻接的病例聚集区域认定为同一组领域病例聚集区域,将同一组领域病例聚集区域中的各个病例聚集区域中心点进行聚类计算分析,得到聚类中心;
将所述聚类中心为圆心,分别计算所述圆心与同一组领域病例聚集区域中所有覆盖点之间的直线距离,并选取最大的直线距离作为半径;
分别以所述圆心和所述半径在电子地图上作出圆形区域,并将所述圆形区域作为同一组领域病例聚集区域的整合病例聚集区域。
可以理解,指定区域可以为某县(区),病例聚集区域可以为某街道,通常传染病会在相邻街道区域进行传播,即相邻的街道通常会有连带反应,如果相邻的多个街道均为病例聚集区域,则可以对相邻的病例聚集区域确定出聚类中心,然后对聚类中心周围一定范围内的区域进行预警上报,从而实现对传染病可能性区域的全面预警。实际场景中,在聚类中心的周围个别区域,虽然目前的数据并未反应出病例聚集特征,然而很有可能处于潜伏期,此时为了实现更加彻底的疫情防控,仍需要对这些区域进行预警上报。
根据本发明的具体实施例,确定出各个病例聚集区域的中心点,具体包括:
预设某病例聚集区域为多边形,确定某病例聚集区域的多边形顶点,预设某病例聚集区域的多边形顶点为r个,顶点坐标为(Xj,Yj),其中 j=1.2.3......r,则该病例聚集区域的中心点(X0,Y0)的计算公式为:
根据本发明的具体实施例,将同一组领域病例聚集区域中的各个病例聚集区域中心点进行聚类计算分析,得到聚类中心,具体包括:
预设同一组领域病例聚集区域有多个领域病例聚集区域,且每个领域病例聚集区域为多边形;
分别计算获取每个领域病例聚集区域的中心点以及面积,且每个中心点包括对应的经度数据和纬度数据;
将累加多个领域病例聚集区域的面积得到第一数值,将每个领域病例聚集区域的面积与对应中心点的经度数据进行相乘,并对乘积进行累加得到第二数值,将第二数值除以第一数值得到聚类中心的经度数据;
将每个领域病例聚集区域的面积与对应中心点的维度数据进行相乘,并对乘积进行累加得到第三数值,将第三数值除以第一数值得到聚类中心的维度数据。
根据本发明的实施例,在通过预警层的预警模型实时监测指定区域的预测发病人数值在时间维度上的变动特征之后,所述方法还包括:
获取所述指定区域当前时间的预测发病人数值,并判断当前时间的预测发病人数值在时间维度上是否突增状态;
如果是,则在预设地域范围内找出所有发生过传染病疫情的历史疫情区域,并获取所有历史疫情区域的历史疫情数据,所述历史疫情数据至少包括发生疫情的历史时间以及处于历史时间的多源头、多种类原始数据;
针对所有历史疫情区域的历史疫情数据进行特征计算,分别得到各自的第一特征值;
针对所述指定区域当前时间的多源头、多种类原始数据进行特征计算,得到第二特征值;
对比每个历史疫情区域对应的第一特征值与所述指定区域的第二特征值之间的差别率;
将差别率小于预设阈值的历史疫情区域对应历史时间的原始数据以及真实发病人数值加入修正队列中;
采用所述深度学习架构分别对所述修正队列中每个历史疫情区域对应的原始数据进行深度学习,并由预测模型预测出每个历史疫情区域对应的预测发病人数值;
针对每个历史疫情区域,分别将对应的预测发病人数值与对应的真实发病人数值进行作差,得到对应的差值;
对所有历史疫情区域的差值进行均值化处理,得到修正值;
将所述指定区域当前时间的预测发病人数值与所述修正值进行相加,得到修正后的预测发病人数值。
可以理解,深度学习框架预测得到的发病人数值可能会基于参数的因素存在一定的误差,预设地域范围可以为省或市,指定区域可以为县(区),本发明的实施例则综合全省或市内各个历史疫情区域的预测发病人数值与真实发病人数值之前的差值,计算得到修正值,并通过修正值来对深度学习框架输出的所述指定区域(即某县或区)的预测发病人数值进行修正,通过修正,使最终获取到的发病人数值更加贴合真实值,进而便于后续与K倍的预警参考阈值进行比对,以及进行病例聚集区域的筛选工作,有效提升了传染病疫情预警的准确性。
根据本发明的具体实施例,对所有历史疫情区域的差值进行均值化处理,得到修正值,具体包括:
预设所述修正队列中的历史疫情区域为W个,W个历史疫情区域在历史时间的总居民人数分别为A1,A2,...,AW,W个历史疫情区域对应的预测发病人数值与对应的真实发病人数值之间的差值分别为B1,B2,...,BW;所述指定区域在当前时间的总居民人数为C,预测发病人数值为D;
需要说明的是,由于各个历史疫情区域的总居民人数不同,且与指定区域的总居民人数之间的差异不同,举例而言,如果某个历史疫情区域总居民人数与所述指定区域的总居民人数相同,则可以认定该历史疫情区域的差值即为修正值,如果某个历史疫情区域的总居民人数比所述指定区域的总居民人数的大,则该历史疫情区域的差值将根据所述指定区域的总居民人数与该历史疫情区域的总居民人数的比值进行缩小,并将缩小后的差值作为对所述指定区域的预测发病人数值的修正值。基于单个历史疫情区域的差值进行修正值计算时,容易出现较大误差,本实施例则综合多个历史疫情区域的差值来计算得到均值化的修正值,从而提高了修正值的准确度。
图4示出了本发明一种用于传染病的预警系统的框图。
如图4所示,本发明第二方面还提出一种用于传染病的预警系统4,包括存储器41和处理器42,所述存储器中包括一种用于传染病的预警方法程序,所述用于传染病的预警方法程序被所述处理器执行时实现如下步骤:
构建用于传染病预警的深度学习架构,采集有关传染病和症候群的多源头、多种类原始数据;
通过所述深度学习架构的嵌入层对多源头、多种类原始数据进行预处理,以均衡各个原始数据的维度差异,得到不同的预处理数据;
由所述深度学习架构的融合层将不同的预处理数据拼接成统一的数据矢量;
基于所述数据矢量,并由所述深度学习架构预测层的预测模型进行时间和空间两个维度的疫情预测,并得到不同时间点、不同区域的预测发病人数值;
根据所述深度学习架构得到的不同时间点、不同区域的预测发病人数值,监测所述预测发病人数值在时间和空间上的变化状态,当出现异常时,则发出预警信号。
根据本发明的实施例,通过所述深度学习架构的嵌入层对多源头、多种类原始数据进行预处理,以均衡各个原始数据的维度差异,具体包括:
预设原始数据为医疗数据,构建用于医疗数据的分词深度学习模型;
由所述分词深度学习模型的文字嵌入层接收某患者的医疗数据,完成对医疗数据的基本意义和医学知识的理解,生成一个完整的标准化医疗语句;
将所述标准化医疗语句输入至所述分词深度学习模型的双向LSTM层,并将所述标准化医疗语句中的每个字对应的LSTM输出结果映射到所述分词深度学习模型的CRF层,得到所有的分词序列;
计算所有的分词序列的概率,并将概率最大的分词序列作为所述分词深度学习模型的分词输出结果;
对所述分词输出结果基于医疗数据特性进行增维或降维处理,得到所述医疗数据对应的预处理数据。
根据本发明的实施例,根据所述深度学习架构得到的不同时间点、不同区域的预测发病人数值,监测所述预测发病人数值在时间和空间上的变化状态,当出现异常时,则发出预警信号,具体包括:
组建自动触发的预警层,并将移动百分位数法与空间探测方法组合形成预警模型,将所述预警模型置入所述预警层;
通过预警层的预警模型实时监测指定区域的预测发病人数值在时间维度上的变动特征;
采用移动百分位数法探测所述指定区域当前预测发病人数值在时间维度上是否存在异常变化;
如果存在,获取当前预测发病人数值中各个病例的坐标位置,利用空间探测方法轮询所述指定区域,并筛选出病例聚集区域,基于筛选出的病例聚集区域向所述指定区域的疫情防控中心发出预警信号,其中所述预警信号至少包括病例聚集区域的边界范围。
本发明第三方面还提出一种计算机可读存储介质,所述计算机可读存储介质中包括一种用于传染病的预警方法程序,所述用于传染病的预警方法程序被处理器执行时,实现如上述的一种用于传染病的预警方法的步骤。
本发明提出的一种用于传染病的预警方法、系统和可读存储介质,可利用信息多,考虑因素周全,可利用多源头,多种类数据进行预测。本发明的方法契合传染病和症候群检测的特性,其发生和潜在发展与各种方面数据挂钩,本发明可以有效利用这些数据。具体的,通过医疗、居民、学籍数据,天气数据,药物销售数据以及百度搜索,再加以利用长短期记忆网络模型和时空图卷积网络模型以及其他模型搭建模型预测层,进行预测。这种方法相比于传统利用动力学模型的预测方法有更强的学习能力,可以反映现实中各种多方面因素。而利用预测值和时空预警模型,同时关注监测预测值在时间和空间两个维度上的变化,使预警的准确性得到进一步改善。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种用于传染病的预警方法,其特征在于,所述方法包括:
构建用于传染病预警的深度学习架构,采集有关传染病和症候群的多源头、多种类原始数据;
通过所述深度学习架构的嵌入层对多源头、多种类原始数据进行预处理,以均衡各个原始数据的维度差异,得到不同的预处理数据;
由所述深度学习架构的融合层将不同的预处理数据拼接成统一的数据矢量;
基于所述数据矢量,并由所述深度学习架构预测层的预测模型进行时间和空间两个维度的疫情预测,并得到不同时间点、不同区域的预测发病人数值;
根据所述深度学习架构得到的不同时间点、不同区域的预测发病人数值,监测所述预测发病人数值在时间和空间上的变化状态,当出现异常时,则发出预警信号。
2.根据权利要求1所述的一种用于传染病的预警方法,其特征在于,通过所述深度学习架构的嵌入层对多源头、多种类原始数据进行预处理,以均衡各个原始数据的维度差异,具体包括:
预设原始数据为医疗数据,构建用于医疗数据的分词深度学习模型;
由所述分词深度学习模型的文字嵌入层接收某患者的医疗数据,完成对医疗数据的基本意义和医学知识的理解,生成一个完整的标准化医疗语句;
将所述标准化医疗语句输入至所述分词深度学习模型的双向LSTM层,并将所述标准化医疗语句中的每个字对应的LSTM输出结果映射到所述分词深度学习模型的CRF层,得到所有的分词序列;
计算所有的分词序列的概率,并将概率最大的分词序列作为所述分词深度学习模型的分词输出结果;
对所述分词输出结果基于医疗数据特性进行增维或降维处理,得到所述医疗数据对应的预处理数据。
3.根据权利要求1所述的一种用于传染病的预警方法,其特征在于,根据所述深度学习架构得到的不同时间点、不同区域的预测发病人数值,监测所述预测发病人数值在时间和空间上的变化状态,当出现异常时,则发出预警信号,具体包括:
组建自动触发的预警层,并将移动百分位数法与空间探测方法组合形成预警模型,将所述预警模型置入所述预警层;
通过预警层的预警模型实时监测指定区域的预测发病人数值在时间维度上的变动特征;
采用移动百分位数法探测所述指定区域当前预测发病人数值在时间维度上是否存在异常变化;
如果存在,获取当前预测发病人数值中各个病例的坐标位置,利用空间探测方法轮询所述指定区域,并筛选出病例聚集区域,基于筛选出的病例聚集区域向所述指定区域的疫情防控中心发出预警信号,其中所述预警信号至少包括病例聚集区域的边界范围。
4.根据权利要求3所述的一种用于传染病的预警方法,其特征在于,在通过预警层的预警模型实时监测指定区域的预测发病人数值在时间维度上的变动特征之后,所述方法还包括:
获取所述指定区域当前时间的天气数据,并从中提取当前时间的天气特征;
基于当前时间的天气特征遍历所述指定区域的历史数据库,所述历史数据库记录所述指定区域的所有历史数据,每一条历史数据至少记录对应历史时间的天气特征和发病人数值;
分别计算当前时间的天气特征与所述历史数据库中所有历史时间的天气特征之间的匹配度;
并根据所述匹配度对所述历史数据库中的历史数据进行排序,选取匹配度最高的历史数据,并将匹配度最高的历史数据中的发病人数值作为预警参考阈值;
判断所述指定区域当前时间的预测发病人数值是否超过K倍的预警参考阈值,如果是,则直接获取当前预测发病人数值中各个病例的坐标位置,利用空间探测方法轮询所述指定区域,并筛选出病例聚集区域,基于筛选出的病例聚集区域向所述指定区域的疫情防控中心发出预警信号;如果否,则进一步采用移动百分位数法探测所述指定区域当前预测发病人数值在时间维度上是否存在异常变化。
5.根据权利要求3所述的一种用于传染病的预警方法,其特征在于,在利用空间探测方法轮询所述指定区域,并筛选出病例聚集区域之后,所述方法还包括:
在指定区域对应的电子地图上标记出各个病例聚集区域,并确定出各个病例聚集区域的中心点;
将相邻接的病例聚集区域认定为同一组领域病例聚集区域,将同一组领域病例聚集区域中的各个病例聚集区域中心点进行聚类计算分析,得到聚类中心;
将所述聚类中心为圆心,分别计算所述圆心与同一组领域病例聚集区域中所有覆盖点之间的直线距离,并选取最大的直线距离作为半径;
分别以所述圆心和所述半径在电子地图上作出圆形区域,并将所述圆形区域作为同一组领域病例聚集区域的整合病例聚集区域。
6.根据权利要求3所述的一种用于传染病的预警方法,其特征在于,在通过预警层的预警模型实时监测指定区域的预测发病人数值在时间维度上的变动特征之后,所述方法还包括:
获取所述指定区域当前时间的预测发病人数值,并判断当前时间的预测发病人数值在时间维度上是否突增状态;
如果是,则在预设地域范围内找出所有发生过传染病疫情的历史疫情区域,并获取所有历史疫情区域的历史疫情数据,所述历史疫情数据至少包括发生疫情的历史时间以及处于历史时间的多源头、多种类原始数据;
针对所有历史疫情区域的历史疫情数据进行特征计算,分别得到各自的第一特征值;
针对所述指定区域当前时间的多源头、多种类原始数据进行特征计算,得到第二特征值;
对比每个历史疫情区域对应的第一特征值与所述指定区域的第二特征值之间的差别率;
将差别率小于预设阈值的历史疫情区域对应历史时间的原始数据以及真实发病人数值加入修正队列中;
采用所述深度学习架构分别对所述修正队列中每个历史疫情区域对应的原始数据进行深度学习,并由预测模型预测出每个历史疫情区域对应的预测发病人数值;
针对每个历史疫情区域,分别将对应的预测发病人数值与对应的真实发病人数值进行作差,得到对应的差值;
对所有历史疫情区域的差值进行均值化处理,得到修正值;
将所述指定区域当前时间的预测发病人数值与所述修正值进行相加,得到修正后的预测发病人数值。
7.一种用于传染病的预警系统,其特征在于,包括存储器和处理器,所述存储器中包括一种用于传染病的预警方法程序,所述用于传染病的预警方法程序被所述处理器执行时实现如下步骤:
构建用于传染病预警的深度学习架构,采集有关传染病和症候群的多源头、多种类原始数据;
通过所述深度学习架构的嵌入层对多源头、多种类原始数据进行预处理,以均衡各个原始数据的维度差异,得到不同的预处理数据;
由所述深度学习架构的融合层将不同的预处理数据拼接成统一的数据矢量;
基于所述数据矢量,并由所述深度学习架构预测层的预测模型进行时间和空间两个维度的疫情预测,并得到不同时间点、不同区域的预测发病人数值;
根据所述深度学习架构得到的不同时间点、不同区域的预测发病人数值,监测所述预测发病人数值在时间和空间上的变化状态,当出现异常时,则发出预警信号。
8.根据权利要求7所述的一种用于传染病的预警系统,其特征在于,通过所述深度学习架构的嵌入层对多源头、多种类原始数据进行预处理,以均衡各个原始数据的维度差异,具体包括:
预设原始数据为医疗数据,构建用于医疗数据的分词深度学习模型;
由所述分词深度学习模型的文字嵌入层接收某患者的医疗数据,完成对医疗数据的基本意义和医学知识的理解,生成一个完整的标准化医疗语句;
将所述标准化医疗语句输入至所述分词深度学习模型的双向LSTM层,并将所述标准化医疗语句中的每个字对应的LSTM输出结果映射到所述分词深度学习模型的CRF层,得到所有的分词序列;
计算所有的分词序列的概率,并将概率最大的分词序列作为所述分词深度学习模型的分词输出结果;
对所述分词输出结果基于医疗数据特性进行增维或降维处理,得到所述医疗数据对应的预处理数据。
9.根据权利要求7所述的一种用于传染病的预警系统,其特征在于,根据所述深度学习架构得到的不同时间点、不同区域的预测发病人数值,监测所述预测发病人数值在时间和空间上的变化状态,当出现异常时,则发出预警信号,具体包括:
组建自动触发的预警层,并将移动百分位数法与空间探测方法组合形成预警模型,将所述预警模型置入所述预警层;
通过预警层的预警模型实时监测指定区域的预测发病人数值在时间维度上的变动特征;
采用移动百分位数法探测所述指定区域当前预测发病人数值在时间维度上是否存在异常变化;
如果存在,获取当前预测发病人数值中各个病例的坐标位置,利用空间探测方法轮询所述指定区域,并筛选出病例聚集区域,基于筛选出的病例聚集区域向所述指定区域的疫情防控中心发出预警信号,其中所述预警信号至少包括病例聚集区域的边界范围。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种用于传染病的预警方法程序,所述用于传染病的预警方法程序被处理器执行时,实现如权利要求1至6中任一项所述的一种用于传染病的预警方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111255411.1A CN114141385B (zh) | 2021-10-27 | 2021-10-27 | 一种用于传染病的预警方法、系统和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111255411.1A CN114141385B (zh) | 2021-10-27 | 2021-10-27 | 一种用于传染病的预警方法、系统和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114141385A true CN114141385A (zh) | 2022-03-04 |
CN114141385B CN114141385B (zh) | 2023-12-05 |
Family
ID=80394646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111255411.1A Active CN114141385B (zh) | 2021-10-27 | 2021-10-27 | 一种用于传染病的预警方法、系统和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114141385B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114974491A (zh) * | 2022-05-27 | 2022-08-30 | 医渡云(北京)技术有限公司 | 病例数量的预警方法、装置、电子设备及计算机可读介质 |
CN115831388A (zh) * | 2023-02-17 | 2023-03-21 | 南京市疾病预防控制中心 | 一种基于大数据的传染病仿真模拟预警方法及系统 |
CN117423476A (zh) * | 2023-12-18 | 2024-01-19 | 中国科学院地理科学与资源研究所 | 基于降尺度和贝叶斯模型的包虫病流行率预测方法 |
CN118016319A (zh) * | 2024-04-09 | 2024-05-10 | 中国医学科学院医学信息研究所 | 基于社交媒体信息的呼吸系统传染病爆发预测方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859854A (zh) * | 2018-12-17 | 2019-06-07 | 中国科学院深圳先进技术研究院 | 传染病预测方法、装置、电子设备及计算机可读介质 |
CN110688855A (zh) * | 2019-09-29 | 2020-01-14 | 山东师范大学 | 基于机器学习的中文医疗实体识别方法及系统 |
CN111415753A (zh) * | 2020-03-06 | 2020-07-14 | 杭州云象网络技术有限公司 | 一种基于区块链的疫情监测预警方法及系统 |
CN113257425A (zh) * | 2021-06-30 | 2021-08-13 | 杭州华网信息技术有限公司 | 一种优化LSTM和LightGBM参数的流感预测系统、存储介质和装置 |
WO2021190658A1 (zh) * | 2020-11-02 | 2021-09-30 | 平安科技(深圳)有限公司 | 一种传染病预测设备、方法、装置及存储介质 |
-
2021
- 2021-10-27 CN CN202111255411.1A patent/CN114141385B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859854A (zh) * | 2018-12-17 | 2019-06-07 | 中国科学院深圳先进技术研究院 | 传染病预测方法、装置、电子设备及计算机可读介质 |
CN110688855A (zh) * | 2019-09-29 | 2020-01-14 | 山东师范大学 | 基于机器学习的中文医疗实体识别方法及系统 |
CN111415753A (zh) * | 2020-03-06 | 2020-07-14 | 杭州云象网络技术有限公司 | 一种基于区块链的疫情监测预警方法及系统 |
WO2021190658A1 (zh) * | 2020-11-02 | 2021-09-30 | 平安科技(深圳)有限公司 | 一种传染病预测设备、方法、装置及存储介质 |
CN113257425A (zh) * | 2021-06-30 | 2021-08-13 | 杭州华网信息技术有限公司 | 一种优化LSTM和LightGBM参数的流感预测系统、存储介质和装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114974491A (zh) * | 2022-05-27 | 2022-08-30 | 医渡云(北京)技术有限公司 | 病例数量的预警方法、装置、电子设备及计算机可读介质 |
CN115831388A (zh) * | 2023-02-17 | 2023-03-21 | 南京市疾病预防控制中心 | 一种基于大数据的传染病仿真模拟预警方法及系统 |
CN117423476A (zh) * | 2023-12-18 | 2024-01-19 | 中国科学院地理科学与资源研究所 | 基于降尺度和贝叶斯模型的包虫病流行率预测方法 |
CN117423476B (zh) * | 2023-12-18 | 2024-03-08 | 中国科学院地理科学与资源研究所 | 基于降尺度和贝叶斯模型的包虫病流行率预测方法 |
CN118016319A (zh) * | 2024-04-09 | 2024-05-10 | 中国医学科学院医学信息研究所 | 基于社交媒体信息的呼吸系统传染病爆发预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114141385B (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Aswi et al. | Bayesian spatial and spatio-temporal approaches to modelling dengue fever: a systematic review | |
CN114141385B (zh) | 一种用于传染病的预警方法、系统和可读存储介质 | |
CN111916215B (zh) | 一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统 | |
Al-Sharif et al. | A novel approach for predicting the spatial patterns of urban expansion by combining the chi-squared automatic integration detection decision tree, Markov chain and cellular automata models in GIS | |
Jacquez | A research agenda: does geocoding positional error matter in health GIS studies? | |
CN103714185B (zh) | 主题事件更新方法库及城市多源时空信息并行更新方法 | |
Zgheib et al. | A scalable semantic framework for IoT healthcare applications | |
CN111191040A (zh) | 城市运行知识图谱构建方法、装置和计算机设备 | |
Blecic et al. | How much past to see the future: a computational study in calibrating urban cellular automata | |
Haining | Spatial statistics and the analysis of health data | |
Doherty et al. | Georeferencing incidents from locality descriptions and its applications: a case study from Yosemite National Park search and rescue | |
Tang et al. | ResDisMapper: An r package for fine‐scale mapping of resistance to dispersal | |
Jiang et al. | COVINet: A deep learning-based and interpretable prediction model for the county-wise trajectories of COVID-19 in the United States | |
CN117314006A (zh) | 一种智能化数据分析方法及系统 | |
Lo et al. | Recurrent learning on PM 2.5 prediction based on clustered airbox dataset | |
Yuan | GIS research to address tensions in geography | |
CN117912717A (zh) | 一种公共卫生预警平台 | |
CN117458450B (zh) | 电力数据能耗预测分析方法及系统 | |
Cao et al. | Cluster-based correlation of severe driving events with time and location | |
Shi et al. | Discovering source areas of disease outbreaks based on ring-shaped hotspot detection in road network space | |
CN116340871A (zh) | 基于时空数据的城市异常检测方法、装置、介质及设备 | |
Gill et al. | A deep neural network based context-aware smart epidemic surveillance in smart cities | |
Li et al. | Spatial data analysis for intelligent buildings: Awareness of context and data uncertainty | |
CN114360735A (zh) | 传染病时空聚集性探测分析方法、系统及电子设备 | |
CN107274005A (zh) | 基于大数据的分形算法的城市雨洪灾害预警方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |