CN111916215B - 一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统 - Google Patents
一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统 Download PDFInfo
- Publication number
- CN111916215B CN111916215B CN202010553296.5A CN202010553296A CN111916215B CN 111916215 B CN111916215 B CN 111916215B CN 202010553296 A CN202010553296 A CN 202010553296A CN 111916215 B CN111916215 B CN 111916215B
- Authority
- CN
- China
- Prior art keywords
- information
- data
- time
- entity
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 32
- 208000017667 Chronic Disease Diseases 0.000 title claims abstract description 22
- 238000012502 risk assessment Methods 0.000 title claims abstract description 22
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 25
- 201000010099 disease Diseases 0.000 claims abstract description 24
- 230000000694 effects Effects 0.000 claims abstract description 22
- 238000011156 evaluation Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 64
- 238000004422 calculation algorithm Methods 0.000 claims description 48
- 239000013598 vector Substances 0.000 claims description 48
- 238000000605 extraction Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 18
- 238000003745 diagnosis Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 230000002159 abnormal effect Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000006399 behavior Effects 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 11
- 238000007906 compression Methods 0.000 claims description 10
- 230000006835 compression Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 208000032023 Signs and Symptoms Diseases 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000003111 delayed effect Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000011835 investigation Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010295 mobile communication Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000000737 periodic effect Effects 0.000 claims description 3
- 238000011524 similarity measure Methods 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 claims description 2
- 238000007621 cluster analysis Methods 0.000 claims 3
- 238000009826 distribution Methods 0.000 abstract description 12
- 230000002265 prevention Effects 0.000 abstract description 5
- 230000005180 public health Effects 0.000 abstract description 3
- 230000009471 action Effects 0.000 abstract description 2
- 208000035473 Communicable disease Diseases 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 206010012735 Diarrhoea Diseases 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000001154 acute effect Effects 0.000 description 3
- 235000006694 eating habits Nutrition 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 208000025721 COVID-19 Diseases 0.000 description 2
- 206010020772 Hypertension Diseases 0.000 description 2
- 201000003176 Severe Acute Respiratory Syndrome Diseases 0.000 description 2
- 230000001684 chronic effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 208000015181 infectious disease Diseases 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010039073 rheumatoid arthritis Diseases 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 101000739160 Homo sapiens Secretoglobin family 3A member 1 Proteins 0.000 description 1
- 206010027439 Metal poisoning Diseases 0.000 description 1
- 206010035664 Pneumonia Diseases 0.000 description 1
- 102100037268 Secretoglobin family 3A member 1 Human genes 0.000 description 1
- 206010041660 Splenomegaly Diseases 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000036626 alertness Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 208000037797 influenza A Diseases 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 208000008127 lead poisoning Diseases 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 208000010125 myocardial infarction Diseases 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了公共卫生领域内的一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统,其包括病例信息收集模块、活动轨迹追踪模块、自动报警展示模块和风险分析评价模块;通过对医疗机构病历数据库的定时扫描,结合患者个体行动轨迹的自动分析,能够对出现的突发群集性疾病实现自动报警,对单位时间内相同病例的总结与初步风险分析评价,可通过对单位时间内出现病例的分布特征分析,指导该区域慢性病差异性防控措施的制订。
Description
技术领域
本发明涉及公共卫生领域,特别是涉及群集性/慢性疾病早期自动报警、初步特征分析与风险评估。
背景技术
突发性群集性传染性疾病,如严重急性呼吸综合征(SARS)、甲型HIN1流感、新冠肺炎(COVID-19)等的大面积爆发,对人类生命安全与社会经济稳定构成了极大威胁;某些慢性疾病,如高血压、类风湿性关节炎、微量元素缺乏症等,与患者地理分布、饮食习惯等密切相关,我国每年花费大量的人力物力用于群集性疾病与慢性疾病的防治。在临床工作实践中我们发现,传统的传染病监测极度依赖于医务人员对这些疾病的敏锐性和警觉性,而且也只能针对能诊断明确的传染病。事实上,对那些急性传染病尤其是不明原因的传染病要做出及时发现和判断,最大程度化解公共卫生风险十分依赖于临床及早识别和发现患者。其中,及早识别出发病人群具有聚集性的特点具有十分重要的流行病学意义和社会意义;同样,对于慢性疾病的管理以及某些地方病的流行状况监测也都依赖于一定物理空间区域内患者群集性状态的自动识别。因此,这种对群集性早期预警与风险等级评价,无论对急慢性传染病、慢性病管理均具有重要的临床意义。现有技术中,缺乏自动识别的群集性病例事件的监测应用系统,难以及时发现可疑患者集聚人群有利于及早的采取应对措施,因此也难以最大程度减轻这类疾病对社会造成的影响。
发明内容
本发明针对传统群集性/慢性疾病早期自动报警、初步特征分析与风险评估的不足,提出一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统,使其能够针对群集性/慢性疾病自动发出早期报警信息,主动提醒不同接诊医师就同类事件进行关注、跟踪分析,避免因人为因素对群集性疾病早期报警的延迟,及早作出预判和处理。
本发明的目的是这样实现的:
一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统,包括病例信息收集模块、活动轨迹追踪模块、自动报警展示模块和风险分析评价模块;其中,
病例信息收集模块:利用医院门诊电子病历系统、住院病历系统以及患者随访系统,利用数据标识实现区域性病人诊治信息的特征数据信息提取,形成数据集成中心,数据信息提取包括患者的个人一般性社会、生物学信息,病情相关信息,社会活动信息;
活动轨迹追踪模块:利用患者使用的可公布、共享的定位方式,或与移动通讯运营商协议,经主管部门允许,通过患者手机终端获得患者物理空间GPS定位信息,自动对预设地区就诊人群在特定时间段内具有相同患者活动轨迹进行群集性分析,包括活动轨迹提取及聚类分析;
自动报警展示模块:通过预先设定的扫描病情相关参数、扫描时间和空间半径对聚集性、群体性发生的事件进行自动分析显示并实时报警;达到预先设定的群集性标准时,自动报警生成并存档目标病例的统计表,同时自动在当地地图中直观标注发病地点;
风险分析评价模块:利用自动报警展示模块与病例信息收集模块提供的数据信息,当系统自动报警后,采用手动方式对单位时间内出现的相同症状、体征或相同诊断与检查指标结果相同病例,利用时空扫描算法以及上述特征数据标识为单元的异常事件分析探测算法对公共安全事件相关预处理数据信息进行计算,获得相应的计算数值。
进行数据信息提取时,按如下步骤进行:
1.1.构建基于病人诊治数据的知识图谱:
对不同系统中的信息进行实体抽取、属性-值对抽取、关系抽取;从无结构文本中识别具有特定意义的实体;针对实体抽取的任务,将其转化为序列标注问题,利用BIO规范对语料进行标注;针对从文本中自动选择特征,采用基于神经网络的方法自动学习特征;最后利用概率模型对文本进行标签预测;具体步骤如下:
1.1.1采用Word2Vec工具进行词向量训练,词向量的训练是从海量的未标注文本中通过无监督的语言模型训练而得到;
1.1.2.采用训练双向长短记忆网络BiLSTM把词向量表示的文本输入到神经网络模型中,学习文本间词语的隐层表示,该网络由一个前向记忆网络LSTMF和一个后向记忆网络LSTMB组成,前者用于学习前向的序列信息,后者学习后向的序列信息,最后得到每个词的隐层表示hi=[Fi,Bi];BiLSTM输出每个字或词的标签分数,为了考虑词汇之间的关联性,在BiLSTM的输出层加入CRF层学习标签之间的关系,而不是独立进行标注;假设输入文本为X=(x1,x2,...,xi…,xn),标签序列为Y=(y1,y2,…,yi,...yn),则CRF对序列标注的打分函数如公式(1)所示:
其中:
式中fk和hj为特征函数,λk和μj为对应的权值,yi是第i个文本输入xi的标签,Z(x)是归一化因子;
对于一个输入序列,其标签序列根据最大分类概率计算:
y*=arg max P(y|x) (3)
1.1.3.关系抽取首先采用哈工大LTP自然语言处理工具对文本进行分词、词性标注;将每个单词映射到一个低维,稠密的向量空间;引入位置信息,距离信息,把位置信息、距离信息表示成位置距离向量;最后拼接词向量、词性向量、位置距离向量生成针对句子中的每个词对应的向量;采用卷积神经网络对输入向量进行特征提取;最后通过softmax函数预测实体关系的分类;
1.2.对医院门诊电子病历系统、住院病历系统以及患者随访系统中的病人诊治信息进行知识融合:
处理包括实体冲突、属性冲突、关系冲突的问题,同时对相同实体包含的信息进行融合和聚集;具体步骤如下:
1.2.1利用Doc2Vec句子表示方法对未被对齐实体与被对齐实体的实体与上下文文本属性信息进行表示,得到两组实体向量e1和e2,接着计算两组向量的相似度,得到未被对齐实体的本地得分如果未被对齐实体的本地得分大于预先设定的阈值α,则把该未被对齐实体加入到候选融合实体集合C中;
1.2.2对被对齐实体所有有关系的实体进行同步消岐,采用设计条件随机场模型,如公式(4)所示,并且利用置信传播算法对条件随机场模型进行训练和预测;最后迭代得出使公式(4)取得最大值的每个目标实体;得出的目标实体即为需要与被对齐实体融合的实体;
1.2.3.采用计算词语相似度的方法解决属性对齐和关系对齐问题,把属性词语训练成词向量,通过相似度计算方法计算两个词向量之间的相似度,若相似度大于设定的阈值,则认为两个属性是对齐的。
所述活动轨迹追踪模块工作时,包括如下步骤:
2.1活动轨迹获取:
利用带有定位功能的智能穿戴、移动设备获取速度、方向、位置和时间戳四维信息,同时对冗余轨迹数据进行压缩;
轨迹数据由一系列的数据点构成,用P=(p1,p2,…,pi,…pn)表示;具体步骤如下:
2.1.1.利用滑动窗口W和均值技术从轨迹数据中滤除噪点,得到处理后的数据点集P'=(p'1,p'2,…,p'i,p'i+1,…,p'k);;
2.1.2.对上述数据点集进行停留点检测,所述“停留点”是指具有代表性的数据点,使数据点集就变成有意义的地方集;
首先,检查定位点p′i与其后继者p′i+1之间的距离是否大于给定阈值的轨迹;然后,它测量定位点和距离阈值内的最后一个后继p′k之间的时间间隔;如果时间间隔大于给定的阈值,则该定位点为停留点;最后从p′k的后继点迭代检查,直到所有数据点集检查完;
2.1.3.进行轨迹压缩;在步骤2.1.2获得的数据点集的基础上,采用道格拉斯-普克算法进行压缩,过程如下:
将曲线的首末点连成一条直线,求曲线上所有点到直线的垂直距离,并找出最大距离值dmax;
用dmax与预设的阈值D相比,若dmax<D,则将该曲线所有点舍去,用直线取代曲线,该曲线处理完毕;
否则,保留dmax对应的坐标点,并以该点为界,将曲线划为两部分,重复步骤上述步骤,直到所有dmax均小于D,即完成对曲线的压缩;
当所有曲线都处理完毕时,依次连接各个分割点形成的折线,即为原始曲线的路径;
2.2.活动轨迹数据分析:
通过对预处理后轨迹数据,分析与获取有价值的信息,通过时空环境中事故调查、群体跟踪;发现时间序列频繁模式,通过公共性规律或公共性频繁路径,进行地点预测、病员相似性估计;通过周期性的活动行为,预测病员未来的行为;具体步骤如下:
2.2.1.进行轨迹相似性度量,通常用一个距离函数来计算;首先,定义点与轨迹之间的相似性,假定点q与轨迹A,q与A之间的相似性通常定义如下:
p'为轨迹A上按照d(.)计算距离最小的点,其中d(.)表示两个点的距离计算公式,在计算两个点距离时,选择L-P范数,以欧氏距离、切比雪夫距离或曼哈顿距离计算方法计算距离;
接着,通过计算EDR距离来确定轨迹与轨迹的相似性,EDR距离如下:
h,r为轨迹A,B的长度;subcost定义为:
给定轨迹A<a1,a2,...aha>和轨迹B<b1,b2,...brb>,Head(A)表示a1,Rest(A)表示<a2,a3...aha>;
2.2.2.对轨迹进行聚类,分析公共规律行为;采用密度聚类算法DBSCAN,其核心思想:发现密度大于预设阈值的点,然后把相近的高密度点逐步都连成一片,进而生成各种簇;对于给定的线段集合D,算法输出聚类集合O,对于输入的每条线段,算法会对其进行分类,即核心线段和边界线段;过程如下:
a.对于每一条未分类的线段L,算法计算其的ε邻域以判断该线段是否为核心线段;若L为核心线段,则程序跳转下一步;
b.计算核心线段的密度相连集合并把其加入该核心线段组成的簇中;如果新加入的线段未被分类,则把其加入队列Q中以做进一步扩展,因为该线段是核心线段;若新加入的线段不是核心线段,则不加入队列Q中;
c.计算每个簇的基数,若其值小于阈值,则算法将该簇淘汰。
自动报警展示模块工作时,按如下步骤进行:
3.1.在系统展示屏幕上选择需要监控的流行性疾病,通过GPS地图展示其历史数据以及趋势,并通过海量病例分析模块得到相关特征数据,包括时空相关特征;
3.2.依据专家经验预先设置的条件和阈值,判断特征数据是否达到预设触发条件,如果达到预设触发条件,则自动化报警。
所述风险分析评价模块工作时,包括如下步骤:
4.1.海量病例特征信息处理:
由于要对单位时间内出现特定特征的病例进行索引和查找(特定特征指相同症状、体征或相同诊断与特定检查指标结果相同),因此首先需要在系统自动报警后,能够处理和分析海量数据;具体步骤如下:
4.1.1.构建基于斐波那契散列的二叉链表;构建规则是:
①对于16位整数而言,取乘数40503
②对于32位整数而言,取乘数2654435769
③对于64位整数而言,取乘数11400714819323198485
对于常见的32位整数而言,映射公式如下:
index=(value*2654435769)>>28
其中,value是输入值,index是链表的头地址;
4.1.2.基于分布式的数据处理框架Spark,检索出现特定特征的病例;
数据处理步骤:
①使用Spark提交任务,使Driver进程运行在主节点或从节点上;
②使用本地的主节点类的main函数来创建SparkContext并初始化它;
③SparkContext连接到从节点,注册并申请资源;
④主节点根据SparkContext提出的申请,根据任务的心跳报告,来决定到底在哪个任务上启动任务执行模块;
⑤任务执行模块向SparkContext注册;
⑥SparkContext将应用分配给任务执行模块;
⑦SparkContext解析应用,并将应用进行分解成多个阶段,每个阶段通过对应处理模块中的任务分配到相应的工作节点上,并由任务执行模块来执行;
⑧任务执行模块创建线程池,开始执行任务,并向SparkContext汇报;
⑨所有的任务执行完成之后,SparkContext向主节点注销。
4.2.在查找到单位时间内出现特定特征的病例的基础上,利用时空扫描算法以及上述特征数据标识为单元的异常事件分析探测算法对公共安全事件相关预处理数据信息进行计算,具体步骤如下:
4.2.1.使用广度优先的扫描算法遍历所有病例,首先以一个未被访问过的顶点作为起始顶点,访问其所有相邻的顶点;然后对每个相邻的顶点,再访问它们相邻的未被访问过的顶点;最后直到所有顶点都被访问过,遍历结束;实现步骤如下:
①首先以一个未被访问过的顶点作为起始顶点,以该顶点为起点;
②将该顶点放入到队列中,然后将与该顶点相邻的未访问过的顶点依次放入到队列中;
③接下来再将与相邻顶点相邻的未访问过的顶点放入到队列中;
④依此访问所有顶点,遍历结束;
4.2.2.通过异常事件分析探测算法对公共安全事件相关预处理数据信息进行计算,其中异常事件分析探测使用排列熵算法,其计算步骤如下:
设一维时间序列为:Xtime={xtime(1),xtime(2),...,xtime(i),...,xtime(n)}
采用相空间重构延迟坐标法对Xtime中任一元素xtime(i)进行相空间重构,对每个采样点取其连续的m个样点,得到点x(i)的m维空间的重构向量:
Xrec={xrec(i),xrec(i+1),...xrec(i+(m-1)*l)}
则一维时间序列Xtime的相空间矩阵为:
其中m和l分别为重构维数和延迟时间;
对xtime(f)的重构向量Xrec各元素进行升序排列,得到:
X′rec={xrec(i+(c1-1)*l)≤xrec(i+(c2-1)*l)≤...≤xrec(i+(cm-1)*l)}
这样得到的排列方式为:
{c1,c2,...,cm}
其中,mdim是空间维度。
本发明的有益效果在于:
(1)通过对医疗机构病历数据库的定时扫描,结合患者个体行动轨迹的自动分析,能够对出现的突发群集性疾病实现自动报警,避免目前因人工上报造成的防控迟滞,为重大突发群集性疾病(如COVID-19)争取到宝贵的防控时间。
(2)当系统对某个特征突发群集性疾病自动报警后,通过对单位时间内相同病例的总结与初步风险分析评价,如与当地供水、下水道分布有无关联;空间分布密度与强度等,为早期疫情防控措施的制订提供有效支撑。
(3)对于高血压、类风湿性关节炎、微量元素缺乏症等与地理分布、饮食习惯等密切相关的慢性疾病,可通过对单位时间内出现病例的分布特征分析,指导该区域慢性病差异性防控措施的制订。
附图说明
图1为本发明利用滑动窗口和均值技术去噪示意图。
图2为本发明的流程图。
具体实施方式
如图2所示,本发明的一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统,包括病例信息收集模块、活动轨迹追踪模块、自动报警展示模块和风险分析评价模块:
(1)病例信息收集模块:
该模块主要利用医院门诊电子病历系统、住院病历系统以及患者随访系统进行无缝对接,利用数据标识实现区域性病人诊治信息的关键数据信息提取,形成数据集成中心,数据信息提取包括患者的个人一般性社会、生物学信息:比如年龄、职业、特殊工作环境暴露史、性别、体重、工作地点、家庭住址等;病情相关信息:比如各种症状、特殊体征、疾病诊断、发病时间、既往病症、家族史、发病地点、药物使用等;社会活动信息:比如高危场所、特殊食品、特殊个人生活行为等。
包括如下处理步骤:
1.1.构建基于病人诊治数据的知识图谱:
对不同系统中的信息进行实体抽取、属性-值对抽取、关系抽取。实体抽取是信息抽取的基本任务之一,指从无结构文本中识别具有特定意义的实体。针对实体抽取的任务,将其转化为序列标注问题,利用BIO规范对语料进行标注,其中B是beginning的缩写表示词的开始标签,I是inside的缩写表示词的中间标签,O是outside的缩写表示非标签。针对从文本中自动选择特征的问题,设计基于神经网络的方法自动学习特征。最后利用概率模型对文本进行标签预测。具体步骤如下:
1.1.1.采用Word2Vec工具进行词向量训练,词向量的训练是从海量的未标注文本中通过无监督的语言模型训练而得到。
1.1.2.采用训练双向长短记忆网络BiLSTM把词向量表示的文本输入到神经网络模型中,学习文本间词语的隐层表示,该网络由一个前向记忆网络LSTMF和一个后向记忆网络LSTMB组成,前者用于学习前向的序列信息,后者学习后向的序列信息,最后得到每个词的隐层表示hi=[Fi,Bi]。BiLSTM输出每个字或词的标签分数,为了考虑词汇之间的关联性,在BiLSTM的输出层加入CRF(条件随机场)层学习标签之间的关系,而不是独立进行标注。假设输入文本为X=(x1,x2,...,xi…,xn),标签序列为Y=(y1,y2,…,yi,...yn),则CRF对序列标注的打分函数如公式(1)所示:
其中:
式中,fk和hj为特征函数,λk和μj为对应的权值,yi是第i个文本输入xi的标签,Z(x)是归一化因子;
对于一个输入序列,其标签序列根据最大分类概率计算:
y*=arg max P(y|x) (3)
1.1.3.关系抽取首先采用哈工大LTP自然语言处理工具对文本进行分词、词性标注。将每个单词映射到一个低维,稠密的向量空间。考虑位置关系、距离关系对学习实体对关于上下文的表示的重要性,引入了位置信息,距离信息,把位置信息、距离信息表示成位置距离向量。最后拼接词向量、词性向量、位置距离向量生成针对句子中的每个词对应的向量。考虑卷积方法可以将所有局部特征合并起来进行全局预测,采用卷积神经网络对输入向量进行特征提取。最后通过softmax函数预测实体关系的分类。
1.2.对医院门诊电子病历系统、住院病历系统以及患者随访系统中的病人诊治信息进行知识融合。
将来源于不同数据源的数据其表现形式各异,同一实体在不同数据源中的表征可能不同,同一实体表征可能指代不同实体,对于属性、关系也存在同样的问题。处理包括实体冲突、属性冲突、关系冲突的问题,同时对相同实体包含的信息进行融合和聚集。具体步骤如下:
1.2.1.利用Doc2Vec句子表示方法对未被对齐实体与被对齐实体的实体与上下文文本属性信息进行表示,得到两组实体向量e1和e2,接着计算两组向量的相似度,得到未被对齐实体的本地得分如果未被对齐实体的本地得分大于预先设定的阈值α,则把该未被对齐实体加入到候选融合实体集合C中。
1.2.2.对被对齐实体所有有关系的实体进行同步消岐,采用设计条件随机场模型,如公式(4)所示,并且利用置信传播算法对条件随机场模型进行训练和预测。最后迭代得出使公式(4)取得最大值的每个目标实体。得出的目标实体即为需要与被对齐实体融合的实体。
其中e为候选实体集合,me为同步消岐的实体集合,ω(ei,ej)为候选实体之间的关系得分。
1.2.3.采用计算词语相似度的方法解决属性对齐和关系对齐问题,把属性词语训练成词向量,通过相似度计算方法计算两个词向量之间的相似度,若相似度大于设定的阈值,则认为两个属性是对齐的。
(2)活动轨迹追踪模块:
该模块利用患者使用的可公布、共享的定位方式(如微信、微博等);或与移动通讯运营商协议,经主管部门允许,通过患者手机终端获得患者物理空间GPS定位信息,自动对预设地区就诊人群在特定时间段内具有相同患者活动轨迹的特定事件如腹泻、脾肿大、心肌梗死等情况进行群集性分析。相关算法为:
2.1.活动轨迹获取:
利用带有定位功能的智能穿戴、移动设备获取速度、方向、位置和时间戳四维信息,由于轨迹数据量大且冗余,为便于存储与计算,需对原始数据进行压缩。
轨迹数据由一系列的数据点构成,用P=(p1,p2,…,pi,…pn)表示。具体步骤如下:
2.1.1.由于一些因素,如在城市峡谷中收到较差的定位信号,空间轨迹永远不会完全准确,会出现一些噪声点。因此,需要从轨迹中滤除这些噪点。这里,可以利用滑动窗口W和均值技术对这些噪声数据进行摒弃掉,如图1所示。
得到处理后的数据点集P'=(p'1,p'2,…,p'i,p'i+1,…,p'k)。
2.1.2.对上述数据点集进行停留点检测,这里,“停留点”是指具有代表性的数据点,例如:超市、加油站等,有了停留点,数据点集就变成有意义的地方集。
首先,检查定位点p′i与其后继者p′i+1之间的距离是否大于给定阈值的轨迹。然后,它测量定位点和距离阈值内的最后一个后继p′k之间的时间间隔。如果时间间隔大于给定的阈值,则该定位点为停留点。最后从p′k的后继点迭代检查,直到所有数据点集检查完。
2.1.3.由于轨迹数据是短时间内(如:秒级)采集的,需要大量的电池电量、通信、计算和数据存储的开销。但实际应用中可能不真正需要这样的位置精度,因而需进行轨迹压缩。在步骤2.1.2获得的数据点集的基础上,采用道格拉斯-普克(Douglas-Peucker DP)算法进行压缩,过程如下:
将曲线的首末点连成一条直线,求曲线上所有点到直线的垂直距离,并找出最大距离值dmax;
用dmax与预设的阈值D相比,若dmax<D,则将该曲线所有点舍去,用直线取代曲线,该曲线处理完毕;
否则,保留dmax对应的坐标点,并以该点为界,将曲线划为两部分,重复步骤上述步骤,直到所有dmax均小于D,即完成对曲线的压缩。
当所有曲线都处理完毕时,依次连接各个分割点形成的折线,即为原始曲线的路径。
2.2.活动轨迹数据分析:
通过对预处理后轨迹数据,分析与获取有价值的信息,如:病员的行为特征和规律,可以实现时空环境中事故调查、群体跟踪等;发现时间序列频繁模式,如公共性规律或公共性频繁路径等,可以用于地点预测、病员相似性估计等;周期性的活动行为,通过挖掘此类轨迹,可以预测病员未来的行为。具体步骤如下:
2.2.1进行轨迹相似性度量,通常用一个距离函数来计算。首先,定义点与轨迹之间的相似性,假定点q与轨迹A,q与A之间的相似性通常定义如下:
p'为轨迹A上按照d(.)计算距离最小的点,其中d(.)表示两个点的距离计算公式,在计算两个点距离时,可以选择L-P范数,可以选择欧氏距离,切比雪夫距离,曼哈顿距离计算方法计算距离。
接着,通过计算EDR距离来确定轨迹与轨迹的相似性,EDR距离如下:
h,r为轨迹A,B的长度。subcost定义为:
给定轨迹A<a1,a2,...aha>和轨迹B<b1,b2,...brb>,Head(A)表示a1,Rest(A)表示<a2,a3...aha>。
2.2.2.对轨迹进行聚类,分析公共规律行为。采用密度聚类算法DBSCAN,其核心思想:发现密度大于预设阈值的点,然后把相近的高密度点逐步都连成一片,进而生成各种簇。对于给定的线段集合D,算法输出聚类集合O,对于输入的每条线段,算法会对其进行分类,即核心线段和边界线段。过程如下:
a.对于每一条未分类的线段L,算法计算其的ε邻域以判断该线段是否为核心线段。若L为核心线段,则程序跳转下一步。
b.计算核心线段的密度相连集合并把其加入该核心线段组成的簇中。如果新加入的线段未被分类,则把其加入队列Q中以做进一步扩展,因为该线段是核心线段;若新加入的线段不是核心线段,则不加入队列Q中。
c.计算每个簇的基数,若其值小于阈值,则算法将该簇淘汰,因为其不够密集。
特别值得一提的是,本模块将实现个人轨迹信息的自运行状态分析,无对外人机交互界面或窗口,通过自动分析仅仅只输出特定人群共有的群集性发病的地点信息即可,从而可有效实现对个人轨迹信息采集后有关个人隐私泄露的最高级别保护。
(3)自动报警展示模块:
通过预先设定的扫描病情相关参数、扫描时间和空间半径对聚集性、群体性发生的事件进行自动分析显示并实时报警。对于急性事件,我们可以设置扫描的时间范围参数可从数小时至数周,空间半径可设置为几十米到几公里不等;而对于慢性病管理,我们设置扫描的时间范围可从数月至数年,空间半径可设置为几公里至几百公里不等。达到预先设定的群集性标准时,自动报警生成并存档目标病例的统计表,同时自动在当地地图中直观标注发病地点。
具体步骤如下:
3.1.在系统展示屏幕上选择需要监控的流行性疾病,通过GPS地图展示其历史数据以及趋势,并通过海量病例分析模块得到相关特征数据,包括时空相关特征。
3.2.依据专家经验预先设置的条件和阈值,判断特征数据是否达到预设触发条件,如果达到预设触发条件,则自动化报警。
(4)风险分析评价模块:
该模块利用自动报警展示模块与病例信息收集模块提供的数据信息,当系统自动报警后,采用手动方式对单位时间内出现的相同症状、体征或相同诊断与某检查指标结果相同病例,利用时空扫描算法以及上述特征数据标识为单元的异常事件分析探测算法对公共安全事件相关预处理数据信息进行计算,获得相应的计算数值。相关算法为:
4.1.海量病例特征信息处理:
由于要对单位时间内出现特定特征的病例进行索引和查找(特定特征指相同症状、体征或相同诊断与特定检查指标结果相同),因此首先需要在系统自动报警后,能够处理和分析海量数据。具体步骤如下:
4.1.1.构建基于斐波那契散列的二叉链表;
散列是指把任意长度的输入通过散列算法,变换成固定长度的输出,本质是找到一种数据内容和数据存放地址之间的映射关系,这种关系是一种压缩映射,即散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出。斐波那契散列是指基于斐波那契数列取乘数,通过该乘数将原始数据内容中的元素映射到链表中,达到效率和准确率都很高的目标。二叉链表是“链表的数组”,本质上是基于树的存储结构,其同时具备数组寻址容易和链表插入和删除容易的优点。基于斐波那契散列的二叉链表的构建规则是:
①对于16位整数而言,取乘数40503
②对于32位整数而言,取乘数2654435769
③对于64位整数而言,取乘数11400714819323198485
对于常见的32位整数而言,映射公式如下:
index=(value*2654435769)>>28
其中,value是输入值,index是链表的头地址。
4.1.2.基于分布式的数据处理框架Spark,检索出现特定特征的病例;
Spark是基于大数据框架Hadoop的一个数据处理框架,与Hadoop原生的数据处理模块MapReduce相比,Spark具有高效(比MapReduce快10—100倍)、多编程语言支持(提供了丰富的API,支持Java,Scala,Python和R四种语言)、易用(代码量比MapReduce少2—5倍)等优势。以Spark的独立模式说明数据处理步骤:
①使用Spark提交任务,使Driver进程运行在主节点或从节点上;
②使用本地的主节点类的main函数来创建SparkContext(Spark的任务执行内容)并初始化它;
③SparkContext连接到从节点,注册并申请资源(内核和内存);
④主节点根据SparkContext提出的申请,根据任务的心跳报告,来决定到底在哪个任务上启动任务执行模块;
⑤任务执行模块向SparkContext注册;
⑥SparkContext将应用分配给任务执行模块;
⑦SparkContext解析应用,并将应用进行分解成多个阶段,每个阶段通过对应处理模块中的任务分配到相应的工作节点上,并由任务执行模块来执行;
⑧任务执行模块创建线程池,开始执行任务,并向SparkContext汇报;
⑨所有的任务执行完成之后,SparkContext向主节点注销。
4.2.在查找到单位时间内出现特定特征的病例的基础上,利用时空扫描算法以及上述特征数据标识为单元的异常事件分析探测算法对公共安全事件相关预处理数据信息进行计算,具体步骤如下:
4.2.1.使用广度优先的扫描算法遍历所有病例,其基本思想为:首先以一个未被访问过的顶点作为起始顶点,访问其所有相邻的顶点;然后对每个相邻的顶点,再访问它们相邻的未被访问过的顶点;最后直到所有顶点都被访问过,遍历结束。实现步骤如下:
①首先以一个未被访问过的顶点作为起始顶点,比如以1号顶点为起点。
②将1号顶点放入到队列中,然后将与1号顶点相邻的未访问过的顶点,即2号、3号和5号顶点依次放入到队列中。
③接下来再将2号顶点相邻的未访问过的4号顶点放入到队列中。
④依此访问所有顶点,遍历结束。
4.2.2.通过异常事件分析探测算法对公共安全事件相关预处理数据信息进行计算,其中异常事件分析探测使用排列熵算法,其计算步骤如下:
设一维时间序列为:Xtime={xtime(1),xtime(2),...,xtime(i),...,xtime(n)}
采用相空间重构延迟坐标法对Xtime中任一元素xtime(i)进行相空间重构,对每个采样点取其连续的m个样点,得到点x(i)的m维空间的重构向量:
Xrec={xrec(i),xrec(i+1),...xrec(i+(m-1)*l)}
则一维时间序列Xtime的相空间矩阵为:
其中m和l分别为重构维数和延迟时间;
对xtime(i)的重构向量Xrec各元素进行升序排列,得到:
Xrec={xrec(i+(c1-1)*l)≤xrec(i+(c2-1)*l)≤...≤xrec(i+(cm-1)*l)}
这样得到的排列方式为:
{c1,c2,...,cm}
其中,mdim是空间维度。
如图2所示,为上述技术方案流程图,该系统可实现:
(1)突发群集性疾病自动报警:系统默认每日固定时间对特定时间内(如一月内)门诊、住院病历进行扫描,归纳总结具有相同特征(如腹泻)的目标病例,按照住址、工作单位、活动轨迹分类,当达到任一分类标准的群集性诊断数目时,系统自动发出报警,同时在当地地图中直观显示,依据位置、周围交通的信息,对该突发群集性疾病做出初步判断。
(2)突发群集性疾病风险分析评价:系统对某突发群集性疾病发出报警后,可手动归纳总结特定时间内(如一月内)具有相同特征(如腹泻)的目标病例,同时在当地供水图、下水道分布图等市建地图中标注发病地点,进行初步空间分布特征分析(与当地供水、下水道分布有无关联;空间分布密度与强度等);通过手动改变对目标病例总结时间(如间隔一周),分析突发群集性疾病演变过程,对其进行及早风险等级评价。
(3)慢性疾病的风险分析评价:对单位时间内就诊的与地理分布、饮食习惯等密切相关的慢性疾病(如慢性铅中毒)进行手动归纳总结,分析其在该区域的空间与时间分布特点,探讨慢性疾病与人文风俗、行政规划、地理因素的相关性,为有效的综合整治提供参考。
本发明并不局限于上述实施例,在本发明公开的技术方案的基础上,本领域的技术人员根据所公开的技术内容,不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形,这些替换和变形均在本发明的保护范围内。
Claims (1)
1.一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统,其特征在于,包括病例信息收集模块、活动轨迹追踪模块、自动报警展示模块和风险分析评价模块;其中,
病例信息收集模块:利用医院门诊电子病历系统、住院病历系统以及患者随访系统,利用数据标识实现区域性病人诊治信息的关键数据信息提取,形成数据集成中心,数据信息提取包括患者的个人一般性社会、生物学信息,病情相关信息,社会活动信息;
进行数据信息提取时,按如下步骤进行:
1.1.构建基于病人诊治数据的知识图谱:
对不同系统中的信息进行实体抽取、属性-值对抽取、关系抽取;从无结构文本中识别具有特定意义的实体;针对实体抽取的任务,将其转化为序列标注问题,利用BIO规范对语料进行标注;针对从文本中自动选择特征,采用基于神经网络的方法自动学习特征;最后利用概率模型对文本进行标签预测;具体步骤如下:
1.1.1采用Word2Vec工具进行词向量训练,词向量的训练是从海量的未标注文本中通过无监督的语言模型训练而得到;
1.1.2.采用训练双向长短记忆网络BiLSTM把词向量表示的文本输入到神经网络模型中,学习文本间词语的隐层表示,该网络由一个前向记忆网络LSTMF和一个后向记忆网络LSTMB组成,前者用于学习前向的序列信息,后者学习后向的序列信息,最后得到每个词的隐层表示hi=[Fi,Bi];BiLSTM输出每个字或词的标签分数,为了考虑词汇之间的关联性,在BiLSTM的输出层加入CRF层学习标签之间的关系,而不是独立进行标注;假设输入文本为X=(x1,x2,...,xi…,xn),标签序列为Y=(y1,y2,…,yi,...yn),则CRF对序列标注的打分函数如公式(1)所示:
其中:
式中fk和hj为特征函数,λk和μj为对应的权值,yi是第i个文本输入xi的标签,Z(x)是归一化因子;
对于一个输入序列,其标签序列根据最大分类概率计算:
y*=arg max P(y]x) (3)
1.1.3.关系抽取首先采用哈工大LTP自然语言处理工具对文本进行分词、词性标注;将每个单词映射到一个低维,稠密的向量空间;引入位置信息,距离信息,把位置信息、距离信息表示成位置距离向量;最后拼接词向量、词性向量、位置距离向量生成针对句子中的每个词对应的向量;采用卷积神经网络对输入向量进行特征提取;最后通过softmax函数预测实体关系的分类;
1.2.对医院门诊电子病历系统、住院病历系统以及患者随访系统中的病人诊治信息进行知识融合:
处理包括实体冲突、属性冲突、关系冲突的问题,同时对相同实体包含的信息进行融合和聚集;具体步骤如下:
1.2.1利用Doc2Vec句子表示方法对未被对齐实体与被对齐实体的实体与上下文文本属性信息进行表示,得到两组实体向量e1和e2,接着计算两组向量的相似度,得到未被对齐实体的本地得分如果未被对齐实体的本地得分大于预先设定的阈值α,则把该未被对齐实体加入到候选融合实体集合C中;
1.2.2对被对齐实体所有有关系的实体进行同步消岐,采用设计条件随机场模型,如公式(4)所示,并且利用置信传播算法对条件随机场模型进行训练和预测;最后迭代得出使公式(4)取得最大值的每个目标实体;得出的目标实体即为需要与被对齐实体融合的实体;
1.2.3.采用计算词语相似度的方法解决属性对齐和关系对齐问题,把属性词语训练成词向量,通过相似度计算方法计算两个词向量之间的相似度,若相似度大于设定的阈值,则认为两个属性是对齐的;
活动轨迹追踪模块:利用患者使用的可公布、共享的定位方式,或与移动通讯运营商协议,经主管部门允许,通过患者手机终端获得患者物理空间GPS定位信息,自动对预设地区就诊人群在特定时间段内具有相同患者活动轨迹的特定事件进行群集性分析,包括活动轨迹提取及聚类分析;
活动轨迹追踪模块工作时,包括如下步骤:
2.1活动轨迹获取:
利用带有定位功能的智能穿戴、移动设备获取速度、方向、位置和时间戳四维信息,同时对冗余轨迹数据进行压缩;
轨迹数据由一系列的数据点构成,用P=(p1,p2,…,pi,…pn)表示;具体步骤如下:
2.1.1.利用滑动窗口W和均值技术从轨迹数据中滤除噪点,得到处理后的数据点集P'=(p'1,p'2,…,p'i,p'i+1,…,p'k);
2.1.2.对上述数据点集进行停留点检测,所述停留点是指具有代表性的数据点,使数据点集就变成有意义的地方集;
首先,检查定位点p'i与其后继者p'i+1之间的距离是否大于给定阈值的轨迹;然后,它测量定位点和距离阈值内的最后一个后继p'k之间的时间间隔;如果时间间隔大于给定的阈值,则该定位点为停留点;最后从p'k的后继点迭代检查,直到所有数据点集检查完;
2.1.3.进行轨迹压缩;在步骤2.1.2获得的数据点集的基础上,采用道格拉斯-普克算法进行压缩,过程如下:
将曲线的首末点连成一条直线,求曲线上所有点到直线的垂直距离,并找出最大距离值dmax;
用dmax与预设的阈值D相比,若dmax<D,则将该曲线所有点舍去,用直线取代曲线,该曲线处理完毕;
否则,保留dmax对应的坐标点,并以该点为界,将曲线划为两部分,重复上述步骤,直到所有dmax均小于D,即完成对曲线的压缩;
当所有曲线都处理完毕时,依次连接各个分割点形成的折线,即为原始曲线的路径;
2.2.活动轨迹数据分析:
通过对预处理后轨迹数据,分析与获取有价值的信息,通过时空环境中事故调查、群体跟踪;发现频繁时序模式,通过公共性规律或公共性频繁路径,进行地点预测、病员相似性估计;通过周期性的活动行为,预测病员未来的行为;具体步骤如下:
2.2.1.进行轨迹相似性度量,通常用一个距离函数来计算;首先,定义点与轨迹之间的相似性,假定点q与轨迹A,q与A之间的相似性通常定义如下:
p'为轨迹A上按照d(.)计算距离最小的点;在计算两个点距离时,选择L-P范数,以欧氏距离,切比雪夫距离或曼哈顿距离计算方法计算距离;
接着,通过计算EDR距离来确定轨迹与轨迹的相似性,EDR距离如下:
h,r为轨迹A,B的长度;subcost定义为:
给定轨迹A<a1,a2,...aha>和轨迹B<b1,b2,...brb>,Head(A)表示a1,Rest(A)表示<a2,a3...aha>;
2.2.2.对轨迹进行聚类,分析公共规律行为;采用密度聚类算法DBSCAN,其核心思想:发现密度大于预设阈值的点,然后把相近的高密度点逐步都连成一片,进而生成各种簇;对于给定的线段集合D,算法输出聚类集合0,对于输入的每条线段,算法会对其进行分类,即核心线段和边界线段;过程如下:
a.对于每一条未分类的线段L,算法计算其的ε邻域以判断该线段是否为核心线段;若L为核心线段,则程序跳转下一步;
b.计算核心线段的密度相连集合并把其加入该核心线段组成的簇中;如果新加入的线段未被分类,则把其加入队列Q中以做进一步扩展;若新加入的线段不是核心线段,则不加入队列Q中;
c.计算每个簇的基数,若其值小于阈值,则算法将该簇淘汰;
自动报警展示模块:通过预先设定的扫描病情相关参数、扫描时间和空间半径对聚集性、群体性发生的事件进行自动分析显示并实时报警;达到预先设定的群集性标准时,自动报警生成并存档目标病例的统计表,同时自动在当地地图中直观标注发病地点;
自动报警展示模块工作时,按如下步骤进行:
3.1.在系统展示屏幕上选择需要监控的流行性疾病,通过GPS地图展示其历史数据以及趋势,并通过海量病例分析模块得到相关特征数据,包括时空相关特征;
3.2.依据专家经验预先设置的条件和阈值,判断特征数据是否达到预设触发条件,如果达到预设触发条件,则自动化报警;
风险分析评价模块:利用自动报警展示模块与病例信息收集模块提供的数据信息,当系统自动报警后,采用手动方式对单位时间内出现的相同症状、体征或相同诊断与检查指标结果相同病例,利用时空扫描算法以及上述特征数据标识为单元的异常事件分析探测算法对公共安全事件相关预处理数据信息进行计算,获得相应的计算数值;
风险分析评价模块工作时,包括如下步骤:
4.1.海量病例特征信息处理:
由于要对单位时间内出现特定特征的病例进行索引和查找,在系统自动报警后,处理和分析海量数据;具体步骤如下:
4.1.1.构建基于斐波那契散列的二叉链表;构建规则是:
①对于16位整数而言,取乘数40503
②对于32位整数而言,取乘数2654435769
③对于64位整数而言,取乘数11400714819323198485对于常见的32位整数而言,映射公式如下:
index=(value*2654435769)>>28
其中,value是输入值,index是链表的头地址;
4.1.2.基于分布式的数据处理框架Spark,检索出现特定特征的病例;数据处理步骤:
①使用Spark提交任务,使Driver进程运行在主节点或从节点上;
②使用本地的主节点类的main函数来创建SparkContext并初始化它;
③SparkContext连接到从节点,注册并申请资源;
④主节点根据SparkContext提出的申请,根据任务的心跳报告,来决定到底在哪个任务上启动任务执行模块;
⑤任务执行模块向SparkContext注册;
⑥SparkContext将应用分配给任务执行模块;
⑦SparkContext解析应用,并将应用进行分解成多个阶段,每个阶段通过对应处理模块中的任务分配到相应的工作节点上,并由任务执行模块来执行;
⑧任务执行模块创建线程池,开始执行任务,并向SparkContext汇报;
⑨所有的任务执行完成之后,SparkContext向主节点注销;
4.2.在查找到单位时间内出现特定特征的病例的基础上,利用时空扫描算法以及上述特征数据标识为单元的异常事件分析探测算法对公共安全事件相关预处理数据信息进行计算,具体步骤如下:
4.2.1.使用广度优先的扫描算法遍历所有病例,首先以一个未被访问过的顶点作为起始顶点,访问其所有相邻的顶点;然后对每个相邻的顶点,再访问它们相邻的未被访问过的顶点;最后直到所有顶点都被访问过,遍历结束;实现步骤如下:
①首先以一个未被访问过的顶点作为起始顶点,以该顶点为起点;
②将该顶点放入到队列中,然后将与该顶点相邻的未访问过的顶点依次放入到队列中;
③接下来再将与相邻顶点相邻的未访问过的顶点放入到队列中;
④依此访问所有顶点,遍历结束;
4.2.2.通过异常事件分析探测算法对公共安全事件相关预处理数据信息进行计算,其中异常事件分析探测使用排列熵算法,其计算步骤如下:
设一维时间序列为:Xtime={xtime(1),xtime(2),...,xtime(i),...,xtime(n)}
采用相空间重构延迟坐标法对Xtime中任一元素xtime(i)进行相空间重构,对每个采样点取其连续的m个样点,得到点x(i)的m维空间的重构向量:
Xrec={xrec(i),xrec(i+1),...xrec(i+(m-1)*l)}
则一维时间序列Xtime的相空间矩阵为:
其中m和l分别为重构维数和延迟时间;
对xtime(i)的重构向量Xrec各元素进行升序排列,得到:
X′rec={xrec(i+(c1-1)*l)≤xrec(i+(c2-1)*l)≤...≤xrec(i+(cm-1)*l)}
这样得到的排列方式为:
{c1,c2,...,cm}
其中,mdim是空间维度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010553296.5A CN111916215B (zh) | 2020-06-17 | 2020-06-17 | 一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010553296.5A CN111916215B (zh) | 2020-06-17 | 2020-06-17 | 一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111916215A CN111916215A (zh) | 2020-11-10 |
CN111916215B true CN111916215B (zh) | 2022-04-29 |
Family
ID=73237779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010553296.5A Active CN111916215B (zh) | 2020-06-17 | 2020-06-17 | 一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111916215B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112331347A (zh) * | 2020-11-27 | 2021-02-05 | 霖久智慧(广东)科技有限公司 | 智慧健康生活平台 |
CN112687401B (zh) * | 2020-12-31 | 2022-07-01 | 医渡云(北京)技术有限公司 | 聚集风险确定方法及装置、计算机可读介质及电子设备 |
CN112951441B (zh) * | 2021-02-25 | 2023-05-30 | 平安科技(深圳)有限公司 | 基于多维度的监测预警方法、装置、设备及存储介质 |
CN113688961B (zh) * | 2021-10-27 | 2022-02-15 | 南通智大信息技术有限公司 | 一种基于聚焦模式的特殊人群追踪方法及系统 |
CN115035991A (zh) * | 2022-04-29 | 2022-09-09 | 北京神州视翰科技有限公司 | 一种基于动态二维码的住院患者医疗信息融合方法 |
CN115762698B (zh) * | 2022-12-01 | 2024-02-13 | 武汉博科国泰信息技术有限公司 | 一种医疗慢病检查报告数据提取方法及系统 |
CN115862897B (zh) * | 2023-02-21 | 2023-05-23 | 江西曼荼罗软件有限公司 | 一种基于临床数据的症候群监测方法及系统 |
CN116453669B (zh) * | 2023-06-14 | 2023-08-25 | 武汉大学中南医院 | 一种基于大数据的护理预测方法及装置 |
CN117064343B (zh) * | 2023-10-11 | 2023-12-19 | 汉达科技发展集团有限公司 | 一种可检测生命体征的智能ar偏振探测数据处理方法 |
CN117133464B (zh) * | 2023-10-26 | 2024-03-12 | 中国人民解放军总医院第二医学中心 | 一种老年人健康智能监测系统及监测方法 |
CN118053597B (zh) * | 2024-04-11 | 2024-07-02 | 青岛云智霄凡科技有限公司 | 一种基于内科检测电子数据的分析方法 |
CN118335305A (zh) * | 2024-04-28 | 2024-07-12 | 深圳市疾病预防控制中心(深圳市卫生检验中心、深圳市预防医学研究所) | 一种医疗预约及风险评估系统 |
CN118471409A (zh) * | 2024-05-13 | 2024-08-09 | 扬州大学附属医院(扬州市第一人民医院) | 一种儿童心血管数据集成及智能归档系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103310083A (zh) * | 2012-03-09 | 2013-09-18 | 李晓松 | 一种传染病聚集性探测与早期预警系统 |
CN109817338A (zh) * | 2019-02-13 | 2019-05-28 | 北京大学第三医院(北京大学第三临床医学院) | 一种慢性病加重风险评估与告警系统 |
CN111184508A (zh) * | 2020-01-19 | 2020-05-22 | 武汉大学 | 一种基于联合神经网络的心电信号检测装置及分析方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156528B (zh) * | 2016-08-01 | 2019-03-05 | 中国科学院深圳先进技术研究院 | 一种轨迹数据停留识别方法及系统 |
CN106326654B (zh) * | 2016-08-24 | 2018-03-09 | 北京辛诺创新科技有限公司 | 基于大数据云分析的健康预测系统、智能终端和服务器 |
CN107277763B (zh) * | 2017-05-05 | 2019-12-06 | 中国科学院深圳先进技术研究院 | 一种传染病防控方法及系统 |
CN107256327B (zh) * | 2017-05-05 | 2020-04-14 | 中国科学院深圳先进技术研究院 | 一种传染病防控方法及系统 |
US10292698B2 (en) * | 2017-07-27 | 2019-05-21 | Endoevolution, Llc | Apparatus and method for minimally invasive suturing |
US11532379B2 (en) * | 2018-02-16 | 2022-12-20 | The Livlyme Foundation | Methods and systems of tracking disease carrying arthropods |
CN109360660A (zh) * | 2018-10-31 | 2019-02-19 | 河南省疾病预防控制中心 | 一种疾控与出行信息互联的防控方法及防控系统 |
CN111180070A (zh) * | 2019-12-30 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 病历数据分析方法及装置 |
-
2020
- 2020-06-17 CN CN202010553296.5A patent/CN111916215B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103310083A (zh) * | 2012-03-09 | 2013-09-18 | 李晓松 | 一种传染病聚集性探测与早期预警系统 |
CN109817338A (zh) * | 2019-02-13 | 2019-05-28 | 北京大学第三医院(北京大学第三临床医学院) | 一种慢性病加重风险评估与告警系统 |
CN111184508A (zh) * | 2020-01-19 | 2020-05-22 | 武汉大学 | 一种基于联合神经网络的心电信号检测装置及分析方法 |
Non-Patent Citations (1)
Title |
---|
"基于多任务的中文电子病历中命名实体识别研究";杨晓辉等;《东北师大学报(自然科学版)》;20200331;第52卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111916215A (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111916215B (zh) | 一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统 | |
US11500872B2 (en) | Graph database for outbreak tracking and management | |
CN112992317B (zh) | 一种医学数据处理方法、系统、设备及介质 | |
Tang et al. | Big data in forecasting research: a literature review | |
CN112786205B (zh) | 基于数据模型的症候群预警方法、装置、介质及设备 | |
CN113010572A (zh) | 基于深度贝叶斯网络的公共数字生活场景规则模型预测预警方法 | |
US20220405619A1 (en) | Intelligent updating and data processing for deployed machine learning models | |
Lloyd et al. | Using GIS and machine learning to classify residential status of urban buildings in low and middle income settings | |
CN113362960B (zh) | 结合多源数据的城市居民公共健康影响因素可视分析系统及方法 | |
Jung et al. | Self-attention-based deep learning network for regional influenza forecasting | |
US20220336110A1 (en) | Case sift and cluster sift for outbreak tracking and management | |
CN111696656B (zh) | 一种互联网医疗平台的医生评价方法、装置 | |
CN117390145A (zh) | 临床试验的自动文本对话方法、装置、设备及介质 | |
Sang | [Retracted] Analysis and Research of Psychological Education Based on Data Mining Technology | |
CN112651782B (zh) | 基于缩放点积注意力的行为预测方法、装置、设备及介质 | |
CN113688205A (zh) | 一种基于深度学习的疾病检测方法 | |
Lu et al. | Machine learning models using SHapley Additive exPlanation for fire risk assessment mode and effects analysis of stadiums | |
Zhang et al. | Pixel-level detection of multiple pavement distresses and surface design features with ShuttleNetV2 | |
CN115687429A (zh) | 一种社交媒体用户行为模式挖掘方法 | |
Iparraguirre-Villanueva et al. | Classification of tweets related to natural disasters using machine learning algorithms | |
Li et al. | MultiLineStringNet: a deep neural network for linear feature set recognition | |
Xue et al. | Passenger Travel Patterns and Behavior Analysis of Long-Term Staying in Subway System by Massive Smart Card Data | |
Zhao et al. | Logistic regression analysis of targeted poverty alleviation with big data in mobile network | |
Zhao et al. | Site Selection Prediction for Coffee Shops Based on Multi-Source Space Data Using Machine Learning Techniques | |
CN116434951A (zh) | 疾病预警方法、装置、电子设备、存储介质以及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |