CN111916215A - 一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统 - Google Patents

一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统 Download PDF

Info

Publication number
CN111916215A
CN111916215A CN202010553296.5A CN202010553296A CN111916215A CN 111916215 A CN111916215 A CN 111916215A CN 202010553296 A CN202010553296 A CN 202010553296A CN 111916215 A CN111916215 A CN 111916215A
Authority
CN
China
Prior art keywords
information
data
entity
module
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010553296.5A
Other languages
English (en)
Other versions
CN111916215B (zh
Inventor
龚开政
殷旭东
王磊
朱毅
章永龙
李斌
孙小兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Affiliated Hospital of Yangzhou University
Original Assignee
Affiliated Hospital of Yangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Affiliated Hospital of Yangzhou University filed Critical Affiliated Hospital of Yangzhou University
Priority to CN202010553296.5A priority Critical patent/CN111916215B/zh
Publication of CN111916215A publication Critical patent/CN111916215A/zh
Application granted granted Critical
Publication of CN111916215B publication Critical patent/CN111916215B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了公共卫生领域内的一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统,其包括病例信息收集模块、活动轨迹追踪模块、自动报警展示模块和风险分析评价模块;通过对医疗机构病历数据库的定时扫描,结合患者个体行动轨迹的自动分析,能够对出现的突发群集性疾病实现自动报警,对单位时间内相同病例的总结与初步风险分析评价,可通过对单位时间内出现病例的分布特征分析,指导该区域慢性病差异性防控措施的制订。

Description

一种群集性/慢性疾病早期自动报警、初步特征分析与风险评 估系统
技术领域
本发明涉及公共卫生领域,特别是涉及群集性/慢性疾病早期自动报警、 初步特征分析与风险评估。
背景技术
突发性群集性传染性疾病,如严重急性呼吸综合征(SARS)、甲型HIN1 流感、新冠肺炎(COVID-19)等的大面积爆发,对人类生命安全与社会经济 稳定构成了极大威胁;某些慢性疾病,如高血压、类风湿性关节炎、微量元 素缺乏症等,与患者地理分布、饮食习惯等密切相关,我国每年花费大量的 人力物力用于群集性疾病与慢性疾病的防治。在临床工作实践中我们发现, 传统的传染病监测极度依赖于医务人员对这些疾病的敏锐性和警觉性,而且 也只能针对能诊断明确的传染病。事实上,对那些急性传染病尤其是不明原 因的传染病要做出及时发现和判断,最大程度化解公共卫生风险十分依赖于 临床及早识别和发现患者。其中,及早识别出发病人群具有聚集性的特点具 有十分重要的流行病学意义和社会意义;同样,对于慢性疾病的管理以及某 些地方病的流行状况监测也都依赖于一定物理空间区域内患者群集性状态的 自动识别。因此,这种对群集性早期预警与风险等级评价,无论对急慢性传 染病、慢性病管理均具有重要的临床意义。现有技术中,缺乏自动识别的群 集性病例事件的监测应用系统,难以及时发现可疑患者集聚人群有利于及早 的采取应对措施,因此也难以最大程度减轻这类疾病对社会造成的影响。
发明内容
本发明针对传统群集性/慢性疾病早期自动报警、初步特征分析与风险评 估的不足,提出一种群集性/慢性疾病早期自动报警、初步特征分析与风险评 估系统,使其能够针对群集性/慢性疾病自动发出早期报警信息,主动提醒不 同接诊医师就同类事件进行关注、跟踪分析,避免因人为因素对群集性疾病 早期报警的延迟,及早作出预判和处理。
本发明的目的是这样实现的:
一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统,包 括病例信息收集模块、活动轨迹追踪模块、自动报警展示模块和风险分析评 价模块;其中,
病例信息收集模块:利用医院门诊电子病历系统、住院病历系统以及患者随 访系统,利用数据标识实现区域性病人诊治信息的关键数据信息提取,形成 数据集成中心,数据信息提取包括且不限于患者的个人一般性社会、生物学 信息,病情相关信息,社会活动信息;
活动轨迹追踪模块:利用患者使用的可公布、共享的定位方式,或与移动通 讯运营商协议,经主管部门允许,通过患者手机终端获得患者物理空间GPS 定位信息,自动对某地区就诊人群在某一特定时间段内具有相同患者活动轨 迹的特定事件进行群集性分析,包括活动轨迹提取及聚类分析;
自动报警展示模块:通过预先设定的扫描病情相关参数、扫描时间\空间半 径对聚集性、群体性发生的事件进行自动分析显示并实时报警;达到预先设 定的群集性标准时,自动报警生成并存档目标病例的统计表,同时自动在当 地地图中直观标注发病地点;
风险分析评价模块:利用自动报警展示模块与病例信息收集模块提供的数据 信息,当系统自动报警后,采用手动方式对单位时间内出现的相同症状、体 征或相同诊断与某检查指标结果相同病例,利用时空扫描算法以及上述特征 数据标识为单元的异常事件分析探测算法对公共安全事件相关预处理数据信 息进行计算,获得相应的计算数值。
进行数据信息提取时,按如下步骤进行:
1.1.构建基于病人诊治数据的知识图谱:
对不同系统中的信息进行实体抽取、属性-值对抽取、关系抽取;从无结 构文本中识别具有特定意义的实体;针对实体抽取的任务,将其转化为序列 标注问题,利用BIO规范对语料进行标注;针对从文本中自动选择特征,采 用基于神经网络的方法自动学习特征;最后利用概率模型对文本进行标签预 测;具体步骤如下:
1.1.1采用Word2Vec工具进行词向量训练,词向量的训练是从海量的未 标注文本中通过无监督的语言模型训练而得到;
1.1.2.采用训练双向长短记忆网络BiLSTM把词向量表示的文本输入到 神经网络模型中,学习文本间词语的隐层表示,该网络由一个前向记忆网络 LSTMF和一个后向记忆网络LSTMB组成,前者用于学习前向的序列信息,后 者学习后向的序列信息,最后得到每个词的隐层表示hi=[Fi,Bi];BiLSTM 输出每个字或词的标签分数,为了考虑词汇之间的关联性,在BiLSTM的输出 层加入CRF层学习标签之间的关系,而不是独立进行标注;假设输入文本为 X=(x1,x2,…,xn),标签序列为Y=(y1,y2,…,yn),则CRF对序列标注 的打分函数如公式(1)所示:
Figure BDA0002543277770000031
其中:
Figure BDA0002543277770000032
式中fk和hj为特征函数,λk和μj为对应的权值,yi是第i个文本输入xi的标 签,Z(x)是归一化因子;
对于一个输入序列,其标签序列根据最大分类概率计算:
y*=argmaxp(y|x) (3)
1.1.3.关系抽取首先采用哈工大LTP自然语言处理工具对文本进行分 词、词性标注;将每个单词映射到一个低维,稠密并且具有真实语义含义的 向量空间;引入位置信息,距离信息,把位置信息、距离信息表示成位置距 离向量;最后拼接词向量、词性向量、位置距离向量生成针对句子中的每个 词对应的向量;采用卷积神经网络对输入向量进行特征提取;最后通过 softmax函数预测实体关系的分类;
1.2.对医院门诊电子病历系统、住院病历系统以及患者随访系统等不同系统 中的病人诊治信息进行知识融合:
处理包括实体冲突、属性冲突、关系冲突的问题,同时对相同实体包含 的信息进行融合和聚集;具体步骤如下:
1.2.1利用Doc2Vec句子表示方法对其他实体与被对齐实体的实体与上 下文文本等属性信息进行表示,得到两组实体向量e1和e2,接着计算两组 向量的相似度,得到其他实体的本地得分
Figure BDA0002543277770000041
如果实体的本地得分大于预 先设定的阈值α,则把该实体加入到候选融合实体集合C中;
1.2.2对被对齐实体所有有关系的实体进行同步消岐,采用设计条件随 机场模型,如公式(4)所示,并且利用置信传播算法对条件随机场模型进行 训练和预测;最后迭代得出使公式(4)取得最大值的每个目标实体;得出的 目标实体即为需要与被对齐实体融合的实体;
Figure BDA0002543277770000051
其中e为候选实体集合,m为同步消岐的实体集合,
Figure BDA0002543277770000053
为实体ei的本 地得分,ω(ei,ej)为候选实体之间的关系得分;
1.2.3.采用计算词语相似度的方法解决属性对齐和关系对齐问题,把属 性词语训练成词向量,通过相似度计算方法计算两个词向量之间的相似度, 若相似度大于设定的阈值,则认为两个属性是对齐的。
所述活动轨迹追踪模块工作时,包括如下步骤:
2.1活动轨迹获取:
利用带有定位功能的智能穿戴、移动设备获取速度、方向、位置和时间 戳四维信息,同时对冗余轨迹数据进行压缩;
轨迹数据由一系列的数据点构成,用P=(p1,p2,…,pi,…)表示;具体 步骤如下:
2.1.1.利用滑动窗口W和均值技术从轨迹数据中滤除噪点,得到处理 后的数据点集P′=(p′1,p′2,…,p′i,…);
2.1.2.对上述数据点集进行停留点检测,所述“停留点”是指具有代表 性的数据点,使数据点集就变成有意义的地方集;
Figure BDA0002543277770000052
首先,检查定位点p′i与其后继者p′i+1之间的距离是否大于给定阈值的轨 迹;然后,它测量定位点和距离阈值内的最后一个后继p′k之间的时间间隔; 如果时间间隔大于给定的阈值,则该定位点为停留点;最后从p′k的后继点迭 代检查,直到所有数据点集检查完;
2.1.3.进行轨迹压缩;在步骤2.1.2获得的数据点集的基础上,采用道 格拉斯-普克算法进行压缩,过程如下:
将曲线的首末点连成一条直线,求曲线上所有点到直线的垂直距离,并 找出最大距离值dmax
用dmax与预设的阈值D相比,若dmax<D,则将该曲线所有点舍去,用直 线取代曲线,该曲线处理完毕;
否则,保留dmax对应的坐标点,并以该点为界,将曲线划为两部分,重 复步骤上述步骤,直到所有dmax均小于D,即完成对曲线的压缩;
当所有曲线都处理完毕时,依次连接各个分割点形成的折线,即为原始 曲线的路径;
2.2.活动轨迹数据分析:
通过对预处理后轨迹数据,分析与获取有价值的信息,通过时空环境中 事故调查、群体跟踪;发现频繁时序模式,通过公共性规律或公共性频繁路 径,进行地点预测、病员相似性估计;通过周期性的活动行为,预测病员未 来的行为;具体步骤如下:
2.2.1.进行轨迹相似性度量,通常用一个距离函数来计算;首先,定义 点与轨迹之间的相似性,假定点q与轨迹A,q与A之间的相似性通常定义如 下:
Figure BDA0002543277770000061
p'为轨迹A上按照d(.)计算距离最小的点;这里,计算两个点距离时, 可以选择L-P范数,可以选择欧氏距离,切式距离,曼哈顿距离等各种距离 计算方法;
接着,通过计算EDR距离来确定轨迹与轨迹的相似性,EDR距离如下:
Figure RE-GDA0002706025380000071
n,m为轨迹A,B的长度;subcost定义为:
Figure RE-GDA0002706025380000072
给定轨迹A<a1,a2,...an>和轨迹B<b1,b2,...bm>,Head(A)表示 a1,Rest(A)表示<a2,a3...an>;
2.2.2.对轨迹进行聚类,分析公共规律行为;采用密度聚类算法DBSCAN, 其核心思想:发现密度较高的点,然后把相近的高密度点逐步都连成一片, 进而生成各种簇;对于给定的线段集合D,算法输出聚类集合O,对于输入的每 条线段,算法会对其进行分类,即核心线段和边界线段;过程如下:
a.对于每一条未分类的线段L,算法计算其的ε邻域以判断该线段是 否为核心线段;若L为核心线段,则程序跳转下一步;
b.计算核心线段的密度相连集合并把其加入该核心线段组成的簇中;如 果新加入的线段未被分类,则把其加入队列Q中以做进一步扩展,因为该线 段可能是核心线段;若新加入的线段不是核心线段,则不加入队列Q中;
c.计算每个簇的基数,若其值小于阈值,则算法将该簇淘汰。
自动报警展示模块工作时,按如下步骤进行:
3.1.在系统展示屏幕上选择需要监控的流行性疾病,通过GPS地图展示 其历史数据以及趋势,并通过海量病例分析模块得到相关特征数据,包括时 空相关特征;
3.2.依据专家经验预先设置的条件和阈值,判断特征数据是否达到预设 触发条件,如果达到预设触发条件,则自动化报警。
所述风险分析评价模块工作时,包括如下步骤:
4.1.海量病例特征信息处理:
由于要对单位时间内出现某种特征的病例进行索引和查找(某种特征指 相同症状、体征或相同诊断与某检查指标结果相同),因此首先需要在系统自 动报警后,能够处理和分析海量数据;具体步骤如下:
4.1.1.构建基于斐波那契散列的二叉链表;构建规则是:
①对于16位整数而言,取乘数40503
②对于32位整数而言,取乘数2654435769
③对于64位整数而言,取乘数11400714819323198485
对于常见的32位整数而言,映射公式如下:
index=(value*2654435769)>>28
其中,value是输入值,index是链表的头地址;
4.1.2.基于分布式的数据处理框架Spark,检索出现某种特征的病例;
数据处理步骤:
①使用Spark提交任务,使Driver进程运行在主节点或从节点上;
②使用本地的主节点类的main函数来创建SparkContext并初始化它;
③SparkContext连接到从节点,注册并申请资源;
④主节点根据SparkContext提出的申请,根据任务的心跳报告,来决定 到底在那个任务上启动任务执行模块;
⑤任务执行模块向SparkContext注册;
⑥SparkContext将应用分配给任务执行模块;
⑦SparkContext解析应用,并将应用进行分解成多个阶段,每个阶段通 过对应处理模块中的任务分配到相应的工作节点上,并由任务执行模块来执 行;
⑧任务执行模块创建线程池,开始执行任务,并向SparkContext汇报;
⑨所有的任务执行完成之后,SparkContext向主节点注销。
4.2.在查找到单位时间内出现某种特征的病例的基础上,利用时空扫描 算法以及上述特征数据标识为单元的异常事件分析探测算法对公共安全事件 相关预处理数据信息进行计算,具体步骤如下:
4.2.1.使用广度优先的扫描算法遍历所有病例,首先以一个未被访问过 的顶点作为起始顶点,访问其所有相邻的顶点;然后对每个相邻的顶点,再 访问它们相邻的未被访问过的顶点;最后直到所有顶点都被访问过,遍历结 束;实现步骤如下:
①首先以一个未被访问过的顶点作为起始顶点,以该顶点为起点;
②将该顶点放入到队列中,然后将与该顶点相邻的未访问过的其他顶点 依次放入到队列中;
③接下来再将与相邻顶点相邻的未访问过的顶点放入到队列中;
④依此访问所有顶点,遍历结束;
4.2.2.通过异常事件分析探测算法对公共安全事件相关预处理数据信息 进行计算,其中异常事件分析探测使用排列熵算法,其计算步骤如下:
设一维时间序列为:X={x(1),x(1),...,x(n)}
采用相空间重构延迟坐标法对X中任一元素x(i)进行相空间重构,对每 个采样点取其连续的m个样点,得到点x(i)的m维空间的重构向量:
Xi={x(i),x(i+1),...,x(i+(m-1)*l)}
则序列X的相空间矩阵为:
Figure BDA0002543277770000101
其中m和l分别为重构维数和延迟时间;
对x(i)的重构向量Xi各元素进行升序排列,得到:
X′i={x(i+(j1-1)*l)≤x(i+(j2-1)*l)≤…≤x(i+(jm-1)*l)}
这样得到的排列方式为:
{j1,j2,...,jm}
其为全排列m!中的一种,对X序列各种排列情况出现次数进行统计,计 算各种排列情况出现的相对频率作为其概率p1、p2、…pk,k<=m!,计算序列 归一化后的排列熵:
Figure BDA0002543277770000102
其中,m是空间维度。
本发明的有益效果在于:
⑴通过对医疗机构病历数据库的定时扫描,结合患者个体行动轨迹的自 动分析,能够对出现的突发群集性疾病实现自动报警,避免目前因人工上报 造成的防控迟滞,为重大突发群集性疾病(如COVID-19)争取到宝贵的防控 时间。
⑵当系统对某个特征突发群集性疾病自动报警后,通过对单位时间内相 同病例的总结与初步风险分析评价,如与当地供水、下水道分布有无关联; 空间分布密度与强度等,为早期疫情防控措施的制订提供有效支撑。
⑶对于高血压、类风湿性关节炎、微量元素缺乏症等与地理分布、饮食 习惯等密切相关的慢性疾病,可通过对单位时间内出现病例的分布特征分析, 指导该区域慢性病差异性防控措施的制订。
附图说明
图1为本发明利用滑动窗口和均值技术去噪示意图。
图2为本发明的流程图。
具体实施方式
如图2所示,本发明的一种群集性/慢性疾病早期自动报警、初步特征分 析与风险评估系统,包括病例信息收集模块、活动轨迹追踪模块、自动报警 展示模块和风险分析评价模块:
(1)病例信息收集模块:
该模块主要利用医院门诊电子病历系统、住院病历系统以及患者随访系 统进行无缝对接,利用数据标识实现区域性病人诊治信息的关键数据信息提 取,形成数据集成中心,数据信息提取包括且不限于患者的个人一般性社会、 生物学信息:比如年龄、职业、特殊工作环境暴露史、性别、体重、工作地 点、家庭住址等;病情相关信息:比如各种症状、特殊体征、疾病诊断、发 病时间、既往病症、家族史、发病地点、药物使用等;社会活动信息:比如 高危场所、特殊食品、特殊个人生活行为等。
包括如下处理步骤:
1.1.构建基于病人诊治数据的知识图谱:
对不同系统中的信息进行实体抽取、属性-值对抽取、关系抽取。实体抽 取是信息抽取的基本任务之一,指从无结构文本中识别具有特定意义的实体。 针对实体抽取的任务,将其转化为序列标注问题,利用BIO规范对语料进行 标注,其中B是beginning的缩写表示词的开始标签,I是inside的缩写表 示词的中间标签,O是outside的缩写表示非标签。针对从文本中自动选择 特征的问题,设计基于神经网络的方法自动学习特征。最后利用概率模型对 文本进行标签预测。具体步骤如下:
1.1.1.采用Word2Vec工具进行词向量训练,词向量的训练是从海量的未 标注文本中通过无监督的语言模型训练而得到。
1.1.2.采用训练双向长短记忆网络BiLSTM把词向量表示的文本输入到 神经网络模型中,学习文本间词语的隐层表示,该网络由一个前向记忆网络 LSTMF和一个后向记忆网络LSTMB组成,前者用于学习前向的序列信息,后 者学习后向的序列信息,最后得到每个词的隐层表示hi=[Fi,Bi]。BiLSTM 输出每个字或词的标签分数,为了考虑词汇之间的关联性,在BiLSTM的输出 层加入CRF(条件随机场)层学习标签之间的关系,而不是独立进行标注。 假设输入文本为X=(x1,x2,…,xn),标签序列为Y=(y1,y2,…,yn),则 CRF对序列标注的打分函数如公式(1)所示:
Figure BDA0002543277770000121
其中:
Figure BDA0002543277770000122
式中,fk和hj为特征函数,λk和μj为对应的权值,yi是第i个文本输入xi的 标签,Z(x)是归一化因子;
对于一个输入序列,其标签序列根据最大分类概率计算:
y*=argmaxp(y|x) (3)
1.1.3.关系抽取首先采用哈工大LTP自然语言处理工具对文本进行分 词、词性标注。将每个单词映射到一个低维,稠密并且具有真实语义含义的 向量空间。考虑位置关系、距离关系等对学习实体对关于上下文的表示的重 要性,引入了位置信息,距离信息,把位置信息、距离信息表示成位置距离 向量。最后拼接词向量、词性向量、位置距离向量生成针对句子中的每个词 对应的向量。考虑卷积方法可以将所有局部特征合并起来进行全局预测,采 用卷积神经网络对输入向量进行特征提取。最后通过softmax函数预测实体 关系的分类。
1.2.对医院门诊电子病历系统、住院病历系统以及患者随访系统等不同 系统中的病人诊治信息进行知识融合。
将来源于不同数据源的数据其表现形式各异,同一实体在不同数据源中 的表征可能不同,同一实体表征可能指代不同实体,对于属性、关系也存在 同样的问题。处理包括实体冲突、属性冲突、关系冲突的问题,同时对相同 实体包含的信息进行融合和聚集。具体步骤如下:
1.2.1.利用Doc2Vec句子表示方法对其他实体与被对齐实体的实体与上 下文文本等属性信息进行表示,得到两组实体向量e1和e2,接着计算两组 向量的相似度,得到其他实体的本地得分
Figure BDA0002543277770000131
如果实体的本地得分大于预 先设定的阈值α,则把该实体加入到候选融合实体集合C中。
1.2.2.对被对齐实体所有有关系的实体进行同步消岐,采用设计条件随 机场模型,如公式(4)所示,并且利用置信传播算法对条件随机场模型进行 训练和预测。最后迭代得出使公式(4)取得最大值的每个目标实体。得出的 目标实体即为需要与被对齐实体融合的实体。
Figure BDA0002543277770000132
其中e为候选实体集合,m为同步消岐的实体集合,ω(ei,ej)为候选实体 之间的关系得分。
1.2.3.采用计算词语相似度的方法解决属性对齐和关系对齐问题,把属 性词语训练成词向量,通过相似度计算方法计算两个词向量之间的相似度, 若相似度大于设定的阈值,则认为两个属性是对齐的。
(2)活动轨迹追踪模块:
该模块利用患者使用的可公布、共享的定位方式(如微信、微博等);或 与移动通讯运营商协议,经主管部门允许,通过患者手机终端获得患者物理 空间GPS定位信息,自动对某地区就诊人群在某一特定时间段内具有相同患 者活动轨迹的特定事件如腹泻、脾肿大、心肌梗死等情况进行群集性分析。 相关算法为:
2.1.活动轨迹获取:
利用带有定位功能的智能穿戴、移动设备获取速度、方向、位置和时间 戳四维信息,由于轨迹数据量大且冗余,为便于存储与计算,需对原始数据 进行压缩。
轨迹数据由一系列的数据点构成,用P=(p1,p2,…,pi,…)表示。具体步骤如 下:
2.1.1.由于一些因素,如在城市峡谷中收到较差的定位信号,空间轨迹 永远不会完全准确,会出现一些噪声点。因此,需要从轨迹中滤除这些噪点。 这里,可以利用滑动窗口W和均值技术对这些噪声数据进行摒弃掉,如图1 所示。
得到处理后的数据点集P′=(p′1,p′2,…,p′i,…)。
2.1.2.对上述数据点集进行停留点检测,这里,“停留点”是指具有代表 性的数据点,例如:超市、加油站等,有了停留点,数据点集就变成有意义 的地方集。
Figure BDA0002543277770000151
首先,检查定位点p′i与其后继者p′i+1之间的距离是否大于给定阈值的轨 迹。然后,它测量定位点和距离阈值内的最后一个后继p′k之间的时间间隔。 如果时间间隔大于给定的阈值,则该定位点为停留点。最后从p′k的后继点迭 代检查,直到所有数据点集检查完。
2.1.3.由于轨迹数据是短时间内(如:秒级)采集的,需要大量的电池 电量、通信、计算和数据存储的开销。但实际应用中可能不真正需要这样的 位置精度,因而需进行轨迹压缩。在步骤2.1.2获得的数据点集的基础上, 采用道格拉斯-普克(Douglas-Peucker DP)算法进行压缩,过程如下:
将曲线的首末点连成一条直线,求曲线上所有点到直线的垂直距离,并 找出最大距离值dmax
用dmax与预设的阈值D相比,若dmax<D,则将该曲线所有点舍去,用直 线取代曲线,该曲线处理完毕;
否则,保留dmax对应的坐标点,并以该点为界,将曲线划为两部分,重 复步骤上述步骤,直到所有dmax均小于D,即完成对曲线的压缩。
当所有曲线都处理完毕时,依次连接各个分割点形成的折线,即为原始 曲线的路径。
2.2.活动轨迹数据分析:
通过对预处理后轨迹数据,分析与获取有价值的信息,如:病员的行为 特征和规律,可以实现时空环境中事故调查、群体跟踪等;发现频繁时序模 式,如公共性规律或公共性频繁路径等,可以用于地点预测、病员相似性估 计等;周期性的活动行为,通过挖掘此类轨迹,可以预测病员未来的行为。 具体步骤如下:
2.2.1进行轨迹相似性度量,通常用一个距离函数来计算。首先,定义 点与轨迹之间的相似性,假定点q与轨迹A,q与A之间的相似性通常定义如 下:
Figure BDA0002543277770000161
p'为轨迹A上按照d(.)计算距离最小的点。这里,计算两个点距离时, 可以选择L-P范数,可以选择欧氏距离,切式距离,曼哈顿距离等各种距离 计算方法。
接着,通过计算EDR距离来确定轨迹与轨迹的相似性,EDR距离如下:
Figure BDA0002543277770000162
n,m为轨迹A,B的长度。subcost定义为:
Figure BDA0002543277770000163
给定轨迹A<a1,a2,...an>和轨迹B<b1,b2,...bm>,Head(A)表示 a1,Rest(A)表示<a2,a3...an>。
2.2.2.对轨迹进行聚类,分析公共规律行为。采用密度聚类算法DBSCAN, 其核心思想:发现密度较高的点,然后把相近的高密度点逐步都连成一片, 进而生成各种簇。对于给定的线段集合D,算法输出聚类集合O,对于输入的每 条线段,算法会对其进行分类,即核心线段和边界线段。过程如下:
a.对于每一条未分类的线段L,算法计算其的ε邻域以判断该线段是 否为核心线段。若L为核心线段,则程序跳转下一步。
b.计算核心线段的密度相连集合并把其加入该核心线段组成的簇中。如 果新加入的线段未被分类,则把其加入队列Q中以做进一步扩展,因为该线 段可能是核心线段;若新加入的线段不是核心线段,则不加入队列Q中。
c.计算每个簇的基数,若其值小于阈值,则算法将该簇淘汰,因为其不 够密集。
特别值得一提的是,本模块将实现个人轨迹信息的自运行状态分析,无 对外人机交互界面或窗口,通过自动分析仅仅只输出特定人群共有的群集性 发病的地点信息即可,从而可有效实现对个人轨迹信息采集后有关个人隐私 泄露的最高级别保护。
(3)自动报警展示模块:
通过预先设定的扫描病情相关参数、扫描时间\空间半径对聚集性、群体 性发生的事件进行自动分析显示并实时报警。对于急性事件,我们可以设置 扫描的时间范围参数可从数小时至数周,空间半径可设置为几十米到几公里 不等;而对于慢性病管理,我们设置扫描的时间范围可从数月至数年,空间 半径可设置为几公里至几百公里不等。达到预先设定的群集性标准时,自动 报警生成并存档目标病例的统计表,同时自动在当地地图中直观标注发病地 点。
具体步骤如下:
3.1.在系统展示屏幕上选择需要监控的流行性疾病,通过GPS地图展示 其历史数据以及趋势,并通过海量病例分析模块得到相关特征数据,包括时 空相关特征。
3.2.依据专家经验预先设置的条件和阈值,判断特征数据是否达到预设 触发条件,如果达到预设触发条件,则自动化报警。
(4)风险分析评价模块:
该模块利用自动报警展示模块与病例信息收集模块提供的数据信息,当 系统自动报警后,采用手动方式对单位时间内出现的相同症状、体征或相同 诊断与某检查指标结果相同病例,利用时空扫描算法以及上述特征数据标识 为单元的异常事件分析探测算法对公共安全事件相关预处理数据信息进行计 算,获得相应的计算数值。相关算法为:
4.1.海量病例特征信息处理:
由于要对单位时间内出现某种特征的病例进行索引和查找(某种特征指 相同症状、体征或相同诊断与某检查指标结果相同),因此首先需要在系统自 动报警后,能够处理和分析海量数据。具体步骤如下:
4.1.1.构建基于斐波那契散列的二叉链表;
散列是指把任意长度的输入通过散列算法,变换成固定长度的输出,本 质是找到一种数据内容和数据存放地址之间的映射关系,这种关系是一种压 缩映射,即散列值的空间通常远小于输入的空间,不同的输入可能会散列成 相同的输出。斐波那契散列是指基于斐波那契数列取乘数,通过该乘数将原 始数据内容中的元素映射到链表中,达到效率和准确率都很高的目标。二叉 链表是“链表的数组”,本质上是基于树的存储结构,其同时具备数组寻址 容易和链表插入和删除容易的优点。基于斐波那契散列的二叉链表的构建规 则是:
①对于16位整数而言,取乘数40503
②对于32位整数而言,取乘数2654435769
③对于64位整数而言,取乘数11400714819323198485
对于常见的32位整数而言,映射公式如下:
index=(value*2654435769)>>28
其中,value是输入值,index是链表的头地址。
4.1.2.基于分布式的数据处理框架Spark,检索出现某种特征的病例;
Spark是基于大数据框架Hadoop的一个数据处理框架,与Hadoop原生 的数据处理模块MapReduce相比,Spark具有高效(比MapReduce快10—100 倍)、多编程语言支持(提供了丰富的API,支持Java,Scala,Python和R 四种语言)、易用(代码量比MapReduce少2—5倍)等优势。以Spark的独 立模式说明数据处理步骤:
①使用Spark提交任务,使Driver进程运行在主节点或从节点上;
②使用本地的主节点类的main函数来创建SparkContext(Spark的任务 执行内容)并初始化它;
③SparkContext连接到从节点,注册并申请资源(内核和内存);
④主节点根据SparkContext提出的申请,根据任务的心跳报告,来决定 到底在那个任务上启动任务执行模块;
⑤任务执行模块向SparkContext注册;
⑥SparkContext将应用分配给任务执行模块;
⑦SparkContext解析应用,并将应用进行分解成多个阶段,每个阶段通 过对应处理模块中的任务分配到相应的工作节点上,并由任务执行模块来执 行;
⑧任务执行模块创建线程池,开始执行任务,并向SparkContext汇报;
⑨所有的任务执行完成之后,SparkContext向主节点注销。
4.2.在查找到单位时间内出现某种特征的病例的基础上,利用时空扫描 算法以及上述特征数据标识为单元的异常事件分析探测算法对公共安全事件 相关预处理数据信息进行计算,具体步骤如下:
4.2.1.使用广度优先的扫描算法遍历所有病例,其基本思想为:首先以 一个未被访问过的顶点作为起始顶点,访问其所有相邻的顶点;然后对每个 相邻的顶点,再访问它们相邻的未被访问过的顶点;最后直到所有顶点都被 访问过,遍历结束。实现步骤如下:
①首先以一个未被访问过的顶点作为起始顶点,比如以1号顶点为起点。
②将1号顶点放入到队列中,然后将与1号顶点相邻的未访问过的顶点, 即2号、3号和5号顶点依次放入到队列中。
③接下来再将2号顶点相邻的未访问过的4号顶点放入到队列中。
④依此访问所有顶点,遍历结束。
4.2.2.通过异常事件分析探测算法对公共安全事件相关预处理数据信息 进行计算,其中异常事件分析探测使用排列熵算法,其计算步骤如下:
设一维时间序列为:X={x(1),x(1),...,x(n)}
采用相空间重构延迟坐标法对X中任一元素x(i)进行相空间重构,对每 个采样点取其连续的m个样点,得到点x(i)的m维空间的重构向量:
Xi={x(i),x(i+1),...,x(i+(m-1)*l)}
则序列X的相空间矩阵为:
Figure BDA0002543277770000201
其中m和l分别为重构维数和延迟时间;
对x(i)的重构向量Xi各元素进行升序排列,得到:
X′i={x(i+(j1-1)*l)≤x(i+(j2-1)*l)≤…≤x(i+(jm-1)*l)}
这样得到的排列方式为:
{j1,j2,...,jm}
其为全排列m!中的一种,对X序列各种排列情况出现次数进行统计,计 算各种排列情况出现的相对频率作为其概率p1、p2、…pk,k<=m!,计算序列 归一化后的排列熵:
Figure BDA0002543277770000211
其中,m是空间维度。
如图2所示,为上述技术方案流程图,该系统可实现:
⑴突发群集性疾病自动报警:系统默认每日固定时间对特定时间内(如 一月内)门诊、住院病历进行扫描,归纳总结具有相同特征(如腹泻)的目 标病例,按照住址、工作单位、活动轨迹分类,当达到任一分类标准的群集 性诊断数目时,系统自动发出报警,同时在当地地图中直观显示,依据位置、 周围交通的信息,对该突发群集性疾病做出初步判断。
⑵突发群集性疾病风险分析评价:系统对某突发群集性疾病发出报警后, 可手动归纳总结特定时间内(如一月内)具有相同特征(如腹泻)的目标病 例,同时在当地供水图、下水道分布图等市建地图中标注发病地点,进行初 步空间分布特征分析(与当地供水、下水道分布有无关联;空间分布密度与 强度等);通过手动改变对目标病例总结时间(如间隔一周),分析突发群集 性疾病演变过程,对其进行及早风险等级评价。
⑶慢性疾病的风险分析评价:对单位时间内就诊的与地理分布、饮食习 惯等密切相关的慢性疾病(如慢性铅中毒)进行手动归纳总结,分析其在该 区域的空间与时间分布特点,探讨慢性疾病与人文风俗、行政规划、地理因 素的相关性,为有效的综合整治提供参考。
本发明并不局限于上述实施例,在本发明公开的技术方案的基础上,本 领域的技术人员根据所公开的技术内容,不需要创造性的劳动就可以对其中 的一些技术特征作出一些替换和变形,这些替换和变形均在本发明的保护范 围内。

Claims (5)

1.一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统,其特征在于,包括病例信息收集模块、活动轨迹追踪模块、自动报警展示模块和风险分析评价模块;其中,
病例信息收集模块:利用医院门诊电子病历系统、住院病历系统以及患者随访系统,利用数据标识实现区域性病人诊治信息的关键数据信息提取,形成数据集成中心,数据信息提取包括且不限于患者的个人一般性社会、生物学信息,病情相关信息,社会活动信息;
活动轨迹追踪模块:利用患者使用的可公布、共享的定位方式,或与移动通讯运营商协议,经主管部门允许,通过患者手机终端获得患者物理空间GPS定位信息,自动对某地区就诊人群在某一特定时间段内具有相同患者活动轨迹的特定事件进行群集性分析,包括活动轨迹提取及聚类分析;
自动报警展示模块:通过预先设定的扫描病情相关参数、扫描时间\空间半径对聚集性、群体性发生的事件进行自动分析显示并实时报警;达到预先设定的群集性标准时,自动报警生成并存档目标病例的统计表,同时自动在当地地图中直观标注发病地点;
风险分析评价模块:利用自动报警展示模块与病例信息收集模块提供的数据信息,当系统自动报警后,采用手动方式对单位时间内出现的相同症状、体征或相同诊断与某检查指标结果相同病例,利用时空扫描算法以及上述特征数据标识为单元的异常事件分析探测算法对公共安全事件相关预处理数据信息进行计算,获得相应的计算数值。
2.根据权利要求1所述的一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统,其特征在于,进行数据信息提取时,按如下步骤进行:
1.1.构建基于病人诊治数据的知识图谱:
对不同系统中的信息进行实体抽取、属性-值对抽取、关系抽取;从无结构文本中识别具有特定意义的实体;针对实体抽取的任务,将其转化为序列标注问题,利用BIO规范对语料进行标注;针对从文本中自动选择特征,采用基于神经网络的方法自动学习特征;最后利用概率模型对文本进行标签预测;具体步骤如下:
1.1.1采用Word2Vec工具进行词向量训练,词向量的训练是从海量的未标注文本中通过无监督的语言模型训练而得到;
1.1.2.采用训练双向长短记忆网络BiLSTM把词向量表示的文本输入到神经网络模型中,学习文本间词语的隐层表示,该网络由一个前向记忆网络LSTMF和一个后向记忆网络LSTMB组成,前者用于学习前向的序列信息,后者学习后向的序列信息,最后得到每个词的隐层表示hi=[Fi,Bi];BiLSTM输出每个字或词的标签分数,为了考虑词汇之间的关联性,在BiLSTM的输出层加入CRF层学习标签之间的关系,而不是独立进行标注;假设输入文本为X=(x1,x2,…,xn),标签序列为Y=(y1,y2,…,yn),则CRF对序列标注的打分函数如公式(1)所示:
Figure RE-FDA0002706025370000021
其中:
Figure RE-FDA0002706025370000022
式中fk和hj为特征函数,λk和μj为对应的权值,yi是第i个文本输入xi的标签,Z(x)是归一化因子;
对于一个输入序列,其标签序列根据最大分类概率计算:
y*=argmaxp(y|x) (3)
1.1.3.关系抽取首先采用哈工大LTP自然语言处理工具对文本进行分词、词性标注;将每个单词映射到一个低维,稠密并且具有真实语义含义的向量空间;引入位置信息,距离信息,把位置信息、距离信息表示成位置距离向量;最后拼接词向量、词性向量、位置距离向量生成针对句子中的每个词对应的向量;采用卷积神经网络对输入向量进行特征提取;最后通过softmax函数预测实体关系的分类;
1.2.对医院门诊电子病历系统、住院病历系统以及患者随访系统等不同系统中的病人诊治信息进行知识融合:
处理包括实体冲突、属性冲突、关系冲突的问题,同时对相同实体包含的信息进行融合和聚集;具体步骤如下:
1.2.1利用Doc2Vec句子表示方法对其他实体与被对齐实体的实体与上下文文本等属性信息进行表示,得到两组实体向量e1和e2,接着计算两组向量的相似度,得到其他实体的本地得分
Figure RE-FDA0002706025370000032
如果实体的本地得分大于预先设定的阈值α,则把该实体加入到候选融合实体集合C中;
1.2.2对被对齐实体所有有关系的实体进行同步消岐,采用设计条件随机场模型,如公式(4)所示,并且利用置信传播算法对条件随机场模型进行训练和预测;最后迭代得出使公式(4)取得最大值的每个目标实体;得出的目标实体即为需要与被对齐实体融合的实体;
Figure RE-FDA0002706025370000031
其中e为候选实体集合,m为同步消岐的实体集合,
Figure RE-FDA0002706025370000042
为实体ei的本地得分,ω(ei,ej)为候选实体之间的关系得分;
1.2.3.采用计算词语相似度的方法解决属性对齐和关系对齐问题,把属性词语训练成词向量,通过相似度计算方法计算两个词向量之间的相似度,若相似度大于设定的阈值,则认为两个属性是对齐的。
3.根据权利要求1所述的一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统,其特征在于,活动轨迹追踪模块工作时,包括如下步骤:
2.1活动轨迹获取:
利用带有定位功能的智能穿戴、移动设备获取速度、方向、位置和时间戳四维信息,同时对冗余轨迹数据进行压缩;
轨迹数据由一系列的数据点构成,用P=(p1,p2,…,pi,…)表示;具体步骤如下:
2.1.1.利用滑动窗口W和均值技术从轨迹数据中滤除噪点,得到处理后的数据点集P′=(p′1,p′2,…,p′i,…);
2.1.2.对上述数据点集进行停留点检测,所述“停留点”是指具有代表性的数据点,使数据点集就变成有意义的地方集;
Figure RE-FDA0002706025370000041
首先,检查定位点p′i与其后继者p′i+1之间的距离是否大于给定阈值的轨迹;然后,它测量定位点和距离阈值内的最后一个后继p′k之间的时间间隔;如果时间间隔大于给定的阈值,则该定位点为停留点;最后从p′k的后继点迭代检查,直到所有数据点集检查完;
2.1.3.进行轨迹压缩;在步骤2.1.2获得的数据点集的基础上,采用道格拉斯-普克算法进行压缩,过程如下:
将曲线的首末点连成一条直线,求曲线上所有点到直线的垂直距离,并找出最大距离值dmax
用dmax与预设的阈值D相比,若dmax<D,则将该曲线所有点舍去,用直线取代曲线,该曲线处理完毕;
否则,保留dmax对应的坐标点,并以该点为界,将曲线划为两部分,重复上述步骤,直到所有dmax均小于D,即完成对曲线的压缩;
当所有曲线都处理完毕时,依次连接各个分割点形成的折线,即为原始曲线的路径;
2.2.活动轨迹数据分析:
通过对预处理后轨迹数据,分析与获取有价值的信息,通过时空环境中事故调查、群体跟踪;发现频繁时序模式,通过公共性规律或公共性频繁路径,进行地点预测、病员相似性估计;通过周期性的活动行为,预测病员未来的行为;具体步骤如下:
2.2.1.进行轨迹相似性度量,通常用一个距离函数来计算;首先,定义点与轨迹之间的相似性,假定点q与轨迹A,q与A之间的相似性通常定义如下:
Figure RE-FDA0002706025370000051
p'为轨迹A上按照d(.)计算距离最小的点;这里,计算两个点距离时,可以选择L-P范数,可以选择欧氏距离,切式距离,曼哈顿距离等各种距离计算方法;
接着,通过计算EDR距离来确定轨迹与轨迹的相似性,EDR距离如下:
Figure RE-FDA0002706025370000061
n,m为轨迹A,B的长度;subcost定义为:
Figure RE-FDA0002706025370000062
给定轨迹A<a1,a2,...an>和轨迹B<b1,b2,...bm>,Head(A)表示a1,Rest(A)表示<a2,a3...an>;
2.2.2.对轨迹进行聚类,分析公共规律行为;采用密度聚类算法DBSCAN,其核心思想:发现密度较高的点,然后把相近的高密度点逐步都连成一片,进而生成各种簇;对于给定的线段集合D,算法输出聚类集合O,对于输入的每条线段,算法会对其进行分类,即核心线段和边界线段;过程如下:
a.对于每一条未分类的线段L,算法计算其的ε邻域以判断该线段是否为核心线段;若L为核心线段,则程序跳转下一步;
b.计算核心线段的密度相连集合并把其加入该核心线段组成的簇中;如果新加入的线段未被分类,则把其加入队列Q中以做进一步扩展,因为该线段可能是核心线段;若新加入的线段不是核心线段,则不加入队列Q中;
c.计算每个簇的基数,若其值小于阈值,则算法将该簇淘汰。
4.根据权利要求1所述的一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统,其特征在于,自动报警展示模块工作时,按如下步骤进行:
3.1.在系统展示屏幕上选择需要监控的流行性疾病,通过GPS地图展示其历史数据以及趋势,并通过海量病例分析模块得到相关特征数据,包括时空相关特征;
3.2.依据专家经验预先设置的条件和阈值,判断特征数据是否达到预设触发条件,如果达到预设触发条件,则自动化报警。
5.根据权利要求1所述的一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统,其特征在于,风险分析评价模块工作时,包括如下步骤:
4.1.海量病例特征信息处理:
由于要对单位时间内出现某种特征的病例进行索引和查找,在系统自动报警后,处理和分析海量数据;具体步骤如下:
4.1.1.构建基于斐波那契散列的二叉链表;构建规则是:
①对于16位整数而言,取乘数40503
②对于32位整数而言,取乘数2654435769
③对于64位整数而言,取乘数11400714819323198485
对于常见的32位整数而言,映射公式如下:
index=(value*2654435769)>>28
其中,value是输入值,index是链表的头地址;
4.1.2.基于分布式的数据处理框架Spark,检索出现某种特征的病例;
数据处理步骤:
①使用Spark提交任务,使Driver进程运行在主节点或从节点上;
②使用本地的主节点类的main函数来创建SparkContext并初始化它;
③SparkContext连接到从节点,注册并申请资源;
④主节点根据SparkContext提出的申请,根据任务的心跳报告,来决定到底在那个任务上启动任务执行模块;
⑤任务执行模块向SparkContext注册;
⑥SparkContext将应用分配给任务执行模块;
⑦SparkContext解析应用,并将应用进行分解成多个阶段,每个阶段通过对应处理模块中的任务分配到相应的工作节点上,并由任务执行模块来执行;
⑧任务执行模块创建线程池,开始执行任务,并向SparkContext汇报;
⑨所有的任务执行完成之后,SparkContext向主节点注销。
4.2.在查找到单位时间内出现某种特征的病例的基础上,利用时空扫描算法以及上述特征数据标识为单元的异常事件分析探测算法对公共安全事件相关预处理数据信息进行计算,具体步骤如下:
4.2.1.使用广度优先的扫描算法遍历所有病例,首先以一个未被访问过的顶点作为起始顶点,访问其所有相邻的顶点;然后对每个相邻的顶点,再访问它们相邻的未被访问过的顶点;最后直到所有顶点都被访问过,遍历结束;实现步骤如下:
①首先以一个未被访问过的顶点作为起始顶点,以该顶点为起点;
②将该顶点放入到队列中,然后将与该顶点相邻的未访问过的其他顶点依次放入到队列中;
③接下来再将与相邻顶点相邻的未访问过的顶点放入到队列中;
④依此访问所有顶点,遍历结束;
4.2.2.通过异常事件分析探测算法对公共安全事件相关预处理数据信息进行计算,其中异常事件分析探测使用排列熵算法,其计算步骤如下:
设一维时间序列为:X={x(1),x(1),...,x(n)}
采用相空间重构延迟坐标法对X中任一元素x(i)进行相空间重构,对每个采样点取其连续的m个样点,得到点x(i)的m维空间的重构向量:
Xi={x(i),x(i+1),...,x(i+(m-1)*l)}
则序列X的相空间矩阵为:
Figure RE-FDA0002706025370000091
其中m和l分别为重构维数和延迟时间;
对x(i)的重构向量Xi各元素进行升序排列,得到:
X′i={x(i+(j1-1)*l)≤x(i+(j2-1)*l)≤…≤x(i+(jm-1)*l)}
这样得到的排列方式为:
{j1,j2,...,jm}
其为全排列m!中的一种,对X序列各种排列情况出现次数进行统计,计算各种排列情况出现的相对频率作为其概率p1、p2、…pk,k<=m!,计算序列归一化后的排列熵:
Figure RE-FDA0002706025370000092
其中,m是空间维度。
CN202010553296.5A 2020-06-17 2020-06-17 一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统 Active CN111916215B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010553296.5A CN111916215B (zh) 2020-06-17 2020-06-17 一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010553296.5A CN111916215B (zh) 2020-06-17 2020-06-17 一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统

Publications (2)

Publication Number Publication Date
CN111916215A true CN111916215A (zh) 2020-11-10
CN111916215B CN111916215B (zh) 2022-04-29

Family

ID=73237779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010553296.5A Active CN111916215B (zh) 2020-06-17 2020-06-17 一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统

Country Status (1)

Country Link
CN (1) CN111916215B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112331347A (zh) * 2020-11-27 2021-02-05 霖久智慧(广东)科技有限公司 智慧健康生活平台
CN112687401A (zh) * 2020-12-31 2021-04-20 医渡云(北京)技术有限公司 聚集风险确定方法及装置、计算机可读介质及电子设备
CN112951441A (zh) * 2021-02-25 2021-06-11 平安科技(深圳)有限公司 基于多维度的监测预警方法、装置、设备及存储介质
CN113688961A (zh) * 2021-10-27 2021-11-23 南通智大信息技术有限公司 一种基于聚焦模式的特殊人群追踪方法及系统
CN115035991A (zh) * 2022-04-29 2022-09-09 北京神州视翰科技有限公司 一种基于动态二维码的住院患者医疗信息融合方法
CN115762698A (zh) * 2022-12-01 2023-03-07 武汉博科国泰信息技术有限公司 一种医疗慢病检查报告数据提取方法及系统
CN115862897A (zh) * 2023-02-21 2023-03-28 江西曼荼罗软件有限公司 一种基于临床数据的症候群监测方法及系统
CN116453669A (zh) * 2023-06-14 2023-07-18 武汉大学中南医院 一种基于大数据的护理预测方法及装置
CN117064343A (zh) * 2023-10-11 2023-11-17 汉达科技发展集团有限公司 一种可检测生命体征的智能ar偏振探测数据处理方法
CN117133464A (zh) * 2023-10-26 2023-11-28 中国人民解放军总医院第二医学中心 一种老年人健康智能监测系统及监测方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103310083A (zh) * 2012-03-09 2013-09-18 李晓松 一种传染病聚集性探测与早期预警系统
CN106156528A (zh) * 2016-08-01 2016-11-23 中国科学院深圳先进技术研究院 一种轨迹数据停留识别方法及系统
CN106326654A (zh) * 2016-08-24 2017-01-11 北京辛诺创新科技有限公司 基于大数据云分析的健康预测系统、智能终端和服务器
CN107256327A (zh) * 2017-05-05 2017-10-17 中国科学院深圳先进技术研究院 一种传染病防控方法及系统
CN107277763A (zh) * 2017-05-05 2017-10-20 中国科学院深圳先进技术研究院 一种传染病防控方法及系统
US20190029668A1 (en) * 2017-07-27 2019-01-31 Endoevolution, Llc Apparatus and method for minimally invasive suturing
CN109360660A (zh) * 2018-10-31 2019-02-19 河南省疾病预防控制中心 一种疾控与出行信息互联的防控方法及防控系统
CN109817338A (zh) * 2019-02-13 2019-05-28 北京大学第三医院(北京大学第三临床医学院) 一种慢性病加重风险评估与告警系统
US20190259472A1 (en) * 2018-02-16 2019-08-22 The Livlyme Foundation Methods and systems of tracking disease carrying arthropods
CN111180070A (zh) * 2019-12-30 2020-05-19 腾讯科技(深圳)有限公司 病历数据分析方法及装置
CN111184508A (zh) * 2020-01-19 2020-05-22 武汉大学 一种基于联合神经网络的心电信号检测装置及分析方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103310083A (zh) * 2012-03-09 2013-09-18 李晓松 一种传染病聚集性探测与早期预警系统
CN106156528A (zh) * 2016-08-01 2016-11-23 中国科学院深圳先进技术研究院 一种轨迹数据停留识别方法及系统
CN106326654A (zh) * 2016-08-24 2017-01-11 北京辛诺创新科技有限公司 基于大数据云分析的健康预测系统、智能终端和服务器
CN107256327A (zh) * 2017-05-05 2017-10-17 中国科学院深圳先进技术研究院 一种传染病防控方法及系统
CN107277763A (zh) * 2017-05-05 2017-10-20 中国科学院深圳先进技术研究院 一种传染病防控方法及系统
US20190029668A1 (en) * 2017-07-27 2019-01-31 Endoevolution, Llc Apparatus and method for minimally invasive suturing
US20190259472A1 (en) * 2018-02-16 2019-08-22 The Livlyme Foundation Methods and systems of tracking disease carrying arthropods
CN109360660A (zh) * 2018-10-31 2019-02-19 河南省疾病预防控制中心 一种疾控与出行信息互联的防控方法及防控系统
CN109817338A (zh) * 2019-02-13 2019-05-28 北京大学第三医院(北京大学第三临床医学院) 一种慢性病加重风险评估与告警系统
CN111180070A (zh) * 2019-12-30 2020-05-19 腾讯科技(深圳)有限公司 病历数据分析方法及装置
CN111184508A (zh) * 2020-01-19 2020-05-22 武汉大学 一种基于联合神经网络的心电信号检测装置及分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨晓辉等: ""基于多任务的中文电子病历中命名实体识别研究"", 《东北师大学报(自然科学版)》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112331347A (zh) * 2020-11-27 2021-02-05 霖久智慧(广东)科技有限公司 智慧健康生活平台
CN112687401A (zh) * 2020-12-31 2021-04-20 医渡云(北京)技术有限公司 聚集风险确定方法及装置、计算机可读介质及电子设备
CN112687401B (zh) * 2020-12-31 2022-07-01 医渡云(北京)技术有限公司 聚集风险确定方法及装置、计算机可读介质及电子设备
CN112951441A (zh) * 2021-02-25 2021-06-11 平安科技(深圳)有限公司 基于多维度的监测预警方法、装置、设备及存储介质
CN113688961A (zh) * 2021-10-27 2021-11-23 南通智大信息技术有限公司 一种基于聚焦模式的特殊人群追踪方法及系统
CN115035991A (zh) * 2022-04-29 2022-09-09 北京神州视翰科技有限公司 一种基于动态二维码的住院患者医疗信息融合方法
CN115762698A (zh) * 2022-12-01 2023-03-07 武汉博科国泰信息技术有限公司 一种医疗慢病检查报告数据提取方法及系统
CN115762698B (zh) * 2022-12-01 2024-02-13 武汉博科国泰信息技术有限公司 一种医疗慢病检查报告数据提取方法及系统
CN115862897B (zh) * 2023-02-21 2023-05-23 江西曼荼罗软件有限公司 一种基于临床数据的症候群监测方法及系统
CN115862897A (zh) * 2023-02-21 2023-03-28 江西曼荼罗软件有限公司 一种基于临床数据的症候群监测方法及系统
CN116453669A (zh) * 2023-06-14 2023-07-18 武汉大学中南医院 一种基于大数据的护理预测方法及装置
CN116453669B (zh) * 2023-06-14 2023-08-25 武汉大学中南医院 一种基于大数据的护理预测方法及装置
CN117064343A (zh) * 2023-10-11 2023-11-17 汉达科技发展集团有限公司 一种可检测生命体征的智能ar偏振探测数据处理方法
CN117064343B (zh) * 2023-10-11 2023-12-19 汉达科技发展集团有限公司 一种可检测生命体征的智能ar偏振探测数据处理方法
CN117133464A (zh) * 2023-10-26 2023-11-28 中国人民解放军总医院第二医学中心 一种老年人健康智能监测系统及监测方法
CN117133464B (zh) * 2023-10-26 2024-03-12 中国人民解放军总医院第二医学中心 一种老年人健康智能监测系统及监测方法

Also Published As

Publication number Publication date
CN111916215B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN111916215B (zh) 一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统
CN112992317B (zh) 一种医学数据处理方法、系统、设备及介质
CN107644011B (zh) 用于细粒度医疗实体提取的系统和方法
Tang et al. Big data in forecasting research: a literature review
CN112786205B (zh) 基于数据模型的症候群预警方法、装置、介质及设备
CN111612041B (zh) 异常用户识别方法及装置、存储介质、电子设备
US20130238356A1 (en) System and method for detecting, collecting, analyzing, and communicating emerging event- related information
CN112712903A (zh) 一种基于人机物三元空间协同感知的传染病监测方法
CN111696656B (zh) 一种互联网医疗平台的医生评价方法、装置
CN115274122A (zh) 健康医疗数据的管理方法、系统、电子设备及存储介质
Putra et al. Traffic and road conditions monitoring system using extracted information from Twitter
Tarasconi et al. The role of unstructured data in real-time disaster-related social media monitoring
CN115391670A (zh) 一种基于知识图谱的互联网行为分析方法与系统
Yue et al. Using twitter data to determine hurricane category: An experiment
CN112651782B (zh) 基于缩放点积注意力的行为预测方法、装置、设备及介质
CN114141385A (zh) 一种用于传染病的预警方法、系统和可读存储介质
CN113688205A (zh) 一种基于深度学习的疾病检测方法
CN117236676A (zh) 一种基于多模态事件抽取的rpa流程挖掘方法和装置
CN112131392A (zh) 基于知识图谱的公共卫生疫情预警方法及系统
CN111159328A (zh) 情报知识融合系统及方法
CN113963413A (zh) 基于人工智能的疫情排查方法、装置、电子设备及介质
Sangeetha et al. Crime Rate Prediction and Prevention: Unleashing the Power of Deep Learning
Liu et al. Urbanity: A system for interactive exploration of urban dynamics from streaming human sensing data
Iparraguirre-Villanueva et al. Classification of tweets related to natural disasters using machine learning algorithms
Alzaidi et al. Arabic Location Named Entity Recognition for Tweets using a Deep Learning Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant