CN111916215B

CN111916215B - 一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统

Info

Publication number: CN111916215B
Application number: CN202010553296.5A
Authority: CN
Inventors: 龚开政; 殷旭东; 王磊; 朱毅; 章永龙; 李斌; 孙小兵
Original assignee: Affiliated Hospital of Yangzhou University
Current assignee: Affiliated Hospital of Yangzhou University
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2022-04-29
Anticipated expiration: 2040-06-17
Also published as: CN111916215A

Abstract

本发明公开了公共卫生领域内的一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统，其包括病例信息收集模块、活动轨迹追踪模块、自动报警展示模块和风险分析评价模块；通过对医疗机构病历数据库的定时扫描，结合患者个体行动轨迹的自动分析，能够对出现的突发群集性疾病实现自动报警，对单位时间内相同病例的总结与初步风险分析评价，可通过对单位时间内出现病例的分布特征分析，指导该区域慢性病差异性防控措施的制订。

Description

一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统

技术领域

本发明涉及公共卫生领域，特别是涉及群集性/慢性疾病早期自动报警、初步特征分析与风险评估。

背景技术

突发性群集性传染性疾病，如严重急性呼吸综合征(SARS)、甲型HIN1流感、新冠肺炎(COVID-19)等的大面积爆发，对人类生命安全与社会经济稳定构成了极大威胁；某些慢性疾病，如高血压、类风湿性关节炎、微量元素缺乏症等，与患者地理分布、饮食习惯等密切相关，我国每年花费大量的人力物力用于群集性疾病与慢性疾病的防治。在临床工作实践中我们发现，传统的传染病监测极度依赖于医务人员对这些疾病的敏锐性和警觉性，而且也只能针对能诊断明确的传染病。事实上，对那些急性传染病尤其是不明原因的传染病要做出及时发现和判断，最大程度化解公共卫生风险十分依赖于临床及早识别和发现患者。其中，及早识别出发病人群具有聚集性的特点具有十分重要的流行病学意义和社会意义；同样，对于慢性疾病的管理以及某些地方病的流行状况监测也都依赖于一定物理空间区域内患者群集性状态的自动识别。因此，这种对群集性早期预警与风险等级评价，无论对急慢性传染病、慢性病管理均具有重要的临床意义。现有技术中，缺乏自动识别的群集性病例事件的监测应用系统，难以及时发现可疑患者集聚人群有利于及早的采取应对措施，因此也难以最大程度减轻这类疾病对社会造成的影响。

发明内容

本发明针对传统群集性/慢性疾病早期自动报警、初步特征分析与风险评估的不足，提出一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统，使其能够针对群集性/慢性疾病自动发出早期报警信息，主动提醒不同接诊医师就同类事件进行关注、跟踪分析，避免因人为因素对群集性疾病早期报警的延迟，及早作出预判和处理。

本发明的目的是这样实现的：

一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统，包括病例信息收集模块、活动轨迹追踪模块、自动报警展示模块和风险分析评价模块；其中，

病例信息收集模块：利用医院门诊电子病历系统、住院病历系统以及患者随访系统，利用数据标识实现区域性病人诊治信息的特征数据信息提取，形成数据集成中心，数据信息提取包括患者的个人一般性社会、生物学信息，病情相关信息，社会活动信息；

活动轨迹追踪模块：利用患者使用的可公布、共享的定位方式，或与移动通讯运营商协议，经主管部门允许，通过患者手机终端获得患者物理空间GPS定位信息，自动对预设地区就诊人群在特定时间段内具有相同患者活动轨迹进行群集性分析，包括活动轨迹提取及聚类分析；

自动报警展示模块：通过预先设定的扫描病情相关参数、扫描时间和空间半径对聚集性、群体性发生的事件进行自动分析显示并实时报警；达到预先设定的群集性标准时，自动报警生成并存档目标病例的统计表，同时自动在当地地图中直观标注发病地点；

风险分析评价模块：利用自动报警展示模块与病例信息收集模块提供的数据信息，当系统自动报警后，采用手动方式对单位时间内出现的相同症状、体征或相同诊断与检查指标结果相同病例，利用时空扫描算法以及上述特征数据标识为单元的异常事件分析探测算法对公共安全事件相关预处理数据信息进行计算，获得相应的计算数值。

进行数据信息提取时，按如下步骤进行：

1.1.构建基于病人诊治数据的知识图谱：

对不同系统中的信息进行实体抽取、属性-值对抽取、关系抽取；从无结构文本中识别具有特定意义的实体；针对实体抽取的任务，将其转化为序列标注问题，利用BIO规范对语料进行标注；针对从文本中自动选择特征，采用基于神经网络的方法自动学习特征；最后利用概率模型对文本进行标签预测；具体步骤如下：

1.1.1采用Word2Vec工具进行词向量训练，词向量的训练是从海量的未标注文本中通过无监督的语言模型训练而得到；

1.1.2.采用训练双向长短记忆网络BiLSTM把词向量表示的文本输入到神经网络模型中，学习文本间词语的隐层表示，该网络由一个前向记忆网络LSTMF和一个后向记忆网络LSTMB组成，前者用于学习前向的序列信息，后者学习后向的序列信息，最后得到每个词的隐层表示hi＝[Fi,Bi]；BiLSTM输出每个字或词的标签分数，为了考虑词汇之间的关联性，在BiLSTM的输出层加入CRF层学习标签之间的关系，而不是独立进行标注；假设输入文本为X＝(x₁,x₂,...,x_i…,x_n)，标签序列为Y＝(y₁,y₂,…,y_i,...y_n)，则CRF对序列标注的打分函数如公式(1)所示：

其中：

式中f_k和h_j为特征函数，λ_k和μ_j为对应的权值,y_i是第i个文本输入x_i的标签，Z(x)是归一化因子；

对于一个输入序列，其标签序列根据最大分类概率计算：

y^*＝arg max P(y|x) (3)

1.1.3.关系抽取首先采用哈工大LTP自然语言处理工具对文本进行分词、词性标注；将每个单词映射到一个低维，稠密的向量空间；引入位置信息，距离信息，把位置信息、距离信息表示成位置距离向量；最后拼接词向量、词性向量、位置距离向量生成针对句子中的每个词对应的向量；采用卷积神经网络对输入向量进行特征提取；最后通过softmax函数预测实体关系的分类；

1.2.对医院门诊电子病历系统、住院病历系统以及患者随访系统中的病人诊治信息进行知识融合：

处理包括实体冲突、属性冲突、关系冲突的问题，同时对相同实体包含的信息进行融合和聚集；具体步骤如下：

1.2.1利用Doc2Vec句子表示方法对未被对齐实体与被对齐实体的实体与上下文文本属性信息进行表示，得到两组实体向量e₁和e₂，接着计算两组向量的相似度，得到未被对齐实体的本地得分

如果未被对齐实体的本地得分大于预先设定的阈值α，则把该未被对齐实体加入到候选融合实体集合C中；

1.2.2对被对齐实体所有有关系的实体进行同步消岐，采用设计条件随机场模型，如公式(4)所示，并且利用置信传播算法对条件随机场模型进行训练和预测；最后迭代得出使公式(4)取得最大值的每个目标实体；得出的目标实体即为需要与被对齐实体融合的实体；

其中e为候选实体集合，m_e为同步消岐的实体集合，

为实体e_i的本地得分，ω(e_i，e_j)为候选实体之间的关系得分；

1.2.3.采用计算词语相似度的方法解决属性对齐和关系对齐问题，把属性词语训练成词向量，通过相似度计算方法计算两个词向量之间的相似度，若相似度大于设定的阈值，则认为两个属性是对齐的。

所述活动轨迹追踪模块工作时，包括如下步骤：

2.1活动轨迹获取：

利用带有定位功能的智能穿戴、移动设备获取速度、方向、位置和时间戳四维信息，同时对冗余轨迹数据进行压缩；

轨迹数据由一系列的数据点构成，用P＝(p₁,p₂,…,p_i,…p_n)表示；具体步骤如下：

2.1.1.利用滑动窗口W和均值技术从轨迹数据中滤除噪点，得到处理后的数据点集P'＝(p'₁,p'₂,…,p'_i,p'_i+1,…,p'_k)；；

2.1.2.对上述数据点集进行停留点检测，所述“停留点”是指具有代表性的数据点，使数据点集就变成有意义的地方集；

首先，检查定位点p′_i与其后继者p′_i+1之间的距离是否大于给定阈值的轨迹；然后，它测量定位点和距离阈值内的最后一个后继p′_k之间的时间间隔；如果时间间隔大于给定的阈值，则该定位点为停留点；最后从p′_k的后继点迭代检查，直到所有数据点集检查完；

2.1.3.进行轨迹压缩；在步骤2.1.2获得的数据点集的基础上，采用道格拉斯-普克算法进行压缩，过程如下：

将曲线的首末点连成一条直线，求曲线上所有点到直线的垂直距离，并找出最大距离值d_max；

用d_max与预设的阈值D相比，若d_max＜D，则将该曲线所有点舍去，用直线取代曲线，该曲线处理完毕；

否则，保留d_max对应的坐标点，并以该点为界，将曲线划为两部分，重复步骤上述步骤，直到所有d_max均小于D，即完成对曲线的压缩；

当所有曲线都处理完毕时，依次连接各个分割点形成的折线，即为原始曲线的路径；

2.2.活动轨迹数据分析：

通过对预处理后轨迹数据，分析与获取有价值的信息，通过时空环境中事故调查、群体跟踪；发现时间序列频繁模式，通过公共性规律或公共性频繁路径，进行地点预测、病员相似性估计；通过周期性的活动行为，预测病员未来的行为；具体步骤如下：

2.2.1.进行轨迹相似性度量，通常用一个距离函数来计算；首先，定义点与轨迹之间的相似性，假定点q与轨迹A，q与A之间的相似性通常定义如下：

p'为轨迹A上按照d(.)计算距离最小的点，其中d(.)表示两个点的距离计算公式，在计算两个点距离时，选择L-P范数，以欧氏距离、切比雪夫距离或曼哈顿距离计算方法计算距离；

接着，通过计算EDR距离来确定轨迹与轨迹的相似性，EDR距离如下：

h,r为轨迹A,B的长度；subcost定义为：

给定轨迹A<a₁,a₂,...a_ha>和轨迹B<b₁,b₂,...b_rb>,Head(A)表示a₁,Rest(A)表示<a₂,a₃...a_ha>；

2.2.2.对轨迹进行聚类，分析公共规律行为；采用密度聚类算法DBSCAN，其核心思想：发现密度大于预设阈值的点，然后把相近的高密度点逐步都连成一片，进而生成各种簇；对于给定的线段集合D,算法输出聚类集合O,对于输入的每条线段，算法会对其进行分类，即核心线段和边界线段；过程如下：

a.对于每一条未分类的线段L，算法计算其的ε邻域以判断该线段是否为核心线段；若L为核心线段，则程序跳转下一步；

b.计算核心线段的密度相连集合并把其加入该核心线段组成的簇中；如果新加入的线段未被分类，则把其加入队列Q中以做进一步扩展，因为该线段是核心线段；若新加入的线段不是核心线段，则不加入队列Q中；

c.计算每个簇的基数，若其值小于阈值，则算法将该簇淘汰。

自动报警展示模块工作时，按如下步骤进行：

3.1.在系统展示屏幕上选择需要监控的流行性疾病，通过GPS地图展示其历史数据以及趋势，并通过海量病例分析模块得到相关特征数据，包括时空相关特征；

3.2.依据专家经验预先设置的条件和阈值，判断特征数据是否达到预设触发条件，如果达到预设触发条件，则自动化报警。

所述风险分析评价模块工作时，包括如下步骤：

4.1.海量病例特征信息处理：

由于要对单位时间内出现特定特征的病例进行索引和查找(特定特征指相同症状、体征或相同诊断与特定检查指标结果相同)，因此首先需要在系统自动报警后，能够处理和分析海量数据；具体步骤如下：

4.1.1.构建基于斐波那契散列的二叉链表；构建规则是：

①对于16位整数而言，取乘数40503

②对于32位整数而言，取乘数2654435769

③对于64位整数而言，取乘数11400714819323198485

对于常见的32位整数而言，映射公式如下：

index＝(value*2654435769)>>28

其中，value是输入值，index是链表的头地址；

4.1.2.基于分布式的数据处理框架Spark，检索出现特定特征的病例；

数据处理步骤：

①使用Spark提交任务，使Driver进程运行在主节点或从节点上；

②使用本地的主节点类的main函数来创建SparkContext并初始化它；

③SparkContext连接到从节点，注册并申请资源；

④主节点根据SparkContext提出的申请，根据任务的心跳报告，来决定到底在哪个任务上启动任务执行模块；

⑤任务执行模块向SparkContext注册；

⑥SparkContext将应用分配给任务执行模块；

⑦SparkContext解析应用，并将应用进行分解成多个阶段，每个阶段通过对应处理模块中的任务分配到相应的工作节点上，并由任务执行模块来执行；

⑧任务执行模块创建线程池，开始执行任务，并向SparkContext汇报；

⑨所有的任务执行完成之后，SparkContext向主节点注销。

4.2.在查找到单位时间内出现特定特征的病例的基础上，利用时空扫描算法以及上述特征数据标识为单元的异常事件分析探测算法对公共安全事件相关预处理数据信息进行计算，具体步骤如下：

4.2.1.使用广度优先的扫描算法遍历所有病例，首先以一个未被访问过的顶点作为起始顶点，访问其所有相邻的顶点；然后对每个相邻的顶点，再访问它们相邻的未被访问过的顶点；最后直到所有顶点都被访问过，遍历结束；实现步骤如下：

①首先以一个未被访问过的顶点作为起始顶点，以该顶点为起点；

②将该顶点放入到队列中，然后将与该顶点相邻的未访问过的顶点依次放入到队列中；

③接下来再将与相邻顶点相邻的未访问过的顶点放入到队列中；

④依此访问所有顶点，遍历结束；

4.2.2.通过异常事件分析探测算法对公共安全事件相关预处理数据信息进行计算，其中异常事件分析探测使用排列熵算法，其计算步骤如下：

设一维时间序列为：X_time＝{x_time(1)，x_time(2)，...，x_time(i)，...，x_time(n)}

采用相空间重构延迟坐标法对X_time中任一元素x_time(i)进行相空间重构，对每个采样点取其连续的m个样点，得到点x(i)的m维空间的重构向量：

X_rec＝{x_rec(i)，x_rec(i+1)，...x_rec(i+(m-1)*l)}

则一维时间序列X_time的相空间矩阵为：

其中m和l分别为重构维数和延迟时间；

对x_time(f)的重构向量X_rec各元素进行升序排列，得到：

X′_rec＝{x_rec(i+(c₁-1)*l)≤x_rec(i+(c₂-1)*l)≤...≤x_rec(i+(c_m-1)*l)}

这样得到的排列方式为：

{c₁，c₂，...，c_m}

其为全排列m_dim！中的一种，对一维时间序列X_time各种排列情况出现次数进行统计，计算各种排列情况出现的相对频率作为其概率

k_p＜＝m_dim！，计算序列归一化后的排列熵：

其中，m_dim是空间维度。

本发明的有益效果在于：

(1)通过对医疗机构病历数据库的定时扫描，结合患者个体行动轨迹的自动分析，能够对出现的突发群集性疾病实现自动报警，避免目前因人工上报造成的防控迟滞，为重大突发群集性疾病(如COVID-19)争取到宝贵的防控时间。

(2)当系统对某个特征突发群集性疾病自动报警后，通过对单位时间内相同病例的总结与初步风险分析评价，如与当地供水、下水道分布有无关联；空间分布密度与强度等，为早期疫情防控措施的制订提供有效支撑。

(3)对于高血压、类风湿性关节炎、微量元素缺乏症等与地理分布、饮食习惯等密切相关的慢性疾病，可通过对单位时间内出现病例的分布特征分析，指导该区域慢性病差异性防控措施的制订。

附图说明

图1为本发明利用滑动窗口和均值技术去噪示意图。

图2为本发明的流程图。

具体实施方式

如图2所示，本发明的一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统，包括病例信息收集模块、活动轨迹追踪模块、自动报警展示模块和风险分析评价模块：

(1)病例信息收集模块：

该模块主要利用医院门诊电子病历系统、住院病历系统以及患者随访系统进行无缝对接，利用数据标识实现区域性病人诊治信息的关键数据信息提取，形成数据集成中心，数据信息提取包括患者的个人一般性社会、生物学信息：比如年龄、职业、特殊工作环境暴露史、性别、体重、工作地点、家庭住址等；病情相关信息：比如各种症状、特殊体征、疾病诊断、发病时间、既往病症、家族史、发病地点、药物使用等；社会活动信息：比如高危场所、特殊食品、特殊个人生活行为等。

包括如下处理步骤：

1.1.构建基于病人诊治数据的知识图谱：

对不同系统中的信息进行实体抽取、属性-值对抽取、关系抽取。实体抽取是信息抽取的基本任务之一，指从无结构文本中识别具有特定意义的实体。针对实体抽取的任务，将其转化为序列标注问题，利用BIO规范对语料进行标注，其中B是beginning的缩写表示词的开始标签，I是inside的缩写表示词的中间标签，O是outside的缩写表示非标签。针对从文本中自动选择特征的问题，设计基于神经网络的方法自动学习特征。最后利用概率模型对文本进行标签预测。具体步骤如下：

1.1.1.采用Word2Vec工具进行词向量训练，词向量的训练是从海量的未标注文本中通过无监督的语言模型训练而得到。

1.1.2.采用训练双向长短记忆网络BiLSTM把词向量表示的文本输入到神经网络模型中，学习文本间词语的隐层表示，该网络由一个前向记忆网络LSTMF和一个后向记忆网络LSTMB组成，前者用于学习前向的序列信息，后者学习后向的序列信息，最后得到每个词的隐层表示hi＝[Fi,Bi]。BiLSTM输出每个字或词的标签分数，为了考虑词汇之间的关联性，在BiLSTM的输出层加入CRF(条件随机场)层学习标签之间的关系，而不是独立进行标注。假设输入文本为X＝(x₁,x₂,...,x_i…,x_n)，标签序列为Y＝(y₁,y₂,…,y_i,...y_n)，则CRF对序列标注的打分函数如公式(1)所示：

其中：

式中，f_k和h_j为特征函数，λ_k和μ_j为对应的权值,y_i是第i个文本输入x_i的标签，Z(x)是归一化因子；

对于一个输入序列，其标签序列根据最大分类概率计算：

y^*＝arg max P(y|x) (3)

1.1.3.关系抽取首先采用哈工大LTP自然语言处理工具对文本进行分词、词性标注。将每个单词映射到一个低维，稠密的向量空间。考虑位置关系、距离关系对学习实体对关于上下文的表示的重要性，引入了位置信息，距离信息，把位置信息、距离信息表示成位置距离向量。最后拼接词向量、词性向量、位置距离向量生成针对句子中的每个词对应的向量。考虑卷积方法可以将所有局部特征合并起来进行全局预测，采用卷积神经网络对输入向量进行特征提取。最后通过softmax函数预测实体关系的分类。

1.2.对医院门诊电子病历系统、住院病历系统以及患者随访系统中的病人诊治信息进行知识融合。

将来源于不同数据源的数据其表现形式各异，同一实体在不同数据源中的表征可能不同，同一实体表征可能指代不同实体，对于属性、关系也存在同样的问题。处理包括实体冲突、属性冲突、关系冲突的问题，同时对相同实体包含的信息进行融合和聚集。具体步骤如下：

1.2.1.利用Doc2Vec句子表示方法对未被对齐实体与被对齐实体的实体与上下文文本属性信息进行表示，得到两组实体向量e₁和e₂，接着计算两组向量的相似度，得到未被对齐实体的本地得分

如果未被对齐实体的本地得分大于预先设定的阈值α，则把该未被对齐实体加入到候选融合实体集合C中。

1.2.2.对被对齐实体所有有关系的实体进行同步消岐，采用设计条件随机场模型，如公式(4)所示，并且利用置信传播算法对条件随机场模型进行训练和预测。最后迭代得出使公式(4)取得最大值的每个目标实体。得出的目标实体即为需要与被对齐实体融合的实体。

其中e为候选实体集合，m_e为同步消岐的实体集合，ω(e_i，e_j)为候选实体之间的关系得分。

(2)活动轨迹追踪模块：

该模块利用患者使用的可公布、共享的定位方式(如微信、微博等)；或与移动通讯运营商协议，经主管部门允许，通过患者手机终端获得患者物理空间GPS定位信息，自动对预设地区就诊人群在特定时间段内具有相同患者活动轨迹的特定事件如腹泻、脾肿大、心肌梗死等情况进行群集性分析。相关算法为：

2.1.活动轨迹获取：

利用带有定位功能的智能穿戴、移动设备获取速度、方向、位置和时间戳四维信息，由于轨迹数据量大且冗余，为便于存储与计算，需对原始数据进行压缩。

轨迹数据由一系列的数据点构成，用P＝(p₁,p₂,…,p_i,…p_n)表示。具体步骤如下：

2.1.1.由于一些因素，如在城市峡谷中收到较差的定位信号，空间轨迹永远不会完全准确，会出现一些噪声点。因此，需要从轨迹中滤除这些噪点。这里，可以利用滑动窗口W和均值技术对这些噪声数据进行摒弃掉，如图1所示。

得到处理后的数据点集P'＝(p'₁,p'₂,…,p'_i,p'_i+1,…,p'_k)。

2.1.2.对上述数据点集进行停留点检测，这里，“停留点”是指具有代表性的数据点，例如：超市、加油站等，有了停留点，数据点集就变成有意义的地方集。

首先，检查定位点p′_i与其后继者p′_i+1之间的距离是否大于给定阈值的轨迹。然后，它测量定位点和距离阈值内的最后一个后继p′_k之间的时间间隔。如果时间间隔大于给定的阈值，则该定位点为停留点。最后从p′_k的后继点迭代检查，直到所有数据点集检查完。

2.1.3.由于轨迹数据是短时间内(如：秒级)采集的，需要大量的电池电量、通信、计算和数据存储的开销。但实际应用中可能不真正需要这样的位置精度，因而需进行轨迹压缩。在步骤2.1.2获得的数据点集的基础上，采用道格拉斯-普克(Douglas-Peucker DP)算法进行压缩，过程如下：

否则，保留d_max对应的坐标点，并以该点为界，将曲线划为两部分，重复步骤上述步骤，直到所有d_max均小于D，即完成对曲线的压缩。

当所有曲线都处理完毕时，依次连接各个分割点形成的折线，即为原始曲线的路径。

2.2.活动轨迹数据分析：

通过对预处理后轨迹数据，分析与获取有价值的信息，如：病员的行为特征和规律，可以实现时空环境中事故调查、群体跟踪等；发现时间序列频繁模式，如公共性规律或公共性频繁路径等，可以用于地点预测、病员相似性估计等；周期性的活动行为，通过挖掘此类轨迹，可以预测病员未来的行为。具体步骤如下：

2.2.1进行轨迹相似性度量，通常用一个距离函数来计算。首先，定义点与轨迹之间的相似性，假定点q与轨迹A，q与A之间的相似性通常定义如下：

p'为轨迹A上按照d(.)计算距离最小的点,其中d(.)表示两个点的距离计算公式,在计算两个点距离时，可以选择L-P范数，可以选择欧氏距离，切比雪夫距离，曼哈顿距离计算方法计算距离。

h,r为轨迹A,B的长度。subcost定义为：

给定轨迹A<a₁,a₂,...a_ha>和轨迹B<b₁,b₂,...b_rb>,Head(A)表示a₁,Rest(A)表示<a₂,a₃...a_ha>。

2.2.2.对轨迹进行聚类，分析公共规律行为。采用密度聚类算法DBSCAN，其核心思想：发现密度大于预设阈值的点，然后把相近的高密度点逐步都连成一片，进而生成各种簇。对于给定的线段集合D,算法输出聚类集合O,对于输入的每条线段，算法会对其进行分类，即核心线段和边界线段。过程如下：

a.对于每一条未分类的线段L，算法计算其的ε邻域以判断该线段是否为核心线段。若L为核心线段，则程序跳转下一步。

b.计算核心线段的密度相连集合并把其加入该核心线段组成的簇中。如果新加入的线段未被分类，则把其加入队列Q中以做进一步扩展，因为该线段是核心线段；若新加入的线段不是核心线段，则不加入队列Q中。

c.计算每个簇的基数，若其值小于阈值，则算法将该簇淘汰，因为其不够密集。

特别值得一提的是，本模块将实现个人轨迹信息的自运行状态分析，无对外人机交互界面或窗口，通过自动分析仅仅只输出特定人群共有的群集性发病的地点信息即可，从而可有效实现对个人轨迹信息采集后有关个人隐私泄露的最高级别保护。

(3)自动报警展示模块：

通过预先设定的扫描病情相关参数、扫描时间和空间半径对聚集性、群体性发生的事件进行自动分析显示并实时报警。对于急性事件，我们可以设置扫描的时间范围参数可从数小时至数周，空间半径可设置为几十米到几公里不等；而对于慢性病管理，我们设置扫描的时间范围可从数月至数年，空间半径可设置为几公里至几百公里不等。达到预先设定的群集性标准时，自动报警生成并存档目标病例的统计表，同时自动在当地地图中直观标注发病地点。

具体步骤如下：

3.1.在系统展示屏幕上选择需要监控的流行性疾病，通过GPS地图展示其历史数据以及趋势，并通过海量病例分析模块得到相关特征数据，包括时空相关特征。

(4)风险分析评价模块：

该模块利用自动报警展示模块与病例信息收集模块提供的数据信息，当系统自动报警后，采用手动方式对单位时间内出现的相同症状、体征或相同诊断与某检查指标结果相同病例，利用时空扫描算法以及上述特征数据标识为单元的异常事件分析探测算法对公共安全事件相关预处理数据信息进行计算，获得相应的计算数值。相关算法为：

4.1.海量病例特征信息处理：

由于要对单位时间内出现特定特征的病例进行索引和查找(特定特征指相同症状、体征或相同诊断与特定检查指标结果相同)，因此首先需要在系统自动报警后，能够处理和分析海量数据。具体步骤如下：

4.1.1.构建基于斐波那契散列的二叉链表；

散列是指把任意长度的输入通过散列算法，变换成固定长度的输出，本质是找到一种数据内容和数据存放地址之间的映射关系，这种关系是一种压缩映射，即散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出。斐波那契散列是指基于斐波那契数列取乘数，通过该乘数将原始数据内容中的元素映射到链表中，达到效率和准确率都很高的目标。二叉链表是“链表的数组”，本质上是基于树的存储结构，其同时具备数组寻址容易和链表插入和删除容易的优点。基于斐波那契散列的二叉链表的构建规则是：

①对于16位整数而言，取乘数40503

②对于32位整数而言，取乘数2654435769

③对于64位整数而言，取乘数11400714819323198485

对于常见的32位整数而言，映射公式如下：

index＝(value*2654435769)>>28

其中，value是输入值，index是链表的头地址。

Spark是基于大数据框架Hadoop的一个数据处理框架，与Hadoop原生的数据处理模块MapReduce相比，Spark具有高效(比MapReduce快10—100倍)、多编程语言支持(提供了丰富的API，支持Java，Scala，Python和R四种语言)、易用(代码量比MapReduce少2—5倍)等优势。以Spark的独立模式说明数据处理步骤：

②使用本地的主节点类的main函数来创建SparkContext(Spark的任务执行内容)并初始化它；

③SparkContext连接到从节点，注册并申请资源(内核和内存)；

⑤任务执行模块向SparkContext注册；

⑥SparkContext将应用分配给任务执行模块；

⑨所有的任务执行完成之后，SparkContext向主节点注销。

4.2.1.使用广度优先的扫描算法遍历所有病例，其基本思想为：首先以一个未被访问过的顶点作为起始顶点，访问其所有相邻的顶点；然后对每个相邻的顶点，再访问它们相邻的未被访问过的顶点；最后直到所有顶点都被访问过，遍历结束。实现步骤如下：

①首先以一个未被访问过的顶点作为起始顶点，比如以1号顶点为起点。

②将1号顶点放入到队列中，然后将与1号顶点相邻的未访问过的顶点，即2号、3号和5号顶点依次放入到队列中。

③接下来再将2号顶点相邻的未访问过的4号顶点放入到队列中。

④依此访问所有顶点，遍历结束。

X_rec＝{x_rec(i)，x_rec(i+1)，...x_rec(i+(m-1)*l)}

则一维时间序列X_time的相空间矩阵为：

其中m和l分别为重构维数和延迟时间；

对x_time(i)的重构向量X_rec各元素进行升序排列，得到：

X_rec＝{x_rec(i+(c₁-1)*l)≤x_rec(i+(c₂-1)*l)≤...≤x_rec(i+(c_m-1)*l)}

这样得到的排列方式为：

{c₁，c₂，...，c_m}

k_p＜＝m_dim！，计算序列归一化后的排列熵：

其中，m_dim是空间维度。

如图2所示，为上述技术方案流程图，该系统可实现：

(1)突发群集性疾病自动报警：系统默认每日固定时间对特定时间内(如一月内)门诊、住院病历进行扫描，归纳总结具有相同特征(如腹泻)的目标病例，按照住址、工作单位、活动轨迹分类，当达到任一分类标准的群集性诊断数目时，系统自动发出报警，同时在当地地图中直观显示，依据位置、周围交通的信息，对该突发群集性疾病做出初步判断。

(2)突发群集性疾病风险分析评价：系统对某突发群集性疾病发出报警后，可手动归纳总结特定时间内(如一月内)具有相同特征(如腹泻)的目标病例，同时在当地供水图、下水道分布图等市建地图中标注发病地点，进行初步空间分布特征分析(与当地供水、下水道分布有无关联；空间分布密度与强度等)；通过手动改变对目标病例总结时间(如间隔一周)，分析突发群集性疾病演变过程，对其进行及早风险等级评价。

(3)慢性疾病的风险分析评价：对单位时间内就诊的与地理分布、饮食习惯等密切相关的慢性疾病(如慢性铅中毒)进行手动归纳总结，分析其在该区域的空间与时间分布特点，探讨慢性疾病与人文风俗、行政规划、地理因素的相关性，为有效的综合整治提供参考。

本发明并不局限于上述实施例，在本发明公开的技术方案的基础上，本领域的技术人员根据所公开的技术内容，不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形，这些替换和变形均在本发明的保护范围内。

Claims

1.一种群集性/慢性疾病早期自动报警、初步特征分析与风险评估系统，其特征在于，包括病例信息收集模块、活动轨迹追踪模块、自动报警展示模块和风险分析评价模块；其中，

病例信息收集模块：利用医院门诊电子病历系统、住院病历系统以及患者随访系统，利用数据标识实现区域性病人诊治信息的关键数据信息提取，形成数据集成中心，数据信息提取包括患者的个人一般性社会、生物学信息，病情相关信息，社会活动信息；

进行数据信息提取时，按如下步骤进行：

1.1.构建基于病人诊治数据的知识图谱：

其中：

对于一个输入序列，其标签序列根据最大分类概率计算：

y^*＝arg max P(y]x) (3)

其中e为候选实体集合，m_e为同步消岐的实体集合，

1.2.3.采用计算词语相似度的方法解决属性对齐和关系对齐问题，把属性词语训练成词向量，通过相似度计算方法计算两个词向量之间的相似度，若相似度大于设定的阈值，则认为两个属性是对齐的；

活动轨迹追踪模块：利用患者使用的可公布、共享的定位方式，或与移动通讯运营商协议，经主管部门允许，通过患者手机终端获得患者物理空间GPS定位信息，自动对预设地区就诊人群在特定时间段内具有相同患者活动轨迹的特定事件进行群集性分析，包括活动轨迹提取及聚类分析；

活动轨迹追踪模块工作时，包括如下步骤：

2.1活动轨迹获取：

2.1.1.利用滑动窗口W和均值技术从轨迹数据中滤除噪点，得到处理后的数据点集P'＝(p'₁,p'₂,…,p'_i,p'_i+1,…,p'_k)；

2.1.2.对上述数据点集进行停留点检测，所述停留点是指具有代表性的数据点，使数据点集就变成有意义的地方集；

首先，检查定位点p'_i与其后继者p'_i+1之间的距离是否大于给定阈值的轨迹；然后，它测量定位点和距离阈值内的最后一个后继p'_k之间的时间间隔；如果时间间隔大于给定的阈值，则该定位点为停留点；最后从p'_k的后继点迭代检查，直到所有数据点集检查完；

否则，保留d_max对应的坐标点，并以该点为界，将曲线划为两部分，重复上述步骤，直到所有d_max均小于D，即完成对曲线的压缩；

2.2.活动轨迹数据分析：

通过对预处理后轨迹数据，分析与获取有价值的信息，通过时空环境中事故调查、群体跟踪；发现频繁时序模式，通过公共性规律或公共性频繁路径，进行地点预测、病员相似性估计；通过周期性的活动行为，预测病员未来的行为；具体步骤如下：

p'为轨迹A上按照d(.)计算距离最小的点；在计算两个点距离时，选择L-P范数，以欧氏距离，切比雪夫距离或曼哈顿距离计算方法计算距离；

h,r为轨迹A,B的长度；subcost定义为：

2.2.2.对轨迹进行聚类，分析公共规律行为；采用密度聚类算法DBSCAN，其核心思想：发现密度大于预设阈值的点，然后把相近的高密度点逐步都连成一片，进而生成各种簇；对于给定的线段集合D,算法输出聚类集合0,对于输入的每条线段，算法会对其进行分类，即核心线段和边界线段；过程如下：

b.计算核心线段的密度相连集合并把其加入该核心线段组成的簇中；如果新加入的线段未被分类，则把其加入队列Q中以做进一步扩展；若新加入的线段不是核心线段，则不加入队列Q中；

c.计算每个簇的基数，若其值小于阈值，则算法将该簇淘汰；

自动报警展示模块工作时，按如下步骤进行：

3.2.依据专家经验预先设置的条件和阈值，判断特征数据是否达到预设触发条件，如果达到预设触发条件，则自动化报警；

风险分析评价模块：利用自动报警展示模块与病例信息收集模块提供的数据信息，当系统自动报警后，采用手动方式对单位时间内出现的相同症状、体征或相同诊断与检查指标结果相同病例，利用时空扫描算法以及上述特征数据标识为单元的异常事件分析探测算法对公共安全事件相关预处理数据信息进行计算，获得相应的计算数值；

风险分析评价模块工作时，包括如下步骤：

4.1.海量病例特征信息处理：

由于要对单位时间内出现特定特征的病例进行索引和查找，在系统自动报警后，处理和分析海量数据；具体步骤如下：

4.1.1.构建基于斐波那契散列的二叉链表；构建规则是：

①对于16位整数而言，取乘数40503

②对于32位整数而言，取乘数2654435769

③对于64位整数而言，取乘数11400714819323198485对于常见的32位整数而言，映射公式如下：

index＝(value*2654435769)>>28

其中，value是输入值，index是链表的头地址；

4.1.2.基于分布式的数据处理框架Spark，检索出现特定特征的病例；数据处理步骤：

③SparkContext连接到从节点，注册并申请资源；

⑤任务执行模块向SparkContext注册；

⑥SparkContext将应用分配给任务执行模块；

⑨所有的任务执行完成之后，SparkContext向主节点注销；

④依此访问所有顶点，遍历结束；

设一维时间序列为：X_time＝{x_time(1),x_time(2),...,x_time(i),...,x_time(n)}

X_rec＝{x_rec(i),x_rec(i+1),...x_rec(i+(m-1)*l)}

则一维时间序列X_time的相空间矩阵为：

其中m和l分别为重构维数和延迟时间；

对x_time(i)的重构向量X_rec各元素进行升序排列，得到：

这样得到的排列方式为：

{c₁,c₂,...,c_m}

其为全排列m_dim！中的一种，对一维时间序列X_time各种排列情况出现次数进行统计，计算各种排列情况出现的相对频率作为其概率p_x1、p_x2、…、

k_p<＝m_dim！,计算序列归一化后的排列熵：

其中，m_dim是空间维度。