CN117912715A

CN117912715A - 一种基于知识融合网络的传染病预测方法及系统

Info

Publication number: CN117912715A
Application number: CN202311767394.9A
Authority: CN
Inventors: 石金龙; 王建英; 王万玲; 肖宇鹏
Original assignee: Chinese PLA General Hospital
Current assignee: Chinese PLA General Hospital
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-04-19

Abstract

本发明公开了一种基于知识融合网络的传染病预测方法及系统，整合门急诊病历，得到数据集，融合多种来源的传染病知识构建传染病知识图谱；结合文本特征和病况特征，采用双向门控单元、自注意力机制、注意力机制和全连接神经网络方法，获得文本注意力特征和病况注意力特征；采用图神经网络、随机失活和全连接神经网络方法，结合传染病知识图谱，获得传染病特征；将所得文本注意力特征、病况注意力特征和传染病特征进行向量拼接，结合患者向量进行全连接和s型函数激活，构建传染病预测模型；本发明系统采用构建的传染病预测模型学习患者的特征表示，预测出患者具体疾病，为医生快速诊断传染病提供辅助支撑，大大提高对潜在传染病患者的预测准确率。

Description

一种基于知识融合网络的传染病预测方法及系统

技术领域

本发明属于传染病预测及辅助诊断技术领域，具体涉及一种基于知识融合网络的传染病预测方法及系统。

背景技术

传染病对人类健康和社会稳定具有严重威胁。然而，如何快速准确地诊断传染病一直是一个具有重要意义的挑战。近年来，基于电子病历的临床大数据在医学研究和临床实践中扮演着重要角色。医院和医疗机构广泛采用电子病历系统，记录了患者的详细信息，包括病史、诊断、治疗方案和药物治疗等内容，并形成了大规模的临床数据集，为医学研究提供支持。临床文本记录了医生的判断依据和对诊疗行为的效果跟踪，为疾病的诊断和治疗提供了精准和全面的临床信息，如何借助于临床数据，自动对患者是否患有传染病做出准确判断，对于减少人为主观因素影响，提高预测的准确性具有重要意义。

发明内容

为了解决现有技术中所存在的上述技术问题，本发明提供了一种基于知识融合网络的传染病预测方法及系统，减少了人为主观因素影响，大大提高了传染病的预测准确率。

所采用的具体方案如下：

一种基于知识融合网络的传染病预测方法，所述方法包括如下步骤：

步骤1，整合门急诊病历，经数据预处理后得到包含文本特征和病况特征的数据集；

步骤2，融合多种来源的传染病知识构建传染病知识图谱；

步骤3，结合步骤1中的文本特征和病况特征，采用双向门控单元、自注意力机制、注意力机制和全连接神经网络方法，获得文本注意力特征h^w和病况注意力特征h^f；

步骤4，结合步骤2建立传染病知识图谱，通过知识匹配的方法获得传染病知识图，进一步采用图神经网络、随机失活和全连接神经网络方法，获得传染病特征h^g；

步骤5，将所得文本注意力特征h^w、病况注意力特征h^f和传染病特征h^g进行向量拼接，结合患者向量p进行全连接和s型函数激活，构建传染病预测模型；

步骤6，采用构建好的传染病预测模型学习患者的特征表示，预测出患者的具体传染病。

进一步地，所述步骤3中获得文本注意力特征h^w和病况注意力特征h^f的具体方法是：

步骤3.1，获取数据集中的文本特征，采用下式(1)和(2)进行特征抽取：

其中h是文本向量，和/>分别是双向门控单元的右向量和左向量，w_i和w_j分别是词向量的正序和逆序输入；

步骤3.2，将所得左向量和右向量/>拼接，使用公式(3)平均池化方法得到文本向量特征h⁽¹⁾为：

步骤3.3，采集数据集中的病况特征并进行特征映射；

步骤3.4，依次进行自注意力机制和全连接神经网络处理后，获得病况向量特征h⁽²⁾，w^j是病况词向量，如下式(4)和(5)：

h^j＝selfatt(w^j) (4)

h⁽²⁾＝fc(h^j) (5)

步骤3.5，将步骤3.2和步骤3.4所得向量特征进行互注意力计算，得到文本注意力特征h^w和病况注意力特征h^f。

具体地，所述步骤3.5具体互注意力计算方法是：

计算病况嵌入注意力特征u_j和注意力权重α_j，计算公式(6)和(7)：

再通过注意力权重α_j的加权得到文本注意力特征h^w和病况注意力特征h^f：

h^w＝α_j*h⁽¹⁾ (8)

h^f＝α_j*h⁽²⁾ (9)。

具体地，所述步骤5中获得传染病特征h^g的具体表达式为(10)：

h^g＝fc(drop(ReLU(A_i,jW²d_if_j))) (10)

其中：A_i,j是通过知识匹配得到的传染病知识图中的边关系；

fc和drop是深度学习中的全连接操作和随机失活操作

d表示命中哪个疾病的疾病向量；

f表示命中哪个症状的症状向量。

具体地，所述步骤6中的传染病预测模型的具体表达式为(11)：

进一步地，所述步骤1中门急诊病历包括结构化的检查数据和非结构化的病程记录数据，其中的预处理包括文本清洗、去除噪声、标准化格式步骤；提取出电子病例中包含有主诉、现病史的文本特征，且通过实体识别方法抽取出包含有疾病、症状和体征的病况特征。

进一步地，所述步骤2中，通过查询传染病相关书籍、文献，结合医学专家的指导，构建包含有病因、传播途径、临床表现和诊断标准的传染病知识，并采用知识图谱方式组织和表达传染病知识，形成传染病知识图谱。

另一方面，本发明还提供了一种知识融合网络的传染病预测系统，所述系统包括：病历库，用于收集门急诊电子病历；

传染病知识图谱，包括融合多种来源的传染病知识，其采用知识图谱方式组织和表达传染病知识；

预处理模块，用于对病历库中所采集到的电子病历进行文本清洗、去除噪声和标准化格式预处理；

文本特征提取模块，采用双向门控单元、自注意力机制、注意力机制和全连接神经网络方法，从预处理后的病历库中提取电子病历中所包含的文本特征；

病况特征提取模块，采用自注意力机制、注意力机制和全连接神经网络方法，从预处理后的病历库中提取电子病历中所包含的病况特征；

传染病特征提取模块，采用图神经网络、随机失活和全连接神经网络方法，从所述传染病知识图谱中获得传染病特征；

传染病预测模型，其将所述文本特征提取模块所得到的文本特征、所述病况特征提取模块所得到的病况特征和所述传染病特征提取模块所得到的传染病特征进行向量拼接，并结合患者个人特征，采用全连接神经网络和s型激活函数构建形成所述的传染病预测模型，用于预测出患者的具体传染病。

本发明技术方案具有如下优点：

A.本发明所提供的预测方法及系统基于双向门控单元、自注意力机制、注意力机制和全连接神经网络方法，减少了传统机器学习中人为选取特征所带来的误差，通过深度学习的方法，所构建的传染病预测模型能够自动学习和提取患者数据中的有效特征，减少了人为主观因素的影响，提高了预测的准确性。

B.本发明融合了结构化的患者的检查数据和非结构化的病程记录，充分利用了多个数据源信息进行预测，通过综合分析不同类型的数据，可以更全面地了解患者的病情和状况，从而提高传染病预测的准确性和可靠性。

C.本发明利用BiGRU对时序文本数据进行分析，捕捉文本中的上下文信息和时间关系，同时，使用自注意力机制和注意力机制对重要特征进行加权融合，突出关键信息，提高了模型对患者病情的理解和判断能力。

D.本发明基于知识匹配技术，将传染病知识图谱中的疾病-病况信息与患者病历进行匹配，生成病历传染病特征，这样的特征融合了传染病领域的专业知识，能够更好地捕捉患者的传染病相关特征，提高了传染病预测的准确性。

E.本发明具有高准确性和特异性的预测效果，经过实验证明，本发明的综合预测系统具有较高的准确性和特异性；通过综合考虑多种信息和特征，该系统能够提供准确的传染病预测结果，有助于医院和医生做出正确的诊断和治疗决策。

F.本发明能够有效利用多源数据进行传染病预测，减少人为误差，提高预测的准确性和可靠性，这对责任相关方(如医院和医生)提供准确的传染病判断和预警系统，也有助于减少人为误差的影响，提高医疗决策的质量。

附图说明

为了更清楚地说明本发明具体实施方式，下面将对具体实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明所提供的传染病预测方法结构图；

图2是本发明所提供的传染病预测系统结构图；

图3是本发明所提供的传染病预测方法具体流程图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1和图3所示，本发明提供了一种基于知识融合网络的传染病预测方法，包括如下步骤：

【S01】整合门急诊病历，经数据预处理后得到包含文本特征和病况特征的数据集，同时将数据集进行划分得到训练集和测试集。

本发明首先从门急诊收集病历数据，并对数据进行预处理。预处理过程包括文本清洗、去除噪声、标准化格式等步骤，以确保数据的质量和一致性；随后，通过将数据集划分为训练集和测试集，用于模型的训练和评估。数据预处理过程中，提取出电子病历中的主诉、现病史等文本特征信息；同时使用医疗领域的电子病历中的实体识别技术，抽取出症状、体征等病况特征信息。

【S02】融合多种来源的传染病知识构建传染病知识图谱。

由于疾病和病况间存在关系特征，因此，可以通过构建传染病知识图的形式获取特征信息，通过查询传染相关书籍、文献，结合医学专家的指导，融合多种来源的传染病知识，进一步构建传染病知识图谱。本发明通过查询传染病相关的书籍、文献和其他资源，获取传染病的相关知识。同时，本发明还结合医学专家的指导，对传染病知识进行进一步构建和整理，这些传染病知识包括病因、传播途径、临床表现、诊断标准等方面的信息。在构建过程中，可以使用知识图谱的技术手段来组织和表示传染病知识，以便后续的知识融合和应用。

【S03】结合步骤【S02】中的文本特征和病况特征，采用双向门控单元、自注意力机制、注意力机制和全连接神经网络方法，获得文本注意力特征h^w和病况注意力特征h^f，具体方法是：

【S031】获取数据集中的文本特征，采用下式(1)和(2)进行特征抽取：

【S032】将所得左向量和右向量/>拼接，使用公式(3)平均池化方法得到文本向量特征h⁽¹⁾为：

【S033】采集数据集中的病况特征并进行特征映射；

【S034】依次进行自注意力机制和全连接神经网络处理后，获得病况向量特征h⁽²⁾，w^j是病况词向量，如下式(4)和(5)：

h^j＝selfatt(w^j) (4)

h⁽²⁾＝fc( h^j) (5)

【S035】将步骤【S032】和步骤【S034】所得向量特征进行互注意力计算，得到文本注意力特征h^w和病况注意力特征h^f。

首先是文本指引的病况嵌入注意力特征：

注意力权重：

其中u_j为单个电子病历信息，如病况特征，相较于所有电子病历信息计算的注意力系数；W¹为要训练的权重矩阵；

再通过注意力权重α_j的加权得到文本注意力特征h^w和病况注意力特征h^f，分别如下式(8)和(9)：

文本注意力特征h^w＝α_j*h⁽¹⁾ (8)

病况注意力特征h^f＝α_j*h⁽²⁾ (9)。

【S04】结合步骤【S02】建立的传染病知识图谱，通过知识匹配的方法获得传染病知识图，进一步采用图神经网络、随机失活和全连接神经网络方法，获得传染病特征h^g。

传染病知识图是无向无权图，仅代表建立了关系，传染病知识图中的图关系主要由知识图谱和语义结构化后的疾病临床特征挖掘构建，比如感染性腹泻-黄色稀水便等。当训练语料中命中知识图谱关系，则图的边权重记做1，进行知识图的训练。

边关系记录为A_i,j,A_i,j是通过知识匹配得到的传染病知识图中的边关系，由此，边关系是随着训练语料中命中的知识图谱关系而变化的，例如病历中存在黄色稀水便但没有腹泻，则黄色稀水便的边权重为1，腹泻的边权重为0(即腹泻向量不纳入知识图向量的计算)，训练过程中，更新传染病知识图的特征向量。

传染病特征h^g的计算如下式(10)：

h^g＝fc(drop(ReLU(A_i,jW²d_if_j))) (10)

其中：d表示命中哪个疾病的疾病向量，比如感染性腹泻的疾病向量；

f表示命中哪个症状的症状向量，比如黄色稀水便的症状向量；

fc和drop是深度学习中全连接操作和随机失活操作。

【S05】将所得文本注意力特征h^w、病况注意力特征h^f和传染病特征h^g进行向量拼接，结合患者向量p进行全连接和s型函数激活，构建传染病预测模型，如下式(11)所示，即得多种传染病预测概率，其中概率最高的则视为患者可能获得的传染病。

【S06】采用构建好的传染病预测模型学习患者的特征表示，预测出患者的具体传染病。

在整个传染病预测模型构建过程中，文本数据使用双向门控单元(BiGRU)，病况特征与文本特征组成互相Attention机制丰富文本表达，患者的传染病特征，通过基于空间的图卷积神经网络(Spatial-based Graph Convolution)的方式，将知识融入网络；多种类型特征抽取的向量特征经过数组拼接(Concat)形成患者特征矩阵，最终通过全连接神经网络(FCNN)与多个s型激活函数得到多分类结果，其中有一类代表其他疾病即非传染病。

如图1所示，其中文本特征指病历的主要文本信息，即主诉、现病史等，病况特征指的是结构化后得到的疾病、体征、症状信息，其中主诉、现病史以字符为单位，每个文字作为一个token，转化为embedding。体征、症状信息中的每一个症状和体征作为一个token，转化为embedding。

本发明能够综合利用双向门控单元(BiGRU)、图神经网络(GCN)、自注意力机制、注意力机制和全连接神经网络的优势，构建的传染病预测模型能够从病历数据中学习患者的特征表示，并结合传染病知识进行准确的诊断判断。不同的网络结构和注意力机制的综合应用有助于提高预测模型的性能和泛化能力，从而增强传染病诊断的准确性和效率。

下面针对构建的传染病预测模型进行训练和测试：

采用随机抽样方式，将整合后的数据集分成训练集和测试集，训练集：测试集＝9:1。为对比模型效果，本发明同时训练了几个经典深度学习模型作为对照，具体包括：双向门控神经网络，文本卷积网络，医疗注意力网络。

针对敏感性，从测试集中随机抽样100份主诊断为某传染病的病历，作为传染病的敏感性评测集。

针对特异性，从测试集中抽取1000份病历，作为传染病的特异性测试集。

评估的指标包括敏感性、特异性和F1分数，指标的计算如公式(12)～(15)所示。四种模型的训练结果如表2。

表1混淆矩阵

	阳性	阴性
			预测为阳性	TP	FP
预测为阴形	FN	TN

Sensitivity表示所有阳性病例中被正确预测为阳性的比率：

Specificity表示所有阴性病例中被正确预测为阴性的比率：

另外，还需要评估模型预测为阳性的结果中，属于真正的阳性的数量，此时需要使用Precision，其中TP+FP为所有预测为阳性的病例数：

在保障准确率情况下，本研究尽可能多的分类出阳性，因此提升召回率，引入F1-Score，从而综合考虑Precision和Sensitivity的调和值。

表2：四种模型的训练结果

针对抽取的数据集，本发明所采用知识融合网络模型的敏感性和F1分数显著优于常用的几种深度学习方法，敏感性平均值提升了2％-8％，F1分数提升了1％-3％，特异性与其他几种方法都维持在较高水平，差异不大。总体看来，本发明采用知识融合网络模型同其他常用的深度学习方法相比，具有更好的技术效果。

如图2所示，本发明还提供了一种知识融合网络的传染病预测系统，系统包括：病历库、传染病知识图谱、预处理模块、文本特征提取模块、病况特征提取模块、传染病特征提取模块和传染病预测模型。病历库用于收集门急诊电子病历；传染病知识图谱中包括融合多种来源的传染病知识，其采用知识图谱方式组织和表达传染病知识；预处理模块用于对病历库中所采集到的电子病历进行文本清洗、去除噪声和标准化格式预处理；文本特征提取模块采用双向门控单元、自注意力机制、注意力机制和全连接神经网络方法，从预处理后的病历库中提取电子病历中所包含的文本特征；病况特征提取模块采用自注意力机制、注意力机制和全连接神经网络方法，从预处理后的病历库中提取电子病历中所包含的病况特征；传染病特征提取模块采用图神经网络、随机失活和全连接神经网络方法，获得传染病特征；传染病预测模型构建模块将所得到的文本特征、病况特征和传染病特征进行向量拼接，结合患者个人特征，采用全连接神经网络和s型激活函数构建传染病预测模型，用于预测出患者的具体传染病；以患者门诊单据中的文本信息作为输入特征，预测患者的。

本发明系统是利用电子病历和患者基本信息作为输入，结合传染病知识，设计并训练深度学习模型，实现对就诊患者患传染病的概率进行自动判断，并发现传染病病例。通过创造性地结合电子病历和传染病知识，本发明为临床医生提供辅助诊断，提高临床医生诊断传染病的准确性和效率。

本发明旨在门急诊场景下提供医生快速判断患者可能患有传染病的能力，以便进行进一步的诊断和治疗。相较于传统机器学习方法，本发明采用了基于知识融合网络模型，能够从原始数据中学习到更高层次的特征表示，减少对人工特征工程的需求，并且能够处理大规模数据集和复杂模式。

由于本发明预测系统融合了传染病知识信息，传染病知识是从医学研究和临床实践中积累的关于传染病的专业知识，包括病因、临床表现、诊断标准等方面的信息，通过将传染病知识融入预测系统，进一步提高了传染病的诊断准确性和效率。

本发明预测系统中，通过学习大规模临床数据集中的模式和关联性，自动提取与传染病相关的特征表示，这些特征表示能够捕捉潜在的传染病指标，帮助医生判断患者是否可能患有传染病；传染病知识的融合进一步增强了传染病预测模型的诊断能力，使其能够更精准地辨别传染病的特征和模式。

本发明未述及之处适合于现有技术。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明的保护范围之中。

Claims

1.一种基于知识融合网络的传染病预测方法，其特征在于，所述方法包括如下步骤：

步骤2，融合多种来源的传染病知识构建传染病知识图谱；

步骤4，结合步骤2建立的传染病知识图谱，通过知识匹配的方法获得传染病知识图，进一步采用图神经网络、随机失活和全连接神经网络方法，获得传染病特征h^g；

2.根据权利要求1所述的知识融合网络的传染病预测方法，其特征在于，所述步骤3中获得文本注意力特征h^w和病况注意力特征h^f的具体方法是：

步骤3.3，采集数据集中的病况特征并进行特征映射；

h^j＝selfatt(w^j) (4)

h⁽²⁾＝fc(h^j) (5)

3.根据权利要求2所述的知识融合网络的传染病预测方法，其特征在于，所述步骤3.5具体互注意力计算方法是：

计算病况嵌入注意力特征u_j和注意力权重α_j，如下式(6)和(7)：

h^w＝α_j*h⁽¹⁾ (8)

h^f＝α_j*h⁽²⁾ (9)。

4.根据权利要求1所述的知识融合网络的传染病预测方法，其特征在于，所述步骤5中获得传染病特征h^g的具体表达式为(10)：

h^g＝fc(drop(ReLU(A_i,jW²d_if_j))) (10)

fc和drop是深度学习中的全连接操作和随机失活操作

d表示命中哪个疾病的疾病向量；

f表示命中哪个症状的症状向量。

5.根据权利要求1所述的知识融合网络的传染病预测方法，其特征在于，所述步骤6中的传染病预测模型的具体表达式为(11)：

6.根据权利要求1所述的知识融合网络的传染病预测方法，其特征在于，所述步骤1中门急诊病历包括结构化的检查数据和非结构化的病程记录数据，其中的预处理包括文本清洗、去除噪声、标准化格式步骤；提取出电子病例中包含有主诉、现病史的文本特征，且通过实体识别方法抽取出包含有疾病、症状和体征的病况特征。

7.根据权利要求1所述的知识融合网络的传染病预测方法，其特征在于，所述步骤2中，通过查询传染病相关书籍、文献，结合医学专家的指导，构建包含有病因、传播途径、临床表现和诊断标准的传染病知识，并采用知识图谱方式组织和表达传染病知识，形成传染病知识图谱。

8.一种知识融合网络的传染病预测系统，其特征在于，所述系统包括：

病历库，用于收集门急诊电子病历；