CN116168828A - 基于知识图谱和深度学习的疾病预测方法、装置及计算机设备 - Google Patents

基于知识图谱和深度学习的疾病预测方法、装置及计算机设备 Download PDF

Info

Publication number
CN116168828A
CN116168828A CN202310154603.6A CN202310154603A CN116168828A CN 116168828 A CN116168828 A CN 116168828A CN 202310154603 A CN202310154603 A CN 202310154603A CN 116168828 A CN116168828 A CN 116168828A
Authority
CN
China
Prior art keywords
disease
matrix
knowledge
entity
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310154603.6A
Other languages
English (en)
Inventor
徐鹤
朱静抒
王汝传
程海涛
李鹏
季一木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202310154603.6A priority Critical patent/CN116168828A/zh
Publication of CN116168828A publication Critical patent/CN116168828A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提供一种基于知识图谱和深度学习的疾病预测方法、装置及计算机设备,通过获得疾病异常指标与病情自述文本,获得异常指标表示矩阵Y与病情自述文本表示矩阵X,拼接后得到融合表示矩阵;由病情自述文本结合医学知识图谱,构建与实体相连关系的疾病知识子图;分别获得疾病知识子图的实体向量矩阵和实体上下文向量矩阵,对齐叠加得到叠加表示矩阵;将融合表示矩阵和叠加表示矩阵连接在一起获得特征融合矩阵,将特征融合矩阵输入到卷积神经网络模型即CNN模型,获得预测结果;本发明不仅通过疾病异常指标与病情自述文本,还通过引入知识图谱这一知识决策,能够获得更精准的预测结果,能够实现更准确地综合智能辅助诊断。

Description

基于知识图谱和深度学习的疾病预测方法、装置及计算机 设备
技术领域
本发明涉及一种基于知识图谱和深度学习的疾病预测方法、装置及计算机设备,属于医疗信息化技术领域。
背景技术
随着人工智能的发展,渐趋成熟的AI技术正逐步向医疗领域转向。智能医疗就是将人工智能技术应用于疾病诊疗中,计算机能够进行诊断和治疗,可以帮助医生进行病理、体检报告等统计,可以独立提供用药协助、分诊指导、健康咨询等服务。通过大数据和深度挖掘等技术,对病人的医疗数据进行分析和挖掘,自动识别病人的临床变量和指标。计算机通过“学习”相关的专业知识,模拟医生的思维和诊断推理,从而给出可靠诊断和治疗方案,即计算机成为具有医学知识的大脑,模拟医生的思维和诊断推理,为医生的诊断和治疗提供辅助决策。
如今,深度学习技术在疾病诊断领域也获取了一些突破性进展,其目的在于建立模型模拟人脑的神经连接结构,在处理实际问题时,由多重非线性变换构成的多个处理层进行数据处理。然而,深度学习技术是一种依赖数据驱动建模的技术,需要用大规模样本来训练,才能取得较好的泛化能力,除了对数据数量有要求之外,数据质量也特别重要,尤其是涉及医疗领域的数据,大多需要经验丰富的专家手动整理出“标准答案”,才能提高深度学习预测的准确性。
虽然,相比传统的机器学习,深度学习采用自动提取特征的方法替代人工提取特征,不仅提高了效率,而且自动提取特征的方法也可以是分类任务更准确,因为更容易获取结构化的高抽象映射。然而,仅将患者的数值数据输入到深度学习模型中,输出病人的患病情况,缺乏医生专家诊断的过程,其导致无法从体检数据发现隐含疾病知识,其原因在于,深度学习技术往往关注一些典型特征,忽视一些其他非典型特征。以糖尿病为例,如果仅凭血糖这个指标去判断用户是否患糖尿病,则会出现误诊的情况。虽然高血糖大多数是因为糖尿病而引起的,但高血糖除了是糖尿病以外,还可能因为其他原因而引起的。如应激性高血糖、患有肝炎、肝硬化等疾病或胰岛素异常也会出现血糖异常升高的现象。只是面向数据总结规律的深度学习技术对此缺乏经验知识。
知识图谱是人工智能领域的一项重要技术,是构建计算机医学知识大脑的技术基础。因此,知识图谱已经是智能医学的关键技术之一。在莱德利等人首次将数据模型应用于临床医学领域后,出现了各种形式的医疗专家协助装置。这些装置的主要工作流程是构建医学专家的临床经验和知识,以建立医学知识库。然后通过专家制定推理规则。最后,在实际应用中,根据用户输入的体检数据进行诊断和推理。然而,该装置的机械化和过于简单的基于规则的推理方法在构建知识库和对具有不同数据的医疗数据进行诊断推理方面存在一定的局限性。
随着计算机技术、机器学习和人工智能技术的发展,越来越多的学者开始使用机器学习和人工智能技术来构建知识库和疾病辅助诊断装置。自20世纪70年代以来,国外在这一领域的研究和开发投入了大量的人力和物力,并取得了丰硕的成果。在医学领域,上述基于知识图谱的应用大多使用传统的机器学习。该方法的准确率有待进一步提高。
上述问题是在基于知识图谱和深度学习的疾病预测过程中应当予以考虑并解决的问题。
发明内容
本发明的目的是提供一种基于知识图谱和深度学习的疾病预测方法、装置及计算机设备解决现有技术中存在的准确率有待进一步提高的问题。
本发明的技术解决方案是:
一种基于知识图谱和深度学习的疾病预测方法,包括以下步骤,
S1、获得疾病异常指标与病情自述文本,分别进行词嵌入表示后,获得异常指标表示矩阵Y与病情自述文本表示矩阵X,将异常指标表示矩阵Y与病情自述文本表示矩阵X拼接后,得到融合表示矩阵;
S2、由病情自述文本结合医学知识图谱,获得实体知识,构建与实体相连关系的疾病知识子图;
S3、对得到的疾病知识子图,使用知识图谱嵌入技术,引入转换函数,并映射到词向量空间,分别获得疾病知识子图的实体向量矩阵和实体上下文向量矩阵,对齐叠加得到叠加表示矩阵;
S4、将步骤S1得到的融合表示矩阵和步骤S3得到的叠加表示矩阵连接在一起获得特征融合矩阵,将特征融合矩阵输入到卷积神经网络模型即CNN模型,获得预测结果。
进一步地,步骤S1中,获得异常指标表示矩阵Y与病情自述文本表示矩阵X,具体为,
S11、将疾病数据集中数据进行预处理,筛选出不在设定的参考范围的数据作为异常指标,获得异常指标集合ab={b1,b2,...,bi,...bn},其中,bi表示筛选出的第i个异常指标,n表示筛选出的异常指标总数,通过词嵌入模型进行词嵌入表示为{y1,y2,,...,yi,...,yn},其中,yi表示第i个异常指标的词嵌入,n表示筛选出的异常指标总数,组合为异常指标表示矩阵Y;
S12、获得病情自述文本,并将病情自述文本通过词嵌入模型进行词嵌入表示,映射为病情自述文本表示矩阵X。
进一步地,步骤S2中,由病情自述文本结合医学知识图谱,获得实体知识,构建与实体相连关系的疾病知识子图,具体为,
S21、对病情自述文本使用结巴分词即jieba分词工具进行识别,再通过命名实体识别,获得疾病特征关键词w1:n
S22、使用实体链接技术将获取的疾病特征关键词w1:n与医学知识图谱进行实体消歧,获得消歧后的实体知识;
S23、根据消歧后的实体知识,构建与实体相连关系的疾病知识子图。
进一步地,步骤S3中,对得到的疾病知识子图,使用知识图谱嵌入技术,引入转换函数,并映射到词向量空间,分别获得疾病知识子图的实体向量矩阵和实体上下文向量矩阵,对齐叠加得到叠加表示矩阵,具体为,
S31、使用知识图谱嵌入技术,将疾病知识子图中的实体和关系映射到连低维空间,分别得到实体向量表示ei和实体上下文向量的平均值表示eci
S32、通过转换函数ut=tanh(M·e+b),其中,M∈Rd×k为变换矩阵,b∈Rd×1为偏差,将实体向量表示ei和实体上下文向量的平均值表示eci映射到词向量空间,分别得到疾病知识子图的实体向量矩阵和实体上下文向量矩阵;
S33、将疾病知识子图的实体向量矩阵和实体上下文向量矩阵对齐并叠加即得到叠加表示矩阵S:S=[g(e1)g(ec1)][g(e2)g(ec2)]......[g(en)g(ecn)]∈Rd×n×2
进一步地,步骤S4中,CNN模型包括卷积层、池化层、全连接层和输出层,
卷积层:使用不同的卷积核尺寸l×k对步骤S4中得到的特征融合矩阵进行上下卷积,来提取特征融合矩阵中的的局部特征ci,ci=f(m·S[i:i+l-1]+b),其中,m表示尺寸为l×k的卷积核,卷积核S中从上向下以步长1进行卷积,b表示偏置,f表示激活函数,采用ReLU作为卷积层的激活函数,得到当前卷积核提取的全部局部特征向量C:C={c1,c2,c3,……,cn-l+1};
池化层:对卷积层输出的全部局部特征向量C使用最大池化操作,选取最大值表示局部特征di=max(C);
全连接层:将所有池化层得到的局部特征在全连接层进行组合,形成深层次特征v:v={v1,v2,……,vm},其中,m为卷积核的数量;
输出层:用于将全连接层的输出转化为概率分布,确定疾病的分类结果。
进一步地,输出层中,用于将全连接层的输出转化为概率分布,具体为,将全连接层得到深层次特征vi输入softmax函数,经过归一化后,得到病情自述文本vi在第k种疾病上的输出概率
Figure BDA0004091850020000041
Figure BDA0004091850020000042
其中,exp表示以自然常数e为底的指数函数,k为疾病输出类别总数。
一种采用上述任一项所述的基于知识图谱和深度学习的疾病预测方法的装置,包括词嵌入模块、知识图谱嵌入模块、特征融合模块和预测模块,
词嵌入模块:获得疾病异常指标与病情自述文本,分别进行词嵌入表示后,获得异常指标表示矩阵Y与病情自述文本表示矩阵X,将异常指标表示矩阵Y与病情自述文本表示矩阵X拼接后,得到融合表示矩阵;
知识图谱嵌入模块:由病情自述文本结合医学知识图谱,获得实体知识,构建与实体相连关系的疾病知识子图,对得到的疾病知识子图,使用知识图谱嵌入技术,引入转换函数,并映射到词向量空间,分别获得疾病知识子图的实体向量矩阵和实体上下文向量矩阵,对齐叠加得到叠加表示矩阵;
特征融合模块:将得到的融合表示矩阵和得到的叠加表示矩阵连接在一起获得特征融合矩阵;
预测模块:将特征融合矩阵输入到卷积神经网络模型即CNN模型,获得预测结果。
一种计算机设备,包括存储器和处理器,存储器存储可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一项所述的基于知识图谱和深度学习的疾病预测方法的步骤。
本发明的有益效果是:
一、该种基于知识图谱和深度学习的疾病预测方法、装置及计算机设备,不仅通过疾病异常指标与病情自述文本,还通过引入知识图谱这一知识决策,能够获得更精准的预测结果,能够实现更准确地综合智能辅助诊断,能够用于疾病如糖尿病的预测。
二、该种基于知识图谱和深度学习的疾病预测方法、装置及计算机设备,能够提升诊断疾病的精确率,降低误诊率。较其他的疾病诊断方法,本发明融合数据驱动和知识驱动,将疾病异常指标与病情自述文本相结合,可以充分挖掘出患者隐含的疾病信息。与目前单一信息源进行预测疾病相比较,能够获得更精准的预测结果。
附图说明
图1是本发明实施例基于知识图谱和深度学习的疾病预测方法的流程示意图;
图2是实施例中使用实体链接技术将获取的疾病特征关键词w1:n与医学知识图谱进行实体消歧的说明示意图;
图3是实施例基于知识图谱和深度学习的疾病预测装置的说明示意图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
实施例
一种基于知识图谱和深度学习的疾病预测方法,如图1,包括以下步骤,
S1、获得疾病异常指标与病情自述文本,分别进行词嵌入表示后,获得异常指标表示矩阵Y与病情自述文本表示矩阵X,将异常指标表示矩阵Y与病情自述文本表示矩阵X拼接后,得到融合表示矩阵;
步骤S1中,获得异常指标表示矩阵Y与病情自述文本表示矩阵X,具体为,
S11、将疾病数据集中数据进行预处理,筛选出不在设定的参考范围的数据作为异常指标,获得异常指标集合ab={b1,b2,...,bi,...bn},其中,bi表示筛选出的第i个异常指标,n表示筛选出的异常指标总数,通过词嵌入模型进行词嵌入表示为{y1,y2,,...,yi,...,yn},其中,yi表示第i个异常指标的词嵌入,n表示筛选出的异常指标总数,组合为异常指标表示矩阵Y;
S12、获得病情自述文本,并将病情自述文本通过词嵌入模型进行词嵌入表示,映射为病情自述文本表示矩阵X。
S2、由病情自述文本结合医学知识图谱,获得实体知识,构建与实体相连关系的疾病知识子图;
S21、对病情自述文本使用结巴分词即jieba分词工具进行识别,再通过命名实体识别,获得疾病特征关键词w1:n
S22、使用实体链接技术将获取的疾病特征关键词w1:n与医学知识图谱进行实体消歧,获得消歧后的实体知识,如图2;
S23、根据消歧后的实体知识,构建与实体相连关系的疾病知识子图。
S3、对得到的疾病知识子图,使用知识图谱嵌入技术,引入转换函数,并映射到词向量空间,分别获得疾病知识子图的实体向量矩阵和实体上下文向量矩阵,对齐叠加得到叠加表示矩阵;
S31、使用知识图谱嵌入技术,将疾病知识子图中的实体和关系映射到连低维空间,分别得到实体向量表示ei和实体上下文向量的平均值表示eci
S32、通过转换函数ut=tanh(M·e+b),其中,M∈Rd×k为变换矩阵,b∈Rd×1为偏差,将实体向量表示ei和实体上下文向量的平均值表示eci映射到词向量空间,分别得到疾病知识子图的实体向量矩阵和实体上下文向量矩阵;
S33、将疾病知识子图的实体向量矩阵和实体上下文向量矩阵对齐并叠加即得到叠加表示矩阵S:S=[g(e1)g(ec1)][g(e2)g(ec2)]......[g(en)g(ecn)]∈Rd×n×2
S4、将步骤S1得到的融合表示矩阵和步骤S3得到的叠加表示矩阵连接在一起获得特征融合矩阵,将特征融合矩阵输入到卷积神经网络模型即CNN模型,获得预测结果。
步骤S4中,CNN模型包括卷积层、池化层、全连接层和输出层,
卷积层:使用不同的卷积核尺寸l×k对步骤S4中得到的特征融合矩阵进行上下卷积,来提取特征融合矩阵中的的局部特征ci,ci=f(m·S[i:i+l-1]+b),其中,m表示尺寸为l×k的卷积核,卷积核S中从上向下以步长1进行卷积,b表示偏置,f表示激活函数,采用ReLU作为卷积层的激活函数,得到当前卷积核提取的全部局部特征向量C:C={c1,c2,c3,……,cn-l+1};
在卷积神经网络中,激活函数用于对卷积层的输出进行非线性变换。这种非线性变换有助于增强网络的非线性能力,从而更好地捕捉复杂结构和特征。
池化层:对卷积层输出的全部局部特征向量C使用最大池化操作,选取最大值表示局部特征di=max(C);
全连接层:将所有池化层得到的局部特征在全连接层进行组合,形成深层次特征v:v={v1,v2,……,vm},其中,m为卷积核的数量;
输出层:用于将全连接层的输出转化为概率分布,确定疾病的分类结果。
输出层中,用于将全连接层的输出转化为概率分布,具体为,将全连接层得到深层次特征vi输入softmax函数,经过归一化后,得到病情自述文本vi在第k种疾病上的输出概率
Figure BDA0004091850020000071
Figure BDA0004091850020000072
,其中,exp表示以自然常数e为底的指数函数,k为疾病输出类别总数。
该种基于知识图谱和深度学习的疾病预测方法,不仅通过疾病异常指标与病情自述文本,还通过引入知识图谱这一知识决策,能够获得更精准的预测结果,能够实现更准确地综合智能辅助诊断,能够用于疾病如糖尿病的预测。
该种基于知识图谱和深度学习的疾病预测方法,能够提升诊断疾病的精确率,降低误诊率。较其他的疾病诊断方法,本发明融合数据驱动和知识驱动,将患者检查数据与病情描述文本相结合,可以充分挖掘出患者隐含的疾病信息。与目前单一信息源进行预测疾病相比较,能够获得更精准的预测结果。
该种基于知识图谱和深度学习的疾病预测方法,将患者的检查数据的异常指标和患者的病情描述文本各自表征再融合,再提取疾病描述文本的疾病特征词,使用词嵌入模型将其转化为词向量,其次,再通过实体链接消歧技术将疾病描述文本中的疾病特征词与知识图谱中的候选实体进行消歧,再根据获取的消歧实体构建与实体相关的知识子图,使用知识图谱嵌入方法将知识子图中的实体和关系转化为低维连续向量,最后,通过融合多个通道的信息从而使得CNN模型能够学习到更丰富疾病特征,从而能够获得更准确的是否患该疾病的预测结果。
该种基于知识图谱和深度学习的疾病预测方法,通过基于词嵌入进行多源数据融合,构建与疾病特征相关的知识子图,使用知识图谱嵌入方法对已构建知识子图进行嵌入表示,然后将所有的表示联合起来,最后,将融合的多方面信息源的表示输入到CNN模型中。该方法通过对多源数据进行组合,结合知识驱动和数据驱动,引用蕴含于医学知识图谱中的经验知识,共同实现智能辅助疾病决策,能够挖掘出更全面的信息,提供更多相关的特征,比单一信息源能得到更精准、更可靠的推理决策,有助于提高疾病预测准确率。
本发明通过引入医学知识图谱技术去辅助疾病预测,以糖尿病为例,在发现用户血糖这个指标异常高的时候,还会结合患者其余临床症状、检查、检验等数据,来确定是否患糖尿病,能够有效减少误诊情况的发生。能够解决深度学习技术仅关注典型特征如血糖,忽视一些非典型特征并缺乏经验知识的问题。基于数据驱动的深度学习技术的优势在于对数据局部特征的把握,基于知识驱动的人工智能的益处在于对事物全局的把控。在数据驱动的人工智能中引入知识驱动特性,知识和经验可以协助人工智能克服数据种类和数据量不足的问题,数据驱动与知识驱动的融合,有助于把全局与局部、机器的隐式直觉与引入的医学知识图谱有机结合起来,从而智能辅助于临床决策。
实施例还提供一种采用上述任一项所述的基于知识图谱和深度学习的疾病预测方法的装置,如图3,包括词嵌入模块、知识图谱嵌入模块、特征融合模块和预测模块,
词嵌入模块:获得疾病异常指标与病情自述文本,分别进行词嵌入表示后,获得异常指标表示矩阵Y与病情自述文本表示矩阵X,将异常指标表示矩阵Y与病情自述文本表示矩阵X拼接后,得到融合表示矩阵;
知识图谱嵌入模块:由病情自述文本结合医学知识图谱,获得实体知识,构建与实体相连关系的疾病知识子图,对得到的疾病知识子图,使用知识图谱嵌入技术,引入转换函数,并映射到词向量空间,分别获得疾病知识子图的实体向量矩阵和实体上下文向量矩阵,对齐叠加得到叠加表示矩阵;
特征融合模块:将得到的融合表示矩阵和得到的叠加表示矩阵连接在一起获得特征融合矩阵;
预测模块:将特征融合矩阵输入到卷积神经网络模型即CNN模型,获得预测结果。
实施例还提供一种计算机设备,包括存储器和处理器,存储器存储可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一项所述的基于不确定性估计的多模态情感分析方法的步骤。
该种基于知识图谱和深度学习的疾病预测方法、装置及计算机设备,通过引入知识驱动这一外部知识来丰富病情描述文本语义信息,使得CNN在训练时能学习到更全面的疾病特征,从而提升了糖尿病预测的准确率。
该种基于知识图谱和深度学习的疾病预测方法、装置及计算机设备,将用户体检数据与用户病情自述文本相结合,能够挖掘出更全面的信息,从而为深度学习模型的训练提供更多相关的特征,有助于提高疾病预测准确率,降低预测误差。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于知识图谱和深度学习的疾病预测方法,其特征在于:包括以下步骤,
S1、获得疾病异常指标与病情自述文本,分别进行词嵌入表示后,获得异常指标表示矩阵Y与病情自述文本表示矩阵X,将异常指标表示矩阵Y与病情自述文本表示矩阵X拼接后,得到融合表示矩阵;
S2、由病情自述文本结合医学知识图谱,获得实体知识,构建与实体相连关系的疾病知识子图;
S3、对得到的疾病知识子图,使用知识图谱嵌入技术,引入转换函数,并映射到词向量空间,分别获得疾病知识子图的实体向量矩阵和实体上下文向量矩阵,对齐叠加得到叠加表示矩阵;
S4、将步骤S1得到的融合表示矩阵和步骤S3得到的叠加表示矩阵连接在一起获得特征融合矩阵,将特征融合矩阵输入到卷积神经网络模型即CNN模型,获得预测结果。
2.如权利要求1所述的基于知识图谱和深度学习的疾病预测方法,其特征在于:步骤S1中,获得异常指标表示矩阵Y与病情自述文本表示矩阵X,具体为,
S11、将疾病数据集中数据进行预处理,筛选出不在设定的参考范围的数据作为异常指标,获得异常指标集合ab={b1,b2,...,bi,...bn},其中,bi表示筛选出的第i个异常指标,n表示筛选出的异常指标总数,通过词嵌入模型进行词嵌入表示为{y1,y2,,...,yi,...,yn},其中,yi表示第i个异常指标的词嵌入,n表示筛选出的异常指标总数,组合为异常指标表示矩阵Y;
S12、获得病情自述文本,并将病情自述文本通过词嵌入模型进行词嵌入表示,映射为病情自述文本表示矩阵X。
3.如权利要求1所述的基于知识图谱和深度学习的疾病预测方法,其特征在于:步骤S2中,由病情自述文本结合医学知识图谱,获得实体知识,构建与实体相连关系的疾病知识子图,具体为,
S21、对病情自述文本使用结巴分词即jieba分词工具进行识别,再通过命名实体识别,获得疾病特征关键词w1:n
S22、使用实体链接技术将获取的疾病特征关键词w1:n与医学知识图谱进行实体消歧,获得消歧后的实体知识;
S23、根据消歧后的实体知识,构建与实体相连关系的疾病知识子图。
4.如权利要求1-3任一项所述的基于知识图谱和深度学习的疾病预测方法,其特征在于:步骤S3中,对得到的疾病知识子图,使用知识图谱嵌入技术,引入转换函数,并映射到词向量空间,分别获得疾病知识子图的实体向量矩阵和实体上下文向量矩阵,对齐叠加得到叠加表示矩阵,具体为,
S31、使用知识图谱嵌入技术,将疾病知识子图中的实体和关系映射到连低维空间,分别得到实体向量表示ei和实体上下文向量的平均值表示eci
S32、通过转换函数ut=tanh(M·e+b),其中,M∈Rd×k为变换矩阵,b∈Rd×1为偏差,将实体向量表示ei和实体上下文向量的平均值表示eci映射到词向量空间,分别得到疾病知识子图的实体向量矩阵和实体上下文向量矩阵;
S33、将疾病知识子图的实体向量矩阵和实体上下文向量矩阵对齐并叠加即得到叠加表示矩阵S:S=[g(e1)g(ec1)][g(e2)g(ec2)]......[g(en)g(ecn)]∈Rd×n×2
5.如权利要求1-3任一项所述的基于知识图谱和深度学习的疾病预测方法,其特征在于:步骤S4中,CNN模型包括卷积层、池化层、全连接层和输出层,
卷积层:使用不同的卷积核尺寸l×k对步骤S4中得到的特征融合矩阵进行上下卷积,来提取特征融合矩阵中的的局部特征ci,ci=f(m·S[i:i+l-1]+b),其中,m表示尺寸为l×k的卷积核,卷积核S中从上向下以步长1进行卷积,b表示偏置,f表示激活函数,采用ReLU作为卷积层的激活函数,得到当前卷积核提取的全部局部特征向量C:C={c1,c2,c3,……,cn-l+1};
池化层:对卷积层输出的全部局部特征向量C使用最大池化操作,选取最大值表示局部特征di=max(C);
全连接层:将所有池化层得到的局部特征在全连接层进行组合,形成深层次特征v:v={v1,v2,……,vm},其中,m为卷积核的数量;
输出层:用于将全连接层的输出转化为概率分布,确定疾病的分类结果。
6.如权利要求5所述的基于知识图谱和深度学习的疾病预测方法,其特征在于:输出层中,用于将全连接层的输出转化为概率分布,具体为,将全连接层得到深层次特征vi输入softmax函数,经过归一化后,得到病情自述文本vi在第k种疾病上的输出概率
Figure FDA0004091850010000031
其中,exp表示以自然常数e为底的指数函数,k为疾病输出类别总数。
7.一种采用权利要求1-6任一项所述的基于知识图谱和深度学习的疾病预测方法的装置,其特征在于:包括词嵌入模块、知识图谱嵌入模块、特征融合模块和预测模块,
词嵌入模块:获得疾病异常指标与病情自述文本,分别进行词嵌入表示后,获得异常指标表示矩阵Y与病情自述文本表示矩阵X,将异常指标表示矩阵Y与病情自述文本表示矩阵X拼接后,得到融合表示矩阵;
知识图谱嵌入模块:由病情自述文本结合医学知识图谱,获得实体知识,构建与实体相连关系的疾病知识子图,对得到的疾病知识子图,使用知识图谱嵌入技术,引入转换函数,并映射到词向量空间,分别获得疾病知识子图的实体向量矩阵和实体上下文向量矩阵,对齐叠加得到叠加表示矩阵;
特征融合模块:将得到的融合表示矩阵和得到的叠加表示矩阵连接在一起获得特征融合矩阵;
预测模块:将特征融合矩阵输入到卷积神经网络模型即CNN模型,获得预测结果。
8.一种计算机设备,包括存储器和处理器,存储器存储可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现如权利要求1-6任一项所述的基于知识图谱和深度学习的疾病预测方法的步骤。
CN202310154603.6A 2023-02-22 2023-02-22 基于知识图谱和深度学习的疾病预测方法、装置及计算机设备 Pending CN116168828A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310154603.6A CN116168828A (zh) 2023-02-22 2023-02-22 基于知识图谱和深度学习的疾病预测方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310154603.6A CN116168828A (zh) 2023-02-22 2023-02-22 基于知识图谱和深度学习的疾病预测方法、装置及计算机设备

Publications (1)

Publication Number Publication Date
CN116168828A true CN116168828A (zh) 2023-05-26

Family

ID=86419711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310154603.6A Pending CN116168828A (zh) 2023-02-22 2023-02-22 基于知识图谱和深度学习的疾病预测方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN116168828A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116682551A (zh) * 2023-07-27 2023-09-01 腾讯科技(深圳)有限公司 疾病预测方法、疾病预测模型训练方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116682551A (zh) * 2023-07-27 2023-09-01 腾讯科技(深圳)有限公司 疾病预测方法、疾病预测模型训练方法和装置
CN116682551B (zh) * 2023-07-27 2023-12-22 腾讯科技(深圳)有限公司 疾病预测方法、疾病预测模型训练方法和装置

Similar Documents

Publication Publication Date Title
WO2023202508A1 (zh) 一种基于认知图谱的全科患者个性化诊疗方案推荐系统
Wang et al. Text-to-SQL generation for question answering on electronic medical records
Liu et al. Medical-vlbert: Medical visual language bert for covid-19 ct report generation with alternate learning
Hu et al. Automatic construction of Chinese herbal prescriptions from tongue images using CNNs and auxiliary latent therapy topics
CN107247881A (zh) 一种多模态智能分析方法及系统
CN110838368A (zh) 一种基于中医临床知识图谱的机器人主动问诊方法
CN113707339B (zh) 一种多源异质数据库间概念对齐与内容互译方法及系统
CN116682553A (zh) 一种融合知识与患者表示的诊断推荐系统
US11791048B2 (en) Machine-learning-based healthcare system
CN117316466B (zh) 一种基于知识图谱与自然语言处理技术的临床决策方法、系统及设备
CN116168828A (zh) 基于知识图谱和深度学习的疾病预测方法、装置及计算机设备
CN117854748A (zh) 一种基于知识图谱和生成式大模型的问诊方法及系统
Timilsina et al. Knowledge Graphs, Clinical Trials, Dataspace, and AI: Uniting for Progressive Healthcare Innovation
Cheng et al. Combining knowledge extension with convolution neural network for diabetes prediction
CN117216322A (zh) 一种电子病历的生成方法、装置、设备及存储介质
Rekha Sivakumar et al. Deep Neural Artificial Intelligence for IoT Based Tele Health Data Analytics.
Cui et al. Intelligent recommendation for departments based on medical knowledge graph
CN115312186A (zh) 一种糖尿病视网膜病变辅助筛查系统
CN116756361A (zh) 一种基于对应特征融合的医学视觉问答方法
CN113990502A (zh) 一种基于异构图神经网络的icu心衰预测系统
CN110289065A (zh) 一种辅助生成医学电子报告的控制方法以及装置
Abdullah et al. Disease diagnosis using soft computing model: a digest
CN116644719B (zh) 一种用于临床证据文献元素编码方法及其在糖尿病视网膜病变中的应用
Lee Enhancing Medication Recommendation with LLM Text Representation
Karajah et al. Covid-19 Detection From Chest X-Rays Using Modified VGG 16 Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination