CN113035362B - 一种基于语义图网络的医疗预测方法及系统 - Google Patents

一种基于语义图网络的医疗预测方法及系统 Download PDF

Info

Publication number
CN113035362B
CN113035362B CN202110219069.3A CN202110219069A CN113035362B CN 113035362 B CN113035362 B CN 113035362B CN 202110219069 A CN202110219069 A CN 202110219069A CN 113035362 B CN113035362 B CN 113035362B
Authority
CN
China
Prior art keywords
graph
entity
features
medical
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110219069.3A
Other languages
English (en)
Other versions
CN113035362A (zh
Inventor
赵青
李建强
徐得中
徐春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110219069.3A priority Critical patent/CN113035362B/zh
Priority to US17/329,657 priority patent/US20220277858A1/en
Publication of CN113035362A publication Critical patent/CN113035362A/zh
Application granted granted Critical
Publication of CN113035362B publication Critical patent/CN113035362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于语义图网络的医疗预测方法及系统,基于领域知识识别电子病历中的实体,并采用双向门控循环单元学习文本的序列特征。其次,为了细粒度的提取电子病历中的语义关系,定义两种类型的子图,基于知识的图表示和基于文本的图表示,并采用图卷积神经网络GCN和图注意力网络GAT提取语义关系特征,其中基于文本的图表示允许提取实体或词与其自身的关系,用于表示实体或词特征。针对属性‑值特征,在提取电子病历中的数值或类别特征之后,利用双向门控循环单元Bi‑GRU提取他们对应的实体,构建属性‑值的图表示。最后,将语义关系和属性‑值进行融合训练疾病的等级预测模型。

Description

一种基于语义图网络的医疗预测方法及系统
技术领域
本发明属于计算机技术领域,特别是涉及一种基于语义图网络的医疗预测方法及系统。
背景技术
慢性病是威胁人类生命的主要一类疾病,但由于大多数慢性病都是可预防、可治疗的,因此通过早期的干预能够有效的降低慢性病加重的概率,通过建立预测模型分析患者的现状进而预测患者未来的病情发展是预防保健以及减轻慢性病对个体负担的重要前提。
随着电子病历的广泛使用,基于语义分析的疾病预测模型取得了一定发展。目前基于电子病历构建预测模型的方法主要分为两类:(1) 基于假设驱动的方法,其原理是从临床专家根据观察和临床经验提出的假设开始,再从医疗数据中找出事实,用演绎推理来验证假设的真实性。并且预测模型是由一组验证的假设推导出来的。一般来说,假设驱动的方法不能充分利用医疗数据中包含的有价值的信息。(2)基于数据驱动的方法。其原理是使用充分标记的医疗数据集训练机器学习模型,实现疾病预测。但传统的机器学习模型需要领域专家以特殊的方式指定临床特征,而最终的预测模型的成功很大程度上依赖于手工设计的特征选择的复杂监督,例如,Senthilkmar Mohan等人在2019 年发表的EffectiveHeart Disease Prediction Using Hybrid Machine Learning Techniques提出了一种线性混合随机森林模型用于心脏病预测。深度学习能够减少传统机器学习特征选择的复杂性从数据中自动的学到更深层次的特征,如今已经成为了预测模型的主要方法。
基于深度学习的疾病预测方法通常采用词或概念向量做为医疗文本的主要特征表达,例如,由Guangkai Li,Songmao Zhang等人发表在SmartCom 2018的AugmentingEmbedding with Domain Knowledge for Oral Disease Diagnosis Prediction文章,从领域本体中学习症状与诊断相关的概念并采用神经网络学习电子病历中的概念特征,构建口腔疾病预测模型。然而,在电子病历中,许多实体或词之间是通过语义关系来表达疾病相关的信息,例如“患者3 年前运动后出现胸闷、喘息,在我院诊断为慢性阻塞性肺疾病”,如果不考虑属性-值“COPD-3年前”很难区分COPD是既往史还是现病史。又如“患者应用舒利迭改善喘息症状”,如果只考虑实体特征而不考虑实体关系无法挖掘句子中表达的真实含义,此外,大多数临床医疗决策是基于检查-检查结果决定的。
因此,寻找一种基于语义图网络的医疗预测方法及系统成为研究人员关注的问题。
发明内容
为了解决上述技术问题,本发明提供一种基于语义图网络的医疗预测方法及系统,用于疾病分型。基于领域识别电子病历中的实体,并采用双向门控循环单元学习文本的序列特征。其次,为了细粒度的提取电子病历中的语义关系,本发明定义两种类型的子图,基于知识的图表示和基于文本的图表示,并采用图卷积神经网络(Graph ConvolutionNetwork,GCN)和图注意力网络(Graph Attention Network,GAT)提取语义关系特征,其中基于文本的图表示允许提取实体或词与其自身的关系,用于表示实体或词特征。针对属性-值特征,本发明在提取电子病历中的数值或类别型特征之后,利用双向门控循环单元(bi-directional gate recurrent unit,Bi-GRU)提取他们对应的实体,构建属性-值得图表示。最后,将语义关系和属性- 值进行融合训练疾病的等级预测模型。
为实现上述目的,本发明提出一种基于语义图网络的医疗预测方法,具体包括如下步骤:
S1、对医疗文本数据进行预处理;
S2、将预处理后的医疗文本数据进行特征提取;
S3、将提取的特征进行多粒度特征融合,得到最终的文档特征;
S4、将所述最终的文档特征进行慢性疾病预测。
优选地,所述步骤S1具体为:
S11、根据需要预测的目标类别,将所述医疗文本数据进行人工标注,并载入领域本体;
S12、根据标点符号、数字和空格符,将所述医疗文本数据切分成汉字字符串,并去除停用词。
优选地,所述步骤S2中的特征提取包括:实体特征提取、词特征提取、语义关系特征提取和属性-值特征提取。
优选地,所述实体特征提取具体为:
首先,将预处理后的医疗文本数据映射到领域本体,并通过最大匹配法将所述医疗文本数据切分成语义集;然后从所述语义集中找到与之相匹配的实体集和与所述实体集相对应的实体类型集,得到实体自身特征和实体类型特征;最后将所述实体自身特征和所述实体类型特征相结合来提取实体特征。
优选地,所述词特征提取和属性-值特征提取具体为:
采用Bi-GRU来找出医疗文本数据中的词序列之间的依赖关系,并将词之间的序列信息放入图注意力网络中来识别语义关系,并提取属性-值特征。
优选地,所述语义关系特征提取具体为:
采用图卷积网络和图注意力网络来构建语义关系图,并定义基于知识的图表示和基于文本的图表示的两种类型子图;所述基于知识的图表示是利用所述领域本体中标记的实体之间的关系,并采用图卷积网络和图注意力网络来提取电子病历文本中实体关系;对于不能从领域本体中找到对应关系的实体或词,所述基于文本的图表示根据 Bi-GRU提取的上下文中词之间的依赖关系,直接采用图卷积网络和图注意力网络提取词或实体之间的关系。
优选地,所述步骤S3具体为:
将提取出来的实体特征、词特征、语义关系特征和属性-值特征进行特征融合,得到最终的文档特征。
优选地,所述步骤S4具体为:
将所述文档特征输入到softmax层进行医疗预测,并基于真实标签和预测标签的交叉熵计算损失函数,得到疾病类型的分类结果和疾病等级的预测结果。
一种基于语义图网络的医疗预测系统,包括:数据预处理模块、特征提取模块、多粒度特征融合模块、疾病类型分类器模块;
所述数据预处理模块的输出端与所述特征提取模块的输入端相连;所述特征提取模块的输出端与所述多粒度特征融合模块的输入端相连;所述多粒度特征融合模块的输出端与所述疾病类型分类器模块输入端相连;
所述数据预处理模块用于将医疗文本数据根据要预测的目标类别进行人工标注,并载入领域本体;还用于将医疗文本数据根据标点符号、数字和空格符进行汉字字符串切分,并去除停用词;
所述特征提取模块用于提取医疗文本数据中的实体特征、词特征、语义关系特征和属性-值特征;
所述多粒度特征融合模块用于将提取出来的实体特征、词特征、语义关系特征和属性-值特征进行融合作为softmax层的输入来进行疾病预测;
所述疾病类型分类器模块用于产生疾病类型的分类结果。
优选地,所述特征提取模块又包括四个子模块,分别为:实体特征提取模块、词特征提取模块、语义关系特征提取模块和属性-值特征提取模块;
所述实体特征提取模块与所述词特征提取模块相连,所述词特征提取模块与所述属性-值特征提取模块相连;所述属性-值特征提取模块与所述语义关系特征提取模块相连;
所述实体特征提取模块用于将处理后的医疗文本映射到医疗本体中,分别提取概念自身特征和概念类型特征,并将概念自身特征和概念类型特征相结合来提取概念特征;
所述词特征提取模块用于将不能从医疗本体中找到与之相匹配的概念进行上下文中词序列特征的BiGRU学习;
所述语义关系特征提取模块用于在领域本体中找到对应关系类别的实体对和在领域本体不能找到对应关系类别的实体对;
所述属性-值特征提取模块用于提取疾病-时间和检测-检查结果之间的关系。
与现有技术相比,本发明的有益效果在于:
传统方法中,大多考虑词、字或实体向量不能充分理解医疗文本中表达的信息,许多疾病相关的信息隐藏在实体或词之间的语义关系中。而本发明不仅能够学习实体或词特征,也能够挖掘更深层次的语义关系和属性-值特征;然后,将不同粒度的特征进行融合来提升模型的语义推理能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法流程示意图;
图2为本发明系统模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
参照图1所示,本发明提出一种基于语义图网络的医疗预测方法,具体包括如下步骤:
S1、将医疗文本数据根据要预测的目标类别进行人工标注,其次载入领域本体;根据标点符号、数字和空格符将待处理的文本切分成汉字字符串,并去除停用词;
S2、将预处理后的医疗文本数据进行实体特征提取(21)、词特征提取(22)、语义关系特征提取(23)、属性-值特征提取(24)。
实体特征提取(21):实体特征包含实体自身特征和实体的类型特征。首先将预处理后的文本映射到领域本体,通过最大匹配法将文本数据切分为语义集{Y1,...Yn}∈D,D为文本数据,其中包含能够从领域本体中找到与之相匹配的实体集{C1,...Cn}∈Y,并有对应的实体类型{C1t ype,...CNt ype},通过将实体自身特征和实体类型特征相结合来提取实体特征,记作e={ei...en},ei∈e,其中ci为概念自身特征属于概念集{C1,...CN},citype为概念ci的类型特征属于{C1t ype,...CNt ype},/>为向量拼接操作。在本方法中,实体和词都属于词级特征采用word2vec 模型将实体、实体类型和上下文中的词转化为d维的向量形式,实体和词的图表示方法将在(23)基于文本的图表示方法中介绍。
词特征提取(22):采用Bi-GRU来捕捉词序列之间的依赖关系,提取词特征。如有词序列wi∈[w1,...,wn]和对应的隐藏单元hi∈[h,...,hn],其上下文信息可能通过公式(1)和公式(2)来获取:
其中,θ表示GRU模型中的参数,将前向和反向/>的序列信息相结合来提取词wi上下文特征/>其中hi表示隐藏状态,最后将词之间的序列信息放入图注意力网络来识别语义关系并提取属性-值特征。
语义关系特征提取(23):在这一步骤,本发明将采用图卷积网络和图注意力网络来构建语义关系图并定义两种类型的子图:(1)基于知识的图表示,该子图利用领域本体中标记的实体之间的关系,并采用图卷积网络和图注意力网络来提取电子病历文本中实体关系的图表示。(2)基于文本的图表示,对于不能从领域本体中找到对应关系的实体或词,根据Bi-GRU提取的上下文中词之间的依赖关系,直接采用图卷积网络和图注意力网络提取词或实体之间的关系。
(1)基于知识的图表示:首先,基于医疗本体识别出电子病历中包含的实体和实体之间的关系作为图的节点和边,分别记作VK和 EK,采用{h1,h2,...,h|n|}表示节点{v1,v2,...,v|n|}的特征,其中i≠j,表示节点vi和vj在本体中有对应的关系r,然后基于|VK|和 |EK|构建知识图表示模型GK={VK,EK}。由于患者的个体差异,实体之间的细粒度关系能够提供更详细的疾病相关信息对于疾病预测更加重要,但相同的实体对在领域本体中可能对应多种不同的关系,例如,疾病实体“慢性便秘”和治疗实体“杜密克”之间可能有关系TrID (治疗方式改善了某种疾病)、TrWD治疗方式恶化了某种疾病、TrAD 治疗方式施加于某种疾病,并未说明治疗效果,因此,本发明采用句法解析提取句子中的触发词和触发词的形容词并结合起来,然后采用余弦距离将其与关系类别进行语义相似度计算,从而判断该实体对属于哪种细粒度关系,如果句子中没有触发词的形容词就直接计算触发词与实体类别的相似度,如公式(3)和(4)所示:
p2=sim[cj,rj] (4)
其中,ci和cj表示触发词,fi表示ci的形容词,ri和rj表示关系类别, sim[a,b]表示a与b的相似度计算,本发明在实验中测试了范围在0.85-0.92之间的相似度阈值,结果显示在0.89的时候效果最好。
接下来定义邻接矩阵AK,对于每一个图,本发明定义一个二元的矩阵表示句子中实体之间的关系,如果句子中的实体对vi和 vj在领域本体中有对应的实体关系,那么Pij=1,否则等于0。本发明只考虑一阶邻居,基于知识的邻接矩阵由公式(5)表示:
在得到邻接矩阵之后,本发明首先采用图卷积网络学习节点表示,如公式6-2所示:
其中,DK为AK的度矩阵,是一个对角矩阵,/>WK和B表示权重和偏置参数,/> ReLU表示非线性激活函数,HK(t -1)表示HK上一层的特征。
在图卷积层之后,本发明结合领域本体中的实体关系,采用图注意力层提取基于知识的节点表示,对于给定节点,图注意力网络首先学习具有相同关系相邻节点的重要性,然后根据权重得分对其进行融合。如有节点特征h={h1,h2,...,h|n|},通过图注意力层将产生一个新的节点表示集合作为输出h={h′1,h′2,...,h′|n|},/>F′表示输出特征的维度。为了将输入转化为更高层次的输出特征,图注意力层将在每一个节点采用权重矩阵参数化共享的线性转换,/>并采用共享的注意力机制计算注意力系数,如公式(7)所示:
其中,表示句子中由实体对vi和vj构成的图Φ在领域本体中有关系r,Er表示r的关系向量,Wb表示权重,/>为计算。接下来本发明采用公式(8)来正则化相邻节点的权重得分:
其中,表示节点vi的邻居节点,并有关系r,最后通过公式(9) 得出结合知识图表示后节点vi的特征,并采用/>表示电子病例中包含的知识图表示,结合/>得到电子病历的知识图GK,如公式(10)所示:
(2)基于文本的图表示
对于不能从本体中找到对应关系类别的实体或词,根据Bi-GRU 提取词序列之间的依赖关系,本发明采用图卷积模型提取基于文本的图表示,GC={VC,EC}。邻接矩阵AC由公式(11)表示,如果词或实体节点vp与vq有关,其中p=q或q≠q(当p=q时则学习概念或词自身的特征),那么Uij=1,否则等于0。
采用图卷积网络学习节点表示如公式(12)所示:
其中,DC为AC的度矩阵,是一个对角矩阵,/>WC和BC表示权重和偏置参数。然后采用图注意力网络更新节点vp的表示,如公式(13)所示:
接下来采用公式(14)来正则化相邻节点的权重得分,最后采用公式(15)计算实体或词vp和vq的图表示。
其中,||表示向量拼接操作,LeakyRelu表示非线性激活函数,Nj表示vp的邻居节点,表示电子病历中包含的文本图,集合图/>获得文本图表示GC,如公式(16)所示。
属性-值特征提取(24):属性-值可以分为两种类型:疾病-时间和检查-检查结果。其中疾病-时间的值的类型只包括数值型,检查- 检查结果的值的类型包含数值型和类别型。每个属性-值包含两个元素,属性及其对应的值。不同于实体关系中尾实体通常是相对稳定的,不会因为患者的不同而改变,而在属性-值中,值会随着患者的不同而改变,例如每个患者的血压值是不同的。对于数值型,每个值可以用不同的单位表示,例如“10年”和“122/70mmHg”。对于这种类型,本发明首先提取EMR的实数值和其相应的单位符号,包括比率符号,例如“47.6%”和字符符号,例如“5年”,如有实数值Di及其相应的单位符号Ui,更新后的数值可以由ui为单位符号表示。类别型的值被认为是一种词级表示,并且没有单位符号。由于不同医生的表达方式不同,电子病历中包含的否定词汇通常会改变类别值得极度,例如“患者心脏超声未见异常”和“患者心脏超声正常”中的“未见异常”和“正常”表达的意思相同,因此需要结合否定词提取类型值得特征。如果类型值前没有否定词前缀,就直接提取类型值的词向量表示,如果类型值由否定词前缀,本发明首先将否定词与类型值相结合,然后通过余弦距离计算其与其他类型值的相似度(这里相似度距离也设为0.9)。
根据医学专家的指导,在训练中对每个检查结果的数值设置量化的阈值,用于疾病推断。检查结果的数值共分为4个等级:低、正常、高和非常高。如有检查实体vn,其对应的检查结果vm和等级指标 li,i=4,检查-检查结果的属性-值可以表示为图其中[x1;x2]表示x1与x2进行向量拼接。对于疾病-时间,如有疾病实体vo和其对应的时间vs,疾病-时间的属性-值可以表示为/>此外,检查-检查结果中属性-值之间的关系表达方式和疾病-时间相同。采用/>表示属性-值中的其中一个图,获得文档中属性 -值的图,如公式(17)所示。
在属性-值特征的抽取过程中,本发明首先识别句子中包含的数值及类别值,然后通过Bi-GRU学习值的上下文信息,并提取与值距离最近的实体为其对应的属性特征。
S3、通过结合基于知识的图表示、基于文本的图表示和基于属性 -值的图表示来获取最后的文档特征di,i∈[1...n]。如公式(18)所示:
其中GK为知识图表示,GC为文本图表示,GV为属性-值的图表示,为向量拼接操作。
S4、将文档特征d作为softmax层的输入对文档进行慢阻肺病的等级预测,并基于真实标签和预测标签的交叉熵计算损失函数,如公式(19)和公式(20)所示。
其中,Wc和bc表示分类层中的权重矩阵和偏置项,θ表示模型中的参数,包括Wk,Wc,We,c表示类别标签的个数,c>1,表示真实标签yi和预测标签/>之间的交叉熵。
参照图2所示,本发明提出一种基于语义图网络的医疗预测系统,包括:数据预处理模块、特征提取模块、多粒度特征融合模块、疾病类型分类器模块;
数据预处理模块的输出端与特征提取模块的输入端相连;特征提取模块的输出端与多粒度特征融合模块的输入端相连;多粒度特征融合模块的输出端与疾病类型分类器模块输入端相连;
数据预处理模块:将医疗文本数据根据要预测的目标类别进行人工标注,其次载入领域本体;根据标点符号、数字和空格符将待处理的文本切分成汉字字符串,并去除停用词;
特征提取模块:具体分为四个子模块:实体特征提取、词特征提取、语义关系特征提取、属性-值特征提取;
(1)实体特征提取模块:通过将与处理后的医疗文本映射到医疗本体中,分别提取概念自身特征和概念类型特征,并将概念自身特征和概念类型特征相结合来提取概念特征。
(2)词特征提取模块:如果不能从医疗本体中找到与之相匹配的概念就采用BiGRU学习上下文中词的序列特征。
(3)语义关系特征提取模块:语义关系包含三类:实体-实体之间的关系,实体-词之间的关系,词-词之间的关系。其中实体-实体之间的关系可以分为两种,基于知识的图表示(指在领域本体中可以找到对应关系类别的实体对)和基于文本的图表示(指在领域本体不能找到对应关系类别的实体对),词指非医疗术语但是包含的重要的语义信息的词语(例如患者基本信息),在基于文本的关系中,本方法允许提取实体或词与其自身的关系,实体或词的图表示。
(4)属性-值特征提取模块:属性-值特征包含两类:疾病-时间和检测-检查结果。属性是指步骤(21)实体特征,值可以分为数值型和类别型两类。疾病-时间中的值只包含数值类型,检测-检查结果中的值包含数值类型与类别类型,根据每个属性和其对应的值构建属性-值的图表示。
多粒度特征融合模块:将提取出来的实体特征、词特征、语义关系特征和属性-值特征进行融合作为softmax层的输入来进行疾病预测;为了防止过拟合图卷积神经网络的卷积层采用dropout操作,并采用zero padding来保持句子的有效性。
疾病类型分类器模块:将模型训练的结果放入softmax分类层中,通过softmax分类器来产生最后疾病类型的分类结果。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (8)

1.一种基于语义图网络的医疗预测方法,其特征在于,具体包括如下步骤:
S1、对医疗文本数据进行预处理;
S2、将预处理后的医疗文本数据进行特征提取;
S3、将提取的特征进行多粒度特征融合,得到最终的文档特征;
S4、将所述最终的文档特征进行慢性疾病预测;
所述步骤S2中的特征提取包括:实体特征提取、词特征提取、语义关系特征提取和属性-值特征提取;
所述语义关系特征提取和属性-值特征提取包括:
采用图卷积网络和图注意力网络来构建语义关系图,并定义基于知识的图表示和基于文本的图表示的两种类型子图;所述基于知识的图表示是利用领域本体中标记的实体之间的关系,并采用图卷积网络和图注意力网络来提取电子病历文本中实体关系;
所述基于知识的图表示:首先,基于医疗本体识别出电子病历中包含的实体和实体之间的关系作为图的节点和边,分别记作VK和EK,采用{h1,h2,...,h|n|}表示节点{v1,v2,...,v|n|}的特征,其中i≠j,表示节点vi和vj在本体中有对应的关系r,然后基于|VK|和|EK|构建知识图表示模型GK={VK,EK};
接下来定义邻接矩阵AK,基于知识的邻接矩阵由公式(5)表示:
在得到邻接矩阵之后,首先采用图卷积网络学习节点表示,如公式(6)所示:
其中,DK为AK的度矩阵,是一个对角矩阵,/>WK和B表示权重和偏置参数,/> ReLU表示非线性激活函数,HK(t-1)表示HK上一层的特征;
在图卷积层之后结合领域本体中的实体关系,采用图注意力层提取基于知识的节点表示,如有节点特征通过图注意力层将产生一个新的节点表示集合作为输出/> F′表示输出特征的维度,图注意力层将在每一个节点采用权重矩阵参数化共享的线性转换,/>并采用共享的注意力机制计算注意力系数,如公式(7)所示:
其中,表示句子中由实体对vi和vj构成的图Φ在领域本体中有关系r,Er表示r的关系向量,Wb表示权重,/>接下来采用公式(8)来正则化相邻节点的权重得分:
其中,表示节点vi的邻居节点,并有关系r,最后通过公式(9)得出结合知识图表示后节点vi的特征,并采用/>表示电子病例中包含的知识图表示,结合得到电子病历的知识图GK,如公式(10)所示:
基于文本的图表示,对于不能从领域本体中找到对应关系的实体或词,根据Bi-GRU提取的上下文中词之间的依赖关系,直接采用图卷积网络模型和图注意力网络提取词或实体之间的关系;采用图卷积模型提取基于文本的图表示,GC={VC,EC};邻接矩阵AC由公式(11)表示,
采用图卷积网络学习节点表示如公式(12)所示:
其中,DC为AC的度矩阵,是一个对角矩阵,/>WC和BC表示权重和偏置参数;然后采用图注意力网络更新节点vp的表示,如公式(13)所示:
接下来采用公式(14)来正则化相邻节点的权重得分,最后采用公式(15)计算实体或词vp和vq的图表示,
其中,||表示向量拼接操作,LeakyRelu表示非线性激活函数,Nj表示vp的邻居节点,表示电子病历中包含的文本图,集合图/>获得文本图表示GC,如公式(16)所示:
属性-值分为两种类型:疾病-时间和检查-检查结果,对于疾病-时间,如有疾病实体vo和其对应的时间vs,疾病-时间的属性-值表示为检查-检查结果中属性-值之间的关系表达方式和疾病-时间相同,采用/>表示属性-值中的其中一个图,/>获得文档中属性-值的图,如公式(17)所示:
在属性-值特征的抽取过程中,首先识别句子中包含的数值及类别值,然后通过Bi-GRU学习值的上下文信息,并提取与值距离最近的实体为其对应的属性特征。
2.根据权利要求1所述的基于语义图网络的医疗预测方法,其特征在于,所述步骤S1具体为:
S11、根据需要预测的目标类别,将所述医疗文本数据进行人工标注,并载入领域本体;
S12、根据标点符号、数字和空格符,将所述医疗文本数据切分成汉字字符串,并去除停用词。
3.根据权利要求1所述的基于语义图网络的医疗预测方法,其特征在于,所述实体特征提取具体为:
首先,将预处理后的医疗文本数据映射到领域本体,并通过最大匹配法将所述医疗文本数据切分成语义集;然后从所述语义集中找到与之相匹配的实体集和与所述实体集相对应的实体类型集,得到实体自身特征和实体类型特征;最后将所述实体自身特征和所述实体类型特征相结合来提取实体特征。
4.根据权利要求1所述的基于语义图网络的医疗预测方法,其特征在于,所述词特征提取和属性-值特征提取具体为:
采用Bi-GRU来找出医疗文本数据中的词序列之间的依赖关系,并将词之间的序列信息放入图注意力网络中来识别语义关系,并提取属性-值特征。
5.根据权利要求1所述的基于语义图网络的医疗预测方法,其特征在于,所述步骤S3具体为:
将提取出来的实体特征、词特征、语义关系特征和属性-值特征进行特征融合,得到最终的文档特征。
6.根据权利要求1所述的一种基于语义图网络的医疗预测方法,其特征在于,所述步骤S4具体为:
将所述文档特征输入到softmax层进行医疗预测,并基于真实标签和预测标签的交叉熵计算损失函数,得到疾病类型的分类结果和疾病等级的预测结果。
7.根据权利要求1-6所述的任意一项的基于语义图网络的医疗预测方法的基于语义图网络的医疗预测系统,其特征在于,包括:数据预处理模块、特征提取模块、多粒度特征融合模块、疾病类型分类器模块;
所述数据预处理模块的输出端与所述特征提取模块的输入端相连;所述特征提取模块的输出端与所述多粒度特征融合模块的输入端相连;所述多粒度特征融合模块的输出端与所述疾病类型分类器模块输入端相连;
所述数据预处理模块用于将医疗文本数据根据要预测的目标类别进行人工标注,并载入领域本体;还用于将医疗文本数据根据标点符号、数字和空格符进行汉字字符串切分,并去除停用词;
所述特征提取模块用于提取医疗文本数据中的实体特征、词特征、语义关系特征和属性-值特征;
所述多粒度特征融合模块用于将提取出来的实体特征、词特征、语义关系特征和属性-值特征进行融合作为softmax层的输入来进行疾病预测;
所述疾病类型分类器模块用于产生疾病类型的分类结果。
8.根据权利要求7所述的基于语义图网络的医疗预测系统,其特征在于,所述特征提取模块又包括四个子模块,分别为:实体特征提取模块、词特征提取模块、语义关系特征提取模块和属性-值特征提取模块;
所述实体特征提取模块与所述词特征提取模块相连,所述词特征提取模块与所述属性-值特征提取模块相连;所述属性-值特征提取模块与所述语义关系特征提取模块相连;
所述实体特征提取模块用于将处理后的医疗文本映射到医疗本体中,分别提取概念自身特征和概念类型特征,并将概念自身特征和概念类型特征相结合来提取概念特征;
所述词特征提取模块用于将不能从医疗本体中找到与之相匹配的概念进行上下文中词序列特征的BiGRU学习;
所述语义关系特征提取模块用于在领域本体中找到对应关系类别的实体对和在领域本体不能找到对应关系类别的实体对;
所述属性-值特征提取模块用于提取疾病-时间和检测-检查结果之间的关系。
CN202110219069.3A 2021-02-26 2021-02-26 一种基于语义图网络的医疗预测方法及系统 Active CN113035362B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110219069.3A CN113035362B (zh) 2021-02-26 2021-02-26 一种基于语义图网络的医疗预测方法及系统
US17/329,657 US20220277858A1 (en) 2021-02-26 2021-05-25 Medical Prediction Method and System Based on Semantic Graph Network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110219069.3A CN113035362B (zh) 2021-02-26 2021-02-26 一种基于语义图网络的医疗预测方法及系统

Publications (2)

Publication Number Publication Date
CN113035362A CN113035362A (zh) 2021-06-25
CN113035362B true CN113035362B (zh) 2024-04-09

Family

ID=76461888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110219069.3A Active CN113035362B (zh) 2021-02-26 2021-02-26 一种基于语义图网络的医疗预测方法及系统

Country Status (2)

Country Link
US (1) US20220277858A1 (zh)
CN (1) CN113035362B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657102B (zh) * 2021-08-17 2023-05-30 北京百度网讯科技有限公司 信息抽取方法、装置、设备及存储介质
WO2023091522A1 (en) * 2021-11-16 2023-05-25 ExlService Holdings, Inc. Machine learning platform for structuring data in organizations
CN114822866B (zh) * 2022-07-01 2022-09-02 北京惠每云科技有限公司 一种医疗数据学习系统
CN115423052B (zh) * 2022-11-07 2023-03-24 南京大经中医药信息技术有限公司 基于多图注意力的中医证型分类方法
CN117523593B (zh) * 2024-01-02 2024-03-12 吉林大学 患者病历数据处理方法及系统
CN117828082A (zh) * 2024-01-03 2024-04-05 文华智典(武汉)科技有限公司 一种基于语义学习的档案密级鉴定方法及系统
CN118016318A (zh) * 2024-04-08 2024-05-10 中国科学院地理科学与资源研究所 基于图神经网络的人兽共患病风险预测模型的构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710932A (zh) * 2018-12-22 2019-05-03 北京工业大学 一种基于特征融合的医疗实体关系抽取方法
CN109800437A (zh) * 2019-01-31 2019-05-24 北京工业大学 一种基于特征融合的命名实体识别方法
CN112331332A (zh) * 2020-10-14 2021-02-05 北京工业大学 一种基于多粒度特征融合的疾病预测方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020006495A1 (en) * 2018-06-29 2020-01-02 Ai Technologies Inc. Deep learning-based diagnosis and referral of diseases and disorders using natural language processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710932A (zh) * 2018-12-22 2019-05-03 北京工业大学 一种基于特征融合的医疗实体关系抽取方法
CN109800437A (zh) * 2019-01-31 2019-05-24 北京工业大学 一种基于特征融合的命名实体识别方法
CN112331332A (zh) * 2020-10-14 2021-02-05 北京工业大学 一种基于多粒度特征融合的疾病预测方法及系统

Also Published As

Publication number Publication date
US20220277858A1 (en) 2022-09-01
CN113035362A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN113035362B (zh) 一种基于语义图网络的医疗预测方法及系统
Fan et al. Adverse drug event detection and extraction from open data: A deep learning approach
CN107562732B (zh) 电子病历的处理方法及系统
CN110705293A (zh) 基于预训练语言模型的电子病历文本命名实体识别方法
CN112002411A (zh) 一种基于电子病历的心脑血管病知识图谱问答方法
Shen et al. CBN: Constructing a clinical Bayesian network based on data from the electronic medical record
US11610678B2 (en) Medical diagnostic aid and method
Hasan et al. Clinical natural language processing with deep learning
CN110277167A (zh) 基于知识图谱的慢性非传染性疾病风险预测系统
Ji et al. A deep neural network model for speakers coreference resolution in legal texts
Waheeb et al. An efficient sentiment analysis based deep learning classification model to evaluate treatment quality
Zhang et al. A machine learning-based method for building code requirement hierarchy extraction
Ding et al. Chinese keyword extraction model with distributed computing
Kaya et al. A new hybrid LSTM-RNN deep learning based racism, xenomy, and genderism detection model in online social network
CN117422074A (zh) 一种临床信息文本标准化的方法、装置、设备及介质
Zhang et al. A machine learning-based approach for building code requirement hierarchy extraction
Gao et al. Smp-graph: Structure-enhanced unsupervised semantic graph representation for precise medical procedure coding on emrs
Grissette Semisupervised neural biomedical sense disambiguation approach for aspect-based sentiment analysis on social networks
Sheikh et al. On semi-automated extraction of causal networks from raw text
CN114492444A (zh) 一种中文电子病例医疗实体词类标注方法
Thaipisutikul et al. Beyond fear go viral: A machine learning study on infodemic detection during covid-19 pandemic
Hu et al. Contextual-aware information extractor with adaptive objective for chinese medical dialogues
Hussain et al. Implementation of disease prediction chatbot and report analyzer using the concepts of NLP, machine learning and OCR
CN112635050A (zh) 诊断推荐方法及电子设备、存储装置
Nguyen et al. A two-channel model for representation learning in vietnamese sentiment classification problem

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant