CN116403706A - 一种融合知识扩展和卷积神经网络的糖尿病预测方法 - Google Patents
一种融合知识扩展和卷积神经网络的糖尿病预测方法 Download PDFInfo
- Publication number
- CN116403706A CN116403706A CN202310455550.1A CN202310455550A CN116403706A CN 116403706 A CN116403706 A CN 116403706A CN 202310455550 A CN202310455550 A CN 202310455550A CN 116403706 A CN116403706 A CN 116403706A
- Authority
- CN
- China
- Prior art keywords
- diabetes
- text
- knowledge
- word
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010012601 diabetes mellitus Diseases 0.000 title claims abstract description 66
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims abstract description 78
- 230000008569 process Effects 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 32
- 230000002159 abnormal effect Effects 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000004140 cleaning Methods 0.000 claims description 10
- 201000010099 disease Diseases 0.000 claims description 9
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 2
- 238000003745 diagnosis Methods 0.000 abstract description 11
- 238000013136 deep learning model Methods 0.000 abstract description 10
- 238000012549 training Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 6
- 238000002372 labelling Methods 0.000 abstract description 3
- 238000013461 design Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 11
- 238000000605 extraction Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 4
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000008103 glucose Substances 0.000 description 3
- 208000004998 Abdominal Pain Diseases 0.000 description 2
- 206010012735 Diarrhoea Diseases 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 2
- 206010047700 Vomiting Diseases 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000037213 diet Effects 0.000 description 2
- 235000005911 diet Nutrition 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 102000017011 Glycated Hemoglobin A Human genes 0.000 description 1
- 108010014663 Glycated Hemoglobin A Proteins 0.000 description 1
- 102000015779 HDL Lipoproteins Human genes 0.000 description 1
- 108010010234 HDL Lipoproteins Proteins 0.000 description 1
- 206010028813 Nausea Diseases 0.000 description 1
- GHUUBYQTCDQWRA-UHFFFAOYSA-N Pioglitazone hydrochloride Chemical compound Cl.N1=CC(CC)=CC=C1CCOC(C=C1)=CC=C1CC1C(=O)NC(=O)S1 GHUUBYQTCDQWRA-UHFFFAOYSA-N 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005713 exacerbation Effects 0.000 description 1
- 238000009207 exercise therapy Methods 0.000 description 1
- WIGIZIANZCJQQY-RUCARUNLSA-N glimepiride Chemical compound O=C1C(CC)=C(C)CN1C(=O)NCCC1=CC=C(S(=O)(=O)NC(=O)N[C@@H]2CC[C@@H](C)CC2)C=C1 WIGIZIANZCJQQY-RUCARUNLSA-N 0.000 description 1
- 229960004346 glimepiride Drugs 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008693 nausea Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 229960002827 pioglitazone hydrochloride Drugs 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- UFTFJSFQGQCHQW-UHFFFAOYSA-N triformin Chemical compound O=COCC(OC=O)COC=O UFTFJSFQGQCHQW-UHFFFAOYSA-N 0.000 description 1
- 230000008673 vomiting Effects 0.000 description 1
- 230000004580 weight loss Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Pathology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
一种融合知识扩展和卷积神经网络的糖尿病预测方法,构建了一种以词嵌入向量和文本嵌入向量作为双通道输入的语义增强卷积神经网络模型,使得模型能够关注到更为重要的糖尿病特征并捕捉到更细粒度的糖尿病语义信息,从而提高了对糖尿病的诊断准确率;解决对大规模糖尿病领域标注数据的强依懒性和糖尿病领域知识的缺乏性等问题,设计了在糖尿病诊断过程引用外部知识的方法可以对数据集起到一个数据增强效果,并减少深度学习模型训练所需数据;解决了医疗数据集的小规模导致深度学习模型学习结果泛化能力不强,无法获得满意糖尿病预测结果问题。
Description
技术领域
本发明属于人工智能和数据处理领域,具体涉及一种融合知识扩展和卷积神经网络的糖尿病预测方法。
背景技术
随着人工智能的发展,渐趋成熟的AI技术正逐步向医疗领域转向。智能医疗是将人工智能技术应用于疾病诊疗中,通过大数据和深度挖掘等技术,对病人的医疗数据进行分析和挖掘,自动识别病人的临床变量和指标。计算机通过学习相关的专业知识,模拟医生的思维和诊断推理,从而给出可靠诊断和治疗方案,即计算机成为具有医学知识的大脑,为医生的诊断和治疗提供辅助决策。深度学习有着强大的特征学习技能,在语音识别、自然语言处理(NLP)以及计算机视觉(CV)取得了显著的成绩。
当前,深度学习技术在在疾病诊断领域得到广泛应用。深度学习采用自动提取特征的方法替代人工提取特征,不仅提高了效率,而且自动提取特征的方法也使得分类任务更准确,其原因是更容易获取结构化的高抽象映射。然而,深度学习技术无法摆脱对大规模标注数据的依赖。我国在医疗卫生领域数据采集方面尚未形成系统化的法规,而且医疗数据又涉及个人隐私,导致医疗数据的获取困难。数据量的缺乏使得深度学习模型学习的结果泛化能力不强。除了数据量不足之外,人工智能医疗目前存在的最大问题在于数据的来源和质量,从医院采集医疗数据大多数标注依赖人工识别。而这种手工产生的数据,质量上存在很大问题。因此,医疗数据集的小规模仍然是深度学习模型无法获得满意结果的一个问题。
当前,人工智能学习模式主要以海量数据为驱动,这种现有的数据驱动型人工智能手段存在标注数据获取、可解释性弱等问题。在现有的数据驱动型模型引入领域知识为引导和约束,可以有效缓解这些问题,增加模型的可解释性,并减少模型对大量数据的依赖。例如在医学图像领域,医学图像数据集的稀缺一直是阻碍该领域深度学习模型发展的重要因素。此时在给定的医疗数据集引入医生知识可以极大地提高了深度学习模型的效果。
目前,关于糖尿病的诊断都是依赖数据驱动技术实现的,即仅仅依靠患者体检诊断出的一些数值型数据,输入到模型中,让模型去诊断和推理。其结果缺乏可解释性且无法发现隐含的疾病症状。
发明内容
基于上述问题,提出一种融合知识扩展和卷积神经网络的糖尿病预测方法(KE-CNN),解决了医疗数据集的小规模导致深度学习模型学习结果泛化能力不强,无法获得满意糖尿病预测结果问题。本方法首先从体检指标数据筛选提取糖尿病患者异常指标特征集合,并借助Word2vec对异常指标特征词进行词嵌入;然后,利用知识图谱对病情描述文本进行医疗实体识别和知识扩展,并借助预训练的中文词向量对知识扩展后的病情描述文本进行文本嵌入;最后,构建一种以词嵌入向量和文本嵌入向量作为双通道输入的语义增强卷积神经网络模型,从而增强模型的特征表达。本方法主要对糖尿病预测方法进行了改进,为了解决对大规模糖尿病领域标注数据的强依懒性和糖尿病领域知识的缺乏性等问题,设计了在糖尿病诊断过程引用外部知识的方法可以对数据集起到一个数据增强效果,并减少深度学习模型训练所需数据。
一种融合知识扩展和卷积神经网络的糖尿病预测方法,主要步骤如下:
(1)首先从体检指标数据筛选提取糖尿病患者异常指标特征集合,并借助Word2vec的CBOW模型对异常指标特征词进行词嵌入。这作为输入到CNN的一条通道。CBOW模型的输入是上下文词来预测中心词,把当前句子中的中心词作为标签,构建神经网络学习,从而实现上下文词预测中心词。基于此方法,可以得出糖尿病与哪些指标存在很大的相关性,从而让KE-CNN模型关注更细粒度的糖尿病信息特征,便于提升卷积神经网络模型的效果。
(2)再利用BERT-BiLSTM-CRF命名实体识别技术识别出病情描述文本中的医疗实体,再利用知识图谱对这些医疗实体进行知识扩展,并借助预先训练的中文词向量对知识扩展后的病情描述文本进行文本嵌入。这作为输入到CNN的另一条通道。此方法帮助KE-CNN模型理解病情描述文本中更多的语义信息,不仅获取文本表面语义特征,而且还可以捕捉文本潜在的语义特征。
(3)最后,构建了一种以词嵌入向量和文本嵌入向量作为双通道输入的语义增强卷积神经网络模型以增强模型的特征表达,通过softmax函数得到糖尿病类别。实验结果表明,相对于基准模型,KE-CNN模型有效提高了糖尿病预测准确度。
本发明达到的有益效果为:
(1)本方法提出了一种融合知识扩展和卷积神经网络的糖尿病预测模型(KE-CNN),构建了一种以词嵌入向量和文本嵌入向量作为双通道输入的语义增强卷积神经网络模型,使得模型能够关注到更为重要的糖尿病特征并捕捉到更细粒度的糖尿病语义信息,从而提高了对糖尿病的诊断准确率。
(2)解决对大规模糖尿病领域标注数据的强依懒性和糖尿病领域知识的缺乏性等问题,设计了在糖尿病诊断过程引用外部知识的方法可以对数据集起到一个数据增强效果,并减少深度学习模型训练所需数据。
(3)解决了医疗数据集的小规模导致深度学习模型学习结果泛化能力不强,无法获得满意糖尿病预测结果问题。
附图说明
图1为本发明实施例中的基于知识扩展和CNN的糖尿病预测方法框架图。
图2为本发明实施例中的BERT-BiLSTM-CRF模型架构图。
图3为本发明实施例中的命名实体识别和知识扩展示意图。
图4为本发明实施例中的CBOW模型网络结构图。
图5为本发明实施例中的jieba分词流程框架图。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
本发明的设计方案主要思想如下:
(1)首先从体检指标数据筛选提取糖尿病患者异常指标特征集合,并借助Word2vec的CBOW模型对异常指标特征词进行词嵌入。这作为输入到CNN的一条通道。CBOW模型的输入是上下文词来预测中心词,把当前句子中的中心词作为标签,构建神经网络学习,从而实现上下文词预测中心词。基于此方法,可以得出糖尿病与哪些指标存在很大的相关性,从而让KE-CNN模型关注更细粒度的糖尿病信息特征,便于提升卷积神经网络模型的效果。
(2)再利用BERT-BiLSTM-CRF命名实体识别技术识别出病情描述文本中的医疗实体,再利用知识图谱对这些医疗实体进行知识扩展,并借助预先训练的中文词向量对知识扩展后的病情描述文本进行文本嵌入。这作为输入到CNN的另一条通道。此方法帮助KE-CNN模型理解病情描述文本中更多的语义信息,不仅获取文本表面语义特征,而且还可以捕捉文本潜在的语义特征。
经过步骤1词嵌入,每一个异常指标经过词嵌入层都会被映射为一个k词向量。一组异常指标向量经过堆叠形成一个向量矩阵,作为输入到CNN一个通道。经过步骤2文本嵌入,知识扩展后的病情描述文本经过词嵌入层会使用预训练的中文词向量进行文本嵌入,这作为输入CNN另一个通道的输入。假设知识扩展后的病情描述文本含有n个有效词,通过堆叠所有词向量将每一条病情描述文本表示为一个数字矩阵,矩阵的每一行表示一个k维词向量,则对应于一条病情描述文本语句向量为X1:n:
其中为连接操作符。X1:n表示一条病情描述文本所有有效词的向量矩阵表示,假设有n个有效词,X1,X2,...Xn表示每个有效词的词向量。通过堆叠所有词向量将每一条病情描述文本表示为一个数字矩阵为X1:n。
(3)最后,构建了一种以词嵌入向量和文本嵌入向量作为双通道输入的语义增强卷积神经网络模型以增强模型的特征表达,通过softmax函数得到糖尿病类别。实验结果表明,相对于基准模型,KE-CNN模型有效提高了糖尿病预测准确度。
基于双通道的语义增强卷积神经网络模型的核心是CNN模型,其网络结构包括卷积层、池化层和全连接层。卷积层由几个单元组成,每个卷积单元的参数通过反向传播过程获得。池化层也称为采样层,用于降低特征维数,压缩数据量和参数数量,降低模型复杂度,提高模型的容错性和训练速度。在实验中,使用了最大采样方法。在卷积层和池化层之后,所获得的特征映射按行顺序展开,并连接成向量,然后将向量传输到全连接层。经过词嵌入和文本嵌入后,异常指标向量和知识扩展的病情描述文本向量具有相同的维度和大小,因此将这2个向量矩阵对齐并叠加得到其表示为:
Z=[w1X1][w2X2]···[wnXn]∈Rd×k
其中wn表示n个异常指标向量。
本方法应用多个不同的卷积核尺寸l来提取Z中的局部模式特征。卷积层使用不同的卷积核尺寸l×k对Z进行上下卷积,来提取Z中的的局部特征ci,计算公式为:
ci=f(w·Zi:i+l-1+b)
在输入为d×k的矩阵Z上,使用尺寸为l×k的权重矩阵w与一个窗口Zi:i+l-1进行卷积操作,其中Z下标的i:i+l-1代表的是输入矩阵的第i行到第i+l-1行组成的一个大小为l×k的窗口,其中l表示窗口词数,k表示输入矩阵Z的维度/宽度;f表示激活函数;将ReLU函数作为卷积层的激活函数;b表示偏置矢量;卷积核Z中从上向下以步长1进行卷积,最终,得到当前卷积核提取的全部局部特征向量C,计算公式为:
C={c1,c2,···,cd-l+1}
为了提高模型的收敛速度并减少模型的参数,池化层作用于卷积层后的输出的全部局部特征向量上,旨在降低数据维度。选取最大池化C中最大值来表示局部特征。计算公式为:
hi=max(C)
经过池化层提取出病情描述文本的局部重要特征后,接着将所有池化层得到的局部特征在全连接层进行组合,形成深层次特征。输出向量z为:
z={h1,h2,···,hs},其中s为卷积核数量
最后,将全连接层输出向量z输入softmax函数给出类别。假设有t个类别标签,将病情描述文本zj预测为j类的公式如下:
其中m表示分类类别数。本实施例中有两个类别:是/否患糖尿病。
一种融合知识扩展和卷积神经网络的糖尿病预测模型(KE-CNN),其预测方法具体如下:
KE-CNN模型不仅能学习和捕获更细粒度的糖尿病信息特征,而且还可以显著减少模型训练所需数据量并提升卷积神经网络模型的预测效果。
首先,对来源于某三甲医院内分泌科糖尿病数据集进行异常指标筛选,在糖尿病专家的指导下,从体检指标数据中筛选出哪些指标存在异常,并标注出异常指标项数值是偏高还是偏低。每一条患者数据,都会得到一组这样关于糖尿病异常指标的描述。Eg:[“糖化血红蛋白指标超标”,“葡萄糖指标超标”,“甘油三脂指标超标”,.......“高密度脂蛋白指标超标”]。一组有n个异常指标特征词表示为x=[w1,w2,…,wn],其中n表示异常指标指标特征词数量,然后使用Word2vec的CBOW模型对这些异常指标特征词进行词嵌入。这作为输入到CNN的一条通道。
嵌入过程具体为:
CBOW模型的输入是上下文词来预测中心词,把当前句子中的中心词作为标签,构建神经网络学习,从而实现上下文词预测中心词。CBOW模型由输入层,隐藏层和输出层组成。CBOW模型结构图4所示。
假设原始语料库中有V个单词,滑动窗口为A,一共选取的上下文词个数C=2A。在输入层,输入多个上下文单词的one-hot,每个单词的one-hot维度1*V,那么在输入层,输入的数据维度为C*V。设最终输出的词向量维度为N,初始化隐藏层与输出层之间的权重矩阵W,W维度为V*N。上下文单词的one-hot(C*V)与网络的输入权重W(V*N)相乘,得到C个1*N的向量。将他们求和再平均,得到隐藏层向量h,维度为1*N。
其中V为语料词汇表的大小,C为上下文单词个数,w1,w2,...wC是上下文中的单词,X1,X2,...Xc,代表上下文词的一个独热编码,W为权重矩阵,vw1,vw2,...vwc是词w1,w2,...wc的输入向量。
隐藏层与输出层之间还存在一个权重矩阵W′,维度为N*V。隐藏层向量h(1*N)与W′(N*V)相乘,得到的向量uj,uj为输出层每个节点的输入,其中v′wj,i是输出权重矩阵W′的第i行和第wj列的元素,hi表示隐藏层的第i个神经元的输出,N表示隐藏层的维度。为了方便概率表示,将向量uj经过softmax,此时向量softmax(uj)的每一维代表语料中的一个单词。向量softmax(uj)概率最大的位置所代表的单词为模型预测出的中间词,也就是用softmax获得词表中每个单词为中心词的概率yj:
其中,uj′表示输出权重矩阵W′i,j的第i行第j列的元素与隐藏层hi的乘积。hi表示隐藏层的第i个节点的输出,N表示隐藏层的维度。yj给定上下文w1,w2,...,wc条件下,预测的目标词为wj的概率。exp表示自然常数e为底的指数函数。
即在给定输入w1,w2,...,wc下真实中心词wo的概率为:p(wo/w1,w2,...,wc),训练的目的就是使这个词概率最大。基于此定义损失函数:
其中v′wj是矩阵W′的第j列,j*是真实中心词汇表中的下标,log表示以e为底的自然对数函数,T表示矩阵的转置操作。
通过最小化损失函数,采用梯度下降算法更新网络参数W和W′,直至收敛。也就是说,CBOW模型输入某个中心词前后A个连续词,来计算中心词出现的概率。
对病情描述文本进行清洗,去除停用词和过滤掉无效特征词,减少这些无意义的词对模型特征提取过程的影响,从而使病情描述文本内容的特征表示只关注病情描述文本中的有效词汇和语义。再对清洗过后的病情描述文本进行jieba分词。
清洗和分词的步骤流程如下:
在清洗过程中,会过滤掉停用词和无效特征词,例如数字和标点符号。清洗和分词是自然语言处理中常用的文本预处理步骤,其目的是将原始文本转化为一个包含有意义的词汇列表。下面是清洗和分词的具体步骤:
1)去除非文本字符
在清洗之前,需要将原始文本中的非文本字符去除掉,例如换行符、制表符、HTML标签等。这些字符对后续的处理没有意义,可以直接忽略。
2)分词
将文本分割成一个个的词汇,是自然语言处理中的重要步骤。在中文文本中,需要使用中文分词算法jieba对文本进行切分。jieba分词框架为图5。
3)去除停用词
停用词是指在自然语言处理中无需被考虑的词汇,例如“的”、“是”、“在”等。这些词汇不会影响文本的语义,应该在分词之后被过滤掉。通常会提前准备一个停用词表,用来存储需要过滤掉的停用词。
4)去除无效特征词
除了停用词之外,还有一些无效特征词也需要被过滤掉。例如数字和标点符号在大多数情况下都不会对文本的语义产生影响,因此也应该在分词之后被过滤掉。
5)返回清洗后的词汇列表
经过上述步骤,可以将原始文本转化为一个包含有意义的词汇列表,这个列表可以被用于后续的文本分析任务,例如情感分类、文本分类和关键词提取等。
例如:text="患者主诉:左腹痛1个月,加重伴恶心、呕吐,无发热,无腹泻。"经过清洗和分词处理后,输出结果为:['患者','主诉','左腹痛','加重','伴','恶心','呕吐','发热','腹泻']。
接着利用BERT-BiLSTM-CRF命名实体识别模型识别病情描述文本中的医疗实体,会得到病情描述文本中的医疗实体。将从病情描述文本识别出来候选医疗实体列表使用实体链接技术与糖尿病知识图谱DiaKG进行实体消歧,获得消歧后的实体列表。然后将这些消歧的一个个实体作为查询对象输入Wikidata知识图谱进行查询搜索,会返回输入实体的相关介绍(历史、医疗用途、类型等)。Eg,输入万苏平,返回相关知识介绍是:万苏平又叫格列美脲片,适用于控制饮食、运动疗法及减轻体重均不能充分控制血糖的2型糖尿病。卡司平(盐酸吡格列酮片),适应症为对于2型糖尿病(非胰岛素依赖性糖尿病,NIDDM)患者,可与饮食控制和体育锻炼联合以改善和控制血糖。再将查询获取的每一个实体知识扩展到病情描述文本中相应实体位置的后面,直到所有实体完成了扩展补充。命名实体识别和知识扩展过程如图3所示。
然后使用预训练的中文词向量对知识扩展后的病情描述文本进行文本嵌入。这作为输入到CNN的另一条通道。本实施例使用的开源的中文词向量模型,预训练的中文词向量已经在大规模的中文语料库上进行了训练,包括新闻、百科、论坛等,具有更广泛的覆盖范围和更高的质量。因此可以直接使用,无需花费大量时间和计算资源训练新的词向量模型,从而缩短模型训练时间。同时,使用预训练中文词向量可以为模型提供更好的可解释性,因为这些词向量已经被训练成了具有明确含义的向量表示形式,这使得模型的预测结果更容易被理解和解释。训练好的中文词向量可以被用于各种中文自然语言处理任务中,如中文问答、文本分类、语义匹配等。这些任务可以使用预训练模型进行微调,从而在特定任务上获得更好的性能。
文本嵌入的具体步骤为(2)中的描述:
知识扩展后的病情描述文本经过词嵌入层会使用预训练的中文词向量进行文本嵌入,这作为输入CNN另一个通道的输入。假设知识扩展后的病情描述文本含有n个有效词,通过堆叠所有词向量将每一条病情描述文本表示为一个数字矩阵,矩阵的每一行表示一个k维词向量,则对应于一条病情描述文本语句向量为X1:n,X1:n表示一条病情描述文本所有有效词的向量矩阵表示,假设有n个有效词,X1,X2,...Xn表示每个有效词的词向量。通过堆叠所有词向量将每一条病情描述文本表示为一个数字矩阵为X1:n。
最后,构建了一种以词嵌入向量和文本嵌入向量作为双通道输入的语义增强卷积神经网络模型以增强模型的特征表达,通过softmax函数得到糖尿病类别。实验结果表明,相对于基准模型,KE-CNN模型有效提高了糖尿病预测准确度。
在实验中,采用文本分类常用的准确率、精确率、F1,召回率三个指标来作为评测标准,来衡量模型的分类性能。在疾病预测领域,精确率和召回率被广泛用做质量度量。但是精确率和召回率指标有时也可能出现极端的情况。因此也使用F1这个指标,这是精确率和召回率的综合指标,其优劣可以全面反应算法的性能。若精确度和F1值较高,则表明该算法具有很好的性能。计算公式用到混淆矩阵,混淆矩阵下表所示。
正例 | 反例 | |
真实正例 | TP | FN |
真实反例 | FP | TN |
1)召回率Rec表示预测正确类别在所有正确样本中所占比重,计算公式如下:
2)准确率Acc表示实际正确样本占总样本的比例,计算公式如下:
3)F1表示精确率和召回率综合的一个指标,是精确率与召回率的加权平均值,用于平衡精确率与召回率之间关系。计算公式如下:
为了检验模型的有效性,分别采取3种策略在本数据集进行对比实验,从而分析引入不同特征的影响。具体对比实验设置如下:
1)基于病情描述文本的卷积神经网络模型(Disease-CNN)对糖尿病进行分类。首先对病情描述文本进行清洗,去除停用词和过滤掉无效特征词,减少这些无意义的词对模型特征提取过程的影响,从而使病情描述文本内容的特征表示只关注病情描述文本中的有效词汇和语义。然后使用预训练的中文词向量对病情描述文本进行文本嵌入。输入到CNN模型,进行糖尿病分类预测。
2)融合异常指标的病情描述文本的卷积神经网络模型(Abnormal-CNN)对糖尿病进行分类。即在1)的基础上,从患者各项糖尿病检查指标筛选出的异常指标x=[w1,w2,…,wn],n表示异常指标数量,然后使用Word2vec的CBOW模型对这些异常指标特征词进行词嵌入。每一个异常指标经过词嵌入层都会被映射为一个k维词向量。一组异常指标向量经过堆叠形成一个向量矩阵V。再使用预训练的中文词向量对病情描述文本进行文本嵌入,将患者的病情描述文本映射为矩阵W。将V和W两个矩阵对齐叠加输入到CNN模型,进行糖尿病分类预测。
3)一种融合知识扩展和卷积神经网络的糖尿病预测模型对糖尿病进行分类(KE-CNN)。也就是本专利所提方法。实验结果如下表所示:
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。
Claims (7)
1.一种融合知识扩展和卷积神经网络的糖尿病预测方法,其特征在于:所述方法包括如下步骤:
步骤1,首先从体检指标数据筛选提取糖尿病患者异常指标特征集合,并借助Word2vec的CBOW模型对异常指标特征词进行词嵌入,输入到CNN;
步骤2,利用命名实体识别BERT-BiLSTM-CRF识别出病情描述文本中的医疗实体,再利用知识图谱对这些医疗实体进行知识扩展,并借助预先训练的中文词向量对知识扩展后的病情描述文本进行文本嵌入,输入到CNN;
步骤3,构建以词嵌入向量和文本嵌入向量作为双通道输入的语义增强卷积神经网络模型以增强模型的特征表达,通过softmax函数得到糖尿病类别。
2.根据权利要求1所述的一种融合知识扩展和卷积神经网络的糖尿病预测方法,其特征在于:步骤1中,对病情描述文本进行清洗,去除停用词和过滤掉无效特征词,使病情描述文本内容的特征表示只关注病情描述文本中的有效词汇和语义,再对清洗过后的病情描述文本进行jieba分词。
3.根据权利要求2所述的一种融合知识扩展和卷积神经网络的糖尿病预测方法,其特征在于:在清洗过程中,过滤掉停用词和无效特征词,目的是将原始文本转化为一个包含有意义的词汇列表;清洗和分词的具体步骤为:
1)去除非文本字符:将原始文本中的非文本字符去除掉,包括换行符、制表符、HTML标签;
2)分词:使用中文分词算法jieba对文本进行切分;
3)去除停用词:根据停用词表进行过滤;
4)去除无效特征词,包括数字和标点符号;
5)返回清洗后的词汇列表。
4.根据权利要求1所述的一种融合知识扩展和卷积神经网络的糖尿病预测方法,其特征在于:步骤2中,接着利用BERT-BiLSTM-CRF命名实体识别模型识别病情描述文本中的医疗实体,会得到病情描述文本中的医疗实体。将从病情描述文本识别出来候选医疗实体列表使用实体链接技术与糖尿病知识图谱DiaKG进行实体消歧,获得消歧后的实体列表。然后将这些消歧的一个个实体作为查询对象输入Wikidata知识图谱进行查询搜索,会返回输入实体的知识;再将查询获取的每一个实体知识扩展到病情描述文本中相应实体位置的后面,直到所有实体完成了扩展补充。
5.根据权利要求4所述的一种融合知识扩展和卷积神经网络的糖尿病预测方法,其特征在于:步骤2中,使用预训练的中文词向量对知识扩展后的病情描述文本进行文本嵌入。
6.根据权利要求1所述的一种融合知识扩展和卷积神经网络的糖尿病预测方法,其特征在于:步骤3中,基于双通道的语义增强卷积神经网络模型基于CNN模型,其网络结构包括卷积层、池化层和全连接层;卷积层由数个卷积单元组成,每个卷积单元的参数通过反向传播过程获得;池化层为采样层,使用最大采样方法,用于降低特征维数,压缩数据量和参数数量;在卷积层和池化层之后,所获得的特征映射按行顺序展开,并连接成向量,然后将向量传输到全连接层。
7.根据权利要求1所述的一种融合知识扩展和卷积神经网络的糖尿病预测方法,其特征在于:步骤3中,经过词嵌入和文本嵌入后,异常指标向量和知识扩展的病情描述文本向量具有相同的维度和大小,因此将这2个向量矩阵对齐并叠加得到其表示为:
Z=[w1X1][w2X2]···[wnXn]∈Rd×k
应用多个不同的卷积核尺寸l来提取Z中的局部模式特征;卷积层使用不同的卷积核尺寸l×k对Z进行上下卷积,来提取Z中的的局部特征ci,计算公式为:
ci=f(w·Zi:i+l-1+b)
在输入为d×k的矩阵Z上,使用尺寸为l×k的权重矩阵w与一个窗口Zi:i+l-1进行卷积操作,其中Z下标的i:i+l-1代表的是输入矩阵的第i行到第i+l-1行组成的一个大小为l×k的窗口,其中l表示窗口词数,k表示输入矩阵Z的维度/宽度;f表示激活函数;将ReLU函数作为卷积层的激活函数;b表示偏置矢量;卷积核Z中从上向下以步长1进行卷积,最终,得到当前卷积核提取的全部局部特征向量C,计算公式为:
C={c1,c2,···,cd-l+1}
池化层中,采用最大池化,为了提高模型的收敛速度并减少模型的参数,池化层作用于卷积层后的输出的全部局部特征向量上,旨在降低数据维度。选取最大池化C中最大值来表示局部特征。计算公式为:
hi=max(C)
经过池化层提取出病情描述文本的局部特征后,接着将所有池化层得到的局部特征在全连接层进行组合,形成深层次特征;输出向量z为:
z={h1,h2,···,hs},其中s表示卷积核数量
最后,将全连接层输出向量z输入softmax函数给出类别;假设有t个类别标签,将病情描述文本zj预测为j类的公式如下,m表示分类类别数:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310455550.1A CN116403706A (zh) | 2023-04-25 | 2023-04-25 | 一种融合知识扩展和卷积神经网络的糖尿病预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310455550.1A CN116403706A (zh) | 2023-04-25 | 2023-04-25 | 一种融合知识扩展和卷积神经网络的糖尿病预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116403706A true CN116403706A (zh) | 2023-07-07 |
Family
ID=87017894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310455550.1A Pending CN116403706A (zh) | 2023-04-25 | 2023-04-25 | 一种融合知识扩展和卷积神经网络的糖尿病预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116403706A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117421548A (zh) * | 2023-12-18 | 2024-01-19 | 四川互慧软件有限公司 | 基于卷积神经网络对生理指标数据缺失的治理方法及系统 |
-
2023
- 2023-04-25 CN CN202310455550.1A patent/CN116403706A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117421548A (zh) * | 2023-12-18 | 2024-01-19 | 四川互慧软件有限公司 | 基于卷积神经网络对生理指标数据缺失的治理方法及系统 |
CN117421548B (zh) * | 2023-12-18 | 2024-03-12 | 四川互慧软件有限公司 | 基于卷积神经网络对生理指标数据缺失的治理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111192680B (zh) | 一种基于深度学习和集成分类的智能辅助诊断方法 | |
CN107516110B (zh) | 一种基于集成卷积编码的医疗问答语义聚类方法 | |
CN109065157B (zh) | 一种疾病诊断标准化编码推荐列表确定方法及系统 | |
CN109460473B (zh) | 基于症状提取和特征表示的电子病历多标签分类方法 | |
CN110534192B (zh) | 一种基于深度学习的肺结节良恶性识别方法 | |
Ramezani et al. | A novel hybrid intelligent system with missing value imputation for diabetes diagnosis | |
WO2016192612A1 (zh) | 基于深度学习对医疗数据进行分析的方法及其智能分析仪 | |
CN110705293A (zh) | 基于预训练语言模型的电子病历文本命名实体识别方法 | |
Yao et al. | A convolutional neural network model for online medical guidance | |
CN108091397B (zh) | 一种缺血性心脏病患者的出血事件预测方法 | |
CN117077786A (zh) | 一种基于知识图谱的数据知识双驱动智能医疗对话系统和方法 | |
CN109670177A (zh) | 一种基于lstm实现医学语义归一化的控制方法及控制装置 | |
CN107193919A (zh) | 一种电子病历的检索方法及系统 | |
CN110277167A (zh) | 基于知识图谱的慢性非传染性疾病风险预测系统 | |
CN109378066A (zh) | 一种基于特征向量实现疾病预测的控制方法及控制装置 | |
CN110335653A (zh) | 基于openEHR病历格式的非标准病历解析方法 | |
CN114512228A (zh) | 一种中医疾病辅助诊断系统、设备及存储介质 | |
CN113764112A (zh) | 一种在线医疗问答方法 | |
CN111651991A (zh) | 一种利用多模型融合策略的医疗命名实体识别方法 | |
CN116341546A (zh) | 一种基于预训练模型的医学自然语言处理方法 | |
CN116403706A (zh) | 一种融合知识扩展和卷积神经网络的糖尿病预测方法 | |
CN114492444A (zh) | 一种中文电子病例医疗实体词类标注方法 | |
Chen et al. | Automatic ICD code assignment utilizing textual descriptions and hierarchical structure of ICD code | |
CN117194604B (zh) | 一种智慧医疗病患问诊语料库构建方法 | |
CN118171653B (zh) | 一种基于深度神经网络的健康体检文本治理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |