CN110534192A - 一种基于深度学习的肺结节良恶性识别方法 - Google Patents
一种基于深度学习的肺结节良恶性识别方法 Download PDFInfo
- Publication number
- CN110534192A CN110534192A CN201910673218.6A CN201910673218A CN110534192A CN 110534192 A CN110534192 A CN 110534192A CN 201910673218 A CN201910673218 A CN 201910673218A CN 110534192 A CN110534192 A CN 110534192A
- Authority
- CN
- China
- Prior art keywords
- lung neoplasm
- information
- indicate
- pernicious
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000020816 lung neoplasm Diseases 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000000505 pernicious effect Effects 0.000 title claims abstract description 40
- 238000013135 deep learning Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000036541 health Effects 0.000 claims abstract description 20
- 238000013136 deep learning model Methods 0.000 claims abstract description 8
- 230000007246 mechanism Effects 0.000 claims abstract description 8
- 238000012216 screening Methods 0.000 claims abstract description 5
- 230000015654 memory Effects 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 30
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 239000000427 antigen Substances 0.000 claims description 3
- 102000036639 antigens Human genes 0.000 claims description 3
- 108091007433 antigens Proteins 0.000 claims description 3
- 238000012550 audit Methods 0.000 claims description 3
- 238000002591 computed tomography Methods 0.000 claims description 3
- 238000000586 desensitisation Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 3
- 210000004218 nerve net Anatomy 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000005498 polishing Methods 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims 1
- 210000000056 organ Anatomy 0.000 claims 1
- 230000004927 fusion Effects 0.000 abstract description 4
- 208000000017 Solitary Pulmonary Nodule Diseases 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 210000004072 lung Anatomy 0.000 description 3
- 230000001575 pathological effect Effects 0.000 description 3
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 206010056342 Pulmonary mass Diseases 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000005837 enolization reaction Methods 0.000 description 2
- 201000007270 liver cancer Diseases 0.000 description 2
- 208000014018 liver neoplasm Diseases 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010003598 Atelectasis Diseases 0.000 description 1
- 206010004280 Benign lung neoplasm Diseases 0.000 description 1
- 208000019693 Lung disease Diseases 0.000 description 1
- 208000008771 Lymphadenopathy Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 206010035664 Pneumonia Diseases 0.000 description 1
- 208000007123 Pulmonary Atelectasis Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 208000035269 cancer or benign tumor Diseases 0.000 description 1
- 238000004195 computer-aided diagnosis Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 208000022532 enlargement of lymph nodes Diseases 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 201000006385 lung benign neoplasm Diseases 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010882 preoperative diagnosis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002685 pulmonary effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种肺结节良恶性识别方法,一种基于深度学习的肺结节良恶性识别方法,包括以下步骤:(1)、对原始肺结节电子病历数据进行预处理,(2)、文档筛选与分类,(3)、文本表示的构建,(4)、深度学习模型的训练,(5)、attention机制的加入,(6)、选择分类器对肺结节良恶性进行识别,(7)、对模型分类结果进行融合。本发明利用文本信息对肺结节良恶性进行判断来辅助医疗;还利用了深度学习的相关知识来进行文本分类,减少了人工干预,效率更高;通过不同的文本特征输入,比较性别和年龄、现病史、个人史这三个因素对肺结节良恶性预判的影响情况,采用结果融合的方法提高分类识别模型最终的准确率和稳定性。
Description
技术领域
本发明涉及一种肺结节良恶性识别方法,更具体地说,涉及一种基于深度学习的肺结节良恶性识别方法。
背景技术
孤立性肺结节(Solitary Pulmonary Nodule,SPN)是指肺实质内单发、类圆形、最大半径不超过30mm的结节影,不伴有淋巴结肿大、肺不张和肺炎等其他病变。孤立性肺结节的良恶性判断是非常重要的,因早期恶性肺结节切除者存活率较高,但是在诊断不明确而手术切除的结节中约有一半是良性的,这就会造成一些不可预期的严重后果,例如,年龄稍大的患者在手术过后会对身体造成很大的伤害甚至承受不了手术过程,因此在手术前对肺结节的良恶性预判至关重要。随着人工智能领域的飞速发展,采用计算机科学与技术等手段进行辅助医疗已经成为当今国内外研究的重点方向。
目前,对于肺结节良恶性的判断主要是基于CT影像,医学影像诊断学总结的肺结节医学征象绝大多数是通过临床统计归纳得到的。近年来图像处理技术与模式识别方法已经被广泛应用到医学影像研究中,国内外开展了很多医学影像自动识别分析方法以及相关的计算机辅助诊断。目前,基于CT图像的肺结节良恶性判断主要使用的方法是基于机器学习的方法,例如先对高维空间信息进行特征提取,再用支持向量机进行分类判决。
目前,几乎没有基于文本方向的对肺结节良恶性进行预判,但是基于文本电子病历对某些疾病进行预测以便更好的预防和治疗已经得到了很多关注,并且不断发展。目前基于电子病历的文本分类使用的方法有如下几种:一是基于规则的方法,例如对肝癌分期的预测,通过人工设计规则采用关键字匹配,建立字典等方法实现对肝癌期的预判。二是基于机器学习的方法,通过特征提取,特征筛选,最后选择分类器对电子病历文本进行分类。三是基于深度学习的方法,该方法主要应用于对电子病历文本进行命名实体识别。上述基于电子病历的文本分类,大多利用电子病历中的入院记录,手术记录,病理报告等文本信息,面临最大的困难是语料不足,泛化性能低,人工干预多。
综上所述,如何减少人工干预,提高肺结节良恶性识别的准确率,进行辅助医疗,使其拥有实际的应用价值是迫切需要解决的问题。
发明内容
为了克服现有技术中存在的不足,本发明目的是利用文本分类技术,提供一种基于深度学习的肺结节良恶性识别方法。该方法采用的语料集是肺结节相关病人的电子病历,包含病人的入院记录、出院记录、手术记录、冰冻切片以及病理报告,其中入院记录包含性别年龄、现病史、既往史、个人史、家族史等信息;出院记录包含入院情况、入院诊断、出院诊断等信息;手术记录包含术前诊断和术中诊断等信息。因此本发明利用入院记录的相关信息作为特征输入到设计的模型中;利用出院记录、手术记录、冰冻切片报告及病理报告的相关诊断信息作为良恶性肺结节判断的金标准,即根据上述诊断信息为每个病人打标签,患良性肺结节的病人赋予标签为0,患恶性肺结节的病人赋予标签为1。该方法利用一定量数据文本,捕获文本中的语义信息;同时利用深度学习模型分别学习输入文本之间隐含的特征信息,从而进行精准的分类;最后采用融合等方式,提高实验结果的稳定性和准确率。
为了实现上述发明目的,解决现有技术中所存在的问题,本发明采取的技术方案是:一种基于深度学习的肺结节良恶性识别方法,包括以下步骤:
步骤1、对原始肺结节电子病历数据进行预处理,选择2015年期间大连医科大学附属二院部分肺结节电子病历数据集,并对其进行预处理,具体包括以下子步骤:
(a)首先对原始肺结节电子病历数据进行去除噪音以及脱敏处理,包括去除病人的姓名、民族、出生地、职业、婚姻状况以及入院日期;
(b)把文件中的病人数据按照病人ID进行统一处理,包括入院记录,手术记录,出院记录,CT即电子计算机断层扫描检查报告,CEA即癌胚抗原报告,NSE即神经元特异烯醇化酶报告,冰冻切片报告,然后对上述报告的文字内容进行相应粗提取;
(c)对原始语料中病人姓名与病历不一致错误的信息采集要用空白文档先补齐,保证病历文档与所给病人标签要一致,然后对空白文档需要进行填充,数值类型的空缺数据,用0进行填充,文本类型的数据,用None进行填充;
步骤2、文档筛选与分类,将步骤1处理好的原始肺结节电子病历数据进行特征筛选与分类,具体包括以下子步骤:
(a)将入院记录中的性别和年龄、病情主诉、现病史、个人史以及胸部CT显示分别抽出作为后续模型不同的特征进行输入;
(b)将CT报告中的CT表现进行提取作为判断肺结节良恶性的特征之一;
(c)将CEA报告与NSE报告中的数字内容进行提取作为判断肺结节良恶性的特征之一;
步骤3、文本表示的构建,先用分词工具进行分词,再利用现有数据构造相应的词向量,具体包括以下子步骤:
(a)在高维空间中用一个维度描述词的信息,即随机初始化输入文本中的每个词,构造传统的one-hot表示方法;
(b)用分布式词向量表示每个词的信息,把文本信息分布式地存储在向量各个维度中,利用Word2Vec工具对所得词进行词向量训练,单词来源是本次实验所采集到的文本数据,采用Word2Vec工具中的Continuous Bag of Word模型,即连续词袋模型CBOW进行词向量的训练,随机初始化,将单词或者字词映射到同一坐标系下用神经网络模型进行特征学习,从而得到连续的数值向量,该向量蕴含了丰富的上下文语义信息,再将分布式词向量的维度设置为50维;
步骤4、深度学习模型的训练,采用卷积神经网络和长短时记忆神经网络深度学习模型进行训练,并使用深度学习工具keras加以实现,具体包括以下子步骤:
(a)卷积神经网络训练模型,卷积神经网络是利用数学中常用的卷积运算形成的,其数学运算公式通过公式(1)进行描述,
S(t)=(x*H)(t)=∫x(a)H(t-a)da (1)
式中,S(t)表示参数函数x和核函数H的卷积,a表示积分变量,*表示卷积操作,在该卷积神经网络中,卷积的参数函数x是经过处理后的年龄与性别信息的向量作为训练模型的输入,卷积操作看成是对特征进行过滤的操作,通过核函数H获得局部最优的特征,并将这些特征保留下来组合在一起形成新的特征,这样每经过一层就会筛选出这层显著的特征传到下一层,通过公式(2)进行描述,
S(t)=δ(Hxt:t+w-1+b) (2)
式中,H表示核函数,这里将卷积核的时域长度即卷积核的大小设置为3,xt:t+w-1表示输入数据,即性别与年龄信息的词向量,词向量形式是[xt,xt+1,…,xt+w-2,xt+w-1],w表示输入窗口大小,这里窗口大小设置为2,b表示偏倚项,δ表示ReLU的激活函数;通过卷积操作,得到过滤后文本的特征值S(t),再选取滑动窗口后,在输入数据上依次滑动,得到不同窗口下的特征值,最后通过最大池化层来筛选这组特征值,从而获得最显著的特征;
(b)长短时记忆神经网络,由于循环神经网络存在梯度消失和梯度爆炸的问题,于是引入长短时记忆神经网络,该神经网络引入了Memory Units即记忆单元,实现了神经网络学习遗忘历史信息的时间和用新信息更新记忆单元的时间,在t时刻时,记忆单元记录了t时刻之前的全部历史信息,实现了不定时间长度内的记忆信息功能,记忆单元主要是由三个门的控制,即输入门,输出门和遗忘门,输入门主要控制每个内存单元加入新信息数量的多少,输出门主要控制每个内存单元输出信息数量的多少,遗忘门主要控制每个内存单元需要遗忘信息的多少;这三个门决定了输入信息的重要与否、需不需要被记忆和能不能被输出,三个门的元素值在0和1之间,在某一时刻t,给定输入和隐含层节点状态的更新方式通过公式(3)至公式(7)进行描述,
it=σ(Wixt+Uiht-1+Vict-1) (3)
ft=σ(Wfxt+Ufht-1+Vfct-1) (4)
ot=σ(Woxt+Uoht-1+Voct-1) (5)
ct=ft*ct-1+it*tanh(Wcxt+Ucht-1) (6)
ht=ot*tanh(ct) (7)
式中,it表示输入门,ft表示遗忘门,ot表示输出门,ct表示记忆单元,ct-1代表上一层记忆单元,ht表示隐含层状态节点,ht-1代表前一个隐含层状态节点,xt表示当前时刻t的输入,σ表示logistic的激活函数,Wi、Ui、Vi表示输入门的权重矩阵,Wf、Uf、Vf表示遗忘门的权重矩阵,Wo、Uo、Vo表示输出门的权重矩阵,Wc和Uc表示记忆单元的权重矩阵,其中Vi、Vf、Vo还是对角矩阵;将步骤2、3中处理好的个人史以及现病史信息词向量分别作为长短时记忆神经网络模型的输入,将模型层数设置为2层,输出维度分别为50,25,两层神经网络之间设置dropout函数防止过拟合,dropout值设置为0.2,模型中的激活函数设置为tanh函数;
步骤5、attention机制的加入,即注意力机制的加入,通过获得当前词关于文档词序列的注意力权重,提高模型效果,具体是,将当前词与文档中的每一个词计算一个得分,然后通过softmax函数计算归一化,即将有限项离散概率分布的梯度对数归一化,从而获得权重值;
步骤6、选择分类器对肺结节良恶性进行识别,利用上述步骤训练得到深度学习模型输出结果,用sigmoid函数进行分类,即将模型输出结果映射到0,1之间进行分类,在未标注数据上进行测试,识别未标注数据中病人的肺结节是良性还是恶性;
步骤7、对模型分类结果进行融合,将步骤4、5、6得到的模型识别结果进行融合,以此来提高整个肺结节良恶性识别系统的性能。
本发明有益效果是:一种基于深度学习的肺结节良恶性识别方法,包括以下步骤:(1)、对原始肺结节电子病历数据进行预处理,(2)、文档筛选与分类,(3)、文本表示的构建,(4)、深度学习模型的训练,(5)、attention机制的加入,(6)、选择分类器对肺结节良恶性进行识别,(7)、对模型分类结果进行融合。与已有技术相比,本发明利用文本信息对肺结节良恶性进行判断来辅助医疗;还利用了深度学习的相关知识来进行文本分类,减少了人工干预,效率更高;通过不同的文本特征输入,比较性别和年龄、现病史、个人史这三个因素对肺结节良恶性预判的影响情况,采用结果融合的方法提高分类识别模型最终的准确率和稳定性,有实际的应用价值和意义。
附图说明
图1是本发明方法步骤流程图。
图2是神经网络模型图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种基于深度学习的肺结节良恶性识别方法,包括以下步骤:
步骤1、对原始肺结节电子病历数据进行预处理,选择2015年期间大连医科大学附属二院部分肺结节电子病历数据集,并对其进行预处理,具体包括以下子步骤:
(a)首先对原始肺结节电子病历数据进行去除噪音以及脱敏处理,包括去除病人的姓名、民族、出生地、职业、婚姻状况以及入院日期;
(b)把文件中的病人数据按照病人ID进行统一处理,包括入院记录,手术记录,出院记录,CT即电子计算机断层扫描检查报告,CEA即癌胚抗原报告,NSE即神经元特异烯醇化酶报告,冰冻切片报告,然后对上述报告的文字内容进行相应粗提取;
(c)对原始语料中病人姓名与病历不一致错误的信息采集要用空白文档先补齐,保证病历文档与所给病人标签要一致,然后对空白文档需要进行填充,数值类型的空缺数据,用0进行填充,文本类型的数据,用None进行填充;
步骤2、文档筛选与分类,将步骤1处理好的原始肺结节电子病历数据进行特征筛选与分类,具体包括以下子步骤:
(a)将入院记录中的性别和年龄、病情主诉、现病史、个人史以及胸部CT显示分别抽出作为后续模型不同的特征进行输入;
(b)将CT报告中的CT表现进行提取作为判断肺结节良恶性的特征之一;
(c)将CEA报告与NSE报告中的数字内容进行提取作为判断肺结节良恶性的特征之一;
步骤3、文本表示的构建,先用分词工具进行分词,再利用现有数据构造相应的词向量,具体包括以下子步骤:
(a)在高维空间中用一个维度描述词的信息,即随机初始化输入文本中的每个词,构造传统的one-hot表示方法;
(b)用分布式词向量表示每个词的信息,把文本信息分布式地存储在向量各个维度中,利用Word2Vec工具对所得词进行词向量训练,单词来源是本次实验所采集到的文本数据,采用Word2Vec工具中的Continuous Bag of Word模型,即连续词袋模型CBOW进行词向量的训练,随机初始化,将单词或者字词映射到同一坐标系下用神经网络模型进行特征学习,从而得到连续的数值向量,该向量蕴含了丰富的上下文语义信息,再将分布式词向量的维度设置为50维;
步骤4、深度学习模型的训练,采用卷积神经网络和长短时记忆神经网络深度学习模型进行训练,并使用深度学习工具keras加以实现,具体包括以下子步骤:
(a)卷积神经网络训练模型,卷积神经网络是利用数学中常用的卷积运算形成的,其数学运算公式通过公式(1)进行描述,
S(t)=(x*H)(t)=∫x(a)H(t-a)da (1)
式中,S(t)表示参数函数x和核函数H的卷积,a表示积分变量,*表示卷积操作,在该卷积神经网络中,卷积的参数函数x是经过处理后的年龄与性别信息的向量作为训练模型的输入,卷积操作看成是对特征进行过滤的操作,通过核函数H获得局部最优的特征,并将这些特征保留下来组合在一起形成新的特征,这样每经过一层就会筛选出这层显著的特征传到下一层,通过公式(2)进行描述,
S(t)=δ(Hxt:t+w-1+b) (2)
式中,H表示核函数,这里将卷积核的时域长度即卷积核的大小设置为3,xt:t+w-1表示输入数据,即性别与年龄信息的词向量,词向量形式是[xt,xt+1,…,xt+w-2,xt+w-1],w表示输入窗口大小,这里窗口大小设置为2,b表示偏倚项,δ表示ReLU的激活函数;通过卷积操作,得到过滤后文本的特征值S(t),再选取滑动窗口后,在输入数据上依次滑动,得到不同窗口下的特征值,最后通过最大池化层来筛选这组特征值,从而获得最显著的特征;
(b)长短时记忆神经网络,由于循环神经网络存在梯度消失和梯度爆炸的问题,于是引入长短时记忆神经网络,该神经网络引入了Memory Units即记忆单元,实现了神经网络学习遗忘历史信息的时间和用新信息更新记忆单元的时间,在t时刻时,记忆单元记录了t时刻之前的全部历史信息,实现了不定时间长度内的记忆信息功能,记忆单元主要是由三个门的控制,即输入门,输出门和遗忘门,输入门主要控制每个内存单元加入新信息数量的多少,输出门主要控制每个内存单元输出信息数量的多少,遗忘门主要控制每个内存单元需要遗忘信息的多少;这三个门决定了输入信息的重要与否、需不需要被记忆和能不能被输出,三个门的元素值在0和1之间,在某一时刻t,给定输入和隐含层节点状态的更新方式通过公式(3)至公式(7)进行描述,
it=σ(Wixt+Uiht-1+Vict-1) (3)
ft=σ(Wfxt+Ufht-1+Vfct-1) (4)
ot=σ(Woxt+Uoht-1+Voct-1) (5)
ct=ft*ct-1+it*tanh(Wcxt+Ucht-1) (6)
ht=ot*tanh(ct) (7)
式中,it表示输入门,ft表示遗忘门,ot表示输出门,ct表示记忆单元,ct-1代表上一层记忆单元,ht表示隐含层状态节点,ht-1代表前一个隐含层状态节点,xt表示当前时刻t的输入,σ表示logistic的激活函数,Wi、Ui、Vi表示输入门的权重矩阵,Wf、Uf、Vf表示遗忘门的权重矩阵,Wo、Uo、Vo表示输出门的权重矩阵,Wc和Uc表示记忆单元的权重矩阵,其中Vi、Vf、Vo还是对角矩阵;将步骤2、3中处理好的个人史以及现病史信息词向量分别作为长短时记忆神经网络模型的输入,将模型层数设置为2层,输出维度分别为50,25,两层神经网络之间设置dropout函数防止过拟合,dropout值设置为0.2,模型中的激活函数设置为tanh函数;
步骤5、attention机制的加入,即注意力机制的加入,通过获得当前词关于文档词序列的注意力权重,提高模型效果,具体是,将当前词与文档中的每一个词计算一个得分,然后通过softmax函数计算归一化,即将有限项离散概率分布的梯度对数归一化,从而获得权重值;
步骤6、选择分类器对肺结节良恶性进行识别,利用上述步骤训练得到深度学习模型输出结果,用sigmoid函数进行分类,即将模型输出结果映射到0,1之间进行分类,在未标注数据上进行测试,识别未标注数据中病人的肺结节是良性还是恶性;
步骤7、对模型分类结果进行融合,将步骤4、5、6得到的模型识别结果进行融合,以此来提高整个肺结节良恶性识别系统的性能。
为了检验本发明的有效性,本发明在1030个肺结节电子病历数据集上进行实验,将其中的800条已标注的数据作为训练集,230条已标注的数据作为测试集。本发明使用召回率R,准确率P以及F1值来评价分类的效果,通过公式(8)、(9)及(10)进行描述,结果如表1所示。
表1
本发明优点在于:本发明方法是利用文本信息对肺结节良恶性进行判断来辅助医疗,还利用了深度学习的相关知识来进行文本分类,减少了人工干预,效率更高;通过不同的文本特征输入,比较性别和年龄、现病史、个人史这三个因素对肺结节良恶性预判的影响情况,采用结果融合的方法提高分类识别模型最终的准确率和稳定性,有实际的应用价值和意义。
Claims (1)
1.一种基于深度学习的肺结节良恶性识别方法,其特征在于包括以下步骤:
步骤1、对原始肺结节电子病历数据进行预处理,选择2015年期间大连医科大学附属二院部分肺结节电子病历数据集,并对其进行预处理,具体包括以下子步骤:
(a)首先对原始肺结节电子病历数据进行去除噪音以及脱敏处理,包括去除病人的姓名、民族、出生地、职业、婚姻状况以及入院日期;
(b)把文件中的病人数据按照病人ID进行统一处理,包括入院记录,手术记录,出院记录,CT即电子计算机断层扫描检查报告,CEA即癌胚抗原报告,NSE即神经元特异烯醇化酶报告,冰冻切片报告,然后对上述报告的文字内容进行相应粗提取;
(c)对原始语料中病人姓名与病历不一致错误的信息采集要用空白文档先补齐,保证病历文档与所给病人标签要一致,然后对空白文档需要进行填充,数值类型的空缺数据,用0进行填充,文本类型的数据,用None进行填充;
步骤2、文档筛选与分类,将步骤1处理好的原始肺结节电子病历数据进行特征筛选与分类,具体包括以下子步骤:
(a)将入院记录中的性别和年龄、病情主诉、现病史、个人史以及胸部CT显示分别抽出作为后续模型不同的特征进行输入;
(b)将CT报告中的CT表现进行提取作为判断肺结节良恶性的特征之一;
(c)将CEA报告与NSE报告中的数字内容进行提取作为判断肺结节良恶性的特征之一;
步骤3、文本表示的构建,先用分词工具进行分词,再利用现有数据构造相应的词向量,具体包括以下子步骤:
(a)在高维空间中用一个维度描述词的信息,即随机初始化输入文本中的每个词,构造传统的one-hot表示方法;
(b)用分布式词向量表示每个词的信息,把文本信息分布式地存储在向量各个维度中,利用Word2Vec工具对所得词进行词向量训练,单词来源是本次实验所采集到的文本数据,采用Word2Vec工具中的Continuous Bag of Word模型,即连续词袋模型CBOW进行词向量的训练,随机初始化,将单词或者字词映射到同一坐标系下用神经网络模型进行特征学习,从而得到连续的数值向量,该向量蕴含了丰富的上下文语义信息,再将分布式词向量的维度设置为50维;
步骤4、深度学习模型的训练,采用卷积神经网络和长短时记忆神经网络深度学习模型进行训练,并使用深度学习工具keras加以实现,具体包括以下子步骤:
(a)卷积神经网络训练模型,卷积神经网络是利用数学中常用的卷积运算形成的,其数学运算公式通过公式(1)进行描述,
S(t)=(x*H)(t)=∫x(a)H(t-a)da (1)
式中,S(t)表示参数函数x和核函数H的卷积,a表示积分变量,*表示卷积操作,在该卷积神经网络中,卷积的参数函数x是经过处理后的年龄与性别信息的向量作为训练模型的输入,卷积操作看成是对特征进行过滤的操作,通过核函数H获得局部最优的特征,并将这些特征保留下来组合在一起形成新的特征,这样每经过一层就会筛选出这层显著的特征传到下一层,通过公式(2)进行描述,
S(t)=δ(Hxt:t+w-1+b) (2)
式中,H表示核函数,这里将卷积核的时域长度即卷积核的大小设置为3,xt:t+w-1表示输入数据,即性别与年龄信息的词向量,词向量形式是[xt,xt+1,…,xt+w-2,xt+w-1],w表示输入窗口大小,这里窗口大小设置为2,b表示偏倚项,δ表示ReLU的激活函数;通过卷积操作,得到过滤后文本的特征值S(t),再选取滑动窗口后,在输入数据上依次滑动,得到不同窗口下的特征值,最后通过最大池化层来筛选这组特征值,从而获得最显著的特征;
(b)长短时记忆神经网络,由于循环神经网络存在梯度消失和梯度爆炸的问题,于是引入长短时记忆神经网络,该神经网络引入了Memory Units即记忆单元,实现了神经网络学习遗忘历史信息的时间和用新信息更新记忆单元的时间,在t时刻时,记忆单元记录了t时刻之前的全部历史信息,实现了不定时间长度内的记忆信息功能,记忆单元主要是由三个门的控制,即输入门,输出门和遗忘门,输入门主要控制每个内存单元加入新信息数量的多少,输出门主要控制每个内存单元输出信息数量的多少,遗忘门主要控制每个内存单元需要遗忘信息的多少;这三个门决定了输入信息的重要与否、需不需要被记忆和能不能被输出,三个门的元素值在0和1之间,在某一时刻t,给定输入和隐含层节点状态的更新方式通过公式(3)至公式(7)进行描述,
it=σ(Wixt+Uiht-1+Vict-1) (3)
ft=σ(Wfxt+Ufht-1+Vfct-1) (4)
ot=σ(Woxt+Uoht-1+Voct-1) (5)
ct=ft*ct-1+it*tanh(Wcxt+Ucht-1) (6)
ht=ot*tanh(ct) (7)
式中,it表示输入门,ft表示遗忘门,ot表示输出门,ct表示记忆单元,ct-1代表上一层记忆单元,ht表示隐含层状态节点,ht-1代表前一个隐含层状态节点,xt表示当前时刻t的输入,σ表示logistic的激活函数,Wi、Ui、Vi表示输入门的权重矩阵,Wf、Uf、Vf表示遗忘门的权重矩阵,Wo、Uo、Vo表示输出门的权重矩阵,Wc和Uc表示记忆单元的权重矩阵,其中Vi、Vf、Vo还是对角矩阵;将步骤2、3中处理好的个人史以及现病史信息词向量分别作为长短时记忆神经网络模型的输入,将模型层数设置为2层,输出维度分别为50,25,两层神经网络之间设置dropout函数防止过拟合,dropout值设置为0.2,模型中的激活函数设置为tanh函数;
步骤5、attention机制的加入,即注意力机制的加入,通过获得当前词关于文档词序列的注意力权重,提高模型效果,具体是,将当前词与文档中的每一个词计算一个得分,然后通过softmax函数计算归一化,即将有限项离散概率分布的梯度对数归一化,从而获得权重值;
步骤6、选择分类器对肺结节良恶性进行识别,利用上述步骤训练得到深度学习模型输出结果,用sigmoid函数进行分类,即将模型输出结果映射到0,1之间进行分类,在未标注数据上进行测试,识别未标注数据中病人的肺结节是良性还是恶性;
步骤7、对模型分类结果进行融合,将步骤4、5、6得到的模型识别结果进行融合,以此来提高整个肺结节良恶性识别系统的性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910673218.6A CN110534192B (zh) | 2019-07-24 | 2019-07-24 | 一种基于深度学习的肺结节良恶性识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910673218.6A CN110534192B (zh) | 2019-07-24 | 2019-07-24 | 一种基于深度学习的肺结节良恶性识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110534192A true CN110534192A (zh) | 2019-12-03 |
CN110534192B CN110534192B (zh) | 2023-12-26 |
Family
ID=68660927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910673218.6A Active CN110534192B (zh) | 2019-07-24 | 2019-07-24 | 一种基于深度学习的肺结节良恶性识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110534192B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111311589A (zh) * | 2020-03-05 | 2020-06-19 | 上海市肺科医院(上海市职业病防治院) | 一种肺部结节检测及性质判定系统及方法 |
CN111340793A (zh) * | 2020-03-05 | 2020-06-26 | 上海市肺科医院(上海市职业病防治院) | 一种肺部亚实性结节性质检测系统及方法 |
CN111539930A (zh) * | 2020-04-21 | 2020-08-14 | 浙江德尚韵兴医疗科技有限公司 | 基于深度学习的动态超声乳腺结节实时分割与识别的方法 |
CN111553892A (zh) * | 2020-04-23 | 2020-08-18 | 北京小白世纪网络科技有限公司 | 基于深度学习的肺结节分割计算方法、装置及系统 |
CN111681210A (zh) * | 2020-05-16 | 2020-09-18 | 浙江德尚韵兴医疗科技有限公司 | 基于深度学习的剪切波弹性图鉴别乳腺结节良恶性的方法 |
CN111915596A (zh) * | 2020-08-07 | 2020-11-10 | 杭州深睿博联科技有限公司 | 一种肺结节良恶性预测方法及装置 |
CN112037179A (zh) * | 2020-08-11 | 2020-12-04 | 深圳大学 | 一种脑疾病诊断模型的生成方法、系统及设备 |
CN112071421A (zh) * | 2020-09-01 | 2020-12-11 | 深圳高性能医疗器械国家研究院有限公司 | 一种深度学习预估方法及其应用 |
CN112687393A (zh) * | 2020-12-29 | 2021-04-20 | 康奥生物科技(天津)股份有限公司 | 一种基于大数据的疾病预测系统 |
CN112784801A (zh) * | 2021-02-03 | 2021-05-11 | 紫东信息科技(苏州)有限公司 | 基于文本和图片的双模态胃部疾病分类方法及装置 |
CN113782181A (zh) * | 2021-07-26 | 2021-12-10 | 杭州深睿博联科技有限公司 | 一种基于ct图像的肺结节良恶性诊断方法及装置 |
CN114996461A (zh) * | 2022-07-18 | 2022-09-02 | 北京大学 | 医学不良事件文本分类方法、装置、电子设备及介质 |
CN116187094A (zh) * | 2023-04-18 | 2023-05-30 | 中国标准化研究院 | 一种基于工作情况实时分析的质量工作预测系统 |
CN117711635A (zh) * | 2024-02-05 | 2024-03-15 | 神州医疗科技股份有限公司 | 一种医学影像检查结果分析方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108389201A (zh) * | 2018-03-16 | 2018-08-10 | 北京推想科技有限公司 | 基于3d卷积神经网络与深度学习的肺结节良恶性分类方法 |
CN108898588A (zh) * | 2018-06-22 | 2018-11-27 | 中山仰视科技有限公司 | 基于时间序列的治疗效果评估方法、电子设备 |
WO2018232388A1 (en) * | 2017-06-16 | 2018-12-20 | Rensselaer Polytechnic Institute | Systems and methods for integrating tomographic image reconstruction and radiomics using neural networks |
CN109635850A (zh) * | 2018-11-23 | 2019-04-16 | 杭州健培科技有限公司 | 一种基于生成对抗网络优化医学图像分类性能的方法 |
-
2019
- 2019-07-24 CN CN201910673218.6A patent/CN110534192B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018232388A1 (en) * | 2017-06-16 | 2018-12-20 | Rensselaer Polytechnic Institute | Systems and methods for integrating tomographic image reconstruction and radiomics using neural networks |
CN108389201A (zh) * | 2018-03-16 | 2018-08-10 | 北京推想科技有限公司 | 基于3d卷积神经网络与深度学习的肺结节良恶性分类方法 |
CN108898588A (zh) * | 2018-06-22 | 2018-11-27 | 中山仰视科技有限公司 | 基于时间序列的治疗效果评估方法、电子设备 |
CN109635850A (zh) * | 2018-11-23 | 2019-04-16 | 杭州健培科技有限公司 | 一种基于生成对抗网络优化医学图像分类性能的方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340793A (zh) * | 2020-03-05 | 2020-06-26 | 上海市肺科医院(上海市职业病防治院) | 一种肺部亚实性结节性质检测系统及方法 |
CN111311589A (zh) * | 2020-03-05 | 2020-06-19 | 上海市肺科医院(上海市职业病防治院) | 一种肺部结节检测及性质判定系统及方法 |
CN111539930A (zh) * | 2020-04-21 | 2020-08-14 | 浙江德尚韵兴医疗科技有限公司 | 基于深度学习的动态超声乳腺结节实时分割与识别的方法 |
CN111539930B (zh) * | 2020-04-21 | 2022-06-21 | 浙江德尚韵兴医疗科技有限公司 | 基于深度学习的动态超声乳腺结节实时分割与识别的方法 |
CN111553892B (zh) * | 2020-04-23 | 2021-11-05 | 北京小白世纪网络科技有限公司 | 基于深度学习的肺结节分割计算方法、装置及系统 |
CN111553892A (zh) * | 2020-04-23 | 2020-08-18 | 北京小白世纪网络科技有限公司 | 基于深度学习的肺结节分割计算方法、装置及系统 |
CN111681210A (zh) * | 2020-05-16 | 2020-09-18 | 浙江德尚韵兴医疗科技有限公司 | 基于深度学习的剪切波弹性图鉴别乳腺结节良恶性的方法 |
CN111915596A (zh) * | 2020-08-07 | 2020-11-10 | 杭州深睿博联科技有限公司 | 一种肺结节良恶性预测方法及装置 |
CN112037179A (zh) * | 2020-08-11 | 2020-12-04 | 深圳大学 | 一种脑疾病诊断模型的生成方法、系统及设备 |
CN112071421A (zh) * | 2020-09-01 | 2020-12-11 | 深圳高性能医疗器械国家研究院有限公司 | 一种深度学习预估方法及其应用 |
CN112687393A (zh) * | 2020-12-29 | 2021-04-20 | 康奥生物科技(天津)股份有限公司 | 一种基于大数据的疾病预测系统 |
CN112784801A (zh) * | 2021-02-03 | 2021-05-11 | 紫东信息科技(苏州)有限公司 | 基于文本和图片的双模态胃部疾病分类方法及装置 |
CN113782181A (zh) * | 2021-07-26 | 2021-12-10 | 杭州深睿博联科技有限公司 | 一种基于ct图像的肺结节良恶性诊断方法及装置 |
CN114996461A (zh) * | 2022-07-18 | 2022-09-02 | 北京大学 | 医学不良事件文本分类方法、装置、电子设备及介质 |
CN116187094A (zh) * | 2023-04-18 | 2023-05-30 | 中国标准化研究院 | 一种基于工作情况实时分析的质量工作预测系统 |
CN117711635A (zh) * | 2024-02-05 | 2024-03-15 | 神州医疗科技股份有限公司 | 一种医学影像检查结果分析方法及装置 |
CN117711635B (zh) * | 2024-02-05 | 2024-05-03 | 神州医疗科技股份有限公司 | 一种医学影像检查结果分析方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110534192B (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110534192A (zh) | 一种基于深度学习的肺结节良恶性识别方法 | |
Zeng et al. | A new deep belief network-based multi-task learning for diagnosis of Alzheimer’s disease | |
Xing et al. | Artificial intelligence in medicine: technical basis and clinical applications | |
Ge et al. | Multi-stream multi-scale deep convolutional networks for Alzheimer’s disease detection using MR images | |
Zhou et al. | Lung cancer cell identification based on artificial neural network ensembles | |
Almadhoun et al. | Detection of brain tumor using deep learning | |
Tsang et al. | Harnessing the power of machine learning in dementia informatics research: Issues, opportunities, and challenges | |
CN111967495B (zh) | 一种分类识别模型构建方法 | |
Alsaffar et al. | Detection of tuberculosis disease using image processing technique | |
Yao et al. | Pneumonia Detection Using an Improved Algorithm Based on Faster R‐CNN | |
Boban et al. | Lung diseases classification based on machine learning algorithms and performance evaluation | |
Galaro et al. | An integrated texton and bag of words classifier for identifying anaplastic medulloblastomas | |
Banik et al. | Blockchain Integrated Neural Networks: A New Frontier in MRI-based Brain Tumor Detection. | |
Naz et al. | Ensembled Deep Convolutional Generative Adversarial Network for Grading Imbalanced Diabetic Retinopathy Recognition | |
Dhiravidachelvi et al. | Enhancing image classification using adaptive convolutional autoencoder-based snow avalanches algorithm | |
Liu et al. | Large margin and local structure preservation sparse representation classifier for Alzheimer’s magnetic resonance imaging classification | |
Ahmed et al. | A Weight Based Labeled Classifier Using Machine Learning Technique for Classification of Medical Data. | |
Wang et al. | Diagnosis of cognitive and motor disorders levels in stroke patients through explainable machine learning based on MRI | |
Saranya et al. | Bd-Mdl: bipolar disorder detection using machine leanring and deep learning | |
Raj | Enhancing Thyroid Cancer Diagnostics Through Hybrid Machine Learning and Metabolomics Approaches. | |
Nagthane et al. | An improved diagnosis technique for breast cancer using LCFS and TreeHiCARe classifier model | |
Reis et al. | Fusion of transformer attention and CNN features for skin cancer detection | |
Princy Magdaline et al. | Detection of lung cancer using novel attention gate residual U-Net model and KNN classifier from computer tomography images | |
Dora et al. | Pathological brain classification using multiple kernel-based deep convolutional neural network | |
Gül et al. | Comparing of brain tumor diagnosis with developed local binary patterns methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |