CN110534192A - 一种基于深度学习的肺结节良恶性识别方法 - Google Patents

一种基于深度学习的肺结节良恶性识别方法 Download PDF

Info

Publication number
CN110534192A
CN110534192A CN201910673218.6A CN201910673218A CN110534192A CN 110534192 A CN110534192 A CN 110534192A CN 201910673218 A CN201910673218 A CN 201910673218A CN 110534192 A CN110534192 A CN 110534192A
Authority
CN
China
Prior art keywords
lung neoplasm
information
indicate
pernicious
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910673218.6A
Other languages
English (en)
Other versions
CN110534192B (zh
Inventor
王健
文加斌
李孟颖
杨春梅
林鸿飞
张益嘉
王琰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Second Hospital of Dalian Medical University
Original Assignee
Dalian University of Technology
Second Hospital of Dalian Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology, Second Hospital of Dalian Medical University filed Critical Dalian University of Technology
Priority to CN201910673218.6A priority Critical patent/CN110534192B/zh
Publication of CN110534192A publication Critical patent/CN110534192A/zh
Application granted granted Critical
Publication of CN110534192B publication Critical patent/CN110534192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种肺结节良恶性识别方法,一种基于深度学习的肺结节良恶性识别方法,包括以下步骤:(1)、对原始肺结节电子病历数据进行预处理,(2)、文档筛选与分类,(3)、文本表示的构建,(4)、深度学习模型的训练,(5)、attention机制的加入,(6)、选择分类器对肺结节良恶性进行识别,(7)、对模型分类结果进行融合。本发明利用文本信息对肺结节良恶性进行判断来辅助医疗;还利用了深度学习的相关知识来进行文本分类,减少了人工干预,效率更高;通过不同的文本特征输入,比较性别和年龄、现病史、个人史这三个因素对肺结节良恶性预判的影响情况,采用结果融合的方法提高分类识别模型最终的准确率和稳定性。

Description

一种基于深度学习的肺结节良恶性识别方法
技术领域
本发明涉及一种肺结节良恶性识别方法,更具体地说,涉及一种基于深度学习的肺结节良恶性识别方法。
背景技术
孤立性肺结节(Solitary Pulmonary Nodule,SPN)是指肺实质内单发、类圆形、最大半径不超过30mm的结节影,不伴有淋巴结肿大、肺不张和肺炎等其他病变。孤立性肺结节的良恶性判断是非常重要的,因早期恶性肺结节切除者存活率较高,但是在诊断不明确而手术切除的结节中约有一半是良性的,这就会造成一些不可预期的严重后果,例如,年龄稍大的患者在手术过后会对身体造成很大的伤害甚至承受不了手术过程,因此在手术前对肺结节的良恶性预判至关重要。随着人工智能领域的飞速发展,采用计算机科学与技术等手段进行辅助医疗已经成为当今国内外研究的重点方向。
目前,对于肺结节良恶性的判断主要是基于CT影像,医学影像诊断学总结的肺结节医学征象绝大多数是通过临床统计归纳得到的。近年来图像处理技术与模式识别方法已经被广泛应用到医学影像研究中,国内外开展了很多医学影像自动识别分析方法以及相关的计算机辅助诊断。目前,基于CT图像的肺结节良恶性判断主要使用的方法是基于机器学习的方法,例如先对高维空间信息进行特征提取,再用支持向量机进行分类判决。
目前,几乎没有基于文本方向的对肺结节良恶性进行预判,但是基于文本电子病历对某些疾病进行预测以便更好的预防和治疗已经得到了很多关注,并且不断发展。目前基于电子病历的文本分类使用的方法有如下几种:一是基于规则的方法,例如对肝癌分期的预测,通过人工设计规则采用关键字匹配,建立字典等方法实现对肝癌期的预判。二是基于机器学习的方法,通过特征提取,特征筛选,最后选择分类器对电子病历文本进行分类。三是基于深度学习的方法,该方法主要应用于对电子病历文本进行命名实体识别。上述基于电子病历的文本分类,大多利用电子病历中的入院记录,手术记录,病理报告等文本信息,面临最大的困难是语料不足,泛化性能低,人工干预多。
综上所述,如何减少人工干预,提高肺结节良恶性识别的准确率,进行辅助医疗,使其拥有实际的应用价值是迫切需要解决的问题。
发明内容
为了克服现有技术中存在的不足,本发明目的是利用文本分类技术,提供一种基于深度学习的肺结节良恶性识别方法。该方法采用的语料集是肺结节相关病人的电子病历,包含病人的入院记录、出院记录、手术记录、冰冻切片以及病理报告,其中入院记录包含性别年龄、现病史、既往史、个人史、家族史等信息;出院记录包含入院情况、入院诊断、出院诊断等信息;手术记录包含术前诊断和术中诊断等信息。因此本发明利用入院记录的相关信息作为特征输入到设计的模型中;利用出院记录、手术记录、冰冻切片报告及病理报告的相关诊断信息作为良恶性肺结节判断的金标准,即根据上述诊断信息为每个病人打标签,患良性肺结节的病人赋予标签为0,患恶性肺结节的病人赋予标签为1。该方法利用一定量数据文本,捕获文本中的语义信息;同时利用深度学习模型分别学习输入文本之间隐含的特征信息,从而进行精准的分类;最后采用融合等方式,提高实验结果的稳定性和准确率。
为了实现上述发明目的,解决现有技术中所存在的问题,本发明采取的技术方案是:一种基于深度学习的肺结节良恶性识别方法,包括以下步骤:
步骤1、对原始肺结节电子病历数据进行预处理,选择2015年期间大连医科大学附属二院部分肺结节电子病历数据集,并对其进行预处理,具体包括以下子步骤:
(a)首先对原始肺结节电子病历数据进行去除噪音以及脱敏处理,包括去除病人的姓名、民族、出生地、职业、婚姻状况以及入院日期;
(b)把文件中的病人数据按照病人ID进行统一处理,包括入院记录,手术记录,出院记录,CT即电子计算机断层扫描检查报告,CEA即癌胚抗原报告,NSE即神经元特异烯醇化酶报告,冰冻切片报告,然后对上述报告的文字内容进行相应粗提取;
(c)对原始语料中病人姓名与病历不一致错误的信息采集要用空白文档先补齐,保证病历文档与所给病人标签要一致,然后对空白文档需要进行填充,数值类型的空缺数据,用0进行填充,文本类型的数据,用None进行填充;
步骤2、文档筛选与分类,将步骤1处理好的原始肺结节电子病历数据进行特征筛选与分类,具体包括以下子步骤:
(a)将入院记录中的性别和年龄、病情主诉、现病史、个人史以及胸部CT显示分别抽出作为后续模型不同的特征进行输入;
(b)将CT报告中的CT表现进行提取作为判断肺结节良恶性的特征之一;
(c)将CEA报告与NSE报告中的数字内容进行提取作为判断肺结节良恶性的特征之一;
步骤3、文本表示的构建,先用分词工具进行分词,再利用现有数据构造相应的词向量,具体包括以下子步骤:
(a)在高维空间中用一个维度描述词的信息,即随机初始化输入文本中的每个词,构造传统的one-hot表示方法;
(b)用分布式词向量表示每个词的信息,把文本信息分布式地存储在向量各个维度中,利用Word2Vec工具对所得词进行词向量训练,单词来源是本次实验所采集到的文本数据,采用Word2Vec工具中的Continuous Bag of Word模型,即连续词袋模型CBOW进行词向量的训练,随机初始化,将单词或者字词映射到同一坐标系下用神经网络模型进行特征学习,从而得到连续的数值向量,该向量蕴含了丰富的上下文语义信息,再将分布式词向量的维度设置为50维;
步骤4、深度学习模型的训练,采用卷积神经网络和长短时记忆神经网络深度学习模型进行训练,并使用深度学习工具keras加以实现,具体包括以下子步骤:
(a)卷积神经网络训练模型,卷积神经网络是利用数学中常用的卷积运算形成的,其数学运算公式通过公式(1)进行描述,
S(t)=(x*H)(t)=∫x(a)H(t-a)da (1)
式中,S(t)表示参数函数x和核函数H的卷积,a表示积分变量,*表示卷积操作,在该卷积神经网络中,卷积的参数函数x是经过处理后的年龄与性别信息的向量作为训练模型的输入,卷积操作看成是对特征进行过滤的操作,通过核函数H获得局部最优的特征,并将这些特征保留下来组合在一起形成新的特征,这样每经过一层就会筛选出这层显著的特征传到下一层,通过公式(2)进行描述,
S(t)=δ(Hxt:t+w-1+b) (2)
式中,H表示核函数,这里将卷积核的时域长度即卷积核的大小设置为3,xt:t+w-1表示输入数据,即性别与年龄信息的词向量,词向量形式是[xt,xt+1,…,xt+w-2,xt+w-1],w表示输入窗口大小,这里窗口大小设置为2,b表示偏倚项,δ表示ReLU的激活函数;通过卷积操作,得到过滤后文本的特征值S(t),再选取滑动窗口后,在输入数据上依次滑动,得到不同窗口下的特征值,最后通过最大池化层来筛选这组特征值,从而获得最显著的特征;
(b)长短时记忆神经网络,由于循环神经网络存在梯度消失和梯度爆炸的问题,于是引入长短时记忆神经网络,该神经网络引入了Memory Units即记忆单元,实现了神经网络学习遗忘历史信息的时间和用新信息更新记忆单元的时间,在t时刻时,记忆单元记录了t时刻之前的全部历史信息,实现了不定时间长度内的记忆信息功能,记忆单元主要是由三个门的控制,即输入门,输出门和遗忘门,输入门主要控制每个内存单元加入新信息数量的多少,输出门主要控制每个内存单元输出信息数量的多少,遗忘门主要控制每个内存单元需要遗忘信息的多少;这三个门决定了输入信息的重要与否、需不需要被记忆和能不能被输出,三个门的元素值在0和1之间,在某一时刻t,给定输入和隐含层节点状态的更新方式通过公式(3)至公式(7)进行描述,
it=σ(Wixt+Uiht-1+Vict-1) (3)
ft=σ(Wfxt+Ufht-1+Vfct-1) (4)
ot=σ(Woxt+Uoht-1+Voct-1) (5)
ct=ft*ct-1+it*tanh(Wcxt+Ucht-1) (6)
ht=ot*tanh(ct) (7)
式中,it表示输入门,ft表示遗忘门,ot表示输出门,ct表示记忆单元,ct-1代表上一层记忆单元,ht表示隐含层状态节点,ht-1代表前一个隐含层状态节点,xt表示当前时刻t的输入,σ表示logistic的激活函数,Wi、Ui、Vi表示输入门的权重矩阵,Wf、Uf、Vf表示遗忘门的权重矩阵,Wo、Uo、Vo表示输出门的权重矩阵,Wc和Uc表示记忆单元的权重矩阵,其中Vi、Vf、Vo还是对角矩阵;将步骤2、3中处理好的个人史以及现病史信息词向量分别作为长短时记忆神经网络模型的输入,将模型层数设置为2层,输出维度分别为50,25,两层神经网络之间设置dropout函数防止过拟合,dropout值设置为0.2,模型中的激活函数设置为tanh函数;
步骤5、attention机制的加入,即注意力机制的加入,通过获得当前词关于文档词序列的注意力权重,提高模型效果,具体是,将当前词与文档中的每一个词计算一个得分,然后通过softmax函数计算归一化,即将有限项离散概率分布的梯度对数归一化,从而获得权重值;
步骤6、选择分类器对肺结节良恶性进行识别,利用上述步骤训练得到深度学习模型输出结果,用sigmoid函数进行分类,即将模型输出结果映射到0,1之间进行分类,在未标注数据上进行测试,识别未标注数据中病人的肺结节是良性还是恶性;
步骤7、对模型分类结果进行融合,将步骤4、5、6得到的模型识别结果进行融合,以此来提高整个肺结节良恶性识别系统的性能。
本发明有益效果是:一种基于深度学习的肺结节良恶性识别方法,包括以下步骤:(1)、对原始肺结节电子病历数据进行预处理,(2)、文档筛选与分类,(3)、文本表示的构建,(4)、深度学习模型的训练,(5)、attention机制的加入,(6)、选择分类器对肺结节良恶性进行识别,(7)、对模型分类结果进行融合。与已有技术相比,本发明利用文本信息对肺结节良恶性进行判断来辅助医疗;还利用了深度学习的相关知识来进行文本分类,减少了人工干预,效率更高;通过不同的文本特征输入,比较性别和年龄、现病史、个人史这三个因素对肺结节良恶性预判的影响情况,采用结果融合的方法提高分类识别模型最终的准确率和稳定性,有实际的应用价值和意义。
附图说明
图1是本发明方法步骤流程图。
图2是神经网络模型图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种基于深度学习的肺结节良恶性识别方法,包括以下步骤:
步骤1、对原始肺结节电子病历数据进行预处理,选择2015年期间大连医科大学附属二院部分肺结节电子病历数据集,并对其进行预处理,具体包括以下子步骤:
(a)首先对原始肺结节电子病历数据进行去除噪音以及脱敏处理,包括去除病人的姓名、民族、出生地、职业、婚姻状况以及入院日期;
(b)把文件中的病人数据按照病人ID进行统一处理,包括入院记录,手术记录,出院记录,CT即电子计算机断层扫描检查报告,CEA即癌胚抗原报告,NSE即神经元特异烯醇化酶报告,冰冻切片报告,然后对上述报告的文字内容进行相应粗提取;
(c)对原始语料中病人姓名与病历不一致错误的信息采集要用空白文档先补齐,保证病历文档与所给病人标签要一致,然后对空白文档需要进行填充,数值类型的空缺数据,用0进行填充,文本类型的数据,用None进行填充;
步骤2、文档筛选与分类,将步骤1处理好的原始肺结节电子病历数据进行特征筛选与分类,具体包括以下子步骤:
(a)将入院记录中的性别和年龄、病情主诉、现病史、个人史以及胸部CT显示分别抽出作为后续模型不同的特征进行输入;
(b)将CT报告中的CT表现进行提取作为判断肺结节良恶性的特征之一;
(c)将CEA报告与NSE报告中的数字内容进行提取作为判断肺结节良恶性的特征之一;
步骤3、文本表示的构建,先用分词工具进行分词,再利用现有数据构造相应的词向量,具体包括以下子步骤:
(a)在高维空间中用一个维度描述词的信息,即随机初始化输入文本中的每个词,构造传统的one-hot表示方法;
(b)用分布式词向量表示每个词的信息,把文本信息分布式地存储在向量各个维度中,利用Word2Vec工具对所得词进行词向量训练,单词来源是本次实验所采集到的文本数据,采用Word2Vec工具中的Continuous Bag of Word模型,即连续词袋模型CBOW进行词向量的训练,随机初始化,将单词或者字词映射到同一坐标系下用神经网络模型进行特征学习,从而得到连续的数值向量,该向量蕴含了丰富的上下文语义信息,再将分布式词向量的维度设置为50维;
步骤4、深度学习模型的训练,采用卷积神经网络和长短时记忆神经网络深度学习模型进行训练,并使用深度学习工具keras加以实现,具体包括以下子步骤:
(a)卷积神经网络训练模型,卷积神经网络是利用数学中常用的卷积运算形成的,其数学运算公式通过公式(1)进行描述,
S(t)=(x*H)(t)=∫x(a)H(t-a)da (1)
式中,S(t)表示参数函数x和核函数H的卷积,a表示积分变量,*表示卷积操作,在该卷积神经网络中,卷积的参数函数x是经过处理后的年龄与性别信息的向量作为训练模型的输入,卷积操作看成是对特征进行过滤的操作,通过核函数H获得局部最优的特征,并将这些特征保留下来组合在一起形成新的特征,这样每经过一层就会筛选出这层显著的特征传到下一层,通过公式(2)进行描述,
S(t)=δ(Hxt:t+w-1+b) (2)
式中,H表示核函数,这里将卷积核的时域长度即卷积核的大小设置为3,xt:t+w-1表示输入数据,即性别与年龄信息的词向量,词向量形式是[xt,xt+1,…,xt+w-2,xt+w-1],w表示输入窗口大小,这里窗口大小设置为2,b表示偏倚项,δ表示ReLU的激活函数;通过卷积操作,得到过滤后文本的特征值S(t),再选取滑动窗口后,在输入数据上依次滑动,得到不同窗口下的特征值,最后通过最大池化层来筛选这组特征值,从而获得最显著的特征;
(b)长短时记忆神经网络,由于循环神经网络存在梯度消失和梯度爆炸的问题,于是引入长短时记忆神经网络,该神经网络引入了Memory Units即记忆单元,实现了神经网络学习遗忘历史信息的时间和用新信息更新记忆单元的时间,在t时刻时,记忆单元记录了t时刻之前的全部历史信息,实现了不定时间长度内的记忆信息功能,记忆单元主要是由三个门的控制,即输入门,输出门和遗忘门,输入门主要控制每个内存单元加入新信息数量的多少,输出门主要控制每个内存单元输出信息数量的多少,遗忘门主要控制每个内存单元需要遗忘信息的多少;这三个门决定了输入信息的重要与否、需不需要被记忆和能不能被输出,三个门的元素值在0和1之间,在某一时刻t,给定输入和隐含层节点状态的更新方式通过公式(3)至公式(7)进行描述,
it=σ(Wixt+Uiht-1+Vict-1) (3)
ft=σ(Wfxt+Ufht-1+Vfct-1) (4)
ot=σ(Woxt+Uoht-1+Voct-1) (5)
ct=ft*ct-1+it*tanh(Wcxt+Ucht-1) (6)
ht=ot*tanh(ct) (7)
式中,it表示输入门,ft表示遗忘门,ot表示输出门,ct表示记忆单元,ct-1代表上一层记忆单元,ht表示隐含层状态节点,ht-1代表前一个隐含层状态节点,xt表示当前时刻t的输入,σ表示logistic的激活函数,Wi、Ui、Vi表示输入门的权重矩阵,Wf、Uf、Vf表示遗忘门的权重矩阵,Wo、Uo、Vo表示输出门的权重矩阵,Wc和Uc表示记忆单元的权重矩阵,其中Vi、Vf、Vo还是对角矩阵;将步骤2、3中处理好的个人史以及现病史信息词向量分别作为长短时记忆神经网络模型的输入,将模型层数设置为2层,输出维度分别为50,25,两层神经网络之间设置dropout函数防止过拟合,dropout值设置为0.2,模型中的激活函数设置为tanh函数;
步骤5、attention机制的加入,即注意力机制的加入,通过获得当前词关于文档词序列的注意力权重,提高模型效果,具体是,将当前词与文档中的每一个词计算一个得分,然后通过softmax函数计算归一化,即将有限项离散概率分布的梯度对数归一化,从而获得权重值;
步骤6、选择分类器对肺结节良恶性进行识别,利用上述步骤训练得到深度学习模型输出结果,用sigmoid函数进行分类,即将模型输出结果映射到0,1之间进行分类,在未标注数据上进行测试,识别未标注数据中病人的肺结节是良性还是恶性;
步骤7、对模型分类结果进行融合,将步骤4、5、6得到的模型识别结果进行融合,以此来提高整个肺结节良恶性识别系统的性能。
为了检验本发明的有效性,本发明在1030个肺结节电子病历数据集上进行实验,将其中的800条已标注的数据作为训练集,230条已标注的数据作为测试集。本发明使用召回率R,准确率P以及F1值来评价分类的效果,通过公式(8)、(9)及(10)进行描述,结果如表1所示。
表1
本发明优点在于:本发明方法是利用文本信息对肺结节良恶性进行判断来辅助医疗,还利用了深度学习的相关知识来进行文本分类,减少了人工干预,效率更高;通过不同的文本特征输入,比较性别和年龄、现病史、个人史这三个因素对肺结节良恶性预判的影响情况,采用结果融合的方法提高分类识别模型最终的准确率和稳定性,有实际的应用价值和意义。

Claims (1)

1.一种基于深度学习的肺结节良恶性识别方法,其特征在于包括以下步骤:
步骤1、对原始肺结节电子病历数据进行预处理,选择2015年期间大连医科大学附属二院部分肺结节电子病历数据集,并对其进行预处理,具体包括以下子步骤:
(a)首先对原始肺结节电子病历数据进行去除噪音以及脱敏处理,包括去除病人的姓名、民族、出生地、职业、婚姻状况以及入院日期;
(b)把文件中的病人数据按照病人ID进行统一处理,包括入院记录,手术记录,出院记录,CT即电子计算机断层扫描检查报告,CEA即癌胚抗原报告,NSE即神经元特异烯醇化酶报告,冰冻切片报告,然后对上述报告的文字内容进行相应粗提取;
(c)对原始语料中病人姓名与病历不一致错误的信息采集要用空白文档先补齐,保证病历文档与所给病人标签要一致,然后对空白文档需要进行填充,数值类型的空缺数据,用0进行填充,文本类型的数据,用None进行填充;
步骤2、文档筛选与分类,将步骤1处理好的原始肺结节电子病历数据进行特征筛选与分类,具体包括以下子步骤:
(a)将入院记录中的性别和年龄、病情主诉、现病史、个人史以及胸部CT显示分别抽出作为后续模型不同的特征进行输入;
(b)将CT报告中的CT表现进行提取作为判断肺结节良恶性的特征之一;
(c)将CEA报告与NSE报告中的数字内容进行提取作为判断肺结节良恶性的特征之一;
步骤3、文本表示的构建,先用分词工具进行分词,再利用现有数据构造相应的词向量,具体包括以下子步骤:
(a)在高维空间中用一个维度描述词的信息,即随机初始化输入文本中的每个词,构造传统的one-hot表示方法;
(b)用分布式词向量表示每个词的信息,把文本信息分布式地存储在向量各个维度中,利用Word2Vec工具对所得词进行词向量训练,单词来源是本次实验所采集到的文本数据,采用Word2Vec工具中的Continuous Bag of Word模型,即连续词袋模型CBOW进行词向量的训练,随机初始化,将单词或者字词映射到同一坐标系下用神经网络模型进行特征学习,从而得到连续的数值向量,该向量蕴含了丰富的上下文语义信息,再将分布式词向量的维度设置为50维;
步骤4、深度学习模型的训练,采用卷积神经网络和长短时记忆神经网络深度学习模型进行训练,并使用深度学习工具keras加以实现,具体包括以下子步骤:
(a)卷积神经网络训练模型,卷积神经网络是利用数学中常用的卷积运算形成的,其数学运算公式通过公式(1)进行描述,
S(t)=(x*H)(t)=∫x(a)H(t-a)da (1)
式中,S(t)表示参数函数x和核函数H的卷积,a表示积分变量,*表示卷积操作,在该卷积神经网络中,卷积的参数函数x是经过处理后的年龄与性别信息的向量作为训练模型的输入,卷积操作看成是对特征进行过滤的操作,通过核函数H获得局部最优的特征,并将这些特征保留下来组合在一起形成新的特征,这样每经过一层就会筛选出这层显著的特征传到下一层,通过公式(2)进行描述,
S(t)=δ(Hxt:t+w-1+b) (2)
式中,H表示核函数,这里将卷积核的时域长度即卷积核的大小设置为3,xt:t+w-1表示输入数据,即性别与年龄信息的词向量,词向量形式是[xt,xt+1,…,xt+w-2,xt+w-1],w表示输入窗口大小,这里窗口大小设置为2,b表示偏倚项,δ表示ReLU的激活函数;通过卷积操作,得到过滤后文本的特征值S(t),再选取滑动窗口后,在输入数据上依次滑动,得到不同窗口下的特征值,最后通过最大池化层来筛选这组特征值,从而获得最显著的特征;
(b)长短时记忆神经网络,由于循环神经网络存在梯度消失和梯度爆炸的问题,于是引入长短时记忆神经网络,该神经网络引入了Memory Units即记忆单元,实现了神经网络学习遗忘历史信息的时间和用新信息更新记忆单元的时间,在t时刻时,记忆单元记录了t时刻之前的全部历史信息,实现了不定时间长度内的记忆信息功能,记忆单元主要是由三个门的控制,即输入门,输出门和遗忘门,输入门主要控制每个内存单元加入新信息数量的多少,输出门主要控制每个内存单元输出信息数量的多少,遗忘门主要控制每个内存单元需要遗忘信息的多少;这三个门决定了输入信息的重要与否、需不需要被记忆和能不能被输出,三个门的元素值在0和1之间,在某一时刻t,给定输入和隐含层节点状态的更新方式通过公式(3)至公式(7)进行描述,
it=σ(Wixt+Uiht-1+Vict-1) (3)
ft=σ(Wfxt+Ufht-1+Vfct-1) (4)
ot=σ(Woxt+Uoht-1+Voct-1) (5)
ct=ft*ct-1+it*tanh(Wcxt+Ucht-1) (6)
ht=ot*tanh(ct) (7)
式中,it表示输入门,ft表示遗忘门,ot表示输出门,ct表示记忆单元,ct-1代表上一层记忆单元,ht表示隐含层状态节点,ht-1代表前一个隐含层状态节点,xt表示当前时刻t的输入,σ表示logistic的激活函数,Wi、Ui、Vi表示输入门的权重矩阵,Wf、Uf、Vf表示遗忘门的权重矩阵,Wo、Uo、Vo表示输出门的权重矩阵,Wc和Uc表示记忆单元的权重矩阵,其中Vi、Vf、Vo还是对角矩阵;将步骤2、3中处理好的个人史以及现病史信息词向量分别作为长短时记忆神经网络模型的输入,将模型层数设置为2层,输出维度分别为50,25,两层神经网络之间设置dropout函数防止过拟合,dropout值设置为0.2,模型中的激活函数设置为tanh函数;
步骤5、attention机制的加入,即注意力机制的加入,通过获得当前词关于文档词序列的注意力权重,提高模型效果,具体是,将当前词与文档中的每一个词计算一个得分,然后通过softmax函数计算归一化,即将有限项离散概率分布的梯度对数归一化,从而获得权重值;
步骤6、选择分类器对肺结节良恶性进行识别,利用上述步骤训练得到深度学习模型输出结果,用sigmoid函数进行分类,即将模型输出结果映射到0,1之间进行分类,在未标注数据上进行测试,识别未标注数据中病人的肺结节是良性还是恶性;
步骤7、对模型分类结果进行融合,将步骤4、5、6得到的模型识别结果进行融合,以此来提高整个肺结节良恶性识别系统的性能。
CN201910673218.6A 2019-07-24 2019-07-24 一种基于深度学习的肺结节良恶性识别方法 Active CN110534192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910673218.6A CN110534192B (zh) 2019-07-24 2019-07-24 一种基于深度学习的肺结节良恶性识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910673218.6A CN110534192B (zh) 2019-07-24 2019-07-24 一种基于深度学习的肺结节良恶性识别方法

Publications (2)

Publication Number Publication Date
CN110534192A true CN110534192A (zh) 2019-12-03
CN110534192B CN110534192B (zh) 2023-12-26

Family

ID=68660927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910673218.6A Active CN110534192B (zh) 2019-07-24 2019-07-24 一种基于深度学习的肺结节良恶性识别方法

Country Status (1)

Country Link
CN (1) CN110534192B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111311589A (zh) * 2020-03-05 2020-06-19 上海市肺科医院(上海市职业病防治院) 一种肺部结节检测及性质判定系统及方法
CN111340793A (zh) * 2020-03-05 2020-06-26 上海市肺科医院(上海市职业病防治院) 一种肺部亚实性结节性质检测系统及方法
CN111539930A (zh) * 2020-04-21 2020-08-14 浙江德尚韵兴医疗科技有限公司 基于深度学习的动态超声乳腺结节实时分割与识别的方法
CN111553892A (zh) * 2020-04-23 2020-08-18 北京小白世纪网络科技有限公司 基于深度学习的肺结节分割计算方法、装置及系统
CN111681210A (zh) * 2020-05-16 2020-09-18 浙江德尚韵兴医疗科技有限公司 基于深度学习的剪切波弹性图鉴别乳腺结节良恶性的方法
CN111915596A (zh) * 2020-08-07 2020-11-10 杭州深睿博联科技有限公司 一种肺结节良恶性预测方法及装置
CN112037179A (zh) * 2020-08-11 2020-12-04 深圳大学 一种脑疾病诊断模型的生成方法、系统及设备
CN112071421A (zh) * 2020-09-01 2020-12-11 深圳高性能医疗器械国家研究院有限公司 一种深度学习预估方法及其应用
CN112687393A (zh) * 2020-12-29 2021-04-20 康奥生物科技(天津)股份有限公司 一种基于大数据的疾病预测系统
CN112784801A (zh) * 2021-02-03 2021-05-11 紫东信息科技(苏州)有限公司 基于文本和图片的双模态胃部疾病分类方法及装置
CN113782181A (zh) * 2021-07-26 2021-12-10 杭州深睿博联科技有限公司 一种基于ct图像的肺结节良恶性诊断方法及装置
CN114996461A (zh) * 2022-07-18 2022-09-02 北京大学 医学不良事件文本分类方法、装置、电子设备及介质
CN116187094A (zh) * 2023-04-18 2023-05-30 中国标准化研究院 一种基于工作情况实时分析的质量工作预测系统
CN117711635A (zh) * 2024-02-05 2024-03-15 神州医疗科技股份有限公司 一种医学影像检查结果分析方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389201A (zh) * 2018-03-16 2018-08-10 北京推想科技有限公司 基于3d卷积神经网络与深度学习的肺结节良恶性分类方法
CN108898588A (zh) * 2018-06-22 2018-11-27 中山仰视科技有限公司 基于时间序列的治疗效果评估方法、电子设备
WO2018232388A1 (en) * 2017-06-16 2018-12-20 Rensselaer Polytechnic Institute Systems and methods for integrating tomographic image reconstruction and radiomics using neural networks
CN109635850A (zh) * 2018-11-23 2019-04-16 杭州健培科技有限公司 一种基于生成对抗网络优化医学图像分类性能的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018232388A1 (en) * 2017-06-16 2018-12-20 Rensselaer Polytechnic Institute Systems and methods for integrating tomographic image reconstruction and radiomics using neural networks
CN108389201A (zh) * 2018-03-16 2018-08-10 北京推想科技有限公司 基于3d卷积神经网络与深度学习的肺结节良恶性分类方法
CN108898588A (zh) * 2018-06-22 2018-11-27 中山仰视科技有限公司 基于时间序列的治疗效果评估方法、电子设备
CN109635850A (zh) * 2018-11-23 2019-04-16 杭州健培科技有限公司 一种基于生成对抗网络优化医学图像分类性能的方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340793A (zh) * 2020-03-05 2020-06-26 上海市肺科医院(上海市职业病防治院) 一种肺部亚实性结节性质检测系统及方法
CN111311589A (zh) * 2020-03-05 2020-06-19 上海市肺科医院(上海市职业病防治院) 一种肺部结节检测及性质判定系统及方法
CN111539930A (zh) * 2020-04-21 2020-08-14 浙江德尚韵兴医疗科技有限公司 基于深度学习的动态超声乳腺结节实时分割与识别的方法
CN111539930B (zh) * 2020-04-21 2022-06-21 浙江德尚韵兴医疗科技有限公司 基于深度学习的动态超声乳腺结节实时分割与识别的方法
CN111553892B (zh) * 2020-04-23 2021-11-05 北京小白世纪网络科技有限公司 基于深度学习的肺结节分割计算方法、装置及系统
CN111553892A (zh) * 2020-04-23 2020-08-18 北京小白世纪网络科技有限公司 基于深度学习的肺结节分割计算方法、装置及系统
CN111681210A (zh) * 2020-05-16 2020-09-18 浙江德尚韵兴医疗科技有限公司 基于深度学习的剪切波弹性图鉴别乳腺结节良恶性的方法
CN111915596A (zh) * 2020-08-07 2020-11-10 杭州深睿博联科技有限公司 一种肺结节良恶性预测方法及装置
CN112037179A (zh) * 2020-08-11 2020-12-04 深圳大学 一种脑疾病诊断模型的生成方法、系统及设备
CN112071421A (zh) * 2020-09-01 2020-12-11 深圳高性能医疗器械国家研究院有限公司 一种深度学习预估方法及其应用
CN112687393A (zh) * 2020-12-29 2021-04-20 康奥生物科技(天津)股份有限公司 一种基于大数据的疾病预测系统
CN112784801A (zh) * 2021-02-03 2021-05-11 紫东信息科技(苏州)有限公司 基于文本和图片的双模态胃部疾病分类方法及装置
CN113782181A (zh) * 2021-07-26 2021-12-10 杭州深睿博联科技有限公司 一种基于ct图像的肺结节良恶性诊断方法及装置
CN114996461A (zh) * 2022-07-18 2022-09-02 北京大学 医学不良事件文本分类方法、装置、电子设备及介质
CN116187094A (zh) * 2023-04-18 2023-05-30 中国标准化研究院 一种基于工作情况实时分析的质量工作预测系统
CN117711635A (zh) * 2024-02-05 2024-03-15 神州医疗科技股份有限公司 一种医学影像检查结果分析方法及装置
CN117711635B (zh) * 2024-02-05 2024-05-03 神州医疗科技股份有限公司 一种医学影像检查结果分析方法及装置

Also Published As

Publication number Publication date
CN110534192B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
CN110534192A (zh) 一种基于深度学习的肺结节良恶性识别方法
Zeng et al. A new deep belief network-based multi-task learning for diagnosis of Alzheimer’s disease
Xing et al. Artificial intelligence in medicine: technical basis and clinical applications
Ge et al. Multi-stream multi-scale deep convolutional networks for Alzheimer’s disease detection using MR images
Zhou et al. Lung cancer cell identification based on artificial neural network ensembles
Almadhoun et al. Detection of brain tumor using deep learning
Tsang et al. Harnessing the power of machine learning in dementia informatics research: Issues, opportunities, and challenges
CN111967495B (zh) 一种分类识别模型构建方法
Alsaffar et al. Detection of tuberculosis disease using image processing technique
Yao et al. Pneumonia Detection Using an Improved Algorithm Based on Faster R‐CNN
Boban et al. Lung diseases classification based on machine learning algorithms and performance evaluation
Galaro et al. An integrated texton and bag of words classifier for identifying anaplastic medulloblastomas
Banik et al. Blockchain Integrated Neural Networks: A New Frontier in MRI-based Brain Tumor Detection.
Naz et al. Ensembled Deep Convolutional Generative Adversarial Network for Grading Imbalanced Diabetic Retinopathy Recognition
Dhiravidachelvi et al. Enhancing image classification using adaptive convolutional autoencoder-based snow avalanches algorithm
Liu et al. Large margin and local structure preservation sparse representation classifier for Alzheimer’s magnetic resonance imaging classification
Ahmed et al. A Weight Based Labeled Classifier Using Machine Learning Technique for Classification of Medical Data.
Wang et al. Diagnosis of cognitive and motor disorders levels in stroke patients through explainable machine learning based on MRI
Saranya et al. Bd-Mdl: bipolar disorder detection using machine leanring and deep learning
Raj Enhancing Thyroid Cancer Diagnostics Through Hybrid Machine Learning and Metabolomics Approaches.
Nagthane et al. An improved diagnosis technique for breast cancer using LCFS and TreeHiCARe classifier model
Reis et al. Fusion of transformer attention and CNN features for skin cancer detection
Princy Magdaline et al. Detection of lung cancer using novel attention gate residual U-Net model and KNN classifier from computer tomography images
Dora et al. Pathological brain classification using multiple kernel-based deep convolutional neural network
Gül et al. Comparing of brain tumor diagnosis with developed local binary patterns methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant