CN110534192A

CN110534192A - 一种基于深度学习的肺结节良恶性识别方法

Info

Publication number: CN110534192A
Application number: CN201910673218.6A
Authority: CN
Inventors: 王健; 文加斌; 李孟颖; 杨春梅; 林鸿飞; 张益嘉; 王琰
Original assignee: Dalian University of Technology; Second Hospital of Dalian Medical University
Current assignee: Dalian University of Technology; Second Hospital of Dalian Medical University
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-12-03
Anticipated expiration: 2039-07-24
Also published as: CN110534192B

Abstract

本发明涉及一种肺结节良恶性识别方法，一种基于深度学习的肺结节良恶性识别方法，包括以下步骤：(1)、对原始肺结节电子病历数据进行预处理，(2)、文档筛选与分类，(3)、文本表示的构建，(4)、深度学习模型的训练，(5)、attention机制的加入，(6)、选择分类器对肺结节良恶性进行识别，(7)、对模型分类结果进行融合。本发明利用文本信息对肺结节良恶性进行判断来辅助医疗；还利用了深度学习的相关知识来进行文本分类，减少了人工干预，效率更高；通过不同的文本特征输入，比较性别和年龄、现病史、个人史这三个因素对肺结节良恶性预判的影响情况，采用结果融合的方法提高分类识别模型最终的准确率和稳定性。

Description

一种基于深度学习的肺结节良恶性识别方法

技术领域

本发明涉及一种肺结节良恶性识别方法，更具体地说，涉及一种基于深度学习的肺结节良恶性识别方法。

背景技术

孤立性肺结节(Solitary Pulmonary Nodule,SPN)是指肺实质内单发、类圆形、最大半径不超过30mm的结节影，不伴有淋巴结肿大、肺不张和肺炎等其他病变。孤立性肺结节的良恶性判断是非常重要的，因早期恶性肺结节切除者存活率较高，但是在诊断不明确而手术切除的结节中约有一半是良性的，这就会造成一些不可预期的严重后果，例如，年龄稍大的患者在手术过后会对身体造成很大的伤害甚至承受不了手术过程，因此在手术前对肺结节的良恶性预判至关重要。随着人工智能领域的飞速发展，采用计算机科学与技术等手段进行辅助医疗已经成为当今国内外研究的重点方向。

目前，对于肺结节良恶性的判断主要是基于CT影像，医学影像诊断学总结的肺结节医学征象绝大多数是通过临床统计归纳得到的。近年来图像处理技术与模式识别方法已经被广泛应用到医学影像研究中，国内外开展了很多医学影像自动识别分析方法以及相关的计算机辅助诊断。目前，基于CT图像的肺结节良恶性判断主要使用的方法是基于机器学习的方法，例如先对高维空间信息进行特征提取，再用支持向量机进行分类判决。

目前，几乎没有基于文本方向的对肺结节良恶性进行预判，但是基于文本电子病历对某些疾病进行预测以便更好的预防和治疗已经得到了很多关注，并且不断发展。目前基于电子病历的文本分类使用的方法有如下几种：一是基于规则的方法，例如对肝癌分期的预测，通过人工设计规则采用关键字匹配，建立字典等方法实现对肝癌期的预判。二是基于机器学习的方法，通过特征提取，特征筛选，最后选择分类器对电子病历文本进行分类。三是基于深度学习的方法，该方法主要应用于对电子病历文本进行命名实体识别。上述基于电子病历的文本分类，大多利用电子病历中的入院记录，手术记录，病理报告等文本信息，面临最大的困难是语料不足，泛化性能低，人工干预多。

综上所述，如何减少人工干预，提高肺结节良恶性识别的准确率，进行辅助医疗，使其拥有实际的应用价值是迫切需要解决的问题。

发明内容

为了克服现有技术中存在的不足，本发明目的是利用文本分类技术，提供一种基于深度学习的肺结节良恶性识别方法。该方法采用的语料集是肺结节相关病人的电子病历，包含病人的入院记录、出院记录、手术记录、冰冻切片以及病理报告，其中入院记录包含性别年龄、现病史、既往史、个人史、家族史等信息；出院记录包含入院情况、入院诊断、出院诊断等信息；手术记录包含术前诊断和术中诊断等信息。因此本发明利用入院记录的相关信息作为特征输入到设计的模型中；利用出院记录、手术记录、冰冻切片报告及病理报告的相关诊断信息作为良恶性肺结节判断的金标准，即根据上述诊断信息为每个病人打标签，患良性肺结节的病人赋予标签为0，患恶性肺结节的病人赋予标签为1。该方法利用一定量数据文本，捕获文本中的语义信息；同时利用深度学习模型分别学习输入文本之间隐含的特征信息，从而进行精准的分类；最后采用融合等方式，提高实验结果的稳定性和准确率。

为了实现上述发明目的，解决现有技术中所存在的问题，本发明采取的技术方案是：一种基于深度学习的肺结节良恶性识别方法，包括以下步骤：

步骤1、对原始肺结节电子病历数据进行预处理，选择2015年期间大连医科大学附属二院部分肺结节电子病历数据集，并对其进行预处理，具体包括以下子步骤：

(a)首先对原始肺结节电子病历数据进行去除噪音以及脱敏处理，包括去除病人的姓名、民族、出生地、职业、婚姻状况以及入院日期；

(b)把文件中的病人数据按照病人ID进行统一处理，包括入院记录，手术记录，出院记录，CT即电子计算机断层扫描检查报告，CEA即癌胚抗原报告，NSE即神经元特异烯醇化酶报告，冰冻切片报告，然后对上述报告的文字内容进行相应粗提取；

(c)对原始语料中病人姓名与病历不一致错误的信息采集要用空白文档先补齐，保证病历文档与所给病人标签要一致，然后对空白文档需要进行填充，数值类型的空缺数据，用0进行填充，文本类型的数据，用None进行填充；

步骤2、文档筛选与分类，将步骤1处理好的原始肺结节电子病历数据进行特征筛选与分类，具体包括以下子步骤：

(a)将入院记录中的性别和年龄、病情主诉、现病史、个人史以及胸部CT显示分别抽出作为后续模型不同的特征进行输入；

(b)将CT报告中的CT表现进行提取作为判断肺结节良恶性的特征之一；

(c)将CEA报告与NSE报告中的数字内容进行提取作为判断肺结节良恶性的特征之一；

步骤3、文本表示的构建，先用分词工具进行分词，再利用现有数据构造相应的词向量，具体包括以下子步骤：

(a)在高维空间中用一个维度描述词的信息，即随机初始化输入文本中的每个词，构造传统的one-hot表示方法；

(b)用分布式词向量表示每个词的信息，把文本信息分布式地存储在向量各个维度中，利用Word2Vec工具对所得词进行词向量训练，单词来源是本次实验所采集到的文本数据，采用Word2Vec工具中的Continuous Bag of Word模型，即连续词袋模型CBOW进行词向量的训练，随机初始化，将单词或者字词映射到同一坐标系下用神经网络模型进行特征学习，从而得到连续的数值向量，该向量蕴含了丰富的上下文语义信息，再将分布式词向量的维度设置为50维；

步骤4、深度学习模型的训练，采用卷积神经网络和长短时记忆神经网络深度学习模型进行训练，并使用深度学习工具keras加以实现，具体包括以下子步骤：

(a)卷积神经网络训练模型，卷积神经网络是利用数学中常用的卷积运算形成的，其数学运算公式通过公式(1)进行描述，

S_(t)＝(x*H)(t)＝∫x(a)H(t-a)da (1)

式中，S_(t)表示参数函数x和核函数H的卷积，a表示积分变量，*表示卷积操作，在该卷积神经网络中，卷积的参数函数x是经过处理后的年龄与性别信息的向量作为训练模型的输入，卷积操作看成是对特征进行过滤的操作，通过核函数H获得局部最优的特征，并将这些特征保留下来组合在一起形成新的特征，这样每经过一层就会筛选出这层显著的特征传到下一层，通过公式(2)进行描述，

S_(t)＝δ(Hx_t：t+w-1+b) (2)

式中，H表示核函数，这里将卷积核的时域长度即卷积核的大小设置为3，x_t：t+w-1表示输入数据，即性别与年龄信息的词向量，词向量形式是[x_t，x_t+1，…，x_t+w-2，x_t+w-1],w表示输入窗口大小，这里窗口大小设置为2，b表示偏倚项，δ表示ReLU的激活函数；通过卷积操作，得到过滤后文本的特征值S_(t)，再选取滑动窗口后，在输入数据上依次滑动，得到不同窗口下的特征值，最后通过最大池化层来筛选这组特征值，从而获得最显著的特征；

(b)长短时记忆神经网络，由于循环神经网络存在梯度消失和梯度爆炸的问题，于是引入长短时记忆神经网络，该神经网络引入了Memory Units即记忆单元，实现了神经网络学习遗忘历史信息的时间和用新信息更新记忆单元的时间，在t时刻时，记忆单元记录了t时刻之前的全部历史信息，实现了不定时间长度内的记忆信息功能，记忆单元主要是由三个门的控制，即输入门，输出门和遗忘门，输入门主要控制每个内存单元加入新信息数量的多少，输出门主要控制每个内存单元输出信息数量的多少，遗忘门主要控制每个内存单元需要遗忘信息的多少；这三个门决定了输入信息的重要与否、需不需要被记忆和能不能被输出，三个门的元素值在0和1之间，在某一时刻t，给定输入和隐含层节点状态的更新方式通过公式(3)至公式(7)进行描述，

i_t＝σ(W_ix_t+U_ih_t-1+V_ic_t-1) (3)

f_t＝σ(W_fx_t+U_fh_t-1+V_fc_t-1) (4)

o_t＝σ(W_ox_t+U_oh_t-1+V_oc_t-1) (5)

c_t＝f_t*c_t-1+i_t*tanh(W_cx_t+U_ch_t-1) (6)

h_t＝o_t*tanh(c_t) (7)

式中，i_t表示输入门，f_t表示遗忘门，o_t表示输出门，c_t表示记忆单元，c_t-1代表上一层记忆单元，h_t表示隐含层状态节点，h_t-1代表前一个隐含层状态节点，x_t表示当前时刻t的输入，σ表示logistic的激活函数，W_i、U_i、V_i表示输入门的权重矩阵，W_f、U_f、V_f表示遗忘门的权重矩阵，W_o、U_o、V_o表示输出门的权重矩阵，W_c和U_c表示记忆单元的权重矩阵，其中V_i、V_f、V_o还是对角矩阵；将步骤2、3中处理好的个人史以及现病史信息词向量分别作为长短时记忆神经网络模型的输入，将模型层数设置为2层，输出维度分别为50，25，两层神经网络之间设置dropout函数防止过拟合，dropout值设置为0.2，模型中的激活函数设置为tanh函数；

步骤5、attention机制的加入，即注意力机制的加入，通过获得当前词关于文档词序列的注意力权重，提高模型效果，具体是，将当前词与文档中的每一个词计算一个得分，然后通过softmax函数计算归一化，即将有限项离散概率分布的梯度对数归一化，从而获得权重值；

步骤6、选择分类器对肺结节良恶性进行识别，利用上述步骤训练得到深度学习模型输出结果，用sigmoid函数进行分类，即将模型输出结果映射到0，1之间进行分类，在未标注数据上进行测试，识别未标注数据中病人的肺结节是良性还是恶性；

步骤7、对模型分类结果进行融合，将步骤4、5、6得到的模型识别结果进行融合，以此来提高整个肺结节良恶性识别系统的性能。

本发明有益效果是：一种基于深度学习的肺结节良恶性识别方法，包括以下步骤：(1)、对原始肺结节电子病历数据进行预处理，(2)、文档筛选与分类，(3)、文本表示的构建，(4)、深度学习模型的训练，(5)、attention机制的加入，(6)、选择分类器对肺结节良恶性进行识别，(7)、对模型分类结果进行融合。与已有技术相比，本发明利用文本信息对肺结节良恶性进行判断来辅助医疗；还利用了深度学习的相关知识来进行文本分类，减少了人工干预，效率更高；通过不同的文本特征输入，比较性别和年龄、现病史、个人史这三个因素对肺结节良恶性预判的影响情况，采用结果融合的方法提高分类识别模型最终的准确率和稳定性，有实际的应用价值和意义。

附图说明

图1是本发明方法步骤流程图。

图2是神经网络模型图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，一种基于深度学习的肺结节良恶性识别方法，包括以下步骤：

S_(t)＝(x*H)(t)＝∫x(a)H(t-a)da (1)

S_(t)＝δ(Hx_t：t+w-1+b) (2)

i_t＝σ(W_ix_t+U_ih_t-1+V_ic_t-1) (3)

f_t＝σ(W_fx_t+U_fh_t-1+V_fc_t-1) (4)

o_t＝σ(W_ox_t+U_oh_t-1+V_oc_t-1) (5)

c_t＝f_t*c_t-1+i_t*tanh(W_cx_t+U_ch_t-1) (6)

h_t＝o_t*tanh(c_t) (7)

为了检验本发明的有效性，本发明在1030个肺结节电子病历数据集上进行实验，将其中的800条已标注的数据作为训练集，230条已标注的数据作为测试集。本发明使用召回率R，准确率P以及F1值来评价分类的效果，通过公式(8)、(9)及(10)进行描述，结果如表1所示。

表1

本发明优点在于：本发明方法是利用文本信息对肺结节良恶性进行判断来辅助医疗，还利用了深度学习的相关知识来进行文本分类，减少了人工干预，效率更高；通过不同的文本特征输入，比较性别和年龄、现病史、个人史这三个因素对肺结节良恶性预判的影响情况，采用结果融合的方法提高分类识别模型最终的准确率和稳定性，有实际的应用价值和意义。

Claims

1.一种基于深度学习的肺结节良恶性识别方法，其特征在于包括以下步骤：

S_(t)＝(x*H)(t)＝∫x(a)H(t-a)da (1)

S_(t)＝δ(Hx_t：t+w-1+b) (2)

式中，H表示核函数，这里将卷积核的时域长度即卷积核的大小设置为3，x_t：t+w-1表示输入数据，即性别与年龄信息的词向量，词向量形式是[x_t，x_t+1，…，x_t+w-2，x_t+w-1]，w表示输入窗口大小，这里窗口大小设置为2，b表示偏倚项，δ表示ReLU的激活函数；通过卷积操作，得到过滤后文本的特征值S_(t)，再选取滑动窗口后，在输入数据上依次滑动，得到不同窗口下的特征值，最后通过最大池化层来筛选这组特征值，从而获得最显著的特征；

i_t＝σ(W_ix_t+U_ih_t-1+V_ic_t-1) (3)

f_t＝σ(W_fx_t+U_fh_t-1+V_fc_t-1) (4)

o_t＝σ(W_ox_t+U_oh_t-1+V_oc_t-1) (5)

c_t＝f_t*c_t-1+i_t*tanh(W_cx_t+U_ch_t-1) (6)

h_t＝o_t*tanh(c_t) (7)