CN113077434B

CN113077434B - 基于多模态信息的肺癌识别方法、装置及存储介质

Info

Publication number: CN113077434B
Application number: CN202110342961.0A
Authority: CN
Inventors: 罗立刚; 高光明; 江凯; 侯波林; 罗祥凤
Original assignee: Zero Krypton Smart Medical Technology Tianjin Co ltd
Current assignee: Zero Krypton Smart Medical Technology Tianjin Co ltd
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2023-01-24
Anticipated expiration: 2041-03-30
Also published as: CN113077434A

Abstract

本发明提供一种基于多模态信息的肺癌识别方法、装置及存储介质，包括：获取当前患者的临床数据，对所述临床数据依次进行结构化处理和临床特征处理，基于MLP对处理后的临床数据进行临床特征提取；获取当前患者的影像数据，对所述影像数据进行预处理，基于R‑CNN对预处理后的病灶特征提取；对所述临床特征和病灶特征进行特征融合后进行计算，基于MLP得到肺癌输出结果。在对肺癌识别中会结合临床数据和影像数据进行识别，具有较高的敏感性和特异性，使得识别结果准确。

Description

基于多模态信息的肺癌识别方法、装置及存储介质

技术领域

本发明涉及肿瘤识别技术，尤其涉及一种基于多模态信息的肺癌识别方法、装置及存储介质。

背景技术

在现有技术肺癌的识别方案中，传统的方案主要是基于手工设计的特征，影像组学特征、患者的基本信息等，如梅奥肺癌风险评估模型，用到了患者的年龄、吸烟史、毛刺征、尺寸和位置等信息，基于手工和医学经验提取的特征，可解释性较强，但相对于深度学习自动识别的方法来说效果一般，且需要较为深厚的医学背景知识，实施的代价比较高。

目前较为主流的是基于深度学习算法对CT影像数据自动提取特征，识别出疑似病灶并给出良恶性的判别，准确率较高，但可解释性较差，并且有一定的局限性，因为肺部病灶存在“同病不同征，同征不同病“的问题，如陈旧性肺结核和肺癌病灶具有高度的相似性，单从影像特征很难区分两者的不同。

当前，亟需一种能够有效的肺癌识别方法。

发明内容

本发明实施例提供一种基于多模态信息的肺癌识别方法、装置及存储介质，在对肺癌识别中会结合临床数据和影像数据进行识别，具有较高的敏感性和特异性，使得识别结果准确。

本发明实施例的第一方面，提供一种基于多模态信息的肺癌识别方法，包括：

获取当前患者的临床数据，对所述临床数据依次进行结构化处理和临床特征处理，基于MLP对处理后的临床数据进行临床特征提取；

获取当前患者的影像数据，对所述影像数据进行预处理，基于R-CNN对预处理后的病灶特征提取；

对所述临床特征和病灶特征进行特征融合后进行计算，基于MLP得到肺癌输出结果。

可选地，在第一方面的一种可能实现方式中，所述临床数据包括病历信息；

所述对所述临床数据依次进行结构化处理和临床特征处理包括：

获取病历信息的信息点位，对所述信息点位的点位名称进行归一化处理；

提取归一化处理后的信息点位得到结构化处理后的病历信息。

可选地，在第一方面的一种可能实现方式中，所述对所述临床数据依次进行结构化处理和临床特征处理包括：

提取所述结构化处理后病历信息中的特征；

对所述特征进行量化和\或标准化处理。

可选地，在第一方面的一种可能实现方式中，所述基于MLP对处理后的临床数据进行临床特征提取包括：

所述MLP为3层神经网络，神经元个数依次为1024，512，512，基于以下公式获得临床数据中的临床特征，包括：

Loss(x_i,y_i)＝-w_i[y_ilogx_i+(1-y_i)log(1-x_i)]

其中，x_i为临床数据，y_i为预测的良恶性标签，w_i为权重。

可选地，在第一方面的一种可能实现方式中，所述获取当前患者的影像数据，对所述影像数据进行预处理包括：

对所述影像数据的体积进行固定；

按照预设窗位对所述影像数据进行截取，并将截取的数据的像素归一至预设像素区间。

可选地，在第一方面的一种可能实现方式中，所述基于R-CNN对预处理后的病灶特征提取包括：

基于以下公式提取病灶特征，包括：

L＝p_lesL_cls+L_det

其中，L_cls为病灶分类的损失，p_les表示当前预测组织是否为异常病灶，如果是，则p_l＝1，如果否则为p_l＝0,L_det为目标检测的Loss；

其中p表示样本是否为恶性，如果为恶性则为1，良性则为0，

为预测结果为恶性的概率；

L_det＝L_les+p_lesL_pos

L_les表示预测位置是否为病灶的损失，p_les表示当前预测组织是否是异常病灶，L_pos表示对病灶位置(x,y,z)和尺寸(d)的回归损失。

可选地，在第一方面的一种可能实现方式中，所述对所述临床特征和病灶特征进行特征融合后进行计算，基于MLP得到肺癌输出结果包括：

所述MLP采用三层的全连接层构成，神经元个数分别为1024，1024，512，采取同样的神经元和权值提取所述临床特征和病灶特征的隐层表达；

计算临床特征和病灶特征的隐层表达的差异性损失KL_Loss，基于以下公式获得，包括：

其中，

为KL散度，N为样本总数，f(x_i)表示隐层对输入x_i的表达，下标ct表示病灶特征，下标emr表示临床特征。

通过交叉熵损失函数基于所述差异性损失KL_Loss获得肿瘤良恶损失，得到肺癌输出结果。

本发明实施例的第二方面，提供一种基于多模态信息的肺癌识别装置，包括：

临床特征提取模块，用于获取当前患者的临床数据，对所述临床数据依次进行结构化处理和临床特征处理，基于MLP对处理后的临床数据进行临床特征提取；

病灶特征提取模块，获取当前患者的影像数据，对所述影像数据进行预处理，基于R-CNN对预处理后的病灶特征提取；

结果输出模块，用于对所述临床特征和病灶特征进行特征融合后进行计算，基于MLP得到肺癌输出结果。

可选地，在第二方面的一种可能实现方式中，所述结果输出模块还用于执行以下步骤，包括：

其中，

本发明实施例的第三方面，提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述方法。

本发明提供的一种。本发明针对当前基于手工特征和单纯使用CT影像数据进行识别患者良恶性的局限性，提出了CT影像数据，结合临床信息(患者基本信息，生活史，检查化验指标等)进行多模态学习的方式，对患者的良恶性进行识别，并给出候选结节的位置、尺寸、精细轮廓、密度分布等信息，辅助医生进行临床决策，相较于只依赖影像数据，或临床信息的识别方案，效果均有明显提升。

附图说明

图1为基于多模态信息的肺癌识别方法的流程图；

图2为基于多模态信息的肺癌识别方法的操作示意图；

图3为临床特征提取中神经网络的示意图；

图4为影像特征提取中神经网络的示意图；

图5为MLP网络的示意图；

图6为基于多模态信息的肺癌识别装置的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本发明中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

本发明提供一种基于多模态信息的肺癌识别方法，如图1所示其流程图，包括：

步骤S110、获取当前患者的临床数据，对所述临床数据依次进行结构化处理和临床特征处理，基于MLP对处理后的临床数据进行临床特征提取。

其中，临床数据包括病历信息，在步骤S110中，通过以下步骤进行结构话处理，包括：

目前医院的病历数据存储存在格式不统一，命名不规范，部分结果采用文字的方式记录，在使用之前需要对原始的病历数据进行结构化，主要工作内容为将病历的信息点位采用统一格式进行组织，点位名称进行归一化，和点位提取(如从入院记录或主诉中提取症状，病程记录中提取放化疗的时间等等)，经结构化后，即可作为模型预测和训练的样本。

在一个实施例中，在步骤S110中，通过以下步骤进行临床特征处理，包括：

提取所述结构化处理后病历信息中的特征；

对所述特征进行量化和\或标准化处理。

经结构化的数据后，相关点位存在的形式主要为数值型(如化验指标，年龄等)，选项型(性别、民族、籍贯、职业等)和文本描述(既往病史、现病史、家族史等)，这些数据在输入模型前，需要转化为机器学习模型可以理解的形式，即使用数值进行量化表示，同时需要在现有点位的基础上总结模型需要的特征，主要的操作如图2所示：

特征提取：在结构化的数据上，进行总结推导，提取相关特征，如生活史->是否吸烟，职业->是否存在肺癌职业暴露史等等；

量化表示：将非数值型原始特征和信息进行量化表示，使用的方式有One-Hot,WordEmbedding(词嵌入)和Label-Encode的方式。对于候选结果较少的选项型特征(如性别)采用one-hot的方式进行编码，更易于模型理解和学习；对于候选结果很多的(籍贯城市)，采用Label-Encode的方式进行编码，有助于降低特征维度，降低模型学习难度；对于文本型的特征，采用WordEmbedding的方式实现向量化表示，对原始语义信息进行编码；

特征标准化：不同特征具有不同的意义和单位，导致量纲差异较大(如红细胞计数单位为10¹²/L,白细胞计数10⁹/L)，由于量纲的差异，导致不同特征对模型的影响参差不齐，容易出现梯度爆炸，优化难度较高，故在本发明中对特征进行了标准化。

缺失值处理：对缺失的特征，采用的方式为k紧邻均值填充。

在一个实施例中，在步骤S110中，通过以下步骤进行临床特征提取，包括：

Loss(x_i,y_i)＝-w_i[y_ilogx_i+(1-y_i)log(1-x_i)] (公式1)

其中，x_i为临床数据，y_i为预测的良恶性标签，w_i为权重。

步骤S120、获取当前患者的影像数据，对所述影像数据进行预处理，基于R-CNN对预处理后的病灶特征提取；

步骤S130、对所述临床特征和病灶特征进行特征融合后进行计算，基于MLP得到肺癌输出结果。

临床数据的特征，采用的是多层感知机(MLP:Multi Layer Perceptron),通过多层神经元，非线性激活函数(ReLU)提高了模型的非线性表征能力，并采用了BatchNormalization降低网络的训练难度。

在本发明中临床特征提取使用3层神经网络，神经元个数依次为1024，512，512，网络详细结构如图3所示。图中X为经预处理后的临床信息，a^[4]为Sigmoid层，训练使用的Loss为BCELoss，具体表达式为公式(1)，Y为预测的良恶性标签，L₃的输出作为临床信息的特征和影像的特征进行融合。

在一个实施例中，在步骤S120中，获取当前患者的影像数据，对所述影像数据进行预处理包括：

对所述影像数据的体积进行固定；

由于设备的不同、拍摄部位的不同使得CT影像存在不同的情况，在重建影像的时候，单个像素的物理空间会有较大差异，为了消除物理空间的影响，在预处理阶段会将像素空间通过差值的方式Resize到固定的大小(1x1x1mm)。CT原始的dicom文件保存的为是对应像素点的HU值(Hounsfiled Unit)，需要根据展示的组织部位截取不同的窗宽和窗位，本发明中采用的是临床上肺窗对原始HU值进行截取，即窗位＝300，窗宽＝1200，并将其归一化到0～255的灰度区间。为了排除肺外区域的干扰，在处理后的图像上，本发明采用传统的图像处理技术，即自适应区域自生长的技术，对肺部区域进行了识别，屏蔽肺外的区域，供肺部结节检出系统进行病灶识别，以提高检出的效率和准确率。

在一个实施例中，L_les表示预测位置是否为病灶的损失，p_les表示当前预测组织是否是异常病灶，L_pos表示对病灶位置(x,y,z)和尺寸(d)的回归损失。

CT影像特征的提取采用的是基于深度学习的3D-CNN网络，具体构成是采用3DResNet作为基础模块，网络架构采用的是Unet的结构，有利于高层语义特征和局部纹理特征的结合，针对病灶大小差异特别大情况，效果提升非常明显，病灶的识别采用的是FasterRCNN的RPN结构进行位置和尺寸的检测，同时对病灶的类别进行识别，即给出病灶的良恶性结果。网络详细情况如图4所示。训练时的Loss为目标检测和分类loss的加和，如下式所示：

L＝p_lesL_cls+L_det (2)

其中L_cls为病灶分类的Loss，表达式为公式(3),p_les表示当前预测组织是否是异常病灶，如果是，p_l＝1，否则为0,L_det为目标检测的Loss，表达式见公式(4)。

其中p表示样本是否为恶性，如果为恶性则为1，良性则为0，

为预测结果为恶性的概率。

L_det＝L_les+p_lesL_pos (4)

L_les表示预测位置是否是病灶的损失，形式同L_cls，p_les表示当前预测组织是否是异常病灶，L_pos表示对病灶位置(x,y,z)和尺寸(d)的回归损失。

其中，CT整个Case的特征(如图3所示，CaseFeature),是由恶性概率最高的Top-K病灶的ResBlock-5的特征经2层全连接层生成，总计维度为1024维，在本发明中K的值取优选为10。

在一个实施例中，在步骤S130中，包括：

其中，

获取临床特征(EMR-Feature)和影像特征(CT-Feature)后，本发明中采用多层感知机(MLP)的网络进行多模态学习，如图5所示。MLP采用三层的全连接层构成，神经元个数分别为1024，1024，512，针对临床和影像的特征，采用同一网络处理，不同特征共享相同的神经元和权值，分别提取各自的隐层表达，即CT-Representation和EMR-Representation。训练时三层网络各自的CT-Representation和EMR-Representation，使用KL散度计算两者之间的差异性损失，即KL-Loss,具体表达式参见公式(5)，使不同模态间的表达进行对齐(Representations Aligne)，解决不同模态信息语义抽象层级之间的差异。

其中

最后采用交叉熵损失函数计算患者维度良恶性识别的损失，图5中的Malignancy-Loss,表达式参见公式(1)。

本发提供的技术方案是基于文本、数字等临床信息和CT影像的多模态肺癌识别方案，包括：接收待处理的临床信息和CT影像数据；对上述临床信息进行结构化、标准化、词嵌入等特征处理，并对CT影像数据进行预处理；将处理后的临床信息输入经过训练的MLP网络提取临床信息特征，CT影像数据，输入经过训练的3D-CNN网络提取影像特征；临床信息特征和影像信息特征，进行融合输入多模态肺癌识别网络，给出患者是否是肺癌的分类结果和置信度；结合影像特征，给出具体恶性病灶的位置、尺寸、密度分布和精细轮廓等影像组学特征。本发明结合影像数据和临床数据，在对肺癌识别中，具有更高的敏感性和特异性。

本发明中模型的输入包含CT影像、化验指标、患者基本情况(性别、年龄、籍贯等)、患者既往病史、个人生活史等信息，大体上可以分为三种数据模态，即图像、文本、和浮点数，使用这些数据进行学习，最大的挑战是平衡好不同抽象等级输入信息的表达，以及使用，如CT图像是非常原始的点阵信息，而现病史等文字信息是高度抽象化的语言描述。为了解决此问题，在本发明中使用了WordEmbedding的方式，对文本进行编码，形成向量化表达，然后和其他模态的信息输入到MLP中进行特征提取，而图片数据则采用深度学习3D-CNN网络提取高层语义特征，在高层特征维度进行信息对齐和融合，以实现多模态学习建模的目的。

主要的实现步骤如图2所示，CT数据主要分为预处理阶段，特征提取阶段，临床数据主要实现分为结构化、数据预处理和特征提取阶段，获取CT特征和临床数据特征后，对两部分的特征进行融合，然后通过MLP对融合后的特征进行建模，以识别患者的良恶性，并根据CT特征提取阶段的中间输出结果，给出病灶的位置、尺寸、密度类型等信息。

本发明的实施例还提供一种基于多模态信息的肺癌识别装置，如图6所示，包括：

在一个实施例中，所述结果输出模块还用于执行以下步骤，包括：

其中，

其中，可读存储介质可以是计算机存储介质，也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如，可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits，简称：ASIC)中。另外，该ASIC可以位于用户设备中。当然，处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。

在上述终端或者服务器的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。