CN106897572A

CN106897572A - 基于流形学习的肺结节病例匹配辅助检测系统及其工作方法

Info

Publication number: CN106897572A
Application number: CN201710133699.2A
Authority: CN
Inventors: 杨阳; 李夏; 刘云霞; 熊海良
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2017-03-08
Filing date: 2017-03-08
Publication date: 2017-06-27

Abstract

本发明涉及基于流形学习的肺结节病例匹配辅助检测系统及其工作方法，本发明首先将所需判断的案例进行标记，与形成的案例库一起输入本文所述的t‑SNE计算框架，通过流形学习形成二维嵌入图，然后以当前案例为核心，以阈值A为半径，在二维嵌入图中找到小于A的圆内的其他案例。计算在小于A的圆内的其他案例与当前案例的欧式距离，对计算结果进行排序。最后选取前N个与当前案例欧式距离最小的案例作为推荐案例，推荐给医生。该提取方法具有推荐案例精度高、匹配速度快的特点。

Description

基于流形学习的肺结节病例匹配辅助检测系统及其工作方法

技术领域

本发明涉及基于流形学习的肺结节病例匹配辅助检测系统及其工作方法，属于肺结节病例匹配辅助检测系统技术领域。

背景技术

在医生诊断CT图片包含肺结节的良恶性过程中，医生都会勾画出CT图片中包含的肺结节以及这些肺结节表现的医学症状，最终，会形成不同的医学症状、诊断结果以及对应的治疗方式，这些数据是医生经验和知识的积累，将这些宝贵的经验和知识积累建立成与电子病历管理系统相关联的病例数据库，有助于提升现有的电子病历管理，完善各项数据资料，为后续肺结节诊断提供强有力的可查案例库。另一方面，肺部CT断层扫描是构建完整的人体肺部三维计算机模型。医生们甚至一小片一小片地检查患者的身体，以便精确定位特定的区域，每一个患者通过断层扫描都会得到成百上千张图片。若要确定某一患者的肺结节的良恶性，往往需要医生查阅几十张CT图片才能做出最终的决定。所以建立一个肺结节病例匹配辅助系统就显得很重要。建立的肺结节病例匹配辅助系统可以提高医生的阅片率，减少由于人为因素引起的诊断误差。同时减少诊断时间。随着技术的发展，涌现了大量的计算机辅助诊断(computer aided diagnosis，CAD)，CAD是指通过影像学、医学图像处理技术以及其他可能的生理、生化手段，结合计算机的分析计算，辅助发现病灶，提高诊断的准确率。国内对CAD的研究相对较晚，主要从90年代开始，人数也相对较少，主要集中在高校和研究所，总体上也尚处于探索阶段，其研究领域主要集中在：关键技术(案例检索、案例修正、案例库等)、CDA应用系统、规则推理等技术的集成等方面。

虽然各种辅助诊疗系统在国内外已有广泛应用，CDA系统本身也在多个领域取得了巨大成功，但基于案例的诊疗决策支持系统成型的系统却并不多。目前，面向诊疗的基于案例决策支持技术已在乳腺癌早期探测、诊断、预测，皮肤病诊断，老年痴呆症诊断，风湿病诊断等方面取得了一定应用，但是水平差距很大。并且在肺结节的诊断上却始终不见成效。不少系统多用于框架设计和原型系统研究，具体系统实现还需要深入研发。

中国专利文献CN104619257A公开了一种用于对患者肺部的计算机断层扫描(CT)图像进行自动分割的系统和方法。该方法包括如下步骤：对CT图像进行分割以获得一个或多个肺部区域；对肺部区域进行强度阀值化以生成遮罩区域，该遮罩区域包括与肺部区域内的解剖结构对应的高强度区域；计算该遮罩区域的欧几里得距离图；对欧几里得距离图执行分水岭分割以生成一个或多个子区域；针对每个子区域识别种子点；从每个子区域的种子点生长出候选区域；根据所述候选区域的一个或多个几何特征将一个或多个候选区域分类为肺结节。该专利存在以下缺陷：该专利主要的思路是用区域生长法的分割方法进行分割，缺点是每一个需要提取的区域都必须人工给出一个种子点，这样有多个区域就必须给出相应的种子数，此法对噪声很敏感，会造成许多根本不连续的区域。如果有大量种子点又会将不连续的区域连续在了一起。并且此方法只是辅助检测，从医生的角度出发，没有考虑病患本身。

发明内容

针对现有技术的不足，本发明提供了基于流形学习的肺结节病例匹配辅助检测系统；

本发明还提供了上述肺结节病例匹配辅助检测系统的工作方法；

为了从案例库中获得与当前案例最相似的N个推荐案例并且还有与之对应的诊断结果及治疗方案，医生只需重点查阅这N个推荐案例即可，同时该肺结节病例匹配辅助检测系统进行了三次匹配筛选方法获得与诊断中病例最相似的N个推荐案例，具有筛选速度快、精度高的优点。

术语解释：

1、t-SNE计算框架：t-SNE是一种用于降维的机器学习算法，是一种非线性降维算法，从高维采样数据中恢复出低维流形结构，并求出相应的嵌入映射，以实现维数约简或者可视化，即从观测到的现象中去寻找事物的本质，找到数据的内在规律。t-sne非常适用于高维数据降维到二维或者三维，进行可视化。

2、可视化聚类图：有相同或相似内在规律的图片挨在一起或挨的比较近，将大量图片数据分成不同类后展示出来。即将不同的类或簇以图片的的形式展现出来而不单单是以概率衡量相似性。

本发明的技术方案如下：

基于流形学习的肺结节病例匹配辅助检测系统，包括案例收集模块、案例分类并存储模块、案例匹配模块、案例判断模块及案例修正模块，所述案例收集模块、案例分类并存储模块、案例匹配模块、案例判断模块及案例修正模块依次环形连接；

所述案例收集模块，通过收集CT医学影像拍照系统拍摄得到的肺部CT图片及电子病历系统录入的患者信息，获取病例数据库，病例数据库包括患者信息及对应该患者的一张或多张肺部CT图片；所述患者信息包括患者的姓名、性别、年龄、家庭住址、患病时间，CT图片包括肺结节的医学症状、诊断结果及治疗措施；所述医学症状包括：良性、恶性、实性、毛玻璃状、边缘锐利、边缘毛糙、边缘分叶状、边缘光滑、强化明显、强化不明显、直径大于1.5cm、直径小于1.5cm；

所述案例分类并存储模块，用于对所述案例收集模块的病例数据库中的案例集进行分类：医生根据标注的医学症状将肺结节分为良性、恶性两类，并将分类好的案例集进行存储编号；

所述案例匹配模块，用于录入当前案例的信息，并匹配出当前案例的推荐案例；

所述案例判断模块，通过专业阅片医生对所述案例匹配模块得到的推荐案例进行再次判阅，得出最终诊断结果；

所述案例修正模块：如果专业阅片医生得到的最终诊断结果与所述案例判断模块所给的推荐案例差别很大，说明所述案例收集模块中此类案例很少或没有此类案例，则将医生的诊断信息返回所述案例收集模块。以备后续使用。

根据本发明优选的，所述案例分类并存储模块包括依次连接的案例标注单元、案例提取单元、案例分类单元及案例库存储单元；

所述案例标注单元，用于对肺部CT图片中所包含的肺结节的位置信息以及肺结节的医学症状进行标注，肺结节的位置信息就是肺结节在CT图片中的位置；

所述案例提取单元，用于根据案例标注单元得到的肺结节的位置信息以及肺结节的医学症状，将肺结节从肺部CT图片中提取出来；

所述案例分类单元，用于将提取出的肺结节分类成良性肺结节和恶性肺结节，并整理各个肺结节对应的患者信息、所在的肺部CT图片、医学症状、诊断结果及治疗措施；

所述案例库存储单元，将各个肺结节以及对应的患者信息、所在的肺部CT图片、医学症状、诊断结果、治疗措施进行编号，编号过程中将具有相似医学症状的号码连在一起，形成案例库。

根据本发明优选的，所述案例匹配模块包括依次连接的第一次筛选匹配单元、第二次筛选匹配单元、第三次筛选匹配单元；

所述第一次筛选匹配单元，用于将当前的案例图片输入到匹配方法中进行第一次筛选匹配，将当前的案例图片与所述案例分类并存储模块构建的案例库进行匹配，得到当前的案例图片与所述案例库分类并存储模块的可视化聚类图，通过流形学习得到的二维可视嵌入图；相似度高的两张图片会被放置得比较近；

所述第二次筛选匹配单元，用于进行第二次筛选匹配，以所述第一次筛选匹配单元得到的二维可视嵌入图为核心，通过筛选匹配找到小于阈值半径A的案例作为备选案例，阈值半径A的取值范围为2-10cm；

所述第三次筛选匹配单元，用于进行第三次筛选匹配，将当前案例与通过所述第二筛选匹配单元得到的备选案例进行匹配，计算每个备选案例与当前的案例图片的欧氏距离，并对计算结果从小到大进行排序，选出前N个对应的备选案例作为推荐案例，N的取值范围为10-20。

上述肺结节病例匹配辅助检测系统的工作方法，包括步骤如下：

(1)医生登录基于流形学习的肺结节病例匹配辅助检测系统，将当前拍摄的肺部CT图片输入t-SNE计算框架；

(2)医生输入阈值半径A的值和推荐案例的个数N的值，所述案例匹配模块将当前案例与案例分类并存储模块构建的案例库进行筛选匹配给出N个推荐案例，当前案例即步骤(1)所述的当前拍摄的肺部CT图片；

(3)通过人机交互界面把推荐案例展现给医生；

(4)如果医生觉得推荐案例中有与当前案例很吻合的案例，则从系统中显示该相似案例的诊断结果及治疗措施，如果推荐案例与当前案例有很大差别，则将当前案例中所包含的肺结节的位置信息以及肺结节的医学症状进行标注，并将标注结果返回所述案例收集模块。

根据本发明优选的，所述步骤(2)，具体步骤包括：

a、进行第一次筛选匹配，所述第一次筛选匹配单元将标记好(在之前做好的案例集中加入当前病例，对当前病例做特殊备注，比如可以在表格后续写上备注补充)的当前案例与所述案例分类并存储模块构建的案例库一起输入t-SNE计算框架，得到当前案例与所述案例库分类并存储模块的二维可视化聚类图，其中相似度高的两张二维可视化聚类图放置得比较近；

b、进行第二次筛选匹配，以第一次筛选匹配得到得二维嵌入图为核心，通过筛选匹配找到小于阈值半径A的案例，作为备选案例；

c、进行第三次筛选匹配，将当前案例与由所述第二筛选匹配得到的备选案例进行匹配，计算每个备选案例与当前案例的欧氏距离，并对计算结果从小到大进行排序，选出前N个对应的备选案例作为推荐案例。

根据本发明优选的，所述步骤b，包括步骤如下：

以当前案例为中心，以阈值半径A为半径，在生成的二维可视嵌入图中做圆，获取小于阈值半径A的案例作为备选案例，如式(Ⅰ)所示：

(m-a)²+(n-b)²≤A² (Ⅰ)

式(Ⅰ)中，阈值半径A的取值范围为2-10cm，axb表示当前案例的中心点的像素，mxn则表示所述案例分类并存储模块构建的案例库中任一个案例的中心点的像素。

根据本发明优选的，通过流形学习t-SNE计算框架得到二维可视化聚类图，包括步骤如下：

通过t-SNE得到二维可视化聚类图，即从高维空间中的案例库中得到与当前案例相似性很高的案例集，将这些案例可视化出来，可视化出来的图片集是有规律的，规律就是：与当前案例越相似的图片，越靠近当前案例，与当前案例越不相似的图片，越远离当前案例；

考虑高维空间中的两个案例x_i和x_j，x_i以条件概率p_j|i选择x_j作为它的邻近点；考虑以x_i为中心点的高斯分布，若x_j越靠近x_i，则p_j|i越大，反之则越小；p_j|i定义如式(Ⅱ)所示：

式(Ⅱ)中，σ_i是指以x_i为中心点的高斯分布的方差，x_k表示除x_i外的其它病例，p_j|i是指与当前案例相似的其它病例与当前病例的距离，p_j|i值越大，表示相似度越大，在二维可视化聚类图上越靠近当前病例，值越小，表示相似度越小，在二维可视化聚类图上离当前病例越远。

通过流形学习t-SNE计算框架得到二维可视化聚类图，内部计算过程如下：

d、在原始的SNE(stochastic neighbor embedding)中，考虑高维空间中的两个病例x_i和x_j，x_i以条件概率p_j|i选择x_j作为它的邻近点。考虑以x_i为中心点的高斯分布，若x_j越靠近x_i，则p_j|i越大，反之则越小。将p_j|i定义如式(Ⅱ)所示：

当我们把数据映射到低维空间后，高维数据点之间的相似性也应该在低维空间的数据点上体现出来。这里同样用条件概率的形式描述，假设高维数据点x_i和x_j在低维空间的映射点分别为y_i和y_j。类似的，低维空间中的条件概率用q_j|i表示，σ_i用表示，所以q_j|i表示为：其中y_k表示除y_i外的其余数据点。

e、原始的SNE算法，高维的条件概率p_i|j与p_j|i是不相等的，在低维空间中的q_i|j和q_j|i也是不相等的。为了找到一个更合理的联合概率分布，分别在高维和低维空间构造联合概率分布P和Q，对于任意的i和j均有p_ij＝p_ji，q_ij＝q_ji。在低维空间如式(III)所示：

在高维空间中定义其中n为数据总数，将原始的SNE改变成对称SNE，解决了高维的条件概率p_i|j与p_j|i是不相等的，在低维空间中的q_i|j和q_j|i也是不相等的问题。

f、在分类中容易出现拥挤问题，所谓拥挤问题就是不同类的数据簇拥到一起，像t分布这样的长尾分布，在处理小样本和异常点时有着非常明显的优势。所以将自由度为1的t分布加入到对称SNE中，则q_ij可以重新定义为如式(Ⅳ)所示：

使用KL衡量两个分布间的相似性，代价函数如式(Ⅴ)所示：

对代价函数求关于y_i的梯度如式(VI)所示：

后续用梯度下降法训练行。即所述的t-SNE,把原始的SNE变成对称SNE，在地维空间中采用了t分布代替了原来的高斯分布，高维空间依旧采用高斯分布。

本发明的有益效果为：

1、本发明通过分析和整理肺结节病例中的大量包含肺部CT图，患者基本个人信息，及CT图中包含的肺结节的基本症状，诊断结果和治疗方案等数据。提取这些数据中的关键信息，根据案例建立成电子病例库。这些信息都是医生经验和精力的积累。通过t-SNE形成可视化图，通过多级筛选选择出与当前所需判断的案例最相似的案例作为推荐案例，阅片医生可参照这些推荐案例进行阅片，减少了工作量，也防止由于疲劳等人为因素引起的诊断误差。

2、本发明首先将所需判断的案例进行标记，与形成的案例库一起输入本文所述的t-SNE计算框架，通过流形学习形成二维嵌入图，然后以当前案例为核心，以阈值A为半径，在二维嵌入图中找到小于A的圆内的其他案例。计算在小于A的圆内的其他案例与当前案例的欧式距离，对计算结果进行排序。最后选取前N个与当前案例欧式距离最小的案例作为推荐案例，推荐给医生。该提取方法具有推荐案例精度高、匹配速度快的特点。

附图说明

图1为基于流形学习的肺结节病例匹配辅助检测系统的结构框图；

图2为案例分类并存储构建模块的结构框图；

图3为案例匹配模块的筛选匹配的流程图；

图4为图3中第二次筛选匹配的算法框图；

图5为基于流形学习的肺结节病例匹配辅助检测系统的工作方法的流程示意图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

基于流形学习的肺结节病例匹配辅助检测系统，如图1所示，包括案例收集模块、案例分类并存储模块、案例匹配模块、案例判断模块及案例修正模块，所述案例收集模块、案例分类并存储模块、案例匹配模块、案例判断模块及案例修正模块依次环形连接；

案例收集模块，通过收集CT医学影像拍照系统拍摄得到的肺部CT图片及电子病历系统录入的患者信息，获取病例数据库，病例数据库包括患者信息及对应该患者的一张或多张肺部CT图片；所述患者信息包括患者的姓名、性别、年龄、家庭住址、患病时间，CT图片包括肺结节的医学症状、诊断结果及治疗措施；所述医学症状包括：良性、恶性、实性、毛玻璃状、边缘锐利、边缘毛糙、边缘分叶状、边缘光滑、强化明显、强化不明显、直径大于1.5cm、直径小于1.5cm；

案例分类并存储模块，用于对所述案例收集模块的病例数据库中的案例集进行分类：医生根据标注的医学症状将肺结节分为良性、恶性两类，并将分类好的案例集进行存储编号；

案例匹配模块，用于录入当前案例的信息，并匹配出当前案例的推荐案例；

案例判断模块，通过专业阅片医生对所述案例匹配模块得到的推荐案例进行再次判阅，得出最终诊断结果；

案例修正模块：如果专业阅片医生得到的最终诊断结果与所述案例判断模块所给的推荐案例差别很大，说明所述案例收集模块中此类案例很少或没有此类案例，则将医生的诊断信息返回所述案例收集模块。以备后续使用。

如图2所示，案例分类并存储模块包括依次连接的案例标注单元、案例提取单元、案例分类单元及案例库存储单元；

案例标注单元，用于对肺部CT图片中所包含的肺结节的位置信息以及肺结节的医学症状进行标注，肺结节的位置信息就是肺结节在CT图片中的位置；

案例提取单元，用于根据案例标注单元得到的肺结节的位置信息以及肺结节的医学症状，将肺结节从肺部CT图片中提取出来；

案例分类单元，用于将提取出的肺结节分类成良性肺结节和恶性肺结节，并整理各个肺结节对应的患者信息、所在的肺部CT图片、医学症状、诊断结果及治疗措施；

案例库存储单元，将各个肺结节以及对应的患者信息、所在的肺部CT图片、医学症状、诊断结果、治疗措施进行编号，编号过程中将具有相似医学症状的号码连在一起，形成案例库。

案例匹配模块包括依次连接的第一次筛选匹配单元、第二次筛选匹配单元、第三次筛选匹配单元；

第一次筛选匹配单元，用于将当前的案例图片输入到匹配方法中进行第一次筛选匹配，将当前的案例图片与所述案例分类并存储模块构建的案例库进行匹配，得到当前的案例图片与所述案例库分类并存储模块的可视化聚类图，通过流形学习得到的二维可视嵌入图；相似度高的两张图片会被放置得比较近；

第二次筛选匹配单元，用于进行第二次筛选匹配，以所述第一次筛选匹配单元得到的二维可视嵌入图为核心，通过筛选匹配找到小于阈值半径A的案例作为备选案例，阈值半径A的取值范围为2-10cm；

第三次筛选匹配单元，用于进行第三次筛选匹配，将当前案例与通过所述第二筛选匹配单元得到的备选案例进行匹配，计算每个备选案例与当前的案例图片的欧氏距离，并对计算结果从小到大进行排序，选出前N个对应的备选案例作为推荐案例，N的取值范围为10-20。

实施例2

实施例1所述的肺结节病例匹配辅助检测系统的工作方法，如图5所示，包括步骤如下：

(2)医生输入阈值半径A的值和推荐案例的个数N的值，所述案例匹配模块将当前案例与案例分类并存储模块构建的案例库进行筛选匹配给出N个推荐案例，当前案例即步骤(1)所述的当前拍摄的肺部CT图片；如图3所示，具体步骤包括：

b、进行第二次筛选匹配，以第一次筛选匹配得到得二维嵌入图为核心，通过筛选匹配找到小于阈值半径A的案例，作为备选案例；如图4所示，包括步骤如下：

(m-a)²+(n-b)²≤A² (Ⅰ)

(3)通过人机交互界面把推荐案例展现给医生；

使用KL衡量两个分布间的相似性，代价函数如式(Ⅴ)所示：

对代价函数求关于y_i的梯度如式(VI)所示：

Claims

1.基于流形学习的肺结节病例匹配辅助检测系统，其特征在于，包括案例收集模块、案例分类并存储模块、案例匹配模块、案例判断模块及案例修正模块，所述案例收集模块、案例分类并存储模块、案例匹配模块、案例判断模块及案例修正模块依次环形连接；

所述案例修正模块：如果专业阅片医生觉得推荐案例有与当前案例很吻合的案例，则从系统中显示该相似案例的诊断结果及治疗措施；如果专业阅片医生得到的最终诊断结果与所述案例判断模块所给的推荐案例差别很大，说明所述案例收集模块中此类案例很少或没有此类案例，则将得到的最终诊断结果返回所述案例收集模块。

2.根据权利要求1所述的基于流形学习的肺结节病例匹配辅助检测系统，其特征在于，所述案例分类并存储模块包括依次连接的案例标注单元、案例提取单元、案例分类单元及案例库存储单元；

3.根据权利要求2所述的基于流形学习的肺结节病例匹配辅助检测系统，其特征在于，所述案例匹配模块包括依次连接的第一次筛选匹配单元、第二次筛选匹配单元、第三次筛选匹配单元；

所述第一次筛选匹配单元，用于将当前的案例图片输入到匹配方法中进行第一次筛选匹配，将当前的案例图片与所述案例分类并存储模块构建的案例库进行匹配，得到当前的案例图片与所述案例库分类并存储模块的可视化聚类图，通过流形学习得到的二维可视嵌入图；

4.权利要求3所述的肺结节病例匹配辅助检测系统的工作方法，其特征在于，包括步骤如下：

(3)通过人机交互界面把推荐案例展现给医生；

5.根据权利要求4所述的肺结节病例匹配辅助检测系统的工作方法，其特征在于，所述步骤(2)，具体步骤包括：

a、进行第一次筛选匹配，所述第一次筛选匹配单元将标记好的当前案例与所述案例分类并存储模块构建的案例库一起输入t-SNE计算框架，得到当前案例与所述案例库分类并存储模块的二维可视化聚类图，其中相似度高的两张二维可视化聚类图放置得比较近；

6.根据权利要求5所述的肺结节病例匹配辅助检测系统的工作方法，其特征在于，所述步骤b，包括步骤如下：

(m-a)²+(n-b)²≤A² (Ⅰ)

7.根据权利要求5所述的肺结节病例匹配辅助检测系统的工作方法，其特征在于，通过流形学习t-SNE计算框架得到二维可视化聚类图，包括步骤如下：

设定高维空间中的两个案例x_i和x_j，x_i以条件概率p_j|i选择x_j作为它的邻近点；考虑以x_i为中心点的高斯分布，若x_j越靠近x_i，则p_j|i越大，反之则越小；p_j|i定义如式(Ⅱ)所示：

p_{j | i} = \frac{\exp (- \frac{| | x_{i} - x_{j} | |^{2}}{2 σ_{i}^{2}})}{Σ_{k &NotEqual; i} \exp (- \frac{| | x_{i} - x_{k} | |^{2}}{2 σ_{i}^{2}})} - - - (I I)