CN108629773B

CN108629773B - 建立训练识别心脏血管类型的卷积神经网络数据集的方法

Info

Publication number: CN108629773B
Application number: CN201810441538.4A
Authority: CN
Inventors: 徐波; 翟墨; 王筱斐; 叶丹
Original assignee: Beijing Hongyun Zhisheng Technology Co ltd; Fuwai Hospital of CAMS and PUMC
Current assignee: BEIJING HONGYUN ZHISHENG TECHNOLOGY Co.,Ltd.; Fuwai Hospital of CAMS and PUMC
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2021-06-18
Anticipated expiration: 2038-05-10
Also published as: CN108629773A

Abstract

本发明公开一种建立训练识别心脏血管类型的卷积神经网络数据集的方法，包括：获取脱敏处理后的心脏冠脉数据，将心脏冠脉数据以单张静态图片形式存储；在单张静态图片中使用对应颜色标注当前体位下的血管，形成粗标图；对粗标图中标注的信息进行像素级标注，形成精标图；识别精标图中血管的颜色，使图片由三通道图像变成单通道图像；将单通道图像存储为二值图；基于脱敏处理后的心脏冠脉数据、粗标图、精标图、单通道图像和二值图建立训练识别心脏血管类型的卷积神经网络数据集。本发明对数据作统一标准的处理，该数据集中的数据真实、多样，数据量大，数据类型丰富，格式标准、错误率较小，可以用于训练不同功能的神经网络，减少人工干预。

Description

建立训练识别心脏血管类型的卷积神经网络数据集的方法

技术领域

本发明涉及的是一种建立训练识别心脏血管类型的卷积神经网络数据集的方法及该数据集，属于通信技术领域。

背景技术

人工神经网络是人工智能领域提出的一种运算模型，它从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络，以此来解决人工智能领域(如图像识别)中的某些问题。卷积神经网络(Convolutional Neural Network,CNN)是人工神经网络的一种，是一种前馈神经网络，人工神经元可以响应周围单元，可以进行大型图像处理，即输入一张图片，卷积神经网络对此图片进行一定的变换，输出得到的结果。

网络的输出若尽可能的接近预测的值，就需要训练网络。训练网络就是卷积神经网络进行自身权重迭代调整的过程。我们给出一个输入和一个期望得到的输出，网络就会比较目前的输出值和期望值，再根据两者的差异情况来更新每一层的参数权重。训练和测试网络需要用到一个拥有大量数据的数据集。数据集应该主要包括原始图片和每张原始图片对应的标签。

现有技术中，大多数数据集均为用于通用图像分割训练的数据集，这些数据一般来自于日常生活的照片，具有比较高的可识别度。而需要被分割和识别血管的心脏冠状动脉的图像和日常生活的照片具有很大差异，是用数字减影血管造影技术得到的。数字减影血管造影的基本原理是将注入造影剂前后拍摄的两帧X线图像经数字化输入图像计算机，通过减影、增强和再成像过程来获得纯血管影像，同时实时地显现血管影。这种技术得到的图像分辨率较低、噪声很高。同时，心脏冠状动脉血管的类间差异较小、类内差异很大。这两者决定了造影图像和通用数据集中的图像有非常大的区别。用通用图像数据集训练得到的分割网络不能用于心脏冠脉血管的识别和分割。

发明内容

针对上述缺陷，本发明提供了一种建立训练识别心脏血管类型的卷积神经网络数据集的方法，该方法对数据作统一标准的处理，得到一个格式标准、错误率较小的数据集，该数据集中的数据真实、多样，数据量大，数据类型丰富，可以用于训练不同功能的神经网络，做到了尽量减少人工干预。

为达到上述目的，本发明通过以下技术方案来具体实现：

本发明提供了一种建立训练识别心脏血管类型的卷积神经网络数据集的方法，该方法包括：

获取脱敏处理后的心脏冠脉数据，将所述心脏冠脉数据以单张静态图片形式存储，每张所述单张静态图片绑定唯一序号；

按照专业医学的命名规则，在所述单张静态图片中使用对应颜色标注当前体位下的血管，存储形成粗标图；并将不同体位的粗标图分类存储；

对粗标图中标注的信息进行像素级标注，形成精标图；

识别精标图中血管的颜色，将每种颜色存储为对应的唯一标号，使图片由三通道图像变成单通道图像；将单通道图像二值化处理存储为二值图；基于脱敏处理后的心脏冠脉数据、粗标图、精标图、单通道图像和二值图建立训练识别心脏血管类型的卷积神经网络数据集。

进一步的，所述获取脱敏处理后的心脏冠脉数据的步骤包括：

获取包括健康的心脏冠脉数据和病变的心脏冠脉数据；

删除无关数据后形成只含有数字减影血管造影技术(Digital SubtractionAngiography，DSA)影像和拍摄体位信息的dicom文件的心脏冠脉数据。

进一步的，所述将所述心脏冠脉数据以单张静态图片形式存储，每张所述单张静态图片绑定唯一序号的具体步骤包括：

根据心脏冠脉数据中DSA影像的长短，提取并存储影像中预设数量的单张静态图片；

F(N)＝f(n)×g(n)×D(n)

其中，F(N)是一组单张静态图片的集合，N表示每张单张静态图片绑定唯一序号；f(n)是脱敏处理后的心脏冠脉数据的原始的DSA影像；g(n)是一个门函数，其中

]是向下取整符号，λ是一个可变参数，0≤λ≤0.5，l表示原始的DSA影像的图片帧数，n表示原始的DSA影像的图片帧序号，0≤n≤l；D(n)是冲激函数δ(n)组成的抽样函数，m是可变参数，控制静态图片提取的数量。

进一步的，所述体位包括但不限于头位(CRA)，足位(CAU)，左前斜(LAO)，左前斜足位(LAO_CAU),左前斜头位(LAO_CRA)，右前斜足位(RAO_CAU),右前斜头位(RAO_CRA)。

进一步的，所述对粗标图中标注的信息进行像素级标注，形成精标图，包括：

将选取的粗标图中标注的血管，用对应的颜色完全填充，同时单独标出导丝；对于粗标图中没有特别标注的血管，以及导丝附近与背景明显不同的阴影，统一标注为不关注血管或漏液，存储后形成精标图。

按不同体位等比例随机挑选粗标图或顺序选择粗标图。

进一步的，按不同体位等比例随机挑选粗标图的方法，包括：

在脱敏处理后的心脏冠脉数据中按不同体位等比例随机挑选静态图片，根据静态图片绑定唯一序号在粗标图中选取对应图片。

进一步的，所述将单通道图像二值化处理存储为二值图，包括：

将单通道图像中的血管和导丝显示白色，背景显示黑色，包括：

其中，G[i,j]为二值化图片中第i行第j列上像素的值，S[i,j]为单通道图片中第i行第j列上像素值；

二值化处理后的图片进行存储后形成二值图。

本发明的有益效果是：

通过本发明提供的技术方案，所处理的数据类型更为复杂，得到的数据也更为多样化。包括dicom(Digital Imaging and Communications in Medicine,即医学数字成像和通信，它定义了质量能满足临床需要的可用于数据交换的医学图像格式)格式的连续图片帧、数字减影血管造影下多体位心脏冠状动脉的图像、血管的黑白二值图标签、血管位置和名称的粗标注、血管位置和名称的像素级标注等，可以对数据作统一标准的处理，得到一个格式标准、错误率较小的数据集，该数据集中的数据真实、多样，数据量大，数据类型丰富，可以用于训练不同功能的神经网络，做到了尽量减少人工干预。

附图说明

图1所示为本发明提供的一种建立训练识别心脏血管类型的卷积神经网络数据集的方法的实施例一流程图。

图2所示为本发明提供的一种建立训练识别心脏血管类型的卷积神经网络数据集的方法的示意图之一。

图3所示为本发明提供的一种建立训练识别心脏血管类型的卷积神经网络数据集的方法的示意图之二。

图4所示为本发明提供的一种建立训练识别心脏血管类型的卷积神经网络数据集的方法的示意图之三。

具体实施方式

下面对本发明的技术方案进行具体阐述，需要指出的是，本发明的技术方案不限于实施例所述的实施方式，本领域的技术人员参考和借鉴本发明技术方案的内容，在本发明的基础上进行的改进和设计，应属于本发明的保护范围。

实施例一

本发明实施例一提供了一种建立训练识别心脏血管类型的卷积神经网络数据集的方法，该方法包括步骤S110-步骤S140：

在步骤S110中，获取脱敏处理后的心脏冠脉数据，将所述心脏冠脉数据以单张静态图片形式存储，每张所述单张静态图片绑定唯一序号。

其中，所述获取脱敏处理后的心脏冠脉数据的步骤包括：

获取包括健康的心脏冠脉数据和病变的心脏冠脉数据。心脏冠脉数据的原始数据均为与医院联系、经过病人同意之后取得的真实数据，包括健康的心脏冠脉数据和病变的心脏冠脉数据。提取的数据均以dicom格式的文件保存。dicom(Digital Imaging andCommunications in Medicine)即医学数字成像和通信，是医学图像和相关信息的国际标准。它定义了质量能满足临床需要的可用于数据交换的医学图像格式。本发明中的dicom文件中除了有DSA影像，还包含病人的姓名、出生年月、性别、拍摄时间、医院信息、拍摄体位(角度)的信息。

删除无关数据后形成只含有DSA影像和拍摄体位信息的dicom文件的心脏冠脉数据。

为了保护病人的隐私，同时减小数据存储量，将与标注无关的信息剔除。使用的脱敏系统具有dicom文件接口，dicom文件读入内存后是一个结构类型的数据，系统自动将脱敏系统自动将姓名、出生年月、性别、拍摄时间和医院信息的词条删除，形成一个新的只含有DSA影像和拍摄体位信息的dicom文件。

dicom文件中存储的DSA影像是一组连续图片帧，将其处理成单张静态图片的形式。这一步可以人工提取也可以自动提取，提取后图片保存的统一命名格式为：【序号_体位_src.png】。其中序号是在数据库中唯一的标号，根据图片提取的先后顺序从小到大排列；

自动提取的方法根据心脏冠脉数据中DSA影像的长短，提取并存储影像中预设数量的单张静态图片；如选取视频的中间段的一定数量的图像，原理：

F(N)＝f(n)×g(n)×D(n)

获得的图片如图2所示。

在步骤S120中，按照专业医学的命名规则，在所述单张静态图片中使用对应颜色标注当前体位下的血管，存储形成粗标图；并将不同体位的粗标图分类存储。

按照专业医学的命名规则，在原始静态帧图片上进行简单的描画，标出当前体位下能观察到的主要血管及其走向。其中每个颜色和血管都是一一对应的，即一个颜色在任何体位下都只代表一种血管，每种血管只能由一种颜色表示，如表1所示。

表1

血管	颜色(RGB值)
		左主干	中绿(0,159,48)
前降支(近)	土黄(177,135,60)
		第一对角支	深桃红(177,63,96)
第一对角支(Ad)	浅桃红(255,39,108)
		前降支(中)	橙红(255,111,72)
第二对角支	藏蓝(0,15,120)
		第二对角支(Ad)	若草(177,246,132)
前降支(远)	墨绿(0,87,84)
		中间支	粉绿(0,198,156)
回旋支(近)	米黄(255,222,144)
		回旋支(远)	普鲁士蓝(0,126,192)
第二钝缘支	粉(255,150,180)
		第一钝缘支	灰(177,174,168)
左室后侧支	紫(177,102,204)
		后降支(回)	品红(255,78,216)
右主干(近)	红(255,0,0)
		右主干(中)	浅绿(0,231,12)
右主干(远)	黄绿(177,207,24)
		后降支(右)	橙黄(255,183,36)
后侧支	群青蓝(0,54,228)

标注后图片保存的统一命名格式为【序号_体位_mask.png】。其中序号和体位与原图一致。标注结果如图3所示(实际为没有提示框的彩色图)。

根据每张静态图片所携带的体位信息(以文件名的形式)，将不同体位的数据分离开来：

使用机器识别每张静态图片的文件名中所包含的体位信息，将数据分为头位(CRA)，足位(CAU)，左前斜+足位(LAO_CAU),左前斜+头位(LAO_CRA)，右前斜+足位(RAO_CAU),右前斜+头位(RAO_CRA)，不同体位的图片分别存放在不同的文件夹内。

左前斜和右前斜的图片还分为左冠和右冠。使用机器检测图片内的像素颜色信息，如果图片中包含(255,0,0)，(0,231,12)，(177,207,24)中任一一个颜色的像素点，就归类为右冠，将文件名改为【序号_体位_R_src.png】和【序号_体位_R_mask.png】，剩下的图片归类为左冠，文件名改为【序号_体位_L_mask.png】和【序号_体位_L_src.png】。

在步骤S130中，对粗标图中标注的信息进行像素级标注，形成精标图。

按不同体位等比例随机挑选粗标图或顺序选择粗标图。

其中，按不同体位等比例随机挑选粗标图的方法，包括：

在脱敏处理后的心脏冠脉数据(文件名中带有src的数据)中按不同体位等比例随机挑选静态图片，根据静态图片绑定唯一序号在粗标图中选取对应图片(文件名中带有mask的数据)。

由于相邻编号的图片可能比较相似，顺序选择粗标图工作量大，极大的浪费了时间和精力，可选择按不同体位等比例随机挑选粗标图的方法，保证血管多样性的同时，减少了挑选时间。

根据粗标图，对粗标图按照一定的规则进行像素级标注。即将粗标图中描画过的血管，用对应的颜色完全填充血管。同时单独标出导丝。对于粗标注中没有特别标注的血管，以及导丝附近与背景明显不同的阴影，统一标注为“不关注血管/漏液”。图片保存为【序号_体位_(R/L/无)_label.png】。血管和对应颜色如表2所示：

表2

血管	医生粗标颜色(RGB值)	人工精标颜色(RGB值)
			左主干	中绿(0,159,48)	(255,0,0)
前降支(近)	土黄(177,135,60)	(0,255,0)
			第一对角支	深桃红(177,63,96)	(0,0,255)
第一对角支(Ad)	浅桃红(255,39,108)	(0,128,255)
			前降支(中)	橙红(255,111,72)	(255,0,255)
第二对角支	藏蓝(0,15,120)	(0,255,255)
			第二对角支(Ad)	若草(177,246,132)	(128,0,255)
前降支(远)	墨绿(0,87,84)	(255,255,0)
			中间支	粉绿(0,198,156)	(128,0,0)
回旋支(近)	米黄(255,222,144)	(0,0,128)
			回旋支(远)	普鲁士蓝(0,126,192)	(0,128,0)
第二钝缘支	粉(255,150,180)	(128,128,0)
			第一钝缘支	灰(177,174,168)	(128,0,128)
左室后侧支	紫(177,102,204)	(0,128,128)
			后降支(回)	品红(255,78,216)	(128,255,0)
右主干(近)	红(255,0,0)	(255,128,0)
			右主干(中)	浅绿(0,231,12)	(255,0,128)
右主干(远)	黄绿(177,207,24)	(0,255,128)
			后降支(右)	橙黄(255,183,36)	(128,128,255)
后侧支	群青蓝(0,54,228)	(128,255,128)
			不关注血管		(150,150,150)
背景		(0,0,0)
			导管		(255,255,255)

像素级标注后的精标图，如图4所示。其中，1为右主干(近)，RGB值为(255,0,0)

2为右主干(中)，RGB值为(255,0,128)

3为右主干(远)，RGB值为(0,255,128)

4为后降支(右)，RGB值为(128,128,255)

5为后侧支，RGB值为(128,255,128)

6为导丝，RGB值为(255,255,255)

椭圆圈出的部分为不关注血管/漏液，RGB值为(150,150,150)

所有黑色部分为背景，RGB值为(0,0,0)。

在步骤S140中，识别精标图中血管的颜色，将每种颜色存储为对应的唯一标号，使图片由三通道图像变成单通道图像；将单通道图像二值化处理存储为二值图，基于脱敏处理后的心脏冠脉数据、粗标图、精标图、单通道图像和二值图建立训练识别心脏血管类型的卷积神经网络数据集。

步骤S140之前的标注数据(mask、label)都是有颜色的，因此都是三通道图像，在这一步中使用机器识别每个像素点的RGB颜色信息，将每种颜色对应成一个数字标号存储下来，使图片变成一张单通道图像。文件名为【序号_体位_(R/L/无)_single.png】。如表3所示：

表3

血管	医生粗标颜色(RGB值)	人工精标颜色(RGB值)	单通道标号
				左主干	中绿(0,159,48)	(255,0,0)	1
前降支(近)	土黄(177,135,60)	(0,255,0)	2
				第一对角支	深桃红(177,63,96)	(0,0,255)	3
第一对角支(Ad)	浅桃红(255,39,108)	(0,128,255)	4
				前降支(中)	橙红(255,111,72)	(255,0,255)	5
第二对角支	藏蓝(0,15,120)	(0,255,255)	6
				第二对角支(Ad)	若草(177,246,132)	(128,0,255)	7
前降支(远)	墨绿(0,87,84)	(255,255,0)	8
				中间支	粉绿(0,198,156)	(128,0,0)	9
回旋支(近)	米黄(255,222,144)	(0,0,128)	10
				回旋支(远)	普鲁士蓝(0,126,192)	(0,128,0)	11
第二钝缘支	粉(255,150,180)	(128,128,0)	12
				第一钝缘支	灰(177,174,168)	(128,0,128)	13
左室后侧支	紫(177,102,204)	(0,128,128)	14
				后降支(回)	品红(255,78,216)	(128,255,0)	15
右主干(近)	红(255,0,0)	(255,128,0)	16
				右主干(中)	浅绿(0,231,12)	(255,0,128)	17
右主干(远)	黄绿(177,207,24)	(0,255,128)	18
				后降支(右)	橙黄(255,183,36)	(128,128,255)	19
后侧支	群青蓝(0,54,228)	(128,255,128)	20
				不关注血管		(150,150,150)	21
背景		(0,0,0)	0
				导管		(255,255,255)	255

将单通道图像二值化处理存储为二值图包括：

二值化处理后的图片进行存储后形成二值图，存储的文件名为【序号_体位_(R/L/无)_grey.png】，包括使用数字减影血管造影技术得到的真实人体在不同体位下心脏冠脉的原始视频、原始图片、粗标注图片、精标注图片以及二值化图片等等，可以用来作为后续病变检测的训练数据。

本发明的有益效果是：

本发明提供的技术方案，所处理的数据类型更为复杂，得到的数据也更为多样化。包括dicom(Digital Imaging and Communications in Medicine,即医学数字成像和通信，它定义了质量能满足临床需要的可用于数据交换的医学图像格式)格式的连续图片帧、数字减影血管造影下多体位心脏冠状动脉的图像、血管的黑白二值图标签、血管位置和名称的粗标注、血管位置和名称的像素级标注等，可以对数据作统一标准的处理，得到一个格式标准、错误率较小的数据集，该数据集中的数据真实、多样，数据量大，数据类型丰富，可以用于训练不同功能的神经网络，做到了尽量减少人工干预。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于上述实施例，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。