CN117557878A - 一种基于脊椎ct图像的人体脊椎数据集 - Google Patents
一种基于脊椎ct图像的人体脊椎数据集 Download PDFInfo
- Publication number
- CN117557878A CN117557878A CN202311553438.8A CN202311553438A CN117557878A CN 117557878 A CN117557878 A CN 117557878A CN 202311553438 A CN202311553438 A CN 202311553438A CN 117557878 A CN117557878 A CN 117557878A
- Authority
- CN
- China
- Prior art keywords
- data
- spine
- data set
- model
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 241000282414 Homo sapiens Species 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000013136 deep learning model Methods 0.000 claims abstract description 17
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000012795 verification Methods 0.000 claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims description 29
- 238000002591 computed tomography Methods 0.000 claims description 27
- 238000000034 method Methods 0.000 claims description 22
- 238000002372 labelling Methods 0.000 claims description 19
- 238000012937 correction Methods 0.000 claims description 13
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000007689 inspection Methods 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 7
- 238000012545 processing Methods 0.000 abstract description 7
- 238000004458 analytical method Methods 0.000 abstract description 6
- 238000010191 image analysis Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 238000003709 image segmentation Methods 0.000 description 5
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 230000003902 lesion Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008676 import Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 210000001519 tissue Anatomy 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 210000002307 prostate Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10081—Computed x-ray tomography [CT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30008—Bone
- G06T2207/30012—Spine; Backbone
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及医学图像分析技术领域,且公开了一种基于脊椎CT图像的人体脊椎数据集,包括三个子目录,分别为训练数据、验证数据和测试数据。该基于脊椎CT图像的人体脊椎数据集,充分考虑到了现代医疗临床的实际需求,设计了一套完备、高价值且易于管理与扩展的数据集,数据集采用统一的文件格式和命名约定,简化了数据的导入、导出和处理流程,同时每个样本都伴随着详细的元数据,如采集条件、患者信息和图像参数信息,有助于数据的检索和分析,此数据集融合了多模态的2D信息与3D模型,为各种深度学习模型提供了丰富的输入数据来源,确保了模型训练的全面性和适应性,使其能够满足广大的临床应用需求。
Description
技术领域
本发明涉及医学图像分析技术领域,具体为一种基于脊椎CT图像的人体脊椎数据集。
背景技术
随着医学技术的不断进步,CT(计算机断层扫描)图像已经成为现代临床医学中不可或缺的诊断和治疗工具。它为医生提供了清晰、高分辨率的内部结构图像,从而为疾病的诊断和治疗提供了有力的支持。传统的图像分割手段,如阈值分割、区域生长和边缘检测等,虽然在某些简单应用中表现良好,但在复杂的结构如脊椎的分割中,它们往往受限于噪声、低对比度和模糊边界,导致分割效果不佳。不仅如此,传统技术对于每个个体的生理结构差异和不同设备、参数产生的CT图像差异并不具备足够的鲁棒性。
近年来,深度学习技术的兴起为医学图像分割带来了新的希望。流行的深度学习模型,例如,U-Net在ISBI 2012的电子显微镜分割挑战中展现了其卓越的性能,而V-Net则专为处理3D体积数据,如描绘前列腺的MRI体积而设计。深度学习模型已经在多个医学图像处理任务中取得了卓越的成果,它们能够自动学习图像的特征并进行高精度的分割。但至今却尚未存在专门用于对脊椎进行分割的神经网络模型。
与此同时,深度学习的成功很大程度上依赖于高品质的数据集。优质的数据集不仅需要数量众多,还需要具有多样性和代表性,以确保模型的泛化能力。但获得这样的数据集十分困难,其原因包括以下几点:
1、专家标注需求:医学图像的标注需要具备专业知识的医生或放射科技师来完成,这些标注不仅需要准确地识别目标区域,还需要对正常和异常结构有深入的了解,这意味着,与其他类型的数据集相比,医学图像数据集的标注成本更高,时间消耗也更长。
2、设备和协议的多样性:不同的医疗设备和扫描协议可能会导致图像的质量和外观存在差异,这意味着,为了获得一个具有代表性的数据集,研究者需要从多个来源和设备中收集数据。
3、疾病多样性:为了训练一个具有强大泛化能力的模型,数据集需要涵盖各种各样的病例和病变类型,这要求研究者收集到的数据不仅数量要多,而且种类要全。
4、数据不平衡问题:在某些情况下,某些类型的病变可能非常罕见,这使得收集到平衡的数据集变得更加困难,数据不平衡可能会导致模型在训练时偏向于更常见的类别。
5、图像质量问题:某些医学图像可能受到噪声、运动模糊或其他伪影的影响,这些因素都可能降低图像的质量,从而影响模型的训练效果。
为此,我们提出一种基于脊椎CT图像的人体脊椎数据集,用以解决上述技术问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于脊椎CT图像的人体脊椎数据集,具备方便管理和易于扩展等优点,解决了上述技术问题。
(二)技术方案
为实现上述方便管理和易于扩展的目的,本发明提供如下技术方案:一种基于脊椎CT图像的人体脊椎数据集,包括三个子目录,分别为训练数据、验证数据和测试数据;
所述训练数据用于训练模型,模型学习识别特征并进行预测或分类;
所述验证数据用于模型的调整优化和验证;
所述测试数据用于评估模型在真实场景中的性能。
优选的,所述训练数据占据数据集的比例为60%-80%,所述验证数据占据数据集的比例为10%-20%,所述测试数据占据数据集的比例为10%-20%。
优选的,每个所述数据赋予唯一的编号,所有所述数据的编号组成数字列表并进行随机打乱,前70%编号所代表的数据作为训练数据,70%-90%的数据作为验证数据,最后10%的数据作为测试数据。
优选的,每个所述子目录下,每个患者的数据均存储于独立的子目录中,并将其命名为sub-spineXXX,其中,XXX为患者的编号。
优选的,每个所述患者的子目录包括以下文件:
sub-spineXXX_ct.nii.gz:此为CT图像系列文件,直接采样于临床患者的CT扫描图像;
sub-spineXXX_ms_2D.nii.gz:此为脊椎的2D图像的分割掩码文件,用于表示图像中特定区域的位置;
sub-spineXXX_ms_3D.nii.gz:此为脊椎的3D模型的分割掩码文件,用于表示图像中特定区域的位置;
sub-spineXXX_ctd_2D.json:此为2D图像空间中的质心坐标和对应的标签,用于为分割掩码中的每个脊椎部分提供一个中心参考点,并为分割掩码中的每个标注提供标签;
sub-spineXXX_ctd_3D.json:此为3D模型的空间中的质心坐标和对应的标签;
sub-spineXXX_snp.png:此为注释CT数据的2D重构预览文件,用于展示临床中所采集的CT图像,对应的分割掩码以及标签;
sub-spineXXX_patient.json:此为患者数据文件,包括年龄、性别、扫描设备和扫描参数。
优选的,所述数据集获得方法步骤如下:
步骤一、初始数据集构建;
步骤二、预训练深度学习模型;
步骤三、模型标注修正;
步骤四、模型微调;
步骤五、循环优化。
优选的,所述步骤一中采用人工为数据结构进行标注。
优选的,所述步骤二中在数据集上训练一个神经网络模型,并将这个预训练的模型神经网络用于任务的起点,对收集的新CT影像进行自动标注,并进行检查修正,修正后的数据被加入到原始数据集中,作为扩展后的数据集。
优选的,所述步骤四使用扩展后的数据集对深度学习模型进行微调,用于提高标注精度。
优选的,所述步骤五中重复步骤三和步骤四,每次使用扩展后的数据集对影像进行标注,并持续对标注后的影像进行检查修正,用于提高标注精度以及缩短修正次数和修正时间。
与现有技术相比,本发明提供了一种基于脊椎CT图像的人体脊椎数据集,具备以下有益效果:
本发明充分考虑到了现代医疗临床的实际需求,设计了一套完备、高价值且易于管理与扩展的数据集,数据集采用统一的文件格式和命名约定,简化了数据的导入、导出和处理流程,同时每个样本都伴随着详细的元数据,如采集条件、患者信息(匿名化)和图像参数信息,有助于数据的检索和分析,此数据集融合了多模态的2D信息与3D模型,为各种深度学习模型提供了丰富的输入数据来源,确保了模型训练的全面性和适应性,使其能够满足广大的临床应用需求。
附图说明
图1为本发明数据集结构示意图;
图2为本发明数据集获取方法步骤流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的主要目的是为了解决脊椎图像分割的问题。首先在临床手术中创建一个高品质的脊椎CT图像数据集,以满足深度学习模型训练的需求,这个数据集不仅会包含大量的脊椎图像,还会涵盖不同的病例和病变类型,确保其多样性和代表性,为医生提供更为精确的脊椎结构信息,助力临床诊断和治疗。
请参阅图1-2,在医学图像分析中,为了准确地识别和定位解剖结构或病变,通常需要使用特定的技术和方法,其中,分割掩码和质心坐标是两个关键的概念,为了满足这一需求,构建了一个专门的数据集,其结构如下:
数据集包括三个主要子目录:
1、训练数据,该数据集主要用于训练模型,通过这部分数据,模型学习识别特征并进行预测或分类,通常,训练集占据整个数据集的大部分,比例在60%-80%。
2、验证数据,该数据集用于模型的调整优化和验证,在模型训练过程中,验证集用于评估模型在未见过的数据上的性能,并帮助调整模型的参数(如学习率、网络结构等),通常占据整个数据集的一小部分,比例在10%-20%,这部分数据集可防止模型过拟合,确保模型在新数据上具有良好的泛化能力。通过观察模型在验证集上的性能,可以决定是否继续训练、更改学习率或进行其他调整。
3、测试数据,该数据集在模型训练和验证完成后,测试集用于评估模型在真实场景中的性能,通常占据整个数据集的余下部分,比例在10%-20%,该数据集能够提供一个公正的评估标准,以确定模型在未见过的数据上的真实性能,测试集应该只在模型完全训练和调整优化后使用一次,以避免在模型开发过程中对其产生偏见。
每一个数据按照上述所提到的比例随机地被分配在唯一一个子目录中,每个数据被赋予唯一的编号,所有数据的编号组成数字列表并进行随机打乱,按前70%编号所代表的数据被用作训练数据,70%-90%的数据被用作验证数据,最后10%的数据被用作测试数据。
在每个子目录下,每个患者的数据都被存储在一个独立的子目录中,例如“sub-spine001”、“sub-spine002”等。每个患者的目录下包含以下文件:
1.“sub-spineXXX_ct.nii.gz”:这是CT图像系列,其中序列“XXX”代表患者的ID。在医学图像分析中,真实性和代表性是评估数据集质量的两个关键因素,该CT图像系列直接采样自临床中真实患者的CT扫描图像,这提供了几个独特的优势:
首先,与虚拟或模拟的数据集相比,真实患者的CT图像更能反映真实世界中的各种变化和复杂性,这包括但不限于患者的解剖差异、疾病的多样性、扫描设备的差异以及扫描参数的变化,这种多样性确保了模型在训练时能够接触到各种可能的场景,从而提高其泛化能力;
其次,真实的CT图像包含了真实的噪声、伪影和其他可能的扫描伪像,这些因素在虚拟数据集中可能会被忽略或简化,但在真实的临床环境中,它们是不可避免的,训练模型处理这些真实的挑战可以确保其在实际应用中的鲁棒性,此外,由于这些图像来自真实的临床环境,它们更有可能反映当前医疗实践中的最新技术和方法,这意味着,与该数据集训练出的模型将更适应当前的医疗环境,而不是过时或不相关的技术。
2.“sub-spineXXX_ms_2D.nii.gz”:这是脊椎的2D图像的分割掩码。分割掩码(Segmentation Mask)是图像处理和计算机视觉中的一个术语,它用于表示图像中特定区域的位置。通常情况下,这些特定区域是我们想要进一步分析或者处理的目标对象。分割掩码可以是二值的(binary),也可以是多值的(multi-valued)。分割掩码使得计算机能够识别和处理图像中的特定区域,例如在医学成像中识别肿瘤,或者在自动驾驶车辆中识别道路上的障碍物。在深度学习中,使用这些掩码来训练模型进行图像分割,这是一个将图像中的每个像素分类到不同类别的过程。在本发明中,分割掩码是一个与原始图像大小相同的二维数组,用于明确表示图像中的目标区域。在这个掩码中,目标区域的像素值被设置为1(或其他非零值),而其他区域的像素值为0。这种方法使得从原始图像中提取或突出显示特定结构变得简单直接。
3.“sub-spineXXX_ms_3D.nii.gz”:这是脊椎的3D模型的分割掩码。
4.“sub-spineXXX_ctd_2D.json”:这是2D图像空间中的质心坐标和对应的标签。质心坐标的主要作用是为分割掩码中的每个脊椎部分提供一个中心参考点,这些质心坐标标识了每个脊椎部分的中心位置,从而为分割掩码中的每个标注提供了一个明确的标签,例如,质心坐标可以帮助确定分割掩码中的哪一部分对应于C1、C2等特定的脊椎骨,这种方式确保了每个脊椎部分的准确标注,并为后续的分析和研究提供了有价值的参考信息。
5.“sub-spineXXX_ctd_3D.json”:这是3D模型的空间中的质心坐标和对应的标签。
6.“sub-spineXXX_snp.png`:这是注释CT数据的2D重构预览,它展示了临床中所采集的CT图像,对应的分割掩码以及标签。
7.“sub-spineXXX_patient.json”:为每个患者的数据提供了一个额外的JSON文件,其中包含与该患者相关的元数据,如年龄、性别、扫描设备、扫描参数等。
此数据集的设计旨在为深度学习模型提供一个坚实的基础,从而实现高精度的脊椎分类,包括以下几个优点:
一、易于管理
1.标准化的格式:数据集采用了统一的文件格式和命名约定,这样可以简化数据的导入、导出和处理流程。
2.良好的组织结构:数据被组织在清晰定义的目录和子目录中,每个组织或组织部分的数据都被适当地分类。
3.元数据的完整性:每个样本都伴随着详细的元数据,如采集条件、患者信息(匿名化)、图像参数等,这有助于数据的检索和分析。
二、易于扩展
1.模块化设计:数据集的设计允许研究人员轻松添加新的组织类型或新的图像模态,而不需要对整个系统进行重大修改。
2.可扩展的标注框架:标注工具可能支持新标签的添加,以便于新组织类型的分割任务。
3.兼容性:数据集与主流的医学成像软件和分析工具兼容,确保新数据可以无缝集成。
三、包含多模态的2D图像信息和3D模型信息
1.多模态数据:数据集包含来自CT、MRI、X-ray等不同成像技术的图像,为研究提供了丰富的视角和信息。
2.2D和3D数据的结合:除了2D切片图像,数据集还包含3D重建模型,这对于理解组织结构和进行精确分割至关重要。
3.数据融合:能够融合2D图像和3D模型的信息,以提高分割任务的准确性。
四、扩展和详细描述
1.研究适用性:这种数据集的设计使其适用于各种医学研究,包括但不限于自动疾病诊断、手术规划和治疗效果评估。
2.人工智能和机器学习:多模态和3D数据为使用人工智能和机器学习技术,尤其是深度学习进行图像分析提供了理想的基础。
3.教育和培训:这样的数据集也可以用于教育和培训目的,帮助医学生和专业人员学习如何解读复杂的医学图像。
4.跨学科合作:数据集的这些特点鼓励了跨学科的合作,包括放射学、计算机科学、生物统计学和临床医学等领域的专家。
为了解决专业医疗影像分割标注的人力消耗问题,我们提出了一种称为“迭代标注”的策略,旨在逐步减少对专业标注人员的依赖,最终达到深度学习模型的自我学习和自我标注,并获得一个优质的数据集,以下为具体步骤:
步骤一、初始数据集构建:首先,构建一个初始的医疗影像数据集,按照既定的数据结构进行标注,尽管此步骤需要大量人工标注,但由于数据集规模有限,它是一次性的投入。
步骤二、预训练深度学习模型:模型预训练是深度学习领域的一个常用技术,它涉及在一个大型且通常是通用的数据集上训练一个神经网络模型,然后将这个预训练的模型用作特定任务的起点,这个过程的目的是利用预训练模型已经学习到的知识,从而加快并改进在特定数据集上的训练过程,特别是当这个特定数据集相对较小或者特定任务需要的是更加细化的知识时。在深度学习中,数据集是至关重要的,因为模型的训练完全依赖于数据,数据集通常包含了大量的输入数据和对应的输出或标签,这些数据用于指导模型的学习过程,深度学习模型通过从数据集中学习模式和特征来提高其对新输入的预测或分类的准确性,使用上述初始数据集,预训练一个深度学习模型,为后续步骤做好准备。
步骤三、模型标注与医生校正:使用预训练的模型对日常收集的新CT影像进行自动标注,专业医生对模型的标注进行检查并进行必要的校正或纠错。修正后的数据被加入到原始数据集中,使其不断扩展。
步骤四、模型微调:当数据集达到一定规模后,使用扩展后的数据集对深度学习模型进行微调,从而提高其标注精度,模型的微调(Fine-tuning)是深度学习中的一个过程,它通常发生在预训练模型的基础上,在这个过程中,预训练模型被进一步训练,以适应一个特定的任务或数据集,微调的目的是利用预训练模型在大规模数据集上学到的通用知识,并将其应用于更具体的问题或较小的数据集上,微调的关键优势在于它允许模型快速适应新任务,因为模型不需要从头开始学习;它已经具备了一定程度的通用知识,这使得微调特别适用于数据较少的情况,因为预训练模型可以提供一个很好的知识基础,减少了对大量标记数据的需求,在实际应用中,微调可以是一个全面的过程,涉及所有模型参数的更新,也可以是部分微调,只更新模型的一部分,比如最后几层,这取决于任务的复杂性、可用数据的数量以及预训练模型与新任务之间的相关性。
步骤五、循环优化:重复步骤三和步骤四,每次都使用更新、更精确的模型来进行影像标注,并通过医生的校正持续优化模型,随着时间的推移,由于数据集的不断增长和模型的持续优化,医生的校正工作量将会逐渐减少。
经过多次迭代后,模型的标注精度将大大提高,医生的介入将逐渐减少,最终实现深度学习模型的完全自我学习和自我标注,从而大大节省医疗资源。这种迭代标注策略充分结合了人类的专业知识和机器的计算能力,以实现医疗影像标注的自动化和精准化,最终,我们能够以较低的人力代价获得一个优质的数据集。
本发明充分考虑到了现代医疗临床的实际需求,设计了一套完备、高价值且易于管理与扩展的数据集,数据集采用统一的文件格式和命名约定,简化了数据的导入、导出和处理流程,同时每个样本都伴随着详细的元数据,如采集条件、患者信息(匿名化)和图像参数信息,有助于数据的检索和分析,此数据集融合了多模态的2D信息与3D模型,为各种深度学习模型提供了丰富的输入数据来源,确保了模型训练的全面性和适应性,使其能够满足广大的临床应用需求。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种基于脊椎CT图像的人体脊椎数据集,其特征在于:包括三个子目录,分别为训练数据、验证数据和测试数据;
所述训练数据用于训练模型,模型学习识别特征并进行预测或分类;
所述验证数据用于模型的调整优化和验证;
所述测试数据用于评估模型在真实场景中的性能。
2.根据权利要求1所述的一种基于脊椎CT图像的人体脊椎数据集,其特征在于:所述训练数据占据数据集的比例为60%-80%,所述验证数据占据数据集的比例为10%-20%,所述测试数据占据数据集的比例为10%-20%。
3.根据权利要求2所述的一种基于脊椎CT图像的人体脊椎数据集,其特征在于:每个所述数据赋予唯一的编号,所有所述数据的编号组成数字列表并进行随机打乱,前70%编号所代表的数据作为训练数据,70%-90%的数据作为验证数据,最后10%的数据作为测试数据。
4.根据权利要求3所述的一种基于脊椎CT图像的人体脊椎数据集,其特征在于:每个所述子目录下,每个患者的数据均存储于独立的子目录中,并将其命名为sub-spineXXX,其中,XXX为患者的编号。
5.根据权利要求4所述的一种基于脊椎CT图像的人体脊椎数据集,其特征在于,每个所述患者的子目录包括以下文件:
sub-spineXXX_ct.nii.gz:此为CT图像系列文件,直接采样于临床患者的CT扫描图像;
sub-spineXXX_ms_2D.nii.gz:此为脊椎的2D图像的分割掩码文件,用于表示图像中特定区域的位置;
sub-spineXXX_ms_3D.nii.gz:此为脊椎的3D模型的分割掩码文件,用于表示图像中特定区域的位置;
sub-spineXXX_ctd_2D.json:此为2D图像空间中的质心坐标和对应的标签,用于为分割掩码中的每个脊椎部分提供一个中心参考点,并为分割掩码中的每个标注提供标签;
sub-spineXXX_ctd_3D.json:此为3D模型的空间中的质心坐标和对应的标签;
sub-spineXXX_snp.png:此为注释CT数据的2D重构预览文件,用于展示临床中所采集的CT图像,对应的分割掩码以及标签;
sub-spineXXX_patient.json:此为患者数据文件,包括年龄、性别、扫描设备和扫描参数。
6.根据权利要求5所述的一种基于脊椎CT图像的人体脊椎数据集,其特征在于,所述数据集获得方法步骤如下:
步骤一、初始数据集构建;
步骤二、预训练深度学习模型;
步骤三、模型标注修正;
步骤四、模型微调;
步骤五、循环优化。
7.根据权利要求6所述的一种基于脊椎CT图像的人体脊椎数据集,其特征在于:所述步骤一中采用人工为数据结构进行标注。
8.根据权利要求7所述的一种基于脊椎CT图像的人体脊椎数据集,其特征在于:所述步骤二中在数据集上训练一个神经网络模型,并将这个预训练的模型神经网络用于任务的起点,对收集的新CT影像进行自动标注,并进行检查修正,修正后的数据被加入到原始数据集中,作为扩展后的数据集。
9.根据权利要求8所述的一种基于脊椎CT图像的人体脊椎数据集,其特征在于:所述步骤四使用扩展后的数据集对深度学习模型进行微调,用于提高标注精度。
10.根据权利要求9所述的一种基于脊椎CT图像的人体脊椎数据集,其特征在于:所述步骤五中重复步骤三和步骤四,每次使用扩展后的数据集对影像进行标注,并持续对标注后的影像进行检查修正,用于提高标注精度以及缩短修正次数和修正时间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311553438.8A CN117557878A (zh) | 2023-11-20 | 2023-11-20 | 一种基于脊椎ct图像的人体脊椎数据集 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311553438.8A CN117557878A (zh) | 2023-11-20 | 2023-11-20 | 一种基于脊椎ct图像的人体脊椎数据集 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117557878A true CN117557878A (zh) | 2024-02-13 |
Family
ID=89818138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311553438.8A Pending CN117557878A (zh) | 2023-11-20 | 2023-11-20 | 一种基于脊椎ct图像的人体脊椎数据集 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117557878A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223352A (zh) * | 2019-06-14 | 2019-09-10 | 浙江明峰智能医疗科技有限公司 | 一种基于深度学习的医学图像扫描自动定位方法 |
CN110866921A (zh) * | 2019-10-17 | 2020-03-06 | 上海交通大学 | 基于自训练和切片传播的弱监督脊椎椎体分割方法和系统 |
US20210248749A1 (en) * | 2018-06-07 | 2021-08-12 | Agfa Healthcare Nv | Sequential segmentation of anatomical structures in 3d scans |
CN115485720A (zh) * | 2020-05-04 | 2022-12-16 | 美敦力导航股份有限公司 | 用于检测解剖特征的系统、方法和装置 |
CN116958067A (zh) * | 2023-07-03 | 2023-10-27 | 北京天智航医疗科技股份有限公司 | 一种骨结构目标减压区域确定方法、骨结构减压路径自动规划方法、电子设备及存储介质 |
-
2023
- 2023-11-20 CN CN202311553438.8A patent/CN117557878A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210248749A1 (en) * | 2018-06-07 | 2021-08-12 | Agfa Healthcare Nv | Sequential segmentation of anatomical structures in 3d scans |
CN110223352A (zh) * | 2019-06-14 | 2019-09-10 | 浙江明峰智能医疗科技有限公司 | 一种基于深度学习的医学图像扫描自动定位方法 |
CN110866921A (zh) * | 2019-10-17 | 2020-03-06 | 上海交通大学 | 基于自训练和切片传播的弱监督脊椎椎体分割方法和系统 |
CN115485720A (zh) * | 2020-05-04 | 2022-12-16 | 美敦力导航股份有限公司 | 用于检测解剖特征的系统、方法和装置 |
CN116958067A (zh) * | 2023-07-03 | 2023-10-27 | 北京天智航医疗科技股份有限公司 | 一种骨结构目标减压区域确定方法、骨结构减压路径自动规划方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106056595B (zh) | 基于深度卷积神经网络自动识别甲状腺结节良恶性的辅助诊断系统 | |
CN112102266B (zh) | 基于注意力机制的脑梗死医学影像分类模型的训练方法 | |
CN112101451B (zh) | 一种基于生成对抗网络筛选图像块的乳腺癌组织病理类型分类方法 | |
CN109389584A (zh) | 基于cnn的多尺度鼻咽肿瘤分割方法 | |
CN109800805A (zh) | 基于人工智能的图像处理系统以及计算机设备 | |
CN112102237A (zh) | 基于半监督学习的脑部肿瘤识别模型的训练方法及装置 | |
WO2021114130A1 (zh) | 一种无监督自适应乳腺病变分割方法 | |
Hossain et al. | Brain Tumor Auto-Segmentation on Multimodal Imaging Modalities Using Deep Neural Network. | |
CN112862805B (zh) | 听神经瘤图像自动化分割方法及系统 | |
CN113743463B (zh) | 一种基于影像数据和深度学习的肿瘤良恶性识别方法和系统 | |
CN112085113B (zh) | 一种重症肿瘤影像识别系统及方法 | |
CN111079901A (zh) | 基于小样本学习的急性脑卒中病变分割方法 | |
CN113159040A (zh) | 医学图像分割模型的生成方法及装置、系统 | |
CN111127487A (zh) | 一种实时多组织医学图像的分割方法 | |
CN116779093B (zh) | 一种医学影像结构化报告的生成方法、装置和计算机设备 | |
CN117237351A (zh) | 一种超声图像分析方法以及相关装置 | |
CN112767374A (zh) | 基于mri的阿尔茨海默症病灶区域语义分割算法 | |
WO2023223060A1 (en) | Method for training a system adapted for aiding evaluation of a medical image | |
CN112200810A (zh) | 多模态的自动化脑室分割系统及其使用方法 | |
CN116152235A (zh) | 一种肺癌ct到pet的医学图像跨模态合成方法 | |
CN1820274A (zh) | 使用机器学习来利用cad系统的常规使用期间所收集到的知识适配cad过程以对医学成像提供cad(计算机辅助决策 )支持 | |
CN117557878A (zh) | 一种基于脊椎ct图像的人体脊椎数据集 | |
CN115409812A (zh) | 一种基于融合时间注意机制的ct图像自动分类方法 | |
CN114757894A (zh) | 一种骨肿瘤病灶分析系统 | |
CN116092643A (zh) | 一种基于医疗影像的交互式半自动标注方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |