CN110706200B - 数据预测的方法及装置 - Google Patents

数据预测的方法及装置 Download PDF

Info

Publication number
CN110706200B
CN110706200B CN201910825377.3A CN201910825377A CN110706200B CN 110706200 B CN110706200 B CN 110706200B CN 201910825377 A CN201910825377 A CN 201910825377A CN 110706200 B CN110706200 B CN 110706200B
Authority
CN
China
Prior art keywords
sample
data
neural network
image data
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910825377.3A
Other languages
English (en)
Other versions
CN110706200A (zh
Inventor
周振
吴博烔
卢光明
李秀丽
俞益洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenrui Bolian Technology Co Ltd
Shenzhen Deepwise Bolian Technology Co Ltd
Original Assignee
Beijing Shenrui Bolian Technology Co Ltd
Shenzhen Deepwise Bolian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenrui Bolian Technology Co Ltd, Shenzhen Deepwise Bolian Technology Co Ltd filed Critical Beijing Shenrui Bolian Technology Co Ltd
Priority to CN201910825377.3A priority Critical patent/CN110706200B/zh
Publication of CN110706200A publication Critical patent/CN110706200A/zh
Application granted granted Critical
Publication of CN110706200B publication Critical patent/CN110706200B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10088Magnetic resonance imaging [MRI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30016Brain
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30061Lung
    • G06T2207/30064Lung nodule
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Image Processing (AREA)

Abstract

本申请公开了一种数据预测的方法及装置。该申请的方法包括获取图像数据,所述图像数据为包含病灶的医学影像数据;基于预设的多任务梯度集成神经网络模型对图像数据对应的征象进行预测,得到预测结果,所述预设的多任务梯度集成神经网络模型为能迭代地学习分类错误的样本的集成算法模型。本申请解决相关的参数共享法无法对困难病灶的肺结节的征象进行高性能地预测的问题。

Description

数据预测的方法及装置
技术领域
本申请涉及医学领域,具体而言,涉及一种数据预测的方法及装置。
背景技术
在医疗诊断问题中,诊断一个疾病往往需要进行多个方面征象进行判断。以肺结节诊断为例,医生往往通过判断结节是否有毛刺,边缘是否清晰,分叶是否明显等等征象的基础上再对良恶性进行诊断。相关的对数据预测的方法参数共享法,该方法是将不同任务(每一种征象的判定为一种任务)之间的关联表现为共享相同的低层语义信息;对于同一个病灶中肺结节,一方面不同任务之间的关联可以提升征象预测的性能,但是另一方面对于困难病灶中的肺结节,即征象之间不符合共享相同的低层语义信息,因此会使得这类病灶征象预测的性能下降。可以看到,相关的参数共享法无法对困难病灶的肺结节的征象进行高性能地预测。
发明内容
本申请的主要目的在于提供一种数据预测的方法及装置,以解决相关的参数共享法无法对困难病灶的肺结节的征象进行高性能地预测的问题。
为了实现上述目的,根据本申请的第一方面,提供了一种数据预测的方法。
根据本申请的数据预测的方法包括:
获取图像数据,所述图像数据为包含病灶的医学影像数据;
基于预设的多任务梯度集成神经网络模型对图像数据对应的征象进行预测,得到预测结果,所述预设的多任务梯度集成神经网络模型为能迭代地学习分类错误的样本的集成算法模型。
进一步的,在所述基于预设的多任务梯度集成神经网络模型对图像数据对应的征象进行预测之前,所述方法还包括:
获取训练样本,所述训练样本包含预设数量的样本数据及其对应的样本标注数据,所述预设数量的样本数据为包含病灶的医学影像样本数据,所述样本标注数据为对预设数量的样本数据进行病灶征象标注的图像数据;
基于训练样本对预设的多任务梯度集成神经网络算法进行训练得到预设的多任务梯度集成神经网络模型。
进一步的,在所述基于预设的多任务梯度集成神经网络模型对图像数据对应的征象进行预测之前,所述方法还包括:
获取训练样本,所述训练样本包含预设数量的样本数据及其对应的征象评测值,所述预设数量的样本数据为包含病灶的医学影像样本数据,所述征象评测值为对预设数量的样本数据对应的征象进行评测的所有评测值;
基于训练样本对预设的多任务梯度集成神经网络算法进行训练得到预设的多任务梯度集成神经网络模型。
进一步的,对预设的多任务梯度集成神经网络算法进行训练得到预设的多任务梯度集成神经网络模型还包括:
基于深度神经网络训练神经网络分类器;并且,
基于梯度集成确定每一次迭代的神经网络分类器。
进一步的,所述基于梯度集成确定每一次迭代的神经网络分类器包括:
基于当前迭代次数之前得到的所有分类器的集成结果的梯度下降最快的方向确定当前迭代次数对应的神经网络分类器。
进一步的,所述深度神经网络为三维密集连接的卷积网络3D DenseNet。
进一步的,所述医学影像数据为CT图像数据为电子计算机断层扫描CT图像数据或核磁共振成像MRI图像数据。
为了实现上述目的,根据本申请的第二方面,提供了一种数据预测的装置。
根据本申请的数据预测的装置包括:
第一获取单元,用于获取图像数据,所述图像数据为包含病灶的医学影像数据;
预测单元,用于基于预设的多任务梯度集成神经网络模型对图像数据对应的征象进行预测,得到预测结果,所述预设的多任务梯度集成神经网络模型为能迭代地学习分类错误的样本的集成算法模型。
进一步的,所述装置还包括:
第二获取单元,用于在所述基于预设的多任务梯度集成神经网络模型对图像数据对应的征象进行预测之前,获取训练样本,所述训练样本包含预设数量的样本数据及其对应的样本标注数据,所述预设数量的样本数据为包含病灶的医学影像样本数据,所述样本标注数据为对预设数量的样本数据进行病灶征象标注的图像数据;
训练单元,用于基于训练样本对预设的多任务梯度集成神经网络算法进行训练得到预设的多任务梯度集成神经网络模型。
进一步的,所述装置还包括:
第二获取单元,用于在所述基于预设的多任务梯度集成神经网络模型对图像数据对应的征象进行预测之前,获取训练样本,所述训练样本包含预设数量的样本数据及其对应的征象评测值,所述预设数量的样本数据为包含病灶的医学影像样本数据,所述征象评测值为对预设数量的样本数据对应的征象进行评测的所有评测值;
训练单元,用于基于训练样本对预设的多任务梯度集成神经网络算法进行训练得到预设的多任务梯度集成神经网络模型。
进一步的,所述训练单元还包括:
训练模块,用于基于深度神经网络训练神经网络分类器;
训练模块,还用于基于梯度集成确定每一次迭代的神经网络分类器。
进一步的,所述训练模块还用于:
基于当前迭代次数之前得到的所有分类器的集成结果的梯度下降最快的方向确定当前迭代次数对应的神经网络分类器。
进一步的,所述深度神经网络为三维密集连接的卷积网络3D DenseNet。
进一步的,所述医学影像数据为CT图像数据为电子计算机断层扫描CT图像数据或核磁共振成像MRI图像数据
为了实现上述目的,根据本申请的第三方面,提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述第一方面中任一项所述的数据预测的方法。
在本申请实施例中,数据预测的方法及装置能够获取图像数据,图像数据为包含病灶的医学影像数据;基于预设的多任务梯度集成神经网络模型对图像数据对应的征象进行预测,得到预测结果,所述预设的多任务梯度集成神经网络模型为能迭代地学习分类错误的样本的集成算法模型。可以看出,该预设的多任务梯度集成神经网络能够专注于每次训练的错误的样本进行不断的迭代训练,将本申请的数据预测的方法应用到肺结节征象的预测中,即能够专注于困难病灶肺结节样本进行模型的训练,因此得到的模型可以对困难病灶的肺结节的征象进行高性能的预测。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的一种数据预测的方法流程图;
图2是根据本申请实施例提供的另一种数据预测的方法流程图;
图3是根据本申请实施例提供的一种预设的多任务梯度集成神经网络的结构图;
图4是根据本申请实施例提供的一种数据预测的装置的组成框图;
图5是根据本申请实施例提供的另一种数据预测的装置的组成框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本申请实施例,提供了一种数据预测的方法,如图1所示,该方法包括如下的步骤:
S101.获取图像数据。
其中,图像数据为包含病灶的医学影像数据。常用的医学影像数据主要包含电子计算机断层扫描CT图像数据或核磁共振成像MRI图像数据。比如肺结节的CT图像数据、脑CT图像数据、脑MRI图像数据等。需要说明的是,在实际的应用中,通过设备直接获取到的医学影像数据是较大范围的图像数据,为了提高后续数据预测的准确性,通常还需要在预测之前对医学影像数据进行预处理,具体的预处理为医学影像数据进行切割,选取包含病灶的小范围图像数据,具体截取的范围的大小根据实际的情况确定,本实施例中不作限制。
S102.基于预设的多任务梯度集成神经网络模型对图像数据对应的征象进行预测,得到预测结果。
将由步骤S101得到的经过预处理的医学影像数据输入到预设的多任务梯度集成神经网络模型,输出得到对图像数据中的肺结节的征象的预测结果。本实施例给出几种预测结果的形式,假设图像数据为包含结节的CT图像数据,则对应的预测结果可以为结节A:有毛刺、边缘清晰、分叶明显等;结节B:有毛刺、边缘不清晰、分叶不明显等。
本实施例中的预设的多任务梯度集成神经网络模型为能迭代地学习分类错误的样本的集成算法模型。即在模型训练的过程中是专专注于每次训练的错误的样本进行不断的迭代训练。将其应用到肺结节的预测过程中,即在模型训练的过程中每一次迭代都专注对困难病灶的肺结节样本进行训练,因此能够提高对困难病灶的征象预测的性能。
从以上的描述中,可以看出,本申请实施例中数据预测的方法能够能够获取图像数据,图像数据为包含病灶的医学影像数据;基于预设的多任务梯度集成神经网络模型对图像数据对应的征象进行预测,得到预测结果,所述预设的多任务梯度集成神经网络模型为能迭代地学习分类错误的样本的集成算法模型。可以看出,该预设的多任务梯度集成神经网络能够专注于每次训练的错误的样本进行不断的迭代训练,即能够专注于困难病灶进行模型的训练,因此得到的模型可以对困难病灶的征象进行高性能的预测。
作为上述实施例的补充和细化,本申请实施例提供了另一种数据预测的方法,如图2所示,该方法包括:
首先需要说明的是,本实施例中以最常用的两种医学影像数据CT图像数据以及MRI图像数据对应的各一种具体的图像数据为例,对上述图1中的数据预测的方法进行补充和说明。
S201.获取训练样本。
训练样本是用于训练预设的多任务梯度集成神经网络算法的样本数据。本实施例中训练样本包括两种类型:
第一种,训练样本包含预设数量的样本数据及其对应的样本标注数据,所述预设数量的样本数据为包含病灶的医学影像样本数据,所述样本标注数据为对预设数量的样本数据进行病灶征象标注的图像数据。
给出具体的示例进行说明,假设后续要获取的图像数据为包含肺结节的CT图像数据,则对应的训练样本为预设数量的包含肺结节的CT图像数据和对预设数量的包含肺结节的CT图像数据进行肺结节征象标注的图像数据。征象的标注通常是由有经验的医生进行标注的,对于肺结节的征象主要为结节是否有毛刺,边缘是否清晰,分叶是否明显等等。
在实际应用中,训练样本中的可以通过公开数据集获取,比如LIDC-IDRI数据集。另外需要说明的是,预设数量可以根据实际的需求自定义,本实施例不做限制。
第二种,训练样本包含预设数量的样本数据及其对应的征象评测值,所述预设数量的样本数据为包含病灶的医学影像样本数据,所述征象评测值为对预设数量的样本数据对应的征象进行评测的所有评测值。
给出具体的示例进行说明,假设后续要获取的图像数据为包含阿尔兹海默症患者对应的脑MRI图像数据,对应的训练样本为预设数量的脑MRI图像样本数据和预设数量的脑MRI图像样本数据对应的行为评测值、精神评测值等其他评测值。
在实际应用中,训练样本中的可以通过公开数据集获取,比如ADNI数据集。另外需要说明的是,预设数量可以根据实际的需求自定义,本实施例不做限制。
S202.基于训练样本对预设的多任务梯度集成神经网络算法进行训练得到预设的多任务梯度集成神经网络模型。
基于深度神经网络(比如三维密集连接的卷积网络3D DenseNet)训练神经网络分类器;基于梯度集成确定每一次迭代的神经网络分类器:基于当前迭代次数之前得到的所有分类器的集成结果的梯度下降最快的方向确定当前迭代次数对应的神经网络分类器。
具体的,本实施例给出预设的多任务梯度集成神经网络的结构图,如图3所示,图3中是采用了3D DenseNet训练基分类器,Adam作为学习器进行模型的训练,结合图3给出多任务梯度集成神经网络模型的训练过程。
假设训练样本为N个,表示为
Figure BDA0002188576440000081
其中xi是样本图像,yi是对样本图像标注后的样本标注图像或者与样本图像对应的征象评测值。训练的目标是学习一系列线性组合系数αm和fm。其中αm是线性组合系数,fm是每一次迭代学习到的神经网络分类器。最终得到的分类器F的定义为:
Figure BDA0002188576440000082
其中,M是总体迭代次数,M的值可以根据实际需求或者经验值设定。
同时定义总体风险函数为
Figure BDA0002188576440000083
其中t为每一个任务,T为总的任务数,每一个任务分别对应于图3中的Task1、Task2、…、TaskT,以肺结节图像数据为例,每一类征象对象一个任务,比如是否有毛刺为一个任务,边缘是否清晰为一个任务,分叶是否明显为一个任务等。L为损失函数,具体的表达式如下:
Figure BDA0002188576440000084
在每一次迭代中学习得到的最优的分类器是基于之前m个分类器的集成的预测结果的基础上梯度下降最快的方向。即
Figure BDA0002188576440000085
然后,利用线性搜索的方法学习得到权重系数
Figure BDA0002188576440000086
Figure BDA0002188576440000091
从而得到新的Fm+1
Figure BDA0002188576440000092
其中,γ是为了避免过拟合的系数,γ的值可以根据经验值进行设置,优选的,本实施例中选择γ=0.1。
给出算法的流程:
输入:
Figure BDA0002188576440000093
t∈[T],γ,最大迭代次数M
初始化:F1=0
输出:F(…)
当算法未收敛或迭代未达到最大值时:
1.利用公式1更新得到
Figure BDA0002188576440000094
2.利用公式2更新得到
Figure BDA0002188576440000095
3.利用公式3更新Fm+1
结束
另外,为了对预设的多任务梯度集成神经网络模型的性能进行验证。本发明实施例在公开数据集LIDC-IDRI数据集和ADNI数据集上进行实验。LIDC-IDRI数据包括1010个病人(1018次扫描)的CT数据,切片间距从0.45mm到5.0mm不等,所有结节均由2到7个放射医师独立标注。本文中,我们选取LIDC-IDRI数据集全部2660个结节。
ADNI数据集是用于阿兹海默症诊断的数据集,所有数据集划分为训练集,验证集和测试集。
表1列出了本实施例的模型与其他常见多任务学习在LIDC-IDRI数据集上的对比结果,结果从准确率acc和正样本排在负样本前面的概率auc上可以观察到本实施例模型较其他多任务学习方法上有很大提升。
表1在LIDC-IDRI数据集上的对比结果
Figure BDA0002188576440000101
表2为本实施例的模型和其他方法在ADNI数据集上的对比结果。结果从均方根误差rmse和皮尔森相关性系数person correlation上都可以看出我们的方法取得更好的结果。
表2在ADNI数据集上的对比结果
Figure BDA0002188576440000102
Figure BDA0002188576440000111
上述对比结果,可以看到本实施例中的预设的多任务梯度集成神经网络模型在肺结节征象预测和阿兹海默症的量表预测的问题上都取得了很好的结果。
S203.获取图像数据。
本步骤的实现方式与图1步骤S101的实现方式相同,此处不再赘述。
具体的,若是对CT图像数据进行预测,则获取的是CT图像数据,若是对MRI图像数据进行预测,则获取到的是MRI图像数据。
S204.基于预设的多任务梯度集成神经网络模型对图像数据中肺结节的征象进行预测,得到预测结果。
本步骤的实现方式与图1步骤S102的实现方式相同,此处不再赘述。
具体的,若步骤S203获取到的是CT图像数据,则对应的本步骤中基于的预设的多任务梯度集成神经网络模型是由CT样本数据得到的模型。假设图像数据为包含肺结节的CT图像数据,则对应的预测结果可以为肺结节A:有毛刺、边缘清晰、分叶明显等;肺结节B:有毛刺、边缘不清晰、分叶不明显等。
若步骤S203获取到的是MRI图像数据,则对应的本步骤中基于的预设的多任务梯度集成神经网络模型是由MRI样本数据得到的模型。假设图像数据为阿尔兹海默症患者的脑MRI图像数据,则对应的预测结果可以为患者A:记忆力评测值a1、语言能力评测值b1、自理能力评测值c1、精神症状评测值d1等;患者B:记忆力评测值a2、语言能力评测值b2、自理能力评测值c2、精神症状评测值d2等。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请实施例,还提供了一种用于实施上述图1和图2所述方法的数据预测的装置,如图4所示,该装置包括:
第一获取单元31,用于获取图像数据,所述图像数据为包含病灶的医学影像数据;
预测单元32,用于基于预设的多任务梯度集成神经网络模型对图像数据对应的征象进行预测,得到预测结果,所述预设的多任务梯度集成神经网络模型为能迭代地学习分类错误的样本的集成算法模型。
具体的,本申请实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
从以上的描述中,可以看出,本申请实施例中数据预测的装置能够能够获取图像数据,图像数据为包含病灶的医学影像数据;基于预设的多任务梯度集成神经网络模型对图像数据对应的征象进行预测,得到预测结果,所述预设的多任务梯度集成神经网络模型为能迭代地学习分类错误的样本的集成算法模型。可以看出,该预设的多任务梯度集成神经网络能够专注于每次训练的错误的样本进行不断的迭代训练,即能够专注于困难病灶进行模型的训练,因此得到的模型可以对困难病灶的征象进行高性能的预测。
进一步的,如图5所示,所述装置还包括:
第二获取单元33,用于在所述基于预设的多任务梯度集成神经网络模型对图像数据对应的征象进行预测之前,获取训练样本,所述训练样本包含预设数量的样本数据及其对应的样本标注数据,所述预设数量的样本数据为包含病灶的医学影像样本数据,所述样本标注数据为对预设数量的样本数据进行病灶征象标注的图像数据;
训练单元34,用于基于训练样本对预设的多任务梯度集成神经网络算法进行训练得到预设的多任务梯度集成神经网络模型。
进一步的,如图5所示,所述装置还包括:
第二获取单元33,用于在所述基于预设的多任务梯度集成神经网络模型对图像数据对应的征象进行预测之前,获取训练样本,所述训练样本包含预设数量的样本数据及其对应的征象评测值,所述预设数量的样本数据为包含病灶的医学影像样本数据,所述征象评测值为对预设数量的样本数据对应的征象进行评测的所有评测值;
训练单元34,用于基于训练样本对预设的多任务梯度集成神经网络算法进行训练得到预设的多任务梯度集成神经网络模型。
进一步的,如图5所示,所述训练单元34还包括:
训练模块341,用于基于深度神经网络训练神经网络分类器;
训练模块341,还用于基于梯度集成确定每一次迭代的神经网络分类器。
进一步的,如图5所示,所述训练模块341还用于:
基于当前迭代次数之前得到的所有分类器的集成结果的梯度下降最快的方向确定当前迭代次数对应的神经网络分类器。
进一步的,所述深度神经网络为三维密集连接的卷积网络3D DenseNet。
进一步的,所述医学影像数据为CT图像数据为电子计算机断层扫描CT图像数据或核磁共振成像MRI图像数据。
具体的,本申请实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
根据本申请实施例,还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行图1或图2所述的数据预测的方法。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (7)

1.一种数据预测的方法,其特征在于,所述方法包括:
获取图像数据,所述图像数据为包含病灶的医学影像数据;
基于预设的多任务梯度集成神经网络模型对图像数据对应的征象进行预测,得到预测结果,所述预设的多任务梯度集成神经网络模型为能迭代地学习分类错误的样本的集成算法模型;
获取训练样本,所述训练样本包含预设数量的样本数据及其对应的样本标注数据和征象评测值,所述预设数量的样本数据为包含病灶的医学影像样本数据,所述样本标注数据为对预设数量的样本数据进行病灶征象标注的图像数据,所述征象评测值为对预设数量的样本数据对应的征象进行评测的所有评测值;
基于训练样本对预设的多任务梯度集成神经网络算法进行训练得到预设的多任务梯度集成神经网络模型,包括:
假设训练样本为N个,表示为
Figure FDA0003569082400000013
其中xi是样本图像,yi是对样本图像标注后的样本标注图像或者与样本图像对应的征象评测值,训练的目标是学习一系列线性组合系数αm和fm,其中αm是线性组合系数,fm是每一次迭代学习到的神经网络分类器,最终得到的分类器F的定义为:
Figure FDA0003569082400000011
其中,M是总体迭代次数,M的值根据实际需求或者经验值设定;
同时定义总体风险函数为
Figure FDA0003569082400000012
其中t为每一个任务,T为总的任务数,每一个任务分别对应于Task1、Task2、…、TaskT;
L为损失函数,表达式如下:
Figure FDA0003569082400000021
在每一次迭代中学习得到的最优的分类器是基于之前m个分类器的集成的预测结果的基础上梯度下降最快的方向,即
Figure FDA0003569082400000022
然后,利用线性搜索的方法学习得到权重系数
Figure FDA0003569082400000023
从而得到新的Fm+1
Figure FDA0003569082400000024
其中,γ是为了避免过拟合的系数,γ的值根据经验值进行设置。
2.根据权利要求1所述的数据预测的方法,其特征在于,对预设的多任务梯度集成神经网络算法进行训练得到预设的多任务梯度集成神经网络模型还包括:
基于深度神经网络训练神经网络分类器;并且,
基于梯度集成确定每一次迭代的神经网络分类器。
3.根据权利要求2所述的数据预测的方法,其特征在于,所述基于梯度集成确定每一次迭代的神经网络分类器包括:
基于当前迭代次数之前得到的所有分类器的集成结果的梯度下降最快的方向确定当前迭代次数对应的神经网络分类器。
4.根据权利要求3所述的数据预测的方法,其特征在于,所述深度神经网络为三维密集连接的卷积网络3D DenseNet。
5.根据权利要求1所述的数据预测的方法,其特征在于,所述医学影像数据为CT图像数据为电子计算机断层扫描CT图像数据或核磁共振成像MRI图像数据。
6.一种数据预测的装置,其特征在于,所述装置包括:
第一获取单元,用于获取图像数据,所述图像数据为包含病灶的医学影像数据;
预测单元,用于基于预设的多任务梯度集成神经网络模型对图像数据对应的征象进行预测,得到预测结果,所述预设的多任务梯度集成神经网络模型为能迭代地学习分类错误的样本的集成算法模型;
第二获取单元,用于在所述基于预设的多任务梯度集成神经网络模型对图像数据对应的征象进行预测之前,获取训练样本,所述训练样本包含预设数量的样本数据及其对应的样本标注数据和征象评测值,所述预设数量的样本数据为包含病灶的医学影像样本数据,所述样本标注数据为对预设数量的样本数据进行病灶征象标注的图像数据,所述征象评测值为对预设数量的样本数据对应的征象进行评测的所有评测值;
训练单元,用于基于训练样本对预设的多任务梯度集成神经网络算法进行训练得到预设的多任务梯度集成神经网络模型,包括:
假设训练样本为N个,表示为
Figure FDA0003569082400000032
其中xi是样本图像,yi是对样本图像标注后的样本标注图像或者与样本图像对应的征象评测值,训练的目标是学习一系列线性组合系数αm和fm,其中αm是线性组合系数,fm是每一次迭代学习到的神经网络分类器,最终得到的分类器F的定义为:
Figure FDA0003569082400000031
其中,M是总体迭代次数,M的值根据实际需求或者经验值设定;
同时定义总体风险函数为
Figure FDA0003569082400000041
其中t为每一个任务,T为总的任务数,每一个任务分别对应于Task1、Task2、…、TaskT;
L为损失函数,表达式如下:
Figure FDA0003569082400000042
在每一次迭代中学习得到的最优的分类器是基于之前m个分类器的集成的预测结果的基础上梯度下降最快的方向,即
Figure FDA0003569082400000043
然后,利用线性搜索的方法学习得到权重系数
Figure FDA0003569082400000044
从而得到新的Fm+1
Figure FDA0003569082400000045
其中,γ是为了避免过拟合的系数,γ的值根据经验值进行设置。
7.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行权利要求1至权利要求5中任一项所述的数据预测的方法。
CN201910825377.3A 2019-09-02 2019-09-02 数据预测的方法及装置 Active CN110706200B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910825377.3A CN110706200B (zh) 2019-09-02 2019-09-02 数据预测的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910825377.3A CN110706200B (zh) 2019-09-02 2019-09-02 数据预测的方法及装置

Publications (2)

Publication Number Publication Date
CN110706200A CN110706200A (zh) 2020-01-17
CN110706200B true CN110706200B (zh) 2022-08-05

Family

ID=69194372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910825377.3A Active CN110706200B (zh) 2019-09-02 2019-09-02 数据预测的方法及装置

Country Status (1)

Country Link
CN (1) CN110706200B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111415356B (zh) * 2020-03-17 2020-12-29 推想医疗科技股份有限公司 肺炎征象的分割方法、装置、介质及电子设备
CN111476775B (zh) * 2020-04-07 2021-11-16 广州柏视医疗科技有限公司 Dr征象识别装置和方法
CN111723817B (zh) * 2020-06-30 2023-09-29 重庆大学 一种肺结节辅助检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403201A (zh) * 2017-08-11 2017-11-28 强深智能医疗科技(昆山)有限公司 肿瘤放射治疗靶区和危及器官智能化、自动化勾画方法
CN108154156A (zh) * 2017-11-30 2018-06-12 兰州理工大学 基于神经主题模型的图像集成分类方法及装置
US10061300B1 (en) * 2017-09-29 2018-08-28 Xometry, Inc. Methods and apparatus for machine learning predictions and multi-objective optimization of manufacturing processes
CN109670277A (zh) * 2019-02-19 2019-04-23 南京邮电大学 一种基于多模态数据融合与多模型集成的旅行时间预测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10360494B2 (en) * 2016-11-30 2019-07-23 Altumview Systems Inc. Convolutional neural network (CNN) system based on resolution-limited small-scale CNN modules
CN107016665B (zh) * 2017-02-16 2021-05-04 浙江大学 一种基于深度卷积神经网络的ct肺结节检测方法
CN107564580B (zh) * 2017-09-11 2019-02-12 合肥工业大学 基于集成学习的胃镜图像辅助处理系统及方法
CN108710830B (zh) * 2018-04-20 2020-08-28 浙江工商大学 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法
CN108683614B (zh) * 2018-05-15 2021-11-09 国网江苏省电力有限公司苏州供电分公司 基于门限残差网络的虚拟现实设备集群带宽分配装置
CN109087277B (zh) * 2018-06-11 2021-02-26 北京工业大学 一种空气细颗粒物pm2.5测量方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403201A (zh) * 2017-08-11 2017-11-28 强深智能医疗科技(昆山)有限公司 肿瘤放射治疗靶区和危及器官智能化、自动化勾画方法
US10061300B1 (en) * 2017-09-29 2018-08-28 Xometry, Inc. Methods and apparatus for machine learning predictions and multi-objective optimization of manufacturing processes
CN108154156A (zh) * 2017-11-30 2018-06-12 兰州理工大学 基于神经主题模型的图像集成分类方法及装置
CN109670277A (zh) * 2019-02-19 2019-04-23 南京邮电大学 一种基于多模态数据融合与多模型集成的旅行时间预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
粒子群-神经网络集成学习算法气象预报建模研究;吴建生等;《热带气象学报》;20081215(第06期);全文 *

Also Published As

Publication number Publication date
CN110706200A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
AU2020260078B2 (en) Computer-implemented machine learning for detection and statistical analysis of errors by healthcare providers
Bar et al. Chest pathology identification using deep feature selection with non-medical training
CN107833603B (zh) 电子病历文档分类方法、装置、电子设备及存储介质
CN106339571B (zh) 用于分类医学图像数据组的人工神经网络
CN110706200B (zh) 数据预测的方法及装置
CN111512322B (zh) 使用神经网络
US11081215B2 (en) Medical record problem list generation
US9152926B2 (en) Systems, methods, and media for updating a classifier
CN110309853B (zh) 基于变分自编码器的医学图像聚类方法
Dunnmon et al. Cross-modal data programming enables rapid medical machine learning
CA3110455A1 (en) Visualization of social determinants of health
CN113159195A (zh) 一种超声图像分类方法、系统、电子装置及存储介质
CN110009038B (zh) 筛查模型的训练方法、装置及存储介质
Shankar et al. A novel discriminant feature selection–based mutual information extraction from MR brain images for Alzheimer's stages detection and prediction
WO2014130287A1 (en) Method and system for propagating labels to patient encounter data
CN113722507A (zh) 基于知识图谱的住院费用预测方法、装置及计算机设备
CN116052848B (zh) 一种医学成像质控的数据编码方法及系统
Casanova et al. Embedding functional brain networks in low dimensional spaces using manifold learning techniques
WO2019086399A1 (en) Matching a subject to resources
CN110689112A (zh) 数据处理的方法及装置
CN111612021A (zh) 一种错误样本识别方法、装置及终端
CN113469202A (zh) 数据处理的方法、电子设备和计算机可读存储介质
CN111709946A (zh) 一种影像数据分析方法、装置、终端设备及存储介质
CN111063436A (zh) 数据处理方法及装置、存储介质及电子终端
US20230063247A1 (en) Personalized recommendation system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and device for data prediction

Effective date of registration: 20231007

Granted publication date: 20220805

Pledgee: Guotou Taikang Trust Co.,Ltd.

Pledgor: SHENZHEN DEEPWISE BOLIAN TECHNOLOGY Co.,Ltd.

Registration number: Y2023980059614

PE01 Entry into force of the registration of the contract for pledge of patent right