CN110991535A - 一种基于多类型医学数据的pCR预测方法 - Google Patents
一种基于多类型医学数据的pCR预测方法 Download PDFInfo
- Publication number
- CN110991535A CN110991535A CN201911225360.0A CN201911225360A CN110991535A CN 110991535 A CN110991535 A CN 110991535A CN 201911225360 A CN201911225360 A CN 201911225360A CN 110991535 A CN110991535 A CN 110991535A
- Authority
- CN
- China
- Prior art keywords
- pcr
- predicted
- patient
- image
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000003745 diagnosis Methods 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000013526 transfer learning Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 206010028980 Neoplasm Diseases 0.000 abstract description 13
- 238000013528 artificial neural network Methods 0.000 abstract description 4
- 238000012512 characterization method Methods 0.000 abstract description 4
- 230000001617 migratory effect Effects 0.000 abstract 2
- 230000006870 function Effects 0.000 description 7
- 208000015634 Rectal Neoplasms Diseases 0.000 description 5
- 206010038038 rectal cancer Diseases 0.000 description 5
- 201000001275 rectum cancer Diseases 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 238000009098 adjuvant therapy Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003902 lesion Effects 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000001959 radiotherapy Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000002512 chemotherapy Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008595 infiltration Effects 0.000 description 2
- 238000001764 infiltration Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000009099 neoadjuvant therapy Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011272 standard treatment Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多类型医学数据的pCR预测方法。本发明从医疗部门获取临床数据、CT诊断报告和肠镜图像;使用临床数据来训练SVM,使用CT诊断报告来迁移学习训练BERT,使用肠镜图像来迁移学习训练Faster‑RCNN模型;将待预测患者的临床数据、CT诊断报告和肠镜图像输入到训练好的三个模型中得到预测的pCR概率p1、p2和p3,并融合得到最终预测的pCR概率p,若p大于设定的阈值T,则预测患者为pCR。本发明使用Faster‑RCNN网络,能自动生成肿瘤ROI,整个过程无需人工干预,提高预测的效率;使用神经网络进行表征学习,而不用人工设定和选择特征,提高了预测的准度和效率;结合使用患者的临床数据和CT诊断报告进行pCR的预测,提高了预测的准度。
Description
技术领域
本发明涉及机器学习、计算机视觉和自然语言处理领域,具体涉及一种基于多类型医学数据的pCR预测方法。
背景技术
进展期中低位直肠癌的标准治疗方案是先对患者进行新辅助放化疗,然后进行根治性手术,即对病灶区域进行根治性切除。医生通过对手术切下来的病灶组织进行病理学检查,发现大概有10%到20%的病人在经过化疗之后就已经痊愈,也就是说进行了不必要的手术。如果能够在手术前就找出新辅助治疗后pCR(病理完全缓解)的病人,使其避免进行不必要的手术,而是采取“wait&see”策略,对于患者而言,意义十分重大。但是目前来讲,对于新辅助治疗后直肠癌患者的pCR判定,在医学上没有一套统一的标准。
现阶段,人工智能已经渗透到医学的各个领域,应用在日常场景下的各项任务,如图像分类、物体检测和自然语言处理等都可以迁移到相应的医学数据当中。机器学习中的分类器,如SVM(支持向量机)、随机森林等可以基于医学数据的特征完成分类任务;BERT(Transformer双向编码器表示)是Google AI Language开发的自然语言处理模型,引入Masked LM技术将双向transformer应用于语言模型,在多项自然语言处理问题,如命名实体识别、单句情感分析等中表现卓越,因此BERT模型也可以迁移应用在医学的文本数据上,如电子病历和诊断报告等,完成各项任务;Faster-RCNN是目标检测网络,能自动生成包含物体的候选框,并通过候选框对应的特征图中的ROI(感兴趣区域)判断物体的类别,因此Faster-RCNN模型可以迁移应用在医学影像上,如CT影像、MRI影像和肠镜图像等,自动找出病灶部位的ROI,并判断它的良恶性。
现有的技术之一为一个基于MRI影像的术前pCR预测模型,该模型通过MRI影像中提取的影像特征来预测患者经过新辅助治疗后是否pCR,其流程如下:
首先对患者的MRI影像进行人工分割肿瘤ROI,然后对新辅助治疗前后的T2WI和DWI影像的ROI分别提取影像特征,每组影像特征包括4个统计学特征、43个体素灰度特征和516个小波特征,因此共计2252个影像特征,然后对提取到的影像特征通过双样本t检验和LASSO回归进行特征选择,最终保留了30个影像特征,并将其输入到SVM完成对pCR的预测。作者还将选择后的30个影像特征结合新辅助治疗后的病灶直径,建立了多元逻辑回归pCR预测模型。
该技术的缺点是:
1、要获取肿瘤的ROI需要人工分割,要求是包含完整的肿瘤区域而且要排除肠道,因此标注人员需要具有较高的医学专业素养,标注的过程费时费力,降低了整个模型的预测速度,而且分割的精度会影响后续的预测效果;
2、该技术从MRI影像的ROI中提取的特征都是人工特征,如统计学特征、体素灰度特征和小波特征等,而人工特征的抽取并没有表征学习的能力,无法根据具体任务特化,也就是说很难代表MRI影像的最核心、最显著的特征,而这会影响后续的预测效果;
3、该方案过于依赖MRI影像的特征,最终建立的pCR预测模型使用了30个经过特征选择后保留下来的影像特征,只使用了一项临床特征,即新辅助治疗后的病灶直径,没有挖掘和使用更多的临床特征,可能会降低后续的预测性能。
发明内容
本发明的目的是克服现有方法的不足,提出了一种基于多类型医学数据的pCR预测方法。本发明解决的主要问题是,(1)基于肠镜图像的pCR预测使用Faster-RCNN网络,能自动生成肠镜图像和特征图中对应的肿瘤ROI,整个过程无需人工干预;(2)使用神经网络进行表征学习,自动学习出肠镜图像中有用的特征,而不用人工设定和选择特征;(3)结合使用患者的临床数据和CT诊断报告进行pCR的预测,综合利用患者的多类型医学数据。
为了解决上述问题,本发明提出了一种基于多类型医学数据的pCR预测方法,所述方法包括:
从医疗部门获取临床数据、CT诊断报告和肠镜图像,对这三种医学数据进行预处理,输出归一化后的临床数据的特征、定长向量表示的CT诊断报告,以及固定尺寸归一化后的肠镜图像,并分为三种医学数据各自的训练集和验证集;
使用得到的归一化后的临床数据的特征的训练集来训练SVM,使用得到的定长向量表示的CT诊断报告的训练集来迁移学习训练BERT模型,使用得到的固定尺寸归一化后的肠镜图像的训练集来迁移学习训练Faster-RCNN模型;
将待预测患者的临床数据输入到训练好的SVM中得到预测的pCR概率p1,将待预测患者的CT诊断报告输入到训练好的BERT中得到预测的pCR概率p2,将待预测患者的肠镜图像输入到训练好的Faster-RCNN网络中得到预测的pCR概率p3,之后对p1、p2和p3进行融合得到最终预测的pCR概率p,若p大于设定的阈值T,则预测患者为pCR,否则是非pCR。
本发明提出的一种基于多类型医学数据的pCR预测方法,基于肠镜图像的pCR预测使用Faster-RCNN网络,能自动生成肠镜图像和特征图中对应的肿瘤ROI,整个过程无需人工干预,提高预测的效率;使用神经网络进行表征学习,自动学习出肠镜图像中有用的特征,而不用人工设定和选择特征,提高了预测的准度和效率;结合使用患者的临床数据和CT诊断报告进行pCR的预测,综合利用患者的多类型医学数据,提高了预测的准度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例的基于多类型医学数据的pCR预测方法总体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例的本发明实施例的基于多类型医学数据的pCR预测方法总体流程图,如图1所示,该方法包括:
S1,从医疗部门获取临床数据、CT诊断报告和肠镜图像,对这三种医学数据进行预处理,输出归一化后的临床数据的特征、定长向量表示的CT诊断报告,以及固定尺寸归一化后的肠镜图像,并分为三种医学数据各自的训练集和验证集;
S2,使用得到的归一化后的临床数据的特征的训练集来训练SVM,使用得到的定长向量表示的CT诊断报告的训练集来迁移学习训练BERT模型,使用得到的固定尺寸归一化后的肠镜图像的训练集来迁移学习训练Faster-RCNN模型;
S3,将待预测患者的临床数据输入到训练好的SVM中得到预测的pCR概率p1,将待预测患者的CT诊断报告输入到训练好的BERT中得到预测的pCR概率p2,将待预测患者的肠镜图像输入到训练好的Faster-RCNN网络中得到预测的pCR概率p3,之后对p1、p2和p3进行融合得到最终预测的pCR概率p,若p大于设定的阈值T,则预测患者为pCR,否则是非pCR。
步骤S1,具体如下:
S1-1,对临床数据的特征进行预处理,量化成[0,1]内的数值,具体包含以下两种情况:
(1)对于数据是数值的特征,如身高、体重等,直接规定一个区间[min,max],对于落在区间外的数值截断到边界值,然后通过以下表达式将特征值x进行量化:
其中,f(x)是特征值x的量化结果,max和min分别是设定的区间左值和右值;
(2)对于数据是有限个取值的特征,假设特征X有n个取值,按程度的递进给它们排序为x1,x2,x3...xn,然后通过以下表达式将特征值xi进行量化:
其中,f(xi)是特征值xi的量化结果,n是特征X的取值个数。
S1-2,CT诊断报告预处理:
对于CT诊断报告这类文本数据,使用BERT基于汉字训练的标记器进行分字,然后将分开的字用标记器字典中的字对应的数字编号表示,将文本表示成向量;长度超过最大长度L就进行截断,小于L用标记器的PAD补全到L长度,这样将诊断报告的文本处理成长度为L的向量。
S1-3,肠镜图像预处理:
因为肠镜检查的医学仪器输出的图像中不仅包含了肠镜图像,还将部分医学数据直接写在了图像上,所以第一步是从图像中抠出完整的肠镜图像,方法是设定一个阈值T将整幅图像二值化,然后找出图像中面积最大的连通区域,然后提取出这块连通区域的外接矩形,就是肠镜图像。然后将肠镜图像缩放到256×256的大小,并将RGB三通道的值归一化到[-1,1]的范围内。
S1-4,将预处理后的临床数据、CT诊断报告和肠镜图像分别按照7:3的比例分为训练集和验证集。
步骤S2,具体如下:
S2-1,SVM训练:
具体的,安装实现了SVM的scikit-learn库,使用S14得到的临床数据的训练集来训练SVM,保留组织分型、盆腔MRI浸润深度和新辅助放疗这3项特征,标签为类别,即pCR或非pCR。把训练集的特征和标签输入到SVM中,完成SVM的训练。训练SVM分类器使用的损失函数是带L2正则项的hinge loss,表达式如下:
其中,N是样本个数,yi是第i个样本的类别标签,C是类别的个数,这里为2,这里只有2类,即pCR和非pCR,x(yi)是第i个样本预测yi类别的分数,x(j)是第i个样本预测j类别的分数,Δ是边界值,λ是正则化参数,w是分类器的参数。
对于SVM最终预测的pCR的概率p,设定一个阈值T1,p大于T1,则判断为pCR,p小于等于T1,则判断为非pCR。T1选择S14得到的临床数据的验证集ROC曲线中最左上角的点对应的阈值。
S2-2,BERT训练:
具体的,安装实现了BERT的transformers库,并下载BERT基于汉字的文本分类预训练模型,使用S1-4得到的CT诊断报告的训练集来训练BERT模型,标签为类别,即pCR或非pCR。在预训练模型的基础上对CT诊断报告的文本分类进行迁移学习,微调网络的参数。训练BERT模型做文本分类使用的损失函数是带类别权重参数的二分类交叉熵损失,表达式如下:
其中,N是mini-batch中的样本个数,yi是第i个样本的类别标签,weight(yi)是设定的yi类别的权重,C是类别的个数,这里为2,即pCR和非pCR,x(yi)是第i个样本预测yi类别的分数,x(j)是第i个样本预测j类别的分数。
对于BERT最终预测的pCR的概率p,设定一个阈值T2,p大于T2,则判断为pCR,p小于等于T2,则判断为非pCR。T2选择S1-4得到的CT诊断报告的验证集ROC曲线中最左上角的点对应的阈值。
S2-3,Faster-RCNN训练:
具体的,下载Faster-RCNN的开源代码和预训练模型,使用S14得到的肠镜图像的训练集来训练Faster-RCNN模型,标签为肠镜图像中肿瘤区域的bounding box和其类别,即pCR或非pCR。在预训练模型的基础上对肠镜图像肿瘤区域的检测和分类进行迁移学习,微调网络的参数。输入为归一化后的肠镜图像,训练时进行数据增强,即从256×256的肠镜图像中随机截取224×224的区域,并有50%的概率进行随机水平翻转。Faster-RCNN中训练RPN的损失函数包含分类和回归的损失,表达式如下:
其中,Ncls是mini-batch中进行分类的anchor box的个数,pi是第i个anchor box为前景的概率,当第i个anchor box为前景时,是1,反之为0,Lcls是分类的损失函数,为二分类交叉熵损失函数;λ是平衡因子,Nreg是mini-batch中进行回归的anchor box的个数,ti是预测的anchor box的中心坐标和宽高,是真实的bounding box的中心坐标和宽高,Lreg是回归的损失函数,为smooth L1损失函数。
Faster-RCNN会生成多个bounding box,每个bounding box会进行分类并得到pCR和非pCR的概率,取这两类中较高的概率作为该bounding box的分数,保留分数最高的bounding box,并将其预测的pCR概率作为最终预测的pCR概率p,设定一个阈值T3,p大于T3,则判断为pCR,p小于等于T3,则判断为非pCR。T3选择S1-4得到的肠镜图像的验证集ROC曲线中最左上角的点对应的阈值。
步骤S3,具体如下:
S3-1,输入直肠癌患者的临床数据,按照S1-1的步骤对临床数据进行预处理,获得组织分型、盆腔MRI浸润深度和新辅助放疗这3项特征,输入到S2-1训练好的SVM中,输出预测的pCR概率p1。
S3-2,输入直肠癌患者的CT诊断报告,按照S1-2的步骤对CT诊断报告的文本数据进行预处理,输入到S2-2训练好的BERT中,输出预测的pCR概率p2。
S3-3,输入直肠癌患者的肠镜图像,按照S1-3的步骤对肠镜图像进行预处理,不需要进行训练时的数据增强,直接缩放到224×224像素的尺寸,然后单张输入到S2-3训练好的Faster-RCNN网络中。具体的,Faster-RCNN网络的处理步骤如下:
S3-3-1,输入的图片经过由卷积层、激活层和池化层组成的特征提取层,生成高度抽象的特征图。
S3-3-2,将S3-3-1得到的特征图输入到RPN,以特征图中的每一个点作为一个锚点,通过预设的面积和长宽比,设面积有k1组,长宽比有k2组,那么每一个锚点可以生成k1×k2个anchor box,设特征图的尺寸为m×n,那么一共可以生成m×n×k1×k2个anchor box,然后对生成的这些anchor box进行分类和回归,分类是为了得到预测的anchor box包含肿瘤区域的概率,记为anchor box的分数,回归是为了对anchor box的边框进行调整,使其更准确地包住肠镜图像中的肿瘤区域。最后对anchor box进行越界剔除和非极大值抑制,取分数排名前N的anchor box作为候选框。
S3-3-3,对于S3-3-2中得到的每一个候选框,找出其在S3-3-1中得到的特征图对应的区域,将特征图中的这块区域抠出来,即ROI,使用ROI对候选框再次进行分类和回归,分类是为了得到候选框中的肿瘤区域pCR和非pCR的概率,取这两类中较高的概率作为该候选框的分数,回归是为了进一步对候选框的边框进行微调,使其更准确地包住肠镜图像中的肿瘤区域。最后保留分数最高的候选框,并将其预测的pCR概率作为最终预测的pCR概率。
S3-3-4,如果患者有多张肠镜检查的图像,则将其每张肠镜图像通过Faster-RCNN预测的pCR概率取平均,作为该患者基于肠镜图像预测的pCR概率p3。
S3-4,对S3-1、S3-2和S3-3得到的分别基于临床数据、CT诊断报告和肠镜图像预测的pCR概率p1、p2和p3进行融合,融合的表达式如下:
其中T1、T2和T3分别是S2-1、S2-2和S2-3设定的阈值,p是最终预测的pCR概率。若p大于设定的阈值T,则预测患者为pCR,否则是非pCR。
本发明实施例提出的一种基于多类型医学数据的pCR预测方法,基于肠镜图像的pCR预测使用Faster-RCNN网络,能自动生成肠镜图像和特征图中对应的肿瘤ROI,整个过程无需人工干预,提高预测的效率;使用神经网络进行表征学习,自动学习出肠镜图像中有用的特征,而不用人工设定和选择特征,提高了预测的准度和效率;结合使用患者的临床数据和CT诊断报告进行pCR的预测,综合利用患者的多类型医学数据,提高了预测的准度。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
另外,以上对本发明实施例所提供的一种基于多类型医学数据的pCR预测方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (1)
1.一种基于多类型医学数据的pCR预测方法,其特征在于,所述方法包括:
从医疗部门获取临床数据、CT诊断报告和肠镜图像,对这三种医学数据进行预处理,输出归一化后的临床数据的特征、定长向量表示的CT诊断报告,以及固定尺寸归一化后的肠镜图像,并分为三种医学数据各自的训练集和验证集;
使用得到的归一化后的临床数据的特征的训练集来训练SVM,使用得到的定长向量表示的CT诊断报告的训练集来迁移学习训练BERT模型,使用得到的固定尺寸归一化后的肠镜图像的训练集来迁移学习训练Faster-RCNN模型;
将待预测患者的临床数据输入到训练好的SVM中得到预测的pCR概率p1,将待预测患者的CT诊断报告输入到训练好的BERT中得到预测的pCR概率p2,将待预测患者的肠镜图像输入到训练好的Faster-RCNN网络中得到预测的pCR概率p3,之后对p1、p2和p3进行融合得到最终预测的pCR概率p,若p大于设定的阈值T,则预测患者为pCR,否则是非pCR。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911225360.0A CN110991535A (zh) | 2019-12-04 | 2019-12-04 | 一种基于多类型医学数据的pCR预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911225360.0A CN110991535A (zh) | 2019-12-04 | 2019-12-04 | 一种基于多类型医学数据的pCR预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110991535A true CN110991535A (zh) | 2020-04-10 |
Family
ID=70089854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911225360.0A Pending CN110991535A (zh) | 2019-12-04 | 2019-12-04 | 一种基于多类型医学数据的pCR预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110991535A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462116A (zh) * | 2020-05-13 | 2020-07-28 | 吉林大学第一医院 | 基于影像组学特征的多模态参数模型优化融合方法 |
CN111584021A (zh) * | 2020-05-08 | 2020-08-25 | 青岛国新健康产业科技有限公司 | 病案信息校验方法、装置、电子设备及存储介质 |
CN112070711A (zh) * | 2020-06-04 | 2020-12-11 | 清华大学 | 一种微液滴图像检测法中微液滴的分析方法 |
CN112528862A (zh) * | 2020-12-10 | 2021-03-19 | 西安电子科技大学 | 基于改进的交叉熵损失函数的遥感图像目标检测方法 |
CN112652398A (zh) * | 2020-12-22 | 2021-04-13 | 浙江大学 | 一种基于机器学习算法的新冠肺炎重症化预测方法及系统 |
CN112669929A (zh) * | 2020-12-30 | 2021-04-16 | 深圳大学 | 克罗恩病英夫利昔单抗药效预测方法及终端设备 |
CN113536802A (zh) * | 2020-04-21 | 2021-10-22 | 北京中科闻歌科技股份有限公司 | 小语种文本数据的情感判别方法、装置、设备和存储介质 |
CN113555004A (zh) * | 2021-07-15 | 2021-10-26 | 复旦大学 | 基于特征选择与迁移学习的语音抑郁状态识别方法 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960073A (zh) * | 2018-06-05 | 2018-12-07 | 大连理工大学 | 面向生物医学文献的跨模态图像模式识别方法 |
CN108986912A (zh) * | 2018-07-12 | 2018-12-11 | 北京三医智慧科技有限公司 | 基于深度学习的中医胃病舌像信息智能化处理方法 |
CN109003260A (zh) * | 2018-06-28 | 2018-12-14 | 深圳视见医疗科技有限公司 | Ct图像肺结节检测方法、装置、设备及可读存储介质 |
CN109411084A (zh) * | 2018-11-28 | 2019-03-01 | 武汉大学人民医院(湖北省人民医院) | 一种基于深度学习的肠结核辅助诊断系统及方法 |
CN109710770A (zh) * | 2019-01-31 | 2019-05-03 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种基于迁移学习的文本分类方法及装置 |
CN109918501A (zh) * | 2019-01-18 | 2019-06-21 | 平安科技(深圳)有限公司 | 新闻文章分类的方法、装置、设备及存储介质 |
CN109948667A (zh) * | 2019-03-01 | 2019-06-28 | 桂林电子科技大学 | 用于对头颈部癌症远端转移预测的图像分类方法及装置 |
CN109994201A (zh) * | 2019-03-18 | 2019-07-09 | 浙江大学 | 一种基于深度学习的糖尿病与高血压概率计算方法 |
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
CN110033042A (zh) * | 2019-04-15 | 2019-07-19 | 青岛大学 | 一种基于深度神经网络的直肠癌环周切缘mri图像自动识别方法及系统 |
CN110134772A (zh) * | 2019-04-18 | 2019-08-16 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN110222827A (zh) * | 2019-06-11 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 基于文本的抑郁判定网络模型的训练方法 |
CN110298383A (zh) * | 2019-05-28 | 2019-10-01 | 中国科学院计算技术研究所 | 基于多模态深度学习的病理分类方法及系统 |
CN110364236A (zh) * | 2019-07-22 | 2019-10-22 | 卫宁健康科技集团股份有限公司 | 放射影像报告的智能随访方法、系统、设备及存储介质 |
CN110377691A (zh) * | 2019-07-23 | 2019-10-25 | 上海应用技术大学 | 文本分类的方法、装置、设备及存储介质 |
CN110377739A (zh) * | 2019-07-19 | 2019-10-25 | 出门问问(苏州)信息科技有限公司 | 文本情感分类方法、可读存储介质和电子设备 |
CN110413785A (zh) * | 2019-07-25 | 2019-11-05 | 淮阴工学院 | 一种基于bert和特征融合的文本自动分类方法 |
CN110534185A (zh) * | 2019-08-30 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 标注数据获取方法、分诊方法、装置、存储介质及设备 |
CN110532387A (zh) * | 2019-08-14 | 2019-12-03 | 成都中科云集信息技术有限公司 | 一种基于开放性问答文本的抑郁症辅助检测方法 |
-
2019
- 2019-12-04 CN CN201911225360.0A patent/CN110991535A/zh active Pending
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960073A (zh) * | 2018-06-05 | 2018-12-07 | 大连理工大学 | 面向生物医学文献的跨模态图像模式识别方法 |
CN109003260A (zh) * | 2018-06-28 | 2018-12-14 | 深圳视见医疗科技有限公司 | Ct图像肺结节检测方法、装置、设备及可读存储介质 |
CN108986912A (zh) * | 2018-07-12 | 2018-12-11 | 北京三医智慧科技有限公司 | 基于深度学习的中医胃病舌像信息智能化处理方法 |
CN109411084A (zh) * | 2018-11-28 | 2019-03-01 | 武汉大学人民医院(湖北省人民医院) | 一种基于深度学习的肠结核辅助诊断系统及方法 |
CN109918501A (zh) * | 2019-01-18 | 2019-06-21 | 平安科技(深圳)有限公司 | 新闻文章分类的方法、装置、设备及存储介质 |
CN109710770A (zh) * | 2019-01-31 | 2019-05-03 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种基于迁移学习的文本分类方法及装置 |
CN109948667A (zh) * | 2019-03-01 | 2019-06-28 | 桂林电子科技大学 | 用于对头颈部癌症远端转移预测的图像分类方法及装置 |
CN109994201A (zh) * | 2019-03-18 | 2019-07-09 | 浙江大学 | 一种基于深度学习的糖尿病与高血压概率计算方法 |
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
CN110033042A (zh) * | 2019-04-15 | 2019-07-19 | 青岛大学 | 一种基于深度神经网络的直肠癌环周切缘mri图像自动识别方法及系统 |
CN110134772A (zh) * | 2019-04-18 | 2019-08-16 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN110298383A (zh) * | 2019-05-28 | 2019-10-01 | 中国科学院计算技术研究所 | 基于多模态深度学习的病理分类方法及系统 |
CN110222827A (zh) * | 2019-06-11 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 基于文本的抑郁判定网络模型的训练方法 |
CN110377739A (zh) * | 2019-07-19 | 2019-10-25 | 出门问问(苏州)信息科技有限公司 | 文本情感分类方法、可读存储介质和电子设备 |
CN110364236A (zh) * | 2019-07-22 | 2019-10-22 | 卫宁健康科技集团股份有限公司 | 放射影像报告的智能随访方法、系统、设备及存储介质 |
CN110377691A (zh) * | 2019-07-23 | 2019-10-25 | 上海应用技术大学 | 文本分类的方法、装置、设备及存储介质 |
CN110413785A (zh) * | 2019-07-25 | 2019-11-05 | 淮阴工学院 | 一种基于bert和特征融合的文本自动分类方法 |
CN110532387A (zh) * | 2019-08-14 | 2019-12-03 | 成都中科云集信息技术有限公司 | 一种基于开放性问答文本的抑郁症辅助检测方法 |
CN110534185A (zh) * | 2019-08-30 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 标注数据获取方法、分诊方法、装置、存储介质及设备 |
Non-Patent Citations (4)
Title |
---|
EMILY ALSENTZER 等: "Publicly Available Clinical BERT Embeddings", 《HTTPS://ARXIV.ORG/PDF/1904.03323.PDF》 * |
GJZERO: ""使用Bert预训练模型文本分类"", 《HTTPS://WWW.JIQIZHIXIN.COM/ARTICLES/2019-03-13-4》 * |
宋乐连: "乳腺癌新辅助化疗患者病理完全缓解预测模型的建立及影响因素分析"", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 * |
王荣政 等: "基 于 集 成 学 习 融 合 模 型 的 血 糖 预 测", 《医学信息学杂志》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113536802A (zh) * | 2020-04-21 | 2021-10-22 | 北京中科闻歌科技股份有限公司 | 小语种文本数据的情感判别方法、装置、设备和存储介质 |
CN111584021A (zh) * | 2020-05-08 | 2020-08-25 | 青岛国新健康产业科技有限公司 | 病案信息校验方法、装置、电子设备及存储介质 |
CN111584021B (zh) * | 2020-05-08 | 2023-08-18 | 青岛国新健康产业科技有限公司 | 病案信息校验方法、装置、电子设备及存储介质 |
CN111462116A (zh) * | 2020-05-13 | 2020-07-28 | 吉林大学第一医院 | 基于影像组学特征的多模态参数模型优化融合方法 |
CN112070711A (zh) * | 2020-06-04 | 2020-12-11 | 清华大学 | 一种微液滴图像检测法中微液滴的分析方法 |
CN112528862A (zh) * | 2020-12-10 | 2021-03-19 | 西安电子科技大学 | 基于改进的交叉熵损失函数的遥感图像目标检测方法 |
CN112528862B (zh) * | 2020-12-10 | 2023-02-10 | 西安电子科技大学 | 基于改进的交叉熵损失函数的遥感图像目标检测方法 |
CN112652398A (zh) * | 2020-12-22 | 2021-04-13 | 浙江大学 | 一种基于机器学习算法的新冠肺炎重症化预测方法及系统 |
CN112669929A (zh) * | 2020-12-30 | 2021-04-16 | 深圳大学 | 克罗恩病英夫利昔单抗药效预测方法及终端设备 |
CN112669929B (zh) * | 2020-12-30 | 2021-08-03 | 深圳大学 | 克罗恩病英夫利昔单抗药效预测方法及终端设备 |
CN113555004A (zh) * | 2021-07-15 | 2021-10-26 | 复旦大学 | 基于特征选择与迁移学习的语音抑郁状态识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110991535A (zh) | 一种基于多类型医学数据的pCR预测方法 | |
Dai et al. | Clinical report guided retinal microaneurysm detection with multi-sieving deep learning | |
US10970842B2 (en) | Method and device for identifying pathological picture | |
US10482603B1 (en) | Medical image segmentation using an integrated edge guidance module and object segmentation network | |
JP7279015B2 (ja) | マンモグラフィにおける密度の評価 | |
JP7208408B2 (ja) | 検出モデルのトレーニング方法、装置、コンピュータデバイス及びコンピュータプログラム | |
Pan et al. | Classification of malaria-infected cells using deep convolutional neural networks | |
dos Santos Ferreira et al. | Convolutional neural network and texture descriptor-based automatic detection and diagnosis of glaucoma | |
Kou et al. | Microaneurysms segmentation with a U-Net based on recurrent residual convolutional neural network | |
Marzahl et al. | Deep learning-based quantification of pulmonary hemosiderophages in cytology slides | |
Kumar et al. | Convolutional neural networks for prostate cancer recurrence prediction | |
EP2570970A1 (en) | Method and system for the automatic analysis of an image of a biological sample | |
CN110390674B (zh) | 图像处理方法、装置、存储介质、设备以及系统 | |
Xue et al. | Window classification of brain CT images in biomedical articles | |
Abdolahi et al. | Artificial intelligence in automatic classification of invasive ductal carcinoma breast cancer in digital pathology images | |
Droste et al. | Ultrasound image representation learning by modeling sonographer visual attention | |
Mukhlif et al. | An extensive review of state-of-the-art transfer learning techniques used in medical imaging: Open issues and challenges | |
WO2021057148A1 (zh) | 基于神经网络的脑组织分层方法、装置、计算机设备 | |
Shakeel et al. | Classification framework for healthy hairs and alopecia areata: a machine learning (ml) approach | |
Junayed et al. | ScarNet: development and validation of a novel deep CNN model for acne scar classification with a new dataset | |
US20220036140A1 (en) | Classification device, classification method, program, and information recording medium | |
CN110246567A (zh) | 一种医学图像预处理方法 | |
Alqudah et al. | Lightweight Deep Learning for Malaria Parasite Detection Using Cell-Image of Blood Smear Images. | |
Singh et al. | Deep attention network for pneumonia detection using chest X-ray images | |
CN113705595A (zh) | 异常细胞转移程度的预测方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200410 |