CN115171889A - 一种小样本胃部肿瘤诊断系统 - Google Patents
一种小样本胃部肿瘤诊断系统 Download PDFInfo
- Publication number
- CN115171889A CN115171889A CN202211101012.4A CN202211101012A CN115171889A CN 115171889 A CN115171889 A CN 115171889A CN 202211101012 A CN202211101012 A CN 202211101012A CN 115171889 A CN115171889 A CN 115171889A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- layer
- training
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 206010061968 Gastric neoplasm Diseases 0.000 title claims abstract description 47
- 238000003745 diagnosis Methods 0.000 title abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 109
- 238000013507 mapping Methods 0.000 claims description 13
- 206010028980 Neoplasm Diseases 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 230000002496 gastric effect Effects 0.000 claims 5
- 230000009826 neoplastic cell growth Effects 0.000 claims 5
- 238000000034 method Methods 0.000 abstract description 13
- 239000000463 material Substances 0.000 abstract description 4
- 238000002372 labelling Methods 0.000 abstract description 3
- 230000006872 improvement Effects 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 7
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 230000035945 sensitivity Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000002575 gastroscopy Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- QTBSBXVTEAMEQO-UHFFFAOYSA-N Acetic acid Chemical compound CC(O)=O QTBSBXVTEAMEQO-UHFFFAOYSA-N 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000004043 dyeing Methods 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 210000002784 stomach Anatomy 0.000 description 2
- 206010039897 Sedation Diseases 0.000 description 1
- 208000025865 Ulcer Diseases 0.000 description 1
- 206010000059 abdominal discomfort Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 208000013214 benign neoplasm of stomach Diseases 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 208000010643 digestive system disease Diseases 0.000 description 1
- 230000002922 epistatic effect Effects 0.000 description 1
- 239000006260 foam Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- KHLVKKOJDHCJMG-QDBORUFSSA-L indigo carmine Chemical compound [Na+].[Na+].N/1C2=CC=C(S([O-])(=O)=O)C=C2C(=O)C\1=C1/NC2=CC=C(S(=O)(=O)[O-])C=C2C1=O KHLVKKOJDHCJMG-QDBORUFSSA-L 0.000 description 1
- 229960003988 indigo carmine Drugs 0.000 description 1
- 235000012738 indigotine Nutrition 0.000 description 1
- 239000004179 indigotine Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000036280 sedation Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 231100000397 ulcer Toxicity 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- General Engineering & Computer Science (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种小样本胃部肿瘤诊断系统,本发明将每个病例的主诉文本和多张胃镜图片同时作为样本的输入,综合判断是否存在胃部肿瘤。为调和不同编码器提取的文本特征和图像特征间的语义鸿沟,采用“预训练‑真实训练”式的二阶段模型训练方法,在预训练中可使用大量无标注的主诉文本‑胃镜图像对在模型上做自监督的图文匹配任务,将图像特征投射到文本特征所在的向量空间,缩小图文两种模态间的语义鸿沟,提升真实训练模型在真实训练中的性能。只需使用少量的标注病例样本进行真实训练模型训练,以减少标注病例所需的人力物力。本发明使用任务提示模板和预测遮蔽字符的方式完成分类任务,以减少模型训练的参数量及其所需的标注样本的数量。
Description
技术领域
本发明涉及疾病诊断技术领域,特别涉及一种小样本胃部肿瘤诊断系统。
背景技术
胃部肿瘤是常见的消化系统疾病,可分为恶性肿瘤和良性肿瘤。其中,胃良性肿瘤仅占胃部肿瘤的2%。因此,胃部肿瘤的早发现、早治疗具有临床上的重要意义。胃肿瘤很少出现症状,若肿瘤表现有溃疡,可出现胃部不适、疼痛、甚至出血等症状。因此胃镜的检查尤为重要。结合患者主诉和胃镜结果是诊断胃部肿瘤的有效手段。然而,分析患者主诉和胃镜图片均依赖于医生经验,且会耗费大量时间和精力。基于人工智能技术的主诉文本-胃镜图片分类方法可以减轻医生负担,辅助医生诊断,降低胃部肿瘤漏诊的概率。
在人工智能领域,基于单张图片或一段主诉文本的分类方法通常用于各类疾病的判断(如基于胃镜图片判断是否有胃部肿瘤等)。这种人工智能方法是使用机器学习算法从单张图像或一段文本中提取潜在特征的过程。目前最为广泛使用的人工智能方法是将该问题建模为输入一张图像或一段文本,并输出一个标签的问题。在胃部肿瘤诊断方面,标签可分为“有肿瘤”和“无肿瘤”两种。
现有技术只能以单张图片或一段文本作为输入,以图片输入为例,现有技术分为以下几个步骤:(1)专业人员以有/无胃部肿瘤为标签,标注大量胃镜图片,每张图片作为一个样本,获得多个带有标注样本的标注语料;(2)基于深度学习网络训练标注语料,获得分类模型;(3)使用分类模型对某个未知标签的图片进行预测,获得该张图片的标签(有/无胃部肿瘤)。预测过程中,每次输入分类模型的是单张图片。
以文本输入的现有技术步骤与上述类似,区别仅在于其使用一段主诉文本作为一个样本。
其中,第(2)步的深度学习网络一般采用卷积神经网络或基于注意力的Transformer(变换器)网络。通常地,深度学习网络由文本/图像编码器层和全连接层组成。编码器层负责提取文本或图像的特征,一般由一系列的卷积层、激活层、池化层、自注意力层等组成。常用的文本编码器层包括Transformer、BERT(Bidirectional EncoderRepresentation from Transformer,基于变换器的双向编码表示网络)、GPT(GenerativePre-training Transformer,生成预训练变换器网络)等,常用的图像编码器层包括VGG(Visual Geometry Group,视觉几何组网络)、InceptionNet(初始网络)、Residual Net(残差网络)、Dense Net(密集网络)、Efficient Net(效率网络)等。全连接层负责将文本或图像的特征映射到待分类的类别。输入一段文本或一张图片,通过模型中一系列的卷积层、激活层、池化层、自注意力层等对图像进行编码,获得文本或图像的特征;最后通过全连接实现样本的分类。
综上所述,现有技术存在以下问题:
1)由于部分患者并无明显症状,且胃部肿瘤在一些图片中上表现不明显,专业医生往往需要结合患者主诉和多张胃镜图片综合判断。然而,现有技术只能从单一文本或单张图像的角度判断病情,既无法处理多张胃镜图片的输入,也无法处理胃镜图像和主诉文本的同时输入。
2)通过现有技术构建的模型通常有大量的参数需要学习,因此其极度依赖大量的已标注胃镜病例,而标注病例需要花费高昂的人力和物力。
因此,现有技术的缺陷导致现有的人工智能预测模型成本很高,对胃部肿瘤的诊断正确率却不够高。
发明内容
本发明要解决的技术问题是提供一种成本低、诊断准确率高的小样本胃部肿瘤诊断系统。
为了解决上述问题,本发明提供了一种小样本胃部肿瘤诊断系统,包括:
预训练模型和真实训练模型,所述预训练模型和真实训练模型均包括文本编码器、图像编码器、全连接层、模板层、融合层、概率分布输出层、映射层、分类层;
所述预训练模型采用无标注的预训练病例样本进行预训练,训练图像编码器和全连接层,所述预训练病例样本包括主诉文本和胃镜图像不匹配的不匹配病例样本,以及主诉文本和胃镜图像匹配的匹配病例样本;
所述真实训练模型采用预训练模型训练后的图像编码器和全连接层,并对文本编码器和训练后的全连接层进行真实训练;所述真实训练模型采用标注过的真实训练病例样本进行真实训练,所述真实训练病例样本为主诉文本和胃镜图像匹配的匹配病例样本;
所述文本编码器用于生成主诉文本浅层特征序列集合;所述图像编码器用于获取胃镜图像的图像特征序列集合;所述全连接层用于重塑图像特征序列的维度得到与主诉文本浅层特征相同维度的图像特征序列集合;所述模板层用于构造包含可学习遮蔽字符的任务提示模板,并将所述主诉文本浅层特征序列集合和图像特征序列集合输入所述任务提示模板,得到病例样本的任务提示;所述融合层用于构建位置向量并与所述任务提示模板相加后输入所述文本编码器,得到包含主诉文本特征和多张胃镜图像特征的多模态特征;所述概率分布输出层用于选取多模态特征中遮蔽字符的特征,并得到遮蔽字符输出为各字符的概率分布;
所述映射层用于将标签空间中的每个标签映射至所述文本编码器词汇表中的一个字符;所述分类层用于根据映射构造概率分布的子集,并选取其中概率最高的元素所对应的标签作为预测分类结果;其中,所述预训练病例样本的标签空间为{不匹配,匹配},所述真实训练病例样本的标签空间为{有胃部肿瘤,无胃部肿瘤}。
作为本发明的进一步改进,所述文本编码器包括嵌入层,所述嵌入层用于接收主诉文本,并生成主诉文本浅层特征序列集合。
作为本发明的进一步改进,所述预训练模型和真实训练模型均包括归一化层,所述归一化层用于将胃镜图像归一化到统一的色彩空间和维度尺寸,并依次输入所述图像编码器,得到图像特征集合序列集合。
作为本发明的进一步改进,所述全连接层用于重塑图像特征序列的维度使图像特征序列变成二维序列,以得到与主诉文本浅层特征相同维度的图像特征序列集合。
作为本发明的进一步改进,所述全连接层得到的与主诉文本浅层特征相同维度的图像特征序列集合为:
作为本发明的进一步改进,所述任务提示模板为:
[LRN0] [MASK] [LRN1] S’ [LRN2] I’ [SEP]
其中,[MASK]表示可学习遮蔽字符;[SEP]表示可学习间隔字符;[LRN0]、[LRN1]、[LRN2]表示不同的可学习提示字符;S’表示主诉文本浅层特征序列槽位;I’表示图像特征序列槽位。
作为本发明的进一步改进,所述概率分布输出层用于选取多模态特征中遮蔽字符的特征,并得到遮蔽字符输出为各字符的概率分布,包括:所述概率分布输出层用于选取多模态特征中遮蔽字符的特征,并通过文本编码器的词汇输出层和softmax分类器,得到遮蔽字符输出为各字符的概率分布。
作为本发明的进一步改进,遮蔽字符输出为各字符的概率分布为:
作为本发明的进一步改进,所述预训练模型和真实训练模型在训练时均采用交叉熵损失函数。
本发明的有益效果:
本发明小样本胃部肿瘤诊断系统以病例为样本单位,将每个病例的主诉文本和多张胃镜图片同时作为样本的输入,综合判断是否存在胃部肿瘤。为调和不同编码器提取的文本特征和图像特征间的语义鸿沟,本发明采用“预训练-真实训练”式的二阶段模型训练方法,在预训练中可使用大量无标注的主诉文本-胃镜图像对在模型上做自监督的图文匹配任务,将图像特征投射到文本特征所在的向量空间,缩小图文两种模态间的语义鸿沟,提升真实训练模型在真实训练中的性能。
其次,本发明只需使用少量的标注病例样本进行模型训练,以减少标注病例所需的人力物力。为了使模型能在少样本环境下正常训练和预测,本发明使用任务提示模板和预测遮蔽字符的方式完成分类任务,以减少模型训练的参数量及其所需的标注样本的数量。使得本发明具有成本低、诊断准确率高的优点。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1是本发明优选实施例中小样本胃部肿瘤诊断系统的示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
如图1所示,本发明优选实施例公开了一种小样本胃部肿瘤诊断系统,包括:
预训练模型和真实训练模型,所述预训练模型和真实训练模型均包括文本编码器、图像编码器、全连接层、模板层、融合层、概率分布输出层、映射层、分类层。
所述预训练模型采用无标注的预训练病例样本进行预训练,训练图像编码器和全连接层,所述预训练病例样本包括主诉文本和胃镜图像不匹配的不匹配病例样本,以及主诉文本和胃镜图像匹配的匹配病例样本。
所述真实训练模型采用预训练模型训练后的图像编码器和全连接层,并对文本编码器和训练后的全连接层进行真实训练;所述真实训练模型采用标注过的真实训练病例样本进行真实训练,所述真实训练病例样本为主诉文本和胃镜图像匹配的匹配病例样本。
在一些实施例中,预训练病例样本的构建如下:随机选择一部分收集到的病例样本(包含主诉文本和胃镜图像),随机交换其中的主诉文本,构造不匹配病例样本。任意不匹配病例样本中的主诉文本和胃镜图像均不匹配,对应分类标签y为“不匹配”。同时,保留一定数量的匹配病例样本(即不做任何操作的病例样本)一同作为预训练中使用的样本,其对应分类标签y为“匹配”。任意预训练病例样本均包含模型输入x和对应的真实标签y两个部分。设由m张胃镜图像和一段含有n个字符的主诉文本组成,即。
所述文本编码器用于生成主诉文本浅层特征序列集合;
所述图像编码器用于获取胃镜图像的图像特征序列集合;
在一些实施例中,所述预训练模型和真实训练模型均包括归一化层,所述归一化层用于将胃镜图像归一化到统一的色彩空间和维度尺寸(可选地,维度尺寸为3*224*224),并依次输入所述图像编码器,得到图像特征集合序列集合。
其中,表示m张胃镜图像中的第i张胃镜图像,;VisionEncoder表示图像编码器;可选地,图像编码器选用预训练的Residual Network(ResNet),每个图像特征序列的维度为7*7*2048。
所述全连接层用于重塑图像特征序列的维度得到与主诉文本浅层特征相同维度的图像特征序列集合;
具体地,所述全连接层用于重塑图像特征序列的维度使图像特征序列变成二维序列,以得到与主诉文本浅层特征相同维度的图像特征序列集合。可选地,所述全连接层得到的与主诉文本浅层特征相同维度的图像特征序列集合为:
其中,,;表示m张胃镜图像中的第i张胃镜图像;表示图像编码器获取的图像特征序列集合中的第i张胃镜图像的图像特征序列;W1和b1分别表示全连接层中可学习的第一权重参数和第一偏置参数;表示维度重塑。可选地,每个图像特征序列的维度为49*768。
所述模板层用于构造包含可学习遮蔽字符的任务提示模板,并将所述主诉文本浅层特征序列集合和图像特征序列集合输入所述任务提示模板,得到病例样本的任务提示;
[LRN0] [MASK] [LRN1] S’ [LRN2] I’ [SEP]
其中,[MASK]表示可学习遮蔽字符;[SEP]表示可学习间隔字符;[LRN0]、[LRN1]、[LRN2]表示不同的可学习提示字符;S’表示主诉文本浅层特征序列槽位;I’表示图像特征序列槽位。
其中,k>m+n;相邻的图像特征序列之间使用字符[SEP]间隔开。
所述融合层用于构建位置向量并与所述任务提示模板相加后输入所述文本编码器,得到包含主诉文本特征和多张胃镜图像特征的多模态特征;
其中,TextEncoder表示文本编码器。
所述概率分布输出层用于选取多模态特征中遮蔽字符的特征,并得到遮蔽字符输出为各字符的概率分布;
具体地,所述概率分布输出层用于选取多模态特征中遮蔽字符的特征,并通过文本编码器的词汇输出层和softmax分类器,得到遮蔽字符输出为各字符的概率分布。
可选地,遮蔽字符输出为各字符的概率分布为:
所述映射层用于将标签空间中的每个标签映射至所述文本编码器词汇表中的一个字符;
具体地,根据标签空间Y中的每个标签yi,根据训练任务定位一个映射v,将其映射到文本编码器词汇表中的一个字符ci,即:
v(yi)=ci
所述预训练病例样本的标签空间为{不匹配,匹配},定义映射v(匹配)=“对”,v(不匹配)=“错”。
所述真实训练病例样本的标签空间为{有胃部肿瘤,无胃部肿瘤},定义映射v(有胃部肿瘤)= “有”,v(无胃部肿瘤)= “无”。
所述分类层用于根据映射构造概率分布的子集,并选取其中概率最高的元素所对应的标签作为预测分类结果;
其中,argmax表示用于取最大值的argmax函数。
所述预训练模型和真实训练模型在训练时均采用交叉熵损失函数。
需要指出的是,所述预训练模型在训练时只训练图像编码器和全连接层,所述真实训练模型与预训练模型的结构相同,所述真实训练模型采用预训练模型训练后的图像编码器和全连接层,并只对文本编码器(包括嵌入层、主干和词汇输出层)和训练后的全连接层进行真实训练。
本发明小样本胃部肿瘤诊断系统以病例为样本单位,将每个病例的主诉文本和多张胃镜图片同时作为样本的输入,综合判断是否存在胃部肿瘤。为调和不同编码器提取的文本特征和图像特征间的语义鸿沟,本发明采用“预训练-真实训练”式的二阶段模型训练方法,在预训练中可使用大量无标注的主诉文本-胃镜图像对在模型上做自监督的图文匹配任务,将图像特征投射到文本特征所在的向量空间,缩小图文两种模态间的语义鸿沟,提升真实训练模型在真实训练中的性能。
其次,本发明只需使用少量的标注病例样本进行模型训练,以减少标注病例所需的人力物力。为了使模型能在少样本环境下正常训练和预测,本发明使用任务提示模板和预测遮蔽字符的方式完成分类任务,以减少模型训练的参数量及其所需的标注样本的数量。使得本发明具有成本低、诊断准确率高的优点。
为了验证本发明的有效性,在一具体实施例中,本发明收集了内镜中心胃镜检查(包括无痛胃镜、清醒镇静胃镜及普通胃镜检查)患者的胃镜图片和对应的主诉文本。图片拍摄设备主要为 Olympus 公司 240、260、290系列以及日本Fujinon公司560、580系列内镜。所有图片在白光非放大模式下拍摄,BLI、FICE、NBI等光学染色及靛胭脂、醋酸染色放大等化学染色暂不做研究。纳入标准:诊断为:胃部肿瘤(良性、恶性均包含在内)和正常胃镜粘膜图片。排除标准:①患者小于16岁或者大于95岁;②图片异常模糊、伪影、异常失真等影响观察的图片;③有大量泡沫、粘液湖或者食物等干扰严重的图片。
按照纳入和排除标准,共纳入标注病例样本2000例。标注样本中,有胃部肿瘤和无胃部肿瘤(正常胃)的病例数分别为750例和1250例。每个病例均含有一段主诉文本和1-10张胃镜图片。
预训练阶段:将所有标注病例样本全部作为匹配样本,再将这些匹配样本的主诉文本随机打乱,交换,构造4000例不匹配样本。最终得到6000例训练样本,并按9:1的比例随机划分为无交集的训练集和验证集。
真实训练阶段:将所有标注病例随机划分为无交集的训练集(40例,其中有胃部肿瘤20例,无胃部肿瘤20例)、验证集(40例,其中有胃部肿瘤20例,无胃部肿瘤20例)和测试集(1920例,其中有胃部肿瘤710例,无胃部肿瘤1210例)。
本发明首先进行预训练:使用训练集中的样本对预训练模型进行图文匹配训练和参数更新,然后在验证集上的评估模型性能,选取最合适的超参数并保存最优预训练模型。接着进行真实训练:加载预训练中保存的最优模型参数,使用真实训练集中的样本对真实训练模型进行胃部肿瘤识别训练和参数更新,然后在验证集上的评估模型性能,选取最合适的超参数并保存最优真实训练模型。
真实训练模型训练完毕后,将测试集中的待预测样本依次输入真实训练模型,获得胃部肿瘤的诊断结果。同时,邀请2名经验丰富的内镜医师对测试集中的病例(包含主诉文本和胃镜图片)进行判读和诊断。得出模型和2名医师对疾病诊断的整体准确率、灵敏度和阳性预测值。
最终得到,本发明的胃部肿瘤诊断整体准确率、灵敏度、阳性预测值都明显优于现有的单模态人工智能方法,接近经验丰富的内镜医师。具体结果如下:医生的整体准确率为88%,本发明的整体准确率为88.2%。医生的灵敏度为88.4%,本发明的灵敏度为88.3%。医生的阳性预测值为89%,本发明的阳性预测值为89.1%。而单模态人工智能方法的整体准确率、灵敏度、阳性预测值均不足85%。
其中,整体准确率=识别正确的病例数/测试集病的实际病例数×100%。
灵敏度=识别正确某一类别病例数/该类别的实际病例数×100%。
阳性预测值=识别正确某一类别的病例数/被模型或内镜医师识别成该类别的病例数×100%。
以上实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (9)
1.一种小样本胃部肿瘤诊断系统,其特征在于,包括:
预训练模型和真实训练模型,所述预训练模型和真实训练模型均包括文本编码器、图像编码器、全连接层、模板层、融合层、概率分布输出层、映射层、分类层;
所述预训练模型采用无标注的预训练病例样本进行预训练,训练图像编码器和全连接层,所述预训练病例样本包括主诉文本和胃镜图像不匹配的不匹配病例样本,以及主诉文本和胃镜图像匹配的匹配病例样本;
所述真实训练模型采用预训练模型训练后的图像编码器和全连接层,并对文本编码器和训练后的全连接层进行真实训练;所述真实训练模型采用标注过的真实训练病例样本进行真实训练,所述真实训练病例样本为主诉文本和胃镜图像匹配的匹配病例样本;
所述文本编码器用于生成主诉文本浅层特征序列集合;所述图像编码器用于获取胃镜图像的图像特征序列集合;所述全连接层用于重塑图像特征序列的维度得到与主诉文本浅层特征相同维度的图像特征序列集合;所述模板层用于构造包含可学习遮蔽字符的任务提示模板,并将所述主诉文本浅层特征序列集合和图像特征序列集合输入所述任务提示模板,得到病例样本的任务提示;所述融合层用于构建位置向量并与所述任务提示模板相加后输入所述文本编码器,得到包含主诉文本特征和多张胃镜图像特征的多模态特征;所述概率分布输出层用于选取多模态特征中遮蔽字符的特征,并得到遮蔽字符输出为各字符的概率分布;
所述映射层用于将标签空间中的每个标签映射至所述文本编码器词汇表中的一个字符;所述分类层用于根据映射构造概率分布的子集,并选取其中概率最高的元素所对应的标签作为预测分类结果;其中,所述预训练病例样本的标签空间为{不匹配,匹配},所述真实训练病例样本的标签空间为{有胃部肿瘤,无胃部肿瘤}。
2.如权利要求1所述的小样本胃部肿瘤诊断系统,其特征在于,所述文本编码器包括嵌入层,所述嵌入层用于接收主诉文本,并生成主诉文本浅层特征序列集合。
3.如权利要求1所述的小样本胃部肿瘤诊断系统,其特征在于,所述预训练模型和真实训练模型均包括归一化层,所述归一化层用于将胃镜图像归一化到统一的色彩空间和维度尺寸,并依次输入所述图像编码器,得到图像特征集合序列集合。
4.如权利要求1所述的小样本胃部肿瘤诊断系统,其特征在于,所述全连接层用于重塑图像特征序列的维度使图像特征序列变成二维序列,以得到与主诉文本浅层特征相同维度的图像特征序列集合。
6.如权利要求1所述的小样本胃部肿瘤诊断系统,其特征在于,所述任务提示模板为:
[LRN0] [MASK] [LRN1] S’ [LRN2] I’ [SEP]
其中,[MASK]表示可学习遮蔽字符;[SEP]表示可学习间隔字符;[LRN0]、[LRN1]、[LRN2]表示不同的可学习提示字符;S’表示主诉文本浅层特征序列槽位;I’表示图像特征序列槽位。
7.如权利要求1所述的小样本胃部肿瘤诊断系统,其特征在于,所述概率分布输出层用于选取多模态特征中遮蔽字符的特征,并得到遮蔽字符输出为各字符的概率分布,包括:所述概率分布输出层用于选取多模态特征中遮蔽字符的特征,并通过文本编码器的词汇输出层和softmax分类器,得到遮蔽字符输出为各字符的概率分布。
9.如权利要求1所述的小样本胃部肿瘤诊断系统,其特征在于,所述预训练模型和真实训练模型在训练时均采用交叉熵损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211101012.4A CN115171889B (zh) | 2022-09-09 | 2022-09-09 | 一种小样本胃部肿瘤诊断系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211101012.4A CN115171889B (zh) | 2022-09-09 | 2022-09-09 | 一种小样本胃部肿瘤诊断系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115171889A true CN115171889A (zh) | 2022-10-11 |
CN115171889B CN115171889B (zh) | 2023-01-06 |
Family
ID=83482462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211101012.4A Active CN115171889B (zh) | 2022-09-09 | 2022-09-09 | 一种小样本胃部肿瘤诊断系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115171889B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116884561A (zh) * | 2023-09-08 | 2023-10-13 | 紫东信息科技(苏州)有限公司 | 基于自监督联合学习的胃部诊断报告生成系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990297A (zh) * | 2021-03-10 | 2021-06-18 | 北京智源人工智能研究院 | 多模态预训练模型的训练方法、应用方法及装置 |
WO2021223323A1 (zh) * | 2020-05-06 | 2021-11-11 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN114329034A (zh) * | 2021-12-31 | 2022-04-12 | 武汉大学 | 基于细粒度语义特征差异的图像文本匹配判别方法及系统 |
CN114782760A (zh) * | 2022-06-22 | 2022-07-22 | 紫东信息科技(苏州)有限公司 | 一种基于多任务学习的胃部疾病图片分类系统 |
CN114842301A (zh) * | 2022-05-18 | 2022-08-02 | 上海数川数据科技有限公司 | 一种图像注释模型的半监督训练方法 |
CN114864076A (zh) * | 2022-05-07 | 2022-08-05 | 扬州大学 | 基于图注意力网络的多模态乳腺癌分类训练方法及系统 |
-
2022
- 2022-09-09 CN CN202211101012.4A patent/CN115171889B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021223323A1 (zh) * | 2020-05-06 | 2021-11-11 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN112990297A (zh) * | 2021-03-10 | 2021-06-18 | 北京智源人工智能研究院 | 多模态预训练模型的训练方法、应用方法及装置 |
CN114329034A (zh) * | 2021-12-31 | 2022-04-12 | 武汉大学 | 基于细粒度语义特征差异的图像文本匹配判别方法及系统 |
CN114864076A (zh) * | 2022-05-07 | 2022-08-05 | 扬州大学 | 基于图注意力网络的多模态乳腺癌分类训练方法及系统 |
CN114842301A (zh) * | 2022-05-18 | 2022-08-02 | 上海数川数据科技有限公司 | 一种图像注释模型的半监督训练方法 |
CN114782760A (zh) * | 2022-06-22 | 2022-07-22 | 紫东信息科技(苏州)有限公司 | 一种基于多任务学习的胃部疾病图片分类系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116884561A (zh) * | 2023-09-08 | 2023-10-13 | 紫东信息科技(苏州)有限公司 | 基于自监督联合学习的胃部诊断报告生成系统 |
CN116884561B (zh) * | 2023-09-08 | 2023-12-01 | 紫东信息科技(苏州)有限公司 | 基于自监督联合学习的胃部诊断报告生成系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115171889B (zh) | 2023-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180263568A1 (en) | Systems and Methods for Clinical Image Classification | |
CN110390674B (zh) | 图像处理方法、装置、存储介质、设备以及系统 | |
CN110600122A (zh) | 一种消化道影像的处理方法、装置、以及医疗系统 | |
CN115082747B (zh) | 基于组块对抗的零样本胃溃疡分类系统 | |
CN116884561B (zh) | 基于自监督联合学习的胃部诊断报告生成系统 | |
CN117524402A (zh) | 关于内镜影像分析并自动生成诊断报告的方法 | |
CN116631567B (zh) | 一种胃镜检查报告生成装置、设备及计算机可读存储介质 | |
CN114782760B (zh) | 一种基于多任务学习的胃部疾病图片分类系统 | |
CN114399465B (zh) | 良恶性溃疡识别方法及系统 | |
CN115115897B (zh) | 多模态预训练的胃部肿瘤分类系统 | |
CN116759068A (zh) | 针对消化系统的医学视觉问答方法及系统 | |
CN115171889B (zh) | 一种小样本胃部肿瘤诊断系统 | |
CN110427994A (zh) | 消化道内镜图像处理方法、装置、存储介质、设备及系统 | |
CN111079901A (zh) | 基于小样本学习的急性脑卒中病变分割方法 | |
CN112801958A (zh) | 超声内镜、人工智能辅助鉴别方法、系统、终端、介质 | |
CN116664929A (zh) | 一种基于多模态信息融合的喉镜图像多属性分类方法 | |
CN117689949A (zh) | 一种基于少样本学习的消化道内镜图像分类算法 | |
CN116797889B (zh) | 医学影像识别模型的更新方法、装置和计算机设备 | |
CN116309605B (zh) | 基于深度学习和状态转移的内窥镜检查质控方法及系统 | |
CN117218127A (zh) | 超声内镜辅助监测系统及方法 | |
CN111047582A (zh) | 基于深度学习的小肠镜下克罗恩病辅助诊断系统 | |
CN115240847B (zh) | 一种胃溃疡诊断装置、设备及存储介质 | |
CN110974121B (zh) | 一种判断消化内窥镜检查是否染色的方法及系统 | |
Thai et al. | Uit-saviors at medvqa-gi 2023: Improving multimodal learning with image enhancement for gastrointestinal visual question answering | |
CN116913455B (zh) | 一种胃镜检查报告生成装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |