CN115115897A

CN115115897A - 多模态预训练的胃部肿瘤分类系统

Info

Publication number: CN115115897A
Application number: CN202211031028.2A
Authority: CN
Inventors: 何顺辉; 李峰; 张希钢; 赖春晓; 王镇煜; 邱霖; 万苹; 赵志芳; 江海洋; 赖正义; 戴捷; 邵贝; 鹿伟民
Original assignee: Zidong Information Technology Suzhou Co ltd
Current assignee: Zidong Information Technology Suzhou Co ltd
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2022-09-27
Anticipated expiration: 2042-08-26
Also published as: CN115115897B

Abstract

本发明涉及一种多模态预训练的胃部肿瘤分类系统，涉及医学图像处理技术领域，包括数据获取模块获取含有多图片和主诉文本的非肿瘤相关和肿瘤相关的胃镜病例分别作为未标注样本和有标注样本，预训练模块使用未标注样本对图片编码器、文本编码器进行对比学习预训练；多模态特征模块使用预训练后的编码器提取有标注样本的特征并融合得到多模态特征；训练模块使用有标注样本的特征训练预训练后的编码器，使用多模态特征训练分类器；预测模块得到待测病例的多模态特征并输入训练完成的分类器得到胃部肿瘤的分类结果。本发明可以提取多张图片和多条主诉文本的特征，有效利用相似疾病更准确地捕捉胃肿瘤相关的特征，为医生提供诊断参考。

Description

多模态预训练的胃部肿瘤分类系统

技术领域

本发明涉及医学图像处理技术领域，尤其是指一种多模态预训练的胃部肿瘤分类系统。

背景技术

胃部肿瘤是消化系统常见疾病，可分为恶性和良性。恶性肿瘤包括胃癌、恶性淋巴瘤和恶性间质瘤等。以胃癌最为常见，其发生率在消化道恶性肿瘤中居首位。胃良性肿瘤，占胃肿瘤的2%，可分两大类：一类来源于黏膜的良性上皮细胞瘤，如胃腺瘤、腺瘤性息肉等。另一类是良性间叶组织肿瘤，如间质瘤、脂肪瘤和神经纤维瘤等。常见的症状是消化道出血，可有上腹隐痛、不适等表现。部分患者可扪及腹部肿块，位于幽门部较大的肿瘤，可引起梗阻。胃肿瘤很少出现症状 ,有的因肿瘤生长较大发生并发症或恶变后才发生症状 ,所以易被忽略。对胃肿瘤靠临床症状很难确诊。 X光钡剂检查可见胃内有边缘整齐的圆形充盈缺损 ,肿瘤表现有溃疡时可见龛影。但是 , X线钡剂检查并不能鉴别肿瘤的良恶性 ,尤其更不能发现肿瘤的早期恶变。因此胃镜的检查尤为重要。胃镜下可见息肉样脉瘤呈球形、单发或多发 ,有蒂或广基。若腺癌表面有结节、糜烂、溃疡或菜花样改变、色泽较周围粘膜苍白 ,广基且周围胃粘膜较肥厚者 ,则多为恶变。胃镜检查是早期发现良恶性肿瘤的关键手段，根据胃镜片特征能够很好的是否具有胃良、恶肿瘤疾病，但是通常需要医生具有较长的胃镜操作经验。基于人工智能技术的胃良、恶肿瘤胃图片分类方法可以辅助医生做出更准确的判断，同时可以降低医生漏掉可疑的早期胃肿瘤的概率。

在人工智能领域，基于单张图片分类的方法通常被用于鉴定胃部是否存在良、恶肿瘤疾病。这种人工智能方法是利用计算机视觉等深度学习方法从单个图片中提取视觉信息的过程。当前使用较为广泛的人工智能方法是将该问题建模为输入一张图像进入模型并输出一个标签的问题。在胃良、恶肿瘤疾病分类方面，标签为胃良性肿瘤和胃恶性肿瘤。

基于单张图片分类的方法通常分为以下几个步骤：第一步、专业人员收集大量带有胃良、恶性肿瘤标签的图片，每个图片作为一个样本，标注这些图片，获得带有标注的标注语料。第二步、基于深度学习网络（一般是多层卷积神经网络）使用标注好的语料训练，获得图片分类模型。深度学习网络一般采用的是当前流行的卷积神经网络。如图1所示，现有卷积模型通常包含图片编码器（ImageEncoder）层、全连接层。图片编码器层负责提取图像的特征，一般由一系列的卷积层、激活层、池化层、自注意力层等组成，常用的图片编码器层包括VGG、Res Net、Dense Net、Efficient Net等。全连接层负责将图像特征映射到图片的类别。输入一张图进入图片编码器层，通过图片编码器中一系列的卷积层、激活层、池化层、自注意力层等对图像进行编码，获得图片特征；最后通过全连接实现图片分类。第三步、使用图片分类模型对某个未知标签的图片进行测试，判断该图片为胃良、恶性肿瘤。测试过程中，每次输入分类模型的是单张图片，输出为单个标签。

但是，现有技术也存在缺点，包括：

（1）单张图片并不能处理一个病例有多张图片的情况，不能给出综合预测。胃镜诊断过程往往有多张图片构成一个患者的病例，需要从不同角度观察胃部疾病，通过单张图片很难判断，因而传统的基于单张图片分类的预测模型无法准确预测这种多图片的病例、性能差。

（2）当病例诊断过程存在主诉文本（病人向医生描述自己病情的内容）时，这些主诉文本具有丰富的疾病信息，但是现有技术却不能充分利用这些信息。在实际诊断的过程中，专业医生在判断某个病人是否具有胃良、恶肿瘤疾病的时候，往往会结合病人的多张胃镜图片和主诉文本进行判断，现有技术不能结合多个图片病例和主诉文本。

（3）病例资源的有标注样本通常较少，没有考虑利用大量无标注的病例。有标注数据样本少会使病情相关特征很难被模型学习到，导致准确率下降。

（4）一些非肿瘤相关的胃镜病例能够提供丰富的信息，胃部疾病往往具有很多相似性，其他疾病能够为胃部肿瘤提供指导，但是传统的预训练方法只能学习到图片内部的关联特征或主诉文本语句内部关联特征。例如图片预训练将图片分割成多块，预训练过程为：使用遮掩模块遮掩其中一块，利用剩余的信息预测出缺失的一块。文本预训练为：遮掩一句话中某个单词，利用剩余的文字预测出这个词。这些方法针对单张图片或单句文本较为合适，可以学习到内部语义特征，但是没有很强的疾病针对性。如图2所示的对比学习预训练方法可以学习到胃镜图片之间的不同之处，增加对疾病特征的关注。但是也存在对于有多张图片和多句主诉文本的病例，不能学习到同一病例中图片之间的相互关系和主诉文本之间的相互关系的问题。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中的不足，提供一种多模态预训练的胃部肿瘤分类系统，可以充分提取多张图片和多条主诉文本的特征，有效利用相似疾病更加准确的捕捉胃肿瘤相关的特征，为医生提供诊断参考。

为解决上述技术问题，本发明提供了一种多模态预训练的胃部肿瘤分类系统，包括：

数据获取模块，所述数据获取模块获取含有多张图片和多条主诉文本的非肿瘤相关的胃镜病例样本和含有多张图片和多条主诉文本的肿瘤相关的胃镜病例样本；

特征提取模块，所述特征提取模块包括图片编码器和文本编码器；

分类模块，所述分类模块包括分类器；

预训练模块，所述预训练模块使用非肿瘤相关的胃镜病例样本中的多张图片对所述图片编码器进行对比学习预训练得到预训练后的图片编码器，使用非肿瘤相关的胃镜病例样本中的多条主诉文本对所述文本编码器进行对比学习预训练得到预训练后的文本编码器；

多模态特征模块，所述多模态特征模块使用所述预训练后的图片编码器提取肿瘤相关的胃镜病例样本中多张图片的特征，使用所述预训练后的文本编码器提取肿瘤相关的胃镜病例样本中多条主诉文本的特征，对提取到的多张图片的特征和多条主诉文本的特征进行特征融合得到肿瘤相关的胃镜病例样本的多模态特征；

训练模块，所述训练模块使用提取到的多张图片的特征训练预训练后的图片编码器得到训练完成的图片编码器，使用提取到的多条主诉文本的特征训练文本编码器得到训练完成的文本编码器，使用所述肿瘤相关的胃镜病例样本的多模态特征训练所述分类器得到训练完成的分类器；

预测模块，所述预测模块获取待测病例并输入所述训练完成的图片编码器、文本编码器得到待测病例的多模态特征，将待测病例的多模态特征输入训练完成的分类器进行类别预测得到胃部肿瘤的分类结果。

作为优选的，所述预训练模块使用非肿瘤相关的胃镜病例样本中的多张图片对所述图片编码器进行对比学习预训练得到预训练后的图片编码器，使用非肿瘤相关的胃镜病例样本中的多条主诉文本对所述文本编码器进行对比学习预训练得到预训练后的文本编码器，具体为：

S1-1：抽取同一个病例中的m张图片的特征得到图片特征

，其中

表示第i张图片的特征；抽取同一个病例中的n条主诉文本的特征得到文本特征

，其中

表示第j条主诉文本的特征；

S1-2：随机遮掩所述图片特征

中的一个特征得到遮掩后的图片特征

，其中

表示在位置i上使用遮掩专用特征代替原来的图片特征

；

随机遮掩所述文本特征

中的一个特征得到遮掩后的文本特征

，其中

表示在位置j上使用遮掩专用特征代替原来的文本特征

；

S1-3：使用图片编码器获取所述图片特征

的共同特征表示

和所述遮掩后的图片特征

的共同特征表示

；

使用文本编码器获取所述文本特征

的共同特征表示

和所述遮掩后的文本特征

的共同特征表示

；

S1-4：在不同的病例中随机选取k张图片和k条主诉文本，抽取k张图片的特征得到图片特征

，

表示第k张图片的特征；抽取k条主诉文本的特征得到文本特征

，

表示第k条主诉文本的特征；

结合所述

和被遮掩的图片特征

得到图片候选特征

，其中

；结合所述

和被遮掩的文本特征

得到文本候选特征

，其中

；

S1-5：将被遮掩的图片特征

对应的图片作为缺失图片，将被遮掩的文本特征

对应的主诉文本作为缺失主诉文本；

将所述图片候选特征对应的图片和所述文本候选特征对应的主诉文本组合作为对比样本，使用模态内联系计算对比样本中第s个图片成为缺失图片的概率

和第s条主诉文本成为缺失主诉文本的概率

，使用模态间联系计算使用对比样本中第s条主诉文本预测的图片成为缺失图片的概率

和使用对比样本中第s个图片预测的主诉文本成为缺失主诉文本的概率

；

S1-6：计算模态内联系的损失函数

和模态间联系的损失函数

，计算对比学习预训练的联合损失函数

；

S1-7：使用非肿瘤相关的胃镜病例样本中的多张图片对图片编码器进行对比学习预训练、使用非肿瘤相关的胃镜病例样本中的多条主诉文本对文本编码器进行对比学习预训练，直到联合损失函数

收敛停止预训练，得到预训练后的图片编码器和预训练后的文本编码器。

作为优选的，所述抽取同一个病例中的m张图片的特征时，使用卷积神经网络ResNet对m张图片进行特征抽取；所述抽取同一个病例中的n条主诉文本的特征时，使用深度神经网络BERT对n条主诉文本进行特征抽取。

作为优选的，所述图片编码器和文本编码器均为双向长短期记忆网络。

作为优选的，所述使用模态内联系计算对比样本中第s个图片成为缺失图片的概率

和第s条主诉文本成为缺失主诉文本的概率

，所述

和

的计算方法为：

，

；

其中，

为激活函数，

，

，e是自然常数；

表示计算特征的长度，

表示所有图片特征中遮蔽位置为i的特征中的第d个元素，

表示转置，

表示转置后特征的第d个元素，

表示所有主诉文本特征中遮蔽位置为i的特征中的第d 个元素。

作为优选的，所述使用模态间联系计算使用对比样本中第s条主诉文本预测的图片成为缺失图片的概率

，所述

和

的计算方法为：

，

；

其中，

为激活函数，

，

；

表示池化层，

表示将

和

特征进行压缩；

表示计算特征的长度，

表示转置，

表示转置后特征的第d个元素。

作为优选的，所述模态内联系的损失函数

为：

，

所述模态间联系的损失函数

为：

，

其中，

表示不包含s的剩余图片候选特征或文本候选特征。

作为优选的，所述多模态特征模块使用所述预训练后的图片编码器提取肿瘤相关的胃镜病例样本中多张图片的特征，使用所述预训练后的文本编码器提取肿瘤相关的胃镜病例样本中多条主诉文本的特征，对提取到的多张图片的特征和多条主诉文本的特征进行特征融合得到肿瘤相关的胃镜病例样本的多模态特征，具体为：

S2-1：对病例中的多张图片进行特征抽取得到图片特征序列

，对病例中的多条主诉文本进行特征抽取得到文本特征序列

；

S2-2：将所述图片特征序列

输入所述预训练后的图片编码器得到图片特征

；将所述文本特征序列

输入所述预训练后的文本编码器得到文本特征

；

S2-3：对所述图片特征

进行池化操作得到

，对所述文本特征

进行池化操作得到

；

S2-4：拼接

和

得到所述肿瘤相关的胃镜病例样本的多模态特征

。

作为优选的，所述分类器为多层感知机。

作为优选的，使用所述肿瘤相关的胃镜病例样本的多模态特征训练所述分类器得到训练完成的分类器，具体为：

S3-2-1：将病例的多模态特征输入多层感知机得到多模态融合特征

为：

，

其中，

为肿瘤相关的胃镜病例样本的多模态特征，W₁和W₂为多层感知机中的可学习的权重，b₁和b₂为多层感知机中的可学习的偏置，

表示激活函数；

S3-2-2：将所述多模态融合特征

输入全连接层，使用

进行分类得到分类概率分布

：

，

其中，

表示全连接层中的可学习的权重，

表示全连接层中的可学习的偏置，

为softmax函数；

S3-2-3：建立分类预测的训练目标：

，

其中，

表示真实疾病标签序列

中的第j个元素，

表示疾病类别的数量，

表示预测的所述分类概率分布

中的第j个元素；

S3-2-4：使用所述肿瘤相关的胃镜病例样本的多模态特征训练多层感知机直到

收敛，停止训练得到所述训练完成的分类器。

本发明的上述技术方案相比现有技术具有以下优点：

（1）本发明能够处理多张图片和多条主诉文本的情况，并将图片和主诉文本这两个模态的特征结合，能够极大地提高预测的效果。

（2）本发明通过将含有多张图片和多条主诉文本的非肿瘤相关的胃镜病例样本作为未标注样本，使用未标注样本预训练图片编码器和文本编码器，能够获得全面的图片和主诉文本特征表示，得到丰富的疾病信息，提高预训练效果。

（3）在预训练的基础上，将含有多张图片和多条主诉文本的肿瘤相关的胃镜病例样本作为有标注样本，使用有标注样本的多模态特征训练分类器，相比传统胃疾病预测模型，可以充分提取多张图片和多条主诉文本的特征，有效利用相似疾病更加准确的捕捉胃肿瘤相关的特征，为医生提供诊断参考。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中：

图1是现有卷积模型的示意图；

图2是对比学习预训练方法的示意图；

图3是本发明的全局结构示意图；

图4是本发明实施例中的实验流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

本发明公开了一种多模态预训练的胃部肿瘤分类系统，包括数据获取模块、特征提取模块、分类模块、预训练模块、多模态特征模块、训练模块和预测模块，各模块具体为：

所述数据获取模块获取含有多张图片和多条主诉文本的非肿瘤相关的胃镜病例样本（即未标注样本）和含有多张图片和多条主诉文本的肿瘤相关的胃镜病例样本（即有标注样本）。

所述特征提取模块包括图片编码器和文本编码器，所述分类模块包括分类器。图片编码器、文本编码器和分类器构成了如图3所示的基于病例的深度学习模型。

所述预训练模块使用非肿瘤相关的胃镜病例样本中的多张图片对图片编码器进行对比学习预训练得到预训练后的图片编码器，使用非肿瘤相关的胃镜病例样本中的多条主诉文本对文本编码器（TextEncoder）进行对比学习预训练得到预训练后的文本编码器。具体为：

S1-0：获取含有多张图片和多条主诉文本的非肿瘤相关的胃镜病例样本。

S1-1：将同一个病例的m张图片表示为

，其中

表示病例中的i张图片；将病例中的n条主诉文本表示为

，其中

表示病例中的j条主诉文本。抽取同一个病例中的m张图片的特征得到图片特征

，其中

，其中

表示第j条主诉文本的特征。

抽取图片的特征时，使用卷积神经网络ResNet对图片进行特征抽取，得到图片特征

，

表示卷积神经网络ResNet操作；抽取主诉文本的特征时，使用深度神经网络BERT对主诉文本进行特征抽取，得到文本特征

，

表示深度神经网络BERT操作。

S1-2：随机遮掩所述图片特征

中的一个特征得到遮掩后的图片特征

，其中

表示在位置i上使用遮掩专用特征代替原来的图片特征

；

随机遮掩所述文本特征

中的一个特征得到遮掩后的文本特征

，其中

表示在位置j上使用遮掩专用特征代替原来的文本特征

。本实施例中遮掩专用特征为长度为d，元素为0的一组特征序列；d是模型内特征的通用长度，通常取值为768，也可以减小特征长度来减少模型大小。

S1-3：使用图片编码器（ImageEncoder）获取所述图片特征

的共同特征表示

和所述遮掩后的图片特征

的共同特征表示

：

，

；

使用文本编码器（TextEncoder）获取所述文本特征

的共同特征表示

和所述遮掩后的文本特征

的共同特征表示

：

，

；

图片编码器和文本编码器均为双向长短期记忆网络（长短期记忆网络LongShort-Term Memory, LSTM）。

，

，

表示第k条主诉文本的特征；

结合所述

和被遮掩的图片特征

得到图片候选特征

，其中

；结合所述

和被遮掩的文本特征

得到文本候选特征

，其中

。

S1-5：由于同一病例中的多张图片和多条主诉文字之间具有相互的联系，因此可以通过其他的图片和文字来预测被遮掩的特征，预测的方法包通过模态内联系和模态间联系进行预测。模态内联系为图片和图片之间、主诉文本和主诉文本之间的联系，预测方法为利用遮掩后的图片预测缺失图片、遮掩后的主诉文本预测缺失主诉文本。模态间联系为文本和图片之间的联系，预测方法为利用所有已有的图片预测合适的主诉文本、利用所有已有的主诉文本预测合适的图片。下面将根据这两个不同来介绍多模态下两种不同的对比方法。

将被遮掩的图片特征

对应的图片作为缺失图片，将被遮掩的文本特征

对应的主诉文本作为缺失主诉文本。

将S1-4中的所述图片候选特征对应的图片和所述文本候选特征对应的主诉文本组合作为对比样本，使用模态内联系计算对比样本中第s个图片成为缺失图片的概率

和第s条主诉文本成为缺失主诉文本的概率

：

，

；

其中，

为激活函数，

，

,e是自然常数；

表示计算特征的长度，

表示所有图片特征中遮蔽位置为i的特征中的第d个元素，

表示转置，

表示转置后特征的第d个元素，

表示所有主诉文本特征中遮蔽位置为i的特征中的第d个元素。

利用主诉文本信息，从候选图片中寻找出相关的图片；利用图片信息，从候选主诉文本中找出相关的主诉文本。使用模态间联系计算使用对比样本中第s条主诉文本预测的图片成为缺失图片的概率

：

，其中

，

，其中

；

其中，

为激活函数，

，

；

表示池化层，

表示将

和

特征进行压缩；

表示计算特征的长度，

表示转置，

表示转置后特征的第d 个元素。

模态间的对比学习能够使主诉文本或图片学习到跨模态信息，比如主诉文本特征能够学习到一些图片症状相关的特征，而图片能够学习到一些文本所指代的病情焦点。这种融合能够帮助建立统一的多模态特征，避免不同模态（图片和文本）由于信息表现形式不一样带来的模态特征冲突。

S1-6：计算模态内联系的损失函数

和模态间联系的损失函数

：

，

，

其中，

表示不包含s的剩余图片候选特征或文本候选特征。

计算对比学习预训练的联合损失函数

。

所述多模态特征模块使用所述预训练后的图片编码器提取肿瘤相关的胃镜病例样本中多张图片的特征，使用所述预训练后的文本编码器提取肿瘤相关的胃镜病例样本中多条主诉文本的特征，对提取到的多张图片的特征和多条主诉文本的特征进行特征融合得到肿瘤相关的胃镜病例样本的多模态特征。具体为：

S2-0：获取含有多张图片和多条主诉文本的肿瘤相关的胃镜病例样本。

S2-1：对病例中的多张图片进行特征抽取（此阶段无需遮蔽）得到图片特征序列

，对病例中的多条主诉文本进行特征抽取（此阶段无需遮蔽）得到文本特征序列

；

S2-2：将所述图片特征序列

输入所述预训练后的图片编码器得到图片特征

；将所述文本特征序列

输入所述预训练后的文本编码器得到文本特征

；

S2-3：对所述图片特征

进行池化操作得到

，对所述文本特征

进行池化操作得到

：

，

；

S2-4：拼接

和

得到所述肿瘤相关的胃镜病例样本的多模态特征

为：

，

其中

表示拼接操作。

所述训练模块使用提取到的肿瘤相关的胃镜病例样本中多张图片的特征训练预训练后的图片编码器得到训练完成的图片编码器，使用提取到的肿瘤相关的胃镜病例样本中多条主诉文本的特征训练文本编码器得到训练完成的文本编码器，使用所述肿瘤相关的胃镜病例样本的多模态特征训练分类器得到训练完成的分类器。本实施例中的分类器为多层感知机（Multilayer Perceptron, MLP），使用所述肿瘤相关的胃镜病例样本的多模态特征训练多层感知机得到训练完成的多层感知机。具体为：

S3-1：使用提取到的肿瘤相关的胃镜病例样本中多张图片的特征训练预训练后的图片编码器得到训练完成的图片编码器，使用提取到的肿瘤相关的胃镜病例样本中多条主诉文本的特征训练文本编码器得到训练完成的文本编码器，具体为：

将提取到的肿瘤相关的胃镜病例样本中多张图片的特征作为训练预训练后的图片编码器的训练集，使用双向长短期记忆网络的损失反向更新和微调预训练后的图片编码器得到训练完成的图片编码器；

将提取到的肿瘤相关的胃镜病例样本中多条主诉文本的特征作为训练预训练后的文本编码器的训练集，使用双向长短期记忆网络的损失反向更新和微调预训练后的文本编码器得到训练完成的文本编码器。

S3-2：使用所述肿瘤相关的胃镜病例样本的多模态特征训练分类器得到训练完成的分类器，具体为：

为：

，

其中，

表示激活函数，

，

，

表示取最大值；可学习的权重和可学习的偏置在模型的学习中动态更新。

S3-2-2：将所述多模态融合特征

输入全连接层，使用

进行分类得到分类概率分布

：

，

其中，

表示全连接层中的可学习的权重，

表示全连接层中的可学习的偏置，

为softmax函数；

S3-2-3：建立分类预测的训练目标：

，

其中，

表示真实标签和预测结果之间的交叉熵损失，

表示真实疾病标签序列

中的第j个元素，

表示疾病类别的数量，

表示预测的所述分类概率分布

中的第j个元素；

是一组样本的正确疾病标签序列，长度为疾病的类别数量

。例如,第3个标签为正确的一组标签，假设标签长度

，那么

；同样的，概率分布可能就是

= [0.1, 0.1, 0.4, 0.2, 0.2]。

收敛，停止训练得到所述训练完成的分类器。

所述预测模块获取待测病例并输入所述训练完成的图片编码器、文本编码器，使用与S2-1~S2-4中相同的方法得到待测病例的多模态特征，将待测病例的多模态特征输入训练完成的分类器进行类别预测得到胃部肿瘤的分类结果，实现胃部肿瘤的识别，为医生提供诊断参考。

本发明能够处理多张图片和多条主诉文本的情况，并将图片和主诉文本这两个模态的特征结合，能够极大地提高预测的效果。本发明通过将含有多张图片和多条主诉文本的非肿瘤相关的胃镜病例样本作为未标注样本，使用未标注样本预训练图片编码器和文本编码器，能够获得全面的图片和主诉文本特征表示，得到丰富的疾病信息；相比传统的预训练方法，更加容易获得正负例样本（正负例样本来自非肿瘤相关的胃镜病例样本，在训练过程中，来自同一病例样本的为正例，其他为负例），并且预训练的模型结果相对简单、损失计算也相对容易，使得预训练时间更短。在预训练的基础上，将含有多张图片和多条主诉文本的肿瘤相关的胃镜病例样本作为有标注样本，使用有标注样本的多模态特征训练分类器，相比传统胃疾病预测模型，可以充分提取多张图片和多条主诉文本的特征，有效利用相似疾病更加准确的捕捉胃肿瘤相关的特征，为医生提供诊断参考。

为了进一步说明本发明的有益效果，本实施例中使用本发明获取待测病例的诊断结果，同时邀请2名有丰富胃镜经验的医生进行诊断，从整体准确率、灵敏度和阳性预测值几方面对诊断结果进行对比。其中：

整体准确率=识别正确的病例数/测试集病的实际病例数×100%，

灵敏度=识别正确某一类别病例数/该类别的实际病例数×100%，

阳性预测值=识别正确某一类别的病例数/被本发明或内镜医师识别成该类别的病例数×100%。

本实施例中以病例为样本单位，将每个病例的多张图片和主诉文本作为样本的输入。（1）制作有标注的数据集。专业人员（医生等）标注和整理大量的胃肿瘤病例，从每个病例中整理出很多张胃镜图片和主诉文本（病人描述的病情）。同时，每个病例标注一种或多重疾病。专业人员标注和整理大量带有胃良、恶性肿瘤标签的图片，每个图片作为一个样本，获得有标注样本；（2）制作无标注的数据集。整理和大规模收集胃镜病例，每个病例包含多张图片和主诉文本，但不进行标注。来源较为广泛，可不专注于胃部肿瘤。（3）利用深度学习方法，使用无标注样本预训练多模态模型（图片编码器和文本编码器）。（4）利用预训练后的多模态模型训练分类器。（5）基于预训练后的多模态表示，使用分类器对某个未知标签的待测病例进行预测，获得该待测病例的胃良、恶性肿瘤标签。测试过程中，每次输入分类器的病例都包含多张图片和主诉文本。具体为：

收集了内镜中心胃镜检查（包括无痛胃镜、清醒镇静胃镜及普通胃镜检查等）患者的胃镜图片和主诉文本。图片拍摄设备主要为 Olympus 公司 240、260、290系列以及日本Fujinon公司560、580系列内镜。病例中所有图片在白光非放大模式下拍摄，BLI、FICE、NBI等光学染色及靛胭脂、醋酸染色放大等化学染色暂不做研究。纳入标准为：诊断为恶性胃肿瘤、良性胃肿瘤和正常胃镜粘膜图片（良恶性肿瘤的诊断有活检病理结果支撑）。排除标准为：①患者小于16岁或者大于95岁；②图片异常模糊、伪影、异常失真等影响观察的图片；③有大量泡沫、粘液湖或者食物等干扰严重的图片。符合纳入标准和排除标准的样本收入训练的原始数据集。同时，本实施例中收集主诉文本，病例中所有主诉文本由患者提出。纳入标准为：①一个病例不少于2条。②主诉文本必须和病情相关，为对于病情的描述。符合纳入标准的主诉文本的病例收入训练的原始数据集。

按照纳入标准，共计获得80，000例无标注病例样本，8,483例有标注病例样本。标注样本中，恶性肿瘤，良性肿瘤以及无肿瘤的病例为：2982例，1510例，3991例。图片使用人工智能视觉处理的方法，使用格式转换、图像尺寸缩放、图像增强、图像归一化等一系列方法把图片处理成人工智能模型能够理解的格式。按照人工智能中通用的数据集分割办法，将有标注和无标注样本分割，分割比例为8:1:1。具体如下：将80,000无标注病例样本分为了训练集（64000例），测试集（8000例），验证集（8000例）。将8483例有标注病例样本分为了训练集（恶性2385例，良性1208例，正常3192例）测试集（恶性298例，良性151例，正常399例）验证集（恶性299例，良性151例，正常400例）。验证集合是验证当前这一轮模型训练效果，从所有的验证结果中，挑选最好的一轮的训练模型。测试集用来测试在真实场景中模型的实际效果，测试集没有人工干预挑选，更加符合真实场景。

如图4实验流程所示，实验流程为：

首先，进行多模态预训练：使用无标注病例样本中的训练集对多模态特征提取器（即图片编码器和文本编码器）进行对比学习预训练，使用验证集多次调整多模态特征提取器的参数（人工调整学习率等参数），挑选预训练结果最佳的作为预训练完成的多模态特征提取器。

接着，进行肿瘤分类训练：使用预训练完成的胃镜病例相关的多模态特征提取器提取有标注病例样本中的病例多模态特征，使用有标注病例样本中的训练集的病例多模态特征训练预训练完成的多模态特征提取器和肿瘤分类器，使用验证集的病例多模态特征多次调整多模态特征提取器和肿瘤分类器的参数，挑选训练结果最佳的作为训练完成的多模态特征提取器和肿瘤分类器。

最后，进行肿瘤分类预测：将待预测的病例输入训练完成的多模态特征提取器得到多模态特征，将多模态特征输入训练完成的肿瘤分类器得到诊断结果。

实验结果显示，医生诊断的整体准确率为85%，本发明的整体准确率为90%、提高了5%。医生诊断的灵敏度为83%，本发明的整体正确率为88%。医生诊断的整体阳性预测值为87%，本发明的阳性预测值为90%。本方法不仅能同时利用多模态信息（多张图片和多条主诉文本），还利用了非肿瘤相关的胃镜病例进行预训练，相比现有技术极大提高了诊断性能。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种多模态预训练的胃部肿瘤分类系统，其特征在于，包括：

分类模块，所述分类模块包括分类器；

2.根据权利要求1所述的多模态预训练的胃部肿瘤分类系统，其特征在于：所述预训练模块使用非肿瘤相关的胃镜病例样本中的多张图片对所述图片编码器进行对比学习预训练得到预训练后的图片编码器，使用非肿瘤相关的胃镜病例样本中的多条主诉文本对所述文本编码器进行对比学习预训练得到预训练后的文本编码器，具体为：

S1-1：抽取同一个病例中的m张图片的特征得到图片特征

，其中

，其中

表示第j条主诉文本的特征；

S1-2：随机遮掩所述图片特征

中的一个特征得到遮掩后的图片特征

，其中

表示在位置i上使用遮掩专用特征代替原来的图片特征

；

随机遮掩所述文本特征

中的一个特征得到遮掩后的文本特征

，其中

表示在位置j上使用遮掩专用特征代替原来的文本特征

；

S1-3：使用图片编码器获取所述图片特征

的共同特征表示

和所述遮掩后的图片特征

的共同特征表示

；

使用文本编码器获取所述文本特征

的共同特征表示

和所述遮掩后的文本特征

的共同特征表示

；

，

，

表示第k条主诉文本的特征；

结合所述

和被遮掩的图片特征

得到图片候选特征

，其中

；结合所述

和被遮掩的文本特征

得到文本候选特征

，其中

；

S1-5：将被遮掩的图片特征

对应的图片作为缺失图片，将被遮掩的文本特征

对应的主诉文本作为缺失主诉文本；

和第s条主诉文本成为缺失主诉文本的概率

；

S1-6：计算模态内联系的损失函数

和模态间联系的损失函数

，计算对比学习预训练的联合损失函数

；

3.根据权利要求2所述的多模态预训练的胃部肿瘤分类系统，其特征在于：所述抽取同一个病例中的m张图片的特征时，使用卷积神经网络ResNet对m张图片进行特征抽取；所述抽取同一个病例中的n条主诉文本的特征时，使用深度神经网络BERT对n条主诉文本进行特征抽取。

4.根据权利要求2所述的多模态预训练的胃部肿瘤分类系统，其特征在于：所述图片编码器和文本编码器均为双向长短期记忆网络。

5.根据权利要求2所述的多模态预训练的胃部肿瘤分类系统，其特征在于：所述使用模态内联系计算对比样本中第s个图片成为缺失图片的概率

和第s条主诉文本成为缺失主诉文本的概率

，所述

和

的计算方法为：

，

；

其中，

为激活函数，

，

，e是自然常数；

表示计算特征的长度，

表示所有图片特征中遮蔽位置为i的特征中的第d个元素，

表示转置，

表示转置后特征的第d个元素，

6.根据权利要求2所述的多模态预训练的胃部肿瘤分类系统，其特征在于：所述使用模态间联系计算使用对比样本中第s条主诉文本预测的图片成为缺失图片的概率

，所述

和

的计算方法为：

，

；

其中，

为激活函数，

，

；

表示池化层，

表示将

和

特征进行压缩；

表示计算特征的长度，

表示转置，

表示转置后特征的第d个元素。

7.根据权利要求2所述的多模态预训练的胃部肿瘤分类系统，其特征在于：所述模态内联系的损失函数

为：

，

所述模态间联系的损失函数

为：

，

其中，

表示不包含s的剩余图片候选特征或文本候选特征。

8.根据权利要求1所述的多模态预训练的胃部肿瘤分类系统，其特征在于：所述多模态特征模块使用所述预训练后的图片编码器提取肿瘤相关的胃镜病例样本中多张图片的特征，使用所述预训练后的文本编码器提取肿瘤相关的胃镜病例样本中多条主诉文本的特征，对提取到的多张图片的特征和多条主诉文本的特征进行特征融合得到肿瘤相关的胃镜病例样本的多模态特征，具体为：

S2-1：对病例中的多张图片进行特征抽取得到图片特征序列