CN115115897A - 多模态预训练的胃部肿瘤分类系统 - Google Patents

多模态预训练的胃部肿瘤分类系统 Download PDF

Info

Publication number
CN115115897A
CN115115897A CN202211031028.2A CN202211031028A CN115115897A CN 115115897 A CN115115897 A CN 115115897A CN 202211031028 A CN202211031028 A CN 202211031028A CN 115115897 A CN115115897 A CN 115115897A
Authority
CN
China
Prior art keywords
picture
text
features
trained
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211031028.2A
Other languages
English (en)
Other versions
CN115115897B (zh
Inventor
何顺辉
李峰
张希钢
赖春晓
王镇煜
邱霖
万苹
赵志芳
江海洋
赖正义
戴捷
邵贝
鹿伟民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zidong Information Technology Suzhou Co ltd
Original Assignee
Zidong Information Technology Suzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zidong Information Technology Suzhou Co ltd filed Critical Zidong Information Technology Suzhou Co ltd
Priority to CN202211031028.2A priority Critical patent/CN115115897B/zh
Publication of CN115115897A publication Critical patent/CN115115897A/zh
Application granted granted Critical
Publication of CN115115897B publication Critical patent/CN115115897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种多模态预训练的胃部肿瘤分类系统,涉及医学图像处理技术领域,包括数据获取模块获取含有多图片和主诉文本的非肿瘤相关和肿瘤相关的胃镜病例分别作为未标注样本和有标注样本,预训练模块使用未标注样本对图片编码器、文本编码器进行对比学习预训练;多模态特征模块使用预训练后的编码器提取有标注样本的特征并融合得到多模态特征;训练模块使用有标注样本的特征训练预训练后的编码器,使用多模态特征训练分类器;预测模块得到待测病例的多模态特征并输入训练完成的分类器得到胃部肿瘤的分类结果。本发明可以提取多张图片和多条主诉文本的特征,有效利用相似疾病更准确地捕捉胃肿瘤相关的特征,为医生提供诊断参考。

Description

多模态预训练的胃部肿瘤分类系统
技术领域
本发明涉及医学图像处理技术领域,尤其是指一种多模态预训练的胃部肿瘤分类系统。
背景技术
胃部肿瘤是消化系统常见疾病,可分为恶性和良性。恶性肿瘤包括胃癌、恶性淋巴瘤和恶性间质瘤等。以胃癌最为常见,其发生率在消化道恶性肿瘤中居首位。胃良性肿瘤,占胃肿瘤的2%,可分两大类:一类来源于黏膜的良性上皮细胞瘤,如胃腺瘤、腺瘤性息肉等。另一类是良性间叶组织肿瘤,如间质瘤、脂肪瘤和神经纤维瘤等。常见的症状是消化道出血,可有上腹隐痛、不适等表现。部分患者可扪及腹部肿块,位于幽门部较大的肿瘤,可引起梗阻。胃肿瘤很少出现症状 ,有的因肿瘤生长较大发生并发症或恶变后才发生症状 ,所以易被忽略。对胃肿瘤靠临床症状很难确诊。 X光钡剂检查可见胃内有边缘整齐的圆形充盈缺损 ,肿瘤表现有溃疡时可见龛影。但是 , X线钡剂检查并不能鉴别肿瘤的良恶性 ,尤其更不能发现肿瘤的早期恶变。因此胃镜的检查尤为重要。胃镜下可见息肉样脉瘤呈球形、单发或多发 ,有蒂或广基。若腺癌表面有结节、糜烂、溃疡或菜花样改变、色泽较周围粘膜苍白 ,广基且周围胃粘膜较肥厚者 ,则多为恶变。胃镜检查是早期发现良恶性肿瘤的关键手段,根据胃镜片特征能够很好的是否具有胃良、恶肿瘤疾病,但是通常需要医生具有较长的胃镜操作经验。基于人工智能技术的胃良、恶肿瘤胃图片分类方法可以辅助医生做出更准确的判断,同时可以降低医生漏掉可疑的早期胃肿瘤的概率。
在人工智能领域,基于单张图片分类的方法通常被用于鉴定胃部是否存在良、恶肿瘤疾病。这种人工智能方法是利用计算机视觉等深度学习方法从单个图片中提取视觉信息的过程。当前使用较为广泛的人工智能方法是将该问题建模为输入一张图像进入模型并输出一个标签的问题。在胃良、恶肿瘤疾病分类方面,标签为胃良性肿瘤和胃恶性肿瘤。
基于单张图片分类的方法通常分为以下几个步骤:第一步、专业人员收集大量带有胃良、恶性肿瘤标签的图片,每个图片作为一个样本,标注这些图片,获得带有标注的标注语料。第二步、基于深度学习网络(一般是多层卷积神经网络)使用标注好的语料训练,获得图片分类模型。深度学习网络一般采用的是当前流行的卷积神经网络。如图1所示,现有卷积模型通常包含图片编码器(ImageEncoder)层、全连接层。图片编码器层负责提取图像的特征,一般由一系列的卷积层、激活层、池化层、自注意力层等组成,常用的图片编码器层包括VGG、Res Net、Dense Net、Efficient Net等。全连接层负责将图像特征映射到图片的类别。输入一张图进入图片编码器层,通过图片编码器中一系列的卷积层、激活层、池化层、自注意力层等对图像进行编码,获得图片特征;最后通过全连接实现图片分类。第三步、使用图片分类模型对某个未知标签的图片进行测试,判断该图片为胃良、恶性肿瘤。测试过程中,每次输入分类模型的是单张图片,输出为单个标签。
但是,现有技术也存在缺点,包括:
(1)单张图片并不能处理一个病例有多张图片的情况,不能给出综合预测。胃镜诊断过程往往有多张图片构成一个患者的病例,需要从不同角度观察胃部疾病,通过单张图片很难判断,因而传统的基于单张图片分类的预测模型无法准确预测这种多图片的病例、性能差。
(2)当病例诊断过程存在主诉文本(病人向医生描述自己病情的内容)时,这些主诉文本具有丰富的疾病信息,但是现有技术却不能充分利用这些信息。在实际诊断的过程中,专业医生在判断某个病人是否具有胃良、恶肿瘤疾病的时候,往往会结合病人的多张胃镜图片和主诉文本进行判断,现有技术不能结合多个图片病例和主诉文本。
(3)病例资源的有标注样本通常较少,没有考虑利用大量无标注的病例。有标注数据样本少会使病情相关特征很难被模型学习到,导致准确率下降。
(4)一些非肿瘤相关的胃镜病例能够提供丰富的信息,胃部疾病往往具有很多相似性,其他疾病能够为胃部肿瘤提供指导,但是传统的预训练方法只能学习到图片内部的关联特征或主诉文本语句内部关联特征。例如图片预训练将图片分割成多块,预训练过程为:使用遮掩模块遮掩其中一块,利用剩余的信息预测出缺失的一块。文本预训练为:遮掩一句话中某个单词,利用剩余的文字预测出这个词。这些方法针对单张图片或单句文本较为合适,可以学习到内部语义特征,但是没有很强的疾病针对性。如图2所示的对比学习预训练方法可以学习到胃镜图片之间的不同之处,增加对疾病特征的关注。但是也存在对于有多张图片和多句主诉文本的病例,不能学习到同一病例中图片之间的相互关系和主诉文本之间的相互关系的问题。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中的不足,提供一种多模态预训练的胃部肿瘤分类系统,可以充分提取多张图片和多条主诉文本的特征,有效利用相似疾病更加准确的捕捉胃肿瘤相关的特征,为医生提供诊断参考。
为解决上述技术问题,本发明提供了一种多模态预训练的胃部肿瘤分类系统,包括:
数据获取模块,所述数据获取模块获取含有多张图片和多条主诉文本的非肿瘤相关的胃镜病例样本和含有多张图片和多条主诉文本的肿瘤相关的胃镜病例样本;
特征提取模块,所述特征提取模块包括图片编码器和文本编码器;
分类模块,所述分类模块包括分类器;
预训练模块,所述预训练模块使用非肿瘤相关的胃镜病例样本中的多张图片对所述图片编码器进行对比学习预训练得到预训练后的图片编码器,使用非肿瘤相关的胃镜病例样本中的多条主诉文本对所述文本编码器进行对比学习预训练得到预训练后的文本编码器;
多模态特征模块,所述多模态特征模块使用所述预训练后的图片编码器提取肿瘤相关的胃镜病例样本中多张图片的特征,使用所述预训练后的文本编码器提取肿瘤相关的胃镜病例样本中多条主诉文本的特征,对提取到的多张图片的特征和多条主诉文本的特征进行特征融合得到肿瘤相关的胃镜病例样本的多模态特征;
训练模块,所述训练模块使用提取到的多张图片的特征训练预训练后的图片编码器得到训练完成的图片编码器,使用提取到的多条主诉文本的特征训练文本编码器得到训练完成的文本编码器,使用所述肿瘤相关的胃镜病例样本的多模态特征训练所述分类器得到训练完成的分类器;
预测模块,所述预测模块获取待测病例并输入所述训练完成的图片编码器、文本编码器得到待测病例的多模态特征,将待测病例的多模态特征输入训练完成的分类器进行类别预测得到胃部肿瘤的分类结果。
作为优选的,所述预训练模块使用非肿瘤相关的胃镜病例样本中的多张图片对所述图片编码器进行对比学习预训练得到预训练后的图片编码器,使用非肿瘤相关的胃镜病例样本中的多条主诉文本对所述文本编码器进行对比学习预训练得到预训练后的文本编码器,具体为:
S1-1:抽取同一个病例中的m张图片的特征得到图片特征
Figure 542657DEST_PATH_IMAGE001
,其中
Figure 691879DEST_PATH_IMAGE002
表示第i张图片的特征;抽取同一个病例 中的n条主诉文本的特征得到文本特征
Figure 103269DEST_PATH_IMAGE003
,其中
Figure 400258DEST_PATH_IMAGE004
表 示第j条主诉文本的特征;
S1-2:随机遮掩所述图片特征
Figure 289716DEST_PATH_IMAGE005
中的一个特征得到遮掩后的图片特征
Figure 57559DEST_PATH_IMAGE006
,其中
Figure 498905DEST_PATH_IMAGE007
表示在位置i上使用遮掩 专用特征代替原来的图片特征
Figure 892977DEST_PATH_IMAGE008
随机遮掩所述文本特征
Figure 976339DEST_PATH_IMAGE009
中的一个特征得到遮掩后的文本特征
Figure 772257DEST_PATH_IMAGE010
,其中
Figure 853346DEST_PATH_IMAGE011
表示在位置j上使用遮 掩专用特征代替原来的文本特征
Figure 360812DEST_PATH_IMAGE004
S1-3:使用图片编码器获取所述图片特征
Figure 592074DEST_PATH_IMAGE012
的共同特征表示
Figure 367132DEST_PATH_IMAGE013
和所述遮掩后 的图片特征
Figure 556805DEST_PATH_IMAGE014
的共同特征表示
Figure 50103DEST_PATH_IMAGE015
使用文本编码器获取所述文本特征
Figure 412951DEST_PATH_IMAGE016
的共同特征表示
Figure 917882DEST_PATH_IMAGE017
和所述遮掩后的文本 特征
Figure 907484DEST_PATH_IMAGE018
的共同特征表示
Figure 763445DEST_PATH_IMAGE019
S1-4:在不同的病例中随机选取k张图片和k条主诉文本,抽取k张图片的特征得到 图片特征
Figure 461142DEST_PATH_IMAGE020
Figure 414055DEST_PATH_IMAGE021
表示第k张图片的特征;抽取k条主诉文本的特征得到文 本特征
Figure 679951DEST_PATH_IMAGE022
Figure 147842DEST_PATH_IMAGE023
表示第k条主诉文本的特征;
结合所述
Figure 790175DEST_PATH_IMAGE020
和被遮掩的图片特征
Figure 895797DEST_PATH_IMAGE024
得到图片候选特征
Figure 660491DEST_PATH_IMAGE025
,其中
Figure 225464DEST_PATH_IMAGE026
;结合所述
Figure 530544DEST_PATH_IMAGE027
和被遮掩的文本特征
Figure 130152DEST_PATH_IMAGE004
得到文本候选特征
Figure 862485DEST_PATH_IMAGE028
,其中
Figure 741186DEST_PATH_IMAGE029
S1-5:将被遮掩的图片特征
Figure 459743DEST_PATH_IMAGE030
对应的图片作为缺失图片,将被遮掩的文 本特征
Figure 304071DEST_PATH_IMAGE031
对应的主诉文本作为缺失主诉文本;
将所述图片候选特征对应的图片和所述文本候选特征对应的主诉文本组合作为 对比样本,使用模态内联系计算对比样本中第s个图片成为缺失图片的概率
Figure 82671DEST_PATH_IMAGE032
和第s条主 诉文本成为缺失主诉文本的概率
Figure 746871DEST_PATH_IMAGE033
,使用模态间联系计算使用对比样本中第s条主诉文本 预测的图片成为缺失图片的概率
Figure 597015DEST_PATH_IMAGE034
和使用对比样本中第s个图片预测的主诉文本成为缺 失主诉文本的概率
Figure 905637DEST_PATH_IMAGE035
S1-6:计算模态内联系的损失函数
Figure 481237DEST_PATH_IMAGE036
和模态间联系的损失函数
Figure 508099DEST_PATH_IMAGE037
,计算 对比学习预训练的联合损失函数
Figure 161934DEST_PATH_IMAGE038
S1-7:使用非肿瘤相关的胃镜病例样本中的多张图片对图片编码器进行对比学习 预训练、使用非肿瘤相关的胃镜病例样本中的多条主诉文本对文本编码器进行对比学习预 训练,直到联合损失函数
Figure 449696DEST_PATH_IMAGE039
收敛停止预训练,得到预训练后的图片编码器和预训练后的 文本编码器。
作为优选的,所述抽取同一个病例中的m张图片的特征时,使用卷积神经网络ResNet对m张图片进行特征抽取;所述抽取同一个病例中的n条主诉文本的特征时,使用深度神经网络BERT对n条主诉文本进行特征抽取。
作为优选的,所述图片编码器和文本编码器均为双向长短期记忆网络。
作为优选的,所述使用模态内联系计算对比样本中第s个图片成为缺失图片的概 率
Figure 570099DEST_PATH_IMAGE032
和第s条主诉文本成为缺失主诉文本的概率
Figure 474469DEST_PATH_IMAGE033
,所述
Figure 338520DEST_PATH_IMAGE032
Figure 973464DEST_PATH_IMAGE033
的计算方法为:
Figure 858244DEST_PATH_IMAGE040
Figure 594119DEST_PATH_IMAGE041
其中,
Figure 120915DEST_PATH_IMAGE042
为激活函数,
Figure 524214DEST_PATH_IMAGE043
Figure 376633DEST_PATH_IMAGE044
,e是自然常数;
Figure 429165DEST_PATH_IMAGE045
表示计算特征的长度,
Figure 900597DEST_PATH_IMAGE046
表示所有图片特征中遮蔽位置为i的特征中的第d个元素,
Figure 17458DEST_PATH_IMAGE047
表示转置,
Figure 978461DEST_PATH_IMAGE048
表示 转置后特征的第d个元素,
Figure 688928DEST_PATH_IMAGE049
表示所有主诉文本特征中遮蔽位置为i的特征中的第d 个元素。
作为优选的,所述使用模态间联系计算使用对比样本中第s条主诉文本预测的图 片成为缺失图片的概率
Figure 823106DEST_PATH_IMAGE050
和使用对比样本中第s个图片预测的主诉文本成为缺失主诉 文本的概率
Figure 669839DEST_PATH_IMAGE051
,所述
Figure 628174DEST_PATH_IMAGE050
Figure 560358DEST_PATH_IMAGE051
的计算方法为:
Figure 498227DEST_PATH_IMAGE052
Figure 792942DEST_PATH_IMAGE053
其中,
Figure 767852DEST_PATH_IMAGE042
为激活函数,
Figure 843124DEST_PATH_IMAGE054
Figure 194471DEST_PATH_IMAGE055
Figure 641895DEST_PATH_IMAGE056
表示池化层,
Figure 115602DEST_PATH_IMAGE057
表示 将
Figure 22378DEST_PATH_IMAGE058
Figure 302049DEST_PATH_IMAGE059
特征进行压缩;
Figure 977881DEST_PATH_IMAGE045
表示计算特征的长度,
Figure 950385DEST_PATH_IMAGE047
表示转置,
Figure 176748DEST_PATH_IMAGE048
表示转置后特征 的第d个元素。
作为优选的,所述模态内联系的损失函数
Figure 869898DEST_PATH_IMAGE036
为:
Figure 790449DEST_PATH_IMAGE060
所述模态间联系的损失函数
Figure 137117DEST_PATH_IMAGE061
为:
Figure 752906DEST_PATH_IMAGE062
其中,
Figure 374380DEST_PATH_IMAGE063
表示不包含s的剩余图片候选特征或文 本候选特征。
作为优选的,所述多模态特征模块使用所述预训练后的图片编码器提取肿瘤相关的胃镜病例样本中多张图片的特征,使用所述预训练后的文本编码器提取肿瘤相关的胃镜病例样本中多条主诉文本的特征,对提取到的多张图片的特征和多条主诉文本的特征进行特征融合得到肿瘤相关的胃镜病例样本的多模态特征,具体为:
S2-1:对病例中的多张图片进行特征抽取得到图片特征序列
Figure 290384DEST_PATH_IMAGE064
,对病例中的多条 主诉文本进行特征抽取得到文本特征序列
Figure 840576DEST_PATH_IMAGE065
S2-2:将所述图片特征序列
Figure 537137DEST_PATH_IMAGE064
输入所述预训练后的图片编码器得到图片特征
Figure 572089DEST_PATH_IMAGE066
;将所述文本特征序列
Figure 201653DEST_PATH_IMAGE065
输入所述预训练后的文本编码器得到文本特征
Figure 562227DEST_PATH_IMAGE067
S2-3:对所述图片特征
Figure 277242DEST_PATH_IMAGE066
进行池化操作得到
Figure 115885DEST_PATH_IMAGE068
,对所述文本特征
Figure 364071DEST_PATH_IMAGE067
进行池化操 作得到
Figure 957863DEST_PATH_IMAGE069
S2-4:拼接
Figure 35541DEST_PATH_IMAGE068
Figure 802508DEST_PATH_IMAGE069
得到所述肿瘤相关的胃镜病例样本的多模态特征
Figure 282031DEST_PATH_IMAGE070
作为优选的,所述分类器为多层感知机。
作为优选的,使用所述肿瘤相关的胃镜病例样本的多模态特征训练所述分类器得到训练完成的分类器,具体为:
S3-2-1:将病例的多模态特征输入多层感知机得到多模态融合特征
Figure 46725DEST_PATH_IMAGE071
为:
Figure 237797DEST_PATH_IMAGE072
其中,
Figure 418243DEST_PATH_IMAGE073
为肿瘤相关的胃镜病例样本的多模态特征,W1和W2为多层感知机中的可学 习的权重,b1和b2为多层感知机中的可学习的偏置,
Figure 142485DEST_PATH_IMAGE074
表示激活函数;
S3-2-2:将所述多模态融合特征
Figure 15763DEST_PATH_IMAGE071
输入全连接层,使用
Figure 927087DEST_PATH_IMAGE075
进行分类得到分类概率 分布
Figure 239120DEST_PATH_IMAGE076
Figure 693235DEST_PATH_IMAGE077
其中,
Figure 378162DEST_PATH_IMAGE078
表示全连接层中的可学习的权重,
Figure 652148DEST_PATH_IMAGE079
表示全连接层中的可学习的偏置,
Figure 502292DEST_PATH_IMAGE080
为softmax函数;
S3-2-3:建立分类预测的训练目标:
Figure 935548DEST_PATH_IMAGE081
其中,
Figure 885049DEST_PATH_IMAGE082
表示真实疾病标签序列
Figure 302124DEST_PATH_IMAGE083
中的第j个元素,
Figure 362484DEST_PATH_IMAGE084
表示疾病类别的数量,
Figure 417290DEST_PATH_IMAGE085
表示预测的所述分类概率分布
Figure 537693DEST_PATH_IMAGE086
中的第j个元素;
S3-2-4:使用所述肿瘤相关的胃镜病例样本的多模态特征训练多层感知机直到
Figure 910905DEST_PATH_IMAGE087
收敛,停止训练得到所述训练完成的分类器。
本发明的上述技术方案相比现有技术具有以下优点:
(1)本发明能够处理多张图片和多条主诉文本的情况,并将图片和主诉文本这两个模态的特征结合,能够极大地提高预测的效果。
(2)本发明通过将含有多张图片和多条主诉文本的非肿瘤相关的胃镜病例样本作为未标注样本,使用未标注样本预训练图片编码器和文本编码器,能够获得全面的图片和主诉文本特征表示,得到丰富的疾病信息,提高预训练效果。
(3)在预训练的基础上,将含有多张图片和多条主诉文本的肿瘤相关的胃镜病例样本作为有标注样本,使用有标注样本的多模态特征训练分类器,相比传统胃疾病预测模型,可以充分提取多张图片和多条主诉文本的特征,有效利用相似疾病更加准确的捕捉胃肿瘤相关的特征,为医生提供诊断参考。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中:
图1是现有卷积模型的示意图;
图2是对比学习预训练方法的示意图;
图3是本发明的全局结构示意图;
图4是本发明实施例中的实验流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本发明公开了一种多模态预训练的胃部肿瘤分类系统,包括数据获取模块、特征提取模块、分类模块、预训练模块、多模态特征模块、训练模块和预测模块,各模块具体为:
所述数据获取模块获取含有多张图片和多条主诉文本的非肿瘤相关的胃镜病例样本(即未标注样本)和含有多张图片和多条主诉文本的肿瘤相关的胃镜病例样本(即有标注样本)。
所述特征提取模块包括图片编码器和文本编码器,所述分类模块包括分类器。图片编码器、文本编码器和分类器构成了如图3所示的基于病例的深度学习模型。
所述预训练模块使用非肿瘤相关的胃镜病例样本中的多张图片对图片编码器进行对比学习预训练得到预训练后的图片编码器,使用非肿瘤相关的胃镜病例样本中的多条主诉文本对文本编码器(TextEncoder)进行对比学习预训练得到预训练后的文本编码器。具体为:
S1-0:获取含有多张图片和多条主诉文本的非肿瘤相关的胃镜病例样本。
S1-1:将同一个病例的m张图片表示为
Figure 102852DEST_PATH_IMAGE088
,其中
Figure 386066DEST_PATH_IMAGE089
表示 病例中的i张图片;将病例中的n条主诉文本表示为
Figure 802004DEST_PATH_IMAGE090
,其中
Figure 803458DEST_PATH_IMAGE091
表 示病例中的j条主诉文本。抽取同一个病例中的m张图片的特征得到图片特征
Figure 94368DEST_PATH_IMAGE092
,其中
Figure 232089DEST_PATH_IMAGE002
表示第i张图片的特征;抽取同一个病例中的n条 主诉文本的特征得到文本特征
Figure 818928DEST_PATH_IMAGE093
,其中
Figure 369995DEST_PATH_IMAGE004
表示第j条主诉文 本的特征。
抽取图片的特征时,使用卷积神经网络ResNet对图片进行特征抽取,得到图片特 征
Figure 841428DEST_PATH_IMAGE094
Figure 958288DEST_PATH_IMAGE095
表示卷积神经网络ResNet操作;抽取主诉文本的特征时, 使用深度神经网络BERT对主诉文本进行特征抽取,得到文本特征
Figure 856974DEST_PATH_IMAGE096
Figure 193540DEST_PATH_IMAGE097
表示深度神经网络BERT操作。
S1-2:随机遮掩所述图片特征
Figure 203084DEST_PATH_IMAGE005
中的一个特征得到遮掩后的图片特征
Figure 174451DEST_PATH_IMAGE098
,其中
Figure 837514DEST_PATH_IMAGE099
表示在位置i上使用遮掩专用特征代替 原来的图片特征
Figure 769697DEST_PATH_IMAGE008
随机遮掩所述文本特征
Figure 707566DEST_PATH_IMAGE009
中的一个特征得到遮掩后的文本特征
Figure 241097DEST_PATH_IMAGE100
,其中
Figure 481585DEST_PATH_IMAGE101
表示在位置j上使用遮掩专用特征代替原 来的文本特征
Figure 291278DEST_PATH_IMAGE004
。本实施例中遮掩专用特征为长度为d,元素为0的一组特征序列;d是模型 内特征的通用长度,通常取值为768,也可以减小特征长度来减少模型大小。
S1-3:使用图片编码器(ImageEncoder)获取所述图片特征
Figure 642625DEST_PATH_IMAGE005
的共同特征表示
Figure 588585DEST_PATH_IMAGE102
和所述遮掩后的图片特征
Figure 327870DEST_PATH_IMAGE103
的共同特征表示
Figure 234647DEST_PATH_IMAGE104
Figure 15783DEST_PATH_IMAGE105
Figure 957194DEST_PATH_IMAGE106
使用文本编码器(TextEncoder)获取所述文本特征
Figure 867381DEST_PATH_IMAGE009
的共同特征表示
Figure 386087DEST_PATH_IMAGE107
和所述 遮掩后的文本特征
Figure 79237DEST_PATH_IMAGE108
的共同特征表示
Figure 999788DEST_PATH_IMAGE109
Figure 752981DEST_PATH_IMAGE110
Figure 257518DEST_PATH_IMAGE111
图片编码器和文本编码器均为双向长短期记忆网络(长短期记忆网络LongShort-Term Memory, LSTM)。
S1-4:在不同的病例中随机选取k张图片和k条主诉文本,抽取k张图片的特征得到 图片特征
Figure 754359DEST_PATH_IMAGE112
Figure 529417DEST_PATH_IMAGE113
表示第k张图片的特征;抽取k条主诉文本的特征得到文本特 征
Figure 781406DEST_PATH_IMAGE114
Figure 884492DEST_PATH_IMAGE115
表示第k条主诉文本的特征;
结合所述
Figure 44077DEST_PATH_IMAGE116
和被遮掩的图片特征
Figure 814587DEST_PATH_IMAGE008
得到图片候选特征
Figure 801260DEST_PATH_IMAGE117
,其中
Figure 719538DEST_PATH_IMAGE118
;结合所述
Figure 558181DEST_PATH_IMAGE119
和被遮掩的 文本特征
Figure 307831DEST_PATH_IMAGE120
得到文本候选特征
Figure 573727DEST_PATH_IMAGE121
,其中
Figure 41617DEST_PATH_IMAGE122
S1-5:由于同一病例中的多张图片和多条主诉文字之间具有相互的联系,因此可以通过其他的图片和文字来预测被遮掩的特征,预测的方法包通过模态内联系和模态间联系进行预测。模态内联系为图片和图片之间、主诉文本和主诉文本之间的联系,预测方法为利用遮掩后的图片预测缺失图片、遮掩后的主诉文本预测缺失主诉文本。模态间联系为文本和图片之间的联系,预测方法为利用所有已有的图片预测合适的主诉文本、利用所有已有的主诉文本预测合适的图片。下面将根据这两个不同来介绍多模态下两种不同的对比方法。
将被遮掩的图片特征
Figure 418372DEST_PATH_IMAGE123
对应的图片作为缺失图片,将被遮掩的文本特征
Figure 515205DEST_PATH_IMAGE124
对应的主诉文本作为缺失主诉文本。
将S1-4中的所述图片候选特征对应的图片和所述文本候选特征对应的主诉文本 组合作为对比样本,使用模态内联系计算对比样本中第s个图片成为缺失图片的概率
Figure 279898DEST_PATH_IMAGE125
和 第s条主诉文本成为缺失主诉文本的概率
Figure 844872DEST_PATH_IMAGE126
Figure 149951DEST_PATH_IMAGE127
Figure 749560DEST_PATH_IMAGE128
其中,
Figure 481892DEST_PATH_IMAGE042
为激活函数,
Figure 363523DEST_PATH_IMAGE129
Figure 347660DEST_PATH_IMAGE130
,e是自然常数;
Figure 660829DEST_PATH_IMAGE045
表示计算特征的长度,
Figure 439429DEST_PATH_IMAGE131
表示所有图片特征中遮蔽位置为i的特征中的第d个元素,
Figure 369208DEST_PATH_IMAGE047
表示转置,
Figure 891456DEST_PATH_IMAGE048
表示 转置后特征的第d个元素,
Figure 527974DEST_PATH_IMAGE132
表示所有主诉文本特征中遮蔽位置为i的特征中的第d个 元素。
利用主诉文本信息,从候选图片中寻找出相关的图片;利用图片信息,从候选主诉 文本中找出相关的主诉文本。使用模态间联系计算使用对比样本中第s条主诉文本预测的 图片成为缺失图片的概率
Figure 100644DEST_PATH_IMAGE133
和使用对比样本中第s个图片预测的主诉文本成为缺失主 诉文本的概率
Figure 393086DEST_PATH_IMAGE134
Figure 578079DEST_PATH_IMAGE135
,其中
Figure 69103DEST_PATH_IMAGE136
Figure 455085DEST_PATH_IMAGE137
,其中
Figure 828298DEST_PATH_IMAGE138
其中,
Figure 957928DEST_PATH_IMAGE042
为激活函数,
Figure 867240DEST_PATH_IMAGE129
Figure 486441DEST_PATH_IMAGE139
Figure 222315DEST_PATH_IMAGE140
表示池化层,
Figure 14691DEST_PATH_IMAGE057
表示将
Figure 417990DEST_PATH_IMAGE058
Figure 4830DEST_PATH_IMAGE059
特征进行压缩;
Figure 228000DEST_PATH_IMAGE045
表示计算特征的长度,
Figure 266145DEST_PATH_IMAGE047
表示转置,
Figure 648584DEST_PATH_IMAGE048
表示转置后特征的第d 个元素。
模态间的对比学习能够使主诉文本或图片学习到跨模态信息,比如主诉文本特征能够学习到一些图片症状相关的特征,而图片能够学习到一些文本所指代的病情焦点。这种融合能够帮助建立统一的多模态特征,避免不同模态(图片和文本)由于信息表现形式不一样带来的模态特征冲突。
S1-6:计算模态内联系的损失函数
Figure 547270DEST_PATH_IMAGE036
和模态间联系的损失函数
Figure 585633DEST_PATH_IMAGE141
Figure 454232DEST_PATH_IMAGE142
Figure 566545DEST_PATH_IMAGE143
其中,
Figure 262231DEST_PATH_IMAGE144
表示不包含s的剩余图片候选特征或文本候选 特征。
计算对比学习预训练的联合损失函数
Figure 459994DEST_PATH_IMAGE145
S1-7:使用非肿瘤相关的胃镜病例样本中的多张图片对图片编码器进行对比学习 预训练、使用非肿瘤相关的胃镜病例样本中的多条主诉文本对文本编码器进行对比学习预 训练,直到联合损失函数
Figure 132283DEST_PATH_IMAGE039
收敛停止预训练,得到预训练后的图片编码器和预训练后的 文本编码器。
所述多模态特征模块使用所述预训练后的图片编码器提取肿瘤相关的胃镜病例样本中多张图片的特征,使用所述预训练后的文本编码器提取肿瘤相关的胃镜病例样本中多条主诉文本的特征,对提取到的多张图片的特征和多条主诉文本的特征进行特征融合得到肿瘤相关的胃镜病例样本的多模态特征。具体为:
S2-0:获取含有多张图片和多条主诉文本的肿瘤相关的胃镜病例样本。
S2-1:对病例中的多张图片进行特征抽取(此阶段无需遮蔽)得到图片特征序列
Figure 99102DEST_PATH_IMAGE064
,对病例中的多条主诉文本进行特征抽取(此阶段无需遮蔽)得到文本特征序列
Figure 464225DEST_PATH_IMAGE065
S2-2:将所述图片特征序列
Figure 883705DEST_PATH_IMAGE064
输入所述预训练后的图片编码器得到图片特征
Figure 562948DEST_PATH_IMAGE066
;将所述文本特征序列
Figure 273021DEST_PATH_IMAGE065
输入所述预训练后的文本编码器得到文本特征
Figure 684411DEST_PATH_IMAGE067
S2-3:对所述图片特征
Figure 715821DEST_PATH_IMAGE066
进行池化操作得到
Figure 605280DEST_PATH_IMAGE068
,对所述文本特征
Figure 671325DEST_PATH_IMAGE067
进行池化操 作得到
Figure 581512DEST_PATH_IMAGE069
Figure 975584DEST_PATH_IMAGE146
Figure 294832DEST_PATH_IMAGE147
S2-4:拼接
Figure 825171DEST_PATH_IMAGE068
Figure 702997DEST_PATH_IMAGE069
得到所述肿瘤相关的胃镜病例样本的多模态特征
Figure 849944DEST_PATH_IMAGE070
为:
Figure 471419DEST_PATH_IMAGE148
其中
Figure 449739DEST_PATH_IMAGE149
表示拼接操作。
所述训练模块使用提取到的肿瘤相关的胃镜病例样本中多张图片的特征训练预训练后的图片编码器得到训练完成的图片编码器,使用提取到的肿瘤相关的胃镜病例样本中多条主诉文本的特征训练文本编码器得到训练完成的文本编码器,使用所述肿瘤相关的胃镜病例样本的多模态特征训练分类器得到训练完成的分类器。本实施例中的分类器为多层感知机(Multilayer Perceptron, MLP),使用所述肿瘤相关的胃镜病例样本的多模态特征训练多层感知机得到训练完成的多层感知机。具体为:
S3-1:使用提取到的肿瘤相关的胃镜病例样本中多张图片的特征训练预训练后的图片编码器得到训练完成的图片编码器,使用提取到的肿瘤相关的胃镜病例样本中多条主诉文本的特征训练文本编码器得到训练完成的文本编码器,具体为:
将提取到的肿瘤相关的胃镜病例样本中多张图片的特征作为训练预训练后的图片编码器的训练集,使用双向长短期记忆网络的损失反向更新和微调预训练后的图片编码器得到训练完成的图片编码器;
将提取到的肿瘤相关的胃镜病例样本中多条主诉文本的特征作为训练预训练后的文本编码器的训练集,使用双向长短期记忆网络的损失反向更新和微调预训练后的文本编码器得到训练完成的文本编码器。
S3-2:使用所述肿瘤相关的胃镜病例样本的多模态特征训练分类器得到训练完成的分类器,具体为:
S3-2-1:将病例的多模态特征输入多层感知机得到多模态融合特征
Figure 108253DEST_PATH_IMAGE071
为:
Figure 383244DEST_PATH_IMAGE150
其中,
Figure 418196DEST_PATH_IMAGE073
为肿瘤相关的胃镜病例样本的多模态特征,W1和W2为多层感知机中的可学 习的权重,b1和b2为多层感知机中的可学习的偏置,
Figure 313340DEST_PATH_IMAGE074
表示激活函数,
Figure 142756DEST_PATH_IMAGE151
Figure 123350DEST_PATH_IMAGE152
Figure 289889DEST_PATH_IMAGE153
表示取最大值;可学习的权重和可学习的偏置在模型的学习中动态 更新。
S3-2-2:将所述多模态融合特征
Figure 649326DEST_PATH_IMAGE071
输入全连接层,使用
Figure 806900DEST_PATH_IMAGE075
进行分类得到分类概率分 布
Figure 884578DEST_PATH_IMAGE076
Figure 651546DEST_PATH_IMAGE154
其中,
Figure 458965DEST_PATH_IMAGE078
表示全连接层中的可学习的权重,
Figure 895762DEST_PATH_IMAGE079
表示全连接层中的可学习的偏置,
Figure 850949DEST_PATH_IMAGE080
为softmax函数;
S3-2-3:建立分类预测的训练目标:
Figure 31394DEST_PATH_IMAGE155
其中,
Figure 988593DEST_PATH_IMAGE087
表示真实标签和预测结果之间的交叉熵损失,
Figure 924188DEST_PATH_IMAGE082
表示真实疾病标签序列
Figure 976457DEST_PATH_IMAGE083
中的第j个元素,
Figure 819648DEST_PATH_IMAGE084
表示疾病类别的数量,
Figure 273763DEST_PATH_IMAGE085
表示预测的所述分类概率分布
Figure 442577DEST_PATH_IMAGE086
中的第j个元 素;
Figure 982142DEST_PATH_IMAGE156
是一组样本的正确疾病标签序列,长度为疾病的类别数量
Figure 333751DEST_PATH_IMAGE084
。例如,第3个标签为正确 的一组标签,假设标签长度
Figure 767007DEST_PATH_IMAGE157
,那么
Figure 982087DEST_PATH_IMAGE158
;同样的,概率分布可能就是
Figure 868004DEST_PATH_IMAGE086
= [0.1, 0.1, 0.4, 0.2, 0.2]。
S3-2-4:使用所述肿瘤相关的胃镜病例样本的多模态特征训练多层感知机直到
Figure 193943DEST_PATH_IMAGE087
收敛,停止训练得到所述训练完成的分类器。
所述预测模块获取待测病例并输入所述训练完成的图片编码器、文本编码器,使用与S2-1~S2-4中相同的方法得到待测病例的多模态特征,将待测病例的多模态特征输入训练完成的分类器进行类别预测得到胃部肿瘤的分类结果,实现胃部肿瘤的识别,为医生提供诊断参考。
本发明能够处理多张图片和多条主诉文本的情况,并将图片和主诉文本这两个模态的特征结合,能够极大地提高预测的效果。本发明通过将含有多张图片和多条主诉文本的非肿瘤相关的胃镜病例样本作为未标注样本,使用未标注样本预训练图片编码器和文本编码器,能够获得全面的图片和主诉文本特征表示,得到丰富的疾病信息;相比传统的预训练方法,更加容易获得正负例样本(正负例样本来自非肿瘤相关的胃镜病例样本,在训练过程中,来自同一病例样本的为正例,其他为负例),并且预训练的模型结果相对简单、损失计算也相对容易,使得预训练时间更短。在预训练的基础上,将含有多张图片和多条主诉文本的肿瘤相关的胃镜病例样本作为有标注样本,使用有标注样本的多模态特征训练分类器,相比传统胃疾病预测模型,可以充分提取多张图片和多条主诉文本的特征,有效利用相似疾病更加准确的捕捉胃肿瘤相关的特征,为医生提供诊断参考。
为了进一步说明本发明的有益效果,本实施例中使用本发明获取待测病例的诊断结果,同时邀请2名有丰富胃镜经验的医生进行诊断,从整体准确率、灵敏度和阳性预测值几方面对诊断结果进行对比。其中:
整体准确率=识别正确的病例数/测试集病的实际病例数×100%,
灵敏度=识别正确某一类别病例数/该类别的实际病例数×100%,
阳性预测值=识别正确某一类别的病例数/被本发明或内镜医师识别成该类别的病例数×100%。
本实施例中以病例为样本单位,将每个病例的多张图片和主诉文本作为样本的输入。(1)制作有标注的数据集。专业人员(医生等)标注和整理大量的胃肿瘤病例,从每个病例中整理出很多张胃镜图片和主诉文本(病人描述的病情)。同时,每个病例标注一种或多重疾病。专业人员标注和整理大量带有胃良、恶性肿瘤标签的图片,每个图片作为一个样本,获得有标注样本;(2)制作无标注的数据集。整理和大规模收集胃镜病例,每个病例包含多张图片和主诉文本,但不进行标注。来源较为广泛,可不专注于胃部肿瘤。(3)利用深度学习方法,使用无标注样本预训练多模态模型(图片编码器和文本编码器)。(4)利用预训练后的多模态模型训练分类器。(5)基于预训练后的多模态表示,使用分类器对某个未知标签的待测病例进行预测,获得该待测病例的胃良、恶性肿瘤标签。测试过程中,每次输入分类器的病例都包含多张图片和主诉文本。具体为:
收集了内镜中心胃镜检查(包括无痛胃镜、清醒镇静胃镜及普通胃镜检查等)患者的胃镜图片和主诉文本。图片拍摄设备主要为 Olympus 公司 240、260、290系列以及日本Fujinon公司560、580系列内镜。病例中所有图片在白光非放大模式下拍摄,BLI、FICE、NBI等光学染色及靛胭脂、醋酸染色放大等化学染色暂不做研究。纳入标准为:诊断为恶性胃肿瘤、良性胃肿瘤和正常胃镜粘膜图片(良恶性肿瘤的诊断有活检病理结果支撑)。排除标准为:①患者小于16岁或者大于95岁;②图片异常模糊、伪影、异常失真等影响观察的图片;③有大量泡沫、粘液湖或者食物等干扰严重的图片。符合纳入标准和排除标准的样本收入训练的原始数据集。同时,本实施例中收集主诉文本,病例中所有主诉文本由患者提出。纳入标准为:①一个病例不少于2条。②主诉文本必须和病情相关,为对于病情的描述。符合纳入标准的主诉文本的病例收入训练的原始数据集。
按照纳入标准,共计获得80,000例无标注病例样本,8,483例有标注病例样本。标注样本中,恶性肿瘤,良性肿瘤以及无肿瘤的病例为:2982例,1510例,3991例。图片使用人工智能视觉处理的方法,使用格式转换、图像尺寸缩放、图像增强、图像归一化等一系列方法把图片处理成人工智能模型能够理解的格式。按照人工智能中通用的数据集分割办法,将有标注和无标注样本分割,分割比例为8:1:1。具体如下:将80,000无标注病例样本分为了训练集(64000例),测试集(8000例),验证集(8000例)。将8483例有标注病例样本分为了训练集(恶性2385例,良性1208例,正常3192例)测试集(恶性298例,良性151例,正常399例)验证集(恶性299例,良性151例,正常400例)。验证集合是验证当前这一轮模型训练效果,从所有的验证结果中,挑选最好的一轮的训练模型。测试集用来测试在真实场景中模型的实际效果,测试集没有人工干预挑选,更加符合真实场景。
如图4实验流程所示,实验流程为:
首先,进行多模态预训练:使用无标注病例样本中的训练集对多模态特征提取器(即图片编码器和文本编码器)进行对比学习预训练,使用验证集多次调整多模态特征提取器的参数(人工调整学习率等参数),挑选预训练结果最佳的作为预训练完成的多模态特征提取器。
接着,进行肿瘤分类训练:使用预训练完成的胃镜病例相关的多模态特征提取器提取有标注病例样本中的病例多模态特征,使用有标注病例样本中的训练集的病例多模态特征训练预训练完成的多模态特征提取器和肿瘤分类器,使用验证集的病例多模态特征多次调整多模态特征提取器和肿瘤分类器的参数,挑选训练结果最佳的作为训练完成的多模态特征提取器和肿瘤分类器。
最后,进行肿瘤分类预测:将待预测的病例输入训练完成的多模态特征提取器得到多模态特征,将多模态特征输入训练完成的肿瘤分类器得到诊断结果。
实验结果显示,医生诊断的整体准确率为85%,本发明的整体准确率为90%、提高了5%。医生诊断的灵敏度为83%,本发明的整体正确率为88%。医生诊断的整体阳性预测值为87%,本发明的阳性预测值为90%。本方法不仅能同时利用多模态信息(多张图片和多条主诉文本),还利用了非肿瘤相关的胃镜病例进行预训练,相比现有技术极大提高了诊断性能。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种多模态预训练的胃部肿瘤分类系统,其特征在于,包括:
数据获取模块,所述数据获取模块获取含有多张图片和多条主诉文本的非肿瘤相关的胃镜病例样本和含有多张图片和多条主诉文本的肿瘤相关的胃镜病例样本;
特征提取模块,所述特征提取模块包括图片编码器和文本编码器;
分类模块,所述分类模块包括分类器;
预训练模块,所述预训练模块使用非肿瘤相关的胃镜病例样本中的多张图片对所述图片编码器进行对比学习预训练得到预训练后的图片编码器,使用非肿瘤相关的胃镜病例样本中的多条主诉文本对所述文本编码器进行对比学习预训练得到预训练后的文本编码器;
多模态特征模块,所述多模态特征模块使用所述预训练后的图片编码器提取肿瘤相关的胃镜病例样本中多张图片的特征,使用所述预训练后的文本编码器提取肿瘤相关的胃镜病例样本中多条主诉文本的特征,对提取到的多张图片的特征和多条主诉文本的特征进行特征融合得到肿瘤相关的胃镜病例样本的多模态特征;
训练模块,所述训练模块使用提取到的多张图片的特征训练预训练后的图片编码器得到训练完成的图片编码器,使用提取到的多条主诉文本的特征训练文本编码器得到训练完成的文本编码器,使用所述肿瘤相关的胃镜病例样本的多模态特征训练所述分类器得到训练完成的分类器;
预测模块,所述预测模块获取待测病例并输入所述训练完成的图片编码器、文本编码器得到待测病例的多模态特征,将待测病例的多模态特征输入训练完成的分类器进行类别预测得到胃部肿瘤的分类结果。
2.根据权利要求1所述的多模态预训练的胃部肿瘤分类系统,其特征在于:所述预训练模块使用非肿瘤相关的胃镜病例样本中的多张图片对所述图片编码器进行对比学习预训练得到预训练后的图片编码器,使用非肿瘤相关的胃镜病例样本中的多条主诉文本对所述文本编码器进行对比学习预训练得到预训练后的文本编码器,具体为:
S1-1:抽取同一个病例中的m张图片的特征得到图片特征
Figure 746308DEST_PATH_IMAGE001
,其中
Figure 991344DEST_PATH_IMAGE002
表示第i张图片的特征;抽取同一个病 例中的n条主诉文本的特征得到文本特征
Figure 771081DEST_PATH_IMAGE003
,其中
Figure 963028DEST_PATH_IMAGE004
表示第j条主诉文本的特征;
S1-2:随机遮掩所述图片特征
Figure 370876DEST_PATH_IMAGE005
中的一个特征得到遮掩后的图片特征
Figure 757120DEST_PATH_IMAGE006
,其中
Figure 492995DEST_PATH_IMAGE007
表示在位置i上使用遮掩 专用特征代替原来的图片特征
Figure 285370DEST_PATH_IMAGE008
随机遮掩所述文本特征
Figure 423091DEST_PATH_IMAGE009
中的一个特征得到遮掩后的文本特征
Figure 275509DEST_PATH_IMAGE010
,其中
Figure 498680DEST_PATH_IMAGE011
表示在位置j上使用遮 掩专用特征代替原来的文本特征
Figure 829167DEST_PATH_IMAGE004
S1-3:使用图片编码器获取所述图片特征
Figure 641966DEST_PATH_IMAGE005
的共同特征表示
Figure 806231DEST_PATH_IMAGE012
和所述遮掩后的图片特 征
Figure 375753DEST_PATH_IMAGE013
的共同特征表示
Figure 713193DEST_PATH_IMAGE014
使用文本编码器获取所述文本特征
Figure 418981DEST_PATH_IMAGE009
的共同特征表示
Figure 222989DEST_PATH_IMAGE015
和所述遮掩后的文本特征
Figure 312430DEST_PATH_IMAGE016
的共同特征表示
Figure 860086DEST_PATH_IMAGE017
S1-4:在不同的病例中随机选取k张图片和k条主诉文本,抽取k张图片的特征得到图片 特征
Figure 154801DEST_PATH_IMAGE018
Figure 254344DEST_PATH_IMAGE019
表示第k张图片的特征;抽取k条主诉文本的特征得到文本特征
Figure 204982DEST_PATH_IMAGE020
Figure 680963DEST_PATH_IMAGE021
表示第k条主诉文本的特征;
结合所述
Figure 502289DEST_PATH_IMAGE022
和被遮掩的图片特征
Figure 740110DEST_PATH_IMAGE008
得到图片候选特征
Figure 771519DEST_PATH_IMAGE023
,其中
Figure 926557DEST_PATH_IMAGE024
;结合所述
Figure 992602DEST_PATH_IMAGE025
和被遮掩的文本特征
Figure 637210DEST_PATH_IMAGE004
得到文本候选特征
Figure 31282DEST_PATH_IMAGE026
,其中
Figure 350531DEST_PATH_IMAGE027
S1-5:将被遮掩的图片特征
Figure 412028DEST_PATH_IMAGE028
对应的图片作为缺失图片,将被遮掩的文本特 征
Figure 289854DEST_PATH_IMAGE029
对应的主诉文本作为缺失主诉文本;
将所述图片候选特征对应的图片和所述文本候选特征对应的主诉文本组合作为对比 样本,使用模态内联系计算对比样本中第s个图片成为缺失图片的概率
Figure 499118DEST_PATH_IMAGE030
和第s条主诉文 本成为缺失主诉文本的概率
Figure 730379DEST_PATH_IMAGE031
,使用模态间联系计算使用对比样本中第s条主诉文本预测 的图片成为缺失图片的概率
Figure 771017DEST_PATH_IMAGE032
和使用对比样本中第s个图片预测的主诉文本成为缺失主 诉文本的概率
Figure 695110DEST_PATH_IMAGE033
S1-6:计算模态内联系的损失函数
Figure 896065DEST_PATH_IMAGE034
和模态间联系的损失函数
Figure 321230DEST_PATH_IMAGE035
,计算对比 学习预训练的联合损失函数
Figure 419636DEST_PATH_IMAGE036
S1-7:使用非肿瘤相关的胃镜病例样本中的多张图片对图片编码器进行对比学习预训 练、使用非肿瘤相关的胃镜病例样本中的多条主诉文本对文本编码器进行对比学习预训 练,直到联合损失函数
Figure 108107DEST_PATH_IMAGE037
收敛停止预训练,得到预训练后的图片编码器和预训练后的文 本编码器。
3.根据权利要求2所述的多模态预训练的胃部肿瘤分类系统,其特征在于:所述抽取同一个病例中的m张图片的特征时,使用卷积神经网络ResNet对m张图片进行特征抽取;所述抽取同一个病例中的n条主诉文本的特征时,使用深度神经网络BERT对n条主诉文本进行特征抽取。
4.根据权利要求2所述的多模态预训练的胃部肿瘤分类系统,其特征在于:所述图片编码器和文本编码器均为双向长短期记忆网络。
5.根据权利要求2所述的多模态预训练的胃部肿瘤分类系统,其特征在于:所述使用模 态内联系计算对比样本中第s个图片成为缺失图片的概率
Figure 793428DEST_PATH_IMAGE030
和第s条主诉文本成为缺失主 诉文本的概率
Figure 366492DEST_PATH_IMAGE031
,所述
Figure 381721DEST_PATH_IMAGE030
Figure 975514DEST_PATH_IMAGE031
的计算方法为:
Figure 53191DEST_PATH_IMAGE038
Figure 85738DEST_PATH_IMAGE039
其中,
Figure 391692DEST_PATH_IMAGE040
为激活函数,
Figure 94069DEST_PATH_IMAGE041
Figure 783676DEST_PATH_IMAGE042
,e是自然常数;
Figure 26439DEST_PATH_IMAGE043
表示计算特征的长度,
Figure 626048DEST_PATH_IMAGE044
表示所有图片特征中遮蔽位置为i的特征中的第d个元素,
Figure 623959DEST_PATH_IMAGE045
表示转置,
Figure 505590DEST_PATH_IMAGE046
表示 转置后特征的第d个元素,
Figure 489727DEST_PATH_IMAGE047
表示所有主诉文本特征中遮蔽位置为i的特征中的第d 个元素。
6.根据权利要求2所述的多模态预训练的胃部肿瘤分类系统,其特征在于:所述使用模 态间联系计算使用对比样本中第s条主诉文本预测的图片成为缺失图片的概率
Figure 271738DEST_PATH_IMAGE048
和使 用对比样本中第s个图片预测的主诉文本成为缺失主诉文本的概率
Figure 174972DEST_PATH_IMAGE049
,所述
Figure 980117DEST_PATH_IMAGE048
Figure 830261DEST_PATH_IMAGE049
的计算方法为:
Figure 45209DEST_PATH_IMAGE050
Figure 994710DEST_PATH_IMAGE051
其中,
Figure 83889DEST_PATH_IMAGE040
为激活函数,
Figure 800041DEST_PATH_IMAGE052
Figure 963169DEST_PATH_IMAGE053
Figure 411468DEST_PATH_IMAGE054
表示池化层,
Figure 551725DEST_PATH_IMAGE055
表示将
Figure 681355DEST_PATH_IMAGE056
Figure 823623DEST_PATH_IMAGE057
特征进行压缩;
Figure 708403DEST_PATH_IMAGE043
表示计算特征的长度,
Figure 709857DEST_PATH_IMAGE045
表示转置,
Figure 236653DEST_PATH_IMAGE046
表示转置后特征的第d个 元素。
7.根据权利要求2所述的多模态预训练的胃部肿瘤分类系统,其特征在于:所述模态内 联系的损失函数
Figure 200804DEST_PATH_IMAGE034
为:
Figure 928589DEST_PATH_IMAGE058
所述模态间联系的损失函数
Figure 276394DEST_PATH_IMAGE035
为:
Figure 75722DEST_PATH_IMAGE059
其中,
Figure 67949DEST_PATH_IMAGE060
表示不包含s的剩余图片候选特征或文本候选 特征。
8.根据权利要求1所述的多模态预训练的胃部肿瘤分类系统,其特征在于:所述多模态特征模块使用所述预训练后的图片编码器提取肿瘤相关的胃镜病例样本中多张图片的特征,使用所述预训练后的文本编码器提取肿瘤相关的胃镜病例样本中多条主诉文本的特征,对提取到的多张图片的特征和多条主诉文本的特征进行特征融合得到肿瘤相关的胃镜病例样本的多模态特征,具体为:
S2-1:对病例中的多张图片进行特征抽取得到图片特征序列
Figure 91269DEST_PATH_IMAGE061
,对病例中的多条主诉 文本进行特征抽取得到文本特征序列
Figure 801736DEST_PATH_IMAGE062
S2-2:将所述图片特征序列
Figure 437379DEST_PATH_IMAGE061
输入所述预训练后的图片编码器得到图片特征
Figure 612008DEST_PATH_IMAGE063
;将所 述文本特征序列
Figure 947175DEST_PATH_IMAGE062
输入所述预训练后的文本编码器得到文本特征
Figure 3992DEST_PATH_IMAGE064
S2-3:对所述图片特征
Figure 145124DEST_PATH_IMAGE063
进行池化操作得到
Figure 377522DEST_PATH_IMAGE065
,对所述文本特征
Figure 981459DEST_PATH_IMAGE064
进行池化操作得到
Figure 994415DEST_PATH_IMAGE066
S2-4:拼接
Figure 345762DEST_PATH_IMAGE065
Figure 557300DEST_PATH_IMAGE066
得到所述肿瘤相关的胃镜病例样本的多模态特征
Figure 703111DEST_PATH_IMAGE067
9.根据权利要求1-8任一项所述的多模态预训练的胃部肿瘤分类系统,其特征在于:所述分类器为多层感知机。
10.根据权利要求9所述的多模态预训练的胃部肿瘤分类系统,其特征在于:使用所述肿瘤相关的胃镜病例样本的多模态特征训练所述分类器得到训练完成的分类器,具体为:
S3-2-1:将病例的多模态特征输入多层感知机得到多模态融合特征
Figure 937783DEST_PATH_IMAGE068
为:
Figure 984499DEST_PATH_IMAGE069
其中,
Figure 660331DEST_PATH_IMAGE070
为肿瘤相关的胃镜病例样本的多模态特征,
Figure 570518DEST_PATH_IMAGE071
为多层感知机中的可学习的 权重,
Figure 89224DEST_PATH_IMAGE072
为多层感知机中的可学习的偏置,
Figure 47953DEST_PATH_IMAGE073
表示激活函数;
S3-2-2:将所述多模态融合特征
Figure 968504DEST_PATH_IMAGE074
输入全连接层,使用
Figure 721696DEST_PATH_IMAGE075
进行分类得到分类概率分布
Figure 163917DEST_PATH_IMAGE076
Figure 50970DEST_PATH_IMAGE077
其中,
Figure 701394DEST_PATH_IMAGE078
表示全连接层中的可学习的权重,
Figure 750122DEST_PATH_IMAGE079
表示全连接层中的可学习的偏置,
Figure 712262DEST_PATH_IMAGE080
为 softmax函数;
S3-2-3:建立分类预测的训练目标:
Figure 747214DEST_PATH_IMAGE081
其中,
Figure 878243DEST_PATH_IMAGE082
表示真实疾病标签序列
Figure 301134DEST_PATH_IMAGE083
中的第j个元素,
Figure 891516DEST_PATH_IMAGE084
表示疾病类别的数量,
Figure 120372DEST_PATH_IMAGE085
表示预 测的所述分类概率分布
Figure 745388DEST_PATH_IMAGE086
中的第j个元素;
S3-2-4:使用所述肿瘤相关的胃镜病例样本的多模态特征训练多层感知机直到
Figure 135918DEST_PATH_IMAGE087
收敛,停止训练得到所述训练完成的分类器。
CN202211031028.2A 2022-08-26 2022-08-26 多模态预训练的胃部肿瘤分类系统 Active CN115115897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211031028.2A CN115115897B (zh) 2022-08-26 2022-08-26 多模态预训练的胃部肿瘤分类系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211031028.2A CN115115897B (zh) 2022-08-26 2022-08-26 多模态预训练的胃部肿瘤分类系统

Publications (2)

Publication Number Publication Date
CN115115897A true CN115115897A (zh) 2022-09-27
CN115115897B CN115115897B (zh) 2022-12-09

Family

ID=83335514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211031028.2A Active CN115115897B (zh) 2022-08-26 2022-08-26 多模态预训练的胃部肿瘤分类系统

Country Status (1)

Country Link
CN (1) CN115115897B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830017A (zh) * 2023-02-09 2023-03-21 智慧眼科技股份有限公司 基于图文多模态融合的肿瘤检测系统、方法、设备及介质
CN116523914A (zh) * 2023-07-03 2023-08-01 智慧眼科技股份有限公司 一种动脉瘤分类识别装置、方法、设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784801A (zh) * 2021-02-03 2021-05-11 紫东信息科技(苏州)有限公司 基于文本和图片的双模态胃部疾病分类方法及装置
CN114399465A (zh) * 2021-12-08 2022-04-26 紫东信息科技(苏州)有限公司 良恶性溃疡识别方法及系统
CN114882978A (zh) * 2022-07-12 2022-08-09 紫东信息科技(苏州)有限公司 引入图片翻译信息的胃部图像处理方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784801A (zh) * 2021-02-03 2021-05-11 紫东信息科技(苏州)有限公司 基于文本和图片的双模态胃部疾病分类方法及装置
CN114399465A (zh) * 2021-12-08 2022-04-26 紫东信息科技(苏州)有限公司 良恶性溃疡识别方法及系统
CN114882978A (zh) * 2022-07-12 2022-08-09 紫东信息科技(苏州)有限公司 引入图片翻译信息的胃部图像处理方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830017A (zh) * 2023-02-09 2023-03-21 智慧眼科技股份有限公司 基于图文多模态融合的肿瘤检测系统、方法、设备及介质
CN116523914A (zh) * 2023-07-03 2023-08-01 智慧眼科技股份有限公司 一种动脉瘤分类识别装置、方法、设备、存储介质
CN116523914B (zh) * 2023-07-03 2023-09-19 智慧眼科技股份有限公司 一种动脉瘤分类识别装置、方法、设备、存储介质

Also Published As

Publication number Publication date
CN115115897B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
Wang et al. COVID-19 classification by CCSHNet with deep fusion using transfer learning and discriminant correlation analysis
CN115115897B (zh) 多模态预训练的胃部肿瘤分类系统
CN110390674B (zh) 图像处理方法、装置、存储介质、设备以及系统
Younas et al. A deep ensemble learning method for colorectal polyp classification with optimized network parameters
Liu et al. Automatic classification of esophageal lesions in endoscopic images using a convolutional neural network
CN110600122A (zh) 一种消化道影像的处理方法、装置、以及医疗系统
CN115082747B (zh) 基于组块对抗的零样本胃溃疡分类系统
Cho et al. Comparison of convolutional neural network models for determination of vocal fold normality in laryngoscopic images
CN114782760B (zh) 一种基于多任务学习的胃部疾病图片分类系统
Wang et al. Convolutional‐capsule network for gastrointestinal endoscopy image classification
CN114399465B (zh) 良恶性溃疡识别方法及系统
CN114882978A (zh) 引入图片翻译信息的胃部图像处理方法及系统
CN114266786A (zh) 基于生成对抗网络的胃病变分割方法及系统
Yue et al. Automated endoscopic image classification via deep neural network with class imbalance loss
Li et al. GRAND: A large-scale dataset and benchmark for cervical intraepithelial Neoplasia grading with fine-grained lesion description
CN112651375A (zh) 基于深度学习模型的幽门螺杆菌胃部图像识别分类系统
CN116759068A (zh) 针对消化系统的医学视觉问答方法及系统
Hu et al. PPNet: Pyramid pooling based network for polyp segmentation
Yue et al. Adaptive context exploration network for polyp segmentation in colonoscopy images
Du et al. Improving the classification performance of esophageal disease on small dataset by semi-supervised efficient contrastive learning
Gammulle et al. Two-stream deep feature modelling for automated video endoscopy data analysis
You et al. Vocal cord leukoplakia classification using deep learning models in white light and narrow band imaging endoscopy images
Yue et al. Benchmarking polyp segmentation methods in narrow-band imaging colonoscopy images
Yang et al. Lesion classification of wireless capsule endoscopy images
CN115171889B (zh) 一种小样本胃部肿瘤诊断系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant