CN116884561B

CN116884561B - 基于自监督联合学习的胃部诊断报告生成系统

Info

Publication number: CN116884561B
Application number: CN202311156723.6A
Authority: CN
Inventors: 李志俭; 何顺辉; 杨惠; 王镇煜; 张希钢; 李峰; 赖春晓; 赖正义; 邱霖; 江海洋; 刘贵明; 赵志芳; 万苹; 戴捷; 邵贝; 鹿伟民
Original assignee: Zidong Information Technology Suzhou Co ltd
Current assignee: Zidong Information Technology Suzhou Co ltd
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2023-12-01
Anticipated expiration: 2043-09-08
Also published as: CN116884561A

Abstract

本发明涉及图像处理技术领域，公开一种基于自监督联合学习的胃部诊断报告生成系统，包括：数据获取模块、自监督预训练模块、联合训练模块、预测模块，通过使用大量的未标注的胃部图片进行自监督的图像区域重构预训练，将预训练后的图像编码器部分作为之后联合训练的图像编码器，利用预训练时学习的图像理解能力配合文本编码器和解码器进行有监督的图像训练，最终生成预测的诊断报告文本。本发明可以协助完成胃病的诊断、降低人力成本、提高效率和预测效果。

Description

基于自监督联合学习的胃部诊断报告生成系统

技术领域

本发明涉及图像处理技术领域，尤其是指一种基于自监督联合学习的胃部诊断报告生成系统。

背景技术

胃部疾病是常见的消化系统疾病，通过内窥镜观察，可以获得多个病人胃部的不同部位的影像，进而由医生生成诊断报告。胃部疾病的种类很多，包括胃溃疡，胃息肉，胃炎，胃出血，胃癌等等。造成胃部病变的因素也有很多，比如病人的饮食习惯，遗传因素，物理性损伤等等。因此及早地就病症的病因进行诊断和治疗是提高患者治疗效果的有效途径。在胃部疾病的诊断中，胃镜检查是必不可少的观察手段。医生通过胃部检查的影像，区分胃病种类，明确病灶大小、患病时间，拟定治疗手段等。由于胃部的疾病的观察影像较多，胃病患者数量增加，医生撰写诊断报告的压力增加。在这种情形下，不可避免地会出现胃病的误判和漏判。

在人工智能领域，基于单图片的文本方法通常被用于辅助生成胃部疾病的诊断报告。这种人工智能方法是使用计算机视觉和自然语言处理算法将图像中报告相关特征提取并生成报告的过程。目前，最为常用的人工智能方法是将该问题建模为输入一个胃部图像，采用普通的图像到文本生成算法，输出此图像对应的诊断报告，如根据采集的胃部报告输出“胃底：未见明显异常。胃体：充血，水肿。胃窦：未见明显异常。”

现有技术将一张图片作为输入，然后输出医生诊断报告的过程，可以分为以下几个步骤：第一步，专业医生通过多年诊断经验标注大量病例的医学影像，构建图片和报告的一对一的数据对，每个图片作为一个样本，对应的标注报告作为正确答案，获得大量的标注语料；第二步，基于深度神经网络训练标注好的语料，获得诊断报告的生成模型；第三步，在预测过程中，每次输入一个胃部的影像图片，使用生成模型对未知报告的胃病图片进行预测，获得该图片的胃病诊断报告的生成结果。

其中，第二步中使用的深度神经网络一般采取基于卷积神经网络的图像编码器和基于Transformer网络的文本解码器，transformer网络是一种基于注意力机制的序列生成神经网络。如图1所示，深度神经网络由图像编码器，文本编码器以及文本解码器组成。图像编码器由一系列的卷积层、归一化层、激活层、池化层等组成，负责提取图像的特征表示；文本编码器由嵌入层、Transformer网络等组成，负责编码文本的特征表示；文本解码器主要也由Transformer网络组成，负责将输入的图片特征和开始词特征进行解码，生成最后的诊断报告。常用的图像编码有很多，例如LeNet、AlexNet、VGG（Visual Geometry Group，视觉几何组网络）、GoogleNet、Inception Net（初始网络）、ResNet（残差网络）、ViT（VisionTransformer）等等。常用的文本编码器和解码器也可以在很多语言模型中，例如Transformer、BERT（Bidirectional Encoder Representation from Transformer，基于变换器的双向编码表示网络）、GPT（Generative Pre-training Transformer，生成预训练变换器网络）、T5（Text-to-Text Transfer Transformer，文本到文本迁移变换器网络）等等。输入一张图片（start token表文本开头，不计入输入），通过模型中的不同的层和网络将图像的信息进行提取、转化、最后生成诊断报告的文本，实现图像到文本的不同模态的信息交互。

但是，现有技术也存在一些缺陷，主要有：

（1）现有技术中的模型通常只接受一张图片作为输入，很难做出较好的诊断结果。胃部病症在单个图片中通常表现不明显，专业医生必须要结合患者的多张胃镜图片综合判断；同时，病人的病症表现在不同图片中存在一定关联。因此，仅通过一张图片生成诊断报告不够全面，结果精确度不高。

（2）现有技术中的训练任务单一，仅是图片到文本生成的有监督训练任务。实际中，专业医生能利用图片自身上下文的特点推断病灶部位的影像特征，可以快速预计病人的症状。但在现有技术中还没有发掘这种图像中部分区域重构的训练任务的潜力。

（3）现有技术中的模型参数量大，对数据的需求较多，但整理由专业医生对图像标注的诊断报告文本是耗费人力和财力的，成本较高；并且，现有技术无法应对少量已标注数据的情景。

综上所述，现有技术存在单图片输入、训练任务单一、依赖已标注样本的缺点，无法生成准确度高的胃病诊断报告、成本高。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中的不足，提供一种基于自监督联合学习的胃部诊断报告生成系统，可以协助完成胃病的诊断、降低人力成本、提高效率，减少胃病的误判和漏判、提高预测效果。

为解决上述技术问题，本发明提供了一种基于自监督联合学习的胃部诊断报告生成系统，包括：

数据获取模块，用于获取同一病例的大量未标注的胃病图片和少量有标注的胃病图片；

自监督预训练模块，包括编码器和解码器，用于使用所述未标注的胃病图片对所述编码器和解码器进行自监督预训练，得到自监督预训练后的编码器和自监督预训练后的解码器；

联合训练模块，包括卷积神经网络，使用有标注的胃病图片联合优化所述自监督预训练后的编码器和卷积神经网络；

预测模块，用于将待测的胃病图片输入联合优化后的自监督预训练后的编码器和卷积神经网络中，生成诊断报告。

在本发明的一个实施例中，使用所述未标注的胃病图片对所述编码器和解码器进行自监督预训练，包括：

使用同一病例的所述未标注的胃病图片构建图像区域重构样本集合X，将所述图像区域重构样本集合X中的每张图片平均分为不重叠的多个正方形区域块；

对在同一张图片中的区域块，使用随机的掩蔽策略遮挡其中的部分内容得到掩蔽区域块；拼接同一病例的所有图片中的未掩蔽的区域块，得到输入序列；

使用所述未标注的胃病图片对所述编码器进行自监督预训练，使用自监督预训练后的编码器提取所述输入序列的特征得到中间表示X ^enc，将同一病例的所有图片中的掩蔽区域块按原来位置顺序与所述中间表示X ^enc进行拼接得到待解码的图像序列；

使用所述未标注的胃病图片对所述解码器进行自监督预训练，使用自监督预训练后的解码器对所述待解码的图像序列进行解码，得到经过掩蔽后的预测图像。

在本发明的一个实施例中，所述编码器为Vision Transformer模型中的编码器，所述解码器为Vision Transformer模型中的解码器。

在本发明的一个实施例中，使用自监督预训练后的编码器提取所述输入序列的特征得到中间表示X ^enc，包括：

使用自监督预训练后的编码器的多头注意力机制，分别将输入序列中的图片中各区域块的像素值、每个像素值在图片中的位置信息、图片在输入序列中的位置信息作为多头注意力机制的Q值、K值、V值，通过多头注意力机制计算得到中间表示X ^enc。

在本发明的一个实施例中，使用所述未标注的胃病图片对所述编码器和解码器进行自监督预训练时，构建的损失函数为：

，

其中，m表示图片的总数，表示所述使用随机的掩蔽策略遮挡其中的部分内容后的第i张图片，p _j表示第i张图片中在/>中的原始像素值，/>表示所述经过掩蔽后的预测图像中同位置的预测像素值。

在本发明的一个实施例中，所述使用有标注的胃病图片联合优化所述自监督预训练后的编码器和卷积神经网络，包括：

使用同一病例的所述有标注的胃病图片构建样本集合X ’，将所述样本集合X ’中的每张图片平均分为不重叠的多个正方形区域块；

将划分区域块后的图片复制成两份，一份使用随机的掩蔽策略遮挡其中的部分内容，一份不掩蔽；

对于所述使用随机的掩蔽策略遮挡其中的部分内容的图片，拼接所有图片中的未掩蔽的区域块，得到输入序列’；

根据所述输入序列，结合所述自监督预训练后的编码器和Transformer网络生成诊断报告。

在本发明的一个实施例中，结合所述自监督预训练后的编码器和Transformer网络生成诊断报告，包括：

使用所述自监督预训练后的编码器提取所述输入序列的特征，得到图像编码/>；设置用于指示开始生成诊断报告的第一个词的开始字符标志，使用Transformer网络的文本嵌入层编码开始字符标志得到开始字符标志的编码/>；

使用图像文本交互模块将图像编码、开始字符标志的编码/>在同一空间进行信息的对齐，得到对齐后的图像编码X _CAU和对齐后的字符编码Y _CAU；

将所述X _CAU、Y _CAU输入Transformer网络中的文本编码器和文本解码器进行联合优化训练，使用所述不掩蔽的图片指导学习，迭代生成由字符组成的诊断报告Y。

在本发明的一个实施例中，所述使用图像文本交互模块将图像编码、开始字符标志的编码/>在同一空间进行信息的对齐，得到对齐后的图像编码X _CAU和对齐后的字符编码Y _CAU，具体为：

构建记忆矩阵，对所述、/>和记忆矩阵进行线性变化；

计算对齐后的图像编码X _CAU为：

，

其中，softmax( )表示softmax函数，表示线性变化后的/>，Memory表示线性变化后的记忆矩阵，T表示转置，d表示记忆矩阵的维度；

计算对齐后的字符编码Y _CAU为：

，

其中，表示线性变化后的/>。

在本发明的一个实施例中，所述使用有标注的胃病图片联合优化所述自监督预训练后的编码器和卷积神经网络时，建立的总损失函数为：

，

其中，为自监督预训练过程中的损失函数，/>为根据诊断报告建立的交叉熵损失函数；/>、/>为超参数，用于平衡/>和/>的比例。

在本发明的一个实施例中，所述根据诊断报告建立的交叉熵损失函数为：

，

其中，n为诊断报告的总词数，V为真实诊断报告的总词数，y _i,j表示i位置的词是真实诊断报告中的第j个词的标签，p _i,j表示在i位置预测为第j个词的概率。

本发明的上述技术方案相比现有技术具有以下优点：

本发明使用大量的未标注的胃部图片进行自监督的图像区域重构预训练，将预训练后的图像编码器部分作为之后联合训练的图像编码器，利用预训练时学习的图像理解能力配合文本编码器和解码器进行有监督的图像训练，最终生成预测的诊断报告文本。可以协助完成胃病的诊断、降低人力成本、提高效率，减少胃病的误判和漏判、提高预测效果。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中：

图1是现有技术中使用深度神经网络输出诊断报告的过程示意图。

图2是本发明过程的全局结构图。

图3是本发明实施例中仿真实验的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

参照图2所示，本发明公开了一种基于自监督联合学习的胃部诊断报告生成系统，包括数据获取模块、自监督预训练模块、联合训练模块和预测模块。各模块具体为：

（1）数据获取模块，用于获取同一病例的大量未标注的胃病图片（即只有胃病图片）和少量有标注的胃病图片。

（2）本发明包括预训练和联合训练两个阶段，两个阶段使用不同的模型结构，通过重构任务帮助生成任务，进而更好的理解图片生成胃病诊断报告。首先，通过自监督预训练模块进行图像自监督预训练阶段，这个阶段使用图像自编码进行区域重构任务。

自监督预训练模块，包括编码器和解码器，使用所述未标注的胃病图片对所述编码器和解码器进行自监督预训练，得到自监督预训练后的编码器和自监督预训练后的解码器。

使用所述未标注的胃病图片对所述编码器和解码器进行自监督预训练，具体流程为：

S1：样本构建。使用同一病例的所述未标注的胃病图片构建图像区域重构样本集合X，即，其中，x _i代表第i张图片，m代表图片的总数。

S2：图片分块。将一个病例样本的包括多张胃镜图片的所述图像区域重构样本集合X中的每张图片平均分为不重叠的多个正方形区域块，即将每张缩放后的图片边长分为h份，一个病例样本中的所有胃病图片分块后得到m×h×h个区域块（patches），h的取值为经验值、根据实际调整，本实施例中可以取值为1024。

S3：图片掩蔽。对在同一张图片中的区域块，使用随机的掩蔽策略遮挡其中的部分内容得到掩蔽区域块，本实施例中掩蔽的概率设定为75%、即一张图片中75%的内容被遮挡。具体为：

，

其中，表示使用随机的掩蔽策略遮挡其中的部分内容后的第i张图片，Mask( )表示随机掩蔽函数，x _i表示未进行掩蔽的第i张图片。

S4：可见区域块拼接。拼接同一病例的所有图片中的未掩蔽的区域块，得到输入序列，即/>，其中表示第i张图片中的未掩蔽的区域块；

S5：图像序列编码。使用所述未标注的胃病图片对所述编码器进行自监督预训练，使用自监督预训练后的编码器提取所述输入序列的特征得到中间表示X ^enc，编码器为Vision Transformer模型（ViT）中的编码器。具体为：

使用Vision Transformer模型中的自监督预训练后的编码器的多头注意力机制，分别将输入序列中的图片中各区域块的像素值、每个像素值在图片中的位置信息、图片在输入序列中的位置信息作为多头注意力机制的Q值、K值、V值，通过多头注意力机制计算得到中间表示X ^enc，即：

，

其中，E _viT( )表示ViT模型中的编码器。

S6：拼接掩蔽区域块。将同一病例的所有图片中的掩蔽区域块按原来位置顺序与经过图像编码器的所述中间表示X ^enc进行拼接，得到完整待解码的图像序列。

S7：图像序列解码。使用所述未标注的胃病图片对所述解码器进行自监督预训练，使用自监督预训练后的解码器对所述待解码的图像序列进行解码，得到经过掩蔽后的预测图像。解码时，解码器的输入是拼接好的完整的多张图片的特征序列/>，输出是解码器对遮蔽的图像区域预测后的序列，即包含了预测掩蔽区域像素值的图像集合，/>代表经过掩蔽后预测得到的第i张图片。解码器为Vision Transformer模型中的解码器。

使用所述未标注的胃病图片对所述编码器和解码器进行自监督预训练时，构建均方损失函数衡量预测图像和真实图像之间的差距，通过最小化均方损失函数更新模型参数，完成自监督预训练。

本实施例中，构建的均方损失函数为：

，

其中，p _j表示第i张图片中在中的原始像素值，/>表示经过掩蔽后的预测图像中同位置的预测像素值。训练损失函数/>的值越小越好，直到/>收敛或达到预设阈值，结束自监督预训练。

（3）联合训练模块，包括卷积神经网络，使用有标注的胃病图片联合优化所述自监督预训练后的编码器和卷积神经网络。

在使用无标注的样本进行自监督训练后，第二个阶段是使用有标注的样本进行联合训练，具体的过程如下：所述使用有标注的胃病图片联合优化所述自监督预训练后的编码器和卷积神经网络的流程具体为：

S1'：样本构建。使用同一病例的所述有标注的胃病图片构建样本集合X ’。

S2'：图片分块。将所述样本集合X ’中的每张图片平均分为不重叠的多个正方形区域块。

S3'：图片复制。由于联合训练包括两个任务，因此将划分区域块后的图片复制成两份，一份使用随机的掩蔽策略遮挡其中的部分内容，一份不掩蔽；不掩蔽的一份可以保留图像完整信息、用于诊断报告的生成，不遮掩的一份图像集合有真实的报告，在后续的联合优化训练过程中使用不遮掩的这份图像来指导模型学习，也就是传统的“监督学习”。

S4'：重构训练。对于使用随机的掩蔽策略遮挡其中的部分内容的图片，拼接所有图片中的未掩蔽的区域块，得到输入序列。

S5'：生成训练。根据所述输入序列，结合所述自监督预训练后的编码器和Transformer网络生成诊断报告。

S5'-1：使用所述自监督预训练后的编码器提取所述输入序列的特征，得到图像编码/>，即/>；同时，设置用于指示开始生成诊断报告的第一个词的开始字符标志，使用Transformer网络的文本嵌入层（Embedding层）编码开始字符标志得到开始字符标志的编码/>，即/>，其中Start token表示开始字符标志，本实施例中开始字符标志可以是人为设定的一个字符。

S5'-2：使用图像文本交互模块将图像编码、开始字符标志的编码两种模态的编码在同一空间进行信息的对齐，得到对齐后的图像编码X _CAU和对齐后的字符编码Y _CAU。

图像文本交互模块cross-modal alignment unit（CAU），为利用一个记忆矩阵将两中模态信息做跨模态的注意力机制的运算操作得到X _CAU、Y _CAU，同时记忆矩阵保留相应模态间匹配信息，用于下一次生成。所述使用图像文本交互模块将图像编码、开始字符标志的编码/>在同一空间进行信息的对齐，得到对齐后的图像编码X _CAU和对齐后的字符编码Y _CAU，具体为：

S5'-2-1：构建记忆矩阵，对所述、/>和记忆矩阵进行线性变化，具体为将/>、/>和记忆矩阵经过Transformer网络的线性变换层。

S5'-2-2：计算对齐后的图像编码X _CAU为：

，

计算对齐后的字符编码Y _CAU为：

，

其中，表示线性变化后的/>。

S5'-3：将所述X _CAU、Y _CAU输入Transformer网络中的文本编码器和文本解码器进行联合优化训练，使用所述不掩蔽的图片指导学习，迭代生成由字符组成的诊断报告Y，即，Y代表一段诊断报告文本，y _i代表报告中的第i个词，n代表报告文本的个数。y _i的计算方法为：/>，其中，D _text( )表示Transformer网络中的文本解码器，E _text( )表示Transformer网络中的文本编码器。

联合优化训练时，在自监督训练的均方损失函数上加上生成训练的交叉熵损失函数，并用超参数、/>平衡两者比例，通过最小化总损失函数更新模型参数，完成联合训练。具体为：所述使用有标注的胃病图片联合优化所述自监督预训练后的编码器和卷积神经网络时，建立的总损失函数/>为：

，

其中，为自监督预训练过程中的损失函数，/>为根据诊断报告建立的交叉熵损失函数；/>、/>为超参数，用于平衡/>和/>的比例，/>、/>的取值为经验值根据实际设置，本实施例中/>的取值为0.4，/>的取值为0.6。

所述根据诊断报告建立的交叉熵损失函数为：

，

其中，n为诊断报告的总词数，V为真实诊断报告的总词数；y _i,j表示i位置的词是真实诊断报告中的第j个词的标签，i位置的词是真实诊断报告中的第j个词则标签为1，i位置的词不是真实诊断报告中的第j个词则标签为0；p _i,j表示在i位置预测为第j个词的概率。

（4）预测模块，将待测的胃病图片输入联合优化后的自监督预训练后的编码器和卷积神经网络中，生成诊断报告。

本发明相较于现有技术的优点在于：

（1）针对模型的输入，本发明以病例作为样本单位，将同一病例的多个胃镜图片作为样本的输入。可以处理一个病例多张胃镜图片生成相应的诊断报告，且不同病例的胃镜图片数量可以不同。首先使用大量的未标注的胃部图片进行自监督的图像区域重构预训练，然后使用少量有标注的胃部图片作为进行联合训练，最后生成诊断报告文本。实现了利用多个胃镜图片生成胃部疾病描述的诊断报告，诊断预测的涉及样本广泛，提高准确率高。

（2）针对现有技术训练任务单一的缺点，本发明中的联合训练在使用样本的胃镜图像生成诊断报告的同时，利用图像重构的方式训练模型使用图片自身上下文的特点重构病灶部位的影像。通过两个任务的同时联合进行，训练模型学习胃镜图片在文本生成中通用的特征和具体的特征（通用特征表现为不同诊断报告的相似处；具体特征表现为不同诊断报告的不同处）。两个阶段使用不同的模型结构，通过重构任务帮助生成任务，更好的理解图片生成胃病诊断报告，从而提高预测的准确性。

（3）为了解决现有技术对大规模数据的依赖性，本发明提高“大量无标注图片自监督训练和少量已标注图片联合训练”的模式，在自监督训练时使用大量的未标注诊断报告的胃镜图片，在模型上做自监督的图像区域重构任务，然后将学到的图像理解能力用在后面的报告生成中，即少量已标注图片联合训练，最后帮助诊断报告的生成，提高报告的生成效果。在自监督预训练时能有效利用未标注的图片信息，因此本发明仅需少量标注样本进行联合训练就可以达到较好的报告生成性能，大大减少了多模态病例的标注成本。从而能有效的探索少量数据的利用方法，减少标注病例耗费的人力和财力。

为了进一步证明本发明的有益效果，本实施例中收集了内镜中心胃镜检查（包括无痛胃镜、清醒镇静胃镜及普通胃镜检查）患者的诊断报告和胃镜图片进行仿真实验，分别使用本发明、单模态人工智能方法、人工诊断进行诊断预测。仿真实验的流程如图3所示，具体包括以下步骤：

（1）收集原始数据。

图片拍摄设备主要为 Olympus 公司 240、260、290系列以及日本Fujinon公司560、580系列内镜。所有图片在白光非放大模式下拍摄，BLI、FICE、NBI等光学染色及靛胭脂、醋酸染色放大等化学染色暂不做研究。纳入标准：有诊断报告和正常胃镜粘膜图片。排除标准：①患者小于16岁或者大于95岁；②图片异常模糊、伪影、异常失真等影响观察的图片；③有大量泡沫、粘液湖或者食物等干扰严重的图片。

（2）对原始数据进行预处理、并构建数据集。

按照纳入和排除标准，共纳入未标注病例5000例，标注病例样本763例。每个病例均含有一段诊断报告和1-10张胃镜图片。图片预处理将图片进行格式转化，图像尺寸缩放，图像归一化。

自监督预训练阶段：将未标注病例的图片（5000例）全部用于进行自监督的图片区域重构训练。

联合训练阶段：将标注好的病例样本随机划分为无交集的训练集（534例），验证集（153例），测试集（78例）。

（3）训练模型。

构建本发明提出的多模态胃部疾病诊断报告生成模型后，首先进行图像自监督的预训练：使用训练姐的样本对模型进行图片信息学习能力训练和参数更新，选取最合适的超参数并且保存最优预训练模型。接着，进行联合训练：加载预训练保存的模型参数，使用训练集中的样本对模型进行自监督和胃部疾病诊断报告生成的联合训练和参数更新，然后再验证集上评估模型的性能，选取最合适的超参数并保存最优的联合训练模型。

（4）测试模型。

模型训练完毕后，将测试集中的待预测样本依次输入模型，获得胃部疾病的诊断报告。同时，邀请2名经验丰富的内镜医师对测试集中的病例（多张胃镜图片）进行诊断。得出模型和2名医师对疾病诊断的精确率（BLEU）、召回率（ROUGE）和clinical efficacy（CE）值，计算方法为：

BLEU=标注文本（标签）中有多少 n 元词组出现在生成的诊断报告（预测）×100%，

ROUGE=生成的诊断报告（预测）中有多少词组在标注文本（标签）中出现了×100%，

CE=生成的诊断报告中的疾病种类（预测）在标注文本的疾病分类（标签）的概率×100%。

（5）仿真实验结果。

医生的整体精确率为50%，本发明的整体精确率为46.2%。医生的召回率为50%，本发明的召回率为35.7%。医生的CE值为40%，本发明的CE值为45.6%。而单模态人工智能方法的整体精确率、召回率、诊断率均不足30%。由此可见，本发明生成的胃部疾病诊断报告的精确率（BLEU）、召回率（ROUGE）、clinical efficacy（CE）都明显优于现有的单模态人工智能方法，并且与经验丰富的医生的人工诊断效果接近，从而证明了本发明的有益效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于自监督联合学习的胃部诊断报告生成系统，其特征在于，包括：

预测模块，用于将待测的胃病图片输入联合优化后的自监督预训练后的编码器和卷积神经网络中，生成诊断报告；

所述使用有标注的胃病图片联合优化所述自监督预训练后的编码器和卷积神经网络，包括：

使用同一病例的所述有标注的胃病图片构建样本集合X’，将所述样本集合X’中的每张图片平均分为不重叠的多个正方形区域块；

对于所述使用随机的掩蔽策略遮挡其中的部分内容的图片，拼接所有图片中的未掩蔽的区域块，得到输入序列X^unmask’；

根据所述输入序列X^unmask’，结合所述自监督预训练后的编码器和Transformer网络生成诊断报告；

结合所述自监督预训练后的编码器和Transformer网络生成诊断报告，包括：

使用所述自监督预训练后的编码器提取所述输入序列X^unmask’的特征，得到图像编码设置用于指示开始生成诊断报告的第一个词的开始字符标志，使用Transformer网络的文本嵌入层编码开始字符标志得到开始字符标志的编码/>

使用图像文本交互模块将图像编码开始字符标志的编码/>在同一空间进行信息的对齐，得到对齐后的图像编码X_CAU和对齐后的字符编码Y_CAU；

将所述X_CAU、Y_CAU输入Transformer网络中的文本编码器和文本解码器进行联合优化训练，使用所述不掩蔽的图片指导学习，迭代生成由字符组成的诊断报告Y；

所述使用图像文本交互模块将图像编码开始字符标志的编码/>在同一空间进行信息的对齐，得到对齐后的图像编码X_CAU和对齐后的字符编码Y_CAU，具体为：

构建记忆矩阵，对所述和记忆矩阵进行线性变化；

计算对齐后的图像编码X_CAU为：

其中，softmax()表示softmax函数，表示线性变化后的/>Memory表示线性变化后的记忆矩阵，T表示转置，d表示记忆矩阵的维度；

计算对齐后的字符编码Y_CAU为：

其中，表示线性变化后的/>

所述使用有标注的胃病图片联合优化所述自监督预训练后的编码器和卷积神经网络时，建立的总损失函数为：

其中，为自监督预训练过程中的损失函数，/>为根据诊断报告建立的交叉熵损失函数；λ₁、λ₂为超参数，用于平衡/>和/>的比例；

所述根据诊断报告建立的交叉熵损失函数为：

其中，n为诊断报告的总词数，V为真实诊断报告的总词数，y_i，j表示i位置的词是真实诊断报告中的第j个词的标签，p_i，j表示在i位置预测为第j个词的概率。

2.根据权利要求1所述的基于自监督联合学习的胃部诊断报告生成系统，其特征在于：使用所述未标注的胃病图片对所述编码器和解码器进行自监督预训练，包括：

对在同一张图片中的区域块，使用随机的掩蔽策略遮挡其中的部分内容得到掩蔽区域块；拼接同一病例的所有图片中的未掩蔽的区域块，得到输入序列X^unmask；

使用所述未标注的胃病图片对所述编码器进行自监督预训练，使用自监督预训练后的编码器提取所述输入序列X^unmask的特征得到中间表示X^enc，将同一病例的所有图片中的掩蔽区域块按原来位置顺序与所述中间表示X^enc进行拼接得到待解码的图像序列

3.根据权利要求1所述的基于自监督联合学习的胃部诊断报告生成系统，其特征在于：所述编码器为Vision Transformer模型中的编码器，所述解码器为Vision Transformer模型中的解码器。

4.根据权利要求2所述的基于自监督联合学习的胃部诊断报告生成系统，其特征在于：使用自监督预训练后的编码器提取所述输入序列X^unmask的特征得到中间表示X^enc，包括：

使用自监督预训练后的编码器的多头注意力机制，分别将输入序列X^unmask中的图片中各区域块的像素值、每个像素值在图片中的位置信息、图片在输入序列中的位置信息作为多头注意力机制的Q值、K值、V值，通过多头注意力机制计算得到中间表示X^enc。

5.根据权利要求2所述的基于自监督联合学习的胃部诊断报告生成系统，其特征在于：使用所述未标注的胃病图片对所述编码器和解码器进行自监督预训练时，构建的损失函数为：

其中，m表示图片的总数，表示所述使用随机的掩蔽策略遮挡其中的部分内容后的第i张图片，p_j表示第i张图片中在/>中的原始像素值，/>表示所述经过掩蔽后的预测图像中同位置的预测像素值。