CN116994695A

CN116994695A - 报告生成模型的训练方法、装置、设备及存储介质

Info

Publication number: CN116994695A
Application number: CN202211011509.7A
Authority: CN
Inventors: 宁慕楠; 郑冶枫; 魏东; 卢东焕
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2023-11-03

Abstract

本申请涉及计算机领域，特别涉及人工智能领域，提供了一种报告生成模型的训练方法、装置、设备及存储介质。该方法包括：使用多张样本影像图片迭代训练报告生成模型，每读取一张样本影像图片，获得该图片的初始分类特征与多个初始图像特征，通过对初始分类特征与各初始图像特征进行融合编码处理，获得一个目标分类特征；对目标分类特征进行分类识别，获得用于确定图片所属疾病类别的预测标签，基于预测标签与参考标签调整模型参数。基于目标分类特征得到的预测标签与参考标签，迭代更新报告生成模型的模型参数，加强模型对样本影像图片所属疾病类别的认知，进而实现将模型的注意力重定向到样本影像图片的异常区域，加强模型对异常区域的关注。

Description

报告生成模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及计算机领域，特别涉及人工智能领域，提供了一种报告生成模型的训练方法、装置、设备及存储介质。

背景技术

图像描述生成旨在为给定的图像生成一段自然语言描述，它是一种多模态任务，涉及计算机视觉和自然语言处理两个领域。近年来，人们开始将这项技术应用在医学领域中，希望能根据CT影像、胸部X射线影像等医学影像，自动生成诊断结果报告。高精准的医学影像报告不仅可以辅助医生诊断，减少医生的工作量，还可以提供诊断结果，帮助患者进行自我诊断。

目前常用的报告生成模型大多是基于多模态编码器-解码器结构的，R2GEN正是其中一种经典的报告生成模型。如图1所示，将一张医学影像图片输入到R2GEN中，通过R2GEN的视觉特征提取模块，从医学影像图片中提取相应的视觉特征，再使用基于多模态Transformer的视觉编码器-文本解码器，将视觉特征转化为文本特征，最后通过基于多层感知器的词汇生成器，将文本特征转换为词汇，组成目标医学影像报告。

虽然现有的报告生成模型可以生成语句流畅的报告，但受到现有训练数据集中正负样本分布不平衡，以及异常区域在一张完整医学影像图片中的占比过小的影响，训练得到的报告生成模型往往只关注于医学影像图片中的正常区域，而忽略了其中表征病变的异常区域，该模型生成的医学影像报告也大多是对正常区域的描述内容，缺少对异常区域的描述内容。因此，基于现有报告生成模型得到的医学影像报告，其报告质量参差不齐，而一部分低质量的医学影像报告，会影响医生对病情的正确判断和诊治。

发明内容

本申请实施例提供了一种报告生成模型的训练方法、装置、设备及存储介质，以解决报告生成模型对异常区域识别率低的问题。

第一方面，本申请实施例提供了一种报告生成模型的训练方法，包括：

采用循环迭代的方式，依次从训练数据集中读取各样本影像图片，训练报告生成模型，直到输出训练完毕的报告生成模型；其中，每次迭代包括：

对读取的一张样本影像图片进行特征提取，获得用于确定所述一张样本影像图片所属疾病类别的初始分类特征，以及用于表征所述一张样本影像图片视觉信息的多个初始图像特征；

对所述初始分类特征与多个所述初始图像特征进行融合编码处理，获得相应的目标分类特征；

对所述目标分类特征进行分类识别，获得用于表征所述一张样本影像图片所属疾病类别的预测标签，并基于所述预测标签与所述一张样本影像图片的参考标签，更新报告生成模型的模型参数。

第二方面，本申请实施例还提供了一种报告生成模型的训练装置，包括：

模型训练单元，用于采用循环迭代的方式，依次从训练数据集中读取各样本影像图片，训练报告生成模型，直到输出训练完毕的报告生成模型；其中，每次迭代包括：

特征提取单元，用于对读取的一张样本影像图片进行特征提取，获得用于确定所述一张样本影像图片所属疾病类别的初始分类特征，以及用于表征所述一张样本影像图片视觉信息的多个初始图像特征；

编码单元，用于对所述初始分类特征与多个所述初始图像特征进行融合编码处理，获得相应的目标分类特征；

分类单元，用于对所述目标分类特征进行分类识别，获得用于表征所述一张样本影像图片所属疾病类别的预测标签；

参数调整单元，用于基于所述预测标签与所述一张样本影像图片的参考标签，更新报告生成模型的模型参数。

可选的，所述分类单元用于：

对所述目标分类特征进行特征提取，分别获得用于表征所述一张样本影像图片归属于各疾病类别的预测概率；

将预测概率超过设定门限值所对应的疾病类别，确定为所述一张样本影像图片的预测标签。

可选的，所述参数调整单元用于：

基于所述预测标签与所述一张样本影像图片的参考标签，确定本轮迭代的分类平衡损失值；

基于获得的分类平衡损失值，更新报告生成模型的模型参数。

第三方面，本申请实施例还提供了一种计算机设备，包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行上述任意一种报告生成模型的训练方法的步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其包括程序代码，当程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行上述任意一种报告生成模型的训练方法的步骤。

第五方面，本申请实施例还提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行上述任意一种报告生成模型的训练方法的步骤。

本申请有益效果如下：

本申请实施例提出了一种报告生成模型的训练方法、装置、设备及存储介质。该方法包括：采用循环迭代的方式，依次从训练数据集中读取各样本影像图片，训练报告生成模型，直到输出训练完毕的报告生成模型；其中，每次迭代包括：对读取的一张样本影像图片进行特征提取，获得用于确定该样本影像图片所属疾病类别的初始分类特征，以及用于表征该样本影像图片视觉信息的多个初始图像特征；对初始分类特征与多个初始图像特征进行融合编码处理，获得相应的目标分类特征，再对目标分类特征进行分类识别，获得用于表征该样本影像图片所属疾病类别的预测标签，并基于预测标签与该样本影像图片的参考标签，更新报告生成模型的模型参数。

本申请实施例利用目标分类特征进行分类识别，并基于分类识别得到的预测标签与相应样本影像图片的参考标签，迭代更新报告生成模型的模型参数，加强模型对样本影像图片所属疾病类别的认知，进而实现将模型的注意力重定向到样本影像图片的异常区域，加强模型对异常区域的关注，降低对样本影像图片的正常区域的关注，解决因现有训练数据集中正负样本分布不平衡，以及异常区域在一张完整医学影像图片中的占比过小，所带来的模型对异常区域识别率低的问题。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为R2GEN的模型架构示意图；

图2为本申请实施例中一种应用场景的一个可选的示意图；

图3A为本申请实施例提供的报告生成模型的整体架构示意图；

图3B为本申请实施例提供的一种训练报告生成模型的流程示意图；

图3C为本申请实施例提供的基于多层感知器的多模态Transformer编码器的结构示意图；

图3D为本申请实施例提供的基于注意力机制的多模态Transformer编码器的结构示意图；

图4为本申请实施例提供的训练报告生成子网络的流程示意图；

图5A为本申请实施例提供的生成X光胸片的医学影像报告的流程示意图；

图5B为本申请实施例提供的生成X光胸片的医学影像报告的逻辑示意图；

图6为本申请实施例提供的一种报告生成模型的训练装置的结构示意图；

图7为本申请实施例中提供的一种计算机设备的组成结构示意图；

图8为本申请实施例中的一个计算装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

以下对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

1、人工智能(Artificial Intelligence，AI)：

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术；人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等，相信随着技术的发展，人工智能将在更多的领域得到应用，并发挥越来越重要的价值。

2、机器学习：

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍布人工智能的各个领域，包括深度学习、强化学习、迁移学习、归纳学习、式教学习等技术。

3、计算机视觉是一门集计算机科学、信号处理、物理学、应用数学、统计学、神经生理学等多学科于一身的综合性学科，也是科学领域中一个富有挑战性的重要研究方向。

该学科使用各种成像系统代替视觉器官作为输入手段，由计算机代替大脑完成处理和解释，使得计算机可以具备像人类一样通过视觉的方式观察、理解世界的能力。其中，计算机视觉的子领域包括人脸检测、人脸对比、五官检测、眨眼检测、活体检测、疲劳检测等。

4、自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

下面对本申请实施例的设计思想进行简要介绍：

虽然现有的报告生成模型可以生成语句流畅的报告，但受到现有训练数据集中正负样本分布不平衡，以及异常区域在一张完整医学影像图片中的占比过小(如，在一张X光胸片中，表征肺部结节的像素量通常只占整张图片像素量的5％左右)的影响，报告生成模型会学习大量的正常医学影像报告，去欺骗模型的损失函数，通过这种方式训练好的模型，虽然看起来学习效果不错，但实际上该模型往往只关注于医学影像图片中的正常区域，而忽略了其中表征病变的异常区域。因此，基于现有报告生成模型得到的医学影像报告，也大多是对正常区域的描述内容，缺少对异常区域的描述内容，报告质量参差不齐。而一部分低质量的医学影像报告，尤其是针对染病患者的医学影像图片生成的报告，更是会影响医生对病情的正确判断和诊治。

有鉴于此，本申请实施例提出了一种报告生成模型的训练方法、装置、设备及存储介质。该方法包括：采用循环迭代的方式，依次从训练数据集中读取各样本影像图片，训练报告生成模型，直到输出训练完毕的报告生成模型；其中，每次迭代包括：对读取的一张样本影像图片进行特征提取，获得用于确定该样本影像图片所属疾病类别的初始分类特征，以及用于表征该样本影像图片视觉信息的多个初始图像特征；对初始分类特征与多个初始图像特征进行融合编码处理，获得相应的目标分类特征，再对目标分类特征进行分类识别，获得用于表征该样本影像图片所属疾病类别的预测标签，并基于预测标签与该样本影像图片的参考标签，更新报告生成模型的模型参数。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图2示出了其中一种应用场景，包括两个物理终端设备210与一台服务器230，每个物理终端设备210通过有线网络或无线网络，与服务器230建立通信连接。

其中，本申请实施例的物理终端设备210是用户使用的计算机设备。计算机设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。

本申请实施例的服务器230可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，本申请在此不做限制。

服务器230上部署了报告生成模型，将物理终端设备210发送的医学影像图片输入到该模型中，通过模型内部的神经网络处理，获得这张医学影像图片的预测标签与医学影像报告，其中，预测标签表征图片所属疾病类别。然后，物理终端设备210接收服务器230返回的预测标签与医学影像报告，并在显示器220上呈现上述内容，以辅助医生诊断病情，减少医生的工作量，或者，帮助患者进行自我诊断。

使用训练数据集对报告生成模型进行循环迭代训练，直到满足预设的迭代停止条件，输出训练完毕的报告生成模型；其中，每次迭代包括：对读取的一张样本影像图片进行特征提取，获得用于确定该样本影像图片所属疾病类别的初始分类特征，以及用于表征该样本影像图片视觉信息的多个初始图像特征；对初始分类特征与多个初始图像特征进行融合编码处理，获得相应的目标分类特征，再对目标分类特征进行分类识别，获得用于表征该样本影像图片所属疾病类别的预测标签，并基于预测标签与该样本影像图片的参考标签，更新报告生成模型的模型参数。

如图3A所示，报告生成模型主要由两个子网络组成，分别是分类识别子网络与报告生成子网络。其中，分类识别子网络包括：视觉特征提取器、多模态Transformer编码器和多标签分类器；相对来说，报告生成子网络的模型架构更加简单，主要是由多模态Transformer解码器组成的。

因此，在训练报告生成模型时，可以基于多张样本影像图片的预测标签与相应的参考标签，共同更新两个子网络的模型参数。但是，为了进一步提升模型效果，加强模型对异常医学影像报告的敏感性，还可以基于多张样本影像图片的预测标签与相应的参考标签，先更新分类识别子网络的模型参数，再基于训练完毕的分类识别子网络辅助训练报告生成子网络。

接下来，参阅图3B示出的流程示意图。先介绍第一种模型训练方式的具体实现过程。

S301：报告生成模型从训练数据集中读取一张样本影像图片。

为了拥有足够多、足够丰富的训练数据，将不同器官的医学影像图片作为样本影像图片。其中，全部是正常区域的医学影像图片属于正样本，可以帮助报告生成模型学习正常区域的特征，而存在异常区域的医学影像图片属于负样本，可以帮助模型学习异常区域的特征。

实际上，在目前已公开的训练数据集中，一般只包含医学影像图片与医学影像报告两种信息。但是，医学影像报告里包含了丰富的语义信息，如疾病名称、病灶位置、病重程度等。因此，本申请实施例使用自然语言处理技术，提取报告中的疾病信息，并将其作为图像分类的参考标签。如，以下几个参考标签：肺炎、骨折、气胸、肺结节、心脏纵隔增大、心肺增大、肺损伤、肺阴影、肺水肿、胸腔积液、无发现等。所以，在本申请实施例中，每张样本影像图片包括：医学影像图片、对应的医学影像报告，以及用于表征这张图片所属疾病类别的参考标签。

S302：报告生成模型对读取的一张样本影像图片进行特征提取，获得用于确定该样本影像图片所属疾病类别的初始分类特征，以及用于表征该样本影像图片视觉信息的多个初始图像特征。

如公式1所示，将DenseNet、ResNet、VGGNet等卷积神经网络作为视觉特征提取器，对读取的一张样本影像图片进行特征提取，获得用于确定该样本影像图片所属疾病类别的初始分类特征，以及用于表征该样本影像图片视觉信息的多个初始图像特征。其中，公式1的X指的是输入的样本影像图片，f(X)表示对样本影像图片进行特征提取，CLS指的是初始分类特征，v_n指的是第n个初始图像特征。

{CLS,v₁,v₂,……,v_n}＝f(X) 公式1；

S303：报告生成模型对初始分类特征与多个初始图像特征进行融合编码处理，获得相应的目标分类特征。

为了让模型充分理解图像的特征，如公式2所示，多模态Transformer编码器先对多个初始图像特征进行编码处理，获得各初始图像特征各自对应的目标图像特征；再对初始分类特征与各目标图像特征进行融合处理，获得相应的目标分类特征。其中，公式2的v_n指的是第n个初始图像特征，Encoder({v₁,v₂,……,v_n}表示对各初始图像特征进行编码处理，v_i ³指的是第3层第i个输出的目标图像特征。

多模态Transformer编码器由多个Transformer编码器组成，如图3C所示，每个Transformer编码器是基于多层感知器构建的。通过多个多层感知器对多个初始图像特征进行多次特征提取，得到相应的目标图像特征。

人类的大脑拥有一种选择能力，在其接收到大量的输入信息时，会从这些输入信息中选择小部分的有用信息进行重点处理，同时忽略其他输入信息，以保证自身能够有条不紊地工作。在认知神经学中，这种选择能力被称为“注意力”，是一种人类不可或缺的复杂认知功能。

类似地，在神经网络算力有限的情况下，注意力机制挖掘输入与输出之间的关联关系，让神经网络由“全局关注”转变为“局部关注”，使得神经网络将计算资源分配给更重要的任务，有效解决了神经网络的信息超载问题。

因此，如图3D所示，每个Transformer编码器还可以是基于注意力机制构建的，每个编码器包括注意力单元、归一化层等结构。具体地，先将多个初始图像特征输入到注意力单元中，再将注意力单元提取出的注意力特征，输入到前馈神经网络中进行特征提取，多次重复上述过程，得到相应的目标图像特征。

每个注意力单元中包含三个注意力权重矩阵，分别是：查询权重矩阵、键权重矩阵和值权重矩阵。由多个初始图像特征组成的初始图像特征矩阵，分别与该单元的三个注意力权重矩阵进行矩阵运算，得到相应的查询矩阵、键矩阵和值矩阵。再让查询矩阵与键矩阵的转置矩阵进行矩阵运算，并将运算结果映射到(0,1)区间中，最后，让映射特征矩阵与值矩阵进行矩阵运算，得到图像关联特征矩阵。

每个图像关联特征体现了相应初始图像特征与各初始图像特征之间的相关性，在对其中一个初始图像特征X进行编码处理时，神经网络还会关注到与初始图像特征X关联度高的其他初始图像特征，即便该初始图像特征与初始图像特征X在时间序列上相距较远，打破了神经网络的局限性。

在得到各目标图像特征之后，多模态Transformer编码器基于初始分类特征与各目标图像特征，确定各目标图像特征在分类识别子网络中的分类贡献度；再基于各目标图像特征及相应的分类贡献度，获得目标分类特征。

其中，确定各目标图像特征的分类贡献度的过程如下：

如公式3所示，多模态Transformer编码器分别将初始分类特征与各目标图像特征相乘，确定各目标图像特征在分类识别子网络中的分类贡献特征；再将各分类贡献特征映射到同一个概率空间中，并将概率空间中的各概率分布值，确定为各目标图像特征各自的分类贡献度。

公式3的CLS指的是初始分类特征，指的是第3层第i个输出的目标图像特征，softmax表征映射处理，α_i指的是第i个目标图像特征的分类贡献度。

其中，得到目标分类特征的过程如下：

如公式4所示，多模态Transformer编码器分别将各目标图像特征与相应的分类贡献度相乘，获得该样本影像图片的多个候选分类特征，再将多个候选分类特征累加，得到目标分类特征。因此，目标分类特征不是特指某一个像素区域的特征，而是一个代表了整张图片视觉信息的图像特征，可用于对输入的样本影像图片进行分类识别。

公式4的α_i指的是第i个目标图像特征的分类贡献度，指的是第3层第i个输出的目标图像特征，指的是目标分类特征。

S304：报告生成模型对目标分类特征进行分类识别，获得用于表征该样本影像图片所属疾病类别的预测标签，并基于预测标签与该样本影像图片的参考标签，更新自身的模型参数。

将融合得到的目标分类特征输入到多标签分类器中，通过多标签分类器对目标分类特征进行特征提取，分别获得用于表征这张样本影像图片归属于各疾病类别下的预测概率，并将预测概率超过设定门限值的疾病类别，确定为该样本影像图片的预测标签。

例如，输入一张胸部X光片，获得相应的目标分类特征，并基于目标分类特征进行分类识别，识别结果如表1所示。假设设定门限值为0.67，则这张胸部X光片的预测标签为肺炎。

表1

肺炎	骨折	气胸	肺结节	……	胸腔积液	无发现
							0.7	0.01	0.1	0.03	……	0.1	0.01

在获得该样本影像图片的预测标签之后，基于预测标签与这张样本影像图片的参考标签，确定本轮迭代的分类平衡损失值，再基于获得的分类平衡损失值，更新报告生成模型的模型参数。

在本申请实施例中，分类平衡损失函数可以选择Focal Loss、Asymmtrical Loss等损失函数。其中，公式5示出的是Focal Loss的计算公式，采用公式5计算分类平衡损失。公式5的y指的是正样本或负样本的参考标签，P指的是预测标签，β指的是惩罚因子，Loss_cls指的是分类平衡损失值。当预测标签越趋近于参考标签时，报告生成模型的分类平衡损失值越小，反之分类平衡损失值越大，在这样的模型训练机制下，对于占比量较小的疾病类别，报告生成模型也会适当拟合，训练出效果佳的模型。

Loss_cls＝-[y(1-P)^βlogP+(1-P)P^βlog(1-P)] 公式5；

S305：判断模型是否训练完毕，若是，输出训练完毕的报告生成模型；否则，返回步骤301。

当满足以下至少一条时，确定模型训练完毕，并输出当前一轮调整后的报告生成模型；否则，返回步骤301，开始下一轮的迭代训练：

(1)分类平衡损失值小于或等于设定损失值；

(2)当前迭代轮次达到设定迭代轮次；

(3)训练数据集中的所有样本影像图片已全部读取完毕。

在第二种模型训练方式中，先采用步骤301-305训练分类识别子网络，再基于训练完毕的分类识别子网络辅助训练报告生成子网络。由于前文已介绍了上述步骤的具体实现过程，在此便不再赘述了。接下来，请参阅图4示出的流程示意图，了解一下报告生成子网络的具体训练过程。

S401：分类识别子网络从训练数据集中读取一张样本影像图片。

两个网络可以采用相同的训练数据集，也可以采用不同的训练数据集，本申请在此不作过多限制。

S402：分类识别子网络对读取的一张样本影像图片进行特征提取，获得用于确定该样本影像图片所属疾病类别的初始分类特征，以及用于表征该样本影像图片视觉信息的多个初始图像特征。

S403：分类识别子网络对多个初始图像特征进行编码处理，获得相应的目标图像特征，并将各目标图像特征作为待解码图像特征发送到报告生成子网络中。

S404：报告生成子网络对各待解码图像特征进行解码处理，获得相应的词语，并基于各待解码图像特征及相应的词语，更新报告生成任务的模型参数。

如公式6所示，使用多模态Transformer解码器对各目标图像特征进行解码处理，获得相应的词语。其中，公式6的z_i指的是第i个待解码图像特征，w_i指的是第i个解码得到的词语。

{w₁,w₂,……,w_i}＝Decoder({z₁,z₂,……,z_i}) 公式6；

多模态Transformer编解码器的结构是相同的，若多模态Transformer编码器是基于多层感知器的编码器，则多模态Transformer解码器也是基于多层感知器的；若多模态Transformer编码器是基于注意力机制的编码器，则多模态Transformer解码器也是基于注意力机制的。因此，解码过程与编码过程类似，由于前文已详细介绍了编码处理过程，在此便不再赘述具体的解码过程了。

如公式7所示，基于各待解码图像特征及相应的词语，确定本轮迭代的解码损失值，再基于获得的解码损失值，更新报告生成子网络的模型参数。其中，公式7的z_i指的是第i个待解码图像特征，w_i指的是第i个解码得到的词语，l指的是文本总长度，ρ_θ指的是词语预测值，Loss(θ)指的是解码损失值。

但是，为了进一步优化报告生成子网络的网络性能，可以使用公式3，获得各目标图像特征的分类贡献度，按照分类贡献度从高至低排列各目标图像特征，并将前m个分类贡献度的目标图像特征确定为待解码图像特征，对其进行解码处理。

除此之外，还可以使用公式3，获得各目标图像特征的分类贡献度，按照分类贡献度从高至低排列各目标图像特征，获取前m个分类贡献度的目标图像特征。如公式8所示，将前m个分类贡献度的目标图像特征及相应的初始图像特征确定为待解码图像特征，对其进行解码处理。

S405：判断报告生成子网络是否训练完毕，若是，输出训练完毕的报告生成子网络；否则，返回步骤401。

当满足以下至少一条时，确定报告生成子网络训练完毕，并输出当前一轮调整后的报告生成子网络；否则，返回步骤401，开始下一轮的迭代训练：

(1)分类平衡损失值小于或等于设定损失值；

(2)当前迭代轮次达到设定迭代轮次；

(3)训练数据集中的所有样本影像图片已全部读取完毕。

针对上述两个子网络，均采用AdamW优化器对子网络的模型参数进行优化，初始学习率设置为1×10^-4，之后，再使用慢启动和余弦函数调整学习率。

由于报告生成子网络是在训练完毕的分类识别子网络的基础上训练得到的，因此，报告生成子网络的迭代轮次可以少于分类识别子网络的。例如，将分类子网络的迭代轮次设为200次，将报告生成子网络的迭代轮次设为100次。

报告生成模型可应用在医疗系统中，根据机器采集的超声、核磁、肠道镜、内窥镜、CT、磁共振成像(Magnetic resonance imaging，MRI)等医学影像图片，自动生成相应的医学影像报告。还可以将该模型应用在线上小程序中，生成线上的医学影像报告，方便患者查看医学影像报告，辅助患者进行自我诊断。

参阅图5A示出的流程示意图与图5B示出的逻辑示意图，将一张X光胸片输入到报告生成模型中，生成一份医学影像报告的过程如下：

S501：对X光胸片进行特征提取，获得初始分类特征与多个初始图像特征；

S502：对多个初始图像特征进行编码处理，获得各初始图像特征各自对应的目标图像特征；

S503：将初始分类特征与各目标图像特征进行融合，得到一个目标分类特征，并对目标分类特征进行分类识别，获得用于表征X光胸片所属疾病类别的预测标签；

S504：将排名前m个分类贡献度的目标图像特征及相应的初始图像特征，确定为待解码图像特征；

S505：对各待解码图像特征进行解码处理，生成相应的医学影像报告；

S506：输出X光胸片的预测标签及相应的医学影像报告。

与上述方法实施例基于同一发明构思，本申请实施例还提供了一种报告生成模型的训练装置。如图6所示，报告生成模型的训练装置600可以包括：

模型训练单元601，用于采用循环迭代的方式，依次从训练数据集中读取各样本影像图片，训练报告生成模型，直到输出训练完毕的报告生成模型；其中，每次迭代包括：

特征提取单元602，用于对读取的一张样本影像图片进行特征提取，获得用于确定一张样本影像图片所属疾病类别的初始分类特征，以及用于表征一张样本影像图片视觉信息的多个初始图像特征；

编码单元603，用于对初始分类特征与多个初始图像特征进行融合编码处理，获得相应的目标分类特征；

分类单元604，用于对目标分类特征进行分类识别，获得用于表征一张样本影像图片所属疾病类别的预测标签；

参数调整单元605，用于基于预测标签与一张样本影像图片的参考标签，更新报告生成模型的模型参数。

可选的，编码单元603用于：

对多个初始图像特征进行编码处理，获得各初始图像特征各自对应的目标图像特征；

对初始分类特征与各目标图像特征进行融合处理，获得相应的目标分类特征。

可选的，编码单元603用于：

基于初始分类特征与各目标图像特征，确定各目标图像特征在分类识别子网络中的分类贡献度；

基于各目标图像特征及相应的分类贡献度，获得目标分类特征。

可选的，编码单元603用于：

分别将初始分类特征与各目标图像特征相乘，确定各目标图像特征在分类识别子网络中的分类贡献特征；

将各分类贡献特征映射到同一个概率空间中，并将概率空间中的各概率分布值，确定为各目标图像特征各自的分类贡献度。

可选的，编码单元603用于：

分别将各目标图像特征与相应的分类贡献度相乘，获得一张样本影像图片的多个候选分类特征；

将多个候选分类特征累加，得到目标分类特征。

可选的，分类单元604用于：

对目标分类特征进行特征提取，分别获得用于表征一张样本影像图片归属于各疾病类别的预测概率；

将预测概率超过设定门限值所对应的疾病类别，确定为一张样本影像图片的预测标签。

可选的，参数调整单元605用于：

基于预测标签与一张样本影像图片的参考标签，确定本轮迭代的分类平衡损失值；

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

在介绍了本申请示例性实施方式的报告生成模型的训练方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的计算机设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种计算机设备，参阅图7所示，计算机设备700可以至少包括处理器701、以及存储器702。其中，存储器702存储有程序代码，当程序代码被处理器701执行时，使得处理器701执行上述任意一种报告生成模型的训练方法的步骤。

在一些可能的实施方式中，根据本申请的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的报告生成模型的训练方法中的步骤。例如，处理器可以执行如图3B中所示的步骤。

下面参照图8来描述根据本申请的这种实施方式的计算装置800。图8的计算装置800仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算装置800以通用计算装置的形式表现。计算装置800的组件可以包括但不限于：上述至少一个处理单元801、上述至少一个存储单元802、连接不同系统组件(包括存储单元802和处理单元801)的总线803。

总线803表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元802可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)8021和/或高速缓存存储单元8022，还可以进一步包括只读存储器(ROM)8023。

存储单元802还可以包括具有一组(至少一个)程序模块8024的程序/实用工具8025，这样的程序模块8024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算装置800也可以与一个或多个外部设备804(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与计算装置800交互的设备通信，和/或与使得该计算装置800能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口805进行。并且，计算装置800还可以通过网络适配器806与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器806通过总线803与用于计算装置800的其它模块通信。应当理解，尽管图中未示出，可以结合计算装置800使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

与上述方法实施例基于同一发明构思，本申请提供的报告生成模型的训练方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的报告生成模型的训练方法中的步骤，例如，计算机设备可以执行如图3B中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种报告生成模型的训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述对所述初始分类特征与多个所述初始图像特征进行融合编码处理，获得相应的目标分类特征，包括：

对多个所述初始图像特征进行编码处理，获得各初始图像特征各自对应的目标图像特征；

对所述初始分类特征与各所述目标图像特征进行融合处理，获得相应的目标分类特征。

3.如权利要求2所述的方法，其特征在于，所述对所述初始分类特征与各所述目标图像特征进行融合处理，获得相应的目标分类特征，包括：

基于所述初始分类特征与所述各目标图像特征，确定各所述目标图像特征在分类识别子网络中的分类贡献度；

基于各所述目标图像特征及相应的分类贡献度，获得所述目标分类特征。

4.如权利要求3所述的方法，其特征在于，所述基于所述初始分类特征与所述各目标图像特征，确定各所述目标图像特征在分类识别子网络中的分类贡献度，包括：

分别将所述初始分类特征与各所述目标图像特征相乘，确定各所述目标图像特征在分类识别子网络中的分类贡献特征；

将各所述分类贡献特征映射到同一个概率空间中，并将概率空间中的各概率分布值，确定为各所述目标图像特征各自的分类贡献度。

5.如权利要求3所述的方法，其特征在于，所述基于各所述目标图像特征及相应的分类贡献度，获得所述目标分类特征，包括：

分别将各所述目标图像特征与相应的分类贡献度相乘，获得所述一张样本影像图片的多个候选分类特征；

将多个所述候选分类特征累加，得到所述目标分类特征。

6.如权利要求1～5任一项所述的方法，其特征在于，所述对所述目标分类特征进行分类识别，获得用于表征所述一张样本影像图片所属疾病类别的预测标签，包括：

7.如权利要求6所述的方法，其特征在于，所述基于所述预测标签与所述一张样本影像图片的参考标签，更新报告生成模型的模型参数，包括：

8.一种报告生成模型的训练装置，其特征在于，包括：

9.如权利要求8所述的装置，其特征在于，所述编码单元用于：

10.如权利要求9所述的装置，其特征在于，所述编码单元用于：

11.如权利要求10所述的装置，其特征在于，所述编码单元用于：

12.如权利要求10所述的装置，其特征在于，所述编码单元用于：

将多个所述候选分类特征累加，得到所述目标分类特征。

13.一种计算机设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1～7中任一项所述方法的步骤。

14.一种计算机可读存储介质，其特征在于，其包括程序代码，当所述程序代码在计算机设备上运行时，所述程序代码用于使所述计算机设备执行权利要求1～7中任一项所述方法的步骤。

15.一种计算机程序产品，其特征在于，包括计算机指令，所述计算机指令被处理器执行时实现权利要求1～7中任一项所述方法的步骤。