CN118136200B

CN118136200B - 诊断报告生成方法、装置及介质

Info

Publication number: CN118136200B
Application number: CN202410558741.5A
Authority: CN
Inventors: 李文龙; 刘一昀; 赵一天; 齐虹; 窦宏亮; 郝晋奎; 边林博
Original assignee: Peking University Third Hospital Peking University Third Clinical Medical College
Current assignee: Peking University Third Hospital Peking University Third Clinical Medical College
Priority date: 2024-05-08
Filing date: 2024-05-08
Publication date: 2024-07-05
Anticipated expiration: 2044-05-08
Also published as: CN118136200A

Abstract

本公开涉及一种诊断报告生成方法、装置及介质。该方法包括：获取实际彩色眼底图像、实际眼底荧光血管造影图像、以及对应实际临床特征；利用已经完成构建的眼底疾病多标签诊断分类模型进行诊断分类，在构建所述眼底疾病多标签诊断分类模型时，数据集的构建包括：收集北京大学第三医院眼科的多份FFA报告，且每份报告均有对应的临床特征及由资深视网膜专科医师出具的眼底病变报告、诊断结论，多份FFA报告包括多张CFP和多张FFA，将多份FFA报告按比例拆分为训练集、验证集、以及测试集，训练集用于训练眼底疾病多标签分类模型。本公开实现了利用人工智能技术精准识别眼底疾病，生成诊断报告的技术效果。

Description

诊断报告生成方法、装置及介质

技术领域

本公开涉及人工智能技术领域，特别涉及一种诊断报告生成方法、装置及介质。

背景技术

糖尿病视网膜病变（diabetic retinopathy, DR）、视网膜静脉阻塞（retinalvein occlusion, RVO）、年龄相关性黄斑变性（age-related macular degeneration,AMD）等眼底疾病是我国三大常见的致盲性眼底疾病。随着生活方式的改变和人口老龄化的加剧，这三种眼底疾病已经成为公共卫生领域的重要挑战。这些疾病可能引发不可逆的视力损失，对患者的生活质量产生严重影响。传统的眼底疾病诊断主要依赖于眼科医生的临床经验和专业水平，然后，受限于医生的主观判断和资源的有限性，诊断效率和准确性存在一定的局限性。因此，寻求更先进的诊断方法以提高准确性，并在医疗资源有限的背景下实现更广泛的早期筛查显得尤为迫切。

近年来，人工智能（artificial intelligence, AI）技术在医学影像分析领域的应用取得了显著进展，尤其是深度学习（deep learning, DL）模型在眼底疾病诊断中的应用，显示出巨大的潜力。彩色眼底照相作为一种非侵入性、成本低廉的检查手段，已成为多数AI模型筛查眼底疾病的首选方法。然而，单一模态的彩色眼底图像（color fundusphotograph, CFP）存在潜在的信息缺失。眼底荧光血管造影通过静脉注射荧光染料使眼底血管系统显影而拍摄到眼底荧光血管造影图像（fundus fluorescein angiogram, FFA），提供了视网膜和脉络膜的血流动力学信息，是诊断多数眼底疾病的金标准。尽管目前已有部分研究基于FFA（眼底荧光血管造影图像）诊断眼底疾病或对眼底疾病的病变特征进行分割甚或生成病变报告，但多数研究的样本量相对较小。

当前诊断眼底疾病的AI模型大部分是基于单一模态，这存在潜在的信息缺失。并且，当前大部分DL模型的决策过程不透明，其可解释性问题是一个亟待解决的难题。这对于医生和患者理解模型的诊断过程至关重要。因此，在推进AI技术在眼底疾病诊断中的应用时，应该不断努力提高模型的可解释性，以确保医疗专业人员和患者能够更好地理解和信任AI辅助的诊断结果。临床实践中，眼底专家不仅需要辨识图像，往往还需要考虑患者的临床特征，比如年龄、性别、血压、视力及既往病史，从而得出更加准确的报告及诊断。既往的研究多数仅仅基于影像数据而未考虑患者的临床特征，这当中潜在的信息缺失会导致一定的错误。此外，样本量小也是目前多数基于FFA诊断眼底疾病的研究的主要痛点，获取大规模、高质量的FFA数据往往较为困难；同时，数据集中诊断类别的不均衡，即某些眼底疾病的样本量远远小于其他病症，也会很大程度上影响模型的准确性。

发明内容

本公开提出一种诊断报告生成方法、装置及介质，以解决上述技术问题。

根据本公开的第一方面，提供了一种诊断报告生成方法，包括：获取实际彩色眼底图像、实际眼底荧光血管造影图像、以及对应实际临床特征；利用已经完成构建的眼底疾病多标签诊断分类模型对所述实际彩色眼底图像、所述实际眼底荧光血管造影图像、以及所述对应实际临床特征进行诊断分类，其中，在构建所述眼底疾病多标签诊断分类模型时，数据集的构建包括：收集多份FFA报告，且每份报告均有对应的临床特征及眼底病变报告、诊断结论，其中，所述多份FFA报告包括多张CFP和多张FFA，将所述多份FFA报告按比例拆分为训练集、验证集、以及测试集，所述训练集用于训练所述眼底疾病多标签分类模型；生成诊断报告。

在一些实施例中，在构建所述眼底疾病多标签诊断分类模型时，输入的所述临床特征包括年龄、性别、视力、收缩期血压、舒张期血压和既往病史，其中，所述年龄、所述性别、所述视力、所述收缩期血压、以及所述舒张期血压通过以下公式归一化：

；其中，

表示归一化值；表示原始值；表示数据集中的最大值；表示数据集中的最小值。

在一些实施例中，所述眼底疾病多标签诊断分类模型的构建，包括：将区块特征传入经典转换器模型的编码器内进行编码；提取代表编码后的区块特征的分类标记；将分类标记与临床特征融合后，得到融合特征；将所述融合特征传入与构建的基础分类模型类似的多任务分类头，以判断主分类及子分类；其中，所述经典转换器模型的编码器由基于多头注意力的自注意力层堆叠而成，所述多头注意力由n个平行头组成，每个头被定义为缩放点积注意力Att：；；其中，和分别表示查询矩阵和健/值矩阵；和表示可学习的参数矩阵；；表示拼接操作。

在一些实施例中，所述基础分类模型的构建，包括：利用卷积神经网络ResNet101作为视觉特征提取器提取图像区块特征；对所述图像区块特征进行二维均值池化后，将池化后的所述图像区块特征传入多任务分类头，第一个分类头诊断主分类，其余的三个分类头分别对DR、RVO以及AMD分类。

在一些实施例中，在构建所述眼底疾病多标签诊断分类模型时，将每个标签当做二分类问题处理并采用非对称损失函数，模型为k个标签中的每一个标签产生单独的分对数，记作Z_k，所述分对数通过sigmoid函数激活，表示为，表示类别k的真实值；根据公式：，得到总的分类损失；根据公式：，得到每个标签的二分类损失；其中，和分别对应表示阳性和阴性样本的损失；非对称损失的定义为：，其中，表示模型输出的概率；偏移概率由得到，其中，是可调的超参数，称作概率边缘，实现两种非对称性以最小化阴性样本对损失函数的影响。

在一些实施例中，在构建所述眼底疾病多标签诊断分类模型时，利用 Cohenkappa值评估所述眼底疾病多标签诊断分类模型，包括：根据公式，，得到；其中，表示观察到的一致性概率；表示期望的一致性概率；对于多分类问题，将真实类别记作，预测类别为的样本数记作，则根据公式：，得到；根据公式：，得到。

在一些实施例中，当数据不均衡，以及DR，RVO和AMD的子分类是有序分类时，将以二次加权值为衡量指标，根据公式：，得到；根据公式：，得到；根据公式：，得到；其中，表示二次加权的权重；表示期望频数。

根据本公开的第二方面，提供了一种诊断报告生成装置，包括：获取模块，用于获取实际彩色眼底图像、实际眼底荧光血管造影图像、以及对应实际临床特征；诊断分类模块，用于利用已经完成构建的眼底疾病多标签诊断分类模型对所述实际彩色眼底图像、所述实际眼底荧光血管造影图像、以及所述对应实际临床特征进行诊断分类，其中，在构建所述眼底疾病多标签诊断分类模型时，数据集的构建包括：收集多份FFA报告，且每份报告均有对应的临床特征及眼底病变报告、诊断结论，其中，所述多份FFA报告包括多张CFP和多张FFA。生成模块，用于生成诊断报告。

根据本公开的第三方面，提供了一种诊断报告生成装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行如上述的诊断报告生成方法。

根据本公开的第四方面，提供了一种计算机可存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现如上述的诊断报告生成方法。

通过采用上述技术方案，本公开的实施例能达到的有益技术效果：

在本公开中，收集了大规模的数据集，为眼底疾病多标签诊断模型提供了丰富的数据资源，确保了模型训练和验证的可靠性。本模型的构建和训练是基于13,130份FFA报告（7076名患者的13,130眼，共有13,130张CFP和173,722张FFA），每份报告均有对应的基本临床信息及眼底病变报告、诊断结论；

在本公开中，增强了可解释性并融合了多模态信息：一方面，通过将卷积神经网络ResNet101和经典的转换器（transformer）模型的编码器结合，可以可视化注意力权重从而增强了模型的可解释性，利于医生和患者理解模型决策背后的原理。另一方面，将CFP（彩色眼底图像），FFA（眼底荧光血管造影图像）和患者的临床特征（包括年龄、性别、收缩期血压、舒张期血压、视力及既往病史）融合取得了对眼底疾病诊断分类更高的效能；

在本公开中，采用非对称损失函数部分抵消了诊断类别的不均衡：尽管本数据集规模大，数据不均衡的问题仍是不可避免的。因此，采用了非对称损失函数来减弱易学的阴性样本对模型的影响。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开。

图1是示出根据本公开一些实施例的诊断报告生成方法的流程图。

图2是示出根据本公开一些实施例的眼底疾病多标签诊断分类模型架构示意图。

图3是示出根据本公开一些实施例的同一模型基于不同模态数据的总体效能示意图。

图4是示出根据本公开一些实施例的四种模型基于相同模态数据的总体效能示意图。

图5是示出根据本公开一些实施例的在CFP_FFA_L模态下最优的CACL模型对眼底疾病诊断分类的ROC示意图：（a）CACL模型诊断主分类的ROC、（b）CACL模型对DR分类的ROC、（c）CACL模型对RVO分类的ROC 、（d）CACL模型对AMD分类的ROC。

图6是示出根据本公开一些实施例的在CFP_FFA_L模态下最优的CACL模型对眼底疾病诊断分类的混淆矩阵示意图：（a）CACL模型诊断主分类的混淆矩阵、（b）CACL模型对DR分类的混淆矩阵、（c）CACL模型对RVO分类的混淆矩阵、（d）CACL模型对AMD分类的混淆矩阵。

图7是示出根据本公开一些实施例的“RetinaExpert”应用网页的诊断页面示意图。

图8是示出根据本公开一些实施例的对CACL模型注意力权重的可视化示意图：（a）一个诊断为DR，ME及sNPDR的病例的CFP和注意力权重的可视化、（b）同一病例的FFA及注意力权重的可视化。

图9是示出根据本公开一些实施例的病变报告生成模型KMN与CKMN的架构。

图10是示出根据本公开一些实施例的诊断报告生成装置的框图。

图11是示出根据本公开另一些实施例的诊断报告生成装置的框图。

图12是示出用于实现本公开一些实施例的计算机系统的框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个实例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

鉴于此，本公开提出了一种诊断报告生成方法、装置及介质，在本公开中，收集了大规模的数据集，为眼底疾病多标签诊断模型提供了丰富的数据资源，确保了模型训练和验证的可靠性。本模型的构建和训练是基于13,130份FFA报告（7076名患者的13,130眼，共有13,130张CFP和173,722张FFA），每份报告均有对应的基本临床信息及眼底病变报告、诊断结论；

图1是示出根据本公开一些实施例的诊断报告生成方法的流程图。如图1所示，诊断报告生成方法包括步骤110至步骤130。

在步骤110，获取实际彩色眼底图像、实际眼底荧光血管造影图像、以及对应实际临床特征。

在步骤120，建的眼底疾病多标签诊断分类模型对所述实际彩色眼底图像、所述实际眼底荧光血管造影图像、以及所述对应实际临床特征进行诊断分类，其中，在构建所述眼底疾病多标签诊断分类模型时，数据集的构建包括：收集多份FFA报告，且每份报告均有对应的临床特征及眼底病变报告、诊断结论，其中，所述多份FFA报告包括多张CFP和多张FFA，将所述多份FFA报告按比例拆分为训练集、验证集、以及测试集，所述训练集用于训练所述眼底疾病多标签分类模型。

在步骤130，生成诊断报告。

目前暂无研究将两种模态以及患者的临床特征融合对眼底疾病进行诊断分类。因此，本公开结合多模态影像以及患者的临床特征，构建一个多模态AI诊断系统，将有助于提高诊断的准确性和全面性，综合利用多模态信息的方法有望更全面地捕捉眼底疾病的特征，从而提高诊断的精准度。

本公开收集了大规模的数据集：本模型的构建和训练是基于13,130份FFA报告（7076名患者的13,130眼，共有13,130张CFP和173,722张FFA），每份报告均有对应的基本临床信息及眼底病变报告、诊断结论。这一庞大的数据集为该模型提供了丰富的数据资源，确保了模型训练和验证的可靠性。

本公开增强了可解释性并融合了多模态信息：一方面，通过将卷积神经网络ResNet101和经典的转换器（transformer）模型的编码器结合，可以可视化注意力权重从而增强了模型的可解释性，利于医生和患者理解模型决策背后的原理。另一方面，将CFP（彩色眼底图像），FFA（眼底荧光血管造影图像）和患者的临床特征（包括年龄、性别、收缩期血压、舒张期血压、视力及既往病史）融合取得了对眼底疾病诊断分类更高的效能。

本公开采用非对称损失函数部分抵消了诊断类别的不均衡：尽管本数据集规模大，数据不均衡的问题扔是不可避免的，因此采用了非对称损失函数减弱易学的阴性样本对模型的影响。

在一些实施例中，收集了2013年12月12日至2022年11月29日期间就诊于北京大学第三医院眼科行彩色眼底照相（Digital Retinal Camera, CR-2 AF, Canon, Tokyo,Japan）及眼底荧光血管造影检查（FF 450 plus, Carl Zeiss Meditec AG, Jena,Germany）的8,833名患者，共计17,467眼，涵盖了22,383次检查的影像数据。按以下入组排除标准，双眼入组，以最近一次检查为准。

入组标准：检查同时具备CFP，FFA及由主治或以上水平的眼科医师出具的检查报告。

排出标准：使用AutoMorph自动评估CFP（彩色眼底图像）的质量，质量差的排除该眼。

最后构建了包含7076名患者的13,130眼检查的全部数据集，共有13,130张CFP（彩色眼底图像）和173,722张FFA（眼底荧光血管造影图像）。按64%，16%和20%的比例将全部数据集随机拆分为训练集、验证集和测试集，随机种子为298。其中训练集包含8403眼，8403张CFP及111,241张FFA，验证集包含2100眼，2100张CFP及27,859张FFA，而测试集包含2627眼，2627张CFP（彩色眼底图像）及34,622张FFA（眼底荧光血管造影图像）。使用训练集训练模型，验证集监控模型训练过程，保留最佳模型，测试集则用于模型的内部验证。

从18名主治及以上医师出具的FFA（眼底荧光血管造影图像）病变报告中提取报告信息。数据集中主要包括DR、RVO和AMD等常见诊断，其次为黄斑水肿（macular, edema,ME），玻璃体积血（vitreous hemorrhage, VH）和激光斑。少见诊断如病理性近视和中心性浆液性脉络膜视网膜病变在本数据集中相对较少，虽然纳入这部分数据，但诊断不在研究考虑范围内。我们将DR，RVO，AMD，ME，VH和激光斑定义为主分类（primary classes），将DR，RVO和AMD的明细分类定义为子分类 (subclasses)。DR的子分类包括非增殖性糖尿病视网膜病变（non-proliferative retinopathy, NPDR，不包括重度severe NPDR, sNPDR），sNPDR和增殖性糖尿病视网膜病变（proliferative diabetic retinopathy, PDR）。因本数据集中半视网膜静脉阻塞（Hemi-retinal vein occlusion, HRVO）较为罕见，仅有91眼，RVO的子分类被限定为视网膜分支静脉阻塞（branch retinal vein occlusion, BRVO）和视网膜中央静脉阻塞（central retinal vein occlusion, CRVO）而AMD的子分类则包括干性AMD和湿性AMD。

在一些实施例中，眼底疾病多标签诊断分类模型的构建包括：模型的输入及输出:根据模型的设计，除了以下输入外，可能额外输入患者的临床特征，包括年龄、性别、视力、收缩期血压、舒张期血压和既往病史。其中年龄、性别、视力、收缩期血压、舒张期血压通过以下公式归一化：；其中，normalized_value代表归一化值，original_value 代表原始值，max_value代表数据集中的最大值，min_value代表数据集中的最小值。

采用小数视力，当视力为数指、手动、有光感或者无光感时，视力的数值记作0。当既往病史的某个句子内含有主分类或者DR，RVO和AMD子分类的诊断信息时，该句则被舍弃。随后将剩下的中文病史信息经过双向编码器表示转换器（bidirectional encoderrepresentation from transformers, BERT）进行编码后得到768维的向量表示。将归一化的年龄、性别、视力、收缩期血压、舒张期血压和既往病史的向量表示拼接后得到临床特征的向量表示（773维）。

有几种模型的输入方式：第一，单独输入一张CFP（彩色眼底图像）；第二，单独输入按静脉注射荧光素钠后摄像时间顺序相对均匀抽取的八张FFA（眼底荧光血管造影图像）；第三，同时输入前两者。

模型的输出：诊断主分类的概率；如果模型对DR，RVO或AMD的输出概率大于或等于0.5，则进一步输出DR，RVO或AMD子分类的概率。

在一些实施例中，构建了一下四种模型：

第一类，基础分类（Basic CLassification, BCL）模型：采用卷积神经网络ResNet101作为视觉特征提取器，提取图像区块特征，对区块特征进行二维均值池化后将其传入多任务分类头，第一个分类头诊断主分类，其余的三个分类头则分别对DR，RVO和AMD分类。

第二类，融入注意力机制的基础分类（Basic Attention mechanismincorporated CLassification, BACL）模型：为了增强模型的可解释性，BACL融入了注意力机制，相对BCL，其先将区块特征传入经典转换器模型的编码器内进行编码，随后提取代表编码后的区块特征的分类标记，并传入与BCL中一样的多任务分类头，以判断主分类及子分类。经典转换器模型的编码器由基于多头注意力（MHA）的自注意力层堆叠而成。MHA（多头注意力）由n个平行头组成，每个头被定义为缩放点积注意力Att：

；

；其中，和分别代表查询矩阵和键/值矩阵，而和代表可学习的参数矩阵，，而代表拼接操作。

第三类，融入临床特征的分类（Clinical features incorporatedCLassification, CCL）模型：相对BCL模型，其将区块特征与临床特征融合后再将融合特征传入多任务分类头。

第四类，融入临床特征和注意力机制的分类（Clinical features and Attentionmechanism incorporated CLassification, CACL）模型：相对BACL模型，其将分类标记与临床特征融合后再将融合特征传入多任务分类头，如图2所示。

对数据不均衡问题的纠正：为了有效解决多标签分类的数据不均衡问题，我们将每个标签都当二分类问题处理并采用了一种非对称损失（ASymmetric Loss, ASL）函数。给定个标签, 模型为每个标签产生一个单独的分对数（logit），记作，这些分对数随后通过单独的函数激活，表示为。假设表示类别的真实值, 总的分类损失则是通过对所有个标签的二分类损失求和得到：

；

每个标签的二分类损失，记作，可表示为以下普通的形式：

；

其中和对应分别对应阳性和阴性样本的损失。非对称损失（ASL）的定义如下：

；

其中（省略类别）代表模型输出的概率。偏移概率由得到，其中是可调的超参数，称作概率边缘。ASL 实现了两种非对称性以最小化阴性样本对损失函数的影响。这两种类型涉及使用软阈值，通过使用聚焦参数 > 实现，以及通过概率边缘实现硬阈值。为了纠正子分类之间的数据不均衡，我们采用了单标签非对称损失函数，这是从上述的多标签非对称损失函数派生所得：用替换激活函数，且去除概率边缘。

在一些实施例中，多模态数据的融合包括早期融合和晚期融合。

早期融合（early fusion），即特征水平的融合（feature-level fusion）：同时输入CFP和FFA，使用卷积神经网络提取图像特征进行融合后训练模型。

晚期融合（late fusion），即决策水平的融合（decision-level fusion）：分别训练单独输入一种CFP和单独输入八张FFA的两个模型后，取两个模型输出概率的平均值进行决策。

在一些实施例中，模型的训练：分别单独输入一张CFP（彩色眼底图像）、八张FFA （眼光荧光血管造影图像）及同时输入前两者训练上述四种模型，使用五个不同的随机种子（281、520、746、781、932）控制训练数据的混洗，得到每种模型的五个副本，共60个模型（不计晚期融合的20个模型）。所有模型均使用Python 3.10中的PyTorch框架实现，并在搭载有 32 GB内存的NVIDIA Tesla V100 SXM2图形处理单元（graphics processing unit, GPU）上执行，使用4块GPU。使用的驱动程序版本为510.47.03，CUDA版本为11.6。在整个训练过程中，非对称损失函数的参数值设置如下：多标签ASL的为2，为1，为0.05；单标签ASL 的为2，为0。编码器的层数为3，头数为8，批次大小为64，学习率为，训练持续时间为50轮，训练过程使用的监控指标为总体平均Cohen kappa值，如果监控指标不提高的轮数等于25，则提前停止训练。

在一些实施例中，模型诊断分类效能的比较：将比较同一种模型基于不同模态数据以及四种模型在最优模态下的诊断分类效能，如下：

第一，同一种模型基于不同模态数据诊断分类效能的比较：即同一种模型单独输入CFP、FFA以及早期融合CFP和FFA模态（early fusion of CFP and FFA modalities,CFP_FFA_E）和晚期融合CFP和FFA模态（late fusion of CFP and FFA modalities, CFP_FFA_L）对眼底疾病诊断分类效能的比较，为了简洁，下文将该四种情形依次简称为CFP模态，FFA模态，CFP_FFA_E模态及CFP_FFA_L模态。

第二，四种模型在相同模态下诊断分类效能的比较。

在一些实施例中，在构建模型（眼底疾病多标签诊断分类模型）时，涉及模型的评估。

主要评估指标：Cohen kappa值（Cohen’s kappa）：用于衡量分类模型与真实值一致性的统计量，考虑了分类中由于偶然因素导致的正确预测的可能性：

；其中，是观察到的一致性概率，是期望的一致性概率。如表3.1，对于多分类问题，将真实类别记为，预测类别为的样本数记为，则和可由以下公式计算得到：

；

Cohen kappa值的范围在 -1到1之间，值越接近1表示分类模型与真实值的一致性越好，0表示与随机分类一致，而负值则表示与真实值的一致性差于随机分类，表3.2显示了Cohen kappa值的范围与预测值和真实值的一致性的对应关系。

表3.1 多分类问题的混淆矩阵

表3.2 Cohen kappa值的范围与预测值和真实值的一致性的对应关系

在评估模型的效能时，考虑到数据的不均衡及DR，RVO和AMD的子分类是有序分类，将以二次加权Cohen kappa值（quadratic weighted Cohen's kappa）为衡量指标，当类别数为2时，二次加权Cohen kappa值与一般形式的Cohen kappa值相等，下文如未特殊说明，Cohen kappa值均指二次加权Cohen kappa值，其计算方式与Cohen kappa值略有不同，可由以下公式计算得到：

；

；其中，代表二次加权的权重，代表期望频数。在对模型评估时，将分别计算主分类中各诊断的Cohen kappa值及主分类的平均Cohen kappa值，对DR，RVO，AMD进行分类时计算子分类Cohen kappa值，最后计算总体平均Cohen kappa值以反映模型的总体效能。

次要评估指标：受试者工作特征曲线下面积（Area under the receiveroperating characteristic curve, AUC）：用于评估分类模型在不同阈值下的效能。AUC越高，模型效能越好。我们分别计算各主分类的AUC和主分类的平均AUC。在DR分类中，子分类的类别数为3，则分别计算NPDR，sNPDR和PDR的AUC；而对RVO和AMD分类是二分类问题，诊断BRVO和CRVO的AUC数值一样，则以BRVO的AUC代表RVO分类的AUC，同理，以干性AMD的AUC代表AMD分类的AUC；

准确率（accuracy）：预测正确的样本数量占总样本数量的比例：

；

缩写详见表3.3；

表3.3 二分类问题的混淆矩阵

灵敏度（sensitivity）或召回率（recall, R）：预测正确的阳性样本占真实阳性样本的比例：

；

考虑到样本比例的不均衡，将对主分类和DR，RVO及AMD子分类分别计算加权灵敏度（weighted sensitivity）；

精确率（precision）：预测正确的阳性样本占预测阳性的样本的比例：

；

同理，将分别计算主分类和DR，RVO及AMD子分类的加权精确率（weightedprecision）；

F1分数：灵敏度与精确率的调和平均值：

；

同理，将分别计算主分类和DR，RVO及AMD子分类的加权F1分数（weighted F1score）；

特异度（specificity）：预测正确的阴性样本占真实阴性样本的比例：

；对该项指标不计算加权值；

子集准确率（subset accuracy）：衡量多标签诊断中，预测标签与真实标签完全一致的样本占总样本的比例。

在一些实施例中，在测试集上对同一种模型在四种模态下的五个副本以及在相同模态下四种模型的五个副本进行评估，得到相应的五个结果副本，以此进行比较，以确定是否存在统计学意义的显著性差异。通过双侧配对 t 检验确定P值，P < 0.05为差异有统计学意义。本研究在检验差异的显著性时比较的次数较多，表格形式可能较为繁琐，因此为了更清晰直观地呈现，差异显著的P值将在图中呈现，而无显著性差异的则省略。

在一些实施例中，同一种模型在不同模态下的效能比较：如图3所示，CFP和FFA模态的晚期融合显著提升了四种诊断分类模型的总体效能。在CFP_FFA_L模态下四种模型的总体效能均达到最优，其中BCL，CCL和CACL模型在CFP_FFA_L模态下的总体平均Cohenkappa值（分别为0.716 95% CI 0.704, 0.728; 0.732 95% CI 0.726, 0.738; 0.748 95%CI 0.743, 0.753），显著高于在CFP（分别为0.617 95% CI 0.606, 0.628; 0.649 95% CI0.641, 0.657; 0.653 95% CI 0.646, 0.660），FFA（分别为0.676 95% CI 0.667, 0.685;0.690 95% CI 0.677, 0.703; 0.720 95% CI 0.708, 0.732）和CFP_FFA_E（分别为0.67395% CI 0.652, 0.694; 0.680 95% CI 0.672, 0.688; 0.715 95% CI 0.703, 0.727）三种模态下的值，而BACL模型在CFP_FFA_L模态下的总体平均Cohen kappa值（0.736 95% CI0.717, 0.755）显著高于在CFP（0.616 95% CI 0.590, 0.642）和FFA（0.711 95% CI0.689, 0.733）两种模态下的值。相反，在CFP_FFA_E模态下，四种模型的总体平均Cohenkappa值仅显著高于CFP模态，而与FFA模态下的值无显著差异。

如图3所示，（a）BCL模型基于不同模态数据的总体平均Cohen kappa值的比较；（b）BACL模型基于不同模态数据的总体平均Cohen kappa值的比较；（c）CCL模型基于不同模态数据的总体平均Cohen kappa值的比较；（d）CACL模型基于不同模态数据的总体平均Cohenkappa值的比较。

在一些实施例中，四种模型在相同模态下的效能比较：如图4所示，在最优模态，即CFP_FFA_L模态下，临床特征的融入也使得CCL模型较BCL模型在总体效能上有显著的提高（0.732 95% CI 0.726, 0.738 vs. 0.716 95% CI 0.704, 0.728），而注意力机制的融入则使得CACL模型较CCL模型又得到显著的提高（0.748 95% CI 0.743, 0.753 vs. 0.73295% CI 0.726, 0.738），同样CACL模型在CFP（0.653 95% CI 0.646, 0.660），FFA（0.72095% CI 0.708, 0.732）和CFP_FFA_E（0.715 95% CI 0.703, 0.727）模态下的总体效能均是最优，均显著高于BCL模型（分别为0.617 95% CI 0.606, 0.628; 0.676 95% CI 0.667,0.685; 0.673 95% CI 0.652, 0.694）。

如图5所示，显示了在CFP_FFA_L模态下最优的CACL模型（训练过程的随机种子为520，总体平均Cohen kappa最高，为0.753）诊断分类的ROC，如图6所示，显示了该CACL模型诊断分类的混淆矩阵。除了VH和sNPDR外，模型诊断主分类及对DR，RVO和AMD分类均取得可观的灵敏度和特异度。

此外，临床特征和注意力机制的融入也使得CACL模型在CFP，FFA和CFP_FFA_E模态下的总体效能最高。在CFP模态下，临床特征的融入使得CCL模型的总体平均Cohen kappa值显著高于BCL模型并使得CACL模型的总体平均Cohen kappa值显著高于BCL和BACL模型；在FFA模态下，临床特征的融入使得CCL和CACL模型的总体平均Cohen kappa值显著高于BCL模型，并且注意力机制的融入使CACL模型较CCL模型的总体效能得到进一步提高；在CFP_FFA_E模态下，CCL与BCL模型的总体效能无显著差异，但临床特征和注意力机制的融入使得CACL模型的总体效能显著优于BCL模型。

在本公开的实施例中，在本公开中，收集了大规模的数据集，为眼底疾病多标签诊断模型提供了丰富的数据资源，确保了模型训练和验证的可靠性。本模型的构建和训练是基于13,130份FFA报告（7076名患者的13,130眼，共有13,130张CFP和173,722张FFA），每份报告均有对应的基本临床信息及眼底病变报告、诊断结论；在本公开中，增强了可解释性并融合了多模态信息：一方面，通过将卷积神经网络ResNet101和经典的转换器（transformer）模型的编码器结合，可以可视化注意力权重从而增强了模型的可解释性，利于医生和患者理解模型决策背后的原理。另一方面，将CFP（彩色眼底图像），FFA（眼底荧光血管造影图像）和患者的临床特征（包括年龄、性别、收缩期血压、舒张期血压、视力及既往病史）融合取得了对眼底疾病诊断分类更高的效能；在本公开中，采用非对称损失函数部分抵消了诊断类别的不均衡：尽管本数据集规模大，数据不均衡的问题仍是不可避免的。因此，采用了非对称损失函数来减弱易学的阴性样本对模型的影响。

现提供另一种实施例，首先了解病变报告生成模型的构建。

模型的输入及输出：考虑到病变报告的信息主要来自于FFA，而CFP所提供的信息不足以生成完整的病变报告，不单独输入CFP，因此多模态数据的融合仅包括早期融合，即CFP_FFA_E模态，以下均简称为CFP_FFA模态。此外，在融入临床特征的模型中，将输入上述的临床特征。

模型的输入：单独输入按静脉注射荧光素钠后摄像时间顺序相对均匀抽取的八张FFA；同时输入一张CFP和八张FFA。模型的输出：中文或英文版病变报告。

模型的构建：采用以下六种模型。

发明人需要说明的是，下面六种模型和上述诊断分类模型是相互独立的。

全部模型均以卷积神经网络ResNet101作为视觉特征提取器，提取图像的区块特征：

转换器网络（Transformer Network, TN）：该模型基于经典的转换器模型，在训练模型时，由ResNet101提取输入图像的区块特征，随后将其传入编码器内进行编码，而参考病变报告输入解码器内，与编码后的区块特征进行注意力计算，逐字解码；在模型推理时，仅输入图像，经由编码器编码后传入解码器，逐字生成病变报告。

融入临床特征的转换器网络（Clinical features incorporated TransformerNetwork, CTN）：除了将区块特征与临床特征融合共同输入编码器外，其余与TN相同。

跨模态记忆网络（Cross-modal Memory Network, CMN）：该模型由Chen, Z.等人提出，其创新性地调整了转换器的解码器，并设计了一个共享记忆模块，促进了文本和视觉模态之间的特征对齐，在胸片报告生成中展现了优越的表现。

融入临床特征的跨模态记忆网络（Clinical features incorporated Cross-modal Memory Network, CCMN）：除融入临床特征外，余与CMN模型相同。

知识记忆网络（Knowledge Memory Network, KMN）：在本模型中，我们首先初始化一个知识记忆矩阵，其中N代表记忆向量的数量，指行的记忆向量，维度为，使用MHA来更新知识记忆矩阵。为了更新在训练步的知识记忆矩阵，我们利用从解码器中获得的带有位置编码的参考报告嵌入经过经典的转换器的编码器（图6文本编码器）编码得到的文本特征来识别不具备的知识，获得的知识增量记作，

则；

训练步的知识记忆矩阵，则为：

；

其中，Norm代表层归一化，用以归一化知识增量；接下来利用多线程查询响应机制（multi thread Memory Querying and Responding, MQR）获得当前区块特征最相关的知识：

；其中，X代表区块特征，随后将X和家和后传入编码器，以生成病变报告。

为了促进图像和文本特征之间的对齐，我们利用了三元边缘损失函数，该损失函数涉及比较参考图像（锚点）与配对的文本输入（正样本）和未配对的文本输入（负样本）。其目标是最小化锚点与正样本之间的距离，同时最大化锚点与负样本输入之间的距离。我们同时采用了图像-文本和文本-图像的三元边缘损失，确保在潜在空间中，配对特征比未配对特征更接近。首先通过平均池化获取聚合的视觉特征，类似于BERT，使用转换器的编码器编码从解码器中获得的带有位置编码的参考报告嵌入，，其中T代表提取到的文本特征，代表文本编码器，得到文本特征T之后从中提取到分类标记代表聚合的文本特征。对于配对的图像和文本对，从训练批次集合中抽取负对（未配对）以及，则图像-文本对齐及文本-图像对齐由如下的损失函数控制：

；

其中，n代表批次大小，量化了两种特征之间的相似度。本研究中边缘参数设置为0。最后，控制模型训练的总损失L为：，其中，代表生成文本与参考文本的交叉熵损失函数，本研究中设置为1，而设置为0.1。

如图9所示，融入临床特征的知识记忆网络（Clinical features incorporatedKnowledge Memory Network, CKMN）：除将区块特征和临床特征拼接位融合特征，以此查询相关知识外，余与KMN相同。

模型训练：分别单独输入八张FFA及同时输入一张CFP和八张FFA训练上述六种模型，使用五个不同的随机种子（281、520、746、781、932）控制训练数据的混洗，得到每种模型的五个副本，共120个模型（包括中文和英文版）。所有模型均使用Python 3.10中的PyTorch 框架实现，并在搭载有32 GB内存的NVIDIA Tesla V100 SXM2图形处理单元（graphics processing unit, GPU）上执行，每个的模型训练使用1块GPU。使用的驱动程序版本为 510.47.03，CUDA版本为11.6。训练的批次大小为8，ResNet101的学习率为，其余权重的学习率为，训练持续时间为50轮，训练过程使用的监控指标为BLEU_4，如果监控指标不提高的轮数等于25，则提前停止训练。

模型的评估：主要评估指标：BLEU_4（BiLingual Evaluation Understudy）: 是用于评估机器翻译和文本生成任务的指标之一，它基于n个连续词（n-gram）的匹配来衡量生成文本与参考文本之间的相似度。BLEU_1、BLEU_2、BLEU_3、BLEU_4分别代表1-gram、2-gram、3-gram和4-gram的BLEU分数。BLEU的范围在0到1之间，越接近1表示生成文本与参考文本的相似度越高；

次要评估指标：BLEU_1；BLEU_2；BLEU_3；METEOR：METEOR（Metric for Evaluationof Translation with Explicit ORdering）是另一个用于评估机器翻译和文本生成任务的指标，结合了精确率和召回率，并考虑了单词的词形变化和同义词。METEOR的计算公式为：

；其中，precision 表示生成文本中与参考文本匹配的单词数量占生成文本总单词数的比例，recall表示生成文本中与参考文本匹配的单词数量占参考文本总单词数的比例，α和γ是权重参数，通常设置为0.5和3.0。METEOR的范围在0到1之间，越接近1表示生成文本与参考文本的相似度越高；

ROUGE_L：ROUGE（Recall-Oriented Understudy for Gisting Evaluation）是一组用于评估文本摘要和生成任务的指标，ROUGE_L是其中之一，它计算最长公共子序列（longest common subsequence, LCS）的精确率和召回率。ROUGE_L的计算公式如下：

；其中，表示生成文本和参考文本的最长公共子序列的长度，和分别表示生成文本和参考文本的长度，表示取最大值。ROUGE_L的范围在0到1之间，越接近1表示生成文本与参考文本的相似度越高。

模型生成病变报告准确性的比较：将比较同一种模型基于不同模态数据及六种模型在分别在CFP和CFP_FFA模态下生成病变报告的准确性，如下：同一种模型基于不同模态数据生成病变报告准确性的比较：即同一种模型在FFA和CFP_FFA模态下生成病变报告准确性的比较。六种模型分别在CFP和CFP_FFA模态下生成病变报告准确性的比较。

统计分析方法：在测试集上对同一种模型在FFA和CFP_FFA模态下的五个副本以及在相同模态下六种模型的五个副本进行评估，得到相应的五个结果副本，以此进行比较，以确定是否存在统计学意义的显著性差异。通过双侧配对 t 检验确定P值，P < 0.05为差异有统计学意义。本研究在检验差异的显著性时比较的次数较多，表格形式可能较为繁琐，因此为了更清晰直观地呈现，差异显著的P值将在图中呈现，而无显著性差异的则省略。

同一种模型基于不同模态数据生成病变报告准确性的比较：在中文病变报告生成中，六种模型在FFA和CFP_FFA模态下生成病变报告的各项评分均无显著差异，尽管如此，多模态的融合使得TN模型在CFP_FFA模态下的BLEU_4评分较FFA模态的高（0.377 95% CI0.368, 0.386 vs. 0.376 95% CI 0.368, 0.384），CKMN模型在CFP_FFA模态下的BLEU_4评分较FFA模态的高（0.384 95% CI 0.374, 0.394 vs. 0.381 95% CI 0.376, 0.386）。

在英文病变报告生成中，六种模型在FFA和CFP_FFA模态下生成病变报告的各项评分同样均无显著差异，尽管如此，多模态的融合使得TN模型在CFP_FFA模态下的BLEU_4评分较FFA模态的高（0.251 95% CI 0.246, 0.256 vs. 0.250 95% CI 0.242, 0.258），CCMN模型在CFP_FFA模态下的BLEU_4评分较FFA模态的高（0.251 95% CI 0.243, 0.259 vs.0.249 95% CI 0.241, 0.257）。

六种模型在FFA模态下生成病变报告准确性的比较：在中文病变报告生成中，六种模型里，CMN和CKMN模型的BLEU_4评分最高，分别为0.381（95% CI 0.377, 0.385）和0.381（95% CI 0.376, 0.386），除CKMN模型显著优于TN模型外，余均与其他模型无显著差异；在英文病变报告生成中，六种模型里，CMN和KMN模型的BLEU_4评分最高，分别为0.253（95% CI0.246, 0.260）和0.253（95% CI 0.243, 0.263），除KMN模型显著优于CTN模型外，余均与其他模型无显著差异。

六种模型在CFP_FFA模态下生成病变报告准确性的比较：在中文病变报告生成中，六种模型里，CKMN模型的BLEU_4评分最高，为0.384（95% CI 0.374, 0.394），显著高于CTN和CMN模型，而与其他模型无显著差异；在英文病变报告生成中，六种模型里，TN，CMN和CCMN模型的BLEU_4均最高，分别为0.251（95% CI 0.246, 0.256），0.251（95% CI 0.244,0.258）和0.251（95% CI 0.243, 0.259），但与其他模型均无显著差异。

在Python语言的Django网页框架下开发了可供临床应用，为临床实践中对眼底疾病的诊断和治疗提供一定指导价值的应用网页“RetinaExpert”；如图7所示，用户在输入患者的基本信息并上传CFP和FFA后点击提交按钮，诊断分类模型和报告生成模型加载运行结束后将显示诊断分类结果并出具病变报告。

本研究具有实际的转化应用价值，研究成果可辅助年轻医师或具备相应检查的基层医院对眼底疾病的诊断和治疗工作，通过可视化注意力权重还能为临床医师提供模型决策背后的原因，有助于人机协作，如图8所示。此外，引入知识记忆模块的KMN和CKMN模型生成病变报告的准确性较高。尽管与其他多数模型相比无显著差异，但它们有潜力在临床实践中为眼底疾病的诊断和治疗提供更为准确的指导。

图10是示出根据本公开一些实施例的诊断报告生成装置的框图。如图10所示，诊断报告生成装置1000包括获取模块1010、诊断分类模块1020、以及生成模块1030。

获取模块1010，被配置为获取实际彩色眼底图像、实际眼底荧光血管造影图像、以及对应实际临床特征；

诊断分类模块1020，被配置为利用已经完成构建的眼底疾病多标签诊断分类模型对所述实际彩色眼底图像、所述实际眼底荧光血管造影图像、以及所述对应实际临床特征进行诊断分类，其中，在构建所述眼底疾病多标签诊断分类模型时，数据集的构建包括：收集多份FFA报告，且每份报告均有对应的临床特征及眼底病变报告、诊断结论，其中，所述多份FFA报告包括多张CFP和多张FFA，将所述多份FFA报告按比例拆分为训练集、验证集、以及测试集，所述训练集用于训练所述眼底疾病多标签分类模型；

生成模块1030，被配置为生成诊断报告。

在本公开实施例的装置中，在本公开中，收集了大规模的数据集，为眼底疾病多标签诊断模型提供了丰富的数据资源，确保了模型训练和验证的可靠性。本模型的构建和训练是基于13,130份FFA报告（7076名患者的13,130眼，共有13,130张CFP和173,722张FFA），每份报告均有对应的基本临床信息及眼底病变报告、诊断结论；在本公开中，增强了可解释性并融合了多模态信息：一方面，通过将卷积神经网络ResNet101和经典的转换器（transformer）模型的编码器结合，可以可视化注意力权重从而增强了模型的可解释性，利于医生和患者理解模型决策背后的原理。另一方面，将CFP（彩色眼底图像），FFA（眼底荧光血管造影图像）和患者的临床特征（包括年龄、性别、收缩期血压、舒张期血压、视力及既往病史）融合取得了对眼底疾病诊断分类更高的效能；在本公开中，采用非对称损失函数部分抵消了诊断类别的不均衡：尽管本数据集规模大，数据不均衡的问题仍是不可避免的。因此，采用了非对称损失函数来减弱易学的阴性样本对模型的影响。

如图11所示，诊断报告生成装置1100包括存储器1110；以及耦接至该存储器1110的处理器1120。存储器1110用于存储执行诊断报告生成方法对应实施例的指令。处理器1120被配置为基于存储在存储器1110中的指令，执行本公开中任意一些实施例中的诊断报告生成方法。

图12是示出用于实现本公开一些实施例的计算机系统的框图。如图12所示，计算机系统1200可以通用计算设备的形式表现。计算机系统1200包括存储器1210、处理器1220和连接不同系统组件的总线1230。

存储器1210例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序（Boot Loader）以及其他程序等。系统存储器可以包括易失性存储介质，例如随机存取存储器（RAM）和/或高速缓存存储器。非易失性存储介质例如存储有执行诊断报告生成方法中的至少一种的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。

处理器1220可以用通用处理器、数字信号处理器（DSP）、应用专用集成电路（ASIC）、现场可编程门阵列（FPGA）或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地，诸如获取模块、诊断分类模块、生成模块中的每个模块，可以通过中央处理器（CPU）运行存储器中执行相应步骤的指令来实现，也可以通过执行相应步骤的专用电路来实现。

总线1230可以使用多种总线结构中的任意总线结构。例如，总线结构包括但不限于工业标准体系结构（ISA）总线、微通道体系结构（MCA）总线、外围组件互连（PCI）总线。

计算机系统1200还可以包括输入输出接口1240、网络接口1250、存储接口1260等。这些接口1240、1250、1260以及存储器1210和处理器1220之间可以通过总线1230连接。输入输出接口1240可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口1250为各种联网设备提供连接接口。存储接口1260为软盘、U盘、SD卡等外部存储设备提供连接接口。

这里，参照根据本公开实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个框以及各框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程装置的处理器，以产生一个机器，使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。

这些计算机可读程序指令也可存储在计算机可读存储器中，这些指令使得计算机以特定方式工作，从而产生一个制造品，包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。

本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

在本公开中，收集了大规模的数据集，为眼底疾病多标签诊断模型提供了丰富的数据资源，确保了模型训练和验证的可靠性。本模型的构建和训练是基于13,130份FFA报告（7076名患者的13,130眼，共有13,130张CFP和173,722张FFA），每份报告均有对应的基本临床信息及眼底病变报告、诊断结论；在本公开中，增强了可解释性并融合了多模态信息：一方面，通过将卷积神经网络ResNet101和经典的转换器（transformer）模型的编码器结合，可以可视化注意力权重从而增强了模型的可解释性，利于医生和患者理解模型决策背后的原理。另一方面，将CFP（彩色眼底图像），FFA（眼底荧光血管造影图像）和患者的临床特征（包括年龄、性别、收缩期血压、舒张期血压、视力及既往病史）融合取得了对眼底疾病诊断分类更高的效能；在本公开中，采用非对称损失函数部分抵消了诊断类别的不均衡：尽管本数据集规模大，数据不均衡的问题仍是不可避免的。因此，采用了非对称损失函数来减弱易学的阴性样本对模型的影响。

至此，已经详细描述了根据本公开的烟支外观图像识别方法、装置及介质。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

虽然已经通过例子对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上例子仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

1.一种诊断报告生成方法，其特征在于，所述方法包括：

获取实际彩色眼底图像、实际眼底荧光血管造影图像、以及对应实际临床特征；

利用已经完成构建的眼底疾病多标签诊断分类模型对所述实际彩色眼底图像、所述实际眼底荧光血管造影图像、以及所述对应实际临床特征进行诊断分类，其中，在构建所述眼底疾病多标签诊断分类模型时，数据集的构建包括：收集北京大学第三医院眼科的多份FFA报告，且每份报告均有对应的临床特征及由资深视网膜专科医师出具的眼底病变报告、诊断结论，其中，所述多份FFA报告包括多张CFP和多张FFA，将所述多份FFA报告按比例拆分为训练集、验证集、以及测试集，所述训练集用于训练所述眼底疾病多标签分类模型；所述眼底疾病多标签诊断分类模型的构建，包括：将区块特征传入经典转换器模型的编码器内进行编码；提取代表编码后的区块特征的分类标记；将分类标记与临床特征融合后，得到融合特征；将所述融合特征传入与构建的基础分类模型类似的多任务分类头，以判断主分类及子分类；其中，所述经典转换器模型的编码器由基于多头注意力的自注意力层堆叠而成，所述多头注意力由n个平行头组成，每个头被定义为缩放点积注意力Att：

；

其中，

和分别表示查询矩阵和健/值矩阵；

和表示可学习的参数矩阵；

；

表示拼接操作；

所述基础分类模型的构建，包括：利用卷积神经网络ResNet101作为视觉特征提取器提取图像区块特征；对所述图像区块特征进行二维均值池化后，将池化后的所述图像区块特征传入多任务分类头，第一个分类头诊断主分类，其余的三个分类头分别对DR、RVO以及AMD分类；

生成诊断报告。

2.根据权利要求1所述的诊断报告生成方法，其特征在于，在构建所述眼底疾病多标签诊断分类模型时，输入的所述临床特征包括年龄、性别、视力、收缩期血压、舒张期血压和既往病史，其中，

所述年龄、所述性别、所述视力、所述收缩期血压、以及所述舒张期血压通过以下公式归一化：

；其中，

表示归一化值；

表示原始值；

表示数据集中的最大值；

表示数据集中的最小值。

3.根据权利要求1所述的诊断报告生成方法，其特征在于，在构建所述眼底疾病多标签诊断分类模型时，将每个标签当做二分类问题处理并采用非对称损失函数，模型为k个标签中的每一个标签产生单独的分对数，记作Z_k，所述分对数通过sigmoid函数激活，表示为，表示类别k的真实值；

根据公式：，得到总的分类损失；

根据公式：，得到每个标签的二分类损失；其中，和分别对应表示阳性和阴性样本的损失；

非对称损失的定义为：，其中，表示模型输出的概率；偏移概率由得到，其中，是可调的超参数，称作概率边缘，实现两种非对称性以最小化阴性样本对损失函数的影响。

4.根据权利要求1所述的诊断报告生成方法，其特征在于，在构建所述眼底疾病多标签诊断分类模型时，利用 Cohen kappa值评估所述眼底疾病多标签诊断分类模型，包括：

根据公式，，得到；其中，

表示观察到的一致性概率；

表示期望的一致性概率；

对于多分类问题，将真实类别记作，预测类别为的样本数记作，则根据公式：，得到；

根据公式：，得到。

5.根据权利要求4所述的诊断报告生成方法，其特征在于，当数据不均衡，以及

DR，RVO和AMD的子分类是有序分类时，将以二次加权值为衡量指标，根据公式：

，得到；

根据公式：，得到；

根据公式：，得到；其中，

表示二次加权的权重；

表示期望频数。

6.一种诊断报告生成装置，其特征在于，包括：

获取模块，用于获取实际彩色眼底图像、实际眼底荧光血管造影图像、以及对应实际临床特征；

诊断分类模块，用于利用已经完成构建的眼底疾病多标签诊断分类模型对所述实际彩色眼底图像、所述实际眼底荧光血管造影图像、以及所述对应实际临床特征进行诊断分类，其中，在构建所述眼底疾病多标签诊断分类模型时，数据集的构建包括：收集北京大学第三医院眼科的多份FFA报告，且每份报告均有对应的临床特征及由资深视网膜专科医师出具的眼底病变报告、诊断结论，其中，所述多份FFA报告包括多张CFP和多张FFA，将所述多份FFA报告按比例拆分为训练集、验证集、以及测试集，所述训练集用于训练所述眼底疾病多标签分类模型；所述眼底疾病多标签诊断分类模型的构建，包括：将区块特征传入经典转换器模型的编码器内进行编码；提取代表编码后的区块特征的分类标记；将分类标记与临床特征融合后，得到融合特征；将所述融合特征传入与构建的基础分类模型类似的多任务分类头，以判断主分类及子分类；其中，所述经典转换器模型的编码器由基于多头注意力的自注意力层堆叠而成，所述多头注意力由n个平行头组成，每个头被定义为缩放点积注意力Att：

；

其中，

和分别表示查询矩阵和健/值矩阵；

和表示可学习的参数矩阵；

；

表示拼接操作；

生成模块，用于生成诊断报告。

7.一种诊断报告生成装置，其特征在于，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行如权利要求1至5任一项所述的诊断报告生成方法。

8.一种计算机可存储介质，其特征在于，其上存储有计算机程序指令，该指令被处理器执行时实现如权利要求1至5任一项所述的诊断报告生成方法。