CN118136200B - 诊断报告生成方法、装置及介质 - Google Patents
诊断报告生成方法、装置及介质 Download PDFInfo
- Publication number
- CN118136200B CN118136200B CN202410558741.5A CN202410558741A CN118136200B CN 118136200 B CN118136200 B CN 118136200B CN 202410558741 A CN202410558741 A CN 202410558741A CN 118136200 B CN118136200 B CN 118136200B
- Authority
- CN
- China
- Prior art keywords
- classification
- fundus
- model
- ffa
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 201000010099 disease Diseases 0.000 claims abstract description 77
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 77
- 238000003745 diagnosis Methods 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000013145 classification model Methods 0.000 claims abstract description 46
- 230000003902 lesion Effects 0.000 claims abstract description 39
- 238000002583 angiography Methods 0.000 claims abstract description 27
- 238000012795 verification Methods 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 230000000694 effects Effects 0.000 claims abstract description 11
- 230000002207 retinal effect Effects 0.000 claims abstract description 4
- 208000015707 frontal fibrosing alopecia Diseases 0.000 claims abstract 12
- 235000021588 free fatty acids Nutrition 0.000 claims abstract 3
- 230000004927 fusion Effects 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 24
- 230000004438 eyesight Effects 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 13
- 230000035487 diastolic blood pressure Effects 0.000 claims description 13
- 230000035488 systolic blood pressure Effects 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 230000000007 visual effect Effects 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 241000764238 Isis Species 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 4
- 208000004644 retinal vein occlusion Diseases 0.000 description 27
- 206010064930 age-related macular degeneration Diseases 0.000 description 23
- 238000010586 diagram Methods 0.000 description 16
- 210000003128 head Anatomy 0.000 description 14
- 238000011156 evaluation Methods 0.000 description 10
- 230000007246 mechanism Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 230000035945 sensitivity Effects 0.000 description 6
- 206010012689 Diabetic retinopathy Diseases 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 201000007914 proliferative diabetic retinopathy Diseases 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 201000005667 central retinal vein occlusion Diseases 0.000 description 3
- 238000002405 diagnostic procedure Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000010253 intravenous injection Methods 0.000 description 3
- 239000010410 layer Substances 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- NJDNXYGOVLYJHP-UHFFFAOYSA-L disodium;2-(3-oxido-6-oxoxanthen-9-yl)benzoate Chemical compound [Na+].[Na+].[O-]C(=O)C1=CC=CC=C1C1=C2C=CC(=O)C=C2OC2=CC([O-])=CC=C21 NJDNXYGOVLYJHP-UHFFFAOYSA-L 0.000 description 2
- 208000011325 dry age related macular degeneration Diseases 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010348 incorporation Methods 0.000 description 2
- 208000002780 macular degeneration Diseases 0.000 description 2
- 238000007427 paired t-test Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 229920003169 water-soluble polymer Polymers 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 201000004569 Blindness Diseases 0.000 description 1
- 208000003569 Central serous chorioretinopathy Diseases 0.000 description 1
- 208000001344 Macular Edema Diseases 0.000 description 1
- 206010025415 Macular oedema Diseases 0.000 description 1
- 206010030113 Oedema Diseases 0.000 description 1
- 206010073286 Pathologic myopia Diseases 0.000 description 1
- 206010038934 Retinopathy proliferative Diseases 0.000 description 1
- 208000034698 Vitreous haemorrhage Diseases 0.000 description 1
- 208000000208 Wet Macular Degeneration Diseases 0.000 description 1
- 208000024812 X-linked reticulate pigmentary disease Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 201000007917 background diabetic retinopathy Diseases 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 210000003161 choroid Anatomy 0.000 description 1
- 235000019504 cigarettes Nutrition 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- GNBHRKFJIUUOQI-UHFFFAOYSA-N fluorescein Chemical compound O1C(=O)C2=CC=CC=C2C21C1=CC=C(O)C=C1OC1=CC(O)=CC=C21 GNBHRKFJIUUOQI-UHFFFAOYSA-N 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 230000000004 hemodynamic effect Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 201000010230 macular retinal edema Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004660 morphological change Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 210000001957 retinal vein Anatomy 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 210000005166 vasculature Anatomy 0.000 description 1
- 230000004393 visual impairment Effects 0.000 description 1
Landscapes
- Eye Examination Apparatus (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本公开涉及一种诊断报告生成方法、装置及介质。该方法包括:获取实际彩色眼底图像、实际眼底荧光血管造影图像、以及对应实际临床特征;利用已经完成构建的眼底疾病多标签诊断分类模型进行诊断分类,在构建所述眼底疾病多标签诊断分类模型时,数据集的构建包括:收集北京大学第三医院眼科的多份FFA报告,且每份报告均有对应的临床特征及由资深视网膜专科医师出具的眼底病变报告、诊断结论,多份FFA报告包括多张CFP和多张FFA,将多份FFA报告按比例拆分为训练集、验证集、以及测试集,训练集用于训练眼底疾病多标签分类模型。本公开实现了利用人工智能技术精准识别眼底疾病,生成诊断报告的技术效果。
Description
技术领域
本公开涉及人工智能技术领域,特别涉及一种诊断报告生成方法、装置及介质。
背景技术
糖尿病视网膜病变(diabetic retinopathy, DR)、视网膜静脉阻塞(retinalvein occlusion, RVO)、年龄相关性黄斑变性(age-related macular degeneration,AMD)等眼底疾病是我国三大常见的致盲性眼底疾病。随着生活方式的改变和人口老龄化的加剧,这三种眼底疾病已经成为公共卫生领域的重要挑战。这些疾病可能引发不可逆的视力损失,对患者的生活质量产生严重影响。传统的眼底疾病诊断主要依赖于眼科医生的临床经验和专业水平,然后,受限于医生的主观判断和资源的有限性,诊断效率和准确性存在一定的局限性。因此,寻求更先进的诊断方法以提高准确性,并在医疗资源有限的背景下实现更广泛的早期筛查显得尤为迫切。
近年来,人工智能(artificial intelligence, AI)技术在医学影像分析领域的应用取得了显著进展,尤其是深度学习(deep learning, DL)模型在眼底疾病诊断中的应用,显示出巨大的潜力。彩色眼底照相作为一种非侵入性、成本低廉的检查手段,已成为多数AI模型筛查眼底疾病的首选方法。然而,单一模态的彩色眼底图像(color fundusphotograph, CFP)存在潜在的信息缺失。眼底荧光血管造影通过静脉注射荧光染料使眼底血管系统显影而拍摄到眼底荧光血管造影图像(fundus fluorescein angiogram, FFA),提供了视网膜和脉络膜的血流动力学信息,是诊断多数眼底疾病的金标准。尽管目前已有部分研究基于FFA(眼底荧光血管造影图像)诊断眼底疾病或对眼底疾病的病变特征进行分割甚或生成病变报告,但多数研究的样本量相对较小。
当前诊断眼底疾病的AI模型大部分是基于单一模态,这存在潜在的信息缺失。并且,当前大部分DL模型的决策过程不透明,其可解释性问题是一个亟待解决的难题。这对于医生和患者理解模型的诊断过程至关重要。因此,在推进AI技术在眼底疾病诊断中的应用时,应该不断努力提高模型的可解释性,以确保医疗专业人员和患者能够更好地理解和信任AI辅助的诊断结果。临床实践中,眼底专家不仅需要辨识图像,往往还需要考虑患者的临床特征,比如年龄、性别、血压、视力及既往病史,从而得出更加准确的报告及诊断。既往的研究多数仅仅基于影像数据而未考虑患者的临床特征,这当中潜在的信息缺失会导致一定的错误。此外,样本量小也是目前多数基于FFA诊断眼底疾病的研究的主要痛点,获取大规模、高质量的FFA数据往往较为困难;同时,数据集中诊断类别的不均衡,即某些眼底疾病的样本量远远小于其他病症,也会很大程度上影响模型的准确性。
发明内容
本公开提出一种诊断报告生成方法、装置及介质,以解决上述技术问题。
根据本公开的第一方面,提供了一种诊断报告生成方法,包括:获取实际彩色眼底图像、实际眼底荧光血管造影图像、以及对应实际临床特征;利用已经完成构建的眼底疾病多标签诊断分类模型对所述实际彩色眼底图像、所述实际眼底荧光血管造影图像、以及所述对应实际临床特征进行诊断分类,其中,在构建所述眼底疾病多标签诊断分类模型时,数据集的构建包括:收集多份FFA报告,且每份报告均有对应的临床特征及眼底病变报告、诊断结论,其中,所述多份FFA报告包括多张CFP和多张FFA,将所述多份FFA报告按比例拆分为训练集、验证集、以及测试集,所述训练集用于训练所述眼底疾病多标签分类模型;生成诊断报告。
在一些实施例中,在构建所述眼底疾病多标签诊断分类模型时,输入的所述临床特征包括年龄、性别、视力、收缩期血压、舒张期血压和既往病史,其中,所述年龄、所述性别、所述视力、所述收缩期血压、以及所述舒张期血压通过以下公式归一化:
;其中,
表示归一化值;表示原始值; 表示数据集中的最大值;表示数据集中的最小值。
在一些实施例中,所述眼底疾病多标签诊断分类模型的构建,包括:将区块特征传入经典转换器模型的编码器内进行编码;提取代表编码后的区块特征的分类标记;将分类标记与临床特征融合后,得到融合特征;将所述融合特征传入与构建的基础分类模型类似的多任务分类头,以判断主分类及子分类;其中,所述经典转换器模型的编码器由基于多头注意力的自注意力层堆叠而成,所述多头注意力由n个平行头组成,每个头被定义为缩放点积注意力Att:;;其中,和分别表示查询矩阵和健/值矩阵;和表示可学习的参数矩阵;;表示拼接操作。
在一些实施例中,所述基础分类模型的构建,包括:利用卷积神经网络ResNet101作为视觉特征提取器提取图像区块特征;对所述图像区块特征进行二维均值池化后,将池化后的所述图像区块特征传入多任务分类头,第一个分类头诊断主分类,其余的三个分类头分别对DR、RVO以及AMD分类。
在一些实施例中,在构建所述眼底疾病多标签诊断分类模型时,将每个标签当做二分类问题处理并采用非对称损失函数,模型为k个标签中的每一个标签产生单独的分对数,记作Zk,所述分对数通过sigmoid函数激活,表示为,表示类别k的真实值;根据公式:,得到总的分类损失;根据公式:,得到每个标签的二分类损失;其中,和分别对应表示阳性和阴性样本的损失;非对称损失的定义为:,其中,表示模型输出的概率;偏移概率由得到,其中,是可调的超参数,称作概率边缘,实现两种非对称性以最小化阴性样本对损失函数的影响。
在一些实施例中,在构建所述眼底疾病多标签诊断分类模型时,利用 Cohenkappa值评估所述眼底疾病多标签诊断分类模型,包括:根据公式,,得到;其中,表示观察到的一致性概率;表示期望的一致性概率;对于多分类问题,将真实类别记作,预测类别为的样本数记作,则根据公式:,得到;根据公式:,得到。
在一些实施例中,当数据不均衡,以及DR,RVO和AMD的子分类是有序分类时,将以二次加权值为衡量指标,根据公式:,得到;根据公式:,得到;根据公式:,得到;其中,表示二次加权的权重;表示期望频数。
根据本公开的第二方面,提供了一种诊断报告生成装置,包括:获取模块,用于获取实际彩色眼底图像、实际眼底荧光血管造影图像、以及对应实际临床特征;诊断分类模块,用于利用已经完成构建的眼底疾病多标签诊断分类模型对所述实际彩色眼底图像、所述实际眼底荧光血管造影图像、以及所述对应实际临床特征进行诊断分类,其中,在构建所述眼底疾病多标签诊断分类模型时,数据集的构建包括:收集多份FFA报告,且每份报告均有对应的临床特征及眼底病变报告、诊断结论,其中,所述多份FFA报告包括多张CFP和多张FFA。生成模块,用于生成诊断报告。
根据本公开的第三方面,提供了一种诊断报告生成装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令,执行如上述的诊断报告生成方法。
根据本公开的第四方面,提供了一种计算机可存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现如上述的诊断报告生成方法。
通过采用上述技术方案,本公开的实施例能达到的有益技术效果:
在本公开中,收集了大规模的数据集,为眼底疾病多标签诊断模型提供了丰富的数据资源,确保了模型训练和验证的可靠性。本模型的构建和训练是基于13,130份FFA报告(7076名患者的13,130眼,共有13,130张CFP和173,722张FFA),每份报告均有对应的基本临床信息及眼底病变报告、诊断结论;
在本公开中,增强了可解释性并融合了多模态信息:一方面,通过将卷积神经网络ResNet101和经典的转换器(transformer)模型的编码器结合,可以可视化注意力权重从而增强了模型的可解释性,利于医生和患者理解模型决策背后的原理。另一方面,将CFP(彩色眼底图像),FFA(眼底荧光血管造影图像)和患者的临床特征(包括年龄、性别、收缩期血压、舒张期血压、视力及既往病史)融合取得了对眼底疾病诊断分类更高的效能;
在本公开中,采用非对称损失函数部分抵消了诊断类别的不均衡:尽管本数据集规模大,数据不均衡的问题仍是不可避免的。因此,采用了非对称损失函数来减弱易学的阴性样本对模型的影响。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开。
图1是示出根据本公开一些实施例的诊断报告生成方法的流程图。
图2是示出根据本公开一些实施例的眼底疾病多标签诊断分类模型架构示意图。
图3是示出根据本公开一些实施例的同一模型基于不同模态数据的总体效能示意图。
图4是示出根据本公开一些实施例的四种模型基于相同模态数据的总体效能示意图。
图5是示出根据本公开一些实施例的在CFP_FFA_L模态下最优的CACL模型对眼底疾病诊断分类的ROC示意图:(a)CACL模型诊断主分类的ROC、(b)CACL模型对DR分类的ROC、(c)CACL模型对RVO分类的ROC 、(d)CACL模型对AMD分类的ROC。
图6是示出根据本公开一些实施例的在CFP_FFA_L模态下最优的CACL模型对眼底疾病诊断分类的混淆矩阵示意图:(a)CACL模型诊断主分类的混淆矩阵、(b)CACL模型对DR分类的混淆矩阵、(c)CACL模型对RVO分类的混淆矩阵 、(d)CACL模型对AMD分类的混淆矩阵。
图7是示出根据本公开一些实施例的“RetinaExpert”应用网页的诊断页面示意图。
图8是示出根据本公开一些实施例的对CACL模型注意力权重的可视化示意图:(a)一个诊断为DR,ME及sNPDR的病例的CFP和注意力权重的可视化、(b)同一病例的FFA及注意力权重的可视化。
图9是示出根据本公开一些实施例的病变报告生成模型KMN与CKMN的架构。
图10是示出根据本公开一些实施例的诊断报告生成装置的框图。
图11是示出根据本公开另一些实施例的诊断报告生成装置的框图。
图12是示出用于实现本公开一些实施例的计算机系统的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个实例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
当前诊断眼底疾病的AI模型大部分是基于单一模态,这存在潜在的信息缺失。并且,当前大部分DL模型的决策过程不透明,其可解释性问题是一个亟待解决的难题。这对于医生和患者理解模型的诊断过程至关重要。因此,在推进AI技术在眼底疾病诊断中的应用时,应该不断努力提高模型的可解释性,以确保医疗专业人员和患者能够更好地理解和信任AI辅助的诊断结果。临床实践中,眼底专家不仅需要辨识图像,往往还需要考虑患者的临床特征,比如年龄、性别、血压、视力及既往病史,从而得出更加准确的报告及诊断。既往的研究多数仅仅基于影像数据而未考虑患者的临床特征,这当中潜在的信息缺失会导致一定的错误。此外,样本量小也是目前多数基于FFA诊断眼底疾病的研究的主要痛点,获取大规模、高质量的FFA数据往往较为困难;同时,数据集中诊断类别的不均衡,即某些眼底疾病的样本量远远小于其他病症,也会很大程度上影响模型的准确性。
鉴于此,本公开提出了一种诊断报告生成方法、装置及介质,在本公开中,收集了大规模的数据集,为眼底疾病多标签诊断模型提供了丰富的数据资源,确保了模型训练和验证的可靠性。本模型的构建和训练是基于13,130份FFA报告(7076名患者的13,130眼,共有13,130张CFP和173,722张FFA),每份报告均有对应的基本临床信息及眼底病变报告、诊断结论;
在本公开中,增强了可解释性并融合了多模态信息:一方面,通过将卷积神经网络ResNet101和经典的转换器(transformer)模型的编码器结合,可以可视化注意力权重从而增强了模型的可解释性,利于医生和患者理解模型决策背后的原理。另一方面,将CFP(彩色眼底图像),FFA(眼底荧光血管造影图像)和患者的临床特征(包括年龄、性别、收缩期血压、舒张期血压、视力及既往病史)融合取得了对眼底疾病诊断分类更高的效能;
在本公开中,采用非对称损失函数部分抵消了诊断类别的不均衡:尽管本数据集规模大,数据不均衡的问题仍是不可避免的。因此,采用了非对称损失函数来减弱易学的阴性样本对模型的影响。
图1是示出根据本公开一些实施例的诊断报告生成方法的流程图。如图1所示,诊断报告生成方法包括步骤110至步骤130。
在步骤110,获取实际彩色眼底图像、实际眼底荧光血管造影图像、以及对应实际临床特征。
在步骤120,建的眼底疾病多标签诊断分类模型对所述实际彩色眼底图像、所述实际眼底荧光血管造影图像、以及所述对应实际临床特征进行诊断分类,其中,在构建所述眼底疾病多标签诊断分类模型时,数据集的构建包括:收集多份FFA报告,且每份报告均有对应的临床特征及眼底病变报告、诊断结论,其中,所述多份FFA报告包括多张CFP和多张FFA,将所述多份FFA报告按比例拆分为训练集、验证集、以及测试集,所述训练集用于训练所述眼底疾病多标签分类模型。
在步骤130,生成诊断报告。
目前暂无研究将两种模态以及患者的临床特征融合对眼底疾病进行诊断分类。因此,本公开结合多模态影像以及患者的临床特征,构建一个多模态AI诊断系统,将有助于提高诊断的准确性和全面性,综合利用多模态信息的方法有望更全面地捕捉眼底疾病的特征,从而提高诊断的精准度。
本公开收集了大规模的数据集:本模型的构建和训练是基于13,130份FFA报告(7076名患者的13,130眼,共有13,130张CFP和173,722张FFA),每份报告均有对应的基本临床信息及眼底病变报告、诊断结论。这一庞大的数据集为该模型提供了丰富的数据资源,确保了模型训练和验证的可靠性。
本公开增强了可解释性并融合了多模态信息:一方面,通过将卷积神经网络ResNet101和经典的转换器(transformer)模型的编码器结合,可以可视化注意力权重从而增强了模型的可解释性,利于医生和患者理解模型决策背后的原理。另一方面,将CFP(彩色眼底图像),FFA(眼底荧光血管造影图像)和患者的临床特征(包括年龄、性别、收缩期血压、舒张期血压、视力及既往病史)融合取得了对眼底疾病诊断分类更高的效能。
本公开采用非对称损失函数部分抵消了诊断类别的不均衡:尽管本数据集规模大,数据不均衡的问题扔是不可避免的,因此采用了非对称损失函数减弱易学的阴性样本对模型的影响。
在一些实施例中,收集了2013年12月12日至2022年11月29日期间就诊于北京大学第三医院眼科行彩色眼底照相(Digital Retinal Camera, CR-2 AF, Canon, Tokyo,Japan)及眼底荧光血管造影检查(FF 450 plus, Carl Zeiss Meditec AG, Jena,Germany)的8,833名患者,共计17,467眼,涵盖了22,383次检查的影像数据。按以下入组排除标准,双眼入组,以最近一次检查为准。
入组标准:检查同时具备CFP,FFA及由主治或以上水平的眼科医师出具的检查报告。
排出标准:使用AutoMorph自动评估CFP(彩色眼底图像)的质量,质量差的排除该眼。
最后构建了包含7076名患者的13,130眼检查的全部数据集,共有13,130张CFP(彩色眼底图像)和173,722张FFA(眼底荧光血管造影图像)。按64%,16%和20%的比例将全部数据集随机拆分为训练集、验证集和测试集,随机种子为298。其中训练集包含8403眼,8403张CFP及111,241张FFA,验证集包含2100眼,2100张CFP及27,859张FFA,而测试集包含2627眼,2627张CFP(彩色眼底图像)及34,622张FFA(眼底荧光血管造影图像)。使用训练集训练模型,验证集监控模型训练过程,保留最佳模型,测试集则用于模型的内部验证。
从18名主治及以上医师出具的FFA(眼底荧光血管造影图像)病变报告中提取报告信息。数据集中主要包括DR、RVO和AMD等常见诊断,其次为黄斑水肿(macular, edema,ME),玻璃体积血(vitreous hemorrhage, VH)和激光斑。少见诊断如病理性近视和中心性浆液性脉络膜视网膜病变在本数据集中相对较少,虽然纳入这部分数据,但诊断不在研究考虑范围内。我们将DR,RVO,AMD,ME,VH和激光斑定义为主分类(primary classes),将DR,RVO和AMD的明细分类定义为子分类 (subclasses)。DR的子分类包括非增殖性糖尿病视网膜病变(non-proliferative retinopathy, NPDR,不包括重度severe NPDR, sNPDR),sNPDR和增殖性糖尿病视网膜病变(proliferative diabetic retinopathy, PDR)。因本数据集中半视网膜静脉阻塞(Hemi-retinal vein occlusion, HRVO)较为罕见,仅有91眼,RVO的子分类被限定为视网膜分支静脉阻塞(branch retinal vein occlusion, BRVO)和视网膜中央静脉阻塞(central retinal vein occlusion, CRVO)而AMD的子分类则包括干性AMD和湿性AMD。
在一些实施例中,眼底疾病多标签诊断分类模型的构建包括:模型的输入及输出:根据模型的设计,除了以下输入外,可能额外输入患者的临床特征,包括年龄、性别、视力、收缩期血压、舒张期血压和既往病史。其中年龄、性别、视力、收缩期血压、舒张期血压通过以下公式归一化:;其中,normalized_value代表归一化值,original_value 代表原始值,max_value代表数据集中的最大值,min_value代表数据集中的最小值。
采用小数视力,当视力为数指、手动、有光感或者无光感时,视力的数值记作0。当既往病史的某个句子内含有主分类或者DR,RVO和AMD子分类的诊断信息时,该句则被舍弃。随后将剩下的中文病史信息经过双向编码器表示转换器(bidirectional encoderrepresentation from transformers, BERT)进行编码后得到768维的向量表示。将归一化的年龄、性别、视力、收缩期血压、舒张期血压和既往病史的向量表示拼接后得到临床特征的向量表示(773维)。
有几种模型的输入方式:第一,单独输入一张CFP(彩色眼底图像);第二,单独输入按静脉注射荧光素钠后摄像时间顺序相对均匀抽取的八张FFA(眼底荧光血管造影图像);第三,同时输入前两者。
模型的输出:诊断主分类的概率;如果模型对DR,RVO或AMD的输出概率大于或等于0.5,则进一步输出DR,RVO或AMD子分类的概率。
在一些实施例中,构建了一下四种模型:
第一类,基础分类(Basic CLassification, BCL)模型:采用卷积神经网络ResNet101作为视觉特征提取器,提取图像区块特征,对区块特征进行二维均值池化后将其传入多任务分类头,第一个分类头诊断主分类,其余的三个分类头则分别对DR,RVO和AMD分类。
第二类,融入注意力机制的基础分类(Basic Attention mechanismincorporated CLassification, BACL)模型:为了增强模型的可解释性,BACL融入了注意力机制,相对BCL,其先将区块特征传入经典转换器模型的编码器内进行编码,随后提取代表编码后的区块特征的分类标记,并传入与BCL中一样的多任务分类头,以判断主分类及子分类。经典转换器模型的编码器由基于多头注意力(MHA)的自注意力层堆叠而成。MHA(多头注意力)由n个平行头组成,每个头被定义为缩放点积注意力Att:
;
;其中,和分别代表查询矩阵和键/值矩阵,而和
代表可学习的参数矩阵,,而代表拼接操作。
第三类,融入临床特征的分类(Clinical features incorporatedCLassification, CCL)模型:相对BCL模型,其将区块特征与临床特征融合后再将融合特征传入多任务分类头。
第四类,融入临床特征和注意力机制的分类(Clinical features and Attentionmechanism incorporated CLassification, CACL)模型:相对BACL模型,其将分类标记与临床特征融合后再将融合特征传入多任务分类头,如图2所示。
对数据不均衡问题的纠正:为了有效解决多标签分类的数据不均衡问题,我们将
每个标签都当二分类问题处理并采用了一种非对称损失(ASymmetric Loss, ASL)函数。给
定个标签, 模型为每个标签产生一个单独的分对数(logit),记作,这些分对数随后通
过单独的函数激活,表示为。假设表示类别的真实值, 总的分类损失则是通过对所有个标签的二分类损失求和得到:
;
每个标签的二分类损失,记作,可表示为以下普通的形式:
;
其中和对应分别对应阳性和阴性样本的损失。非对称损失(ASL)的定义如
下:
;
其中(省略类别)代表模型输出的概率。偏移概率 由得到,其中是可调的超参数,称作概率边缘。ASL 实
现了两种非对称性以最小化阴性样本对损失函数的影响。这两种类型涉及使用软阈值,通
过使用聚焦参数 > 实现,以及通过概率边缘实现硬阈值。为了纠正子分类之间的
数据不均衡,我们采用了单标签非对称损失函数,这是从上述的多标签非对称损失函数派
生所得:用替换激活函数,且去除概率边缘。
在一些实施例中,多模态数据的融合包括早期融合和晚期融合。
早期融合(early fusion),即特征水平的融合(feature-level fusion):同时输入CFP和FFA,使用卷积神经网络提取图像特征进行融合后训练模型。
晚期融合(late fusion),即决策水平的融合(decision-level fusion):分别训练单独输入一种CFP和单独输入八张FFA的两个模型后,取两个模型输出概率的平均值进行决策。
在一些实施例中,模型的训练:分别单独输入一张CFP(彩色眼底图像)、八张FFA
(眼光荧光血管造影图像)及同时输入前两者训练上述四种模型,使用五个不同的随机种子
(281、520、746、781、932)控制训练数据的混洗,得到每种模型的五个副本,共60个模型(不
计晚期融合的20个模型)。所有模型均使用Python 3.10中的PyTorch框架实现,并在搭载有
32 GB内存的NVIDIA Tesla V100 SXM2图形处理单元(graphics processing unit, GPU)
上执行,使用4块GPU。使用的驱动程序版本为510.47.03,CUDA版本为11.6。在整个训练过程
中,非对称损失函数的参数值设置如下:多标签ASL的为2,为1,为0.05;单标签ASL
的为2,为0。编码器的层数为3,头数为8,批次大小为64,学习率为 ,训练持
续时间为50轮,训练过程使用的监控指标为总体平均Cohen kappa值,如果监控指标不提高
的轮数等于25,则提前停止训练。
在一些实施例中,模型诊断分类效能的比较:将比较同一种模型基于不同模态数据以及四种模型在最优模态下的诊断分类效能,如下:
第一,同一种模型基于不同模态数据诊断分类效能的比较:即同一种模型单独输入CFP、FFA以及早期融合CFP和FFA模态(early fusion of CFP and FFA modalities,CFP_FFA_E)和晚期融合CFP和FFA模态(late fusion of CFP and FFA modalities, CFP_FFA_L)对眼底疾病诊断分类效能的比较,为了简洁,下文将该四种情形依次简称为CFP模态,FFA模态,CFP_FFA_E模态及CFP_FFA_L模态。
第二,四种模型在相同模态下诊断分类效能的比较。
在一些实施例中,在构建模型(眼底疾病多标签诊断分类模型)时,涉及模型的评估。
主要评估指标:Cohen kappa值(Cohen’s kappa):用于衡量分类模型与真实值一致性的统计量,考虑了分类中由于偶然因素导致的正确预测的可能性:
;其中,是观察到的一致性概率,是期望的一致
性概率。如表3.1,对于多分类问题,将真实类别记为,预测类别为的样本数记为,则
和可由以下公式计算得到:
;
;
Cohen kappa值的范围在 -1到1之间,值越接近1表示分类模型与真实值的一致性越好,0表示与随机分类一致,而负值则表示与真实值的一致性差于随机分类,表3.2显示了Cohen kappa值的范围与预测值和真实值的一致性的对应关系。
表3.1 多分类问题的混淆矩阵
表3.2 Cohen kappa值的范围与预测值和真实值的一致性的对应关系
在评估模型的效能时,考虑到数据的不均衡及DR,RVO和AMD的子分类是有序分类,将以二次加权Cohen kappa值(quadratic weighted Cohen's kappa)为衡量指标,当类别数为2时,二次加权Cohen kappa值与一般形式的Cohen kappa值相等,下文如未特殊说明,Cohen kappa值均指二次加权Cohen kappa值,其计算方式与Cohen kappa值略有不同,可由以下公式计算得到:
;
;
;其中,代表二次加权的权重,代表期望频
数。在对模型评估时,将分别计算主分类中各诊断的Cohen kappa值及主分类的平均Cohen
kappa值,对DR,RVO,AMD进行分类时计算子分类Cohen kappa值,最后计算总体平均Cohen
kappa值以反映模型的总体效能。
次要评估指标:受试者工作特征曲线下面积(Area under the receiveroperating characteristic curve, AUC):用于评估分类模型在不同阈值下的效能。AUC越高,模型效能越好。我们分别计算各主分类的AUC和主分类的平均AUC。在DR分类中,子分类的类别数为3,则分别计算NPDR,sNPDR和PDR的AUC;而对RVO和AMD分类是二分类问题,诊断BRVO和CRVO的AUC数值一样,则以BRVO的AUC代表RVO分类的AUC,同理,以干性AMD的AUC代表AMD分类的AUC;
准确率(accuracy):预测正确的样本数量占总样本数量的比例:
;
缩写详见表3.3;
表3.3 二分类问题的混淆矩阵
灵敏度(sensitivity)或召回率(recall, R):预测正确的阳性样本占真实阳性样本的比例:
;
考虑到样本比例的不均衡,将对主分类和DR,RVO及AMD子分类分别计算加权灵敏度(weighted sensitivity);
精确率(precision):预测正确的阳性样本占预测阳性的样本的比例:
;
同理,将分别计算主分类和DR,RVO及AMD子分类的加权精确率(weightedprecision);
F1分数:灵敏度与精确率的调和平均值:
;
同理,将分别计算主分类和DR,RVO及AMD子分类的加权F1分数(weighted F1score);
特异度(specificity):预测正确的阴性样本占真实阴性样本的比例:
;对该项指标不计算加权值;
子集准确率(subset accuracy):衡量多标签诊断中,预测标签与真实标签完全一致的样本占总样本的比例。
在一些实施例中,在测试集上对同一种模型在四种模态下的五个副本以及在相同模态下四种模型的五个副本进行评估,得到相应的五个结果副本,以此进行比较,以确定是否存在统计学意义的显著性差异。通过双侧配对 t 检验确定P值,P < 0.05为差异有统计学意义。本研究在检验差异的显著性时比较的次数较多,表格形式可能较为繁琐,因此为了更清晰直观地呈现,差异显著的P值将在图中呈现,而无显著性差异的则省略。
在一些实施例中,同一种模型在不同模态下的效能比较:如图3所示,CFP和FFA模态的晚期融合显著提升了四种诊断分类模型的总体效能。在CFP_FFA_L模态下四种模型的总体效能均达到最优,其中BCL,CCL和CACL模型在CFP_FFA_L模态下的总体平均Cohenkappa值(分别为0.716 95% CI 0.704, 0.728; 0.732 95% CI 0.726, 0.738; 0.748 95%CI 0.743, 0.753),显著高于在CFP(分别为0.617 95% CI 0.606, 0.628; 0.649 95% CI0.641, 0.657; 0.653 95% CI 0.646, 0.660),FFA(分别为0.676 95% CI 0.667, 0.685;0.690 95% CI 0.677, 0.703; 0.720 95% CI 0.708, 0.732)和CFP_FFA_E(分别为0.67395% CI 0.652, 0.694; 0.680 95% CI 0.672, 0.688; 0.715 95% CI 0.703, 0.727)三种模态下的值,而BACL模型在CFP_FFA_L模态下的总体平均Cohen kappa值(0.736 95% CI0.717, 0.755)显著高于在CFP(0.616 95% CI 0.590, 0.642)和FFA(0.711 95% CI0.689, 0.733)两种模态下的值。相反,在CFP_FFA_E模态下,四种模型的总体平均Cohenkappa值仅显著高于CFP模态,而与FFA模态下的值无显著差异。
如图3所示,(a)BCL模型基于不同模态数据的总体平均Cohen kappa值的比较;(b)BACL模型基于不同模态数据的总体平均Cohen kappa值的比较;(c)CCL模型基于不同模态数据的总体平均Cohen kappa值的比较;(d)CACL模型基于不同模态数据的总体平均Cohenkappa值的比较。
在一些实施例中,四种模型在相同模态下的效能比较:如图4所示,在最优模态,即CFP_FFA_L模态下,临床特征的融入也使得CCL模型较BCL模型在总体效能上有显著的提高(0.732 95% CI 0.726, 0.738 vs. 0.716 95% CI 0.704, 0.728),而注意力机制的融入则使得CACL模型较CCL模型又得到显著的提高(0.748 95% CI 0.743, 0.753 vs. 0.73295% CI 0.726, 0.738),同样CACL模型在CFP(0.653 95% CI 0.646, 0.660),FFA(0.72095% CI 0.708, 0.732)和CFP_FFA_E(0.715 95% CI 0.703, 0.727)模态下的总体效能均是最优,均显著高于BCL模型(分别为0.617 95% CI 0.606, 0.628; 0.676 95% CI 0.667,0.685; 0.673 95% CI 0.652, 0.694)。
如图5所示,显示了在CFP_FFA_L模态下最优的CACL模型(训练过程的随机种子为520,总体平均Cohen kappa最高,为0.753)诊断分类的ROC,如图6所示,显示了该CACL模型诊断分类的混淆矩阵。除了VH和sNPDR外,模型诊断主分类及对DR,RVO和AMD分类均取得可观的灵敏度和特异度。
此外,临床特征和注意力机制的融入也使得CACL模型在CFP,FFA和CFP_FFA_E模态下的总体效能最高。在CFP模态下,临床特征的融入使得CCL模型的总体平均Cohen kappa值显著高于BCL模型并使得CACL模型的总体平均Cohen kappa值显著高于BCL和BACL模型;在FFA模态下,临床特征的融入使得CCL和CACL模型的总体平均Cohen kappa值显著高于BCL模型,并且注意力机制的融入使CACL模型较CCL模型的总体效能得到进一步提高;在CFP_FFA_E模态下,CCL与BCL模型的总体效能无显著差异,但临床特征和注意力机制的融入使得CACL模型的总体效能显著优于BCL模型。
在本公开的实施例中,在本公开中,收集了大规模的数据集,为眼底疾病多标签诊断模型提供了丰富的数据资源,确保了模型训练和验证的可靠性。本模型的构建和训练是基于13,130份FFA报告(7076名患者的13,130眼,共有13,130张CFP和173,722张FFA),每份报告均有对应的基本临床信息及眼底病变报告、诊断结论;在本公开中,增强了可解释性并融合了多模态信息:一方面,通过将卷积神经网络ResNet101和经典的转换器(transformer)模型的编码器结合,可以可视化注意力权重从而增强了模型的可解释性,利于医生和患者理解模型决策背后的原理。另一方面,将CFP(彩色眼底图像),FFA(眼底荧光血管造影图像)和患者的临床特征(包括年龄、性别、收缩期血压、舒张期血压、视力及既往病史)融合取得了对眼底疾病诊断分类更高的效能;在本公开中,采用非对称损失函数部分抵消了诊断类别的不均衡:尽管本数据集规模大,数据不均衡的问题仍是不可避免的。因此,采用了非对称损失函数来减弱易学的阴性样本对模型的影响。
现提供另一种实施例,首先了解病变报告生成模型的构建。
模型的输入及输出:考虑到病变报告的信息主要来自于FFA,而CFP所提供的信息不足以生成完整的病变报告,不单独输入CFP,因此多模态数据的融合仅包括早期融合,即CFP_FFA_E模态,以下均简称为CFP_FFA模态。此外,在融入临床特征的模型中,将输入上述的临床特征。
模型的输入:单独输入按静脉注射荧光素钠后摄像时间顺序相对均匀抽取的八张FFA;同时输入一张CFP和八张FFA。模型的输出:中文或英文版病变报告。
模型的构建:采用以下六种模型。
发明人需要说明的是,下面六种模型和上述诊断分类模型是相互独立的。
全部模型均以卷积神经网络ResNet101作为视觉特征提取器,提取图像的区块特征:
转换器网络(Transformer Network, TN):该模型基于经典的转换器模型,在训练模型时,由ResNet101提取输入图像的区块特征,随后将其传入编码器内进行编码,而参考病变报告输入解码器内,与编码后的区块特征进行注意力计算,逐字解码;在模型推理时,仅输入图像,经由编码器编码后传入解码器,逐字生成病变报告。
融入临床特征的转换器网络(Clinical features incorporated TransformerNetwork, CTN):除了将区块特征与临床特征融合共同输入编码器外,其余与TN相同。
跨模态记忆网络(Cross-modal Memory Network, CMN):该模型由Chen, Z.等人提出,其创新性地调整了转换器的解码器,并设计了一个共享记忆模块,促进了文本和视觉模态之间的特征对齐,在胸片报告生成中展现了优越的表现。
融入临床特征的跨模态记忆网络(Clinical features incorporated Cross-modal Memory Network, CCMN):除融入临床特征外,余与CMN模型相同。
知识记忆网络(Knowledge Memory Network, KMN):在本模型中,我们首先初始化
一个知识记忆矩阵,其中N代表记忆向量的数量,指行的记忆向量,维度为 ,使用MHA来更新知识记忆矩阵。为了更新在训练步的知识记忆矩阵,我们利用从解码器中获得的带有位置编码的参考报告嵌入
经过经典的转换器的编码器(图6文本编码器)编码得到的文本特征来识别不具备的
知识,获得的知识增量记作,
则;
训练步的知识记忆矩阵,则为:
;
其中,Norm代表层归一化,用以归一化知识增量;接下来利用多线程查询响应机制
(multi thread Memory Querying and Responding, MQR)获得当前区块特征最相关的知
识:
;其中,X代表区块特征,随后将X和家和后传入编码
器,以生成病变报告。
为了促进图像和文本特征之间的对齐,我们利用了三元边缘损失函数,该损失函
数涉及比较参考图像(锚点)与配对的文本输入(正样本)和未配对的文本输入(负样本)。其
目标是最小化锚点与正样本之间的距离,同时最大化锚点与负样本输入之间的距离。我们
同时采用了图像-文本和文本-图像的三元边缘损失,确保在潜在空间中,配对特征比未配
对特征更接近。首先通过平均池化获取聚合的视觉特征,类似于BERT,使用转
换器的编码器编码从解码器中获得的带有位置编码的参考报告嵌入,,
其中T代表提取到的文本特征,代表文本编码器,得到文本特征T之后从中提取到分类标
记代表聚合的文本特征。对于配对的图像和文本对,从训练批次集合中抽
取负对(未配对)以及,则图像-文本对齐及文本-图像对齐由如下
的损失函数控制:
;
其中,n代表批次大小,量化了两种特征之间的相似度。本研
究中边缘参数设置为0。最后,控制模型训练的总损失L为:
,其中,代表生成文本与参考文本的交叉熵损失函数,本研究中设置为1,而设置
为0.1。
如图9所示,融入临床特征的知识记忆网络(Clinical features incorporatedKnowledge Memory Network, CKMN):除将区块特征和临床特征拼接位融合特征,以此查询相关知识外,余与KMN相同。
模型训练:分别单独输入八张FFA及同时输入一张CFP和八张FFA训练上述六种模
型,使用五个不同的随机种子(281、520、746、781、932)控制训练数据的混洗,得到每种模型
的五个副本,共120个模型(包括中文和英文版)。所有模型均使用Python 3.10中的PyTorch
框架实现,并在搭载有32 GB内存的NVIDIA Tesla V100 SXM2图形处理单元(graphics
processing unit, GPU)上执行,每个的模型训练使用1块GPU。使用的驱动程序版本为
510.47.03,CUDA版本为11.6。训练的批次大小为8,ResNet101的学习率为 ,其余
权重的学习率为,训练持续时间为50轮,训练过程使用的监控指标为BLEU_4,如
果监控指标不提高的轮数等于25,则提前停止训练。
模型的评估:主要评估指标:BLEU_4(BiLingual Evaluation Understudy): 是用于评估机器翻译和文本生成任务的指标之一,它基于n个连续词(n-gram)的匹配来衡量生成文本与参考文本之间的相似度。BLEU_1、BLEU_2、BLEU_3、BLEU_4分别代表1-gram、2-gram、3-gram和4-gram的BLEU分数。BLEU的范围在0到1之间,越接近1表示生成文本与参考文本的相似度越高;
次要评估指标:BLEU_1;BLEU_2;BLEU_3;METEOR:METEOR(Metric for Evaluationof Translation with Explicit ORdering)是另一个用于评估机器翻译和文本生成任务的指标,结合了精确率和召回率,并考虑了单词的词形变化和同义词。METEOR的计算公式为:
;其中,precision
表示生成文本中与参考文本匹配的单词数量占生成文本总单词数的比例,recall表示生成
文本中与参考文本匹配的单词数量占参考文本总单词数的比例,α和γ是权重参数,通常设
置为0.5和3.0。METEOR的范围在0到1之间,越接近1表示生成文本与参考文本的相似度越
高;
ROUGE_L:ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一组用于评估文本摘要和生成任务的指标,ROUGE_L是其中之一,它计算最长公共子序列(longest common subsequence, LCS)的精确率和召回率。ROUGE_L的计算公式如下:
;其中,表
示生成文本和参考文本的最长公共子序列的长度,和
分别表示生成文本和参考文本的长度,表示取最大值。ROUGE_L的范围在0到1之间,
越接近1表示生成文本与参考文本的相似度越高。
模型生成病变报告准确性的比较:将比较同一种模型基于不同模态数据及六种模型在分别在CFP和CFP_FFA模态下生成病变报告的准确性,如下:同一种模型基于不同模态数据生成病变报告准确性的比较:即同一种模型在FFA和CFP_FFA模态下生成病变报告准确性的比较。六种模型分别在CFP和CFP_FFA模态下生成病变报告准确性的比较。
统计分析方法:在测试集上对同一种模型在FFA和CFP_FFA模态下的五个副本以及在相同模态下六种模型的五个副本进行评估,得到相应的五个结果副本,以此进行比较,以确定是否存在统计学意义的显著性差异。通过双侧配对 t 检验确定P值,P < 0.05为差异有统计学意义。本研究在检验差异的显著性时比较的次数较多,表格形式可能较为繁琐,因此为了更清晰直观地呈现,差异显著的P值将在图中呈现,而无显著性差异的则省略。
同一种模型基于不同模态数据生成病变报告准确性的比较:在中文病变报告生成中,六种模型在FFA和CFP_FFA模态下生成病变报告的各项评分均无显著差异,尽管如此,多模态的融合使得TN模型在CFP_FFA模态下的BLEU_4评分较FFA模态的高(0.377 95% CI0.368, 0.386 vs. 0.376 95% CI 0.368, 0.384),CKMN模型在CFP_FFA模态下的BLEU_4评分较FFA模态的高(0.384 95% CI 0.374, 0.394 vs. 0.381 95% CI 0.376, 0.386)。
在英文病变报告生成中,六种模型在FFA和CFP_FFA模态下生成病变报告的各项评分同样均无显著差异,尽管如此,多模态的融合使得TN模型在CFP_FFA模态下的BLEU_4评分较FFA模态的高(0.251 95% CI 0.246, 0.256 vs. 0.250 95% CI 0.242, 0.258),CCMN模型在CFP_FFA模态下的BLEU_4评分较FFA模态的高(0.251 95% CI 0.243, 0.259 vs.0.249 95% CI 0.241, 0.257)。
六种模型在FFA模态下生成病变报告准确性的比较:在中文病变报告生成中,六种模型里,CMN和CKMN模型的BLEU_4评分最高,分别为0.381(95% CI 0.377, 0.385)和0.381(95% CI 0.376, 0.386),除CKMN模型显著优于TN模型外,余均与其他模型无显著差异;在英文病变报告生成中,六种模型里,CMN和KMN模型的BLEU_4评分最高,分别为0.253(95% CI0.246, 0.260)和0.253(95% CI 0.243, 0.263),除KMN模型显著优于CTN模型外,余均与其他模型无显著差异。
六种模型在CFP_FFA模态下生成病变报告准确性的比较:在中文病变报告生成中,六种模型里,CKMN模型的BLEU_4评分最高,为0.384(95% CI 0.374, 0.394),显著高于CTN和CMN模型,而与其他模型无显著差异;在英文病变报告生成中,六种模型里,TN,CMN和CCMN模型的BLEU_4均最高,分别为0.251(95% CI 0.246, 0.256),0.251(95% CI 0.244,0.258)和0.251(95% CI 0.243, 0.259),但与其他模型均无显著差异。
在Python语言的Django网页框架下开发了可供临床应用,为临床实践中对眼底疾病的诊断和治疗提供一定指导价值的应用网页“RetinaExpert”;如图7所示,用户在输入患者的基本信息并上传CFP和FFA后点击提交按钮,诊断分类模型和报告生成模型加载运行结束后将显示诊断分类结果并出具病变报告。
本研究具有实际的转化应用价值,研究成果可辅助年轻医师或具备相应检查的基层医院对眼底疾病的诊断和治疗工作,通过可视化注意力权重还能为临床医师提供模型决策背后的原因,有助于人机协作,如图8所示。此外,引入知识记忆模块的KMN和CKMN模型生成病变报告的准确性较高。尽管与其他多数模型相比无显著差异,但它们有潜力在临床实践中为眼底疾病的诊断和治疗提供更为准确的指导。
图10是示出根据本公开一些实施例的诊断报告生成装置的框图。如图10所示,诊断报告生成装置1000包括获取模块1010、诊断分类模块1020、以及生成模块1030。
获取模块1010,被配置为获取实际彩色眼底图像、实际眼底荧光血管造影图像、以及对应实际临床特征;
诊断分类模块1020,被配置为利用已经完成构建的眼底疾病多标签诊断分类模型对所述实际彩色眼底图像、所述实际眼底荧光血管造影图像、以及所述对应实际临床特征进行诊断分类,其中,在构建所述眼底疾病多标签诊断分类模型时,数据集的构建包括:收集多份FFA报告,且每份报告均有对应的临床特征及眼底病变报告、诊断结论,其中,所述多份FFA报告包括多张CFP和多张FFA,将所述多份FFA报告按比例拆分为训练集、验证集、以及测试集,所述训练集用于训练所述眼底疾病多标签分类模型;
生成模块1030,被配置为生成诊断报告。
在本公开实施例的装置中,在本公开中,收集了大规模的数据集,为眼底疾病多标签诊断模型提供了丰富的数据资源,确保了模型训练和验证的可靠性。本模型的构建和训练是基于13,130份FFA报告(7076名患者的13,130眼,共有13,130张CFP和173,722张FFA),每份报告均有对应的基本临床信息及眼底病变报告、诊断结论;在本公开中,增强了可解释性并融合了多模态信息:一方面,通过将卷积神经网络ResNet101和经典的转换器(transformer)模型的编码器结合,可以可视化注意力权重从而增强了模型的可解释性,利于医生和患者理解模型决策背后的原理。另一方面,将CFP(彩色眼底图像),FFA(眼底荧光血管造影图像)和患者的临床特征(包括年龄、性别、收缩期血压、舒张期血压、视力及既往病史)融合取得了对眼底疾病诊断分类更高的效能;在本公开中,采用非对称损失函数部分抵消了诊断类别的不均衡:尽管本数据集规模大,数据不均衡的问题仍是不可避免的。因此,采用了非对称损失函数来减弱易学的阴性样本对模型的影响。
图11是示出根据本公开另一些实施例的诊断报告生成装置的框图。
如图11所示,诊断报告生成装置1100包括存储器1110;以及耦接至该存储器1110的处理器1120。存储器1110用于存储执行诊断报告生成方法对应实施例的指令。处理器1120被配置为基于存储在存储器1110中的指令,执行本公开中任意一些实施例中的诊断报告生成方法。
图12是示出用于实现本公开一些实施例的计算机系统的框图。如图12所示,计算机系统1200可以通用计算设备的形式表现。计算机系统1200包括存储器1210、处理器1220和连接不同系统组件的总线1230。
存储器1210例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。系统存储器可以包括易失性存储介质,例如随机存取存储器(RAM)和/或高速缓存存储器。非易失性存储介质例如存储有执行诊断报告生成方法中的至少一种的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。
处理器1220可以用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、 现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地,诸如获取模块、诊断分类模块、生成模块中的每个模块,可以通过中央处理器(CPU)运行存储器中执行相应步骤的指令来实现,也可以通过执行相应步骤的专用电路来实现。
总线1230可以使用多种总线结构中的任意总线结构。例如,总线结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、外围组件互连(PCI)总线。
计算机系统1200还可以包括输入输出接口1240、网络接口1250、存储接口1260等。这些接口1240、1250、1260以及存储器1210和处理器1220之间可以通过总线1230连接。输入输出接口1240可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口1250为各种联网设备提供连接接口。存储接口1260为软盘、U盘、SD卡等外部存储设备提供连接接口。
这里,参照根据本公开实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个框以及各框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程装置的处理器,以产生一个机器,使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。
这些计算机可读程序指令也可存储在计算机可读存储器中,这些指令使得计算机以特定方式工作,从而产生一个制造品,包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。
本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
在本公开中,收集了大规模的数据集,为眼底疾病多标签诊断模型提供了丰富的数据资源,确保了模型训练和验证的可靠性。本模型的构建和训练是基于13,130份FFA报告(7076名患者的13,130眼,共有13,130张CFP和173,722张FFA),每份报告均有对应的基本临床信息及眼底病变报告、诊断结论;在本公开中,增强了可解释性并融合了多模态信息:一方面,通过将卷积神经网络ResNet101和经典的转换器(transformer)模型的编码器结合,可以可视化注意力权重从而增强了模型的可解释性,利于医生和患者理解模型决策背后的原理。另一方面,将CFP(彩色眼底图像),FFA(眼底荧光血管造影图像)和患者的临床特征(包括年龄、性别、收缩期血压、舒张期血压、视力及既往病史)融合取得了对眼底疾病诊断分类更高的效能;在本公开中,采用非对称损失函数部分抵消了诊断类别的不均衡:尽管本数据集规模大,数据不均衡的问题仍是不可避免的。因此,采用了非对称损失函数来减弱易学的阴性样本对模型的影响。
至此,已经详细描述了根据本公开的烟支外观图像识别方法、装置及介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
虽然已经通过例子对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上例子仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。
Claims (8)
1.一种诊断报告生成方法,其特征在于,所述方法包括:
获取实际彩色眼底图像、实际眼底荧光血管造影图像、以及对应实际临床特征;
利用已经完成构建的眼底疾病多标签诊断分类模型对所述实际彩色眼底图像、所述实际眼底荧光血管造影图像、以及所述对应实际临床特征进行诊断分类,其中,在构建所述眼底疾病多标签诊断分类模型时,数据集的构建包括:收集北京大学第三医院眼科的多份FFA报告,且每份报告均有对应的临床特征及由资深视网膜专科医师出具的眼底病变报告、诊断结论,其中,所述多份FFA报告包括多张CFP和多张FFA,将所述多份FFA报告按比例拆分为训练集、验证集、以及测试集,所述训练集用于训练所述眼底疾病多标签分类模型;所述眼底疾病多标签诊断分类模型的构建,包括:将区块特征传入经典转换器模型的编码器内进行编码;提取代表编码后的区块特征的分类标记;将分类标记与临床特征融合后,得到融合特征;将所述融合特征传入与构建的基础分类模型类似的多任务分类头,以判断主分类及子分类;其中,所述经典转换器模型的编码器由基于多头注意力的自注意力层堆叠而成,所述多头注意力由n个平行头组成,每个头被定义为缩放点积注意力Att:
;
;
其中,
和分别表示查询矩阵和健/值矩阵;
和表示可学习的参数矩阵;
;
表示拼接操作;
所述基础分类模型的构建,包括:利用卷积神经网络ResNet101作为视觉特征提取器提取图像区块特征;对所述图像区块特征进行二维均值池化后,将池化后的所述图像区块特征传入多任务分类头,第一个分类头诊断主分类,其余的三个分类头分别对DR、RVO以及AMD分类;
生成诊断报告。
2.根据权利要求1所述的诊断报告生成方法,其特征在于,在构建所述眼底疾病多标签诊断分类模型时,输入的所述临床特征包括年龄、性别、视力、收缩期血压、舒张期血压和既往病史,其中,
所述年龄、所述性别、所述视力、所述收缩期血压、以及所述舒张期血压通过以下公式归一化:
;其中,
表示归一化值;
表示原始值;
表示数据集中的最大值;
表示数据集中的最小值。
3.根据权利要求1所述的诊断报告生成方法,其特征在于,在构建所述眼底疾病多标签诊断分类模型时,将每个标签当做二分类问题处理并采用非对称损失函数,模型为k个标签中的每一个标签产生单独的分对数,记作Zk,所述分对数通过sigmoid函数激活,表示为,表示类别k的真实值;
根据公式:,得到总的分类损失;
根据公式:,得到每个标签的二分类损失;其中,和分别对应表示阳性和阴性样本的损失;
非对称损失的定义为:,其中,表示模型输出的概率;偏移概率由得到,其中,是可调的超参数,称作概率边缘,实现两种非对称性以最小化阴性样本对损失函数的影响。
4.根据权利要求1所述的诊断报告生成方法,其特征在于,在构建所述眼底疾病多标签诊断分类模型时,利用 Cohen kappa值评估所述眼底疾病多标签诊断分类模型,包括:
根据公式,,得到;其中,
表示观察到的一致性概率;
表示期望的一致性概率;
对于多分类问题,将真实类别记作,预测类别为的样本数记作,则根据公式:,得到;
根据公式:,得到。
5.根据权利要求4所述的诊断报告生成方法,其特征在于,当数据不均衡,以及
DR,RVO和AMD的子分类是有序分类时,将以二次加权值为衡量指标,根据公式:
,得到;
根据公式:,得到;
根据公式:,得到;其中,
表示二次加权的权重;
表示期望频数。
6.一种诊断报告生成装置,其特征在于,包括:
获取模块,用于获取实际彩色眼底图像、实际眼底荧光血管造影图像、以及对应实际临床特征;
诊断分类模块,用于利用已经完成构建的眼底疾病多标签诊断分类模型对所述实际彩色眼底图像、所述实际眼底荧光血管造影图像、以及所述对应实际临床特征进行诊断分类,其中,在构建所述眼底疾病多标签诊断分类模型时,数据集的构建包括:收集北京大学第三医院眼科的多份FFA报告,且每份报告均有对应的临床特征及由资深视网膜专科医师出具的眼底病变报告、诊断结论,其中,所述多份FFA报告包括多张CFP和多张FFA,将所述多份FFA报告按比例拆分为训练集、验证集、以及测试集,所述训练集用于训练所述眼底疾病多标签分类模型;所述眼底疾病多标签诊断分类模型的构建,包括:将区块特征传入经典转换器模型的编码器内进行编码;提取代表编码后的区块特征的分类标记;将分类标记与临床特征融合后,得到融合特征;将所述融合特征传入与构建的基础分类模型类似的多任务分类头,以判断主分类及子分类;其中,所述经典转换器模型的编码器由基于多头注意力的自注意力层堆叠而成,所述多头注意力由n个平行头组成,每个头被定义为缩放点积注意力Att:
;
;
其中,
和分别表示查询矩阵和健/值矩阵;
和表示可学习的参数矩阵;
;
表示拼接操作;
所述基础分类模型的构建,包括:利用卷积神经网络ResNet101作为视觉特征提取器提取图像区块特征;对所述图像区块特征进行二维均值池化后,将池化后的所述图像区块特征传入多任务分类头,第一个分类头诊断主分类,其余的三个分类头分别对DR、RVO以及AMD分类;
生成模块,用于生成诊断报告。
7.一种诊断报告生成装置,其特征在于,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令,执行如权利要求1至5任一项所述的诊断报告生成方法。
8.一种计算机可存储介质,其特征在于,其上存储有计算机程序指令,该指令被处理器执行时实现如权利要求1至5任一项所述的诊断报告生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410558741.5A CN118136200B (zh) | 2024-05-08 | 2024-05-08 | 诊断报告生成方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410558741.5A CN118136200B (zh) | 2024-05-08 | 2024-05-08 | 诊断报告生成方法、装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118136200A CN118136200A (zh) | 2024-06-04 |
CN118136200B true CN118136200B (zh) | 2024-07-05 |
Family
ID=91230946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410558741.5A Active CN118136200B (zh) | 2024-05-08 | 2024-05-08 | 诊断报告生成方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118136200B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108021916A (zh) * | 2017-12-31 | 2018-05-11 | 南京航空航天大学 | 基于注意力机制的深度学习糖尿病视网膜病变分类方法 |
CN113989191A (zh) * | 2021-09-29 | 2022-01-28 | 杭州电子科技大学 | 基于深度学习的眼底图像与造影图像的标签迁移分类方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE202017104953U1 (de) * | 2016-08-18 | 2017-12-04 | Google Inc. | Verarbeiten von Fundusbildern unter Verwendung von Maschinenlernmodellen |
SG11202003337VA (en) * | 2017-10-13 | 2020-05-28 | Ai Tech Inc | Deep learning-based diagnosis and referral of ophthalmic diseases and disorders |
CN114175095A (zh) * | 2019-08-02 | 2022-03-11 | 基因泰克公司 | 使用深度学习来处理眼睛的图像以预测视力 |
CN114451860A (zh) * | 2022-01-27 | 2022-05-10 | 广东康软科技股份有限公司 | 一种基于深度学习的眼底病变诊断方法、系统及设备 |
CN117392470B (zh) * | 2023-12-11 | 2024-03-01 | 安徽中医药大学 | 基于知识图谱的眼底图像多标签分类模型生成方法及系统 |
-
2024
- 2024-05-08 CN CN202410558741.5A patent/CN118136200B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108021916A (zh) * | 2017-12-31 | 2018-05-11 | 南京航空航天大学 | 基于注意力机制的深度学习糖尿病视网膜病变分类方法 |
CN113989191A (zh) * | 2021-09-29 | 2022-01-28 | 杭州电子科技大学 | 基于深度学习的眼底图像与造影图像的标签迁移分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN118136200A (zh) | 2024-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Referable diabetic retinopathy identification from eye fundus images with weighted path for convolutional neural network | |
Sheng et al. | An overview of artificial intelligence in diabetic retinopathy and other ocular diseases | |
Zéboulon et al. | Corneal topography raw data classification using a convolutional neural network | |
Agrawal et al. | Assistive framework for automatic detection of all the zones in retinopathy of prematurity using deep learning | |
Akbar et al. | Detection of microscopic glaucoma through fundus images using deep transfer learning approach | |
Kendrick et al. | Translating clinical delineation of diabetic foot ulcers into machine interpretable segmentation | |
Khanna et al. | Deep learning based computer-aided automatic prediction and grading system for diabetic retinopathy | |
Susanto et al. | Building an artificial intelligence-powered medical image recognition smartphone application: What medical practitioners need to know | |
Tolentino et al. | Detection of circulatory diseases through fingernails using artificial neural network | |
CN118136200B (zh) | 诊断报告生成方法、装置及介质 | |
Sandoval-Cuellar et al. | Image-based glaucoma classification using fundus images and deep learning | |
Gholami et al. | Self-supervised learning for improved optical coherence tomography detection of macular telangiectasia type 2 | |
Pradhan | A Novel Threshold based Method for Vessel Intensity Detection and Extraction from Retinal Images | |
CN113273959B (zh) | 一种便携式糖尿病视网膜病变诊疗仪 | |
Ashtari-Majlan et al. | Deep learning and computer vision for glaucoma detection: A review | |
US20230093471A1 (en) | Methods and systems for predicting rates of progression of age-related macular degeneration | |
WO2022165431A1 (en) | Systems and methods for identifying progression of hypoxic-ischemic brain injury | |
Joshi et al. | VisionDeep-AI: Deep learning-based retinal blood vessels segmentation and multi-class classification framework for eye diagnosis | |
Wu et al. | A concept-based interpretable model for the diagnosis of choroid neoplasias using multimodal data | |
Wan et al. | Automatic diagnosis of different types of retinal vein occlusion based on fundus images | |
Pavithra et al. | Statistical Analysis of Deep Learning Models for Diabetic Macular Edema Classification using OCT Images | |
Syed et al. | A diagnosis model for brain atrophy using deep learning and MRI of type 2 diabetes mellitus | |
US20230281816A1 (en) | Method and System for Predicting Manifestation or Progression of a Retinal Malady and Method for Training Machine Learning (ML) Models for the Same | |
Denandra et al. | Eye disease classification based on fundus images using convolutional neural network | |
Ganapathy et al. | Evaluation of deep learning framework for detection and diagnosis of glaucoma |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |