CN113011485A - 多模态多病种长尾分布眼科疾病分类模型训练方法和装置 - Google Patents

多模态多病种长尾分布眼科疾病分类模型训练方法和装置 Download PDF

Info

Publication number
CN113011485A
CN113011485A CN202110270878.7A CN202110270878A CN113011485A CN 113011485 A CN113011485 A CN 113011485A CN 202110270878 A CN202110270878 A CN 202110270878A CN 113011485 A CN113011485 A CN 113011485A
Authority
CN
China
Prior art keywords
image
image sample
characteristic information
diagnosis
random
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110270878.7A
Other languages
English (en)
Other versions
CN113011485B (zh
Inventor
欧中洪
王莉菲
柴文俊
宋美娜
鄂海红
何佳雯
张如如
李峻迪
袁立飞
贾鑫
黄儒剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110270878.7A priority Critical patent/CN113011485B/zh
Publication of CN113011485A publication Critical patent/CN113011485A/zh
Priority to PCT/CN2021/137142 priority patent/WO2022188489A1/zh
Application granted granted Critical
Publication of CN113011485B publication Critical patent/CN113011485B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10101Optical tomography; Optical coherence tomography [OCT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30041Eye; Retina; Ophthalmic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Eye Examination Apparatus (AREA)
  • Image Analysis (AREA)

Abstract

本申请提出一种多模态多病种长尾分布下眼科疾病分类模型训练及其识别方法和装置,涉及深度学习技术领域,其中,方法包括:获取双模态影像样本,对双模态影像样本进行标注诊断标签;将红外黄斑区眼底影像样本和OCT影像样本分别同时输入第一神经网络进行训练获取第一图像特征信息和第二图像特征信息;根据第一图像特征信息和第一权重、第二图像特征信息和第二权重计算总图像特征信息输入全连接网络获取预测结果;通过反向传播技术不断调整神经网络参数,直到误差值维持在预设阈值,生成眼科疾病分类模型。由此,通过双路卷积神经网络模型学习两种模态影像特征得到与临床诊断流程相似的深度学习模型。

Description

多模态多病种长尾分布眼科疾病分类模型训练方法和装置
技术领域
本申请涉及深度学习技术领域,尤其涉及一种多模态多病种长尾分布下眼科疾病分类模型训练及其识别方法和装置。
背景技术
近年来,深度学习借助其高效、准确的特点,在医疗领域发展迅速。深度学习技术可对医学影像中的病理特征进行逐像素分析量化,并从一定程度上减弱医生判断的主观性,使疾病诊断更加客观、稳定。光学相干断层扫描(Optical Coherence Tomography,OCT)是一种无接触、无损伤的成像技术,可提供清晰的黄斑区病理横断面成像;眼底影像可提供清晰的平面眼底成像。基于OCT或眼底影像单一模态数据,利用深度学习技术进行眼科疾病智能辅助诊断已引起较广泛研究,但如何在临床环境下对眼科影像进行有效辅助诊断依然面临很大挑战。
相关技术中,(1)把彩色眼底照片与其对应的疾病标签输入神经网络进行训练,提取眼底影像特征最终给出疾病分类结果;(2)把OCT影像与其对应的疾病标签输入神经网络进行训练,提取OCT影像特征最终给出疾病分类结果;(3)把眼底影像与OCT影像及其对应的疾病标签同时输入神经网络进行训练,提取两种模态影像的特征组合最终给出疾病分类结果。
然而,方案1和方案2可方便地收集大量影像,但只使用单一影像进行辅助诊断不符合大多数眼病诊断的临床实际流程,临床情况下医生通常结合多种模态信息做出综合判断;且仅利用单一影像用于深度学习模型眼病分类决策,特征数量受限,识别准确度不够。方案3结合了眼底影像与OCT特征,符合临床实际情况,但由于难以同时收集大量眼底与OCT对应的图像,因而可用数据较少,现有研究疾病种类仅局限于AMD疾病。
此外,眼科疾病种类繁多且发生率严重不平衡,存在众多罕见眼科疾病,而现有研究的影像数据大多疾病种类分布均衡且疾病种类数量较少,无法有效应对真实场景中可能出现的数据分布长尾现象。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种多模态多病种长尾分布下眼科疾病分类方法,通过采集OCT设备上的红外黄斑区眼底图与OCT影像,通过便捷的方法收集大量成对的双模态影像,通过双路卷积神经网络模型学习两种模态影像特征得到与临床诊断流程相似的深度学习模型,解决了依赖于多个模态特征的眼科影像在仅用单一模态做分类时,准确度不够、成对的彩色眼底与OCT影像难以收集,覆盖病种较少和真实场景下疾病类别呈现长尾数据分布,类别不平衡,样本较少疾病的分类效果差的技术问题。。
本申请的第二个目的在于提出一种多模态多病种长尾分布下眼科疾病分类装置。
为达上述目的,本申请第一方面实施例提出了一种多模态多病种长尾分布下眼科疾病分类方法,包括:
对电子病历进行数据采集,获取双模态影像样本;其中,所述双模态影像样本包括红外黄斑区眼底影像样本和光学相干断层扫描OCT影像样本,并对所述双模态影像样本进行标注诊断标签;
将所述红外黄斑区眼底影像样本和所述OCT影像样本分别同时输入第一神经网络进行训练,获取第一图像特征信息和第二图像特征信息;
根据所述第一图像特征信息和第一权重、所述第二图像特征信息和第二权重计算总图像特征信息输入全连接网络,获取预测结果;
通过损失函数计算所述预测结果和所述诊断标签的误差值,通过反向传播技术不断调整神经网络参数,直到所述误差值维持在预设阈值,生成眼科疾病分类模型。
本申请实施例的多模态多病种长尾分布下眼科疾病分类方法,通过获取双模态影像样本,对双模态影像样本进行标注诊断标签;将红外黄斑区眼底影像样本和OCT影像样本分别同时输入第一神经网络进行训练获取第一图像特征信息和第二图像特征信息;根据第一图像特征信息和第一权重、第二图像特征信息和第二权重计算总图像特征信息输入全连接网络获取预测结果;通过反向传播技术不断调整神经网络参数,直到误差值维持在预设阈值,生成眼科疾病分类模型。由此,通过双路卷积神经网络模型学习两种模态影像特征得到与临床诊断流程相似的深度学习模型,解决了依赖于多个模态特征的眼科影像在仅用单一模态做分类时,准确度不够、成对的彩色眼底与OCT影像难以收集,覆盖病种较少和真实场景下疾病类别呈现长尾数据分布,类别不平衡,样本较少疾病的分类效果差的技术问题。
可选地,在本申请的一个实施例中,所述对电子病历进行数据采集,获取双模态影像样本,并对所述双模态影像样本进行标注诊断标签,包括:
通过设计解析文档格式的电子病例解析算法,解析所述电子病历的双模态影像和当时的诊断信息,根据所述诊断信息对所述双模态影像样本进行标注诊断标签。
可选地,在本申请的一个实施例中,所述的方法,还包括:
对红外黄斑区眼底影像样本和光学相干断层扫描OCT影像样本的大小进行调整,进行随机预设角度旋转、随机锐度增强、随机亮度增强、随机色度增强、随机对比度增强和随机水平翻转操作中的一种或者多种。
可选地,在本申请的一个实施例中,所述损失函数如公式(1)所示:
Figure BDA0002974342390000031
其中,
Figure BDA0002974342390000032
其中,sy
Figure BDA0002974342390000033
分别为所述诊断标签y和所述预测结果
Figure BDA0002974342390000034
的独热编码形式,γ≥0,γ是超参数,E=[E1,E2,...,EN],
Figure BDA0002974342390000035
N=12为总标签数,i∈{1,2,...,N},ni为第i个标签的样本数。
可选地,在本申请的一个实施例中,所述的多模态多病种长尾分布下眼科疾病分类模型的识别方法,包括:
获取待识别的红外黄斑区眼底影像样本和OCT影像;
将所述红外黄斑区眼底影像样本和所述OCT影像输入所述眼科疾病分类模型进行处理,获取诊断结果。
为达上述目的,本申请第二方面实施例提出了一种多模态多病种长尾分布下眼科疾病分类装置,包括:
获取标注模块,用于对电子病历进行数据采集,获取双模态影像样本;其中,所述双模态影像样本包括红外黄斑区眼底影像样本和光学相干断层扫描OCT影像样本,并对所述双模态影像样本进行标注诊断标签;
提取模块,用于将所述红外黄斑区眼底影像样本和OCT影像样本分别同时输入第一神经网络进行训练,获取第一图像特征信息和第二图像特征信息;
预测模块,用于根据所述第一图像特征信息和第一权重、所述第二图像特征信息和第二权重计算总图像特征信息输入全连接网络,获取预测结果;
生成模块,用于通过损失函数计算所述预测结果和所述诊断标签的误差值,通过反向传播技术不断调整神经网络参数,直到所述误差值维持在所述预设阈值,生成眼科疾病分类模型。
本申请实施例的多模态多病种长尾分布下眼科疾病分类装置,通过获取双模态影像样本,对双模态影像样本进行标注诊断标签;将红外黄斑区眼底影像样本和OCT影像样本分别同时输入第一神经网络进行训练获取第一图像特征信息和第二图像特征信息;根据第一图像特征信息和第一权重、第二图像特征信息和第二权重计算总图像特征信息输入全连接网络获取预测结果;通过反向传播技术不断调整神经网络参数,直到误差值维持在预设阈值,生成眼科疾病分类模型。由此,通过双路卷积神经网络模型学习两种模态影像特征得到与临床诊断流程相似的深度学习模型,解决了依赖于多个模态特征的眼科影像在仅用单一模态做分类时,准确度不够、成对的彩色眼底与OCT影像难以收集,覆盖病种较少和真实场景下疾病类别呈现长尾数据分布,类别不平衡,样本较少疾病的分类效果差的技术问题。
可选地,在本申请的一个实施例中,所述获取标注模块,具体用于:
通过设计解析文档格式的电子病例解析算法,解析所述电子病历的双模态影像和当时的诊断信息,根据所述诊断信息对所述双模态影像样本进行标注诊断标签。
可选地,在本申请的一个实施例中,所述的装置,还包括:
预处理模块,用于对红外黄斑区眼底影像样本和光学相干断层扫描OCT影像样本的大小进行调整,进行随机预设角度旋转、随机锐度增强、随机亮度增强、随机色度增强、随机对比度增强和随机水平翻转操作中的一种或者多种。
可选地,在本申请的一个实施例中,所述损失函数如公式(1)所示:
Figure BDA0002974342390000041
其中,
Figure BDA0002974342390000042
其中,sy
Figure BDA0002974342390000043
分别为所述诊断标签y和所述预测结果
Figure BDA0002974342390000045
的独热编码形式,γ≥0,γ是超参数,E=[E1,E2,...,EN],
Figure BDA0002974342390000044
N=12为总标签数,i∈{1,2,...,N},ni为第i个标签的样本数。
可选地,在本申请的一个实施例中,所述的多模态多病种长尾分布下眼科疾病分类模型的识别装置,包括:
获取模块,用于获取待识别的红外黄斑区眼底影像样本和OCT影像;
诊断模块,用于将所述红外黄斑区眼底影像样本和所述OCT影像输入所述眼科疾病分类模型进行处理,获取诊断结果。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的一种多模态多病种长尾分布下眼科疾病分类方法的流程示意图;
图2为本申请实施例一所提供的双路模型的示例图;
图3为本申请实施例二所提供的一种多模态多病种长尾分布下眼科疾病分类方法的流程示意图;
图4为本申请实施例所提供的一种多模态多病种长尾分布下眼科疾病分类装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的多模态多病种长尾分布下眼科疾病分类方法和装置。
图1为本申请实施例一所提供的一种多模态多病种长尾分布下眼科疾病分类方法的流程示意图。
基于现有技术的数据采集非常困难,同一眼的彩色眼底影像与OCT影像在大多数医院中常分属不同科室,难以实现数据流通,现有技术采用loosepair训练方法,即通过将同一病种的影像而非同一眼的多模态影像组合来完成训练,虽然有效扩充了样本数,但该方案使得输入模型的两个影像之间的相关性降低,降低了模型的可解释性。
本申请采用OCT设备诊断时医生所用的红外黄斑区眼底影像与其同一眼的OCT影像作为双模态数据,红外黄斑区眼底影像与OCT影像同时成对大量存在于电子诊断报告中,又存储了一定病变信息,因而可获取大量有效多模态数据,更符合临床实际诊断流程且能提高分类效果,本申请设计的电子病例数据采集模块与数据标注模块可以有效利用这一数据。
另外,现有技术的分类标签较少,仅针对AMD一种疾病进行疾病内部三分类,无法有效应对真实场景中呈长尾分布的多病种数据。本提案利用两阶段训练模型,通过结合class-balanced-loss设计训练方案,有效分类超过十种疾病,可有效提高整体分类效果与样本数量较少疾病的分类效果。
也就是说,当前主流的眼科疾病图像分类研究主要包括基于眼底影像的病变识别,以及基于OCT影像的病变识别,通过卷积神经网络模型提取分类特征给出预测结果。但现有方案多采用单一模态影像,面对需要结合多种模态特征信息的眼病,特征数量受限,识别准确度不够;现有方法多假设疾病类别分布均匀,不符合实际临床数据分布,难以应对真实场景中数据长尾分布的问题。为解决上述问题,本申请通过采集OCT设备上的红外黄斑区眼底图与OCT影像,通过便捷的方法收集大量成对的双模态影像,通过双路卷积神经网络模型学习两种模态影像特征得到与临床诊断流程相似的深度学习模型。
如图1所示,该多模态多病种长尾分布下眼科疾病分类方法包括以下步骤:
步骤101,对电子病历进行数据采集,获取双模态影像样本;其中,双模态影像样本包括红外黄斑区眼底影像样本和光学相干断层扫描OCT影像样本,并对双模态影像样本进行标注诊断标签。
在本申请实施例中,通过设计解析文档格式的电子病例解析算法,解析电子病历的双模态影像和当时的诊断信息,根据诊断信息对双模态影像样本进行标注诊断标签。
在本申请实施例中,对红外黄斑区眼底影像样本和光学相干断层扫描OCT影像样本的大小进行调整,进行随机预设角度旋转、随机锐度增强、随机亮度增强、随机色度增强、随机对比度增强和随机水平翻转操作中的一种或者多种。
具体地,由于OCT设备在使用时会通过红外黄斑区眼底影像找到对应OCT影像切片位置,因而产出的电子病历中带有红外黄斑区眼底影像,同时还包括与之对应的OCT影像切片。通过设计解析PDF格式的电子病例解析算法,解析出电子病历的双模态影像以及当时的诊断信息,并对图像进行初步预处理。
具体地,根据临床实际情况确立待标注疾病标签,选取解析出的双模态图像与病例诊断信息上传至图像标注平台,专业标注人员(主任医生等)根据临床经验结合历史病例信息对多模态影像进行标注。
进一步地,对数据进行数据增强,数据在输入模型前,被裁剪为眼底影像和OCT影像,每张影像大小被修改为224×224×3,且在训练数据上进行随机30°旋转、随机锐度增强、随机亮度增强、随机色度增强、随机对比度增强和随机水平翻转操作。
步骤102,将红外黄斑区眼底影像样本和OCT影像样本分别同时输入第一神经网络进行训练,获取第一图像特征信息和第二图像特征信息。
步骤103,根据第一图像特征信息和第一权重、第二图像特征信息和第二权重计算总图像特征信息输入全连接网络,获取预测结果。
具体地,定义数据集D={xf,xo|y},其中xf和xO分别为从同一只眼睛获得的眼底影像和OCT影像,y为该组影像的诊断标签,包含11种眼科疾病以及无明显病变。模型记作“OurModel”,OurModel接收成对的输入{xf,xO},并输出对眼睛的诊断结果
Figure BDA0002974342390000061
如下面公式:所示
Figure BDA0002974342390000062
具体地,网络模型如图2所示,由两个对称的分支构成,一个用于处理眼底影像,另一个用于处理OCT影像,两个分支的权重不共享。每个分支均以ResNet18删除所有全连接层的结构作为骨干网络如图2中的ResNet18-backbone,拼接CBAM(Convolutional BlockAttention Module,卷积模块的注意力机制模块)注意力机制模块,提取图像特征信息,最终合并两个分支权重,和全连接层拼接给出预测结果,比如无明显病变,视网膜前膜,中央性浆液性脉络膜视网膜病变,黄斑裂孔,黄斑劈裂,脉络膜新生血管,年龄相关性黄斑变性,视网膜脱离,分支静脉阻塞,动脉闭塞,中央静脉阻塞,原田病中的一种。
步骤104,通过损失函数计算预测结果和诊断标签的误差值,通过反向传播技术不断调整神经网络参数,直到误差值维持在预设阈值,生成眼科疾病分类模型。
在本申请实施例中,损失函数如公式(1)所示:
Figure BDA0002974342390000071
其中,
Figure BDA0002974342390000072
其中,sy
Figure BDA0002974342390000073
分别为诊断标签y和预测结果
Figure BDA0002974342390000074
的独热编码形式,γ≥0,γ是超参数,E=[E1,E2,...,EN],
Figure BDA0002974342390000075
Figure BDA0002974342390000076
N=12为总标签数,i∈{1,2,...,N},ni为第i个标签的样本数。
具体地,先使用交叉熵损失函数对整个模型进行训练,待验证集损失收敛后将除全连接层以外的权重冻结,并使用class-balanced-loss重新训练全连接层权重,待验证集损失再次收敛后,得到最终图3中的产出模型。
首先定义每种类别的有效样本数:
Figure BDA0002974342390000077
其中,N=12为总标签数,i∈{1,2,...,N},ni为第i个标签的样本数,β∈[0,1)为一个超参数。使用每个类的有效样本数的倒数对损失函数重新加权,平衡损失,从而有效提升小样本数据在分类时的性能。
Focal loss是为解决一阶段目标检测中正负样本比例严重失衡问题而提出的损失函数,因此本方案选用Focal Loss作为损失函数。Focal loss的定义如下:
Figure BDA0002974342390000078
其中,sy
Figure BDA0002974342390000079
分别为标签y和模型预测结果
Figure BDA00029743423900000712
的独热编码形式,sy
Figure BDA00029743423900000710
γ≥0,γ是超参数。因此本申请的class-balanced-loss的定义如下:
Figure BDA00029743423900000711
其中,E=[E1,E2,...,EN],E∈R12
进一步地,在本申请实施例中,获取待识别的红外黄斑区眼底影像样本和OCT影像;将红外黄斑区眼底影像样本和OCT影像输入眼科疾病分类模型进行处理,获取诊断结果。
具体地,如图3所示,通过TensorFlowServing载入模型,用Docker作为服务容器,完成模型部署,对外以HTTP接口形式提供模型,通过Django框架开发系统基本的后端功能,接收多模态影像请求,将请求转发至Docker中请求TensorFlowServing,获得模型识别结果,最终Django根据这一结果将信息传递至前端展示。
由此,通过利用OCT设备中红外黄斑区眼底图像作为辅助图像,结合OCT影像构造双模态图像输入,设计高效的采集算法获取双模态数据,利用两阶段模型训练方式,一阶段训练提取原始数据分布特征,二阶段冻结卷积层,通过各个病种类别的统计信息加权class-balanced-loss再训练,本申请设计的模型训练方案能显著提高整体分类效果,尤其是样本数较少病种的分类效果。
本申请实施例的多模态多病种长尾分布下眼科疾病分类方法,通过获取双模态影像样本,对双模态影像样本进行标注诊断标签;将红外黄斑区眼底影像样本和OCT影像样本分别同时输入第一神经网络进行训练获取第一图像特征信息和第二图像特征信息;根据第一图像特征信息和第一权重、第二图像特征信息和第二权重计算总图像特征信息输入全连接网络获取预测结果;通过反向传播技术不断调整神经网络参数,直到误差值维持在预设阈值,生成眼科疾病分类模型。由此,通过双路卷积神经网络模型学习两种模态影像特征得到与临床诊断流程相似的深度学习模型,解决了依赖于多个模态特征的眼科影像在仅用单一模态做分类时,准确度不够、成对的彩色眼底与OCT影像难以收集,覆盖病种较少和真实场景下疾病类别呈现长尾数据分布,类别不平衡,样本较少疾病的分类效果差的技术问题。
为了实现上述实施例,本申请还提出一种多模态多病种长尾分布下眼科疾病分类装置。
图4为本申请实施例提供的一种多模态多病种长尾分布下眼科疾病分类装置的结构示意图。
如图4所示,该多模态多病种长尾分布下眼科疾病分类装置包括:获取标注模块410、提取模块420、预测模块430和生成模块440。
获取标注模块410,用于对电子病历进行数据采集,获取双模态影像样本;其中,所述双模态影像样本包括红外黄斑区眼底影像样本和光学相干断层扫描OCT影像样本,并对所述双模态影像样本进行标注诊断标签。
提取模块420,用于将所述红外黄斑区眼底影像样本和OCT影像样本分别同时输入第一神经网络进行训练,获取第一图像特征信息和第二图像特征信息。
预测模块430,用于根据所述第一图像特征信息和第一权重、所述第二图像特征信息和第二权重计算总图像特征信息输入全连接网络,获取预测结果。
生成模块440,用于通过损失函数计算所述预测结果和所述诊断标签的误差值,通过反向传播技术不断不断调整神经网络参数,直到所述误差值维持在所述预设阈值,生成眼科疾病分类模型。
在本申请的一个实施例中,所述获取标注模块,具体用于:
通过设计解析文档格式的电子病例解析算法,解析所述电子病历的双模态影像和当时的诊断信息,根据所述诊断信息对所述双模态影像样本进行标注诊断标签。
在本申请的一个实施例中,所述的装置,还包括:
预处理模块,用于对红外黄斑区眼底影像样本和光学相干断层扫描OCT影像样本的大小进行调整,进行随机预设角度旋转、随机锐度增强、随机亮度增强、随机色度增强、随机对比度增强和随机水平翻转操作中的一种或者多种。
在本申请的一个实施例中,所述损失函数如公式(1)所示:
Figure BDA0002974342390000091
其中,
Figure BDA0002974342390000092
其中,sy
Figure BDA0002974342390000093
分别为所述诊断标签y和所述预测结果
Figure BDA0002974342390000094
的独热编码形式,γ≥0,γ是超参数,E=[E1,E2,...,EN],
Figure BDA0002974342390000095
N=12为总标签数,i∈{1,2,...,N},ni为第i个标签的样本数。
在本申请的一个实施例中,所述的多模态多病种长尾分布下眼科疾病分类模型的识别装置,包括:
获取模块,用于获取待识别的红外黄斑区眼底影像样本和OCT影像;
诊断模块,用于将所述红外黄斑区眼底影像样本和所述OCT影像输入所述眼科疾病分类模型进行处理,获取诊断结果。
本申请实施例的多模态多病种长尾分布下眼科疾病分类装置,通过获取双模态影像样本,对双模态影像样本进行标注诊断标签;将红外黄斑区眼底影像样本和OCT影像样本输入第一神经网络进行训练获取第一图像特征信息和第二图像特征信息;根据第一图像特征信息和第一权重、第二图像特征信息和第二权重计算总图像特征信息输入全连接网络获取预测结果;通过反向传播技术不断调整神经网络参数,直到误差值维持在预设阈值,生成眼科疾病分类模型。由此,通过双路卷积神经网络模型学习两种模态影像特征得到与临床诊断流程相似的深度学习模型,解决了依赖于多个模态特征的眼科影像在仅用单一模态做分类时,准确度不够、成对的彩色眼底与OCT影像难以收集,覆盖病种较少和真实场景下疾病类别呈现长尾数据分布,类别不平衡,样本较少疾病的分类效果差的技术问题。
需要说明的是,前述对多模态多病种长尾分布下眼科疾病分类方法实施例的解释说明也适用于该实施例的多模态多病种长尾分布下眼科疾病分类装置,此处不再赘述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种多模态多病种长尾分布下眼科疾病分类模型训练方法,其特征在于,包括以下步骤:
对电子病历进行数据采集,获取双模态影像样本;其中,所述双模态影像样本包括红外黄斑区眼底影像样本和光学相干断层扫描OCT影像样本,并对所述双模态影像样本进行标注诊断标签;
将所述红外黄斑区眼底影像样本和所述OCT影像样本分别同时输入第一神经网络进行训练,获取第一图像特征信息和第二图像特征信息;
根据所述第一图像特征信息和第一权重、所述第二图像特征信息和第二权重计算总图像特征信息输入全连接网络,获取预测结果;
通过损失函数计算所述预测结果和所述诊断标签的误差值,通过反向传播技术不断调整神经网络参数,直到所述误差值维持在预设阈值,生成眼科疾病分类模型。
2.如权利要求1所述的方法,其特征在,所述对电子病历进行数据采集,获取双模态影像样本,并对所述双模态影像样本进行标注诊断标签,包括:
通过设计解析文档格式的电子病例解析算法,解析所述电子病历的双模态影像和当时的诊断信息,根据所述诊断信息对所述双模态影像样本进行标注诊断标签。
3.如权利要求1所述的方法,其特征在,还包括:
对红外黄斑区眼底影像样本和光学相干断层扫描OCT影像样本的大小进行调整,进行随机预设角度旋转、随机锐度增强、随机亮度增强、随机色度增强、随机对比度增强和随机水平翻转操作中的一种或者多种。
4.如权利要求1所述的方法,其特征在,所述损失函数如公式(1)所示:
Figure FDA0002974342380000011
其中,
Figure FDA0002974342380000012
其中,sy
Figure FDA0002974342380000013
分别为所述诊断标签y和所述预测结果
Figure FDA0002974342380000014
的独热编码形式,γ≥0,γ是超参数,E=[E1,E2,...,EN],
Figure FDA0002974342380000015
N=12为总标签数,i∈{1,2,...,N},ni为第i个标签的样本数。
5.如权利要求1-4任一项所述的多模态多病种长尾分布下眼科疾病分类模型的识别方法,其特征在,包括:
获取待识别的红外黄斑区眼底影像样本和OCT影像;
将所述红外黄斑区眼底影像样本和所述OCT影像输入所述眼科疾病分类模型进行处理,获取诊断结果。
6.一种多模态多病种长尾分布下眼科疾病分类模型训练装置,其特征在于,包括:
获取标注模块,用于对电子病历进行数据采集,获取双模态影像样本;其中,所述双模态影像样本包括红外黄斑区眼底影像样本和光学相干断层扫描OCT影像样本,并对所述双模态影像样本进行标注诊断标签;
提取模块,用于将所述红外黄斑区眼底影像样本和所述OCT影像样本分别同时输入第一神经网络进行训练,获取第一图像特征信息和第二图像特征信息;
预测模块,用于根据所述第一图像特征信息和第一权重、所述第二图像特征信息和第二权重计算总图像特征信息输入全连接网络,获取预测结果;
生成模块,用于通过损失函数计算所述预测结果和所述诊断标签的误差值,通过反向传播技术不断调整神经网络参数,直到所述误差值维持在预设阈值,生成眼科疾病分类模型。
7.如权利要求6所述的装置,其特征在,所述获取标注模块,具体用于:
通过设计解析文档格式的电子病例解析算法,解析所述电子病历的双模态影像和当时的诊断信息,根据所述诊断信息对所述双模态影像样本进行标注诊断标签。
8.如权利要求6所述的装置,其特征在,还包括:
预处理模块,用于对红外黄斑区眼底影像样本和光学相干断层扫描OCT影像样本的大小进行调整,进行随机预设角度旋转、随机锐度增强、随机亮度增强、随机色度增强、随机对比度增强和随机水平翻转操作中的一种或者多种。
9.如权利要求6所述的装置,其特征在,所述损失函数如公式(1)所示:
Figure FDA0002974342380000021
其中,
Figure FDA0002974342380000022
其中,sy
Figure FDA0002974342380000023
分别为所述诊断标签y和所述预测结果
Figure FDA0002974342380000024
的独热编码形式,γ≥0,γ是超参数,E=[E1,E2,...,EN],
Figure FDA0002974342380000025
N=12为总标签数,i∈{1,2,...,N},ni为第i个标签的样本数。
10.如权利要求6-9任一项所述的多模态多病种长尾分布下眼科疾病分类模型的识别装置,其特征在,包括:
获取模块,用于获取待识别的红外黄斑区眼底影像样本和OCT影像;
诊断模块,用于将所述红外黄斑区眼底影像样本和所述OCT影像输入所述眼科疾病分类模型进行处理,获取诊断结果。
CN202110270878.7A 2021-03-12 2021-03-12 多模态多病种长尾分布眼科疾病分类模型训练方法和装置 Active CN113011485B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110270878.7A CN113011485B (zh) 2021-03-12 2021-03-12 多模态多病种长尾分布眼科疾病分类模型训练方法和装置
PCT/CN2021/137142 WO2022188489A1 (zh) 2021-03-12 2021-12-10 多模态多病种长尾分布眼科疾病分类模型训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110270878.7A CN113011485B (zh) 2021-03-12 2021-03-12 多模态多病种长尾分布眼科疾病分类模型训练方法和装置

Publications (2)

Publication Number Publication Date
CN113011485A true CN113011485A (zh) 2021-06-22
CN113011485B CN113011485B (zh) 2023-04-07

Family

ID=76406248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110270878.7A Active CN113011485B (zh) 2021-03-12 2021-03-12 多模态多病种长尾分布眼科疾病分类模型训练方法和装置

Country Status (2)

Country Link
CN (1) CN113011485B (zh)
WO (1) WO2022188489A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113256636A (zh) * 2021-07-15 2021-08-13 北京小蝇科技有限责任公司 一种自底向上的寄生虫虫种发育阶段及图像像素分类方法
CN113989519A (zh) * 2021-12-28 2022-01-28 中科视语(北京)科技有限公司 一种长尾目标检测方法及系统
CN115019891A (zh) * 2022-06-08 2022-09-06 郑州大学 一种基于半监督图神经网络的个体驱动基因预测方法
WO2022188489A1 (zh) * 2021-03-12 2022-09-15 北京邮电大学 多模态多病种长尾分布眼科疾病分类模型训练方法和装置
WO2023030521A1 (zh) * 2021-09-06 2023-03-09 北京字节跳动网络技术有限公司 内窥镜图像分类模型的训练方法、图像分类方法和装置
WO2023137904A1 (zh) * 2022-01-21 2023-07-27 平安科技(深圳)有限公司 基于眼底图像的病变检测方法、装置、设备及存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631367B (zh) * 2022-09-30 2024-03-05 中国医学科学院生物医学工程研究所 基于神经网络模型的眼科超声图像分类方法以及装置
CN116203929B (zh) * 2023-03-01 2024-01-05 中国矿业大学 一种面向长尾分布数据的工业过程故障诊断方法
CN116416235B (zh) * 2023-04-12 2023-12-05 北京建筑大学 一种基于多模态超声数据的特征区域预测方法和装置
CN116681958B (zh) * 2023-08-04 2023-10-20 首都医科大学附属北京妇产医院 基于机器学习的胎儿肺脏超声影像成熟度预测方法
CN116977810B (zh) * 2023-09-25 2024-01-09 之江实验室 多模态后融合的长尾类别检测方法和系统
CN117372416A (zh) * 2023-11-13 2024-01-09 北京透彻未来科技有限公司 一种对抗训练的高鲁棒性数字病理切片诊断系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200160521A1 (en) * 2017-05-04 2020-05-21 Shenzhen Sibionics Technology Co., Ltd. Diabetic retinopathy recognition system based on fundus image
CN111428072A (zh) * 2020-03-31 2020-07-17 南方科技大学 眼科多模态影像的检索方法、装置、服务器及存储介质
CN111784665A (zh) * 2020-06-30 2020-10-16 平安科技(深圳)有限公司 基于傅里叶变换的oct图像质量评估方法、系统及装置
CN111938569A (zh) * 2020-09-17 2020-11-17 南京航空航天大学 基于深度学习的眼底多病种分类的检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8896682B2 (en) * 2008-12-19 2014-11-25 The Johns Hopkins University System and method for automated detection of age related macular degeneration and other retinal abnormalities
CN109583569B (zh) * 2018-11-30 2021-08-31 熵基科技股份有限公司 一种基于卷积神经网络的多模态特征融合方法及装置
CN113011485B (zh) * 2021-03-12 2023-04-07 北京邮电大学 多模态多病种长尾分布眼科疾病分类模型训练方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200160521A1 (en) * 2017-05-04 2020-05-21 Shenzhen Sibionics Technology Co., Ltd. Diabetic retinopathy recognition system based on fundus image
CN111428072A (zh) * 2020-03-31 2020-07-17 南方科技大学 眼科多模态影像的检索方法、装置、服务器及存储介质
CN111784665A (zh) * 2020-06-30 2020-10-16 平安科技(深圳)有限公司 基于傅里叶变换的oct图像质量评估方法、系统及装置
CN111938569A (zh) * 2020-09-17 2020-11-17 南京航空航天大学 基于深度学习的眼底多病种分类的检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHONGHONG OU 等: "M2LC-Net: A Multi-Modal Multi-Disease Long-Tailed Classification Network for Real Clinical Scenes", 《CHINA COMMUNICATIONS》 *
范家伟 等: "深度学习方法在糖尿病视网膜病变诊断中的应用", 《自动化学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022188489A1 (zh) * 2021-03-12 2022-09-15 北京邮电大学 多模态多病种长尾分布眼科疾病分类模型训练方法和装置
CN113256636A (zh) * 2021-07-15 2021-08-13 北京小蝇科技有限责任公司 一种自底向上的寄生虫虫种发育阶段及图像像素分类方法
WO2023030521A1 (zh) * 2021-09-06 2023-03-09 北京字节跳动网络技术有限公司 内窥镜图像分类模型的训练方法、图像分类方法和装置
CN113989519A (zh) * 2021-12-28 2022-01-28 中科视语(北京)科技有限公司 一种长尾目标检测方法及系统
CN113989519B (zh) * 2021-12-28 2022-03-22 中科视语(北京)科技有限公司 一种长尾目标检测方法及系统
WO2023137904A1 (zh) * 2022-01-21 2023-07-27 平安科技(深圳)有限公司 基于眼底图像的病变检测方法、装置、设备及存储介质
CN115019891A (zh) * 2022-06-08 2022-09-06 郑州大学 一种基于半监督图神经网络的个体驱动基因预测方法

Also Published As

Publication number Publication date
WO2022188489A1 (zh) 2022-09-15
CN113011485B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN113011485B (zh) 多模态多病种长尾分布眼科疾病分类模型训练方法和装置
WO2020151536A1 (zh) 一种脑部图像分割方法、装置、网络设备和存储介质
CN108230296B (zh) 图像特征的识别方法和装置、存储介质、电子装置
CN107423571A (zh) 基于眼底图像的糖尿病视网膜病变识别系统
CN106530295A (zh) 一种视网膜病变的眼底图像分类方法和装置
CN111292839B (zh) 图像处理方法、装置、计算机设备和存储介质
AU2019205013B2 (en) Method and system for identification of cerebrovascular abnormalities
CN109670510A (zh) 一种基于深度学习的胃镜活检病理数据筛查系统和方法
WO2014186838A1 (en) A system and method for remote medical diagnosis
CN108615236A (zh) 一种图像处理方法及电子设备
Seoud et al. Automatic grading of diabetic retinopathy on a public database
CN109948671B (zh) 图像分类方法、装置、存储介质以及内窥镜成像设备
CN111080643A (zh) 基于眼底图像的糖尿病及相关疾病的分类方法及设备
CN111161287A (zh) 基于对称双向级联网络深度学习的视网膜血管分割方法
Lei et al. Automated detection of retinopathy of prematurity by deep attention network
Cai et al. Identifying architectural distortion in mammogram images via a se-densenet model and twice transfer learning
CN112869697A (zh) 同时识别糖尿病视网膜病变的分期和病变特征的判断方法
CN116386860A (zh) 基于多模态的糖尿病及其并发症智能辅助预测与诊断平台
CN117095815A (zh) 基于磁共振图像和病理全景扫描切片预测带有同源重组缺陷的前列腺癌患者的系统
CN111047590A (zh) 基于眼底图像的高血压分类方法及设备
CN113160151B (zh) 基于深度学习及注意力机制的全景片龋齿深度识别方法
Miao et al. Classification of Diabetic Retinopathy Based on Multiscale Hybrid Attention Mechanism and Residual Algorithm
CN113539476A (zh) 基于人工智能的胃内窥活检拉曼图像辅助诊断方法和系统
CN117352164A (zh) 基于人工智能的多模态肿瘤检测诊断平台及其处理方法
CN112784924A (zh) 基于分组聚合深度学习模型的肋骨骨折ct图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant