CN112365493A - 用于眼底图像识别模型的训练数据生成方法及设备 - Google Patents
用于眼底图像识别模型的训练数据生成方法及设备 Download PDFInfo
- Publication number
- CN112365493A CN112365493A CN202011372347.0A CN202011372347A CN112365493A CN 112365493 A CN112365493 A CN 112365493A CN 202011372347 A CN202011372347 A CN 202011372347A CN 112365493 A CN112365493 A CN 112365493A
- Authority
- CN
- China
- Prior art keywords
- image
- fundus image
- fundus
- data
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000001228 spectrum Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 15
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 238000002372 labelling Methods 0.000 claims description 20
- 210000004204 blood vessel Anatomy 0.000 claims description 14
- 238000003062 neural network model Methods 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 5
- 239000004576 sand Substances 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 3
- 238000002407 reforming Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 235000019646 color tone Nutrition 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000002189 macula lutea Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/10—Image enhancement or restoration using non-spatial domain filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30041—Eye; Retina; Ophthalmic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30101—Blood vessel; Artery; Vein; Vascular
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Eye Examination Apparatus (AREA)
Abstract
本发明提供一种用于眼底图像识别模型的训练数据生成方法及设备,所述方法包括:获取不同域的第一眼底图像和第二眼底图像;分别对所述第一眼底图像和所述第二眼底图像像进行傅里叶变换处理,得到第一频谱数据和第二频谱数据;对所述第一频谱数据和所述第二频谱数据的低频部分进行融合得到低频融合部分;利用所述低频融合部分和所述第一频谱数据的高频部分进行反向傅立叶变换得到融合眼底图像;在所述融合眼底图像和所述第二眼底图像中分别选取部分图像组合成混合图像作为训练数据。
Description
技术领域
本发明涉及用于机器学习的数据处理领域,具体涉及一种用于眼底图像识别模型的训练数据生成方法及设备。
背景技术
在计算机视觉领域,目前热门的研究方向主要分为语义分割、目标定位与检测、图像识别等。图像分割则是计算机视觉的重要组成部分,也是原始医学影像和自动化疾病诊断中不可缺少的技术手段。
使用深度学习技术进行图像识别已经成为学术界主流的方法,以眼底图像的血管分割任务为例,目前以U-Net网络为代表的深度学习方法在眼底血管分割任务上表现良好,但其展现出的跨领域适应能力却不尽人意。这一缺陷在工业界应用中尤为明显,具体来说,如果在训练模型的过程中只使用了单一场景或相机采集的眼底图像,训练后的模型在遇到不同场景的眼底图像时表现会大幅下降。
众所周知,诸如眼底图像及其感兴趣目标的人工标注是很难获得的,直接扩充训练数据集的难度极大。现有的训练数据扩充方案(也称为数据增强方案)大多是直接对已有的图像进行修改,包括调整灰度、调整图像角度、图像翻转等等,这种方案都是通过人为设定的参数或方式修改真实的眼底图像,让其接近于预期的状态,即期望修改后的眼底图像风格看起与原有的眼底图像不同,然后将扩充的图像作为训练数据。实际情况是利用这种扩充方案对模型训练后的结果并不理想,因为对图像的修改仍是基于人的经验并且所改变的内容比较固定和简单,模型在面对未曾“见过”的眼底图像时所表现出的准确性仍有待提高。
发明内容
有鉴于此,本发明提供一种用于眼底图像识别模型的训练数据生成方法,包括:
获取不同域的第一眼底图像和第二眼底图像;
分别对所述第一眼底图像和所述第二眼底图像像进行傅里叶变换处理,得到第一频谱数据和第二频谱数据;
对所述第一频谱数据和所述第二频谱数据的低频部分进行融合得到低频融合部分;
利用所述低频融合部分和所述第一频谱数据的高频部分进行反向傅立叶变换得到融合眼底图像;
在所述融合眼底图像和所述第二眼底图像中分别选取部分图像组合成混合图像作为训练数据。
可选地,所述方法还包括:
获取所述第一眼底图像的第一标注数据和所述第二眼底图像的第二标注数据;
在所述第一标注数据和所述第二标注数据中选取与所述部分图像相应的部分标注数据组合成针对所述混合图像的混合标注数据。
可选地,所述标注数据是针对眼底血管的标注。
可选地,分别对所述第一眼底图像和所述第二眼底图像像进行傅里叶变换处理具体包括:
获得所述第一眼底图像和所述第二眼底图像的灰度图像;
去除所述灰度图像中眼底区域以外的背景区域并重整维度得到锐化的灰度图像;
对所述锐化的灰度图像进行傅里叶变换处理,得到第一频谱数据Qs和第二频谱数据Qt。
可选地,对所述第一频谱数据和所述第二频谱数据的低频部分进行融合得到低频融合部分具体包括:
获取所述第一频谱数据Qs中的模信号Qsamp和所述第二频谱数据Qt中的模信号Qtamp;
利用Qsamp、Qtamp及权重数据β得到融合模信号Qnew。
可选地,Qnew=(1-β)*Qsamp+β*Qtamp,β为掩膜,其中包括一个边长随机的正方形区域。
可选地,利用所述低频融合部分和所述第一频谱数据的高频部分进行反向傅立叶变换得到融合眼底图像具体包括:
获取所述第一频谱数据Qs中的角信号Qsphase;
对[Qnew,Qsphase]进行反向傅立叶变换便得到融合眼底图像。
可选地,在所述融合眼底图像和所述第二眼底图像中选取部分图像组合成混合图像作为训练数据具体包括:
分别将所述融合眼底图像和所述第二眼底图像划分为多个图像块;
在所述融合眼底图像和所述第二眼底图像中均匀且随机地选取所述图像块;
将选取的图像块组合成混合图像。
可选地,通过如下方式将选取的图像块组合成混合图像pnew:
pnew=λ*p1i+(1-λ)*p2j,
其中λ是符合贝塔分布的随机系数,p1i表示从所述融合眼底图像中选取的若干图像块,p2j表示从所述第二眼底图像中选取的若干图像块。
本发明还提供一种眼底图像识别模型训练方法,包括:
获取不同域的第一眼底图像、第二眼底图像、根据上述生成方法生成的混合图像,以及相应的标注数据;
利用所述第一眼底图像、第二眼底图像、所述混合图像以及相应的标注数据对神经网络模型进行训练。
相应地,本发明提供一种用于眼底图像识别模型的训练数据生成设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述用于眼底图像识别模型的训练数据生成方法。
相应地,本发明提供一种眼底图像识别模型训练设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述眼底图像识别模型训练法。
根据本发明提供的用于眼底图像识别模型的训练数据生成方法及设备,首先对不同域的眼底图像进行傅里叶变换以提取图像的低频部分,然后进行融合,将融合的低频部分与源域图像的高频部分组合成完整的频谱数据,对其进行反向傅里叶变换可还原出一个融合的眼底图像,此图像保留了源域眼底图像的细节并融入了目标域眼底图像的风格,然后在融合的眼底图像和目标域眼底图像中各取部分图像,得到混合图像,此图像将不同风格、位置的图像组合在一起,其表达的内容均来自真实的眼底图像,使用这种训练数据对神经网络模型进行训练后,模型将在识别源域眼底图像和目标域眼底图像时都表现出更高的准确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中的一种训练数据生成方法的流程图;
图2和图3为本发明实施例中所使用的两张眼底图像;
图4为根据本发明实施例的方法得到的融合眼底图像;
图5为对眼底图像中的血管的标注图像;
图6为根据本发明实施例的方法得到的针对混合图像中的血管的标注;
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明实施例提供一种用于眼底图像识别模型的训练数据生成方法,该方法可以由计算机或服务器等电子设备执行,如图1所示该方法包括如下步骤:
S1,获取不同域的第一眼底图像和第二眼底图像。本申请所述不同域的眼底图像包括通过不同类型、不同厂商的眼底相机所拍摄的眼底图像,或者是同一眼底相机在不同环境下或者使用不同参数拍摄的眼底图像,或者是不同人的眼底图像,因此应当对本申请所述的域做广义理解。
不同域的眼底图像具有色调不同的特点,比如图2和图3示出了来自两个域的眼底图像。具体地,图2是来自公开数据集的眼底图像、图3是私有数据集中的眼底图像,拍摄图像所使用的眼底相机不同,拍摄对象也不同,尽管是灰度图也可以明确地看出它们的色彩风格不同。
在本实施例中,假设如图3所示的眼底图像数量相对稀少、如图2所示的眼底图像数量较多,为了清楚地说明发明目的,可以将图2称为源域图像(第一眼底图像),将图3称为目标域图像(第二眼底图像)。当面对这两种数据集时,实际存在的问题是由于两种域的图像数量相差悬殊,如果使用普通方法训练神经网络模型,结果必然是模型对目标域的眼底图像的识别准确性比较差。
S2,分别对第一眼底图像和第二眼底图像进行傅里叶变换处理,得到第一频谱数据和第二频谱数据。傅立叶变换是一种在信号处理中常用的转换方式,通过将时域中的信号分解成若干三角函数之和,由此得到该信号的频谱(在频域中的各信号权重),本实施例使用二维离散傅立叶变换方式。为了便于描述,将对应于第一眼底图像得到的第一频谱数据记为Qs,将对应于第二眼底图像得到的第二频谱数据记为Qt。
S3,对第一频谱数据和第二频谱数据的低频部分进行融合得到低频融合部分。本领域技术人员可以理解,频谱数据中的低频部分对应着图像的整体信息,高频部分对应着图像细节,高频部分对于图像所表达的内容来说更加重要,本方案对图像的低频信号做一些改变,使得源域图像的风格更加接近目标域图像,但不改变图像细节。
具体地,本步骤是提取Qs中的低频部分和Qt中的低频部分,将这两个低频部分进行融合得到新的低频部分。
S4,利用低频融合部分和第一频谱数据的高频部分进行反向傅立叶变换得到融合眼底图像。换言之,是利用上述低频融合部分替换掉Qs中的低频部分,形成新的频谱数据Qnew,然后进行反向傅立叶变换即可还原出眼底图像。图4示出了一个融合眼底图像,可以看出该图像保留了图2所示源域图像中的视盘、血管等细节,而整体(尤其是色彩风格)更接近于图3所示的目标域图像。实际上,这种眼底图像已经可以直接用于训练神经网络模型,面对目标域眼底图像数量相对稀少的情况,通过上述步骤即可得到更多接近于目标域的眼底图像。
S5,在融合眼底图像和第二眼底图像中分别选取部分图像组合成混合图像作为训练数据。结合图3和图4,此步骤是指在图3中选取一部分图像,比如某半部分、四分之一部分、百分之几或者更少的部分,在图4中选取一部分图像,同样地也可以是某半部分、四分之一部分、百分之几或者更少。需要说明的是,所选取的部分组合后可以但不是必须组成一张完整的眼底图像,甚至是完全错乱也是可行的。虽然融合眼底图像与真实的眼底图像相去甚远,但模型通过这种方式可以在训练数据之间得到线性插值,这种错位混合方式反而能够帮助模型更好地融合不同位置的图像信息。
根据本发明实施例提供的训练数据生成方法,首先对不同域的眼底图像进行傅里叶变换以提取图像的低频部分,然后进行融合,将融合的低频部分与源域图像的高频部分组合成完整的频谱数据,对其进行反向傅里叶变换可还原出一个融合的眼底图像,此图像保留了源域眼底图像的细节并融入了目标域眼底图像的风格,然后在融合的眼底图像和目标域眼底图像中各取部分图像,得到混合图像,此图像将不同风格、位置的图像组合在一起,其表达的内容均来自真实的眼底图像,使用这种训练数据对神经网络模型进行训练后,模型将在识别源域眼底图像和目标域眼底图像时都表现出更高的准确性。
进一步地,训练神经网络模型时还需要标签数据,比如在训练分割模型时需要图像标注。在一个具体的实施例中,所生成的训练数据用于训练神经网络模型对眼底图像中的血管进行分割,因此还需要获得与上述融合眼底图像相应的针对血管的标注数据。
标注数据一般是由人工完成的,比如人工可以对图2和图3所示的眼底图像中的血管进行标注,由此可以获取相应的第一标注数据和第二标注数据。图5示出了一个标注图像,能够清晰的区分背景与眼底中的血管。但是人工对上述融合眼底图的标注存在一定难度,因为融合眼底图可能是完全错乱的,所选取的部分可能非常小,比如可以是原图像的几千分之一,标注人员难以理解融合眼底图像的内容也就无法准确地进行标注。
为了解决标注困难的问题,本实施例基于第一眼底图像的第一标注数据和第二眼底图像的第二标注数据自动生成融合眼底图像的标注数据,为此需要在第一标注数据和第二标注数据中选取与部分图像相应的部分标注数据组合成针对混合图像的混合标注数据。标注数据可以被视为一个掩模图像,其尺寸与眼底图像是一致的,在步骤S5中选取了哪部分图像,则相应地在掩码图像中选取部分掩模,然后将选取的部分掩模按照与组合眼底图像同样的方式进行组合,即可得到混合标注数据。
需要说明的是,本发明提供的方案不限于生成血管分割的训练数据,对于视盘分割、黄斑分割等等其他感兴趣目标的分割任务也是可行的,只是获取的标注数据不同,标注数据可以是针对视盘的标注和针对黄斑等感兴趣目标的标注。
在一个优选的实施例中,采用如下方式对眼底图像进行傅里叶变换,步骤S2具体包括:
S21,获得第一眼底图像和第二眼底图像的灰度图像。具体地,首先将眼底图像的红绿蓝三个通道进行加权平均得到灰度图,所使用的权重分别为0.25、0.75、0。
S22,去除灰度图像中眼底区域以外的背景区域并重整维度得到锐化的灰度图像。将灰度图中黑边切除并重整维度(即调整图像尺寸),经历过这一系列操作后可得到源域、目标域的锐化图像。
S23,对所述锐化的灰度图像进行傅里叶变换处理,得到第一频谱数据Qs和第二频谱数据Qt。频谱数据具体可表示为Q(m,n),代表的是原信号在这个频率上的权重,由于Q(m,n)是一个复数,因此可以通过极坐标表示形式将Q分为Qamp(模)与Qphase(角)两层信号。当m,n很小时,该频率的周期很长,也就意味着其在图像中没有经历很多改变,进而导致其对于图像性质影响甚微;而相反地,当m,n很大时,该频率便能在图像中创造出复杂的边界。
在本实施例中,通过傅立叶变换得到源域、目标域锐化后的眼底图像的频谱,分别用Qsamp,Qsphase,Qtamp,Qtphase表示它们的膜与角,步骤S3具体包括:
S31,获取第一频谱数据Qs中的模信号Qsamp和第二频谱数据Qt中的模信号Qtamp;
S32,利用Qsamp、Qtamp及权重数据β得到融合模信号Qnew。更具体地,Qnew=(1-β)*Qsamp+β*Qtamp,在本实施例中β为掩膜,其中包括一个边长随机的正方形区域。β是一个维度与锐化的眼底图像相同的掩膜,其中心正方形区域的值为1,其余部分为0,该正方形的边长尺寸为随机生成。
进一步地,步骤S4具体包括:
S41,获取第一频谱数据Qs中的角信号Qsphase;
S42,对[Qnew,Qsphase]进行反向傅立叶变换便得到融合眼底图像。
通过对[Qnew,Qsphase]进行反向傅立叶变换得到的锐化眼底图像在保留了源域锐化图像血管信息的情况下在灰度上更加趋近于目标域锐化图像.
下面结合图6介绍一种优选的组合混合图像和标注数据的方式,上述步骤S5具体包括:
S51,分别将融合眼底图像和第二眼底图像划分为多个图像块。在本实施例中,将图3和图4所示的眼底图像划分更小的正方形图块,用P1,P2表示融合眼底图像和第二眼底图像,分别表示来自这两张图像的、根据特定顺序排列(如从左至右、从上至下)的图块(其中m远大于1000)。
S52,在融合眼底图像和第二眼底图像中均匀且随机地选取所述图像块。可称之为错位线性混合选取,分别均匀随机选取i,j∈{1,2,…,m},即从P1中随机选取图块、从P2中随机选取图块,并且所选取的图块数量相近或相等。
S53,将选取的图像块组合成混合图像。类似地,只要在第一标注数据(将其视作融合眼底图像的标注数据)和第二标注数据中选取相应的图块标注,即可组合成与混合图像的混合标注数据,图6示出了一个混合标注数据,通过图6可以明显地看出图块中包括模糊的背景血管及清晰的前景血管。
由于是随机且均匀地从两个图像中选取图块组合成图像,各个图块中分别包括血管,但整体内容是混乱的。图6所示的是16个图块,按照4×4的方式排列,这只是为了说明原理而提供的实施例,实际应用时可以选取更多的图像块组成尺寸更大的混合图像。本方案不必限定混合图像的尺寸,比如实际眼底图像被划分成了1000个图像块,而混合图像只是几十个图像块或者大于一千个图像块都是可行的。
通过上述优选方案组合图像,将每张眼底图图像划分更小的图块,由此可以得到千倍于当前的训练数据,并且基于随机性和均匀性,所生成的各个混合图像完全不同,可以作为一种十分有效的扩充训练数据的方案。
更进一步地,在步骤S53中通过如下方式将选取的图像块组合成混合图像pnew:
pnew=λ*p1i+(1-λ)*p2j,
其中λ是符合贝塔分布的随机系数,在本实施例中λ~Beta(0.3,0.3),p1i表示从融合眼底图像中选取的若干图像块,p2j表示从第二眼底图像中选取的若干图像块。
根据上述各个实施例生成混合图像后即可用于训练眼底图像识别模型,本发明实施例提供一种眼底图像识别模型训练方法:获取不同域的第一眼底图像、第二眼底图像和根据上述方案得到的混合图像,以及相应的标注数据;利用第一眼底图像、第二眼底图像、混合图像以及相应的标注数据对神经网络模型进行训练。通过在训练过程中加入由不同风格、位置的图块通过线性插值连接在一起的混合图像,模型因此可以获得在未见领域更好的表现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (12)
1.一种用于眼底图像识别模型的训练数据生成方法,其特征在于,包括:
获取不同域的第一眼底图像和第二眼底图像;
分别对所述第一眼底图像和所述第二眼底图像像进行傅里叶变换处理,得到第一频谱数据和第二频谱数据;
对所述第一频谱数据和所述第二频谱数据的低频部分进行融合得到低频融合部分;
利用所述低频融合部分和所述第一频谱数据的高频部分进行反向傅立叶变换得到融合眼底图像;
在所述融合眼底图像和所述第二眼底图像中分别选取部分图像组合成混合图像作为训练数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述第一眼底图像的第一标注数据和所述第二眼底图像的第二标注数据;
在所述第一标注数据和所述第二标注数据中选取与所述部分图像相应的部分标注数据组合成针对所述混合图像的混合标注数据。
3.根据权利要求2所述的方法,其特征在于,所述标注数据是针对眼底血管的标注。
4.根据权利要求1或2所述的方法,其特征在于,分别对所述第一眼底图像和所述第二眼底图像像进行傅里叶变换处理具体包括:
获得所述第一眼底图像和所述第二眼底图像的灰度图像;
去除所述灰度图像中眼底区域以外的背景区域并重整维度得到锐化的灰度图像;
对所述锐化的灰度图像进行傅里叶变换处理,得到第一频谱数据Qs和第二频谱数据Qt。
5.根据权利要求1或2所述的方法,其特征在于,对所述第一频谱数据和所述第二频谱数据的低频部分进行融合得到低频融合部分具体包括:
获取所述第一频谱数据Qs中的模信号Qsamp和所述第二频谱数据Qt中的模信号Qtamp;
利用Qsamp、Qtamp及权重数据β得到融合模信号Qnew。
6.根据权利要求5所述的方法,其特征在于,Qnew=(1-γ)*Qsamp+β*Qtamp,β为掩膜,其中包括一个边长随机的正方形区域。
7.根据权利要求5所述的方法,其特征在于,利用所述低频融合部分和所述第一频谱数据的高频部分进行反向傅立叶变换得到融合眼底图像具体包括:
获取所述第一频谱数据Qs中的角信号Qsphase;
对[Qnew,Qsphase]进行反向傅立叶变换便得到融合眼底图像。
8.根据权利要求1或2所述的方法,其特征在于,在所述融合眼底图像和所述第二眼底图像中选取部分图像组合成混合图像作为训练数据具体包括:
分别将所述融合眼底图像和所述第二眼底图像划分为多个图像块;
在所述融合眼底图像和所述第二眼底图像中均匀且随机地选取所述图像块;
将选取的图像块组合成混合图像。
9.根据权利要求8所述的方法,其特征在于,通过如下方式将选取的图像块组合成混合图像pnew:
pnew=λ*p1i+(1-λ)*p2j,
其中λ是符合贝塔分布的随机系数,p1i表示从所述融合眼底图像中选取的若干图像块,p2j表示从所述第二眼底图像中选取的若干图像块。
10.一种眼底图像识别模型训练方法,其特征在于,包括:
获取不同域的第一眼底图像、第二眼底图像、根据权利要求1-9中任一项所述方法生成的混合图像,以及相应的标注数据;
利用所述第一眼底图像、第二眼底图像、所述混合图像以及相应的标注数据对神经网络模型进行训练。
11.一种用于眼底图像识别模型的训练数据生成设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-9中任意一项所述的用于眼底图像识别模型的训练数据生成方法。
12.一种眼底图像识别模型训练设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求10所述的眼底图像识别模型训练法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011372347.0A CN112365493B (zh) | 2020-11-30 | 2020-11-30 | 用于眼底图像识别模型的训练数据生成方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011372347.0A CN112365493B (zh) | 2020-11-30 | 2020-11-30 | 用于眼底图像识别模型的训练数据生成方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112365493A true CN112365493A (zh) | 2021-02-12 |
CN112365493B CN112365493B (zh) | 2022-04-22 |
Family
ID=74536444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011372347.0A Active CN112365493B (zh) | 2020-11-30 | 2020-11-30 | 用于眼底图像识别模型的训练数据生成方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112365493B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344198A (zh) * | 2021-06-09 | 2021-09-03 | 北京三快在线科技有限公司 | 一种模型训练的方法及装置 |
CN113706440A (zh) * | 2021-03-12 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105744159A (zh) * | 2016-02-15 | 2016-07-06 | 努比亚技术有限公司 | 一种图像合成方法及装置 |
CN109671094A (zh) * | 2018-11-09 | 2019-04-23 | 杭州电子科技大学 | 一种基于频域分级的眼底图像血管分割方法 |
CN111553436A (zh) * | 2020-04-30 | 2020-08-18 | 上海鹰瞳医疗科技有限公司 | 训练数据生成方法、模型训练方法及设备 |
CN111899208A (zh) * | 2020-08-11 | 2020-11-06 | 四川警察学院 | 基于卷积分析算子的多模态图像融合方法 |
-
2020
- 2020-11-30 CN CN202011372347.0A patent/CN112365493B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105744159A (zh) * | 2016-02-15 | 2016-07-06 | 努比亚技术有限公司 | 一种图像合成方法及装置 |
CN109671094A (zh) * | 2018-11-09 | 2019-04-23 | 杭州电子科技大学 | 一种基于频域分级的眼底图像血管分割方法 |
CN111553436A (zh) * | 2020-04-30 | 2020-08-18 | 上海鹰瞳医疗科技有限公司 | 训练数据生成方法、模型训练方法及设备 |
CN111899208A (zh) * | 2020-08-11 | 2020-11-06 | 四川警察学院 | 基于卷积分析算子的多模态图像融合方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113706440A (zh) * | 2021-03-12 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN113344198A (zh) * | 2021-06-09 | 2021-09-03 | 北京三快在线科技有限公司 | 一种模型训练的方法及装置 |
CN113344198B (zh) * | 2021-06-09 | 2022-08-26 | 北京三快在线科技有限公司 | 一种模型训练的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112365493B (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fu et al. | Uncertainty inspired underwater image enhancement | |
Matern et al. | Exploiting visual artifacts to expose deepfakes and face manipulations | |
CN110677598B (zh) | 视频生成方法、装置、电子设备和计算机存储介质 | |
US20210142539A1 (en) | Accurately generating virtual try-on images utilizing a unified neural network framework | |
WO2019019828A1 (zh) | 目标对象的遮挡检测方法及装置、电子设备及存储介质 | |
CN112365493B (zh) | 用于眼底图像识别模型的训练数据生成方法及设备 | |
Xiong et al. | Unsupervised low-light image enhancement with decoupled networks | |
KR20090031217A (ko) | 화상 처리 장치, 화상 처리 방법, 및 화상 처리 프로그램, 및 촬상 장치 | |
CN109800781A (zh) | 一种图像处理方法、装置及计算机可读存储介质 | |
US11521299B2 (en) | Retouching digital images utilizing separate deep-learning neural networks | |
US20180225882A1 (en) | Method and device for editing a facial image | |
Ververas et al. | Slidergan: Synthesizing expressive face images by sliding 3d blendshape parameters | |
CN112699885A (zh) | 一种基于对抗生成网络gan的语义分割训练数据增广方法和系统 | |
Rajchel et al. | No-reference image quality assessment of authentically distorted images with global and local statistics | |
CN113012249B (zh) | 一种在ct图像上生成病灶的方法、装置及存储介质 | |
CN114694074A (zh) | 一种使用图像生成视频的方法、装置以及存储介质 | |
CN110580696A (zh) | 一种细节保持的多曝光图像快速融合方法 | |
Ye et al. | Real3d-portrait: One-shot realistic 3d talking portrait synthesis | |
Azam et al. | Smoke removal and image enhancement of laparoscopic images by an artificial multi-exposure image fusion method | |
Diaz-Pinto et al. | Retinal image synthesis for glaucoma assessment using DCGAN and VAE models | |
Chambe et al. | HDR-LFNet: Inverse tone mapping using fusion network | |
Wang et al. | Exposure fusion using a relative generative adversarial network | |
Liu et al. | Non-homogeneous haze data synthesis based real-world image dehazing with enhancement-and-restoration fused CNNs | |
JP2021082118A (ja) | 学習方法、プログラム、学習装置、および、学習済みウエイトの製造方法 | |
Akyüz et al. | Style-based tone mapping for hdr images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210721 Address after: 100083 room 21, 4th floor, building 2, national defense science and Technology Park, beipolytechnic, Haidian District, Beijing Applicant after: Beijing Yingtong Technology Development Co.,Ltd. Applicant after: SHANGHAI YINGTONG MEDICAL TECHNOLOGY Co.,Ltd. Address before: 200030 room 01, 8 building, 1 Yizhou Road, Xuhui District, Shanghai, 180 Applicant before: SHANGHAI YINGTONG MEDICAL TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |