CN117409273A - 基于数据扩增的识别模型的优化方法、设备及介质 - Google Patents
基于数据扩增的识别模型的优化方法、设备及介质 Download PDFInfo
- Publication number
- CN117409273A CN117409273A CN202311421364.2A CN202311421364A CN117409273A CN 117409273 A CN117409273 A CN 117409273A CN 202311421364 A CN202311421364 A CN 202311421364A CN 117409273 A CN117409273 A CN 117409273A
- Authority
- CN
- China
- Prior art keywords
- image
- recognition model
- optimization method
- examples
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000005457 optimization Methods 0.000 title claims abstract description 53
- 230000003321 amplification Effects 0.000 title claims abstract description 41
- 238000003199 nucleic acid amplification method Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 72
- 239000013598 vector Substances 0.000 claims abstract description 43
- 230000006870 function Effects 0.000 claims description 48
- 238000013434 data augmentation Methods 0.000 claims description 15
- 230000003190 augmentative effect Effects 0.000 claims description 9
- 230000010076 replication Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 4
- 208000017442 Retinal disease Diseases 0.000 description 3
- 206010038923 Retinopathy Diseases 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 206010012601 diabetes mellitus Diseases 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 210000001525 retina Anatomy 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 208000035719 Maculopathy Diseases 0.000 description 2
- 208000009857 Microaneurysm Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 208000002780 macular degeneration Diseases 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229920000742 Cotton Polymers 0.000 description 1
- 208000032843 Hemorrhage Diseases 0.000 description 1
- 238000002583 angiography Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000017531 blood circulation Effects 0.000 description 1
- 239000002775 capsule Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000002603 single-photon emission computed tomography Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Ophthalmology & Optometry (AREA)
- Eye Examination Apparatus (AREA)
Abstract
本公开描述一种基于数据扩增的识别模型的优化方法、设备及介质,优化方法包括获取多张眼底图像和各张眼底图像对应的真实标签;构建包括多个训练样本的训练集,训练样本包括对眼底图像进行数据扩增获得的至少两张扩增图像;基于训练集的各个训练样本对识别模型进行训练以获取与扩增图像对应的多个特征向量以及包括预测标签的预测结果;基于多个特征向量获得用于表征多个特征向量之间的相似性的第一损失函数,基于真实标签和预测标签获得第二损失函数;并且基于第一损失函数和第二损失函数优化识别模型。由此,提供一种能够提高对同一类别图像的识别效果的基于数据扩增的识别模型的优化方法、设备及介质。
Description
技术领域
本公开大体涉及图像处理技术领域,具体涉及一种基于数据扩增的识别模型的优化方法、设备及介质。
背景技术
眼底照片作为一种用于显示眼底各类体征的医学资料,能够用于检查和评估病人的身体状况。其中,对眼底照片上的体征(尤其是一些难以通过人眼察觉的体征)进行准确地识别尤为重要,能够便于掌握病人的实际情况。现如今,大多使用深度神经训练等方式来构建用于识别眼底照片的识别模型,以实现对眼底照片的准确识别。
在申请号202210237199.4,发明名称为“一种基于美学相似性度量的图像美学排序方法”的中国专利中,其训练过程以图像对作为输入,根据两个美学特征向量间的距离及真实标签,利用余弦相似度损失函数计算模型损失值,以最小化该损失值为目标,通过梯度反向传播的方式更新模型梯度,可以缩小预测类别与实际类别之间的距离,从而提高分析的准确性。
上述专利通过两张不同的原始图像作为识别模型的输入,两张图像的相似度基于图像的真实标签进行设定,以此来训练模型提高识别不同的图像是否属于同一类别的效果。然而,原始图像可能会受到外界因素的影响产生变化,进而导致模型无法适应不同条件下的同一图像,往往会导致模型产生域偏移问题(也即,模型通常会因为数据的分布差异而减弱其泛化能力),从而可能会使识别模型对同一图像的分类和判断的准确性较低。
发明内容
本公开是有鉴于上述的状况而提出的,其目的在于提供一种能够提高同一类别图像的识别效果的基于数据扩增的识别模型的优化方法、设备及介质。
为此,本公开第一方面提供一种基于数据扩增的识别模型的优化方法,包括获取多张眼底图像和各张眼底图像对应的真实标签;构建包括多个训练样本的训练集,所述训练样本包括对所述眼底图像进行数据扩增获得的至少两张扩增图像;基于所述训练集的各个所述训练样本对所述识别模型进行训练以获取与所述扩增图像对应的多个特征向量以及包括预测标签的预测结果;基于所述多个特征向量获得用于表征所述多个特征向量之间的相似性的第一损失函数,基于所述真实标签和所述预测标签获得第二损失函数;并且基于所述第一损失函数和所述第二损失函数优化所述识别模型。
在本公开的第一方面中,由于对眼底图像进行数据扩增获得的扩增图像属于同一类别,同时由于数据扩增能够模拟不同条件下的同一张眼底图像(例如,通过不同的采集设备或处于不同拍摄环境所获取的同一张眼底图像),通过构建包括对眼底图像数据扩增后的扩增图像的训练集,能够较好地囊括同一张眼底图像处于不同条件下的各个情况,从而能够使识别模型的训练更加全面。另外,由于特征向量能够以数值的方式表征图像的特征,因此基于特征向量能够便于比较扩增图像之间的相似性。另外,由于第一损失函数能够用于计算特征向量之间的相似度并基于相似度的调整(例如,采用降低相似度的值采用提高相似度的值或使相似度的值趋近1的方式)以优化识别模型的参数,由此能够提高扩增图像之间的相似性,从而能够提高识别模型对同一眼底图像在不同条件下(也即,同一眼底图像进行数据扩增获得的至少两张扩增图像)分类的准确性。同时,由于第二损失函数能够用于计算真实标签和预测标签之间的损失并通过最小化损失以优化识别模型的参数,由此能够降低真实标签和预测标签之间的差异性,从而能够提高识别模型对同一眼底图像和扩增图像的判断的准确性。
另外,在本公开第一方面所涉及的优化方法中,可选地,所述训练样本包括两张所述扩增图像,基于两张所述扩增图像对所述识别模型进行训练。在这种情况下,由于计算扩增图像之间的相似度(也即,比较扩增图像之间的相似性)需要基于两张扩增图像,通过两张扩增图像对识别模型进行训练,能够基于扩增图像之间的相似度来优化识别模型,从而能够提高识别模型对扩增图像的识别准确性。
另外,在本公开第一方面所涉及的优化方法中,可选地,所述数据扩增的运算包括图像翻转、图像随机旋转、图像缩放、图像剪裁、图像填充、图像颜色变换或图像添加噪声中的至少一种。在这种情况下,通过将同一眼底图像进行多种数据扩增,能够模拟同一眼底图像的不同条件并对识别模型进行训练,进而能够提高不同条件下的同一眼底图像之间的相似性,从而能够提高识别模型对同一图像在不同条件下(也即,同一眼底图像进行数据扩增获得的至少两张扩增图像)分类的准确性。
另外,在本公开第一方面所涉及的优化方法中,可选地,所述数据扩增的运算包括图像复制。在这种情况下,由于经图像复制后所获得的扩增图像与眼底图像一致,通过提高经图像复制后所获得的扩增图像与其他扩增图像的相似性,能够提高识别模型对眼底图像以及扩增图像的识别效果,由此,能够提高识别模型对同一眼底图像的分类的准确性。
另外,在本公开第一方面所涉及的优化方法中,可选地,还利用历史模型和当前识别模型的特征向量优化所述识别模型,所述历史模型为所述当前识别模型之前的任一次优化所得的识别模型。在这种情况下,通过调取历史模型的扩增图像的特征向量,能够计算出输入至历史模型的扩增图像和输入至当前识别模型的扩增图像之间的相似度,并基于上述相似度提高输入至历史模型的扩增图像和输入至当前识别模型的扩增图像之间的相似性以优化当前识别模型,由此能够进一步提高当前识别模型对同一类别的扩增图像的分类的准确性。
另外,在本公开第一方面所涉及的优化方法中,可选地,基于同一个所述训练样本优化所述识别模型。在这种情况下,由于同一训练样本属于同一类别,通过计算同一训练样本内多个扩增图像之间的相似度,能够提高同一训练样本内不同扩增图像之间的相似性,从而能够提高当前识别模型对同一训练样本内不同扩增图像之间分类的准确性。
另外,在本公开第一方面所涉及的优化方法中,可选地,将所述眼底图像的真实标签作为所述扩增图像的真实标签,所述预测结果与所述扩增图像相对应。在这种情况下,由于眼底图像和扩增图像属于同一类别,能够使扩增图像的真实标签与眼底图像的真实标签保持一致,同时,能够基于预测结果中的预测标签与真实标签进行对比以获取识别模型对扩增图像的识别的准确性。
另外,在本公开第一方面所涉及的优化方法中,可选地,所述第二损失函数用于表征所述真实标签与所述预测标签之间的差异性。在这种情况下,通过第二损失函数对真实标签与预测标签之间的损失进行计算,能够基于调整损失的大小以降低真实标签与预测标签之间的差异性,从而能够使具有预测标签的预测结果与具有真实标签的真实结果尽可能接近,进而能够提高识别模型对同一眼底图像的判断的准确性。
本公开的第二方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器执行所述存储器存储的程序以实现如本公开第一方面所涉及的优化方法。
本公开的第三方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如本公开第一方面所涉及的优化方法。
根据本公开,能够提供一种提高对同一类别图像的识别效果的基于数据扩增的识别模型的优化方法、设备及介质。
附图说明
现在将仅通过参考附图的例子进一步详细地解释本公开。
图1是示出了本公开示例所涉及的识别模型的应用场景图。
图2是示出了本公开示例所涉及的优化方法的流程图。
图3A是示出了本公开示例所涉及的眼底图像的示意图。
图3B是示出了本公开示例所涉及的扩增图像的示意图。
图4是示出了本公开示例所涉及的第一损失函数优化识别模型的示意图。
图5是示出了本公开示例所涉及的第二损失函数优化识别模型的示意图。
图6是示出了本公开示例所涉及的历史模型和当前识别模型的示意图。
图7是示出了本公开示例所涉及的识别模型的识别方法的流程图。
图8是示出了本公开示例所涉及的电子设备的结构框图。
具体实施方式
以下,参考附图,详细地说明本公开的优选实施方式。在下面的说明中,对于相同的部件赋予相同的符号,省略重复的说明。另外,附图只是示意性的图,部件相互之间的尺寸的比例或者部件的形状等可以与实际的不同。
需要说明的是,本公开中的术语“包括”和“具有”以及它们的任何变形,例如所包括或所具有的一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可以包括或具有没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本公开所描述的所有方法可以以任何合适的顺序执行,除非在此另有指示或者与上下文明显矛盾。关于本公开中的某些示例提供的任何和所有示例或示例性语言(例如,“例如”)的使用仅旨在更好地阐明本公开,而不是对本公开所要求保护的范围构成限制。说明书中的任何语言都不应该被解释为指示对于本公开的实施来说必不可少的任何非要求保护的要素。
本公开提供一种基于数据扩增的识别模型的优化方法(以下可以简称为识别模型的优化方法或优化方法),是基于数据扩增后的扩增图像优化识别模型的优化方法。在本公开的优化方法中,基于扩增图像对识别模型进行训练能够提高识别模型对同一类图像的识别准确性,由此,能够提高对同一类别图像的识别效果。
另外,本公开还提供一种基于数据扩增的识别模型的识别方法(以下可以简称为识别方法),识别方法通过提高对识别模型的识别准确性能够减少对同一类别图像的误判情况。
在本实施方式中,“同一类别图像”有时也可以称为“同一分类图像”,同一类别图像可以是指同一张图像和同一张图像所对应的扩增图像,扩增图像可以经同一张图像数据扩增后获取。在一些示例中,同一类别图像也可以称为图像或输入图像。在一些示例中,输入图像可以来自相机、CT扫描、PET-CT扫描、SPECT扫描、MRI、超声、X射线、血管造影照片、荧光图、胶囊内窥镜拍摄的图像或其组合。在一些示例中,输入图像可以为组织对象的图像(例如眼底图像)。在一些示例中,输入图像可以为自然图像。自然图像可以为自然场景下观察或者拍摄到的图像。以下以输入图像为眼底相机采集的眼底图像为例描述了本公开的示例,并且这样的描述并不限制本公开的范围。
在一些示例中,“误判”可以是指识别模型对图像的预测结果与真实结果不一致。
在一些示例中,基于数据扩增的识别模型的优化方法也可以称为基于数据扩增的识别模型的训练方法、基于数据扩增的训练方法、识别模型的训练方法或训练方法等。
在一些示例中,本公开所涉及的识别模型可以用于图像识别并输出预测结果。本公开所涉及的优化方法可以用于优化上述识别模型。
图1是示出了本公开示例所涉及的识别模型的应用场景图。
在一些示例中,参见图1,在场景中,操作者3可以通过采集设备1采集医学图像并将医学图像输入设置于终端2的识别模型,识别模型可以输出医学图像的预测结果,并通过终端2显示预测结果。在一些示例中,医学图像可以为眼底图像4。
在一些示例中,采集设备1可以是相机。例如相机可以是手持式眼底相机或台式眼底相机。在一些示例中,采集设备1可以集成在终端2中。
在一些示例中,终端2可以为笔记本电脑、平板电脑或台式机等。
在一些示例中,识别模型可以用于识别医学图像。例如,识别模型可以用于识别医学图像是否为眼底图像4(也即,判断医学图像为眼底图像4或非眼底图像)。在一些示例中,预测结果可以为“医学图像为眼底图像4”或“医学图像为非眼底图像”。在一些示例中,预测结果可以具有概率值。例如,预测结果可以为“医学图像为眼底图像4的概率为60%,医学图像为非眼底图像的概率为40%”。在一些示例中,预测结果可以基于概率值较大的结果确定。
在一些示例中,识别模型可以用于识别眼底图像4。具体地,识别模型可以用于提取眼底图像4的特征并输出预测结果。
本公开所涉及的优化方法可以用于优化上述的识别模型。
以下,结合附图详细描述本公开所涉及的基于数据扩增的识别模型的优化方法。在一些示例中,可以基于优化方法提高识别模型的识别准确性。
图2是示出了本公开示例所涉及的优化方法的流程图。
在一些示例中,参见图2,优化方法可以包括获取眼底图像4和眼底图像4对应的真实标签(步骤S101)、构建包括多个训练样本的训练集(步骤S102)、基于训练集对识别模型进行训练以获取多个特征向量以及预测结果(步骤S103)、基于多个特征向量获得第一损失函数,基于真实标签和预测标签获得第二损失函数(步骤S104)、并且基于第一损失函数和第二损失函数优化识别模型(步骤S105)。
在一些示例中,在步骤S101中,可以基于采集设备1获取眼底图像4。
在一些示例中,眼底相机可以包括对眼底发射光束的光源,经眼底反射的光束透过的透镜,用于接收透过透镜的光束的成像元件以及用于记录成像位置的记录元件。
在一些示例中,可以基于成像位置调整透镜和成像元件的相对位置。在这种情况下,通过调整较优的相对位置,能够提高眼底相机所获取的眼底图像4的清晰度。
在一些示例中,可以获取眼底图像4的真实标签。在一些示例中,真实标签可以由操作者3对眼底图像4经过详细的检查和分析进行确定。
在一些示例中,真实标签可以基于识别模型的算法类型进行确定。例如,在一些示例中,算法类型可以为用于识别眼底的算法。
在一些示例中,真实标签可以包括糖尿病视网膜或黄斑病变等。在一些示例中,真实标签可以为糖尿病视网膜的病变等级或黄斑病变等级。例如,在一些示例中,糖尿病视网膜的病变等级可以基于英国国家视网膜病变筛查项目使用的视网膜病变分级体系划分。在这种情况下,基于已经成熟应用的视网膜病变分级体系,能够进一步提高真实标签的准确性。
在一些示例中,真实标签可以包括微动脉瘤、出血、渗出、棉绒斑或新生血管等。在一些示例中,真实标签可以包括眼底标签和非眼底标签。在一些示例中,具有眼底标签的医学图像可以用于表示医学图像为眼底图像4,具有非眼底标签的医学图像可以用于表示医学图像为非眼底图像。
在一些示例中,在步骤S102中,可以构建包括多个训练样本的训练集。在一些示例中,训练集可以用于对识别模型进行训练。
在一些示例中,训练样本可以包括眼底图像4。
在一些示例中,一个训练样本可以包括一张眼底图像4。
图3A是示出了本公开示例所涉及的眼底图像4的示意图。图3B是示出了本公开示例所涉及的扩增图像5的示意图。
在一些示例中,参见图3A和图3B,一个训练样本可以包括眼底图像4和扩增图像5。在一些示例中,扩增图像5可以由对眼底图像4进行数据扩增获得。在一些示例中,一个训练样本可以包括一张眼底图像4。在一些示例中,一个训练样本可以包括至少两张扩增图像5,例如可以包括2张、3张、4张、5张、6张、或7张等扩增图像5。
在一些示例中,扩增图像5可以由眼底图像4通过一次数据扩增的运算得到。在一些示例中,扩增图像5也可以由眼底图像4通过多次数据扩增的运算得到。例如,可以为2次、3次、4次、5次、6次、7次、8次、9次或10次。
在一些示例中,数据扩增的运算可以包括图像翻转、图像随机旋转、图像缩放、图像剪裁、图像填充、图像颜色变换或图像添加噪声中的至少一种。在这种情况下,通过将同一眼底图像4进行多种数据扩增,能够模拟同一眼底图像4的不同条件并对识别模型进行训练,进而能够提高不同条件下的同一眼底图像4之间的相似性,从而能够提高识别模型对同一图像在不同条件下(也即,同一眼底图像4进行数据扩增获得的至少两张扩增图像5)分类的准确性。
在一些示例中,数据扩增的运算可以包括图像复制。在一些示例中,图像复制可以是指眼底图像4与扩增图像5相同或眼底图像4未经过数据扩增。在这种情况下,由于经图像复制后所获得的扩增图像5与眼底图像4一致,通过提高经图像复制后所获得的扩增图像5与其他扩增图像5的相似性,能够提高识别模型对眼底图像4以及扩增图像5的识别效果,由此,能够提高识别模型对同一眼底图像4的分类的准确性。
在一些示例中,可以基于随机数的方式确定数据扩增的运算。具体地,可以确定随机数的范围并基于随机数生成器生成一个均匀分布的随机数,再基于随机数与数据扩增的运算的对应关系确定数据扩增的运算。例如,随机数的范围可以为[1,8],随机数可以与数据扩增的形式相对应,例如当随机数为1时,对应的数据扩增的运算可以为图像复制。
在另一些示例中,也可以基于权重确定数据扩增的运算。具体地,可以为不同的数据扩增的运算赋予不同的权重,并基于权重进行随机抽选以确定数据扩增的运算。
在一些示例中,训练样本可以包括对眼底图像4进行数据扩增获得的至少两张扩增图像5。在这种情况下,由于对眼底图像4进行数据扩增获得的扩增图像5与眼底图像4属于同一类别,同时由于数据扩增能够模拟不同条件下的同一张眼底图像4(例如,通过不同的采集设备1或处于不同拍摄环境所获取的同一张眼底图像4),通过构建包括对眼底图像4数据扩增后的扩增图像5的训练集,能够较好地囊括同一张眼底图像4处于不同条件下的各个情况,从而能够使识别模型的训练更加全面。
在一些示例中,可以将眼底图像4的真实标签作为扩增图像5的真实标签。在这种情况下,由于眼底图像4和扩增图像5属于同一类别,能够使扩增图像5的真实标签与眼底图像4的真实标签保持一致。
在一些示例中,在数据扩增之前,可以对眼底图像4进行预处理。在一些示例中,预处理可以为调整眼底图像4的图像尺寸。在这种情况下,能够使眼底图像4较好地适应识别模型的输入尺寸(例如,输入数据的大小或图像颜色的通道数目等),从而能够便于后续识别模型的训练,同时,能够使眼底图像4基于相同的尺寸进行数据扩增以获取扩增图像5,由此能够提高识别模型训练的效率。
在另一些示例中,可以对扩增图像5进行预处理。在这种情况下,由于数据扩增可能会导致眼底图像4尺寸发生变化,基于预处理能够减少因数据扩增而导致扩增图像5不符合识别模型的输入尺寸的情况的发生,由此,能够提高识别模型的训练效率。
在一些示例中,预处理可以包括归一化处理。在一些示例中,归一化处理可以包括最大最小规范化、z-score标准化或限幅法中的至少一种。
在一些示例中,在步骤S103中,可以基于训练样本对识别模型进行训练以获取特征向量。
在一些示例中,识别模型可以用于识别训练样本的特征(例如,提取训练样本的特征)以输出特征向量,也就是说,特征向量可以用于表征训练样本的特征。在一些示例中,识别模型可以为卷积神经网络、循环神经网络或残差网络等。
在一些示例中,训练样本的特征可以与训练样本的真实标签进行对应。例如,当训练样本的真实标签为微动脉瘤时,所对应的特征可以为血管直径大小、血管形态或血流情况中的至少一种。
在一些示例中,训练样本可以包括两张扩增图像5,基于两张扩增图像5对识别模型进行训练。在这种情况下,由于计算扩增图像5之间的相似度(也即,比较扩增图像5之间的相似性)需要基于两张扩增图像5,通过两张扩增图像5对识别模型进行训练,能够基于扩增图像5之间的相似度来优化识别模型,从而能够提高识别模型对扩增图像5的识别准确性。
在一些示例中,当相似度的值越趋近1时,可以认为相似性越高。
在另一些示例中,当相似度的值越大,可以认为相似性越高。具体地,当两张扩增图像5的相似度越大,可以认为两张扩增图像5的相似性越高。
在一些示例中,同一个训练样本可以具有多个批次,一个批次可以对应两张扩增图像5。在一些示例中,多个批次的训练可以按序进行。
在一些示例中,可以基于训练集的各个训练样本对识别模型进行训练以获取与扩增图像5对应的多个特征向量。在这种情况下,由于特征向量能够以数值的方式表征图像的特征,因此基于特征向量能够便于比较扩增图像5之间的相似性。
在一些示例中,可以基于训练集的各个训练样本对识别模型进行训练以获取包括预测标签的预测结果。
在一些示例中,预测标签可以与真实标签相同。例如,当真实标签包括眼底标签和非眼底标签时,识别模型所输出的预测结果的预测标签可以为眼底标签或非眼底标签。
在一些示例中,预测结果可以为预测标签所对应的特征的位置或大小。在另一些示例中,预测结果也可以为预测标签所对应的类别。
在一些示例中,预测结果可以与扩增图像5相对应。由此,能够基于预测结果中的预测标签与真实标签进行对比以获取识别模型对扩增图像5的识别的准确性。
在一些示例中,预测结果可以具有多个预测标签,预测标签可以具有概率分布。例如,可以基于softmax函数(也即,归一化指数函数)采用具有多个全连接层的深度神经网络作为分类器并采用最后一个全连接层产生的输出转换成概率分布。由此,能够获取多个预测标签的概率值。
在一些示例中,在步骤S104中,可以基于多个特征向量获得用于表征多个特征向量之间的相似性的第一损失函数。在这种情况下,由于第一损失函数能够用于计算特征向量之间的相似度并基于相似度的调整(例如,采用提高相似度的值或使相似度的值趋近1的方式)以优化识别模型的参数,由此能够提高扩增图像5之间的相似性,从而能够提高识别模型对同一图像在不同条件下(也即,同一眼底图像4进行数据扩增获得的至少两张扩增图像5)分类的准确性。
在一些示例中,第一损失函数可以为相似性损失函数或KL散度等。
在一些示例中,第一损失函数可以用于计算多个特征向量之间的相似度。在一些示例中,第一损失函数可以用于计算多个特征向量中两两之间的相似度,并对该相似度求平均。在这种情况下,能够基于多个特征向量之间的相似度比较多张扩增图像5之间的相似性。
在一些示例中,第一损失函数可以用于计算两个特征向量之间的相似度。
在一些示例中,可以基于余弦相似度和/或欧氏距离计算多个特征向量之间的相似度。在一些示例中,可以基于余弦相似度和/或欧氏距离计算两个特征向量之间的相似度。
在一些示例中,可以基于真实标签和预测标签获得第二损失函数。
在一些示例中,第二损失函数可以用于表征真实标签与预测标签之间的差异性。具体地,第二损失函数可以用于计算真实标签与预测标签之间的损失以确认真实标签与预测标签之间的差异性。在这种情况下,通过第二损失函数对真实标签与预测标签之间的损失进行计算,能够基于调整损失的大小以降低真实标签与预测标签之间的差异性,从而能够使具有预测标签的预测结果与具有真实标签的真实结果尽可能接近,进而能够提高识别模型对同一眼底图像4的判断的准确性。
在一些示例中,第二损失函数可以为交叉熵损失函数、平方损失函数或焦点损失函数等。
在一些示例中,在步骤S105中,可以基于第一损失函数优化识别模型。
图4是示出了本公开示例所涉及的第一损失函数优化识别模型的示意图。
在一些示例中,参见图4,可以基于第一损失函数计算多个特征向量之间的相似度。
在一些示例中,可以通过调整相似度的值优化识别模型。
在一些示例中,当基于余弦相似度计算多个特征向量之间的相似度时,可以以余弦相似度接近1为目的优化识别模型。
在另一些示例中,当基于欧氏距离计算多个特征向量之间的相似度时,可以以最小化欧氏距离为目的优化识别模型。
在一些示例中,可以基于第一损失函数计算两张扩增图像5的特征向量之间的相似度。
图5是示出了本公开示例所涉及的第二损失函数优化识别模型的示意图。
在一些示例中,参见图5,可以基于第二损失函数优化识别模型。
在一些示例中,可以利用第二损失函数对扩增图像5的真实标签和扩增图像5的预测结果中的预测标签的差异性进行对比以确定损失。
在一些示例中,可以基于第一损失函数和第二损失函数优化识别模型。具体地,可以基于反向传播算法以最小化损失为目的调整识别模型的参数。在这种情况下,由于第一损失函数能够用于计算特征向量之间的相似度并基于相似度的调整(例如,采用提高相似度的值或使相似度的值趋近1的方式)以优化识别模型的参数,由此能够提高扩增图像5之间的相似性,从而能够提高识别模型对同一眼底图像4在不同条件下(也即,同一眼底图像4进行数据扩增获得的至少两张扩增图像5)分类的准确性。同时,由于第二损失函数能够用于计算真实标签和预测标签之间的损失并通过最小化损失以优化识别模型的参数,由此能够降低真实标签和预测标签之间的差异性,从而能够提高识别模型对同一眼底图像4和扩增图像5的判断的准确性。
在一些示例中,可以利用历史模型和当前识别模型的特征向量优化识别模型。
在一些示例中,历史模型可以为当前识别模型之前的任一次优化所得的识别模型。例如,当优化次数为M(M可以为大于等于0的整数)时,历史模型可以为第0次优化至第M-1次优化中的任一次优化所得的识别模型。
在一些示例中,历史模型可以存储于本地设备。在一些示例中,历史模型的参数以及所输出的特征向量可以存储于本地设备。在一些示例中,本地设备可以是指终端2。由此,能够便于调取历史模型所输出的特征向量。
在一些示例中,当前识别模型可以是指最新优化的识别模型,也即最优的识别模型。例如,当优化次数为M时,当前识别模型可以为第M次优化所得的识别模型。
图6是示出了本公开示例所涉及的历史模型和当前识别模型的示意图。
在一些示例中,参见图6,可以利用历史模型和当前识别模型的特征向量优化识别模型。在这种情况下,通过调取历史模型的扩增图像5的特征向量,能够计算出输入至历史模型的扩增图像5和输入至当前识别模型的扩增图像5之间的相似度,并基于上述相似度提高输入至历史模型的扩增图像5和输入至当前识别模型的扩增图像5之间的相似性以优化当前识别模型,由此能够进一步提高当前识别模型对同一类别的扩增图像5的分类的准确性。
在一些示例中,可以基于同一个训练样本优化识别模型。在这种情况下,由于同一训练样本属于同一类别,通过计算同一训练样本内多个扩增图像5之间的相似度,能够提高同一训练样本内不同扩增图像5之间的相似性,从而能够提高当前识别模型对同一训练样本内不同扩增图像5之间分类的准确性。
图7是示出了本公开示例所涉及的识别模型的识别方法的流程图。
在一些示例中,识别方法涉及的识别模型可以由上述的优化方法进行优化。
在一些示例中,参见图7,识别方法可以包括获取眼底图像4(步骤S301)、并将眼底图像4输入识别模型以获取预测结果(步骤S302)。
在一些示例中,在步骤S301,眼底图像4可以包括待检眼底图像,待检眼底图像可以具有真实标签。
在一些示例中,在步骤S302,可以将待检眼底图像输入识别模型以获取预测结果。
在一些示例中,识别模型可以为当前识别模型。在一些示例中,当预测结果与包括真实标签的真实结果不同时,可以基于上述优化方法对当前识别模型进行优化。在这种情况下,通过提高识别模型的识别准确性,能够减少对同一类别图像的误判情况。
本公开还提供一种电子设备6。
图8是示出了本公开示例所涉及的电子设备6的结构框图。
在一些示例中,参见图8,电子设备6可以包括处理器60和存储器61。其中,处理器60以及存储器61分别连接通信总线。存储器61可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile memory)。本领域技术人员可以理解,图8中示出的电子设备6的结构并不构成对本公开的限定,既可以是总线形结构,也可以是星型结构,还可以包括比图8所示的更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,处理器60可以为电子设备6的控制中心,可以是中央处理器60(CentralProcessing Unit,CPU),处理器60可以利用各种接口和线路连接整个电子设备6的各个部分,用于运行或执行存储在存储器61内的软件程序和/或模块,以及调用存储在存储器61内存储的程序代码,用于执行上述的优化方法中的全部或部分操作。
在本公开中,应该理解到,所揭露的设备,可通过其它的方式实现。例如,以上所描述的设备实施方式仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
本公开示例还涉及一种计算机可读存储介质,本领域普通技术人员可以理解上述示例中的优化方法中的全部或部分步骤是可以通过程序(指令)来指令相关的硬件来完成,该程序(指令)可以存储于计算机可读存储器(存储介质)中,计算机可读存储器可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
虽然以上结合附图和示例对本公开进行了具体说明,但是可以理解,上述说明不以任何形式限制本公开。本领域技术人员在不偏离本公开的实质精神和范围的情况下可以根据需要对本公开进行变形和变化,这些变形和变化均落入本公开的范围内。
Claims (10)
1.一种基于数据扩增的识别模型的优化方法,其特征在于,包括获取多张眼底图像和各张眼底图像对应的真实标签;构建包括多个训练样本的训练集,所述训练样本包括对所述眼底图像进行数据扩增获得的至少两张扩增图像;基于所述训练集的各个所述训练样本对所述识别模型进行训练以获取与所述扩增图像对应的多个特征向量以及包括预测标签的预测结果;基于所述多个特征向量获得用于表征所述多个特征向量之间的相似性的第一损失函数,基于所述真实标签和所述预测标签获得第二损失函数;并且基于所述第一损失函数和所述第二损失函数优化所述识别模型。
2.根据权利要求1所述的优化方法,其特征在于,所述训练样本包括两张所述扩增图像,基于两张所述扩增图像对所述识别模型进行训练。
3.根据权利要求1所述的优化方法,其特征在于,所述数据扩增的运算包括图像翻转、图像随机旋转、图像缩放、图像剪裁、图像填充、图像颜色变换或图像添加噪声中的至少一种。
4.根据权利要求1所述的优化方法,其特征在于,所述数据扩增的运算包括图像复制。
5.根据权利要求1所述的优化方法,其特征在于,还利用历史模型和当前识别模型的特征向量优化所述识别模型,所述历史模型为所述当前识别模型之前的任一次优化所得的识别模型。
6.根据权利要求5所述的优化方法,其特征在于,基于同一个所述训练样本优化所述识别模型。
7.根据权利要求1所述的优化方法,其特征在于,将所述眼底图像的真实标签作为所述扩增图像的真实标签,所述预测结果与所述扩增图像相对应。
8.根据权利要求1所述的优化方法,其特征在于,所述第二损失函数用于表征所述真实标签与所述预测标签之间的差异性。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器执行所述存储器存储的程序以实现如权利要求1-8中任一项所述的优化方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1-8中任一项所述的优化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311421364.2A CN117409273A (zh) | 2023-10-27 | 2023-10-27 | 基于数据扩增的识别模型的优化方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311421364.2A CN117409273A (zh) | 2023-10-27 | 2023-10-27 | 基于数据扩增的识别模型的优化方法、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117409273A true CN117409273A (zh) | 2024-01-16 |
Family
ID=89495892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311421364.2A Pending CN117409273A (zh) | 2023-10-27 | 2023-10-27 | 基于数据扩增的识别模型的优化方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117409273A (zh) |
-
2023
- 2023-10-27 CN CN202311421364.2A patent/CN117409273A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11900647B2 (en) | Image classification method, apparatus, and device, storage medium, and medical electronic device | |
US20200226752A1 (en) | Apparatus and method for processing medical image | |
US11216683B2 (en) | Computer aided scanning method for medical device, medical device, and readable storage medium | |
EP3462373A1 (en) | Automated classification and taxonomy of 3d teeth data using deep learning methods | |
US11602302B1 (en) | Machine learning based non-invasive diagnosis of thyroid disease | |
US20220222932A1 (en) | Training method and apparatus for image region segmentation model, and image region segmentation method and apparatus | |
CN111696083B (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
US20170061608A1 (en) | Cloud-based pathological analysis system and method | |
EP3355273A1 (en) | Coarse orientation detection in image data | |
WO2017017722A1 (ja) | 処理装置、処理方法及びプログラム | |
US11967181B2 (en) | Method and device for retinal image recognition, electronic equipment, and storage medium | |
CN110400617A (zh) | 医学成像中的成像和报告的结合 | |
CN111192660B (zh) | 一种影像报告分析方法、设备及计算机存储介质 | |
KR102097743B1 (ko) | 인공지능 질환 판독 장치 및 방법 | |
CN113743463B (zh) | 一种基于影像数据和深度学习的肿瘤良恶性识别方法和系统 | |
US11721023B1 (en) | Distinguishing a disease state from a non-disease state in an image | |
CN113393417A (zh) | 用于检测医学图像的偏侧性的系统和方法 | |
US20200065967A1 (en) | Computer system, method, and program for diagnosing subject | |
Zhang et al. | Learning-based coronal spine alignment prediction using smartphone-acquired scoliosis radiograph images | |
WO2022133590A1 (en) | Automatic annotation of condition features in medical images | |
US20220285011A1 (en) | Document creation support apparatus, document creation support method, and program | |
CN110930373A (zh) | 一种基于神经网络的肺炎识别装置 | |
CN111127400A (zh) | 一种乳腺病变检测方法和装置 | |
CN108701493A (zh) | 用于验证医学图像的图像相关信息的设备、系统和方法 | |
CN111226287A (zh) | 用于分析医学成像数据集的方法、用于分析医学成像数据集的系统、计算机程序产品以及计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |