CN109753978A - 图像分类方法、装置以及计算机可读存储介质 - Google Patents
图像分类方法、装置以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109753978A CN109753978A CN201711060208.2A CN201711060208A CN109753978A CN 109753978 A CN109753978 A CN 109753978A CN 201711060208 A CN201711060208 A CN 201711060208A CN 109753978 A CN109753978 A CN 109753978A
- Authority
- CN
- China
- Prior art keywords
- image
- classification
- neural network
- network model
- original image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 205
- 238000003062 neural network model Methods 0.000 claims abstract description 185
- 238000009826 distribution Methods 0.000 claims abstract description 93
- 230000009466 transformation Effects 0.000 claims abstract description 28
- 238000010276 construction Methods 0.000 claims abstract description 27
- 239000013598 vector Substances 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 28
- 238000003384 imaging method Methods 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 238000005520 cutting process Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 241000406668 Loxodonta cyclotis Species 0.000 claims description 3
- 210000001508 eye Anatomy 0.000 description 145
- 230000006870 function Effects 0.000 description 53
- 230000015654 memory Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 15
- 210000005252 bulbus oculi Anatomy 0.000 description 14
- 230000001965 increasing effect Effects 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 9
- 210000002569 neuron Anatomy 0.000 description 9
- 241001300198 Caperonia palustris Species 0.000 description 7
- 235000000384 Veronica chamaedrys Nutrition 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 210000003733 optic disk Anatomy 0.000 description 7
- 244000018633 Prunus armeniaca Species 0.000 description 6
- 235000009827 Prunus armeniaca Nutrition 0.000 description 6
- 241000124033 Salix Species 0.000 description 6
- 230000003321 amplification Effects 0.000 description 6
- 210000004218 nerve net Anatomy 0.000 description 6
- 238000003199 nucleic acid amplification method Methods 0.000 description 6
- 230000007423 decrease Effects 0.000 description 5
- 230000000750 progressive effect Effects 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 239000004744 fabric Substances 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 3
- 208000010412 Glaucoma Diseases 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 208000030533 eye disease Diseases 0.000 description 3
- 230000004438 eyesight Effects 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 210000005036 nerve Anatomy 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 206010012689 Diabetic retinopathy Diseases 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 241000233805 Phoenix Species 0.000 description 1
- 208000017442 Retinal disease Diseases 0.000 description 1
- 206010038923 Retinopathy Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 210000004204 blood vessel Anatomy 0.000 description 1
- 230000003925 brain function Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000006806 disease prevention Effects 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 238000004146 energy storage Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003707 image sharpening Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000004660 morphological change Effects 0.000 description 1
- 238000005312 nonlinear dynamic Methods 0.000 description 1
- 238000002577 ophthalmoscopy Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000000985 reflectance spectrum Methods 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/174—Segmentation; Edge detection involving the use of two or more images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/197—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30041—Eye; Retina; Ophthalmic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Quality & Reliability (AREA)
- Ophthalmology & Optometry (AREA)
- Human Computer Interaction (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请实施例提供一种图像分类方法、装置以及计算机可读存储介质,包括:获得原始图像、以及所述原始图像中所包括的对象的类别;调整所述原始图像的显示参数满足取值条件;根据所述显示参数的分布需要满足的分布条件,对所述原始图像的所述显示参数进行变换获得新图像;基于调整后的原始图像和所述新图像进行组合构造的训练集、以及所包括对象的类别,训练神经网络模型;基于训练后的所述神经网络模型,将待预测图像和标注有对象的类别的参考图像输入所述神经网络模型,判断所述待预测图像中所包括对象的类别。
Description
技术领域
本发明涉及图像处理技术,特别涉及一种图像分类方法、装置以及计算机可读存储介质。
背景技术
随着多媒体技术与计算机设备网络的广泛应用,网络上出现大量图像数据。如何能够有效的管理这些图像文件,自动识别和分类这些图像的内容变的越来越重要。
目前,随着机器学习方法的不断完善和发展,深度学习算法越来越受到重视,其中卷积神经网络就是深度学习中一种重要的算法,目前已成为图像识别领域的研究热点。基于卷积神经网络的图像分类技术能够自动从图像中提取特征信息,通过提取的特征进行图像表达。
然而,针对不同具体领域或者不同类别的图像,基于卷积神经网络进行分类时,往往需要分别建立与该领域或者类别对应的网络模型,每个网络模型包含的层级与整体架构通过训练的方式进行确定,而为了获取更好的特征表达能力以取得更好的分类精度,尤其是针对分类精度要求更高的领域,往往需要针对同一领域或类别的图像分别获得更多相同或者同类的原始图像数据作为训练数据,以增加网络深度、扩大网络规模,通过更多训练数据来将网络模型的各个层级的架构分别基于前一层级的架构确定后再进行搭建,从而网络模型训练方式复杂,且训练得到的网络模型对图像的分类精度不够稳定。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种训练方式简单、且可提高分类精度稳定性的图像分类方法、装置以及计算机可读存储介质。
为达到上述目的,本发明实施例的技术方案是这样实现的:
一种图像分类方法,包括:获得原始图像、以及所述原始图像中所包括的对象的类别;调整所述原始图像的显示参数满足取值条件;根据所述显示参数的分布需要满足的分布条件,对所述原始图像的所述显示参数进行变换获得新图像;基于调整后的原始图像和所述新图像进行组合构造的训练集、以及所包括对象的类别,训练神经网络模型;基于训练后的所述神经网络模型,将待预测图像和标注有对象的类别的参考图像输入所述神经网络模型,判断所述待预测图像中所包括对象的类别。
一种图像分类装置,包括:获取模块,用于获得原始图像、以及所述原始图像中所包括的对象的类别;调整模块,用于调整所述原始图像的显示参数满足取值条件;变换模块,用于根据所述显示参数的分布需要满足的分布条件,对所述原始图像的所述显示参数进行变换获得新图像;训练模块,用于基于调整后的原始图像和所述新图像进行组合构造的训练集、以及所包括对象的类别,训练神经网络模型;预测模块,用于基于训练后的所述神经网络模型,将待预测图像和标注有对象的类别的参考图像输入所述神经网络模型,判断所述待预测图像中所包括对象的类别。
一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现本发明任一实施例所提供的图像分类方法。
本发明实施例中,通过获取原始图像、以及所述原始图像中所包括的对象的类别,调整原始图像的显示参数满足取值条件获得调整后的原始图像,根据显示参数的分布需要满足的分布条件对原始图像的显示参数进行变换获得新图像,获取的新图像的数量可以通过显示参数的分布需要满足的分布条件而进行调整,从而可以基于调整后的原始图像和新图像进行组合,通过进行组合可以构造呈倍数增加的训练样本,从而构造更多有效的用于训练神经网络模型的训练集,针对同一领域或类别的原始图像的数量较少的情况下也能够获得稳定的分类精度;基于调整后的原始图像和新图像构造的训练集、以及所包括对象的类别,训练神经网络模型是可以已知的神经网络模型为基础进行训练,通过训练更新神经网络模型的权重,得到训练后的神经网络模型进行预测,从而训练方式更加简单。
附图说明
图1为本发明一实施例中图像分类方法的应用场景示意图;
图2为本发明一实施例中图像分类方法的流程图;
图3为本发明一实施例中BP神经网络的神经元模型示意图;
图4为本发明一实施例中BP神经网络模型的示意图;
图5为本发明一实施例中卷积神经网络的卷积层操作示意图;
图6为本发明一实施例中卷积神经网络的池化层示意图;
图7为本发明一具体实施例中图像分类方法的流程图;
图8为图7所示实施例中神经网络模型的结构示意图;
图9为本发明另一具体实施例中图像分类方法的流程图;
图10为本发明一实施例中图像分类装置的硬件结构示意图;
图11为本发明另一实施例中图像分类装置的结构示意图。
具体实施方式
以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
对本发明进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)对象,本文中指用于进行分类的对象,如人和物体等。
2)样本图像,即包括有对象的成像的图像,例如JPEG等各种数字格式的图像。
3)图像锐化(也称为图像增强),通过各种手段提升样本图像中对象的成像特性,扩大样本图像中对象的成像区域与其他区域的区别度。
4)损失函数(loss function)也叫代价函数(cost function),是神经网络优化的目标函数。
5)神经网络(Neural Networks,NN),是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。
本发明实施例提供图像分类方法、实施图像分类方法的图像分类装置、以及存储用于实现图像分类方法的可执行程序的存储介质。就图像分类方法的实施而言,本发明实施例提供终端侧和服务器侧实施的方案,将对图像分类的示例性实施场景进行说明。
如图1所示,为实现本发明实施例提供的图像分类方法的图像分类应用对待预测图像在服务器进行类别判断的一个可选的应用场景示意图,用户通过在终端中安装图像分类应用客户端,于图像分类应用中输入待预测图像,可以获得服务器对该待预测图像进行特征提取、对标注有对象的类别的参考图像进行特征提取、根据所提取的特征对该待预测图像进行类别判断后的分类结果。其中,图像分类应用可以是针对不同图像所包含的对象,通过神经网络训练确定神经网络模型,从而得到的分别针对不同图像所包含的对象进行识别以确定类别的图像分类应用,标注有对象的类别的参考图像则可以是进行神经网络训练的训练集中图像。以图像所包含的对象为人脸为例,图像分类应用是指针对待预测图像中所包含的人脸的预设部位(眼睛或其它部位)或者整体特征(组成脸部的全部特征)进行识别以确定类别的图像分类应用。类别是指针对图像中包含的对应的对象进行分类的维度,该分类的维度可以是对象在外观上所呈现的外在特性,以眼部为例,如丹凤眼、三角眼等;也可以是对象的外观所隐含的内在特性,仍以眼部为例,如性格、年龄、疾病等。
以原始图像为眼部图像、原始图像中所包含的对象为眼睛、以及对象的类别为丹凤眼、三角眼、柳叶眼、狐狸眼和杏眼五种类别为例,用户在终端中安装图像分类应用客户端,图像分类应用中输入待预测眼部图像,服务器获取该待预测眼部图像,提取该待预测眼部图像中眼睛的形状特征、确定训练神经网络模型的训练集中图像作为参考图像并提取参考图像中眼睛的形状特征,根据提取的形状特征与训练神经网络模型时进行类别确定时对应的形状特征的相似度,从而确定该待预测眼部图像中眼睛的类别为丹凤眼、三角眼、柳叶眼、狐狸眼或者杏眼,并发送给终端。
以原始图像为眼底图像、原始图像中所包含的对象为眼睛眼球、以及对象的类别为正常、早期、进展期(中期)、晚期四种类别为例,用户在终端中安装图像分类应用客户端,通过图像分类应用输入待预测眼底图像,服务器获取该待预测眼底图像,提取该待预测眼底图像中眼球的结构特征,确定训练神经网络模型的训练集中图像作为参考图像并提取参考图像中眼球的结构特征,根据所提取的结构特征与训练神经网络模型时进行类别确定时对应的结构特征的相似度,从而确定该待预测眼底图像中眼睛的类别为正常、早期、进展期(中期)或晚期,并发送给终端。
上述应用场景的描述均是以原始图像为人体局部位置眼睛的图像为例,然而并不局限于此,其它领域或者类别的图像也可以采用采用本发明实施例的图像分类方法,实现训练神经网络模型和预测图像所包括对象的类别。
请参阅图2,为本发明实施例提供的图像分类方法的一个可选的流程示意图,将分别对各个步骤进行说明。
步骤101,获得原始图像、以及所述原始图像中所包括的对象的类别。
原始图像是指针对需要确定类别的目标物体所拍摄或者绘制的图片。对象是指需要确定类别的目标物体。对象的类别是指需要对目标物体进行分类的维度。原始图像中所包含对象的类别可以根据对目标物体分类的需求而预先确定。在一个具体的实施方式中,原始图像可以是基于互联网中当前已公开的图像库中收集得到,并根据预先确定的类别对原始图像中所包含的对象的类别予以明确。
步骤103,调整所述原始图像的显示参数满足取值条件。
图像的显示参数是指图像所携带的可以用于调整图像的显示效果的数值信息。通常显示参数包括分辨率、尺寸和颜色,在本实施例中,图像的显示参数主要包括图像的方向、尺寸、亮度、对比度、长宽比例、分辨率、颜色等。取值条件是指针对对应的显示参数而分别预设的数值范围。通过调整原始图像的显示参数满足相应的预设的数值范围,用于提高用于训练神经网络模型的图像质量,加快训练速度和提高准确率。
步骤105,根据显示参数的分布需要满足的分布条件,对所述原始图像的显示参数进行变换获得新图像。
显示参数是指图像所携带的可以用于调整图像的显示效果的数值信息,主要包括图像的方向、尺寸、亮度、对比度、长宽比例、分辨率、颜色等。分布条件是指针对不同的显示参数预先设置的需要满足的条件,如平均分布、随机分布和高斯分布等。根据显示参数的分布需要满足的分布条件,对原始图像进行实时的变换而获得更多的新图像,实现数据扩增,增加用于训练神经网络模型的训练数据。
步骤107,基于调整后的原始图像和新图像进行组合构造的训练集、以及所包括对象的类别,训练神经网络模型。
基于调整后的原始图像和新图像进行组合构建训练集,可以是基于调整后的原始图像为样本图像进行组合构造多批次的训练集,也可以是基于新图像为样本图像进行组合构建多批次的训练集,还可以是基于调整后的原始图像和新图像共同作为样本图像进行组合构造多批次的训练集。基于调整后的原始图像和新图像进行组合构造训练集,针对能够获取到标注有对象的类别的原始图像数量非常少的情况下,也可以获得足够数量的有效的训练集来训练神经网络模型,从而避免神经网络训练出现的过拟合问题,获得更好的训练精度。以进行两两组合构造训练集为例,在一个实施例中,步骤107,所述基于调整后的原始图像和所述新图像进行组合构造的训练集、以及所包括的对象的类型,训练神经网络模型之前,还包括:基于调整后的原始图像和所述新图像进行两两组合构造训练集。当调整后的原始图像和所述新图像的总数量为N时,通过两两组合构造训练集,则形成训练集的样本数据的数量扩增为N*(N-1),从而极大的增加了训练数据量。将不同批次的进行组合构造训练集分别输入神经网络模型进行训练,形成多次迭代,针对同一次迭代而言,所采用的训练集可以使用均采用原始图像进行组合所形成的训练集、或者使用均采用新图像进行组合所形成的训练集,从而在一次迭代中,所采用的训练集中的数据分别是经过基本相同的处理,可以避免因图像处理不同而带来训练误差,提升神经网络模型的训练精度。针对不同次的迭代而言,所分别采用的训练集则可以分别选择均采用原始图像进行组合所形成的训练集和均采用新图像进行组合所形成的训练集中的任意一种。
其中,神经网络模型可以是基于已知的图像数据集预训练得到的神经网络模型,该神经网络模型可以是BP神经网络模型、卷积神经网络模型或者其变形。
BP神经网络的基本组成单元是神经元,如图3所示,为一典型的神经元模型的示意图,其中,x1、x2…xm表示输入,ω1、ω2、ωm表示突触权值,∑表示求和节点,f(.)表示激活函数,y表示输出、如图4所示,为将多个神经元根据一定规则连接而形成的神经网络模型的示意图,n对应为输入层,n1~ns对应为中间层,m对应为输出层。从图3及图4可知,BP神经网络模型主要包括输入层、隐含层(中间层)和输出层。输入层神经元个数与输入数据的维数相同,输出层神经元个数与需要拟合的数据个数相同,隐含层神经元个数与层数根据实际训练目标来设定。
卷积神经网络是基于生物自然视觉认知机制启发设计而成的深度学习架构,主要包括卷积层、池化层、全连接层。其中,卷积层是指完成图像卷积操作的层,卷积操作是指用一个卷积核与图像对应区域进行卷积得到一个值,然后不断的移动卷积核和求卷积,以完成对整个图像的卷积。卷积神经网络中,卷积层的计算通常涉及卷积操作概念之外,还包括深度和步长概念,其中深度决定同一区域的神经元个数,即几个卷积核对同一区域进行卷积操作,步长是指卷积核移动像素的个数,如图5所示,为以输入层的高度和宽度是7*7,深度是3,两个过滤器Filter,每个Filter的高度和宽度分别是3*3,深度是3,卷积核大小为3*3为例,说明卷积层的卷积操作示意图,最左边的输入层(Input Volume)和第一个过滤器(Filter W0)进行计算,输入层的第一层和Filter W0的第一层进行运算,输入层的第二层和Filter W0的第二层进行运算,输入层的第三层和Filter W0的第三层进行运算,最后三层结果累加起来,获得了输出层(Output Volume)的第一个结果矩阵;依次类推,最左边的Input Volume和第二个过滤器(Filter W1)进行计算,获得了Output Volume的第二个结果矩阵。池化层位于卷积层之间,用于将上一层输入数据的预设块区域压缩成一个值,从而逐步压缩减少数据和卷积参数的数量,减少过拟合现象。
如图6所示,为池化层操作示意图,其中,池化层采用2*2区域中最大值来代表整个区域。全连接层主要用于学习,将学到的训练集中分布式特征表示映射到样本标记空间,以得到神经网络模型的权重。
训练神经网络模型主要包括加载训练集和训练模型参数。加载训练集,即将基于调整后的原始图像和新图像构造的训练集、以及所包括对象的类别输入初始的神经网络模型进行迭代训练,通过前向传导、利用标注信息和代价函数来计算代价、通过反向传播代价函数梯度更新每一层中的参数,以调整初始的神经网络模型的权重,直至所述神经网络模型的损失函数满足收敛条件,得到训练后的神经网络模型。
步骤109,基于训练后的所述神经网络模型,将待预测图像和标注有对象的类别的参考图像输入所述神经网络模型,判断待预测图像中所包括对象的类别。
将待预测图像和标注有对象的类别的参考图像输入训练后的神经网络模型,即,将待预测图像和标注有对象的类别的参考图像进行组合作为神经网络模型的输入。其中,标注有对象的类别的参考图像可以为训练集中图像,具体可以是原始图像或者新图像。通过神经网络模型抓取待预测图像中所包含对应的特征、以及参考图像中所包含的对应的特征,通过所提取的特征与模型训练过程中对应不同类别的图像映射到样本标记空间的特征的相似度,判断待预测图像中所包含的对象为相应类别的概率,从而确定该待预测图像中所包含的对象的类别。
本发明实施例所提供的图像分类方法,通过获取原始图像、以及所述原始图像中所包括的对象的类别,调整原始图像的显示参数满足取值条件获得调整后的原始图像,根据显示参数的分布需要满足的分布条件对原始图像的显示参数进行变换获得新图像,再基于调整后的原始图像和新图像进行组合构造训练集,从而可以构造样本数量呈倍数增加的、更多有效的用于训练神经网络模型的训练集,针对同一领域或类别专业标注有对象类别的原始图像的数量非常少的情况下,也能够获得稳定的分类精度;基于调整后的原始图像和新图像进行组合构造的训练集、以及所包括对象的类别进行训练时,可以已知的神经网络模型为基础进行训练,更新权重后得到训练后的神经网络模型来对待预测图像进行预测,训练方式更加简单。
在另一个实施方式中,步骤103,调整所述原始图像的显示参数满足取值条件,包括:检测所述原始图像中所包括对象的成像区域;调整所述原始图像的尺寸,直至所述原始图像所包括对象的成像区域的尺寸一致。
以尺寸作为原始图像的显示参数,并以对象的成像区域的尺寸作为取值条件。将原始图像的尺寸调整至所包含的对象的成像区域的尺寸一致,从而使得原始图像中所包含的对象的尺寸一致。以原始图像为眼底图片、原始图像中所包含的对象为眼球为例,对象的成像区域是指眼球的成像区域,通过调整原始眼底图片的尺寸,使得不同原始眼底图片中的眼球具有相同的尺寸,如300像素(pixels)。调整使得原始图像的尺寸使得对象的成像区域的尺寸一致,便于统一原始图片中所包含的对象的尺寸,避免后续训练神经网络模型由于对象尺寸太小而影响训练精度、且避免由于对象尺寸不同而造成训练误差。
在又一个实施方式中,步骤103,调整所述原始图像的显示参数满足取值条件,包括:基于所述原始图像需要满足的识别度,对所述原始图像的各个颜色通道进行图像增强处理。
图像增强是指增强图像中的有用信息以改善图像的视觉效果。颜色通道是指保存图像颜色信息的通道。每个图像都有一个或者多个颜色通道,每个颜色通道用于存放图像中颜色元素的信息,所有颜色通道中颜色叠加混合产生图像中像素的颜色。识别度是指图像的清晰可辨识程度。其中,图像增强手段可以包括如下几种方式:第一,对比度拉升,采用了线性函数对图像的灰度值进行变换;第二,Gamma校正,采用了非线性函数(指数函数)对图像的灰度值进行变换;第三,直方图均衡化,将原始图像的直方图通过积分概率密度函数转化为概率密度为1(理想情况)的图像,提高对比度,通过直方图均衡化实现特定区域的展宽,使得整个图像向亮的区域变换;第四,直方图规定化,针对直方图均衡化的结果,将原始图像的直方图转化为规定的直方图的形式,目标图像的直方图的确定需要参考原始图像的直方图,并利用多高斯函数得到;第五,同态滤波器,图像的灰度图像f(x,y)可以看做为入射光分量i(x,y)和反射光分量r(x,y)两部分组成:f(x,y)=i(x,y)*r(x,y),入射光比较的均匀,随着空间位置变化比较小,占据低频分量段,反射光由于物体性质和结构特点不同从而反射强弱很不相同的光,随着空间位置的变化比较的剧烈,占据着高频分量,基于图像是由光照谱和反射谱结合而成的原理设计的;第六,基于HSV空间的彩色图像增强方法,将RGB图像转化为其他空间的图像,如将RGB空间的图像转换为HSV空间的图像,其中HSV分别指色调,饱和度,亮度,通过调整HSV三个不同的量而进行增强。
通过上述第一至第三种方式,可以对感兴趣的图像区域,即需要提取特征的对象成像区域进行展宽,对不感兴趣的区域,即不需要提取特征的背景区域进行压缩,达到图像增强的效果。通过上述第一至第五种方式,适用于对灰度图像进行图像增强处理,通过第六种方式,适用于对彩色图像进行图像增强处理。
本发明实施例中,以颜色通道作为图像的显示参数、并以需要满足的预设的识别度作为取值条件,对原始图像的各个颜色通道采用图像增强方式进行增强处理,从而强调图像的整体或者局部特征,将原来不清晰的图像变得清晰并强调出需要提取的特征,扩大图像中不同特征之间的差别。其中,对原始图像的各个颜色通道采用图像增强方式进行增强处理中,图像增强方式可以根据需要选择上述第一至第六种图像增强手段中的其中之一或者多个进行结合。如,在一个具体的实施例中,以原始图像为眼底图像为例,为了突出眼底图像中视盘视杯比,所述基于所述原始图像需要满足的识别度,对所述原始图像的各个颜色通道进行图像增强处理,包括:针对原始图像中每个像素的每个颜色通道进行S1~S2步骤的处理:S1,将每个像素的每个颜色通道的颜色值乘以预设值;S2,将每个像素加上预设比例的灰度值。通过获取每个像素的每个颜色通道的颜色值与预设像素区域范围内的差值,并乘以预设值,可以增加所述像素间的区别度,加快所述图像用于训练神经网络模型时的训练速度。其中,预设值的取值范围可以是[1-8],优选为3,预设比例的灰度值取值可以是取值58%~59%,具体为150。通过所述S1~S2步骤,对所述原始图像的各个颜色通道进行图像增强处理,可以抑制不需要提取的特征,使得改善图像质量、丰富信息量、加强原始图像的判读和识别效果。
在再一个实施例中,所述步骤103,调整所述原始图像的显示参数满足取值条件,包括:对所述原始的图像中对象的未成像区域进行裁剪;调整裁剪后的图像符合预设尺寸。
裁剪是指从整体中获取所需要局部的动作。以尺寸作为原始图像的显示参数,并以图像整体尺寸符合预设尺寸作为取值条件,将原始图像的未成像区域进行裁剪,使得原始图像的尺寸与预设尺寸一致。以原始图像为眼底图片、原始图像中所包含的对象为眼球为例,对象的成像区域是指眼球的成像区域,通过以眼球为中心将原始眼底图片中包含在眼球之外的未成像区域进行裁剪,从而调整裁剪后的原始眼底图片的整体尺寸与预设尺寸一致,便于统一原始图像的中所包含的对象成像区域的尺寸,减少原始图像中的无信息区域的面积,提高所述原始图像用于训练神经网络模型时的训练速度和精度。以原始图像为眼底图片、原始图像中所包含的对象为视盘视杯部位为例,对象的成像区域是指眼球的视盘视杯成像部位,通过以视盘视杯为中心进行裁剪,使得裁剪后的原始眼底图片中视盘视杯部位的尺寸与预设尺寸一致。
在另一个实施例中,步骤105,根据显示参数的分布需要满足的分布条件,对所述原始图像的显示参数进行变换获得新图像,包括:根据所述图像的至少一种类别的显示参数所处的取值空间、以及在所述取值空间所满足的分布条件,确定根据所述原始图像的显示参数相较于所述分布条件所缺失的显示参数;将所述原始图像的显示参数向所述缺失的显示参数进行变换得到新图像。
图像的至少一种类别的显示参数可以是指图像的方向、尺寸、亮度、对比度、长宽比例、分辨率、以及颜色中的至少一种。取值空间是指与不同类别的显示参数对应的取值范围,通过针对不同类别的显示参数设置取值空间,将图像以不同显示参数的取值空间及分布条件设置图像变换条件,从而获得更多可用于训练神经网络模型的新图像。
以显示参数的类别为图像的方向,对应的取值空间为水平翻转或90度翻转,分布条件为平均分布为例,步骤105,根据显示参数的分布需要满足的分布条件,对所述原始图像的显示参数进行变换获得新图像,具体包括:根据一轮训练数据中包含的原始图像的方向以平均分布作为分布条件,将所述原始图像以百分之五十的概率进行水平翻转或90度翻转,得到新图像形成新的一轮或者多轮训练数据。
以显示参数的类别为图像的长宽比例,对应的取值空间为对长或宽的裁剪比例范围,分布条件为随机分布为例,步骤105,根据显示参数的分布需要满足的分布条件,对所述原始图像的显示参数进行变换获得新图像,包括:根据一轮训练数据中包含的原始图像的长宽比例的裁剪比例范围以随机分布作为分布条件,将所述原始图像的长或宽以符合所述裁剪比例范围内的任意比例进行随机裁剪,得到新图像形成新的一轮或者多轮训练数据。具体可以是将所述原始图像的长和宽分别以初始长度和宽度为基础,随机裁剪0%~15%。
以显示参数的类别为图像的亮度,对应的取值空间为图像的亮度增减值范围,分布条件为随机分布为例,步骤105,根据显示参数的分布需要满足的分布条件,对所述原始图像的显示参数进行变换获得新图像,具体包括:根据一轮训练数据中包含的原始图像的亮度调整的亮度增减值范围以随机分布作为分布条件,将所述原始图像的亮度以符合所述亮度增减值范围内的亮度值进行随机增加,得到新图像形成新的一轮或者多轮训练数据。具体可以是将所述原始图像的亮度加上亮度增减值范围内的任意亮度值,该亮度增减值范围为负10至10坎德拉/平方米(cd/m2)之间。
以显示参数的类别为图像的亮度,对应的取值空间为图像的亮度增减比例范围,分布条件为随机分布为例,步骤105,根据显示参数的分布需要满足的分布条件,对所述原始图像的显示参数进行变换获得新图像,具体包括:根据一轮训练数据中包含的原始图像的亮度增减比例范围以随机分布作为分布条件,将所述原始图像的亮度以符合所述亮度增减比例范围内的比例进行随机增加,得到新图像形成新的一轮或者多轮训练数据。具体可以是将所述原始图像的亮度调整为初始亮度的75%~125%。
以显示参数的类别为图像的对比度,对应的取值空间为图像的对比度增减比例范围,分布条件为随机分布为例,步骤105,根据显示参数的分布需要满足的分布条件,对所述原始图像的显示参数进行变换获得新图像,包括:根据一轮训练数据中包含的原始图像的对比度增减比例范围以随机分布作为分布条件,将所述原始图像的亮度以符合所述对比度增减比例范围内的比例进行随机增加,得到新图像形成新的一轮或者多轮训练数据。具体可以是将所述原始图像的对比度调整为初始对比度的75%~125%。
以显示参数的类别为图像的尺寸,对应的取值空间可以为图像的缩放比例范围,分布条件为随机分布为例,步骤105,根据显示参数的分布需要满足的分布条件,对所述原始图像的显示参数进行变换获得新图像,具体包括:根据一轮训练数据中包含的原始图像的缩放比例范围以随机分布作为分布条件,将所述原始图像以符合所述缩放比例范围内的比例进行随机增加,得到新图像形成新的一轮或者多轮训练数据。具体可以是将所述原始图像的缩放为原始大小的90%~110%。
以显示参数的类别为图像的方向,对应的取值空间为图像方向的旋转方向范围,分布条件为随机分布为例,步骤105,根据显示参数的分布需要满足的分布条件,对所述原始图像的显示参数进行变换获得新图像,具体包括:根据一轮训练数据中包含的原始图像进行旋转的旋转方向范围以随机分布作为分布条件,将所述原始图像以符合所述旋转方向范围内的比例进行随机增加,得到新图像得到新的一轮或者多轮训练数据。具体可以是将所述原始图像的方向以初始方向为基础,随机以旋转方向范围内任意角度进行旋转,该旋转方向范围为负180度至180度之间。
可以理解的,根据显示参数的分布需要满足的分布条件,对原始图像的显示参数进行变换获得新图像的步骤,显示参数的类别并不局限于上述实施例给出的类别,且对原始图像进行变换获得新图像时候,可以采用上述实施例中对图像进行变换的技术手段的其中之一或者多个的组合,针对每一轮训练数据随机进行以下任意一种扩增操作:1、将所述训练图像以预设概率值进行水平翻转;2、随机将所述原始图像的宽和高基于第一比例范围值进行裁剪;3、随机将所述原始图像的亮度基于第二范围值进行加减运算;4、随机将所述原始图像的亮度基于第三比例范围值进行乘除运算;5、随机将所述原始图像的对比度基于第四比例范围值进行乘除运算;6、随机将所述原始图像的宽和高基于第五比例范围值进行缩放处理;7、随机将所述原始图像基于第六比例范围值进行旋转;通过对每一轮训练数据进行实时数据扩增操作,从而获得更多用于训练神经网络模型的更多轮有效的训练数据。
在一个实施例中,所述训练神经网络模型,包括:初始化神经网络模型;初始化与所述神经网络模型顺序连接的距离计算层、全连接层、以及分类层,得到用于对所述待预测图像分类的组合神经网络模型,将所述训练集包括的图像以及对应的类别输入所述神经网络模型进行迭代训练,直至所述神经网络模型的损失函数满足收敛条件。
初始化神经网络模型是指初始化任意已有的神经网络模型的参数,以搭建初始的神经网络模型;并根据基于调整后的原始图像和新图像进行组合构造训练集来训练神经网络模型,初始化与神经网络模型顺序连接的距离计算层、全连接层、以及分类层,以搭建初始的组合神经网络模型。初始化神经网络模型的参数主要包括初始化神经网络模型中层与层之间的连接参数,即神经网络中边的权重。可选的,初始化神经网络模型的参数还可以包括初始化神经网络模型中的迭代次数、批处理大小、学习率、神经网络层数等。
本发明实施例中,初始的神经网络模型可以是基于预训练好的图像数据集上预训练的神经网络模型,如基于预训练好的ImageNet、resNet,VGG,DenseNet等图像数据集上预训练得到的Inception V1、Inception V2、Inception V3、Inception V4等卷积神经网络模型,当然,该初始化神经网络模型中所采用的初始的神经网络模型并不局限于此,而也可以是基于预训练好的其它图像数据集上预训练的任意已有的神经网络模型,通过利用基于预训练好的图像数据集上预训练的神经网络模型的参数搭建初始的神经网络模型。
初始的组合神经网络模型是以初始的神经网络模型而搭建,具体通过与初始的神经网络模型顺序连接距离计算层、全连接层、以及分类层以搭建初始的组合神经网络模型。距离计算层是指神经网络模型中用于对不同图像的特征进行距离度量(DistanceMeasure)的层。距离计算层采用设置的距离度量法计算所提取的不同图像的特征之间的距离可以评估特征的相关程度。其中,主要的距离度量法包括L1distance(Manhattandistance,曼哈顿距离)、L2distance(Euclidean distance,欧几里得度量)、L∞distance(Chebyshev Distance,切比雪夫距离)等,以Xik表示第K个第一特征、Xjk表示第K个第二特征,dij表示第一特征与第二特征之间的距离,n表示特征的数量,则L1distance的计算公式为:L2distance的计算公式为:L∞distance的计算公式为:需要说明的是,本申请实施例中所提供的神经网络模型中的距离计算层所采用的距离度量法并不限于上述方式,任意已有的用于计算不同图像的特征之间距离的其它距离度量法均可以采用。全连接层用于与距离计算层中所有结点相连,将距离计算层输出的距离向量特征进行综合,并进行降维处理。分类层是指基于所提取特征的距离计算结果,确定相应待预测图像所提取特征与标注有类别的参考图像所提取特征的相似度而确定类别的层。可以理解的,分类层所使用的激励函数而实现分类的数量与训练初始的组合神经网络模型的训练集中输入的数量对应,也就是说,与基于调整后的原始图像和新图像进行组合构造训练集时的组合方式对应,本实施例中,以进行两两组合构造训练集为例,相应形成用于训练初始的组合神经网络模型的训练集中输入为二,则分类层是指使用的激励函数为sigmoid函数以实现二分类的层。
将训练集包括的图像以及对应的类别输入所述初始的组合神经网络模型进行迭代训练,直至所述组合神经网络模型的损失函数满足收敛条件,得到用于对所述待预测图像分类的最终的组合神经网络模型。其中,在得到组合神经网络模型的实施方式中,初始化与所述初始的神经网络模型顺序连接的距离计算层、全连接层、以及分类层,得到用于对所述待预测图像分类的初始的组合神经网络模型,具体包括:将初始的神经网络模型的平均池化层依次连接距离计算层、全连接层、以及分类层搭建初始的组合神经网络模型。
训练神经网络模型的过程中,在初始化神经网络模型之后,主要还包括加载训练集和训练模型参数。加载训练集,即将调整后的原始图像和新图像进行组合构造的训练集、以及所包括对象的类别输入初始的组合神经网络模型进行迭代训练,通过前向传导、利用标注信息和代价函数来计算代价、通过反向传播代价函数梯度更新每一层中的参数,以调整该初始的组合神经网络模型的权重,直至所述神经网络模型的损失函数满足收敛条件,得到最终的组合神经网络模型。初始的神经网络模型是指基于预训练好的图像数据集上预训练的神经网络模型;该初始的组合神经网络模型,是指根据调整后的原始图像和新图像进行组合构造的训练集所形成的输入的数量、以及初始的组合神经网络模型而构造的进行训练之前的神经网络模型;最终的组合神经网络模型是指训练之后的神经网络模型。如此,通过利用基于预训练好的图像数据集预训练的神经网络模型为基础,通过基于预训练好的图像数据集预训练的神经网络模型的中间层提取待预测图像的特征的特性,构造用于对待预测图像进行分类的组合神经网络模型,可以大大简化神经网络模型的搭建,训练方式更加简单,且便于快速获得稳定的分类精度。
在另一个实施例中,图像分类方法还包括:根据交叉熵(Cross-Entropy)代价函数得到神经网络模型的损失函数。
损失函数(Loss Function)也叫代价函数(Cost Function),是神经网络优化的目标函数,神经网络训练或者优化的过程就是最小化损失函数的过程,损失函数值越小,对应预测的结果和真实结果的值就越接近。在一个具体的实施例中,根据交叉熵(Cross-Entropy)代价函数形成神经网络模型的损失函数,当实际输出值与期望输出值越接近,则代价函数越接近于零,当采用sigmoid函数作为神经元的激活函数时,采用交叉熵代价函数作为神经网络模型的损失函数,可以提高训练速度。
在一个实施例中,步骤109,所述基于训练后的所述神经网络模型,将待预测图像和标注有对象的类别的参考图像输入所述神经网络模型,判断所述待预测图像中所包括对象的类别,包括:
在组合神经网络模型中,利用所述组合神经网络模型提取待预测图像的图像特征、以及标注有对象的类别的参考图像的图像特征,所述参考图像为所述训练集中图像;
确定所述待预测图像的图像特征、与所述参考图像的图像特征的距离向量,将所述距离向量进行降采样处理;
将降采样处理后的距离向量映射到特定取值空间,得到所述待预测图像属于所述参考图像所标注的所述对象的类别的概率。
标注有对象的类别的参考图像是指图像中包含的对象与待预测图像中所包含的对象相同、且标注所包含的对应的类别的图像。在一个实施例中,参考图像是指训练神经网络模型时所采用的训练集中的图像,具体可以是本申请实施例中的调整后的原始图像或新图像。可以理解的,该参考图像也是可以符合上述要求的其它图像,如基于预训练的图像数据集中新增的标注有对应的类别的图像。针对组合神经网络模型而言,通过预训练好的图像数据集预训练的神经网络模型提取图像特征,具体为提取待预测图像的图像特征以及标注有对象的类别的参考图像的图像特征,通过距离计算层计算待预测图像和参考图像的图像特征之间的距离得到距离向量,并通过全连接层对提取的图像特征所得到的距离向量进行降采样处理,将降采样后的特征,即降维后距离向量输入采用激励函数为sigmoid函数的分类层,通过分类层将距离向量映射到特定取值空间(0,1),得到所述待预测图像属于所述参考图像所标注的所述对象的类别的概率,从而获得待预测图像的分类结果。
请参阅图7,以原始图像为眼底图像、以基于预训练好的图像数据集ImageNet预训练的InceptionV3为初始的神经网络模型,构建和训练组合神经网络模型为例,对本发明实施例提供的图像分类方法进行说明如下:
S11、获得原始眼底图像,以及原始眼底图像中所包含的对象的类别;作为一种可选的方案,该对象的类别包括可辅助识别眼球的视网膜病变不同程度特征的四种类别,包括:正常,早期、进展期(中期)、以及晚期。
S12,调整原始眼底图像的显示参数满足取值条件,获得调整后的原始眼底图像;作为一种可选的方案,调整原始眼底图像的显示参数满足取值条件包括对原始眼底图像进行缩放,使得原始眼底图像中的眼球具有相同的半径,如300pixels;对原始眼底图像中的每个像素的每个通道减去预设像素区域范围内的预设像素值,将每个像素值乘以预设固定值,再将每个像素值加上预设比例的灰度值;对原始眼底图像的未成像的无信息区域进行裁剪;将原始眼底图像缩放到预设大小,如宽为299pixels,高为299pixels;如此,可以突出原始图像中的预设成像结构的部位,如原始眼底图像的血管和出血点的部位。作为另一种可选的方案,调整原始眼底图像的显示参数满足取值条件包括对原始眼底图像进行缩放,使得原始眼底图像具有相同的尺寸,如宽为589pixels,高为589pixels;检测原始眼底图像中视盘视杯所在区域,以视盘视杯的中心为中心进行裁剪,将原始眼底图像的未成像的无信息区域进行裁剪后至合适大小,如宽为299pixels,高为299pixels;再对图像进行增强处理,对原始眼底图像中的每个像素的每个通道减去预设像素区域范围内的预设像素值,将每个像素值乘以预设固定值,再将每个像素值加上预设比例的灰度值,如对原始眼底图像中的每个像素的每个通道进行如下处理:g(i,j)=α*f(i,j)+β,其中i,j为像素点的位置,f(i,j)为处理前像素点的值,g(i,j)为处理后像素点的值,α,β分别为预设参数值,如α取值为3,β取值为150;如此,可以突出原始图像的不同预设成像结构的对比度,如原始眼底图像的视盘视杯比。
S13,根据显示参数的分布需要满足的分布条件,对原始眼底图像的显示参数进行变换获得新眼底图像。作为一种可选的方案,根据显示参数的分布需要满足的分布条件,对原始眼底图像的显示参数进行变换的方式包括如下至少一种:将原始眼底图像或新眼底图像以预设概率值进行水平翻转;随机将原始眼底图像的宽和高基于第一比例范围值进行裁剪;随机将原始眼底图像的亮度基于第二范围值进行加减运算;随机将原始眼底图像的亮度基于第三比例范围值进行乘除运算;随机将原始眼底图像的对比度基于第四比例范围值进行乘除运算;随机将原始眼底图像的宽和高基于第五比例范围值进行缩放处理;随机将原始眼底图像基于第六比例范围值进行旋转。
S14,以基于ImageNet上训练好的InceptionV3中的平均池化层依次连接距离计算层、全连接层以及采用sigmoid函数的分类层,搭建初始的神经网络模型,如图8所示,该初始的神经网络模型为组合神经网络模型。根据本发明前述实施例的描述可知,InceptionV3可以由其它任意已有的神经网络模型所替代,通过采用任意已有的神经网络模型与距离计算层、全连接层和分类层连接形成组合神经网络模型,利用任意已有的神经网络模型提取图像特征搭建训练前的神经网络模型的方式,可以在确保分类精度的前提下大大简化神经网络模型的搭建。
S15,基于调整后的原始眼底图像和新眼底图像进行组合构造的训练集、以及所包括对象的类别,训练神经网络模型。作为一种可选的方案,基于调整后的原始眼底图像和新眼底图像进行两两组合构造的不同批次的训练集,输入初始的神经网络模型进行训练,多次迭代直至所述神经网络模型的损失函数满足收敛条件,以获得训练后的神经网络模型。
S16,将待预测的眼底图像与标注有对象的类别的参考图像输入训练后的神经网络模型,判断该待预测图像的类别;作为一种可选的方案,该组合神经网络模型通过InceptionV3分别接收待预测的眼底图像与标注有对象的类别的参考图像作为输入,通过InceptionV3的中间层提取图像特征,由平均池化层产生两个相同维数,如2048维的特征向量。通过距离计算层计算两个相同维数的特征向量之间的距离得到距离向量,如2048维的距离向量。通过全连接层进行降采样得到降维后的距离向量,如512维的距离向量。降维后的距离向量输入激励函数为sigmoid函数的分类层,通过分类层将距离向量映射到特定取值空间(0,1),得到待预测图像属于所述参考图像所标注的所述对象的类别的概率,从而得到对应的分类结果。参考图像可以分别是标注有正常,早期、进展期(中期)、以及晚期四种类别的图像,从而可以得到待预测图像的类别的判断结果为正常,早期、进展期(中期)、或晚期。
上述图像分类方法中,原始图像均是以眼底图像为例进行说明,由于眼睛是人体最重要的器官之一,人从外界获取的信息主要是通过眼睛来实现的,一旦发生眼疾,轻则影响视力,重则致盲致残。视力的缺损势必让患者的生活质量大打折扣。隐匿性眼病如青光眼、糖尿病视网膜病变等在早期无视力改变的症状,而眼底照相是早期发现隐匿性眼病的有效方法。眼底照相是近年来用得比较多的眼底检查,就是利用特殊的一起如数码相机,和眼底镜连接,将眼底的图像在计算机设备上显示,可以打印下来保存在病历,还可以再治疗前后做个对比。它能够客观的记录眼底视网膜形态学变化,具有较好的客观性、重复性和可对比性。目前,用眼底图像进行眼底筛查,是由读片中心的眼科专家对眼底图像进行读片分级,可以使患者得到早期的治疗,延缓病情进展,实现从疾病治疗到疾病预防的转变。但是,采用眼底照相技术的眼底筛查项目通常会产生大量需要分级的眼底照片,其中,大部分眼底照片是正常,这种情况将导致眼科专家的大部分的分级工作时间消耗在没有任何眼部疾病征兆的正常眼底照片中,不仅分类的准确率依赖于读片的眼科专家的个人水平,而且分类效率非常低,通过本发明实施例提供的图像分类方法,可以高效、高准确率、自动化的对眼底图像进行分类,使用方法简单,判断速度快,在对眼底图片没有专业的识别能力的前提下,也可以快速地得到准确的判断结果,便于提高对眼底图片的分类效率,极大的减少专业人士的工作量,判断结果不依赖于个人的专业水平,分类精度高且具有较好的稳定性。
上述图像分类方法中,通过对原始眼底图像进行调整、根据原始眼底图像的显示参数的分布需要满足的分布条件,对原始眼底图像的显示参数进行变换获得新眼底图像,基于原始眼底图像和新图像进行组合构造用于训练神经网络模型的训练集,针对训练样本数量非常少的情况下,通过组合可以呈倍数级的扩增训练集以训练神经网络模型,从而能够获得足够的分类维度和确保分类精度,以青光眼分类为例,经过专业标注青光眼眼底图像的数量非常少,预训练好的图像数据集中已有的标注有青光眼眼底图像的数量也不多,通过采用本申请实施例所提供的图像分类方法,则可以大大减小训练难度,其中分类的维度不限于正常与非正常,还能够实现非正常情况下不同严重等级的分类识别,确保分类精度高且具有较好的稳定性。
请参阅图9,以原始图像为眼部图像、以基于预训练好的图像数据集ImageNet预训练的InceptionV3为初始的神经网络模型,构建和训练组合神经网络模型为例,对本发明实施例提供的图像分类方法进行说明如下:
S21、获得原始眼部图像,以及原始眼部图像中所包含的对象的类别;作为一种可选的方案,原始眼部图像中所包含的对象为眼睛,该对象的类别包括眼睛不同形状的五种类别:丹凤眼、三角眼、柳叶眼、狐狸眼和杏眼。
S22,调整原始眼部图像的显示参数满足取值条件,获得调整后的原始眼部图像;作为一种可选的方案,调整原始眼底图像的显示参数满足取值条件包括对原始眼部图像进行缩放,使得原始眼部图像以眼睛为中心具有相同的尺寸,如300pixels;对原始眼部图像中的每个像素值乘以预设固定值,再将每个像素值加上预设比例的灰度值;对原始眼部图像的未成像的无信息区域进行裁剪;将原始眼部图像缩放到预设大小,如宽为299pixels,高为299pixels;如此,可以突出原始图像中的预设成像结构的部位,如原始眼部图像的眼睛轮廓线部位。
S23,根据显示参数的分布需要满足的分布条件,对原始眼部图像的显示参数进行变换获得新眼部图像。作为一种可选的方案,根据显示参数的分布需要满足的分布条件,对原始眼部图像的显示参数进行变换的方式包括如下至少一种:将原始眼部图像或新眼部图像以预设概率值进行水平翻转;随机将原始眼部图像的宽和高基于第一比例范围值进行裁剪;随机将原始眼部图像的亮度基于第二范围值进行加减运算;随机将原始眼部图像的亮度基于第三比例范围值进行乘除运算;随机将原始眼部图像的对比度基于第四比例范围值进行乘除运算;随机将原始眼部图像的宽和高基于第五比例范围值进行缩放处理;随机将原始眼部图像基于第六比例范围值进行旋转。
S24,以基于ImageNet上训练好的InceptionV3中的平均池化层依次连接距离计算层、全连接层以及分类层,搭建初始的神经网络模型,该初始的神经网络模型可以为如图8所示的组合神经网络模型。其中该InceptionV3可以由其它任意已有的神经网络模型所替代,通过采用任意已有的神经网络模型与距离计算层、全连接层和分类层连接形成组合神经网络模型,利用任意已有的神经网络模型提取图像特征搭建训练前的神经网络模型的方式,可以在确保分类精度的前提下大大简化神经网络模型的搭建。
S25,基于调整后的原始眼部图像和新眼部图像进行两两组合构造的训练集、以及所包括对象的类别,训练神经网络模型。通过基于调整后的原始眼部图像和新眼部图像进行两两组合构造不同批次的训练集,输入初始的神经网络模型进行训练,多次迭代直至所述神经网络模型的损失函数满足收敛条件,以获得训练后的神经网络模型。
S26,将待预测的眼部图像与标注有对象的类别的参考眼部图像输入训练后的神经网络模型,判断该待预测眼部图像的类别;作为一种可选的方案,该组合神经网络模型通过InceptionV3分别接收待预测的眼部图像与标注有对象的类别的参考眼部图像作为输入,通过InceptionV3的中间层提取图像特征,由平均池化层产生两个相同维数,如2048维的特征向量。通过距离计算层计算两个相同维数的特征向量之间的距离得到距离向量,如2048维的距离向量。通过全连接层进行降采样得到降维后的距离向量,如512维的距离向量。降维后的距离向量输入激励函数为sigmoid函数的分类层,通过分类层将距离向量映射到特定取值空间(0,1),得到待预测眼部图像属于所述参考眼部图像所标注的所述对象的类别的概率,从而得到对应的分类结果。参考眼部图像可以分别是标注有丹凤眼、三角眼、柳叶眼、狐狸眼和杏眼五种类别的眼部图像,从而可以得到待预测图像的类别的判断结果为丹凤眼、三角眼、柳叶眼、狐狸眼或者杏眼。
上述图像分类方法中,以原始图像是以眼部图像为例,采用本发明实施例所提供的图像分类方法对眼部图像中的眼睛属于丹凤眼、三角眼、柳叶眼、狐狸眼或者杏眼进行识别,其中,本实施例中对眼部图像中眼睛形状的识别,是针对图像中所包含的对象进行分类的维度可以是对象在外观上所呈现的外在特性的一种方式的举例,可以理解的,在本发明实施例所揭示的技术构思下,原始图像还可以是包含其它对象并对该对象进行分类、且包含有类别的图像数量非常少的其它图像,通过对原始图像进行调整、根据原始图像的显示参数的分布需要满足的分布条件,对原始图像的显示参数进行变换获得新图像,基于原始图像和新图像进行组合构造用于训练神经网络模型的训练集,针对训练样本数量非常少的情况下,通过组合可以呈倍数级的扩增训练集以训练神经网络模型,从而能够获得足够的分类维度和确保分类精度。
本发明实施例提供的图像分类方法可以采用终端侧或服务器侧实施,就图像分类装置的硬件结构而言,请参阅图10,为本发明实施例提供的图像分类装置100的一个可选的硬件结构示意图,该图像分类装置100可以是移动电话、计算机设备、平板设备、个人数字处理、医疗设备等。该图像分类装置100包括:至少一个处理器101、存储器102、至少一个网络接口104和用户接口106。图像分类装置中的各个组件通过总线系统105耦合在一起。可以理解的,总线系统105用于实现这些组件之间的连接通信。总线系统105除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图10中将各种总线都标为总线系统。
其中,用户接口106可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器102可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,StaticRandom Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static RandomAccess Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类别的存储器。
本发明实施例中的存储器102用于存储各种类别的数据以支持图像分类装置100的操作。这些数据的示例包括:用于在图像分类装置100上操作的任何可执行程序,如操作系统1021和应用程序1022;原始图像;对原始图像进行变换获得的新图像等;其中,操作系统1021包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序1022可以包含各种应用程序,例如媒体播放器(MediaPlayer)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例提供的图像分类方法可以包含在应用程序1022中。
上述本发明实施例揭示的方法可以应用于处理器101中,或者由处理器101实现。处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器101可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器101可以是微处理器或者任何常规的处理器等。结合本发明实施例所提供的图像分类方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,图像分类装置100可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice),用于执行前述方法。
在示例性实施例中,请参阅图11,是本发明一实施例提供的图像分类装置的结构示意图,该图像分类装置包括:获取模块11,用于获得原始图像、以及所述原始图像中所包括的对象的类别;调整模块13,用于调整所述原始图像的显示参数满足取值条件;变换模块15,用于根据所述显示参数的分布需要满足的分布条件,对所述原始图像的所述显示参数进行变换获得新图像;训练模块17,用于基于调整后的原始图像和新图像进行组合构造的训练集、以及所包括对象的类别,训练神经网络模型;预测模块19,用于基于训练后的所述神经网络模型,将待预测图像和标注有对象的类别的参考图像输入所述神经网络模型,判断待预测图像中所包括对象的类别。
在一个实施例中,所述调整模块13包括检测单元及调整单元,所述检测单元,用于检测所述原始图像中所包括对象的成像区域;所述调整单元,用于调整所述原始图像的尺寸,直至所述原始图像所包括对象的成像区域的尺寸一致。
在另一个实施例中,所述调整模块13包括增强单元,用于基于所述原始图像需要满足的识别度,对所述原始图像的各个颜色通道进行图像增强处理。
在又一个实施例中,所述调整模块13包括裁剪单元及调整单元,所述裁剪单元,用于对所述原始的图像中对象的未成像区域进行裁剪;所述调整单元,用于调整裁剪后的图像符合预设尺寸。
在一个实施例中,所述变换模块15包括确定单元及变换单元,所述确定单元,用于根据所述图像的至少一种类别的显示参数所处的取值空间、以及在所述取值空间所满足的分布,确定根据所述原始图像的显示参数相较于所述分布条件所缺失的显示参数;所述变换单元,用于将所述原始图像的显示参数向所述缺失的显示参数进行变换得到新图像。
在一个实施例中,所述训练模块包括初始化单元和组合模型训练单元,所述初始化单元,用于初始化神经网络模型;所述组合模型训练单元,用于初始化与所述神经网络模型顺序连接的距离计算层、全连接层、以及分类层,得到用于对所述待预测图像分类的组合神经网络模型,将所述训练集包括的图像以及对应的类别输入所述神经网络模型进行迭代训练,直至所述神经网络模型的损失函数满足收敛条件。
该装置还包括损失函数确定模块,用于根据交叉熵代价函数得到所述神经网络模型的损失函数。
在一个实施例中,所述预测模块,具体用于在组合神经网络模型中,利用所述组合神经网络模型提取待预测图像的图像特征、以及标注有对象的类别的参考图像的图像特征,所述参考图像为所述训练集中图像;确定所述待预测图像的图像特征、与所述参考图像的图像特征的距离向量,将所述距离向量进行降采样处理;将降采样处理后的距离向量映射到特定取值空间,得到所述待预测图像属于所述参考图像所标注的所述对象的类别的概率。
在一个实施例中,该装置还包括训练集模块,用于基于调整后的原始图像和所述新图像进行两两组合构造训练集。
需要说明的是:上述实施例提供的图像分类装置在进行图像分类时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的图像分类装置与图像分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在示例性实施例中,本发明实施例还提供了一种可读存储介质,例如包括可执行程序的存储器,上述可执行程序可由处理器执行,以完成前述方法的步骤。可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备,如移动电话、计算机设备、平板设备、个人数字助理、医疗设备等。
本发明实施例还提供了一种图像分类装置,该图像分类装置包括处理器及用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序时,执行:一种图像分类方法,包括:获得原始图像、以及所述原始图像中所包括的对象的类别;调整所述原始图像的显示参数满足取值条件;根据所述显示参数的分布需要满足的分布条件,对所述原始图像的所述显示参数进行变换获得新图像;基于调整后的原始图像和新图像进行组合构造的训练集、以及所包括对象的类别,训练神经网络模型;基于训练后的所述神经网络模型,将待预测图像和标注有对象的类别的参考图像输入所述神经网络模型,判断待预测图像中所包括对象的类别。
所述处理器还用于运行所述计算机程序时,执行:所述调整所述原始图像的显示参数满足取值条件,包括:检测所述原始图像中所包括对象的成像区域;调整所述原始图像的尺寸,直至所述原始图像所包括对象的成像区域的尺寸一致。
所述处理器还用于运行所述计算机程序时,执行:所述调整所述原始图像的显示参数满足取值条件,包括:基于所述原始图像需要满足的识别度,对所述原始图像的各个颜色通道进行图像增强处理。
所述处理器还用于运行所述计算机程序时,执行:所述调整所述原始图像的显示参数满足取值条件,包括:对所述原始的图像中对象的未成像区域进行裁剪;调整裁剪后的图像符合预设尺寸。
所述处理器还用于运行所述计算机程序时,执行:所述根据显示参数的分布需要满足的分布条件,对所述原始图像的显示参数进行变换获得新图像,包括:根据所述图像的至少一种类别的显示参数所处的取值空间、以及在所述取值空间所满足的分布条件,确定根据所述原始图像的显示参数相较于所述分布条件所缺失的显示参数;将所述原始图像的显示参数向所述缺失的显示参数进行变换得到新图像。
所述处理器还用于运行所述计算机程序时,执行:所述训练神经网络模型,包括:初始化神经网络模型;初始化与所述神经网络模型顺序连接的距离计算层、全连接层、以及分类层,得到用于对所述待预测图像分类的组合神经网络模型,将所述训练集包括的图像以及对应的类别输入所述神经网络模型进行迭代训练,直至所述神经网络模型的损失函数满足收敛条件。
所述处理器还用于运行所述计算机程序时,执行:根据交叉熵代价函数得到所述神经网络模型的损失函数。
所述处理器还用于运行所述计算机程序时,执行:所述用于基于训练后的所述神经网络模型,将待预测图像和标注有对象的类别的参考图像输入所述神经网络模型,判断所述待预测图像中所包括对象的类别,包括:在组合神经网络模型中,利用所述组合神经网络模型提取待预测图像的图像特征、以及标注有对象的类别的参考图像的图像特征,所述参考图像为所述训练集中图像;确定所述待预测图像的图像特征、与所述参考图像的图像特征的距离向量,将所述距离向量进行降采样处理;将降采样处理后的距离向量映射到特定取值空间,得到所述待预测图像属于所述参考图像所标注的所述对象的类别的概率。
在另一实施例中,该图像分类装置可以为图1中所示的服务器200,包括通过系统总线连接的处理器及存储器。其中,存储器存储有可执行程序,处理器用于实现计算功能和控制服务器工作的功能,该处理器被配置为执行该存储器中存储的可执行程序时,实现本发明实施例提供的图像分类方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (15)
1.一种图像分类方法,其特征在于,包括:
获得原始图像、以及所述原始图像中所包括的对象的类别;
调整所述原始图像的显示参数满足取值条件;
根据所述显示参数的分布需要满足的分布条件,对所述原始图像的所述显示参数进行变换获得新图像;
基于调整后的原始图像和所述新图像进行组合构造的训练集、以及所包括对象的类别,训练神经网络模型;
基于训练后的所述神经网络模型,将待预测图像和标注有对象的类别的参考图像输入所述神经网络模型,判断所述待预测图像中所包括对象的类别。
2.如权利要求1所述的图像分类方法,其特征在于,所述调整所述原始图像的显示参数满足取值条件,包括:
检测所述原始图像中所包括对象的成像区域;
调整所述原始图像的尺寸,直至所述原始图像所包括对象的成像区域的尺寸一致。
3.如权利要求1所述的图像分类方法,其特征在于,所述调整所述原始图像的显示参数满足取值条件,包括:
基于所述原始图像需要满足的识别度,对所述原始图像的各个颜色通道进行图像增强处理。
4.如权利要求1所述的图像分类方法,其特征在于,所述调整所述原始图像的显示参数满足取值条件,包括:
对所述原始的图像中对象的未成像区域进行裁剪;
调整裁剪后的图像符合预设尺寸。
5.如权利要求1所述的图像分类方法,其特征在于,所述根据显示参数的分布需要满足的分布条件,对所述原始图像的显示参数进行变换获得新图像,包括:
根据所述图像的至少一种类别的显示参数所处的取值空间、以及在所述取值空间所满足的分布条件,确定根据所述原始图像的显示参数相较于所述分布条件所缺失的显示参数;
将所述原始图像的显示参数向所述缺失的显示参数进行变换得到新图像。
6.如权利要求1所述的图像分类方法,其特征在于,所述训练神经网络模型,包括:
初始化神经网络模型;
初始化与所述神经网络模型顺序连接的距离计算层、全连接层、以及分类层,得到用于对所述待预测图像分类的组合神经网络模型,将所述训练集包括的图像以及对应的类别输入所述神经网络模型进行迭代训练,直至所述神经网络模型的损失函数满足收敛条件。
7.如权利要求1所述的图像分类方法,其特征在于,所述基于训练后的所述神经网络模型,将待预测图像和标注有对象的类别的参考图像输入所述神经网络模型,判断所述待预测图像中所包括对象的类别,包括:
在组合神经网络模型中,利用所述组合神经网络模型提取待预测图像的图像特征、以及标注有对象的类别的参考图像的图像特征,所述参考图像为所述训练集中图像;
确定所述待预测图像的图像特征、与所述参考图像的图像特征的距离向量,将所述距离向量进行降采样处理;
将降采样处理后的距离向量映射到特定取值空间,得到所述待预测图像属于所述参考图像所标注的所述对象的类别的概率。
8.如权利要求1所述的图像分类方法,其特征在于,所述基于调整后的原始图像和所述新图像进行组合构造的训练集、以及所包括的对象的类型,训练神经网络模型之前,还包括:
基于调整后的原始图像和所述新图像进行两两组合构造训练集。
9.一种图像分类装置,其特征在于,包括:
获取模块,用于获得原始图像、以及所述原始图像中所包括的对象的类别;
调整模块,用于调整所述原始图像的显示参数满足取值条件;
变换模块,用于根据所述显示参数的分布需要满足的分布条件,对所述原始图像的所述显示参数进行变换获得新图像;
训练模块,用于基于调整后的原始图像和所述新图像进行组合构造的训练集、以及所包括对象的类别,训练神经网络模型;
预测模块,用于基于训练后的所述神经网络模型,将待预测图像和标注有对象的类别的参考图像输入所述神经网络模型,判断所述待预测图像中所包括对象的类别。
10.如权利要求9所述的图像分类装置,其特征在于,所述调整模块包括增强单元,用于基于所述原始图像需要满足的识别度,对所述原始图像的各个颜色通道进行图像增强处理。
11.如权利要求9所述的图像分类装置,其特征在于,所述调整模块包括裁剪单元及调整单元,
所述裁剪单元,用于对所述原始的图像中对象的未成像区域进行裁剪;
所述调整单元,用于调整裁剪后的图像符合预设尺寸。
12.如权利要求9所述的图像分类装置,其特征在于,所述变换模块包括确定单元及变换单元,
所述确定单元,用于根据所述图像的至少一种类别的显示参数所处的取值空间、以及在所述取值空间所满足的分布,确定根据所述原始图像的显示参数相较于所述分布条件所缺失的显示参数;
所述变换单元,用于将所述原始图像的显示参数向所述缺失的显示参数进行变换得到新图像。
13.如权利要求9所述的图像分类装置,其特征在于,所述训练模块包括初始化单元及组合模型训练单元,
所述初始化单元,用于初始化神经网络模型;
所述组合模型训练单元,用于初始化与所述神经网络模型顺序连接的距离计算层、全连接层、以及分类层,得到用于对所述待预测图像分类的组合神经网络模型,将所述训练集包括的图像以及对应的类别输入所述神经网络模型进行迭代训练,直至所述神经网络模型的损失函数满足收敛条件。
14.如权利要求9所述的图像分类装置,其特征在于,所述预测模块,具体用于,在组合神经网络模型中,利用所述组合神经网络模型提取待预测图像的图像特征、以及标注有对象的类别的参考图像的图像特征,所述参考图像为所述训练集中图像;确定所述待预测图像的图像特征、与所述参考图像的图像特征的距离向量,将所述距离向量进行降采样处理;将降采样处理后的距离向量映射到特定取值空间,得到所述待预测图像属于所述参考图像所标注的所述对象的类别的概率。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8中任意一项所述图像分类方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711060208.2A CN109753978B (zh) | 2017-11-01 | 2017-11-01 | 图像分类方法、装置以及计算机可读存储介质 |
CN201910689712.1A CN110399929B (zh) | 2017-11-01 | 2017-11-01 | 眼底图像分类方法、装置以及计算机可读存储介质 |
PCT/CN2018/110664 WO2019085757A1 (zh) | 2017-11-01 | 2018-10-17 | 图像分类方法、服务器以及计算机可读存储介质 |
EP18874465.0A EP3674968B1 (en) | 2017-11-01 | 2018-10-17 | Image classification method, server and computer readable storage medium |
US16/853,636 US11295178B2 (en) | 2017-11-01 | 2020-04-20 | Image classification method, server, and computer-readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711060208.2A CN109753978B (zh) | 2017-11-01 | 2017-11-01 | 图像分类方法、装置以及计算机可读存储介质 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910689712.1A Division CN110399929B (zh) | 2017-11-01 | 2017-11-01 | 眼底图像分类方法、装置以及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109753978A true CN109753978A (zh) | 2019-05-14 |
CN109753978B CN109753978B (zh) | 2023-02-17 |
Family
ID=66333451
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910689712.1A Active CN110399929B (zh) | 2017-11-01 | 2017-11-01 | 眼底图像分类方法、装置以及计算机可读存储介质 |
CN201711060208.2A Active CN109753978B (zh) | 2017-11-01 | 2017-11-01 | 图像分类方法、装置以及计算机可读存储介质 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910689712.1A Active CN110399929B (zh) | 2017-11-01 | 2017-11-01 | 眼底图像分类方法、装置以及计算机可读存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11295178B2 (zh) |
EP (1) | EP3674968B1 (zh) |
CN (2) | CN110399929B (zh) |
WO (1) | WO2019085757A1 (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472675A (zh) * | 2019-07-31 | 2019-11-19 | Oppo广东移动通信有限公司 | 图像分类方法、图像分类装置、存储介质与电子设备 |
CN110472673A (zh) * | 2019-07-26 | 2019-11-19 | 腾讯医疗健康(深圳)有限公司 | 参数调整方法、眼底图像处理方法、装置、介质及设备 |
CN110598785A (zh) * | 2019-09-11 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种训练样本图像的生成方法及装置 |
CN110738258A (zh) * | 2019-10-16 | 2020-01-31 | Oppo广东移动通信有限公司 | 图像分类方法、装置及终端设备 |
CN110909803A (zh) * | 2019-11-26 | 2020-03-24 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、装置和计算机可读存储介质 |
CN110969191A (zh) * | 2019-11-07 | 2020-04-07 | 吉林大学 | 基于相似性保持度量学习方法的青光眼患病概率预测方法 |
CN111126396A (zh) * | 2019-12-25 | 2020-05-08 | 北京科技大学 | 图像识别方法、装置、计算机设备以及存储介质 |
CN111242217A (zh) * | 2020-01-13 | 2020-06-05 | 支付宝实验室(新加坡)有限公司 | 图像识别模型的训练方法、装置、电子设备及存储介质 |
CN111553430A (zh) * | 2020-04-30 | 2020-08-18 | 中国银行股份有限公司 | 一种外币识别方法及装置 |
CN111738365A (zh) * | 2020-08-06 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 图像分类模型训练方法、装置、计算机设备及存储介质 |
CN111767946A (zh) * | 2020-06-19 | 2020-10-13 | 北京百度网讯科技有限公司 | 医学影像分级模型训练及预测方法、装置、设备及介质 |
KR20200135013A (ko) * | 2019-05-24 | 2020-12-02 | 한국전자통신연구원 | 영상의 전처리 방법 및 장치 |
CN112288012A (zh) * | 2020-10-30 | 2021-01-29 | 杭州海康威视数字技术股份有限公司 | 图像识别方法、装置及存储介质 |
CN112418287A (zh) * | 2020-11-16 | 2021-02-26 | 深圳市优必选科技股份有限公司 | 图像预标注方法、装置、电子设备及介质 |
CN112446396A (zh) * | 2019-08-30 | 2021-03-05 | 北京地平线机器人技术研发有限公司 | 用于目标检测的神经网络训练方法、目标检测方法及装置 |
CN112581379A (zh) * | 2019-09-30 | 2021-03-30 | 华为技术有限公司 | 图像增强方法以及装置 |
CN112651175A (zh) * | 2020-12-23 | 2021-04-13 | 成都北方石油勘探开发技术有限公司 | 一种油藏注采方案优化设计方法 |
CN112801857A (zh) * | 2020-11-30 | 2021-05-14 | 泰康保险集团股份有限公司 | 一种图像的数据处理方法及装置 |
CN113140012A (zh) * | 2021-05-14 | 2021-07-20 | 北京字节跳动网络技术有限公司 | 图像处理方法、装置、介质及电子设备 |
US20220239510A1 (en) * | 2021-01-25 | 2022-07-28 | Marvell Asia Pte Ltd | Ethernet physical layer transceiver with non-linear neural network equalizers |
CN114998159A (zh) * | 2022-08-04 | 2022-09-02 | 邹城市天晖软件科技有限公司 | 一种设计图像自适应增强方法 |
CN115661486A (zh) * | 2022-12-29 | 2023-01-31 | 有米科技股份有限公司 | 图像特征的智能提取方法及装置 |
CN118429693A (zh) * | 2024-04-07 | 2024-08-02 | 连云港绸疆建材有限公司 | 应用置信度比较的钢材智能分类系统 |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019024568A1 (zh) * | 2017-08-02 | 2019-02-07 | 上海市第六人民医院 | 眼底图像处理方法、装置、计算机设备和存储介质 |
US10929607B2 (en) * | 2018-02-22 | 2021-02-23 | Salesforce.Com, Inc. | Dialogue state tracking using a global-local encoder |
CN108875821A (zh) * | 2018-06-08 | 2018-11-23 | Oppo广东移动通信有限公司 | 分类模型的训练方法和装置、移动终端、可读存储介质 |
CN111666960B (zh) * | 2019-03-06 | 2024-01-19 | 南京地平线机器人技术有限公司 | 图像识别方法、装置、电子设备及可读存储介质 |
KR102082970B1 (ko) * | 2019-04-29 | 2020-02-28 | 주식회사 루닛 | 기계학습을 위한 정규화 방법 및 그 장치 |
CN113743535B (zh) * | 2019-05-21 | 2024-05-24 | 北京市商汤科技开发有限公司 | 神经网络训练方法及装置以及图像处理方法及装置 |
CN112132169B (zh) * | 2019-06-25 | 2023-08-04 | 富士通株式会社 | 信息处理装置和信息处理方法 |
CN110276333B (zh) * | 2019-06-28 | 2021-10-15 | 上海鹰瞳医疗科技有限公司 | 眼底身份识别模型训练方法、眼底身份识别方法和设备 |
CN110348381A (zh) * | 2019-07-11 | 2019-10-18 | 电子科技大学 | 一种基于深度学习的视频行为识别方法 |
JP7264254B2 (ja) * | 2019-08-30 | 2023-04-25 | 株式会社ニコン | 画像処理方法、画像処理装置、およびプログラム |
CN112560541A (zh) * | 2019-09-10 | 2021-03-26 | 富士通株式会社 | 目标检测模型的训练装置及方法、电子设备 |
CN111028218B (zh) * | 2019-12-10 | 2023-08-08 | 上海志唐健康科技有限公司 | 眼底图像质量判定模型训练方法、装置和计算机设备 |
US11216922B2 (en) | 2019-12-17 | 2022-01-04 | Capital One Services, Llc | Systems and methods for recognition of user-provided images |
CN113222827A (zh) * | 2020-01-21 | 2021-08-06 | 北京三星通信技术研究有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
KR102306279B1 (ko) * | 2020-01-29 | 2021-09-29 | 자이메드 주식회사 | 안저 영상판독 지원방법, 안저 영상판독 지원장치 및 이를 포함하는 안저 영상판독 지원 시스템 |
US11468294B2 (en) * | 2020-02-21 | 2022-10-11 | Adobe Inc. | Projecting images to a generative model based on gradient-free latent vector determination |
EP3872695A1 (en) * | 2020-02-28 | 2021-09-01 | Toyota Jidosha Kabushiki Kaisha | A method and system of adapting an initial model of a neural network |
CN111401432B (zh) * | 2020-03-12 | 2023-02-07 | 华侨大学 | 对数字图像的身份伪造识别方法、装置、设备及存储介质 |
US11093742B1 (en) * | 2020-05-14 | 2021-08-17 | Optos Plc | Ocular imaging system |
CN111860949B (zh) * | 2020-06-12 | 2022-06-03 | 深圳市新产业眼科新技术有限公司 | 基于时序图像的预测方法及装置 |
CN111738949B (zh) * | 2020-06-19 | 2024-04-05 | 北京百度网讯科技有限公司 | 一种图像亮度的调整方法、装置、电子设备及存储介质 |
CN111862009B (zh) * | 2020-07-02 | 2024-01-16 | 清华大学深圳国际研究生院 | 一种眼底oct图像的分类方法及计算机可读存储介质 |
US11687780B2 (en) * | 2020-07-02 | 2023-06-27 | Samsung Electronics Co., Ltd | Method and apparatus for data efficient semantic segmentation |
US11531829B2 (en) * | 2020-07-24 | 2022-12-20 | Accenture Global Solutions Limited | Automatic image annotation |
TWI756852B (zh) * | 2020-09-29 | 2022-03-01 | 臺北榮民總醫院 | 跨院所眼底影像資料深度學習交流彙整裝置及交流彙整方法 |
CN112488019A (zh) * | 2020-12-07 | 2021-03-12 | 新疆爱华盈通信息技术有限公司 | 基于姿态识别的跌倒检测方法、装置、电子设备及存储介质 |
US11727534B2 (en) * | 2020-12-08 | 2023-08-15 | International Business Machines Corporation | Normalizing OCT image data |
CN112561881B (zh) * | 2020-12-16 | 2023-09-05 | 南京莱斯电子设备有限公司 | 基于评价模型的红外图像自适应数据增强方法 |
CN112819782B (zh) * | 2021-01-29 | 2023-03-24 | 菱王电梯有限公司 | 一种自学习的轿厢视觉分析方法 |
CN113034449B (zh) * | 2021-03-11 | 2023-12-15 | 深圳市优必选科技股份有限公司 | 目标检测模型训练方法、装置及通信设备 |
CN112906648A (zh) * | 2021-03-24 | 2021-06-04 | 深圳前海微众银行股份有限公司 | 一种地块中对象的分类方法、装置及电子设备 |
CN113408589A (zh) * | 2021-05-26 | 2021-09-17 | 北京迈格威科技有限公司 | 训练图像识别模型的方法、图像识别方法和图像识别设备 |
CN113449776B (zh) * | 2021-06-04 | 2023-07-25 | 中南民族大学 | 基于深度学习的中草药识别方法、装置及存储介质 |
CN113570499B (zh) * | 2021-07-21 | 2022-07-05 | 此刻启动(北京)智能科技有限公司 | 一种自适应图像调色方法、系统、存储介质及电子设备 |
CN114140637B (zh) * | 2021-10-21 | 2023-09-12 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分类方法、存储介质和电子设备 |
CN113963220A (zh) * | 2021-12-22 | 2022-01-21 | 熵基科技股份有限公司 | 安检图像分类模型训练方法、安检图像分类方法及装置 |
TWI805290B (zh) * | 2022-03-28 | 2023-06-11 | 臺北醫學大學 | 用於預測肺腺癌是否具有表皮生長因子受體突變的方法 |
CN115587979B (zh) * | 2022-10-10 | 2023-08-15 | 山东财经大学 | 基于三阶段注意力网络的糖尿病视网膜病变分级的方法 |
CN115578476B (zh) * | 2022-11-21 | 2023-03-10 | 山东省标筑建筑规划设计有限公司 | 一种用于城乡规划数据的高效存储方法 |
CN116205913A (zh) * | 2023-04-28 | 2023-06-02 | 中国医学科学院生物医学工程研究所 | 眼科超声图像的处理方法、装置、设备以及存储介质 |
CN118212592B (zh) * | 2024-05-21 | 2024-07-12 | 成都航空职业技术学院 | 一种客舱内异常行为识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258214A (zh) * | 2013-04-26 | 2013-08-21 | 南京信息工程大学 | 基于图像块主动学习的遥感图像分类方法 |
WO2016033708A1 (en) * | 2014-09-03 | 2016-03-10 | Xiaoou Tang | Apparatus and methods for image data classification |
CN106780482A (zh) * | 2017-01-08 | 2017-05-31 | 广东工业大学 | 一种医学图像分类方法 |
CN106815601A (zh) * | 2017-01-10 | 2017-06-09 | 西安电子科技大学 | 基于递归神经网络的高光谱图像分类方法 |
CN106934319A (zh) * | 2015-12-29 | 2017-07-07 | 北京大唐高鸿软件技术有限公司 | 基于卷积神经网络的监控视频中人车目标分类方法 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7236623B2 (en) * | 2000-04-24 | 2007-06-26 | International Remote Imaging Systems, Inc. | Analyte recognition for urinalysis diagnostic system |
CN102930293B (zh) * | 2012-10-19 | 2015-07-15 | 中国科学院自动化研究所 | 一种面向对象的高光谱特征处理方法 |
CN103279759B (zh) * | 2013-06-09 | 2016-06-01 | 大连理工大学 | 一种基于卷积神经网络的车辆前方可通行性分析方法 |
CN104102919B (zh) * | 2014-07-14 | 2017-05-24 | 同济大学 | 一种有效防止卷积神经网络过拟合的图像分类方法 |
GB2532075A (en) * | 2014-11-10 | 2016-05-11 | Lego As | System and method for toy recognition and detection based on convolutional neural networks |
CN105320945A (zh) * | 2015-10-30 | 2016-02-10 | 小米科技有限责任公司 | 图像分类的方法及装置 |
CN106874921B (zh) | 2015-12-11 | 2020-12-04 | 清华大学 | 图像分类方法和装置 |
CN107205162A (zh) * | 2016-03-16 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 视频识别方法及装置 |
CN106214120A (zh) | 2016-08-19 | 2016-12-14 | 靳晓亮 | 一种青光眼的早期筛查方法 |
CN106408562B (zh) * | 2016-09-22 | 2019-04-09 | 华南理工大学 | 基于深度学习的眼底图像视网膜血管分割方法及系统 |
CN106408564B (zh) * | 2016-10-10 | 2019-04-02 | 北京新皓然软件技术有限责任公司 | 一种基于深度学习的眼底图像处理方法、装置及系统 |
CN106529558B (zh) | 2016-10-28 | 2019-05-24 | 北京化工大学 | 青光眼图像特征提取方法及装置 |
CN106530295A (zh) * | 2016-11-07 | 2017-03-22 | 首都医科大学 | 一种视网膜病变的眼底图像分类方法和装置 |
CN106780439B (zh) * | 2016-11-29 | 2019-05-28 | 瑞达昇医疗科技(大连)有限公司 | 一种筛选眼底图像的方法 |
CN107358606B (zh) * | 2017-05-04 | 2018-07-27 | 深圳硅基仿生科技有限公司 | 用于识别糖尿病视网膜病变的人工神经网络装置及系统装置 |
CN107292229A (zh) * | 2017-05-08 | 2017-10-24 | 北京三快在线科技有限公司 | 一种图像识别方法和装置 |
KR101977645B1 (ko) * | 2017-08-25 | 2019-06-12 | 주식회사 메디웨일 | 안구영상 분석방법 |
CN110348428B (zh) * | 2017-11-01 | 2023-03-24 | 腾讯科技(深圳)有限公司 | 眼底图像分类方法、装置及计算机可读存储介质 |
-
2017
- 2017-11-01 CN CN201910689712.1A patent/CN110399929B/zh active Active
- 2017-11-01 CN CN201711060208.2A patent/CN109753978B/zh active Active
-
2018
- 2018-10-17 EP EP18874465.0A patent/EP3674968B1/en active Active
- 2018-10-17 WO PCT/CN2018/110664 patent/WO2019085757A1/zh unknown
-
2020
- 2020-04-20 US US16/853,636 patent/US11295178B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258214A (zh) * | 2013-04-26 | 2013-08-21 | 南京信息工程大学 | 基于图像块主动学习的遥感图像分类方法 |
WO2016033708A1 (en) * | 2014-09-03 | 2016-03-10 | Xiaoou Tang | Apparatus and methods for image data classification |
CN106934319A (zh) * | 2015-12-29 | 2017-07-07 | 北京大唐高鸿软件技术有限公司 | 基于卷积神经网络的监控视频中人车目标分类方法 |
CN106780482A (zh) * | 2017-01-08 | 2017-05-31 | 广东工业大学 | 一种医学图像分类方法 |
CN106815601A (zh) * | 2017-01-10 | 2017-06-09 | 西安电子科技大学 | 基于递归神经网络的高光谱图像分类方法 |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102444544B1 (ko) * | 2019-05-24 | 2022-09-19 | 한국전자통신연구원 | 영상의 전처리 방법 및 장치 |
KR20200135013A (ko) * | 2019-05-24 | 2020-12-02 | 한국전자통신연구원 | 영상의 전처리 방법 및 장치 |
CN110472673A (zh) * | 2019-07-26 | 2019-11-19 | 腾讯医疗健康(深圳)有限公司 | 参数调整方法、眼底图像处理方法、装置、介质及设备 |
CN110472673B (zh) * | 2019-07-26 | 2024-04-12 | 腾讯医疗健康(深圳)有限公司 | 参数调整方法、眼底图像处理方法、装置、介质及设备 |
CN110472675A (zh) * | 2019-07-31 | 2019-11-19 | Oppo广东移动通信有限公司 | 图像分类方法、图像分类装置、存储介质与电子设备 |
CN112446396B (zh) * | 2019-08-30 | 2024-09-06 | 北京地平线机器人技术研发有限公司 | 用于目标检测的神经网络训练方法、目标检测方法及装置 |
CN112446396A (zh) * | 2019-08-30 | 2021-03-05 | 北京地平线机器人技术研发有限公司 | 用于目标检测的神经网络训练方法、目标检测方法及装置 |
CN110598785B (zh) * | 2019-09-11 | 2021-09-07 | 腾讯科技(深圳)有限公司 | 一种训练样本图像的生成方法及装置 |
CN110598785A (zh) * | 2019-09-11 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种训练样本图像的生成方法及装置 |
WO2021063341A1 (zh) * | 2019-09-30 | 2021-04-08 | 华为技术有限公司 | 图像增强方法以及装置 |
CN112581379A (zh) * | 2019-09-30 | 2021-03-30 | 华为技术有限公司 | 图像增强方法以及装置 |
CN110738258B (zh) * | 2019-10-16 | 2022-04-29 | Oppo广东移动通信有限公司 | 图像分类方法、装置及终端设备 |
CN110738258A (zh) * | 2019-10-16 | 2020-01-31 | Oppo广东移动通信有限公司 | 图像分类方法、装置及终端设备 |
CN110969191A (zh) * | 2019-11-07 | 2020-04-07 | 吉林大学 | 基于相似性保持度量学习方法的青光眼患病概率预测方法 |
CN110969191B (zh) * | 2019-11-07 | 2022-10-25 | 吉林大学 | 基于相似性保持度量学习方法的青光眼患病概率预测方法 |
CN110909803A (zh) * | 2019-11-26 | 2020-03-24 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、装置和计算机可读存储介质 |
CN110909803B (zh) * | 2019-11-26 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、装置和计算机可读存储介质 |
CN111126396A (zh) * | 2019-12-25 | 2020-05-08 | 北京科技大学 | 图像识别方法、装置、计算机设备以及存储介质 |
CN111126396B (zh) * | 2019-12-25 | 2023-08-22 | 北京科技大学 | 图像识别方法、装置、计算机设备以及存储介质 |
CN111242217A (zh) * | 2020-01-13 | 2020-06-05 | 支付宝实验室(新加坡)有限公司 | 图像识别模型的训练方法、装置、电子设备及存储介质 |
CN111553430B (zh) * | 2020-04-30 | 2023-08-18 | 中国银行股份有限公司 | 一种外币识别方法及装置 |
CN111553430A (zh) * | 2020-04-30 | 2020-08-18 | 中国银行股份有限公司 | 一种外币识别方法及装置 |
CN111767946B (zh) * | 2020-06-19 | 2024-03-22 | 北京康夫子健康技术有限公司 | 医学影像分级模型训练及预测方法、装置、设备及介质 |
CN111767946A (zh) * | 2020-06-19 | 2020-10-13 | 北京百度网讯科技有限公司 | 医学影像分级模型训练及预测方法、装置、设备及介质 |
CN111738365A (zh) * | 2020-08-06 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 图像分类模型训练方法、装置、计算机设备及存储介质 |
CN112288012A (zh) * | 2020-10-30 | 2021-01-29 | 杭州海康威视数字技术股份有限公司 | 图像识别方法、装置及存储介质 |
CN112418287B (zh) * | 2020-11-16 | 2023-10-13 | 深圳市优必选科技股份有限公司 | 图像预标注方法、装置、电子设备及介质 |
CN112418287A (zh) * | 2020-11-16 | 2021-02-26 | 深圳市优必选科技股份有限公司 | 图像预标注方法、装置、电子设备及介质 |
CN112801857A (zh) * | 2020-11-30 | 2021-05-14 | 泰康保险集团股份有限公司 | 一种图像的数据处理方法及装置 |
CN112651175A (zh) * | 2020-12-23 | 2021-04-13 | 成都北方石油勘探开发技术有限公司 | 一种油藏注采方案优化设计方法 |
US20220239510A1 (en) * | 2021-01-25 | 2022-07-28 | Marvell Asia Pte Ltd | Ethernet physical layer transceiver with non-linear neural network equalizers |
CN113140012A (zh) * | 2021-05-14 | 2021-07-20 | 北京字节跳动网络技术有限公司 | 图像处理方法、装置、介质及电子设备 |
CN113140012B (zh) * | 2021-05-14 | 2024-05-31 | 北京字节跳动网络技术有限公司 | 图像处理方法、装置、介质及电子设备 |
CN114998159A (zh) * | 2022-08-04 | 2022-09-02 | 邹城市天晖软件科技有限公司 | 一种设计图像自适应增强方法 |
CN115661486A (zh) * | 2022-12-29 | 2023-01-31 | 有米科技股份有限公司 | 图像特征的智能提取方法及装置 |
CN118429693A (zh) * | 2024-04-07 | 2024-08-02 | 连云港绸疆建材有限公司 | 应用置信度比较的钢材智能分类系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110399929B (zh) | 2023-04-28 |
CN109753978B (zh) | 2023-02-17 |
EP3674968A4 (en) | 2020-11-04 |
EP3674968A1 (en) | 2020-07-01 |
EP3674968B1 (en) | 2024-06-05 |
CN110399929A (zh) | 2019-11-01 |
WO2019085757A1 (zh) | 2019-05-09 |
US11295178B2 (en) | 2022-04-05 |
US20200250497A1 (en) | 2020-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109753978A (zh) | 图像分类方法、装置以及计算机可读存储介质 | |
CN110348428A (zh) | 眼底图像分类方法、装置及计算机可读存储介质 | |
CN109300121B (zh) | 一种心血管疾病诊断模型的构建方法、系统及该诊断装置 | |
Hemanth et al. | RETRACTED ARTICLE: An enhanced diabetic retinopathy detection and classification approach using deep convolutional neural network | |
CN108021916B (zh) | 基于注意力机制的深度学习糖尿病视网膜病变分类方法 | |
Esfahani et al. | Classification of diabetic and normal fundus images using new deep learning method | |
CN108898579A (zh) | 一种图像清晰度识别方法、装置和存储介质 | |
CN109117864A (zh) | 基于异构特征融合的冠心病风险预测方法、模型及系统 | |
CN111815574A (zh) | 一种用于眼底视网膜血管图像分割的粗糙集神经网络方法 | |
CN109223002A (zh) | 自闭症患病预测方法、装置、设备及存储介质 | |
Qin et al. | Learning from limited and imbalanced medical images with finer synthetic images from gans | |
Lin et al. | Blu-gan: Bi-directional convlstm u-net with generative adversarial training for retinal vessel segmentation | |
Tehrani et al. | Multi-input 2-dimensional deep belief network: diabetic retinopathy grading as case study | |
Zhang et al. | A novel DenseNet Generative Adversarial network for Heterogenous low-Light image enhancement | |
CN110415816A (zh) | 一种基于迁移学习的皮肤病临床图像多分类方法 | |
Angeline et al. | Automated Detection of Cataract Using a Deep Learning Technique | |
CN117152042A (zh) | 基于注意力机制的眼底彩照处理装置 | |
Gayathri et al. | Cataract Disease Classification using Convolutional Neural Network Architectures | |
Zhou et al. | Enhancing tiny tissues segmentation via self-distillation | |
Singh et al. | Detection of diabetic retinopathy and age-related macular degeneration using DenseNet based neural networks | |
Akshita et al. | Diabetic retinopathy classification using deep convolutional neural network | |
Li et al. | GIPC-GAN: an end-to-end gradient and intensity joint proportional constraint generative adversarial network for multi-focus image fusion | |
Dhawale et al. | A Framework to Identify Color Blindness Charts Using Image Processing and CNN | |
CN114038051B (zh) | 一种原发性闭角型青光眼的房角关闭机制分型方法 | |
CN117437249B (zh) | 眼底血管图像的分割方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |