CN110458217B - 图像识别方法及装置、眼底图像识别方法和电子设备 - Google Patents
图像识别方法及装置、眼底图像识别方法和电子设备 Download PDFInfo
- Publication number
- CN110458217B CN110458217B CN201910702177.9A CN201910702177A CN110458217B CN 110458217 B CN110458217 B CN 110458217B CN 201910702177 A CN201910702177 A CN 201910702177A CN 110458217 B CN110458217 B CN 110458217B
- Authority
- CN
- China
- Prior art keywords
- image
- category
- identified
- training
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 239000013598 vector Substances 0.000 claims abstract description 140
- 238000003062 neural network model Methods 0.000 claims abstract description 74
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims description 208
- 230000008569 process Effects 0.000 claims description 38
- 238000010586 diagram Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 description 18
- 206010038848 Retinal detachment Diseases 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 11
- 230000004264 retinal detachment Effects 0.000 description 11
- 208000002367 Retinal Perforations Diseases 0.000 description 10
- 208000021328 arterial occlusion Diseases 0.000 description 10
- 230000003902 lesion Effects 0.000 description 10
- 208000029233 macular holes Diseases 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 9
- 208000031104 Arterial Occlusive disease Diseases 0.000 description 8
- 238000004590 computer program Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000003745 diagnosis Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000740 bleeding effect Effects 0.000 description 2
- 210000004204 blood vessel Anatomy 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 208000030533 eye disease Diseases 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 206010012689 Diabetic retinopathy Diseases 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000001631 hypertensive effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Ophthalmology & Optometry (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Eye Examination Apparatus (AREA)
- Image Analysis (AREA)
Abstract
本公开提供一种图像识别方法、装置以及电子设备,涉及图像处理技术领域,该方法包括:获取待识别图像;通过神经网络模型对所述待识别图像进行处理,获得所述待识别图像的特征图;通过全连接层对所述特征图进行处理,获得所述待识别图像的特征向量;根据所述待识别图像的特征向量和第一类别的标准图像的特征向量获得所述待识别图像和所述第一类别的标准图像之间的相似度;根据所述待识别图像和所述第一类别的标准图像之间的相似度对所述待识别图像进行识别。本公开实施例提供的技术方案可以通过待识别图像与第一类别的标准图像之间的相似度对所述待识别图像进行识别,提高了图像识别的准确率。
Description
技术领域
本公开涉及图像处理技术领域,尤其涉及一种图像识别方法及装置、眼底图像识别方法和电子设备。
背景技术
眼部成像是医学辅助诊疗的重要手段,通过眼底图像中的出血点和血管可以直接或间接的判断出许多眼部疾病,例如:视网膜脱离、黄斑裂孔、黄斑缺失、动脉阻塞、高血压眼底病、糖尿病视网膜病变等。
在眼底图像(例如视网膜脱离、黄斑裂孔眼底图像等)识别过程中,需要通过眼底相机获取眼底图像,然后由眼科医生依靠肉眼观察来做出诊断,工作量甚大,工作效率低。
因此,一种能够高准确率的完成对眼底图像完成自动识别的方法,对辅助医生实现对眼底疾病的诊断显得尤为重要。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开实施例提供一种图像识别方法、装置以及电子设备,能够高准确率的完成对待识别图像的自动识别,提高了工作效率,节约了人力和物力。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开实施例的第一个方面,提出一种图像识别方法,该方法包括:获取待识别图像;通过神经网络模型对所述待识别图像进行处理,获得所述待识别图像的特征图;通过全连接层对所述特征图进行处理,获得所述待识别图像的特征向量;根据所述待识别图像的特征向量和第一类别的标准图像的特征向量获得所述待识别图像和所述第一类别的标准图像之间的相似度;根据所述待识别图像和所述第一类别的标准图像之间的相似度对所述待识别图像进行识别。
在一些实施例中,所述第一类别包括至少两个类别,每个类别包括至少一张标准图像;其中,根据所述待识别图像和所述第一类别的标准图像之间的相似度对所述待识别图像进行识别,包括:分别从每个类别中选取一张标准图像作为各个类别的目标图像,并确定所述目标图像的特征向量;根据各个类别的目标图像的特征向量与所述待识别图像的特征向量确定第一相似度,其中所述第一相似度包括目标类别的目标图像与所述待识别图像之间的相似度;根据所述目标类别的目标图像与所述待识别图像之间的相似度和所述第一相似度,确定所述目标类别的目标图像与所述待识别图像之间的归一化相似度;根据所述目标类别的目标图像与所述待识别图像之间的归一化相似度对所述待识别图像进行识别。
在一些实施例中,所述目标类别包括N张标准图像,N为大于等于1的正整数,根据所述目标类别的目标图像与所述待识别图像之间的归一化相似度对所述待识别图像进行识别,包括:分别确定所述目标类别的N张标准图像对应的归一化相似度;根据所述N张标准图像对应的归一化相似度确定所述待识别图像属于所述目标类别的概率。
在一些实施例中,所述图像识别方法还包括:获取第一训练图像和所述第一类别的第二训练图像,所述第一训练图像包括类别标签;通过所述神经网络模型分别对所述第一训练图像和所述第二训练图像进行处理,获得所述第一训练图像和所述第二训练图像的特征图;通过所述全连接层分别对所述第一训练图像和所述第二训练图像的特征图进行处理,获得所述第一训练图像和所述第二训练图像的特征向量;根据所述第一训练图像的特征向量和所述第二训练图像的特征向量,获得所述第一训练图像和所述第二训练图像之间的相似度;根据所述第一训练图像和所述第二训练图像的相似度,第一类别确定所述第一训练图像属于所述第一类别的概率;第一类别基于所述第一训练图像属于所述第一类别的概率和所述第一训练图像的类别标签更新所述神经网络模型的参数。
在一些实施例中,基于所述第一训练图像属于所述第一类别的概率和所述第一训练图像的类别标签更新所述神经网络模型的参数,包括:基于交叉熵损失函数确定所述神经网络模型的损失;根据所述损失更新所述神经网络模型的参数。
在一些实施例中,在获得所述待识别图像的特征向量之前,所述图像识别方法还包括:通过所述神经网络模型对所述第一类别的标准图像进行处理,获得所述第一类别的标准图像的特征图;通过所述全连接层对所述第一类别的标准图像的特征图进行处理,获得所述第一类别的标准图像的特征向量;存储所述第一类别的标准图像的特征向量。
在一些实施例中,所述图像识别方法还包括:获取待识别图像和所述第一类别的标准图像;通过神经网络模型对所述待识别图像和所述第一类别的标准图像进行处理,获得所述待识别图像和所述第一类别的标准图像的特征图;通过全连接层对所述待识别图像和所述第一类别的标准图像的特征图进行处理,获得所述待识别图像和所述第一类别的标准图像的特征向量;根据所述待识别图像所述第一类别的标准图像的特征向量,获得所述待识别图像和所述第一类别的标准图像之间的相似度;根据所述待识别图像和所述第一类别的标准图像之间的相似度对所述待识别图像进行识别。
根据本公开实施例的第二个方面,提出一种眼底图像识别方法,所述眼底图像识别方法包括:获取待识别眼底图像;通过神经网络模型对所述待识别眼底图像进行处理,获得所述待识别眼底图像的特征图;通过全连接层对所述特征图进行处理,获得所述待识别眼底图像的特征向量;根据所述待识别眼底图像的特征向量和第一类别的标准眼底图像的特征向量获得所述待识别眼底图像和所述第一类别的标准眼底图像之间的相似度;根据所述待识别眼底图像和所述第一类别的标准眼底图像之间的相似度对所述待识别眼底图像进行识别。
根据本公开实施例的第三个方面,提出一种图像识别装置,所述图像识别装置包括:图像获取模块、特征图提取模块、特征向量获取模块、相似度确定模块以及识别模块。
其中,图像获取模块,配置为获取待识别图像;特征图提取模块,配置为通过神经网络模型对所述待识别图像进行处理,获得所述待识别图像的特征图;特征向量获取模块,配置为通过全连接层对所述特征图进行处理,获得所述待识别图像的特征向量;相似度确定模块,配置为根据所述待识别图像的特征向量和第一类别的标准图像的特征向量获得所述待识别图像和所述第一类别的标准图像之间的相似度;识别模块,配置为根据所述待识别图像和所述第一类别的标准图像之间的相似度对所述待识别图像进行识别。
根据本公开实施例的第四个方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一项方法。
根据本公开实施例的第五个方面,提出一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述任一项所述方法。
本公开实施例提供的图像识别方法、装置和电子设备,一方面通过神经网络模型和全连接层确定了待识别图像的特征向量,该特征向量包含的信息丰富,有助于进行图像识别;另一方面,基于待识别图像与第一类别的标准图像的特征向量确定了待识别图像与第一类别的标准图像之间的相似度,通过待识别图像与第一类别的标准图像之间的相似度完成了对待识别图像的识别,提高了图像识别的准确率。另外,通过本公开实施例提供的技术方案可以高效的完成对待识别图像的识别,节约了人力物力。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。下面描述的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用于本公开实施例的图像识别方法、眼底图像识别方法、图像识别装置或眼底图像识别装置的示例性系统架构的示意图。
图2是根据一示例性实施例示出的一种图像识别方法的流程图。
图3是根据相关技术示意性示出的一种Resnet-18的模块结构的示意图。
图4是根据相关技术示意性示出的一种眼底图像示意图。
图5是图2中步骤S05在一示例性实施例中的流程图。
图6是图5中步骤S054在一示例性实施例中的流程图。
图7是根据一示例性实施例示出的另一种图像识别方法的流程图。
图8是图7中步骤S11在一示例性实施例中的流程图。
图9是图2中步骤S04在一示例性实施例中的流程图。
图10是根据一示例性实施例示出的一种眼底图像识别方法。
图11是根据一示例性实施例示出的基于眼底图像识别方法对待识别眼底图像进行图像识别的示意图。
图12是根据一示例性实施例示出的一种图像识别方法的实现过程的示意图。
图13是根据一示例性实施例示出的一种图像识别装置的框图。
图14是根据一示例性实施例示出的一种应用于图像识别装置或眼底图像识别装置的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图仅为本公开的示意性图解,图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和步骤,也不是必须按所描述的顺序执行。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本说明书中,用语“一个”、“一”、“该”、“所述”和“至少一个”用以表示存在一个或多个要素/组成部分/等;用语“包含”、“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”、“第二”和“第三”等仅作为标记使用,不是对其对象的数量限制。
下面结合附图对本公开示例实施方式进行详细说明。
图1示出了可以应用于本公开实施例的图像识别方法、眼底图像识别方法、图像识别装置或眼底图像识别装置的示例性系统架构的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。其中,终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理,并将处理结果反馈给终端设备。
服务器105可例如获取待识别图像;服务器105可例如通过神经网络模型对所述待识别图像进行处理,获得所述待识别图像的特征图;服务器105可例如通过全连接层对所述特征图进行处理,获得所述待识别图像的特征向量;服务器105可例如根据所述待识别图像的特征向量和第一类别的标准图像的特征向量获得所述待识别图像和所述第一类别的标准图像之间的相似度;服务器105可例如根据所述待识别图像和所述第一类别的标准图像之间的相似度对所述待识别图像进行识别。
在另外一些实施例中,服务器105还可例如获取待识别眼底图像;服务器105还可例如通过神经网络模型对所述待识别眼底图像进行处理,获得所述待识别眼底图像的特征图;服务器105还可例如通过全连接层对所述特征图进行处理,获得所述待识别眼底图像的特征向量;服务器105还可例如根据所述待识别眼底图像的特征向量和第一类别的标准眼底图像的特征向量获得所述待识别眼底图像和所述第一类别的标准眼底图像之间的相似度;服务器105还可例如根据所述待识别眼底图像和所述第一类别的标准眼底图像之间的相似度对所述待识别眼底图像进行识别。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,服务器105可以是一个实体的服务器,还可以为多个服务器组成,根据实际需要,可以具有任意数目的终端设备、网络和服务器。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在相关技术中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本公开一些实施例提供的图像识别方法基于机器学习方法,高准确率的完成了对图像进行自动识别。
图2是根据一示例性实施例示出的一种图像识别方法的流程图。本公开实施例所提供的方法可以由任意具备计算处理能力的电子设备处理,例如上述图1实施例中的服务器105和/或终端设备102、103,在下面的实施例中,以服务器105为执行主体为例进行举例说明,但本公开并不限定于此。
参照图2,本公开实施例提供的图像识别方法可以包括以下步骤。
在步骤S01中,获取待识别图像。
在一些实施例中,所述待识别图像可以指的是任意需要进行识别的图像。例如,在眼底图像识别过程中,所述待识别图像可以指的是一种眼底图像。
本公开实施例将以所述待识别图像为眼底图像为例对实施例进行举例说明,但应该理解的是,本公开并不限定于此,可以根据应用场景的不同变换所述待识别图像。
在一些实施例中,所述待识别图像可以包括多张图片,本公开并不限制所述待识别图像的个数。
在步骤S02中,通过神经网络模型对所述待识别图像进行处理,获得所述待识别图像的特征图。
在一些实施例中,所述神经网络模型可以指的是任意能够对所述待识别图像进行特征提取的神经网络模型。例如,所述神经网络模型可以指的是Resnet(Residual NeuralNetwork,残差网络)、VGG(Visual Geometry Group,视觉几何组网络)或者其它可以进行特征提取的神经网络模型。
在一些实施例中,可以采用Resnet-18(Resnet网络中的一种)作为所述神经网络模型。
在一些实施例中,所述Resnet-18的模型示意图可以如表1所示。
表1:ResNet-18结构表
在一些实施例中,在Resnet-18的每个卷积层后面都有一个激活函数和BatchNormalization(批标准化)层,其中激活函数可例如是Relu(Rectified Linear Units,修正线性单元)激活函数。
在一些实施例中,可以通过如图3所示结构构建所述Resnet-18网络中的模块。
在步骤S03中,通过全连接层对所述特征图进行处理,获得所述待识别图像的特征向量。
在一些实施例中,可以使用一个1x1x512的全连接层对所述待识别图像的特征向量进行处理,以生成一个1x512的特征向量。
在步骤S04中,根据所述待识别图像的特征向量和第一类别的标准图像的特征向量获得所述待识别图像和所述第一类别的标准图像之间的相似度。
在一些实施例中,所述第一类别可以包括至少两种图像类别。
在一些实施例中,所述标准图像可以是用来对比的图像。
例如,在对眼底图像进行眼底病变识别的过程中,所述第一类别的标准图像可以包括多个类别的眼底病变图像,如视网膜脱离眼底图像、黄斑裂孔眼底图像、黄斑缺失眼底图像以及动脉阻塞眼底图像等,其中每种类别的眼底病变图像又可以包括至少一张图像。
在一些实施例中,可以通过所述神经网络模型对所述第一类别的标准图像进行处理,获得所述第一类别的标准图像的特征图,然后通过全连接层对所述第一类别的标准图像的特征图进行处理,获得所述第一类别的标准图像的特征向量;最后存储所述第一类别的标准图像的特征向量,以备使用。
在一些实施例中,可以根据所述待识别图像的特征向量和所述第一类别的标准图像的特征向量确定所述待识别图像和所述第一类别的标准图像之间的相似度。
例如,假设第一类别的标准图像包括:10张视网膜脱离眼底图像、40张黄斑裂孔眼底图像、50张动脉阻塞眼底图像等,那么根据上述第一类别的标准图像的特征向量和所述待识别图像的特征向量可以分别确定所述待识别图像与各视网膜脱离眼底图像、各黄斑裂孔眼底图像以及各动脉阻塞眼底图像的相似度。
在一些实施例中,可以通过余弦距离确定所述待识别图像与所述第一类别的标准图像之间的相似度。例如,可以通过以下公式确定所述待识别图像与所述第一类别的标准图像之间的相似度。
其中,·代表向量点乘运算,f(x′j)代表所述待识别图像的特征向量,f(xn)代表所述第一类别的标准图像的特征向量,代表所述待识别图像x′j与所述第一类别的标准图像xn的相似度,j等于1,n是大于等于1且小于等于所述第一类别的标准图像的个数的正整数。容易理解的是,当两张图像属于同一类别时,它们之间的相似度会较高。
在步骤S05中,根据所述待识别图像和所述第一类别的标准图像之间的相似度对所述待识别图像进行识别。
上述实施例提供的技术方案,一方面通过神经网络模型和全连接层确定了待识别图像的特征向量,该特征向量包含的信息丰富,有助于提高图像识别的准确率;另一方面,基于待识别图像与第一类别的标准图像的特征向量确定了待识别图像与第一类别的标准图像之间的相似度,通过待识别图像与第一类别的标准图像之间的相似度完成了对待识别图像的识别,提高了图像识别的准确率。另外,通过本公开实施例提供的技术方案可以高效的完成对待识别图像的识别,节约了人力物力。进一步的,例如可以将本方案应用于医学领域,以提高对疾病判断的准确率,进而缩短医生的诊断时间,提高工作效率。
图4是根据相关技术示意性示出的一种眼底图像示意图。
在一些实施例中,所述眼底图像可以通过眼底相机获得。
在医学领域中,所述眼底图像是一种辅助医疗诊断的重要手段,例如可以通过眼底图像中的病灶区域(如出血点)和血管,直接或间接的判断出许多眼部疾病),如视网膜脱离、黄斑裂孔、黄斑缺失以及动脉阻塞等。
如图4所示,通过图4所示的眼底图像以及其中的病灶区域400可以对该图像的病变类别进行判断。
在一些实施例中,可以使用图4所示实施例提供的图像识别方法对所述眼底图像进行处理,以根据所述病灶区域400确定所述眼底图像的病变类别。
图5是图2中步骤S05在一示例性实施例中的流程图。
在一些实施例中,所述第一类别包括至少两个类别,每个类别包括至少一张标准图像。如图5所示,本公开实施例中上述步骤S05可以包括以下步骤。
在步骤S051中,分别从每个类别中选取一张标准图像作为各个类别的目标图像,并确定所述目标图像的特征向量。
在一些实施例中,可以分别从每个类别中选取一张标准图像作为其对应的目标图像,然后进一步的确定所述目标图像的特征向量。
以眼底图像为例,假设第一类别的标准图像包括:30张视网膜脱离标准图像、29张黄斑裂孔标准图像、31张动脉阻塞标准图像等,可以从上述三种类别的标准图像中分别选取一张标准图像以作为上述各个类别的目标图像。
在步骤S052中,根据各个类别的目标图像的特征向量与所述待识别图像的特征向量确定第一相似度,其中所述第一相似度包括目标类别的目标图像与所述待识别图像之间的相似度。
在一些实施例中,所述第一相似度指的是各个类别的目标图像与所述待识别图像之间的相似度。
在一些实施例中,可以根据公式(1)确定各个类别的目标图像与所述待识别图像之间的相似度。
在步骤S053中,根据所述目标类别的目标图像与所述待识别图像之间的相似度和所述第一相似度,确定所述目标类别的目标图像与所述待识别图像之间的归一化相似度。
在一些实施例中,可以使用softmax(分类器)函数将所述目标类别的目标图像与所述待识别图像之间的相似度归一化至[0,1]。
例如,可以通过以下公式对所述待识别图像和所述目标类别的目标图像之间的相似度进行归一化处理。
其中,代表待识图像x′j和目标类别i的目标图像xi之间的相似度,其中j等于1,i是大于等于1小于等于k的正整数,k等于第一类别中的类别个数(一般等于所述目标图像的个数)。
在步骤S504中,根据所述目标类别的目标图像与所述待识别图像之间的归一化相似度对所述待识别图像进行识别。
在一些实施例中,可以根据所述目标类别的目标图像与所述待识别图像之间的归一化相似度对所述待识别图像进行识别。例如,可以获取与所述待识别图像相似度最高的目标图像的类别,以作为所述待识别图像的类别;再例如可以获取第一类别中的每个类别的标准图像对应的归一化相似度总和或者归一化相似度平均值或者归一化相似度最小值等,作为每个类别的类别相似度,然后将类别相似度最高的类别作为所述待识别图像的类别。
图6是图5中步骤S054在一示例性实施例中的流程图。
在一些实施例中,所述目标类别包括N张标准图像,N为大于等于1的正整数。如图6所示,本公开实施例中,上述步骤S054可以包括以下步骤。
在步骤S0521中,分别确定所述目标类别的N张标准图像对应的归一化相似度。
在一些实施例中,所述目标类别可以是指定类别。以眼底图像为例,假设第一类别的标准图像包括:30张视网膜脱离标准图像、29张黄斑裂孔标准图像、31张动脉阻塞标准图像等,那么目标类别可以是视网膜脱落类别,可以是黄斑裂孔类别,也可以是动脉阻塞类别。
在一些实施例中,分别确定所述目标类别的N张标准图像对应的归一化相似度可以包括以下步骤。
步骤1,从各个类别中选取一张标准图像作为所述各个类别的目标图像,并确定所述目标对象的特征向量;步骤2,通过所述特征向量确定各个类别的目标图像与所述待识别图像之间的相似度(包括目标类别的目标图像与所述待识别图像之间的相似度);步骤3,根据各个类别的目标图像与所述待识别图像之间的相似度和所述目标类别的目标图像与所述待识别图像之间的相似度,确定所述目标类别的目标图像与所述待识别图像之间的归一化相似度;步骤4,重复步骤1至步骤3(如果某个类别的标准图像被全部计算完成后,则跳过该类别,则此时第一类别的类别个数则对应减少)直至各个类别中的所有标准图像都被计算完成;步骤5,获得目标类别的N张标准图像对应的归一化相似度。
在步骤S0522中,根据所述N张标准图像对应的归一化相似度确定所述待识别图像属于所述目标类别的概率。
在一些实施例中,可以分别获取目标类别中的标准图像与所述待识别图像的归一化相似度的平均值,以作为所述待识别图像属于所述目标类别的概率。
例如,可以根据以下公式确定所述待识别图像属于所述目标类别的概率P。
其中,s代表目标类别i的标准图像的集合,m大于等于1小于等于N,N等于所述目标类别中的标准图像的个数,代表待识图像x′j和目标类别i的第m个标准图像xim之间的归一化相似度。
在一些实施例中,可以通过公式(3)可以获得所述待识别图像属于所述目标类别的概率。比如,所述待识别图像x′j被预测为动脉阻塞的概率为所述待识别图像x′j与每张动脉阻塞的标准图像的归一相似度的平均值,其它类别的概率以次类推。
在一些实施例中,可以根据所述待识别图像属于所述目标类别的概率对所述待识别图像进行识别。例如,可以认为所述待识别图像属于概率较高的类别。
上述实施例通过归一化后的相似度确定了所述待识别图像数据所属目标类别的概率,并根据所述概率完成了对所述待识别图像的识别,提高了图像识别的准确率,节约了人力物力。
图7是根据一示例性实施例示出的另一种图像识别方法的流程图。与上述实施例相比,图6实施例的不同之处在于,还可以包括以下步骤。
在步骤S06中,获取第一训练图像和第一类别的第二训练图像,所述第一训练图像包括类别标签。
在一些实施例中,可以通过所述第一训练图像和所述第一类别的第二训练图像训练所述神经网络模型。其中,所述第一训练图像可以是一张包括类别标签的图像,所述第一类别的第二训练图像可以是多个类别的包括类别标签的第二训练图像,并且每个类别的第二训练图像包括至少一张图像。
例如,对于罕见眼底并图像的识别训练过程中,可以选择一张带有标签的眼底图像作为所述第一训练图像,例如可以选择一张视网膜脱离眼底图像作为所述第一训练图像;还可以选择多个类别的眼底图像作为所述第一类别的第二训练图像,每个类别包括至少一张图像。例如,可以选择视网膜脱离眼底图像、黄斑裂孔眼底图像、黄板缺失眼底图像以及动脉阻塞眼底图像等作为所述第一类别的第二训练图像,其中每个类别的眼底图像包括至少一张(例如,可以包括10张至50张不等)图像。
可以理解的是,本公开对所述第一类别的第二训练图像的个数不做限制,很显然,每种类别的第二训练图像的个数越多,所述神经网络模型的训练结果越好。
在步骤S07中,通过所述神经网络模型分别对所述第一训练图像和所述第二训练图像进行处理,获得所述第一训练图像和所述第二训练图像的特征图。
在一些实施例中,可以采用Resnet-18作为所述神经网络模型。
在一些实施例中,可以采用ImageNet(图片网络)数据集上预训练的ResNet-18参数作为本公开实施例中ResNet-18神经网络模型的初始参数。
在一些实施例中,还可以采用方差为0.01,均值为0的高斯分布对所述神经网络模型的参数进行初始化处理。
在步骤S08中,通过所述全连接层分别对所述第一训练图像和所述第二训练图像的特征图进行处理,获得所述第一训练图像和所述第二训练图像的特征向量。
在一些实施例中,可以使用一个1x1x512的全连接层对所述第一训练图像和所述第二训练图像的特征图进行处理,分别生成一个1x512的特征向量。
在步骤S09中,根据所述第一训练图像的特征向量和所述第二训练图像的特征向量,获得所述第一训练图像和所述第二训练图像之间的相似度。
在一些实施例中,可以通过公式(1)确定所述第一训练图像和各个第二训练图像之间的相似度。
在步骤S10中,根据所述第一训练图像和所述第二训练图像的相似度,确定所述第一训练图像属于所述第一类别的概率。
在一些实施例中,可以使用softmax(分类器)函数将所述第一训练图像和所述第一类别的第二训练图像的相似度归一化至[0,1]。
在一些实施例中,可以通过公式(2)对所述第一训练图像和所述第一类别的第二训练图像之间的相似度进行归一化处理。
在一些实施例中,可以通过公式(3)确定所述第一训练图像属于所述第一类别的概率。
在步骤S11中,基于所述第一训练图像属于所述第一类别的概率和所述第一训练图像的类别标签更新所述神经网络模型的参数。
图8是图7中步骤S11在一示例性实施例中的流程图。参考图8,本公开实施例中步骤S11可以包括以下步骤。
在步骤S111中,基于交叉熵损失函数确定所述神经网络模型的损失。
在一些实施例中,上述交叉熵损失函数可以表示为公式(4)。
L=-[ylogy′+(1-y)log(1-y′)] (4)
其中,y为所述待识别图像的类别标签,y可以等于0或者1,y’为通过上述步骤确定的所述待识别图像属于所述第一类别的概率(小于等于1,大于等于0)。
在步骤S112中,根据所述损失更新所述神经网络模型的参数。
在一些实施例中,可以根据上述损失函数获取的损失更新所述神经网络模型的参数。
在一些实施例中,可以采用基于SGD(Stochastic Gradient Descent,随机梯度下降)求解所述神经网络模型的卷积模板参数和偏置参数。
在一些实施例中,可以在每次迭代过程中,通过损失函数获取所述第一训练图像属于所述第一类别(包括多个类别)的概率相对于所述第一训练图像的类别标签的误差,并将该误差反向传播到所述神经网络模型中,以获取神经网络模型中的梯度,根据所述梯度更新所述神经网络模型的参数。
在上述实施例中,第一训练图像可以从所述第二训练图像中随机选取。因此,所述第二训练图像可以变成第一训练图像,第一训练图像也可以变成第二训练图像。该实施例提供的图像识别方法,可以根据一组数据量不大的图像集合,通过组合形成多组不同的第一训练图像和第二训练图像的集合。该图像识别方法可以在数据量不足的情况下充分学习到第一训练图像与第一类别的第二训练图像之间的类间关系。
图9是图2中步骤S04在一示例性实施例中的流程图。
在一些实施例中,在实现图2实施例中的步骤S04的同时还可以实现以下步骤。
在步骤S041中,获取所述第一类别的标准图像。
在步骤S042中,通过神经网络模型对所述第一类别的标准图像进行处理,获得所述第一类别的标准图像的特征图。
在步骤S043中,通过所述全连接层对所述第一类别的标准图像的特征图进行处理,获得所述第一类别的标准图像的特征向量。
上述实施例,通过所述神经网络模型和所述全连接层确定了所述待识别图像和所述第一类别的标准图像的特征向量,然后基于二者的特征向量确定了它们之间的相似度,接着基于所述待识别图像和所述第一类别的标准图像的特征向量确定了所述待识别图像的类别。该方法通过实时获取信息丰富的特征向量,准确的确定了所述待识别图像和所述第一类别的标准图像之间的相似度,然后基于所述待识别图像和所述第一类别的标准图像之间的相似度完成了对待识别图像的识别,提高了图像识别的准确率。另外,通过本公开实施例提供的技术方案可以高效的完成对待识别图像的识别,极大地节约了人力物力。
图10是根据一示例性实施例示出的一种眼底图像识别方法。参考图10,所述眼底图像识别方法可以包括以下步骤。
在步骤S1001中,获取待识别眼底图像。
在步骤S1002中,通过神经网络模型对所述待识别眼底图像进行处理,获得所述待识别眼底图像的特征图。
在步骤S1003中,通过全连接层对所述特征图进行处理,获得所述待识别眼底图像的特征向量。
在步骤S1004中,根据所述待识别眼底图像的特征向量和第一类别的标准眼底图像的特征向量获得所述待识别眼底图像和所述第一类别的标准眼底图像之间的相似度。
在步骤S1005中,根据所述待识别眼底图像和所述第一类别的标准眼底图像之间的相似度对所述待识别眼底图像进行识别。
本公开实施例提供的眼底图像识别方法,可以随机从病变眼底图像集合(例如,可以是从各大医院收集到的各类眼底疾病的眼底图像)中随机选取一张图像作为所述第一训练眼底图像,将所述病变眼底图像集合中的所有图像作为所述第二训练眼底图像。因此,可以通过多次随机组合,形成第一训练眼底图像不同的训练样本,解决了训练样本数据量少,类间关系获取不充分的问题。
在一些实施例中,上述病变眼底图像集合中可以包括正常眼底图像。
在医疗领域中,眼底病变案例较少,为了能够更好地学习到不同类别眼底疾病之间的关系,可以采用本公开实施例提供的眼底图像识别方法。该方法,一方面可以基于所述眼底图像和所述第一类别的标准眼底图像的相似度确定所述待识别眼底图像的类别,提高了图像识别的准度率;另一方面,在训练所述神经网络模型时,可以基于少量的样本准确的训练出所述待识别眼底图像和第一类别中各个类别图像之间的关系。
图11是根据一示例性实施例示出的基于眼底图像识别方法对待识别眼底图像进行图像识别的示意图。
如图11所示,可以将所述待识别眼底图像输入至Resnet-18,以获取所述待识别眼底图像的特征图,然后使用全连接层对所述待识别眼底图像的特征图进行处理以获得所述待识别眼底图像的特征向量;同时,将所述第一类别的标准眼底图像输入至Resnet-18中,以获得各标准眼底图像的特征图,然后使用全连接层对各标准眼底图像的特征图进行处理以获取各标准眼底图像的特征向量;接着,根据所述待识别眼底图像和各标准眼底图像的特征向量求出二者之间的相似度;最后基于所述待识别眼底图像和各标准眼底图像的相似度对所述待识别眼底图像进行识别。
图12是根据一示例性实施例示出的一种图像识别方法的实现过程的示意图。如图12所示,所述图像识别方法的实现包括以下过程。
第一客户端接收用户输入的所述待识别图像(或所述待识别眼底图像),并将所述待识别图像(或所述待识别眼底图像)向后端传输;所述后端根据上述实施例提供的图像识别方法(或眼底图像识别方法)对所述待识别图像(或所述待识别眼底图像)进行处理,以获得对所述待识别图像的识别结果;所述后端将识别结果发送给第二客户端,以用于显示或者进一步图像处理。
在一些实施例中,上述第一客户端可以包括但不限于电脑、手机平板等具备图像信息录入功能的硬件,上述后端和所述第二客户端可以是包括但不限于服务器、手机、膝上型便携计算机和台式计算机等具备计算功能的电子设备。
图13是根据一示例性实施例示出的一种图像识别装置的框图。参照图13,本公开实施例提供的图像识别装置1300可以包括图像获取模块1301、特征图提取模块1302、特征向量获取模块1303、相似度确定模块1304以及图像识别模块1305。
其中,图像获取模块1301可以配置为获取待识别图像;特征图提取模块1302可以配置为通过神经网络模型对所述待识别图像进行处理,获得所述待识别图像的特征图;特征向量获取模块1303可以配置为通过全连接层对所述特征图进行处理,获得所述待识别图像的特征向量;相似度确定模块1304可以配置为根据所述待识别图像的特征向量和第一类别的标准图像的特征向量获得所述待识别图像和所述第一类别的标准图像之间的相似度;图像识别模块1305可以配置为根据所述待识别图像和所述第一类别的标准图像之间的相似度对所述待识别图像进行识别。
在一些实施例中,所述图像识别模块1305可以包括:目标特征向量确定单元、目标相似度确定单元、第一归一化单元以及图像识别单元。
其中,所述目标特征向量确定单元可以配置为分别从每个类别中选取一张标准图像作为各个类别的目标图像,并确定所述目标图像的特征向量;所述目标相似度确定单元可以配置为根据各个类别的目标图像的特征向量与所述待识别图像的特征向量确定第一相似度,其中所述第一相似度包括目标类别的目标图像与所述待识别图像之间的相似度;所述第一归一化单元可以配置为根据所述目标类别的目标图像与所述待识别图像之间的相似度和所述第一相似度,确定所述目标类别的目标图像与所述待识别图像之间的归一化相似度;所述图像识别单元可以配置为根据所述目标类别的目标图像与所述待识别图像之间的归一化相似度对所述待识别图像进行识别。
在一些实施例中,所述图像识别单元可以包括第二归一化子单元和概率获取子单元。
其中所述第二归一化子单元可以配置为分别确定所述目标类别的N张标准图像对应的归一化相似度;所述概率获取子单元可以配置为根据所述N张标准图像对应的归一化相似度确定所述待识别图像属于所述目标类别的概率。
在一些实施例中,所述图像识别装置1300还可以包括:训练图像获取模块、训练特征图获取模块、训练特征向量获取模块、训练相似度获取模块、训练概率确定模块以及参数更新模块。
其中,所述训练图像获取模块可以配置为获取第一训练图像和第一类别的第二训练图像,所述第一训练图像包括类别标签;所述训练特征图获取模块可以配置为通过所述神经网络模型分别对所述第一训练图像和所述第二训练图像进行处理,获得所述第一训练图像和所述第二训练图像的特征图;所述训练特征向量获取模块可以配置为通过所述全连接层分别对所述第一训练图像和所述第二训练图像的特征图进行处理,获得所述第一训练图像和所述第二训练图像的特征向量;所述训练相似度获取模块可以配置为根据所述第一训练图像的特征向量和所述第二训练图像的特征向量,获得所述第一训练图像和所述第二训练图像之间的相似度;所述训练概率确定模块可以配置为根据所述第一训练图像和所述第二训练图像的相似度,确定所述第一训练图像属于所述第一类别的概率;所述参数更新模块可以配置为基于所述第一训练图像属于所述第一类别的概率和所述第一训练图像的类别标签更新所述神经网络模型的参数。
在一些实施例中,所述参数更新模块可以包括损失获取单元和参数更新单元。
其中,所述损失获取单元可以配置为基于交叉熵损失函数确定所述神经网络模型的损失;所述参数更新单元可以配置为根据所述损失更新所述神经网络模型的参数。
在一些实施例中,所述图像识别装置1300还可以包括:标准特征图获取模块和标准特征向量获取单元。
其中,所述标准特征图获取单元可以配置为通过所述神经网络模型对所述第一类别的标准图像进行处理,获得所述第一类别的标准图像的特征图;所述标准特征向量获取单元可以配置为通过所述全连接层对所述第一类别的标准图像的特征图进行处理,获得所述第一类别的标准图像的特征向量。
在一些实施例中,所述特征向量获取模块1303还可以包括:标准图像获取模块、标准特征图提取模块、标准特征向量获取模块。
其中,所述标准图像获取模块可以配置为获取所述第一类别的标准图像;所述标准特征图提取模块可以配置为通过所述神经网络模型对所述第一类别的标准图像进行处理,获得所述第一类别的标准图像的特征图;所述标准特征向量获取模块可以配置为通过所述全连接层对所述第一类别的标准图像的特征图进行处理,获得所述第一类别的标准图像的特征向量。
由于本公开的示例实施例的图像识别装置1300的各个功能模块与上述图像识别方法的示例实施例的步骤对应,因此在此不再赘述。
在另外一些实施例中,本公开还提供了一种眼底图像识别装置,该装置包括:眼底图像获取模块、眼底特征图提取模块、眼底特征向量获取模块、眼底相似度确定模块以及眼底图像识别模块。
其中,所述眼底图像获取模块可以配置为获取待识别眼底图像;所述眼底特征图提取模块可以配置为通过神经网络模型对所述待识别眼底图像进行处理,获得所述待识别眼底图像的特征图;所述眼底特征向量获取模块可以配置为通过全连接层对所述特征图进行处理,获得所述待识别眼底图像的特征向量;所述眼底相似度确定模块可以配置为根据所述待识别眼底图像的特征向量和第一类别的标准眼底图像的特征向量获得所述待识别眼底图像和所述第一类别的标准眼底图像之间的相似度;所述眼底图像识别模块可以配置为根据所述待识别眼底图像和所述第一类别的标准眼底图像之间的相似度对所述待识别眼底图像进行识别。
由于本公开的示例实施例的眼底图像识别装置的各个功能模块与上述眼底图像识别方法的示例实施例的步骤对应,因此在此不再赘述。
下面参考图14,其示出了适于用来实现本申请实施例的终端设备的计算机系统1400的结构示意图。图14示出的终端设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图14所示,计算机系统1400包括中央处理单元(CPU)1401,其可以根据存储在只读存储器(ROM)1402中的程序或者从储存部分1408加载到随机访问存储器(RAM)1403中的程序而执行各种适当的动作和处理。在RAM1403中,还存储有系统1400操作所需的各种程序和数据。CPU 1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入/输出(I/O)接口1405也连接至总线1404。
以下部件连接至I/O接口1405:包括键盘、鼠标等的输入部分1406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1407;包括硬盘等的储存部分1408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1409。通信部分1409经由诸如因特网的网络执行通信处理。驱动器1410也根据需要连接至I/O接口1405。可拆卸介质1411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1410上,以便于从其上读出的计算机程序根据需要被安装入储存部分1408。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1409从网络上被下载和安装,和/或从可拆卸介质1411被安装。在该计算机程序被中央处理单元(CPU)1401执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块和/或单元和/或子单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块和/或单元和/或子单元也可以设置在处理器中,例如,可以描述为:一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中,这些模块和/或单元和/或子单元的名称在某种情况下并不构成对该模块和/或单元和/或子单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备可实现功能包括:获取待识别图像;通过神经网络模型对所述待识别图像进行处理,获得所述待识别图像的特征图;通过全连接层对所述特征图进行处理,获得所述待识别图像的特征向量;根据所述待识别图像的特征向量和第一类别的标准图像的特征向量获得所述待识别图像和所述第一类别的标准图像之间的相似度;根据所述待识别图像和所述第一类别的标准图像之间的相似度对所述待识别图像进行识别。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者智能设备等)执行根据本公开实施例的方法,例如图2的一个或多个所示的步骤。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其他实施例。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不限于这里已经示出的详细结构、附图方式或实现方法,相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (11)
1.一种图像识别方法,其特征在于,包括:
获取第一训练图像和多个类别下的多个第二训练图像,所述第一训练图像包括类别标签,其中每个类别下包括至少一张第二训练图像;
通过神经网络模型分别对所述第一训练图像和所述多个第二训练图像进行处理,获得所述第一训练图像和各个第二训练图像的特征图;
通过全连接层分别对所述第一训练图像和各个第二训练图像的特征图进行处理,获得所述第一训练图像和各个第二训练图像的特征向量;
根据所述第一训练图像的特征向量和各个第二训练图像的特征向量,获得所述第一训练图像和各个第二训练图像之间的相似度;
根据所述第一训练图像和各个第二训练图像的相似度,确定所述第一训练图像属于各个类别的概率;
基于所述第一训练图像属于各个类别的概率和所述第一训练图像的类别标签更新所述神经网络模型和所述全连接层的参数,以便对所述神经网络模型和所述全连接层进行训练;
获取待识别图像;
通过神经网络模型对所述待识别图像进行处理,获得所述待识别图像的特征图;
通过全连接层对所述特征图进行处理,获得所述待识别图像的特征向量;
通过所述神经网络模型和所述全连接层对各个类别下的标准图像进行处理,获得各个类别的标准图像的特征向量;
根据所述待识别图像的特征向量和各个类别下的标准图像的特征向量获得所述待识别图像和各个类别下的标准图像之间的相似度;
根据所述待识别图像和各个类别下的标准图像之间的相似度确定所述待识别图像的类别。
2.根据权利要求1所述方法,其特征在于,所述多个类别包括至少两个类别,每个类别包括至少一张标准图像;其中,根据所述待识别图像和所述各个类别下的标准图像之间的相似度确定所述待识别图像的类别,包括:
分别从每个类别中选取一张标准图像作为各个类别的目标图像,并确定所述目标图像的特征向量;
根据各个类别的目标图像的特征向量与所述待识别图像的特征向量确定第一相似度,其中所述第一相似度包括目标类别的目标图像与所述待识别图像之间的相似度;
根据所述目标类别的目标图像与所述待识别图像之间的相似度和所述第一相似度,确定所述目标类别的目标图像与所述待识别图像之间的归一化相似度;
根据所述目标类别的目标图像与所述待识别图像之间的归一化相似度对所述待识别图像进行识别。
3.根据权利要求2所述方法,其特征在于,所述目标类别包括N张标准图像,N为大于等于1的正整数;其中,根据所述待识别图像和所述各个类别下的标准图像之间的相似度确定所述待识别图像的类别,还包括:
分别确定所述目标类别的N张标准图像对应的归一化相似度;
根据所述N张标准图像对应的归一化相似度确定所述待识别图像属于所述目标类别的概率。
4.根据权利要求1所述方法,其特征在于,基于所述第一训练图像属于各个类别的概率和所述第一训练图像的类别标签更新所述神经网络模型和所述全连接层的参数,包括:
基于交叉熵损失函数确定所述神经网络模型的损失;
根据所述损失更新所述神经网络模型的参数。
5.一种眼底图像识别方法,其特征在于,包括:
获取第一训练图像和多个类别下的多个第二训练图像,所述第一训练图像包括类别标签,其中每个类别下包括至少一张第二训练图像;
通过神经网络模型分别对所述第一训练图像和所述多个第二训练图像进行处理,获得所述第一训练图像和各个第二训练图像的特征图;
通过全连接层分别对所述第一训练图像和各个第二训练图像的特征图进行处理,获得所述第一训练图像和各个第二训练图像的特征向量;
根据所述第一训练图像的特征向量和各个第二训练图像的特征向量,获得所述第一训练图像和各个第二训练图像之间的相似度;
根据所述第一训练图像和各个第二训练图像的相似度,确定所述第一训练图像属于各个类别的概率;
基于所述第一训练图像属于各个类别的概率和所述第一训练图像的类别标签更新所述神经网络模型和所述全连接层的参数,以便对所述神经网络模型和所述全连接层进行训练;
获取待识别眼底图像;
通过神经网络模型对所述待识别眼底图像进行处理,获得所述待识别眼底图像的特征图;
通过全连接层对所述特征图进行处理,获得所述待识别眼底图像的特征向量;
通过所述神经网络模型和所述全连接层对各个类别下的标准图像进行处理,获得各个类别的标准图像的特征向量;
根据所述待识别眼底图像的特征向量和各个类别下的标准眼底图像的特征向量获得所述待识别眼底图像和所述各个类别下的标准眼底图像之间的相似度;
根据所述待识别眼底图像和各个类别下的标准眼底图像之间的相似度确定所述待识别眼底图像的类别。
6.一种图像识别装置,其特征在于,包括:
训练图像获取模块,配置为获取第一训练图像和多个类别下的多个第二训练图像,所述第一训练图像包括类别标签,其中每个类别下包括至少一张第二训练图像;
训练特征图获取模块,配置为通过神经网络模型分别对所述第一训练图像和所述多个第二训练图像进行处理,获得所述第一训练图像和各个第二训练图像的特征图;
训练特征向量获取模块,配置为通过全连接层分别对所述第一训练图像和各个第二训练图像的特征图进行处理,获得所述第一训练图像和各个第二训练图像的特征向量;
训练相似度获取模块,配置为根据所述第一训练图像的特征向量和各个第二训练图像的特征向量,获得所述第一训练图像和各个第二训练图像之间的相似度;
训练概率确定模块,配置为根据所述第一训练图像和各个第二训练图像的相似度,确定所述第一训练图像属于各个类别的概率;
参数更新模块,配置为基于所述第一训练图像属于各个类别的概率和所述第一训练图像的类别标签更新所述神经网络模型和所述全连接层的参数,以便对所述神经网络模型和所述全连接层进行训练;
图像获取模块,配置为获取待识别图像;
特征图提取模块,配置为通过神经网络模型对所述待识别图像进行处理,获得所述待识别图像的特征图;
特征向量获取模块,配置为通过全连接层对所述特征图进行处理,获得所述待识别图像的特征向量;通过所述神经网络模型和所述全连接层对各个类别下的标准图像进行处理,获得各个类别的标准图像的特征向量;
相似度确定模块,配置为根据所述待识别图像的特征向量和各个类别下的标准图像的特征向量获得所述待识别图像和各个类别下的标准图像之间的相似度;
图像识别模块,配置为根据所述待识别图像和各个类别下的标准图像之间的相似度确定所述待识别图像的类别。
7.根据权利要求6所述装置,其特征在于,所述图像识别模块包括:
目标特征向量确定单元,配置为分别从每个类别中选取一张标准图像作为各个类别的目标图像,并确定所述目标图像的特征向量;
目标相似度确定单元,配置为根据各个类别的目标图像的特征向量与所述待识别图像的特征向量确定第一相似度,其中所述第一相似度包括目标类别的目标图像与所述待识别图像之间的相似度;
第一归一化单元,配置为根据所述目标类别的目标图像与所述待识别图像之间的相似度和所述第一相似度,确定所述目标类别的目标图像与所述待识别图像之间的归一化相似度;
图像识别单元,配置为根据所述目标类别的目标图像与所述待识别图像之间的归一化相似度对所述待识别图像进行识别。
8.根据权利要求7所述装置,其特征在于,所述图像识别单元包括:
第二归一化子单元,配置为分别确定所述目标类别的N张标准图像对应的归一化相似度;
概率获取子单元,配置为根据所述N张标准图像对应的归一化相似度确定所述待识别图像属于所述目标类别的概率。
9.根据权利要求6所述装置,其特征在于,所述参数更新模块包括:
损失获取单元,配置为基于交叉熵损失函数确定所述神经网络模型的损失;
参数更新单元,配置为根据所述损失更新所述神经网络模型的参数。
10.一种眼底图像识别装置,其特征在于,所述装置包括:
训练图像获取模块,配置为获取第一训练图像和多个类别下的多个第二训练图像,所述第一训练图像包括类别标签,其中每个类别下包括至少一张第二训练图像;
训练特征图获取模块,配置为通过神经网络模型分别对所述第一训练图像和所述多个第二训练图像进行处理,获得所述第一训练图像和各个第二训练图像的特征图;
训练特征向量获取模块,配置为通过全连接层分别对所述第一训练图像和各个第二训练图像的特征图进行处理,获得所述第一训练图像和各个第二训练图像的特征向量;
训练相似度获取模块,配置为根据所述第一训练图像的特征向量和各个第二训练图像的特征向量,获得所述第一训练图像和各个第二训练图像之间的相似度;
训练概率确定模块,配置为根据所述第一训练图像和各个第二训练图像的相似度,确定所述第一训练图像属于各个类别的概率;
参数更新模块,配置为基于所述第一训练图像属于各个类别的概率和所述第一训练图像的类别标签更新所述神经网络模型和所述全连接层的参数,以便对所述神经网络模型和所述全连接层进行训练;
眼底图像获取模块,配置为获取待识别眼底图像;
眼底特征图提取模块,配置为通过神经网络模型对所述待识别眼底图像进行处理,获得所述待识别眼底图像的特征图;
眼底特征向量获取模块,配置为通过全连接层对所述特征图进行处理,获得所述待识别眼底图像的特征向量;通过所述神经网络模型和所述全连接层对各个类别下的标准图像进行处理,获得各个类别的标准图像的特征向量;
眼底相似度确定模块,配置为根据所述待识别眼底图像的特征向量和各个类别下的标准眼底图像的特征向量获得所述待识别眼底图像和所述各个类别下的标准眼底图像之间的相似度;
眼底图像识别模块,配置为根据所述待识别眼底图像和第一类别的标准眼底图像之间的相似度确定所述待识别眼底图像的类别。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910702177.9A CN110458217B (zh) | 2019-07-31 | 2019-07-31 | 图像识别方法及装置、眼底图像识别方法和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910702177.9A CN110458217B (zh) | 2019-07-31 | 2019-07-31 | 图像识别方法及装置、眼底图像识别方法和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110458217A CN110458217A (zh) | 2019-11-15 |
CN110458217B true CN110458217B (zh) | 2024-04-19 |
Family
ID=68484355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910702177.9A Active CN110458217B (zh) | 2019-07-31 | 2019-07-31 | 图像识别方法及装置、眼底图像识别方法和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110458217B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110889377A (zh) * | 2019-11-28 | 2020-03-17 | 深圳市丰巢科技有限公司 | 广告物异常识别方法、装置、服务器设备及存储介质 |
CN111191706A (zh) * | 2019-12-25 | 2020-05-22 | 深圳市赛维网络科技有限公司 | 图片识别的方法、装置、设备及存储介质 |
CN111503990B (zh) * | 2020-04-10 | 2021-06-01 | 海信集团有限公司 | 一种冰箱及食材识别方法 |
CN111753114A (zh) * | 2020-06-04 | 2020-10-09 | 北京字节跳动网络技术有限公司 | 图像预标注方法、装置及电子设备 |
CN111738316B (zh) * | 2020-06-10 | 2024-02-02 | 北京字节跳动网络技术有限公司 | 零样本学习的图像分类方法、装置及电子设备 |
CN111951219B (zh) * | 2020-07-09 | 2022-12-20 | 上海交通大学 | 基于眼眶ct图像的甲状腺眼病筛查方法、系统及设备 |
CN112199998B (zh) * | 2020-09-09 | 2023-06-20 | 浙江大华技术股份有限公司 | 一种人脸识别方法、装置、设备及介质 |
CN113343823A (zh) * | 2021-05-31 | 2021-09-03 | 湖北微特传感物联研究院有限公司 | 行人检测方法、装置、计算机设备和可读存储介质 |
CN113449774A (zh) * | 2021-06-02 | 2021-09-28 | 北京鹰瞳科技发展股份有限公司 | 眼底图像质量控制方法、装置、电子设备及存储介质 |
CN116421140B (zh) * | 2023-06-12 | 2023-09-05 | 杭州目乐医疗科技股份有限公司 | 眼底相机控制方法、眼底相机与存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101402078B1 (ko) * | 2012-12-07 | 2014-06-03 | 경북대학교 산학협력단 | 얼굴 인식 장치 및 얼굴 인식 방법 |
EP3147799A1 (en) * | 2015-09-22 | 2017-03-29 | Xerox Corporation | Similarity-based detection of prominent objects using deep cnn pooling layers as features |
CN106803090A (zh) * | 2016-12-05 | 2017-06-06 | 中国银联股份有限公司 | 一种图像识别方法和装置 |
CN108090433A (zh) * | 2017-12-12 | 2018-05-29 | 厦门集微科技有限公司 | 人脸识别方法及装置、存储介质、处理器 |
CN108345866A (zh) * | 2018-03-08 | 2018-07-31 | 天津师范大学 | 一种基于深度特征学习的行人再识别方法 |
CN108830236A (zh) * | 2018-06-21 | 2018-11-16 | 电子科技大学 | 一种基于深度特征的行人重识别方法 |
CN108960342A (zh) * | 2018-08-01 | 2018-12-07 | 中国计量大学 | 基于改进SoftMax损失函数的图像相似度计算方法 |
CN109543524A (zh) * | 2018-10-18 | 2019-03-29 | 同盾控股有限公司 | 一种图像识别方法、装置 |
CN109829446A (zh) * | 2019-03-06 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 眼底图像识别方法、装置、电子设备及存储介质 |
CN110009052A (zh) * | 2019-04-11 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 一种图像识别的方法、图像识别模型训练的方法及装置 |
-
2019
- 2019-07-31 CN CN201910702177.9A patent/CN110458217B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101402078B1 (ko) * | 2012-12-07 | 2014-06-03 | 경북대학교 산학협력단 | 얼굴 인식 장치 및 얼굴 인식 방법 |
EP3147799A1 (en) * | 2015-09-22 | 2017-03-29 | Xerox Corporation | Similarity-based detection of prominent objects using deep cnn pooling layers as features |
CN106803090A (zh) * | 2016-12-05 | 2017-06-06 | 中国银联股份有限公司 | 一种图像识别方法和装置 |
CN108090433A (zh) * | 2017-12-12 | 2018-05-29 | 厦门集微科技有限公司 | 人脸识别方法及装置、存储介质、处理器 |
CN108345866A (zh) * | 2018-03-08 | 2018-07-31 | 天津师范大学 | 一种基于深度特征学习的行人再识别方法 |
CN108830236A (zh) * | 2018-06-21 | 2018-11-16 | 电子科技大学 | 一种基于深度特征的行人重识别方法 |
CN108960342A (zh) * | 2018-08-01 | 2018-12-07 | 中国计量大学 | 基于改进SoftMax损失函数的图像相似度计算方法 |
CN109543524A (zh) * | 2018-10-18 | 2019-03-29 | 同盾控股有限公司 | 一种图像识别方法、装置 |
CN109829446A (zh) * | 2019-03-06 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 眼底图像识别方法、装置、电子设备及存储介质 |
CN110009052A (zh) * | 2019-04-11 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 一种图像识别的方法、图像识别模型训练的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110458217A (zh) | 2019-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110458217B (zh) | 图像识别方法及装置、眼底图像识别方法和电子设备 | |
US11487995B2 (en) | Method and apparatus for determining image quality | |
US20220036135A1 (en) | Method and apparatus for determining image to be labeled and model training method and apparatus | |
US20190102605A1 (en) | Method and apparatus for generating information | |
CN108288051B (zh) | 行人再识别模型训练方法及装置、电子设备和存储介质 | |
CN110689025B (zh) | 图像识别方法、装置、系统及内窥镜图像识别方法、装置 | |
CN108280477B (zh) | 用于聚类图像的方法和装置 | |
CN112329964B (zh) | 用于推送信息的方法、装置、设备以及存储介质 | |
CN107729929B (zh) | 用于获取信息的方法及装置 | |
CN110837550A (zh) | 基于知识图谱的问答方法、装置、电子设备及存储介质 | |
CN109993102B (zh) | 相似人脸检索方法、装置及存储介质 | |
US11804069B2 (en) | Image clustering method and apparatus, and storage medium | |
CN109564575A (zh) | 使用机器学习模型来对图像进行分类 | |
CN109034069B (zh) | 用于生成信息的方法和装置 | |
WO2022105118A1 (zh) | 基于图像的健康状态识别方法、装置、设备及存储介质 | |
CN109117857B (zh) | 一种生物属性的识别方法、装置及设备 | |
CN112581438B (zh) | 切片图像识别方法、装置和存储介质及电子设备 | |
CN112396106B (zh) | 内容识别方法、内容识别模型训练方法及存储介质 | |
CN112784778B (zh) | 生成模型并识别年龄和性别的方法、装置、设备和介质 | |
CN108491812B (zh) | 人脸识别模型的生成方法和装置 | |
CN112418059B (zh) | 一种情绪识别的方法、装置、计算机设备及存储介质 | |
CN113806582B (zh) | 图像检索方法、装置、电子设备和存储介质 | |
CN111931628B (zh) | 人脸识别模型的训练方法、装置及相关设备 | |
CN108399401B (zh) | 用于检测人脸图像的方法和装置 | |
CN114780701A (zh) | 自动问答匹配方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |