CN110490239B - 图像质控网络的训练方法、质量分类方法、装置及设备 - Google Patents
图像质控网络的训练方法、质量分类方法、装置及设备 Download PDFInfo
- Publication number
- CN110490239B CN110490239B CN201910723269.5A CN201910723269A CN110490239B CN 110490239 B CN110490239 B CN 110490239B CN 201910723269 A CN201910723269 A CN 201910723269A CN 110490239 B CN110490239 B CN 110490239B
- Authority
- CN
- China
- Prior art keywords
- loss function
- cross entropy
- control network
- image
- quality control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003908 quality control method Methods 0.000 title claims abstract description 155
- 238000012549 training Methods 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 55
- 230000006870 function Effects 0.000 claims description 295
- 238000012545 processing Methods 0.000 claims description 52
- 238000000605 extraction Methods 0.000 claims description 39
- 230000004913 activation Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 18
- 238000010586 diagram Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 15
- 238000009826 distribution Methods 0.000 description 14
- 238000010801 machine learning Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 8
- 238000012546 transfer Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 201000004569 Blindness Diseases 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000005489 elastic deformation Effects 0.000 description 2
- 208000030533 eye disease Diseases 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 208000017442 Retinal disease Diseases 0.000 description 1
- 206010038923 Retinopathy Diseases 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 235000012431 wafers Nutrition 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Eye Examination Apparatus (AREA)
- Image Analysis (AREA)
Abstract
本公开提供一种基于人工智能的图像质控网络的训练方法、眼底图像的质量分类方法、基于人工智能的图像质控网络的训练装置及电子设备;涉及人工智能技术领域。该方法包括:确定样本图像对应的第一密集特征,并对第一密集特征进行降采样处理,得到第二密集特征;根据第二密集特征对样本图像进行分类;根据分类结果确定交叉熵损失函数、分类质量判别损失函数以及通过率损失函数;根据交叉熵损失函数、分类质量判别损失函数以及通过率损失函数对图像质控网络进行训练。本公开中的方法能够在一定程度上克服利用交叉熵损失函数训练图像质控网络的效果不佳的问题,提升图像质控网络的训练效果。
Description
技术领域
本公开涉及人工智能技术领域,并涉及机器学习技术,具体而言,涉及一种基于人工智能的图像质控网络的训练方法、眼底图像的质量分类方法、基于人工智能的图像质控网络的训练装置及电子设备。
背景技术
交叉熵(Cross Entropy)是信息论中的一个重要概念,主要用于度量两个概率分布间的差异性信息。交叉熵损失函数被广泛用于分类、分割、以及检测等项目中。此外,KL散度(Kullback–Leibler divergence)用于描述两个概率分布之间差异。
在机器学习的分类问题中,通常网络预测和标签之间的差距(即KL散度)可以表征网络的预测准确性,其中,由于KL散度中的真实分布项不变,故在优化过程中关注交叉熵即可,因此,一般使用交叉熵作为损失函数。但是,当训练样本比例不均衡时,利用交叉熵损失函数训练预测网络的效果不佳。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种基于人工智能的图像质控网络的训练方法、眼底图像的质量分类方法、基于人工智能的图像质控网络的训练装置、眼底图像的质量分类装置、计算机可读存储介质及电子设备,在一定程度上克服利用交叉熵损失函数训练图像质控网络的效果不佳的问题,提升图像质控网络的训练效果。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种基于人工智能的图像质控网络的训练方法,包括:
确定样本图像对应的第一密集特征,并对第一密集特征进行降采样处理,得到第二密集特征;
根据第二密集特征对样本图像进行分类;
根据分类结果确定交叉熵损失函数、分类质量判别损失函数以及通过率损失函数;
根据交叉熵损失函数、分类质量判别损失函数以及通过率损失函数对图像质控网络进行训练。
在本公开的一种示例性实施例中,根据交叉熵损失函数、分类质量判别损失函数以及通过率损失函数对图像质控网络进行训练,包括:
将交叉熵损失函数、分类质量判别损失函数以及通过率损失函数分别与对应的权重相乘,并将各乘积相加得到用于进行网络训练的损失函数;
通过损失函数对图像质控网络进行训练。
在本公开的一种示例性实施例中,根据第二密集特征对样本图像进行分类,包括:
对第二密集特征进行特征提取及降采样处理,得到第三密集特征;
对第三密集特征进行特征提取及降采样处理,得到第四密集特征;
根据第四密集特征对样本图像进行分类。
在本公开的一种示例性实施例中,根据分类结果确定交叉熵损失函数,包括:
根据分类结果确定真阳性交叉熵损失函数、假阳性交叉熵损失函数以及假阴性交叉熵损失函数。
在本公开的一种示例性实施例中,样本图像的数量为至少两个,根据分类结果确定分类质量判别损失函数,包括:
根据用于表示样本图像为正样本的分类结果数量、真阳性交叉熵损失函数和假阳性交叉熵损失函数确定分类质量判别损失函数。
在本公开的一种示例性实施例中,根据分类结果确定通过率损失函数,包括:
根据分类结果、真阳性交叉熵损失函数以及假阴性交叉熵损失函数确定通过率损失函数。
在本公开的一种示例性实施例中,确定样本图像对应的第一密集特征,包括:
对样本图像进行特征提取处理,得到第一密集特征,特征提取处理至少包括卷积处理、池化处理以及非线性激活函数处理。
根据本公开的第二方面,提供一种眼底图像的质量分类方法,包括:
向图像质控网络输入眼底图像;
根据图像质控网络对眼底图像进行特征提取;
对特征提取结果进行降采样,根据降采样结果对眼底图像进行质量分类;
其中,图像质控网络是根据第一方面提供的一种基于人工智能的图像质控网络的训练方法训练得到的。
根据本公开的第三方面,提供一种基于人工智能的图像质控网络的训练装置,包括密集特征确定单元、图像分类单元、损失函数确定单元以及网络训练单元,其中:
密集特征确定单元,用于确定样本图像对应的第一密集特征,并对第一密集特征进行降采样处理,得到第二密集特征;
图像分类单元,用于根据第二密集特征对样本图像进行分类;
损失函数确定单元,用于根据分类结果确定交叉熵损失函数、分类质量判别损失函数以及通过率损失函数;
网络训练单元,用于根据交叉熵损失函数、分类质量判别损失函数以及通过率损失函数对图像质控网络进行训练。
在本公开的一种示例性实施例中,网络训练单元根据交叉熵损失函数、分类质量判别损失函数以及通过率损失函数对图像质控网络进行训练的方式具体为:
网络训练单元将交叉熵损失函数、分类质量判别损失函数以及通过率损失函数分别与对应的权重相乘,并将各乘积相加得到用于进行网络训练的损失函数;
网络训练单元通过损失函数对图像质控网络进行训练。
在本公开的一种示例性实施例中,图像分类单元根据第二密集特征对样本图像进行分类的方式具体为:
图像分类单元对第二密集特征进行特征提取及降采样处理,得到第三密集特征;
图像分类单元对第三密集特征进行特征提取及降采样处理,得到第四密集特征;
图像分类单元根据第四密集特征对样本图像进行分类。
在本公开的一种示例性实施例中,损失函数确定单元根据分类结果确定交叉熵损失函数的方式具体为:
损失函数确定单元根据分类结果确定真阳性交叉熵损失函数、假阳性交叉熵损失函数以及假阴性交叉熵损失函数。
在本公开的一种示例性实施例中,样本图像的数量为至少两个,损失函数确定单元根据分类结果确定分类质量判别损失函数的方式具体为:
损失函数确定单元根据用于表示样本图像为正样本的分类结果数量、真阳性交叉熵损失函数和假阳性交叉熵损失函数确定分类质量判别损失函数。
在本公开的一种示例性实施例中,损失函数确定单元根据分类结果确定通过率损失函数的方式具体为:
损失函数确定单元根据分类结果、真阳性交叉熵损失函数以及假阴性交叉熵损失函数确定通过率损失函数。
在本公开的一种示例性实施例中,密集特征确定单元确定样本图像对应的第一密集特征的方式具体为:
密集特征确定单元对样本图像进行特征提取处理,得到第一密集特征,特征提取处理至少包括卷积处理、池化处理以及非线性激活函数处理。
根据本公开的第四方面,提供一种眼底图像的质量分类装置,包括图像输入单元、特征提取单元以及质量分类单元,其中:
图像输入单元,用于向图像质控网络输入眼底图像;
特征提取单元,用于根据图像质控网络对眼底图像进行特征提取;
质量分类单元,用于对特征提取结果进行降采样,根据降采样结果对眼底图像进行质量分类;
其中,图像质控网络是根据第一方面提供的一种基于人工智能的图像质控网络的训练方法训练得到的。
根据本公开的第五方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。
根据本公开的第六方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。
本公开示例性实施例可以具有以下部分或全部有益效果:
在本公开的一示例实施方式所提供的基于人工智能的图像质控网络的训练方法中,可以确定样本图像(如,眼底图像)对应的第一密集特征,并对第一密集特征进行降采样处理,得到第二密集特征;进而,可以根据第二密集特征对样本图像进行分类;进而,可以根据分类结果(如,清晰、局部曝光、大面积、全局曝光、屈光间质浑浊或非眼底图像等)确定交叉熵损失函数、分类质量判别损失函数以及通过率损失函数;进而,可以根据交叉熵损失函数、分类质量判别损失函数以及通过率损失函数对图像质控网络进行训练。依据上述方案描述,本公开一方面能够在一定程度上克服利用交叉熵损失函数训练图像质控网络的效果不佳的问题,提升图像质控网络的训练效果;另一方面能够通过交叉熵损失函数、分类质量判别损失函数以及通过率损失函数对图像质控网络的训练,提升图像质控网络的预测准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本公开实施例的一种基于人工智能的图像质控网络的训练方法及基于人工智能的图像质控网络的训练装置的示例性系统架构的示意图;
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图;
图3示意性示出了根据本公开的一个实施例的基于人工智能的图像质控网络的训练方法的流程图;
图4示意性示出了根据本公开的一个实施例的眼底图像的质量分类方法的流程图;
图5示意性示出了根据本公开的一个实施例的六种类别的眼底图像的示意图;
图6示意性示出了根据本公开的一个实施例的图像质控网络的框架示意图;
图7示意性示出了根据本公开的一个实施例中的基于人工智能的图像质控网络的训练装置的结构框图;
图8示意性示出了根据本公开的一个实施例中的眼底图像的质量分类装置的结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图1示出了可以应用本公开实施例的一种基于人工智能的图像质控网络的训练方法及基于人工智能的图像质控网络的训练装置的示例性应用环境的系统架构的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
本公开实施例所提供的基于人工智能的图像质控网络的训练方法和眼底图像的质量分类方法一般由服务器105执行,相应地,基于人工智能的图像质控网络的训练装置和眼底图像的质量分类装置一般设置于服务器105中。但本领域技术人员容易理解的是,本公开实施例所提供的基于人工智能的图像质控网络的训练方法和眼底图像的质量分类方法也可以由终端设备101、102、103执行,相应的,基于人工智能的图像质控网络的训练装置和眼底图像的质量分类装置也可以设置于终端设备101、102、103中,本示例性实施例中对此不做特殊限定。举例而言,在一种示例性实施例中,服务器105可以确定样本图像对应的第一密集特征,并对第一密集特征进行降采样处理,得到第二密集特征,以及,根据第二密集特征对样本图像进行分类,并根据分类结果确定交叉熵损失函数、分类质量判别损失函数以及通过率损失函数,进而,根据交叉熵损失函数、分类质量判别损失函数以及通过率损失函数对图像质控网络进行训练。此外,服务器105还可以向图像质控网络输入眼底图像,并根据图像质控网络对眼底图像进行特征提取,以及对特征提取结果进行降采样,根据降采样结果对眼底图像进行质量分类。
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图2示出的电子设备的计算机系统200仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图2所示,计算机系统200包括中央处理单元(CPU)201,其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中,还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。
以下部件连接至I/O接口205:包括键盘、鼠标等的输入部分206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207;包括硬盘等的存储部分208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器210上,以便于从其上读出的计算机程序根据需要被安装入存储部分208。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分209从网络上被下载和安装,和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时,执行本申请的方法和装置中限定的各种功能。在一些实施例中,计算机系统200还可以包括AI(ArtificialIntelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
在一些实施例中,计算机系统200还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在早期的传统机器学习时代,人们需要精心设计网络参数,以缩短神经网络预测的结果与真实结果之间的差异。而在当前的机器学习时代,人们可以使得神经网络根据每次的预测结果与目标结果的比对去自动优化网络参数,在很多场景中已不再需要对网络参数进行精心设计。
以下对本公开实施例的技术方案进行详细阐述:
随着中国人口的不断增长和人口老龄化的加剧,眼健康形式日趋严重。据统计,超过50%的人没有接受过常规眼科检查,超过90%的人发病后才接受治疗。例如,中国约有1.1亿糖尿病患者,其中,由此引起的视网膜病变的患者超过4000万,而此类病变若不及早干预治疗,后期很容易导致失明。如能在发病早期进行定期的眼科检查,失明风险可降低94.4%。
随着医疗图像深度学习技术的发展,全自动眼底AI筛查系统需求日益显著。在通过AI筛查系统对眼底图像进行筛查之前,需要对其中的图像识别网络进行训练,传统的网络训练方式为通过有监督的方式对网络进行训练,如,给予网络样本图像,以使得网络根据样本图像学习相应的特征。但是,随着输入网络的图像的多样化,传统的训练方式的网络识别准确率有所降低,这样会导致对待检测的眼底图像中的曝光不准、污损等废片的检出率不高,进而导致眼底图像中的病灶识别准确率下降。
通常情况下,是通过交叉熵损失函数或Focal Loss损失函数对网络进行训练。具体地,通常设样本图像集的p分布为真实分布,例如,[1,0,0];设样本图像集的q分布为拟合分布,例如,[0.7,0.2,0.1]。其中,可以根据真实分布p识别一个样本所需的编码长度的期望,即,平均编码长度(信息熵):可以根据拟合分布q表示来自真实分布p的编码长度的期望,即平均编码长度(交叉熵):
通常,使用p描述样本相较使用q描述样本更佳。根据吉布斯不等式,H(p)≥H(p,q)恒成立,当q为真实分布时该不等式取等,因此,可以将由q得到的平均编码长度比以及由p得到的平均编码长度多出的比特数称为相对熵,即KL散度:
在机器学习的分类问题中,通常网络预测和标签之间的差距(即KL散度)可以表征网络的预测准确性,其中,由于KL散度中的真实分布项不变,故在优化过程中关注交叉熵即可,因此,一般使用交叉熵作为损失函数:/>其中,p=[p0,...,pc-1]为概率分布,每个元素pi用于表示样本标签属于第i类的概率;y=[y0,...,yc-1]是样本标签的one hot表示,当样本标签属于第类别i时yi=1,否则yi=0;其中,c是样本标签。需要说明的是,one hot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程。但是,当训练样本比例不均衡时,利用交叉熵损失函数训练预测网络的效果不佳。
申请人发现,目前针对训练样本比例不均衡的问题,常规做法有:调整损失函数权重,提高较少的样本在损失函数中的权重比例,反之降低;或者,采用过采样或欠采样的方式解决该问题;或者,仅保留损失函数高的样本,忽略简单样本。虽然上述方法可以使得模型关注到样本不平衡的问题,但是并没有针对这个问题提出比较合理的解释。样本不平衡本身会对模型造成的问题就是让某一类别较少的样本被淹没在其他类别较多的样本中,从而让某一类别较少的样本变得不那么重要。对于一个问题,大多数样本都是简单易分的,而难分的只占少数。这往往会造成以下问题:大多数的简单样本对损失函数起主要贡献,占据了主导权,较为难分的样本就则会被模型忽略。
申请人又发现,Focal Loss损失函数可以使得模型关注到这些难分样本本身。对于多分类的交叉熵而言,其损失函数可以为:
而Focal Loss损失函数可以为:/>当/>趋于1时,f(yt)趋于0,则表示这是个易分的样本,需要削弱它对损失函数的贡献;相反,如果/>趋于0,f(yt)趋于αt,则表示这是个难分的样本,需要加强它对损失函数的贡献。
虽然Focal Loss损失函数可以降低对于困难样本的分类难度,对质控图像的效果有一定量的提升,但是却难以根据网络通过率问题进行自适应调节,另外也无法针对每一类的F1分数进行优化;其中,F1用于评价每种类别的分类性能。
基于上述一个或多个问题,本示例实施方式提供了一种基于人工智能的图像质控网络的训练方法。该基于人工智能的图像质控网络的训练方法可以应用于上述服务器105,也可以应用于上述终端设备101、102、103中的一个或多个,本示例性实施例中对此不做特殊限定。参考图3所示,该基于人工智能的图像质控网络的训练方法可以包括以下步骤S310至步骤S340:
步骤S310:确定样本图像对应的第一密集特征,并对第一密集特征进行降采样处理,得到第二密集特征。
步骤S320:根据第二密集特征对样本图像进行分类。
步骤S330:根据分类结果确定交叉熵损失函数、分类质量判别损失函数以及通过率损失函数。
步骤S340:根据交叉熵损失函数、分类质量判别损失函数以及通过率损失函数对图像质控网络进行训练。
在本公开的一示例实施方式所提供的基于人工智能的图像质控网络的训练方法中,可以确定样本图像(如,眼底图像)对应的第一密集特征,并对第一密集特征进行降采样处理,得到第二密集特征;进而,可以根据第二密集特征对样本图像进行分类;进而,可以根据分类结果(如,清晰、局部曝光、大面积、全局曝光、屈光间质浑浊或非眼底图像等)确定交叉熵损失函数、分类质量判别损失函数以及通过率损失函数;进而,可以根据交叉熵损失函数、分类质量判别损失函数以及通过率损失函数对图像质控网络进行训练。依据上述方案描述,本公开一方面能够在一定程度上克服利用交叉熵损失函数训练图像质控网络的效果不佳的问题,提升图像质控网络的训练效果;另一方面能够通过交叉熵损失函数、分类质量判别损失函数以及通过率损失函数对图像质控网络的训练,提升图像质控网络的预测准确率。
下面,对于本示例实施方式的上述步骤进行更加详细的说明。
在步骤S310中,确定样本图像对应的第一密集特征,并对第一密集特征进行降采样处理,得到第二密集特征。
本示例实施方式中,样本图像可以为眼底图像也可以为其他图像,本公开的实施例不作限定。样本图像的存储格式可以为jpg、png等图片格式中任一种,本公开的实施例不作限定。此外,样本图像的数据大小可以为512×512。
本示例实施方式中,图像质控网络中可以包括多层级联结构,密集特征可以理解为图像质控网络中各层与其顺序位之前的每一层进行融合得到的结果。级联结构至少可以包括卷积层、池化层和非线性激活层。
其中,图像质控网络可以采用DenseNet,DenseNet提出了一个相较ResNet更激进的密集连接机制,即,互相连接所有的层,具体来说,就是每个层都会接受其前面所有层作为其额外的输入。DenseNet用于通过增加网络的深度提升网络性能,由于传统网络的训练大多都存在“梯度消失”的问题,这会使得网络在计算反向传播时梯度为0,导致无法进行回传,进而造成网络训练失败。因此,DenseNet提出前面所有层与后面层进行密集连接,这样可以加强训练过程中梯度的反向传播,通过特征在网络通道上的连接来实现特征重用,以训练出更深的CNN网络。
本示例实施方式中,样本图像对应的第一密集特征可以是通过矩阵相加的形式得到的,也可以是通过通道叠加得到的,本公开的实施例不作限定。
本示例实施方式中,步骤S310之前,还可以包括以下步骤:
检测到输入的样本图像,对样本图像进行预处理:其中,预处理可以包括图像格式化、随机水平翻转、随机弹性形变和添加噪声中至少一种,进而将预处理后的样本图像输入图像质控网络。
本示例实施方式中,确定样本图像对应的第一密集特征的方式具体为:对样本图像进行特征提取处理,得到第一密集特征,特征提取处理至少包括卷积处理、池化处理以及非线性激活函数处理。
进而,对样本图像进行特征提取处理,得到第一密集特征的方式具体可以为:通过密集连接模式将各子网络提取到的图像特征进行融合,得到多个密集特征,从中可以确定出当前子网络对应的密集特征,作为第一密集特征。其中,每个子网络对应一个样本类别。
可见,实施该可选的实施方式,能够通过提取图像特征以及对图像特征的融合确定出密集特征,提升图像质控网络的质控效果。
在步骤S320中,根据第二密集特征对样本图像进行分类。
本示例实施方式中,样本图像对应的类别至少可以包括清晰、局部曝光、大面积、全局曝光、屈光间质浑浊或非眼底图像。
本示例实施方式中,根据第二密集特征对样本图像进行分类,包括:
对第二密集特征进行特征提取及降采样处理,得到第三密集特征;
对第三密集特征进行特征提取及降采样处理,得到第四密集特征;
根据第四密集特征对样本图像进行分类。
可见,实施该可选的实施方式,能够根据对于图像特征的多次降采样处理确定出其对应的类别,提升对于样本图像的分类准确率。
在步骤S330中,根据分类结果确定交叉熵损失函数、分类质量判别损失函数以及通过率损失函数。
本示例实施方式中,分类结果可以包括已通过的样本图像和未通过的样本图像;其中,已通过的样本图像可以包括清晰、局部曝光问题以及大面积污损这三种类别,并将其标注为正样本;未通过的样本图像可以包括全局曝光问题、屈光间质浑浊以及非眼底图像这三种类别。
本示例实施方式中,根据分类结果确定交叉熵损失函数、分类质量判别损失函数以及通过率损失函数的方式具体可以为:
根据分类结果与样本图像的所属类别的比对确定交叉熵损失函数、分类质量判别损失函数以及通过率损失函数。
本示例实施方式中,根据分类结果确定交叉熵损失函数,包括:
根据分类结果确定真阳性交叉熵损失函数、假阳性交叉熵损失函数以及假阴性交叉熵损失函数。
本示例实施方式中,若该样本应该被判定通过且图像质控网络也判定其通过,该样本对应的损失函数可以为真阳性损失函数;若该样本应该被判定不通过而图像质控网络判定其通过,该样本对应的损失函数可以为假阳性损失函数;若该样本应该被判定通过而图像质控网络判定其不通过,该样本对应的损失函数可以为假阴性损失函数。
可见,实施该可选的实施方式,能够根据样本图像的原始类别对图像质控网络的预测结果进行分类,以根据不同的类别确定对应的交叉熵损失函数并根据多种交叉熵损失函数对图像质控网络进行训练,以提升图像质控网络的通过率。
本示例实施方式中,样本图像的数量为至少两个,根据分类结果确定分类质量判别损失函数,包括:
根据用于表示样本图像为正样本的分类结果数量、真阳性交叉熵损失函数和假阳性交叉熵损失函数确定分类质量判别损失函数。
本示例实施方式中,分类质量判别损失函数可以为基于通过率的F-Beta损失函数,在使用F-Beta损失函数训练图像质控网络时,可以对样本的通过率进行定义,在本公开的实施例中,将清晰、局部曝光问题以及大面积污损这三种类别定义为通过,给定附加标注为正样本,用于表示该样本的质量合格。并且,将全局曝光问题、屈光间质浑浊以及非眼底图像这三种类别定义为不通过,给定附加标注为负样本,用于表示该样本的质量不合格,进而可以将质量分类问题转化为二分类的问题。其中,F-Beta损失函数以及通过率损失函数都是基于上述的附加标注计算的。F-Beta损失函数对应的表达式可以为:
其中,Y+为用于表示样本图像为正样本的分类结果数量,tp为真阳性交叉熵损失函数,fp为假阳性交叉熵损失函数。进而,可以利用F-Beta损失函数调节Beta值(Beta值默认为2),当Beta=1时可以优化图像质控网络的F1值,当Beta=2时可以将损失函数优化的更为平滑。
因此,本公开实施例中F-Beta损失函数对比Focal Loss更能够有效的抑制假阳性和假阴性产生。从损失函数可以看出,beta作为一个附加因子,可以使得损失浮动变得更平滑从而更容易进行训练。
本示例实施方式中,根据分类结果确定通过率损失函数,包括:
根据分类结果、真阳性交叉熵损失函数以及假阴性交叉熵损失函数确定通过率损失函数。
本示例实施方式中,通过率损失函数即为Pass损失函数,表达式可以为:
其中,Pass损失函数能在F-Beta损失函数在图像质控网络的定义上更进一步对图像质控网络的真阳性数据和真阴性数据进行约束,以提高网络的通过率;其中,fn为假阴性交叉熵损失函数,tp为真阳性交叉熵损失函数。由上述损失函数表达式可见,通过缩减图像质控网络的假阴性,不仅能够降低图像质控网络的假阴病例,同时也能够提高图像质控网络的整体通过率,提高图像质控网络每个类别的性能。
在步骤S340中,根据交叉熵损失函数、分类质量判别损失函数以及通过率损失函数对图像质控网络进行训练。
本示例实施方式中,根据交叉熵损失函数、分类质量判别损失函数以及通过率损失函数对图像质控网络进行训练的方式具体可以为:通过交叉熵损失函数、分类质量判别损失函数以及通过率损失函数调整图像质控网络的网络参数。其中,图像质控网络的网络参数与mobile-net相同的部分均采用在ImageNet数据集上预训练的参数进行初始化,图像质控网络中的卷积层可以采用方差为0.01,均值为0的高斯分布进行初始化。需要说明的是,ImageNet是一个用于视觉对象识别软件研究的大型可视化数据库,mobile-net是一种轻量级网络。
本示例实施方式中,采用基于SGD的梯度下降法求解图像质控网络的卷积层参数和偏置参数,权重衰减率为5*10-4。其中,SGD是一种随机最速下降算法。
本示例实施方式中,根据交叉熵损失函数、分类质量判别损失函数以及通过率损失函数对图像质控网络进行训练,包括:
将交叉熵损失函数、分类质量判别损失函数以及通过率损失函数分别与对应的权重相乘,并将各乘积相加得到用于进行网络训练的损失函数;
通过损失函数对图像质控网络进行训练。
本示例实施方式中,用于进行网络训练的损失函数的表达式可以为:Loss=λ1CE+λ2Fbeta+λ3Pass;其中,可以设置λ1=λ2=λ3=1,λ1、λ2和λ3为交叉熵损失函数、分类质量判别损失函数以及通过率损失函数分别对应的权重,λ1、λ2和λ3可以进行自定义。需要说明的是,上述的CE代表交叉熵损失函数、Fbeta代表F-Beta损失函数、Pass代表通过率损失函数。
可见,实施该可选的实施方式,能够通过交叉熵损失函数、分类质量判别损失函数以及通过率损失函数对图像质控网络的训练,增强图像质控网络的分类性能以及整体通过率。
可见,实施图3所述的基于人工智能的图像质控网络的训练方法,能够在一定程度上克服利用交叉熵损失函数训练图像质控网络的效果不佳的问题,提升图像质控网络的训练效果;以及,能够通过交叉熵损失函数、分类质量判别损失函数以及通过率损失函数对图像质控网络的训练,提升图像质控网络的预测准确率。
此外,本示例实施方式还提供了一种眼底图像的质量分类方法。该眼底图像的质量分类方法可以应用于上述服务器105,也可以应用于上述终端设备101、102、103中的一个或多个,本示例性实施例中对此不做特殊限定。参考图4所示,该眼底图像的质量分类方法可以包括以下步骤S410至步骤S430:
步骤S410:向图像质控网络输入眼底图像。
步骤S420:根据图像质控网络对眼底图像进行特征提取。
步骤S430:对特征提取结果进行降采样,根据降采样结果对眼底图像进行质量分类。
其中,图像质控网络是根据本公开实施例提供的一种基于人工智能的图像质控网络的训练方法训练得到的。
下面,对于本示例实施方式的上述步骤进行更加详细的说明。
本示例实施方式中,向图像质控网络输入的眼底图像的存储格式可以为jpg、png等图片格式中任一种,本公开的实施例不作限定。此外,眼底图像的数据大小可以为512×512。
本示例实施方式中,步骤S410之前,还可以包括以下步骤:
检测到输入的眼底图像,对眼底图像进行预处理:其中,预处理可以包括图像格式化、随机水平翻转、随机弹性形变和添加噪声中至少一种,进而将预处理后的眼底图像输入图像质控网络。
本示例实施方式中,根据图像质控网络对眼底图像进行特征提取的方式具体可以为:通过图像质控网络对眼底图像进行特征提取处理,特征提取处理至少包括卷积处理、池化处理以及非线性激活函数处理。
可见,图4所示的眼底图像的质量分类方法,能够提升对于眼底图像的质量分类效果以及质量分类效率,进而提升眼部疾病识别系统的识别准确率。
请参阅图5,图5示意性示出了根据本公开的一个实施例的六种类别的眼底图像的示意图。图5示出了清晰眼底图像501、大面积污损图像502、全局曝光图像503、局部曝光图像504、非眼底图像505以及屈光间质浑浊图像506。除了图5示出的六种类别的眼底图像,本公开的实施例还可以应用于对其他类别的眼底图像或非眼底图像的识别,本公开的实施例不作限定。
请参阅图6,图6示意性示出了根据本公开的一个实施例的图像质控网络的框架示意图。如图6所示,图像质控网络包括眼底图像601、密集模块1 602、转移模块1 603、密集模块2 604、转移模块2 605、密集模块3 606、转移模块3 607、密集模块4 608、转移模块4609、网络输出610以及损失函数611。
具体地,可以将眼底图像601(如,上述实施例中的样本图像)输入图像质控网络,以使得图像质控网络中的密集模块1 602对眼底图像601进行密集特征提取,得到第一密集特征;进而,转移模块1 603可以将第一密集特征进行降采样处理,得到第二密集特征;进而,密集模块2 604可以对第二密集特征进行密集特征提取,得到第三密集特征;进而,转移模块2 605可以将第三密集特征进行降采样处理,得到第四密集特征;进而,密集模块3 606可以对第四密集特征进行密集特征提取,得到第五密集特征;进而,转移模块3 607可以将第五密集特征进行降采样处理,得到第六密集特征;进而,密集模块4 608可以对第六密集特征进行密集特征提取,得到第七密集特征;进而,转移模块4 609可以将第七密集特征进行降采样处理,得到第八密集特征;进而,将第八密集特征对应的分类确定为网络输出610,并根据网络输出610与眼底图像601的原始类别的比对确定损失函数611,以根据损失函数611对图像质控网络进行训练。
可见,结合图6所示的图像质控网络的框架示意图实施本公开的实施例,能够提升图像质控网络的训练效果以及图像质控网络的预测准确率。
进一步的,本示例实施方式中,还提供了一种基于人工智能的图像质控网络的训练装置。该基于人工智能的图像质控网络的训练装置可以应用于服务器或终端设备。参考图7所示,该基于人工智能的图像质控网络的训练装置700可以包括密集特征确定单元701、图像分类单元702、损失函数确定单元703以及网络训练单元704,其中:
密集特征确定单元701,用于确定样本图像对应的第一密集特征,并对第一密集特征进行降采样处理,得到第二密集特征;
图像分类单元702,用于根据第二密集特征对样本图像进行分类;
损失函数确定单元703,用于根据分类结果确定交叉熵损失函数、分类质量判别损失函数以及通过率损失函数;
网络训练单元704,用于根据交叉熵损失函数、分类质量判别损失函数以及通过率损失函数对图像质控网络进行训练。
可见,实施图7所示的基于人工智能的图像质控网络的训练装置,能够在一定程度上克服利用交叉熵损失函数训练图像质控网络的效果不佳的问题,提升图像质控网络的训练效果;以及,能够通过交叉熵损失函数、分类质量判别损失函数以及通过率损失函数对图像质控网络的训练,提升图像质控网络的预测准确率。
在本公开的一种示例性实施例中,网络训练单元704根据交叉熵损失函数、分类质量判别损失函数以及通过率损失函数对图像质控网络进行训练的方式具体为:
网络训练单元704将交叉熵损失函数、分类质量判别损失函数以及通过率损失函数分别与对应的权重相乘,并将各乘积相加得到用于进行网络训练的损失函数;
网络训练单元704通过损失函数对图像质控网络进行训练。
可见,实施该示例性实施例,能够通过交叉熵损失函数、分类质量判别损失函数以及通过率损失函数对图像质控网络的训练,增强图像质控网络的分类性能以及整体通过率。
在本公开的一种示例性实施例中,图像分类单元702根据第二密集特征对样本图像进行分类的方式具体为:
图像分类单元702对第二密集特征进行特征提取及降采样处理,得到第三密集特征;
图像分类单元702对第三密集特征进行特征提取及降采样处理,得到第四密集特征;
图像分类单元702根据第四密集特征对样本图像进行分类。
可见,实施该示例性实施例,能够根据对于图像特征的多次降采样处理确定出其对应的类别,提升对于样本图像的分类准确率。
在本公开的一种示例性实施例中,损失函数确定单元703根据分类结果确定交叉熵损失函数的方式具体为:
损失函数确定单元703根据分类结果确定真阳性交叉熵损失函数、假阳性交叉熵损失函数以及假阴性交叉熵损失函数。
可见,实施该可选的实施例,能够根据样本图像的原始类别对图像质控网络的预测结果进行分类,以根据不同的类别确定对应的交叉熵损失函数并根据多种交叉熵损失函数对图像质控网络进行训练,以提升图像质控网络的通过率。
在本公开的一种示例性实施例中,样本图像的数量为至少两个,损失函数确定单元703根据分类结果确定分类质量判别损失函数的方式具体为:
损失函数确定单元703根据用于表示样本图像为正样本的分类结果数量、真阳性交叉熵损失函数和假阳性交叉熵损失函数确定分类质量判别损失函数。
可见,实施该可选的实施例,能够有效的抑制假阳性和假阴性产生,并且,通过F-Beta损失函数可以使得损失浮动变得更平滑从而更容易进行训练。
在本公开的一种示例性实施例中,损失函数确定单元703根据分类结果确定通过率损失函数的方式具体为:
损失函数确定单元703根据分类结果、真阳性交叉熵损失函数以及假阴性交叉熵损失函数确定通过率损失函数。
可见,实施该可选的实施例,通过缩减图像质控网络的假阴性,能够降低图像质控网络的假阴病例,以及,能够提高图像质控网络的整体通过率,提高图像质控网络每个类别的性能。
在本公开的一种示例性实施例中,密集特征确定单元701确定样本图像对应的第一密集特征的方式具体为:
密集特征确定单元701对样本图像进行特征提取处理,得到第一密集特征,特征提取处理至少包括卷积处理、池化处理以及非线性激活函数处理。
可见,实施该可选的实施例,能够通过提取图像特征以及对图像特征的融合确定出密集特征,提升图像质控网络的质控效果。
更进一步的,本示例实施方式中,还提供了一种眼底图像的质量分类装置。该眼底图像的质量分类装置可以应用于一服务器或终端设备。参考图8所示,该眼底图像的质量分类装置800可以包括图像输入单元801、特征提取单元802以及质量分类单元803,其中:
图像输入单元801,用于向图像质控网络输入眼底图像;
特征提取单元802,用于根据图像质控网络对眼底图像进行特征提取;
质量分类单元803,用于对特征提取结果进行降采样,根据降采样结果对眼底图像进行质量分类;
其中,图像质控网络是根据本公开实施例提供的一种基于人工智能的图像质控网络的训练方法训练得到的。
可见,实施图8所示的眼底图像的质量分类装置,能够提升对于眼底图像的质量分类效果以及质量分类效率,进而提升眼部疾病识别系统的识别准确率。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
由于本公开的示例实施例的基于人工智能的图像质控网络的训练装置的各个功能模块与上述基于人工智能的图像质控网络的训练方法的示例实施例的步骤对应,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的基于人工智能的图像质控网络的训练方法的实施例。
由于本公开的示例实施例的眼底图像的质量分类装置的各个功能模块与上述眼底图像的质量分类方法的示例实施例的步骤对应,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的眼底图像的质量分类方法的实施例。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (7)
1.一种基于人工智能的图像质控网络的训练方法,其特征在于,包括:
确定样本图像对应的第一密集特征,并对所述第一密集特征进行降采样处理,得到第二密集特征;
根据所述第二密集特征对所述样本图像进行分类,样本图像的数量为至少两个;
根据分类结果确定真阳性交叉熵损失函数、假阳性交叉熵损失函数以及假阴性交叉熵损失函数,所述真阳性交叉熵损失函数为应被判定通过且图像质控网络也判定通过的样本对应的交叉熵损失函数;所述假阳性交叉熵损失函数为应被判定不通过而图像质控网络判定通过的样本对应的交叉熵损失函数;所述假阴性交叉熵损失函数为应被判定通过而图像质控网络判定其不通过的样本对应的交叉熵损失函数;
根据用于表示所述样本图像为正样本的分类结果数量、所述真阳性交叉熵损失函数和所述假阳性交叉熵损失函数确定分类质量判别损失函数,所述正样本为样本质量合格的样本图像;
根据分类结果、所述真阳性交叉熵损失函数以及所述假阴性交叉熵损失函数确定通过率损失函数;
根据所述交叉熵损失函数、所述分类质量判别损失函数以及所述通过率损失函数对图像质控网络进行训练。
2.根据权利要求1所述的方法,其特征在于,根据所述交叉熵损失函数、所述分类质量判别损失函数以及所述通过率损失函数对图像质控网络进行训练,包括:
将所述交叉熵损失函数、所述分类质量判别损失函数以及所述通过率损失函数分别与对应的权重相乘,并将各乘积相加得到用于进行网络训练的损失函数;
通过所述损失函数对图像质控网络进行训练。
3.根据权利要求1所述的方法,其特征在于,根据所述第二密集特征对所述样本图像进行分类,包括:
对所述第二密集特征进行特征提取及降采样处理,得到第三密集特征;
对所述第三密集特征进行特征提取及降采样处理,得到第四密集特征;
根据所述第四密集特征对所述样本图像进行分类。
4.根据权利要求1所述的方法,其特征在于,确定样本图像对应的第一密集特征,包括:
对样本图像进行特征提取处理,得到第一密集特征,所述特征提取处理至少包括卷积处理、池化处理以及非线性激活函数处理。
5.一种眼底图像的质量分类方法,其特征在于,包括:
向图像质控网络输入眼底图像;
根据所述图像质控网络对所述眼底图像进行特征提取;
对特征提取结果进行降采样,根据降采样结果对所述眼底图像进行质量分类;
其中,所述图像质控网络是根据权利要求1~4任一项所述的方法训练得到的。
6.一种基于人工智能的图像质控网络的训练装置,其特征在于,包括:
密集特征确定单元,用于确定样本图像对应的第一密集特征,并对所述第一密集特征进行降采样处理,得到第二密集特征;
图像分类单元,用于根据所述第二密集特征对所述样本图像进行分类,样本图像的数量为至少两个;
损失函数确定单元,用于根据分类结果确定真阳性交叉熵损失函数、假阳性交叉熵损失函数以及假阴性交叉熵损失函数,所述真阳性交叉熵损失函数为应被判定通过且图像质控网络也判定通过的样本对应的交叉熵损失函数;所述假阳性交叉熵损失函数为应被判定不通过而图像质控网络判定通过的样本对应的交叉熵损失函数;所述假阴性交叉熵损失函数为应被判定通过而图像质控网络判定其不通过的样本对应的交叉熵损失函数;根据用于表示所述样本图像为正样本的分类结果数量、所述真阳性交叉熵损失函数和所述假阳性交叉熵损失函数确定分类质量判别损失函数,所述正样本为样本质量合格的样本图像;根据分类结果、所述真阳性交叉熵损失函数以及所述假阴性交叉熵损失函数确定通过率损失函数;
网络训练单元,用于根据所述交叉熵损失函数、所述分类质量判别损失函数以及所述通过率损失函数对图像质控网络进行训练。
7.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910723269.5A CN110490239B (zh) | 2019-08-06 | 2019-08-06 | 图像质控网络的训练方法、质量分类方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910723269.5A CN110490239B (zh) | 2019-08-06 | 2019-08-06 | 图像质控网络的训练方法、质量分类方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110490239A CN110490239A (zh) | 2019-11-22 |
CN110490239B true CN110490239B (zh) | 2024-02-27 |
Family
ID=68549949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910723269.5A Active CN110490239B (zh) | 2019-08-06 | 2019-08-06 | 图像质控网络的训练方法、质量分类方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110490239B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110889457B (zh) * | 2019-12-03 | 2022-08-19 | 深圳奇迹智慧网络有限公司 | 样本图像分类训练方法、装置、计算机设备和存储介质 |
CN110929802A (zh) * | 2019-12-03 | 2020-03-27 | 北京迈格威科技有限公司 | 基于信息熵的细分类识别模型训练、图像识别方法及装置 |
CN111091539B (zh) * | 2019-12-09 | 2024-03-26 | 上海联影智能医疗科技有限公司 | 网络模型训练、医学图像处理方法、装置、介质及设备 |
CN112690809B (zh) * | 2020-02-04 | 2021-09-24 | 首都医科大学附属北京友谊医院 | 确定设备异常原因的方法、装置、服务器和存储介质 |
CN111414286B (zh) * | 2020-03-06 | 2021-11-09 | 同济大学 | 一种基于深度学习的不平衡硬盘数据的故障诊断方法 |
CN111784595B (zh) * | 2020-06-10 | 2023-08-29 | 北京科技大学 | 一种基于历史记录的动态标签平滑加权损失方法及装置 |
CN112132847A (zh) * | 2020-09-27 | 2020-12-25 | 北京字跳网络技术有限公司 | 模型训练方法、图像分割方法、装置、电子设备和介质 |
CN112598089B (zh) * | 2021-03-04 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 图像样本的筛选方法、装置、设备及介质 |
CN113537315B (zh) * | 2021-06-30 | 2023-06-06 | 电子科技大学 | 一种基于聚类信息熵的易区分图像选择方法 |
CN113590677A (zh) * | 2021-07-14 | 2021-11-02 | 上海淇玥信息技术有限公司 | 一种数据处理方法、装置和电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372577A (zh) * | 2016-08-23 | 2017-02-01 | 北京航空航天大学 | 一种基于深度学习的交通标志自动识别与标注方法 |
CN107195299A (zh) * | 2016-03-14 | 2017-09-22 | 株式会社东芝 | 训练神经网络声学模型的方法和装置及语音识别方法和装置 |
CN107316061A (zh) * | 2017-06-22 | 2017-11-03 | 华南理工大学 | 一种深度迁移学习的不平衡分类集成方法 |
CN108229298A (zh) * | 2017-09-30 | 2018-06-29 | 北京市商汤科技开发有限公司 | 神经网络的训练和人脸识别方法及装置、设备、存储介质 |
CN109740734A (zh) * | 2018-12-29 | 2019-05-10 | 北京工业大学 | 一种优化卷积神经网络中神经元空间排布的方法 |
CN109784424A (zh) * | 2019-03-26 | 2019-05-21 | 腾讯科技(深圳)有限公司 | 一种图像分类模型训练的方法、图像处理的方法及装置 |
CN109784366A (zh) * | 2018-12-07 | 2019-05-21 | 北京飞搜科技有限公司 | 目标物体的细粒度分类方法、装置与电子设备 |
CN109829877A (zh) * | 2018-09-20 | 2019-05-31 | 中南大学 | 一种视网膜眼底图像杯盘比自动评估方法 |
CN109948660A (zh) * | 2019-02-26 | 2019-06-28 | 长沙理工大学 | 一种改进辅助分类器gan的图像分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2017217944B2 (en) * | 2016-02-10 | 2021-05-13 | Balter, Inc. | Systems and methods for evaluating pigmented tissue lesions |
KR102563752B1 (ko) * | 2017-09-29 | 2023-08-04 | 삼성전자주식회사 | 뉴럴 네트워크를 위한 트레이닝 방법, 뉴럴 네트워크를 이용한 인식 방법 및 그 장치들 |
-
2019
- 2019-08-06 CN CN201910723269.5A patent/CN110490239B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107195299A (zh) * | 2016-03-14 | 2017-09-22 | 株式会社东芝 | 训练神经网络声学模型的方法和装置及语音识别方法和装置 |
CN106372577A (zh) * | 2016-08-23 | 2017-02-01 | 北京航空航天大学 | 一种基于深度学习的交通标志自动识别与标注方法 |
CN107316061A (zh) * | 2017-06-22 | 2017-11-03 | 华南理工大学 | 一种深度迁移学习的不平衡分类集成方法 |
CN108229298A (zh) * | 2017-09-30 | 2018-06-29 | 北京市商汤科技开发有限公司 | 神经网络的训练和人脸识别方法及装置、设备、存储介质 |
CN109829877A (zh) * | 2018-09-20 | 2019-05-31 | 中南大学 | 一种视网膜眼底图像杯盘比自动评估方法 |
CN109784366A (zh) * | 2018-12-07 | 2019-05-21 | 北京飞搜科技有限公司 | 目标物体的细粒度分类方法、装置与电子设备 |
CN109740734A (zh) * | 2018-12-29 | 2019-05-10 | 北京工业大学 | 一种优化卷积神经网络中神经元空间排布的方法 |
CN109948660A (zh) * | 2019-02-26 | 2019-06-28 | 长沙理工大学 | 一种改进辅助分类器gan的图像分类方法 |
CN109784424A (zh) * | 2019-03-26 | 2019-05-21 | 腾讯科技(深圳)有限公司 | 一种图像分类模型训练的方法、图像处理的方法及装置 |
Non-Patent Citations (2)
Title |
---|
hybrid multidimensional wavelet-neuro-system and its learning using cross entropy cost function in pattern recognition;Olena vynokurova;IEEE;全文 * |
复杂场景下的手势分割算法研究;张庆锐;中国优秀硕士学位论文全文数据库信息科技辑;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110490239A (zh) | 2019-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110490239B (zh) | 图像质控网络的训练方法、质量分类方法、装置及设备 | |
CN110490242B (zh) | 图像分类网络的训练方法、眼底图像分类方法及相关设备 | |
CN111754596B (zh) | 编辑模型生成、人脸图像编辑方法、装置、设备及介质 | |
CN111737476B (zh) | 文本处理方法、装置、计算机可读存储介质及电子设备 | |
CN112784092A (zh) | 一种混合融合模型的跨模态图像文本检索方法 | |
CN112949786A (zh) | 数据分类识别方法、装置、设备及可读存储介质 | |
Wang et al. | FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection | |
CN111753918B (zh) | 一种基于对抗学习的去性别偏见的图像识别模型及应用 | |
CN110321805B (zh) | 一种基于时序关系推理的动态表情识别方法 | |
CN110795944A (zh) | 推荐内容处理方法及装置、情感属性确定方法及装置 | |
CN111932529A (zh) | 一种图像分割方法、装置及系统 | |
CN115861462B (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN110472673B (zh) | 参数调整方法、眼底图像处理方法、装置、介质及设备 | |
CN116824677A (zh) | 表情识别方法、装置、电子设备及存储介质 | |
CN116864128A (zh) | 基于身体活动行为模式监测的心理状态评估系统及其方法 | |
CN113705317B (zh) | 图像处理模型训练方法、图像处理方法及相关设备 | |
CN117011859A (zh) | 一种图片处理的方法以及相关装置 | |
CN112102285B (zh) | 一种基于多模态对抗训练的骨龄检测方法 | |
CN114579876A (zh) | 虚假信息检测方法、装置、设备及介质 | |
Wang et al. | Balanced-RetinaNet: solving the imbalanced problems in object detection | |
CN111582404A (zh) | 内容分类方法、装置及可读存储介质 | |
Luo et al. | A text detection and recognition algorithm for english teaching based on deep learning | |
CN117556275B (zh) | 相关度模型数据处理方法、装置、计算机设备和存储介质 | |
WO2024066927A1 (zh) | 图像分类模型的训练方法、装置及设备 | |
CN113515383B (zh) | 系统资源数据分配方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |