具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请所提供的实施例的应用场景进行简单介绍。
第一,本申请可以应用于医疗场景,医疗图像中包括噪声样本图像、简单样本图像以及困难样本图像,在医疗图像分类任务过程,一般是根据观察者或者标注者(医生或者放射科医生)的主观经验进行分类,因主观经验的差异,导致医疗图像的标签标注结果存在较大差异,例如将原本属于病症A的医疗图像因标注者经验不足而标注为病症B,在后续数据分析时,上述存在的误差,会在一定程度上降低医疗图像的数据价值。而利用本申请实施例提供的样本图像的识别方法,将困难样本图像和噪声样本图像进行有效区分,大大提高识别噪声样本图像的准确性。
第二,可以应用于图像分类场景,将大量的样本图像数据按照分类模型中存储的类别进行分类,并输出对应同一类别标签下所有图像,例如,有100个样本图像,该分类模型中存储有“飞机类别”、“汽车类别”、“轮船类别”以及“火车类别”四种类别,按照这四种类别对100个样本图像进行标签标注,输出类别为“飞机类别”/“汽车类别”/“轮船类别”/“火车类别”的所有样本图像用于对分类模型进行训练,而去噪声模型用于在100个样本图像中识别出标签标注错误的样本图像。
以上场景仅为示例性举例,还可以应用于其他的噪声样本图像的识别场景,本申请对此不加以限定。
其次,对本申请实施例中涉及的名词进行简单介绍。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,简称OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
样本图像库:本申请实施例中,样本图像库为公开的CIFAR-10数据集和ISIC 2019数据集,其中,CIFAR-10数据集是带有标签的数据集,由10个类别的60000张32*32像素的彩色图像组成;ISIC 2019数据集中包括来自于利用皮肤图像预测的八种皮肤病类别,包括黑素瘤、黑素细胞痣、基底细胞癌、光化性角化病、良性角化病、皮肤纤维瘤、血管病变和鳞状细胞癌。在本申请实施例中,将CIFAR-10数据集中的50000张作为训练集数据,将CIFAR-10数据集中的10000张图像作为测试集;或者从ISIC 2019数据集的每个类别中随机抽取628张图像,将总计4260张图像按照预设比例随机分为训练集和测试集。
目标样本图像:从样本图像库中确定的样本图像,其中确定的每一个目标样本图像都带有原始的标签类别(硬标签),该标签类别用于表示目标样本图像中图像内容所属的类别。
噪声样本图像:本申请实施例中,噪声样本图像是指在针对分类模型进行训练的样本图像中存在的类别标签标注错误的样本图像,示意性的,将较为复杂的医疗图像识别为噪声样本图像,而该医疗图像属于噪声样本图像。在另一些实施例中,噪声样本图像还可以是人工加噪后的样本图像,示例性,图像A为一个任意的复杂样本图像,人工随机在图像A对应的类别标签中加入对称噪声或者成对噪声,得到噪声样本图像。
概率转移矩阵:在本申请实施例中,在训练过程中从干净样本中计算得到的矩阵,而干净样本则是根据目标样本图像中总损失值小于预设阈值进行确定的,其中,概率转移矩阵对应的得到的概率转移结果,该概率转移结果代表目标样本图像对应的一种软标签结果,也即,概率转移矩阵是由干净样本对应的软标签组成,代表类别之间的关系。
最后,结合上述应用场景和名词介绍对本申请实施例提供的实施环境进行说明。
图1是本申请一个示例性实施例提供的实施环境示意图,如图1所示,该实施环境中包括终端110、服务器120以及去噪声模型140,终端110和服务器120之间通过通信网络130连接,该通信网络130可以是无线网络,也可以是有线网络。
终端110内有提供用于识别样本图像的应用程序或者识别样本图像对应的网页。可选的,用户在终端110中确定目标样本图像后,将目标样本图像选定为训练去噪声模型140的样本图像(S1),该目标样本图像可以是通过服务器120获取的样本图像库中的图像,也可以是终端110本地存储的带有标签类别的图像。在一些实施例中,由终端110通过通信网络130将目标样本图像上传至服务器120,或者,终端110向服务器120发送获取目标样本图像的指令,服务器120从样本数据库对应的服务器中获取目标样本图像。
服务器120获取目标样本图像后,对目标样本图像进行处理,基于目标样本图像对应的预测概率分布向量和类别标签,确定目标样本图像对应的分类损失;再基于预测概率分布向量和概率转移矩阵,确定目标样本图像对应的类间相似性损失,利用目标样本图像的分类损失和类间相似性损失的总损失值,对去噪声模型140中的模型参数进行参数更新(S2)。
去噪声模型140接收候选样本图像(S3),该候选样本图像为待识别的图像,识别得到候选样本图像中的噪声样本图像(S4)。可选的,该去噪声模型140存储于服务器120中作为一个整体模型单独进行应用,也可以作为一个独立的插件嵌入已有的模型框架中,本申请对此不加以限定。
值得注意的是,上述终端110可以实现为手机、平板电脑、可穿戴设备、便携式膝上笔记本电脑等移动终端,也可以实现为台式电脑等终端,本申请实施例对此不加以限定。
上述服务器120上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
在一些实施例中,上述服务器还可以实现为区块链系统中的节点。区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
值得注意的是,上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
在一些实施例中,上述服务器还可以实现为区块链系统中的节点。区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
结合上述实施环境,对本申请实施例中涉及的样本图像的识别方法进行说明,图2是本申请一个示例性实施例提供的样本图像的识别方法的流程图,以该方法应用于服务器中进行说明,如图2所示,该方法包括以下步骤。
步骤201,获取目标样本图像。
在一些实施例中,目标样本图像对应标注有类别标签,该类别标签用于表示该目标样本图像的图像内容类别,例如,图像A对应标注有类别标签“飞机”,类别标签“飞机”则用于表示图像A中的图像内容为飞机。
可选的,上述目标样本图像的类别标签的获取方式包括如下方式中的至少一种。
第一,为目标样本图像进行人工标注。
在一些实施例中,当应用场景为医疗场景时,选用经验较高的医生或者放射科医生对目标样本图像所属的内容进行标签标注,并将带有标签标注的目标样本图像存储于服务器或者终端中。
第二,从样本图像库中获取带有类别标签标注的目标样本图像。
在一些实施例中,服务器从样本图像库CIFAR-10数据集和ISIC 2019数据集中直接获取目标样本图像,而样本图样库CIFAR-10数据集和ISIC 2019数据集中的所有图像均是已经标注有类别标签的样本图像。
值得注意的是,上述目标样本图像的类别标签的获取方式仅为示意性的举例,本申请实施例对此不加以限定。
可选的,上述目标样本图像的获取方式包括如下方式中的至少一种。
第一,服务器接收终端上传的目标样本图像。
在一些实施例中,终端向服务器上传目标样本图像以及该目标样本图像对应的类别标签。
第二,服务器接收终端上传的目标样本图像获取指令。
在本申请实施例中,目标样本图像为公开数据集CIFAR-10和ISIC 2019中的样本图像,或者为某医疗机构存储的医学图像,终端向服务器发送目标样本图像获取指令,该目标样本图像指令用于表示服务器直接从公开数据集CIFAR-10和ISIC 2019获取目标样本图像,或者从某医疗机构存储的医学图像对应存储的服务器中获取目标样本图像,可选的,在从对应存储的服务器中获取目标样本图像的同时还可以获取目标样本对应的类别标签。
第三,服务器接收终端发送的目标样本图像链接。
在一些实施例中,服务器在接收到终端发送的目标样本图像链接时,基于该目标样本图像链接从链接网址对应的服务器中获取目标样本图像。
第四,当执行主体为当执行主体实现为终端时,终端可以从本地图像数据库中获取目标样本图像;或者,终端从服务器中下载目标样本图像。
值得注意的是,上述获取目标样本图像的方式仅为示意性的举例,本申请实施例对此不加以限定。
步骤202,基于对目标样本图像进行分类识别得到的预测概率分布向量以及类别标签,确定目标样本图像对应的分类损失。
在一些实施例中,目标样本图像进行概率预测得到预测概率分布向量,该预测概率分布向量用于表示该目标样本图像的图像内容对应各类别的概率分布,例如,分类模型用于对飞机、汽车、火车以及轮船四种图像内容进行分类,对图像A进行分类识别得到图像A对应的预测概率分布向量S1={0.2,0.15,0.6,0.05},“0.2”用于表示图像A的图像内容为飞机的概率值,“0.15”用于表示图像A的图像内容为汽车的概率值,“0.6”用于表示图像A的图像内容为火车的概率值,“0.05”用于表示图像A的图像内容为轮船的概率值。
在一些实施例中,服务器利用目标样本图像的预测概率分布向量以及类别标签(目标样本图像的原始类别标签),确定目标样本图像对应的分类损失。
可选地,将目标样本图像输入至分类模型中,输出得到目标样本图像对应的预测概率分布向量,该预测概率分布向量对应的是分类模型的预测结果,将分类模型的预测结果和类别标签之间的差异,确定为目标样本图像对应的分类损失,该分类模型是当前模型参数待训练的模型。
步骤203,基于预测概率分布向量和概率转移矩阵,确定目标样本图像对应的类间相似性损失。
在一些实施例中,在确定目标样本图像对应的类间相似性损失之前,还包括确定概率转移矩阵的过程,下述将对概率转移矩阵的确定过程进行详述。
在一些实施例中,对n个目标样本图像进行分类识别得到n个目标样本图像对应的n个预测概率分布向量以及初始概率转移矩阵,n为正整数,在本申请实施例中,该初始概率转移矩阵为第一次利用目标样本图像对去噪声模型进行参数更新的矩阵,如:初始概率转移矩阵可以是零矩阵或者其他预设矩阵,本申请对此不加以限定。
服务器确定n个目标样本图像对应的n个损失值,该损失值由n个目标样本图像对应的分类损失和类间相似性损失共同决定的。在一些实施例中,利用上述n个预测概率分布向量和对应的类别标签计算得到n个目标样本图像对应的分类损失。
上述类间相似性损失是通过概率转移矩阵确定的,当概率转移矩阵未进行过更新时,通过初始概率转移矩阵确定类间相似性损失。
可选地,分类损失和类间相似性损失的加权和即为目标样本图像对应的损失值。
在一些实施例中,将n个目标样本图像中损失值小于要求损失阈值的图像确定为干净样本,或者,将n个目标样本图像中损失值最小的图像确定为干净样本图像。确定干净样本并对初始概率转移矩阵进行更新,得到更新后的概率转移矩阵。具体的概率转移矩阵可参见公式1。
公式1中,k用于表示分类模型对应的类别标签总数,k为正整数;
表示包含干净样本图像的数据集,该干净样本的确定请参见上述过程,
={(x,y)|y=k,x∈D
k};
用于表示预测概率分布向量;
用于表示第k类对应的概率分布向量组成的概率转移矩阵,D
k用于表示包含目标样本图像的数据集,
用于表示k类目标样本图像的数量。
在一些实施例中,基于概率转移矩阵,得到目标样本图像对应k类类别标签的概率转移结果,具体可参见公式2。
公式2中,
用于表示第k个类别标签对应的概率转移矩阵;
用于表示k个类别对应的向量组成的概率转移矩阵。
在一些实施例中,从上述公式1可知,基于该概率转移矩阵,得到目标样本图像对应k类类别标签的概率转移结果,k为分类模型对应的类别标签总数,k为正整数;基于预测概率分布向量和k个概率转移结果,确定目标样本图像对应的散度值作为类间相似性损失,具体可参数公式3。
公式3中,
为输入的目标样本图像,
为预测概率分布向量
和概率转移结果
之间的K-L散度值;
用于表示预测概率分布向量中的第k个元素;
用于表示概率转移结果中的第k个元素;
是指目标样本图像
对应的类间相似性损失,K为分类模型对应的类别标签总数。
请结合图3,图3是本申请实施例提供的样本图像比对图,在样本图像比对界面30中包括样本A1、样本B1示出的困难样本图像,以及样本A2、样本B2示出的噪声样本图像,将样本A1、样本A2、样本B1以及样本B2作为目标样本图像进行训练,得到样本A1的分类损失为1.61、类间相似性损失为1.60,样本A2的分类损失为1.61、类间相似性损失为2.74,得到样本B1的分类损失为1.89、类间相似性损失为1.45,得到样本B2的分类损失为1.77、类间相似性损失为2.74,不难看出,困难样本图像和噪声样本图像具有较强的相似性,若是只比对样本图像的分类损失(样本A1和样本A2的分类损失相同)是很难区别出困难样本图像和噪声样本图像,而采用本申请实施例提供的类间相似性损失可以有效的区别出困难样本图像和噪声样本图像,一定程度上提高识别噪声图像的准确性。
步骤204,通过分类损失和类间相似性损失对去噪声模型进行参数更新。
在一些实施例中,综合分类损失和类间相似性损失确定目标样本图像的总损失,对去噪声模型中的模型参数进行参数更新,平衡模型参数对模型训练的影响。
可选地,根据分类损失和类间相似性损失之间的加权和,对去噪声模型的模型参数进行参数更新。
步骤205,将候选样本图像输入去噪声模型,识别得到候选样本图像中的噪声样本图像。
在一些实施例中,候选样本图像为待识别的样本图像,该候选样本图像可以是困难样本图像,也可以是噪声样本图像,也可以是简单样本图像,其中,困难样本图像用于表示去噪声模型较难学习/识别的样本,简单样本图像用于去噪声模型较容易学习/识别的样本,噪声样本图像用于表示标签标注错误的样本。
在一些实施例中,在更新去噪声模型中的模型参数后,将候选样本图像输入去噪声模型中,识别候选样本图像中的噪声样本图像。可选的,在识别候选样本图像的过程中,利用候选样本图像的预测概率分布向量、概率转移矩阵和类间相似性损失,对去噪声模型中的模型参数进行更新。
综上所述,本申请实施例提供的样本图像的识别方法中,利用目标样本图像训练去噪声模型时,通过引入概率转移矩阵和类间相似性损失的概念,有效的区分困难样本图像和噪声样本图像,在分类损失的基础上加入类间相似性损失,利用分类损失和类间相似性损失的加权和不断的更新去噪声模型中的参数,在识别噪声样本图像时,减轻噪声样本图像对模型参数的影响,优化噪声标签数据在识别过程中的表现,最小化噪声标签对去噪声模型带来的负面影响,一定程度上提高去噪声模型的识别准确率。
在一个可选的实施例中,具体请参见图4,图4是本申请另一个示例性实施例提供的提取样本图像的识别方法的流程图,以该方法应用于服务器中为例进行说明如图4所示,该方法包括以下步骤。
步骤401,获取n个目标样本数据。
在一些实施例中,目标样本图像包括但不限于来自于CIFAR-10数据集或者ISIC2019数据集中的图像、来自医疗机构采集的医学图像/临床试验图像、普通数据库中的图像等等。
该步骤流程与步骤201流程相同,此处不再赘述。
步骤402,基于对目标样本图像进行分类识别得到的预测概率分布向量以及类别标签,确定目标样本图像对应的分类损失。
在一些实施例中,服务器利用目标样本图像的预测概率分布向量以及类别标签(目标样本图像的原始类别标签),确定目标样本图像对应的分类损失。
该步骤流程与步骤202流程相同,此处不再赘述。
步骤403,基于预测概率分布向量和概率转移矩阵,确定目标样本图像对应的类间相似性损失。
在一些实施例中,在确定n个目标样本图像对应的类间相似性损失之前包括确定概率转移矩阵的过程,下述将对概率转移矩阵的确定过程进行详述。
在一些实施例中,对n个目标样本图像进行分类识别得到n个目标样本图像对应的n个预测概率分布向量以及初始概率转移矩阵,在本申请实施例中,该初始概率转移矩阵为第一次利用目标样本图像对去噪声模型进行参数更新,初始概率转移矩阵可以是零矩阵,本申请对此不加以限定。
服务器确定n个目标样本图像对应的n个损失值,该损失值由n个目标样本图像对应的分类损失和类间相似性损失共同决定的,n为正整数。在一些实施例中,利用上述n个预测概率分布向量和对应的类别标签计算得到n个目标样本图像对应的分类损失,本申请对此不加以限定。
该步骤流程与步骤203流程相同,此处不再赘述。
步骤404,通过分类损失和类间相似性损失对去噪声模型进行参数更新。
在一些实施例中,将分类损失和第一参数的乘积,以及类间相似性损失和第二参数的乘积之和,确定为目标样本图像对应的总损失值,在本实施例,具体可参数公式4,其中,第一参数的第二参数之和为1,在其他实施例中,专业人员还可以将第一参数和第二参数设置为其他数值,本申请对此不加以限定。
公式4中,
用于表示第i个目标样本图像对应的分类损失,
用于表示第i个目标样本图像对应的类间相似性损失;
用于表示n个目标样本图像中的第i个图像,
用于表示第i个目标样本图像对应的预测概率分布向量结果,
用于表示第i个目标样本图像对应的概率转移矩阵结果,在本实施例中
的取值为0.6。
在一些实施例中,根据总损失值对所述去噪声模型的模型参数进行参数更新。
步骤405,对目标样本图像进行轮次迭代,更新概率转移矩阵。
在一些实施例中,响应于模型参数在第m轮次训练中更新完毕,基于在第m轮次训练中,n个目标样本图像对应的概率转移矩阵均值对所述概率转移矩阵进行更新;通过更新后的概率转移矩阵迭代进行第m+1轮次训练,m为正整数。在第m+1轮次的迭代训练中,概率转移矩阵是由第m轮次迭代训练中的n个目标样本图像分别对应的概率转移矩阵的均值确定的,模型参数是由第m轮次训练时基于分类损失和类间相似度损失更新得到的。
综上所述,本申请实施例提供的样本图像的识别方法中,利用目标样本图像训练去噪声模型时,通过引入概率转移矩阵和类间相似性损失的概念,有效的区分困难样本图像和噪声样本图像,在分类损失的基础上加入类间相似性损失,利用分类损失和类间相似性损失的加权和不断的更新去噪声模型中的参数,在识别噪声样本图像时,减轻噪声样本图像对模型参数的影响,优化噪声标签数据在识别过程中的表现,最小化噪声标签对去噪声模型带来的负面影响,一定程度上提高去噪声模型的识别准确率。
在一个可选的实施例中,具体请参见图5,图5是本申请另一个示例性实施例提供的提取样本图像的识别方法的流程图,以该方法应用于服务器中为例进行说明如图5所示,该方法包括以下步骤。
步骤501,打乱训练数据集D。
在一些实施例中,在样本图像库中随机加入噪声图像,该噪声图像包括成对噪声图像和对称噪声图像。
可选的,从样本图像库中选择目标样本图像,确定该目标样本图像对应的类别标签,对该类别标签以及去噪声模型中的k类类别标签应用噪声转移矩阵,对目标样本图像进行加噪处理,其中,噪声转移矩阵为
,用于表示将目标样本图像中的类别标签由第p类翻转到第q类的概率。
可选的,从样本图像库中选择目标样本图像,确定该目标样本图像对应的类别标签,在类别标签中随机加入对称噪声和成对噪声以得到对称噪声图像以及对称噪声图像,其中设置多组噪声数据随机加入目标样本图像中,本实施例中,设置“对称-10%”、“对称-20%”、“对称-40%”以及“成对-10%”四组噪声数据,例如,“对称-10%”用于表示10%的标签被对称地翻转为噪声标签,其中将加入噪声数据的类别标签对应的图像确定为训练数据集D。
在一些实施例中,将获取的训练数据集D中的图像打乱顺序,输入去噪声模型进行训练。
步骤502,从训练数据集D中的取一批数据送入去噪声模型训练。
在一些实施例中,将加入噪声的训练数据集D中的数据分为
批,
为正整数。
在一些实施例中,对第
批数据进行训练,并以第
批数据的训练结果对第
+1批数据所应用的模型参数进行更新。
步骤503,根据总损失值和上一次迭代的概率转移矩阵计算总损失值,挑选干净样本。
在一些实施例中,利用上述公式4以及上一次迭代计算的概率转移矩阵确定第i批数据对应的总损失值,将总损失值小于要求预设阈值对应的图像数据确定为干净样本,或者,将第i批数据中总损失值最小对应的图像数据确定为第
批数据的干净样本。
步骤504,基于干净样本计算得到概率转移矩阵。
在一些实施例中,利用公式5以及公式6计算干净样本对应的概率转移矩阵。
公式5用于表示第
轮次迭代训练下第j批数据获得的概率转移矩阵的第k行,k对应类别,
代表预测概率分布向量;公式6用于表示第
轮次迭代训练下第j批数据的所有类别标签对应的向量组成的概率转移矩阵。
步骤505,基于干净样本计算总损失值,更新去噪声模型的模型参数。
在一些实施例中,利用上述公式3计算干净样本对应的类间相似性损失,并基于概率转移矩阵和类间相似性损失,更新去噪声模型中的模型参数,作为第i+1批数据训练时的模型参数。
在一些实施例中,直到
批数据均输入去噪声模型中完成训练。
步骤506,更新概率转移矩阵。
在一些实施例中,直到
批数据输入去噪声模型中完成
次训练后,对该训练数据D进行
轮次迭代训练,响应于所述模型参数在第
轮次训练中更新完毕,基于在第
轮次训练中,训练数据集D对应的概率转移矩阵均值对所述概率转移矩阵进行更新,
为正整数;通过更新后的概率转移矩阵迭代进行第
+1轮次训练,具体可参见公式7。
公式7用于表示最终第
轮次迭代的概率转移矩阵通过取均值得到,
用于表示训练数据集D被分为
批送入模型训练,
用于表示第j批数据在第m次轮次得到的所有类别标签对应的概率转移矩阵,m用于表示第m迭代轮次,j代表批次顺序。
步骤507,输出去噪声模型。
在一些实施例中,基于上述步骤501至步骤506的去噪声模型训练过程得到去噪声模型。
可选的,该去噪声模型可以作为插件嵌入已有的模型框架中,该去噪声模型主要由概率转移矩阵和类间相似性损失组成,可以实现即插即用,有效的区分困难样本和噪声样本,一定程度上提高识别噪声图像的准确性,同时也提高带噪训练模型的鲁棒性,最大化数据的利用率。
可选的,该去噪声模型可以作为一个独立的模型进行图像识别处理。本申请对去噪声模型的应用方式不加以限定。
综上所述,本申请实施例提供的样本图像的识别方法中,利用目标样本图像训练去噪声模型时,通过引入概率转移矩阵和类间相似性损失的概念,有效的区分困难样本图像和噪声样本图像,一定程度上提高去噪声模型的识别准确率,该去噪声模型可以作为插件嵌入已有的模型框架中,实现即插即用,方便快捷,且成本较低。
图6是本申请一个示例性实施例提供的样本图像的识别装置的结构框图,如图6所示,该装置包括:获取模块610、确定模块620、更新模块630以及识别模块640;
获取模块610,用于获取目标样本图像,所述目标样本图像对应标注有类别标签,所述类别标签用于表示所述目标样本图像的图像内容类别;
确定模块620,用于基于对所述目标样本图像进行分类识别得到的预测概率分布向量以及所述类别标签,确定所述目标样本图像对应的分类损失;
所述确定模块620,还用于基于所述预测概率分布向量和概率转移矩阵,确定所述目标样本图像对应的类间相似性损失;
更新模块630,用于通过所述分类损失和所述类间相似性损失对去噪声模型进行参数更新;
识别模块640,用于将候选样本图像输入所述去噪声模型,识别得到所述候选样本图像中的噪声样本图像。
在一个可选的实施例中,所述确定模块620,还用于基于所述概率转移矩阵,得到所述目标样本图像对应k类类别标签的概率转移结果,k为所述去噪声模型对应的类别标签总数,k为正整数;基于所述预测概率分布向量和k个概率转移结果,确定所述目标样本图像对应的散度值作为所述类间相似性损失。
在一个可选的实施例中,所述确定模块620,还用于对n个目标样本图像进行分类识别得到的所述n个目标样本图像对应的n个预测概率分布向量以及初始概率转移矩阵,n为正整数;确定所述n个目标样本图像对应的n个损失值,其中,第i个目标样本图像对应第i个损失值,0<i≤n;
所述确定模块620,还用于将所述n个目标样本图像中损失值小于要求损失阈值的图像确定为干净样本图像;
所述更新模块630,用于基于所述干净样本图像对所述初始概率转移矩阵进行更新,得到所述概率转移矩阵。
在一个可选的实施例中,所述确定模块620,还用于将所述分类损失和第一参数的乘积,以及所述类间相似性损失和第二参数的乘积之和,确定为所述目标样本图像对应的总损失值;
所述更新模块630,用于根据所述总损失值对所述去噪声模型的模型参数进行参数更新。
在一个可选的实施例中,n个目标样本图像为从样本图像库中确定的第m轮次训练中的样本图像;
所述更新模块630,还用于响应于所述模型参数在第m轮次训练中更新完毕,基于在第m轮次训练中,n个目标样本图像对应的概率转移矩阵均值对所述概率转移矩阵进行更新;通过更新后的概率转移矩阵迭代进行第m+1轮次训练。
在一个可选的实施例中,如图7所示,所述装置还包括添加模块650;
所述添加模块650,用于在样本图像库中随机加入噪声图像,所述噪声图像包括成对噪声图像和对称噪声图像,所述目标样本图像是从所述样本图像库中确定的样本图像。
在一个可选的实施例中,所述识别模块640,用于将所述去噪声模型作为插件嵌入模型框架中,识别所述候选样本图像中的噪声样本图像。
综上所述,本申请实施例提供的样本图像的识别装置,利用目标样本图像训练去噪声模型时,通过引入概率转移矩阵和类间相似性损失的概念,有效的区分困难样本图像和噪声样本图像,在分类损失的基础上加入类间相似性损失,利用分类损失和类间相似性损失的加权和不断的更新去噪声模型中的参数,在识别噪声样本图像时,减轻噪声样本图像对模型参数的影响,优化噪声标签数据在识别过程中的表现,最小化噪声标签对去噪声模型带来的负面影响,一定程度上提高去噪声模型的识别准确率。
需要说明的是:上述实施例提供的样本图像的识别装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的样本图像的识别装置与样本图像的识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图8示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器可以是图1示出的服务器120。具体来讲:
服务器120包括中央处理单元(CPU,Central Processing Unit)801、包括随机存取存储器(RAM,Random Access Memory)802和只读存储器(ROM,Read Only Memory)803的系统存储器804,以及连接系统存储器804和中央处理单元801的系统总线805。服务器120还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统,InputOutput System)806,和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。
基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中显示器808和输入设备809都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。大容量存储设备807及其相关联的计算机可读介质为服务器120提供非易失性存储。也就是说,大容量存储设备807可以包括诸如硬盘或者紧凑型光盘只读存储器(CD-ROM,Compact Disc Read Only Memory)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(EPROM,Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read OnlyMemory)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(DVD,Digital VersatileDisc)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。
根据本申请的各种实施例,服务器120还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器120可以通过连接在系统总线805上的网络接口单元811连接到网络812,或者说,也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算手机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的样本图像的识别方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的样本图像的识别方法。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的样本图像的识别方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。