CN111582342A - 一种图像识别方法、装置、设备以及可读存储介质 - Google Patents

一种图像识别方法、装置、设备以及可读存储介质 Download PDF

Info

Publication number
CN111582342A
CN111582342A CN202010354516.1A CN202010354516A CN111582342A CN 111582342 A CN111582342 A CN 111582342A CN 202010354516 A CN202010354516 A CN 202010354516A CN 111582342 A CN111582342 A CN 111582342A
Authority
CN
China
Prior art keywords
image
target
loss function
sample
function value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010354516.1A
Other languages
English (en)
Other versions
CN111582342B (zh
Inventor
龚丽君
马锴
郑冶枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010354516.1A priority Critical patent/CN111582342B/zh
Publication of CN111582342A publication Critical patent/CN111582342A/zh
Application granted granted Critical
Publication of CN111582342B publication Critical patent/CN111582342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种图像识别方法、装置、设备及可读存储介质,该方法包括:获取图像样本,通过图像识别模型输出图像样本对应的类别预测概率;根据类别预测概率确定图像样本对应的图像预测类别;若图像预测类别与图像样本的图像类别标签不一致,则根据类别预测概率,分别确定图像类别标签对应的第一梯度值以及图像预测类别对应的第二梯度值;根据第一梯度值以及第二梯度值,确定图像样本的目标损失函数值,根据目标损失函数值对图像识别模型进行调整,得到目标图像识别模型,基于目标图像识别模型进行图像类别识别处理。采用本申请,可以提高对图像的分类准确率。

Description

一种图像识别方法、装置、设备以及可读存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种图像识别方法、装置、设备以及可读存储介质。
背景技术
随着计算机技术的快速发展,图像已经成为人们传递信息、获取信息的重要载体,如何对图像进行快速、有效的分析和处理,并对图像进行识别和分类越来越重要。若可以根据图像的图像特征,通过机器自动化的方式,快速且准确地确定出图像属于何种类别,那么就可以根据这个机器识别出的类别,作进一步处理,这样可以节约大量的人工识别时间,减少人工工作量。
在现有技术中,可以通过人工智能的方法实现图像的识别与分类,主要方法是利用深度卷积神经网络来进行图像分类。为使深度卷积神经网络可以准确的进行图像分类,可以对深度卷积神经网络进行训练。若卷积神经网络对输入图像样本的预测结果错误(如预测的图像类别与真实类别不一致),则可以根据该输入图像的预测图像类别与真实类别确定出损失函数值,根据该损失函数值对深度卷积神经网络进行调整,以此来使得调整后的卷积神经网络能正确识别出输入图像样本的图像类别。但存在部分图像具有图像间差异小,图像多样性较少的特点,由此,这些差异小的图像样本所产生的损失函数值之间的差异也会很小,通过这些较小差异的损失函数值对卷积神经网络进行训练,无法提高卷积神经网络的准确性,卷积神经网络也会很难准确识别这些图像样本的图像类别。也就是说,对于这些差异较小的图像样本,若单纯使用损失函数值来训练调整卷积神经网络,无法有效提高卷积神经网络对图像的分类准确率。
申请内容
本申请提供一种图像识别方法、装置、设备以及可读存储介质,可以提高对图像的分类准确率。
本申请实施例一方面提供一种图像识别方法,包括:
获取图像样本,通过图像识别模型输出上述图像样本对应的类别预测概率;
根据上述类别预测概率确定上述图像样本对应的图像预测类别;
若上述图像预测类别与上述图像样本的图像类别标签不一致,则根据上述类别预测概率,分别确定上述图像类别标签对应的第一梯度值以及上述图像预测类别对应的第二梯度值;
根据上述第一梯度值以及上述第二梯度值,确定上述图像样本的目标损失函数值,根据上述目标损失函数值对上述图像识别模型进行调整,得到目标图像识别模型,基于上述目标图像识别模型进行图像类别识别处理。
本申请实施例一方面提供一种图像识别装置,包括:
预测概率输出模块,用于获取图像样本,通过图像识别模型输出上述图像样本对应的类别预测概率;
预测类别确定模块,用于根据上述类别预测概率确定上述图像样本对应的图像预测类别;
梯度值确定模块,用于若上述图像预测类别与上述图像样本的图像类别标签不一致,则根据上述类别预测概率,分别确定上述图像类别标签对应的第一梯度值以及上述图像预测类别对应的第二梯度值;
函数值确定模块,用于根据上述第一梯度值以及上述第二梯度值,确定上述图像样本的目标损失函数值;
模型调整模块,用于根据上述目标损失函数值对上述图像识别模型进行调整,得到目标图像识别模型,基于上述目标图像识别模型进行图像类别识别处理。
其中,上述图像样本为图像矩阵;
上述梯度值确定模块,包括:
初始损失值确定单元,用于根据上述类别预测概率以及上述图像类别标签,确定上述图像矩阵的第一初始损失函数值;
梯度值确定单元,用于将上述第一初始损失函数值与上述图像矩阵之间的偏导数,确定为上述图像类别标签对应的上述第一梯度值;
上述初始损失值确定单元,还用于根据上述类别预测概率以及上述图像预测类别,确定上述图像矩阵的第二初始损失函数值;
上述梯度值确定单元,还用于将上述第二初始损失函数值与上述图像矩阵之间的偏导数,确定为上述图像预测类别对应的上述第二梯度值。
其中,上述函数值确定模块,包括:
参数获取单元,用于获取损失函数参数;
相似度确定单元,用于确定上述第一梯度值与上述第二梯度值之间的相似度;
函数值构建单元,用于根据上述损失函数参数、上述相似度以及上述第一初始损失函数值,构建上述图像样本的上述目标损失函数值。
其中,上述函数值构建单元,包括:
困难损失函数值确定子单元,用于将上述损失函数参数与上述相似度进行相加处理,将相加结果的倒数值,确定为上述图像样本的困难样本损失函数值;
目标损失函数值确定子单元,用于将上述困难样本损失函数值与上述第一初始损失函数值进行相加处理,得到上述目标损失函数值。
其中,上述图像样本中包括困难图像样本和正确图像样本;
上述模型调整模块,包括:
正确损失函数值生成单元,用于根据上述正确图像样本对应的图像预测类别以及图像类别标签,生成上述正确图像样本对应的正确样本损失函数值;
模型调整单元,用于根据上述困难图像样本的目标损失函数值以及上述正确图像样本的正确样本损失函数值,对上述图像识别模型进行调整,得到上述目标图像识别模型。
其中,上述模型调整单元,包括:
数量获取子单元,用于获取上述图像样本中包含的正确图像样本以及困难图像样本的总数量;
评论损失值确定子单元,用于将上述困难图像样本的目标函数损失值与上述正确图像样本的正确图像样本损失函数值进行相加,根据相加后的结果与上述总数量确定平均损失函数值;
参数调整子单元,用于若上述平均损失函数值不满足模型收敛条件,则根据上述平均损失函数值对上述图像识别模型的模型参数进行调整,在调整后的图像识别模型满足上述模型收敛条件时,将上述调整后的图像识别模型确定为上述目标图像识别模型;
目标模型确定子单元,用于若上述平均损失函数值满足上述模型收敛条件,则将上述图像识别模型确定为上述目标图像识别模型。
其中,还包括:
目标图像输入模块,用于获取目标图像,将上述目标图像输入上述目标图像识别模型;
目标概率输出模块,用于通过上述目标图像识别模型,输出上述目标图像对应的至少两个目标类别预测概率;
图像类别确定模块,用于在上述至少两个目标类别预测概率,确定出最大目标类别预测概率,将上述最大目标类别预测概率对应的图像类别,确定为上述目标图像对应的图像类别。
其中,还包括:
状态确定模块,用于根据上述目标图像对应的图像类别,确定上述目标图像的状态;
异常区域确定模块,用于若上述目标图像为异常状态,则将上述目标图像确定为异常图像,在上述异常图像中确定异常区域;
异常图像输出模块,用于将上述异常区域在上述异常图像中进行异常标记,输出携带上述异常标记的异常图像;
正常图像输出模块,用于若上述目标图像为正常状态,则将上述目标图像确定为正常图像,输出上述正常图像。
其中,上述状态确定模块,包括:
异常状态确定单元,用于若上述目标图像对应的图像类别为异常图像类别,则将上述目标图像的状态确定为异常状态;
正常状态确定单元,用于若上述目标图像对应的图像类别为正常图像类别,则将上述目标图像的状态确定为正常状态。
其中,上述异常区域确定模块,包括:
模型获取单元,用于获取上述异常图像对应的图像类别,在异常区域筛查模型集合中,获取上述异常图像对应的图像类别所关联的目标异常区域筛查模型;
异常区域确定单元,用于将上述异常图像输入至上述目标异常区域筛查模型,通过上述目标异常区域筛查模型,在上述异常图像中确定出异常区域。
本申请实施例一方面提供了一种计算机设备,包括:处理器和存储器;
上述存储器存储有计算机程序,上述计算机程序被上述处理器执行时,使得所诉处理器执行如本申请实施例中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序包括程序指令,上述程序指令当被处理器执行时,执行如本申请实施例中的方法。
本申请实施例通过计算出类别预测错误(如图像预测类别与图像类别标签不一致)的图像样本的图像类别标签的第一梯度值,以及该图像样本的图像预测类别的第二梯度值来共同确定出图像样本的目标损失函数值,在利用该目标损失函数值的时候,可以最小化该目标损失函数值,那么也就最大化了该第一梯度值与第二梯度值之间的差异,通过不断最大化第一梯度值以及第二梯度值之间的差异的调整方法,可以使得不断优化图像识别模型,使得图像识别模型可以能关注正确的地方(如图像类别标签对应的第一梯度值),从而可以使得图像识别模型预测出的图像预测类别可以不断地逼近于图像类别标签;且因为第一梯度值是根据图像识别模型输出的类别预测概率与图像类别标签来确定的,第二梯度值是根据图像识别模型输出的类别预测概率与图像预测类别来确定的,该第一梯度值以及第二梯度值更为符合图像识别模型的自身特征,因此使用该第一梯度值以及该第二梯度值共同确定出的目标损失函数值来调整图像识别模型,可以使得调整后的图像识别模型预测出的图像类别的准确率更高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构图;
图2是本申请实施例提供的一种图像识别方法的流程示意图;
图3是本申请实施例提供的一种卷积神经网络的模块结构示意图;
图4a-图4b是本申请实施例提供的一种模型训练示意图;
图5是本申请实施例提供的一种场景示意图;
图6是本申请实施例提供的一种模型应用的流程示意图;
图7是本申请实施例提供的一种困难损失函数的构建方法架构图;
图8是本申请实施例提供的一种场景示意图;
图9是本申请实施例提供的一种图像识别装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案属于人工智能领域下属的计算机视觉技术(ComputerVision,CV)和机器学习((Machine Learning,ML)。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
请参见图1,是本申请实施例提供的一种网络架构图。如图1所示,该网络架构可以包括业务服务器1000以及后台服务器集群,其中,上述后台服务器集群可以包括多个后台服务器,如图1所示,具体可以包括后台服务器100a、后台服务器100b、后台服务器100c、…、后台服务器100n。如图1所示,后台服务器100a、后台服务器100b、后台服务器100c、…、后台服务器100n可以分别与上述业务服务器1000进行网络连接,以便于每个后台服务器可以通过该网络连接与业务服务器1000进行数据交互,以便于上述业务服务器1000可以接收到来自于每个后台服务器的业务数据。
如图1所示的每个后台服务器均与用户终端相对应,可以用于存储对应的用户终端的业务数据。每个用户终端均可以集成安装有目标应用,当该目标应用运行于各用户终端中时,则每个用户终端对应的后台服务器可以对应用中的业务数据进行存储,并与上述图1所示的业务服务器1000之间进行数据交互。其中,该目标应用可以包括具有显示文字、图像、音频以及视频等数据信息功能的应用。如,应用可以为医疗识别类应用,如图像识别应用,可以用于用户上传图片并查看到图片的图像预测类别;该应用也可以为图像分类应用,可以用于用户上传至少两张图片,并得到分类结果等。本申请中的业务服务器1000可以从这些应用的后台(如上述后台服务器集群)收集到业务数据,如,该业务数据可以为用户上传的图像。根据收集到的业务数据,业务服务器1000可以确定出这些业务数据的图像类别,作为辅助处理结果,该辅助处理结果可以展示给用户,用户可以基于个人经验和该辅助处理结果,进行进一步的人工处理。如该图像类别为皮肤病中的皮肤过敏,用户在接收到该为皮肤过敏的图像类别后,可以将该为皮肤过敏的图像类别,作为辅助诊断结果,用户可以结合个人的临床经验以及该辅助诊断结果,进行人工分析,以确定出最终的诊断方案。
本申请实施例可以在多个用户终端中选择一个用户终端作为目标用户终端,该目标用户终端可以包括:智能手机、平板电脑、桌上型电脑等携带显示和播放数据信息功能的智能终端。例如,本申请实施例可以将图1所示的后台服务器100a对应的用户终端作为该目标用户终端,该目标用户终端中可以集成有上述目标应用,此时,该目标用户终端对应的后台服务器100a可以与业务服务器1000之间进行数据交互。如,用户在使用用户终端中的目标应用(如医疗识别类应用)时,业务服务器1000通过该用户终端对应的后台服务器,可以检测并收集到该用户上传了一张患者图像,业务服务器1000可以确定预测出该患者图像所属的图像类别(如心脏病、皮肤病、眼部疾病等类别),并将该图像类别返回至后台服务器,则用户可以在用户终端的显示页面上查看到该患者图像对应的图像类别,并将该图像类别作为辅助诊断结果,用户可以结合个人的临床经验以及该辅助诊断结果,进行人工分析,来确定出最终的诊断方案。对于业务服务器1000确定图像类别的具体方法,可以根据图像识别模型来确定。为了提高图像识别模型预测的图像类别的准确率,可以对图像识别模型进行训练调整,使得训练调整后的图像识别模型达到最优。对于训练以及调整图像识别模型的具体过程可以参见后续图2所对应实施例中步骤S101-步骤S104的描述。
可以理解的是,本申请实施例提供的方法可以由计算机设备执行,计算机设备包括但不限于终端或服务器。
进一步地,请参见图2,是本申请实施例提供的一种图像识别方法的流程示意图。如图2所示,该流程可以包括:
步骤S101,获取图像样本,通过图像识别模型输出上述图像样本对应的类别预测概率。
本申请中,这里的图像识别模型可以是指卷积神经网络模型,如基础分类网络。该基础分类网络可以为残差学习神经网络(Residual Neural Network,ResNet)或VGG(Visual Geometry Group Network)等卷积神经网络。也就是说,ResNet以及VGG等卷积神经网络均可以作为该图像识别模型。若将图像样本输入至基础分类网络中,通过该基础分类网络可以有效提取出该图像样本的深层图像特征。在本方案中,可以采用ResNet18网络来作为基础分类网络,该ResNet18网络的网络结构可以如表1所示:
表1
Figure BDA0002473013410000091
如表1所示的ResNet18网络结构中,每个卷积层之后都接有激活函数层(如ReLU层)以及批规范化(Batch Normalization,BN)层。该ResNet18网络可以提取出输入图像(如图像样本)的深层图像特征。表1中的block是ResNet网络中的模块,该模块结构示意图可以如图3所示,该模块结构包括三层卷积层。这三层分别是1×1、3×3、以及1×1的卷积层,其中1×1卷积层负责先减少后增加(恢复)尺寸,可以使3×3卷积层具有较小的输入或输出尺寸。如第一个1×1的卷积层可以将256维通道数降到64维,再通过1x1卷积恢复。
本申请中的图像样本可以用于训练图像识别模型,通过图像样本的训练,可以优化图像识别模型。对于图像样本的选择,可以使用图像类别为异常类别的图像来作为图像样本,如,因为皮肤病以及糖尿病视网膜病变均属于异常图像类别,则可以使用皮肤病以及糖尿病视网膜病变这两个异常类别的公开数据集来作为图像样本。如针对于皮肤病这一异常类别,可以使用公开数据集HAM10000来作为训练图像识别模型的图像样本,该公开数据集HAM10000共分为7类皮肤病;针对于糖尿病视网膜病变这一病变类别,可以使用数据集Kaggle作为图像样本,该数据集Kaggle共分为5种糖尿病视网膜病变程度。也就是说,由公开数据集HAM10000与数据集Kaggle组成的图像样本中,共包括12(7类皮肤病+5种糖尿病视网膜病变程度)类图像类别。将该图像样本输入到图像识别模型(如ResNet18网络)中,通过图像识别模型可以提取出该图像样本的图像特征,如将数据集Kaggle输入ResNet18网络中,ResNet18网络可以提取出数据集Kaggle中每一张图像样本的图像特征。通过ResNet18的全连接层,可以将ResNet18网络提取到的图像特征生成概率特征向量,该概率特征向量中包括了至少两个类别预测概率,每个类别预测概率均对应一个图像类别。也就是说,这里的类别预测概率可以是指图像识别模型对该图像样本所属的图像类别的一个预测概率。如,对于数据集Kaggle中的图像样本A,ResNet18网络可以提取出图像样本A的图像特征A,根据图像特征A可以输出图像样本A的概率特征向量P为(0.2,0.6,0.05,0.05,0.1),其中概率0.2对应的图像类别为类别a,概率0.6对应的病变类别为类别b,概率0.05对应的图像类别为类别c,概率0.05对应的图像类别为类别d,概率0.1对应的图像类别为类别e。
步骤S102,根据上述类别预测概率确定上述图像样本对应的图像预测类别。
本申请中,可以在上述图像识别模型输出的类别预测概率中,确定出最大的一个类别预测概率,把这个最大类别预测概率对应的图像类别确定为图像识别模型预测的图像预测类别。如,以上述ResNet18网络输出图像样本A的概率向量P为(0.2,0.6,0.05,0.05,0.1)为例,因为0.6>0.2>0.1>0.05=0.05,则在ResNet18网络输出的这5个类别预测概率中,类别预测概率0.6为最大值。因为类别预测概率0.6对应的图像类别为类别b,则可以将类别b作为述ResNet18网络对图像样本A的图像预测类别。
步骤S103,若上述图像预测类别与上述图像样本的图像类别标签不一致,则根据上述类别预测概率,分别确定上述图像类别标签对应的第一梯度值以及上述图像预测类别对应的第二梯度值。
本申请中,将图像样本输入至图像识别模型(如ResNet18网络)中,ResNet18网络会将图像样本理解为包含很多数值的图像矩阵。这里的图像类别标签是该图像样本所属的真实图像类别。根据上述图像识别模型输出的类别预测概率以及该图像类别标签,可以确定该图像矩阵的第一初始损失函数值;根据上述图像识别模型输出的类别预测概率以及该图像预测类别,可以确定该图像矩阵的第二初始损失函数值。这里的第一初始损失函数值与第二初始损失函数值可以是指图像识别模型(如ResNet18网络)中的损失函数。卷积神经网络是通过模拟人类的视觉系统来产生分类结果的,它将特征提取与图像分类融合在了一起。在图像分类任务中,深度卷积神经网络通过提取输入图像的深层特征,学习输出图像类别的分布。其学习目标为减小由深度卷积神经网络输出的图像类别分布和图像真实的类别分布的差异。为量化这一学习目标,损失函数应运而生,由图像类别分布和真实类别分布共同确定的损失函数量化了这个差异。损失函数(loss function)也叫代价函数(costfunction),是深度卷积神经网络优化的目标函数,深度卷积神经网络训练或者优化的过程就是最小化损失函数的过程。在深度卷积神经网络训练的过程中,均方差损失函数(meansquare error loss,MSE)、折页损失函数(hinge loss)、交叉熵损失函数(cross-entropyloss,CE)等常见的损失函数扮演了重要角色。与另外两种损失函数(均方差损失函数以及折页损失函数)相比,交叉熵损失函数在网络训练过程中收敛速度快,逐渐成为深度卷积神经网络图像分类网络训练过程中使用最频繁的损失函数。则这里的第一初始损失函数值可以是指根据类别预测概率以及图像类别标签所确定的交叉熵损失函数值,第二初始损失函数值可以是指根据类别预测概率以及图像预测类别所确定的交叉熵损失函数值。为提高卷积神经网络对图像分类的准确率,本方案对图像类别分布和真实类别分布共同确定的损失函数进行了优化。本方案在得到由图像类别分布和真实类别分布确定出的交叉熵损失函数值后,可以利用卷积神经网络的可导性,计算出交叉熵损失函数值对输入的图像样本的梯度特征(偏导数),再根据梯度特征来确定出最终的目标损失函数值,根据目标损失函数值来对卷积神经网络进行调整。计算交叉熵损失函数值对输入的图像样本的梯度的具体实现方式,本方案可以采取以下方法,根据该图像矩阵的第一初始损失函数值(由图像类别标签确定的交叉熵损失函数值),可以计算出该第一初始损失函数值与输入的图像样本(图像矩阵)之间的偏导数,可以将偏导数确定为该图像类别标签对应的第一梯度值;对于确定图像类别标签对应的第一梯度值的具体方法,可以如公式(1)所示:
Figure BDA0002473013410000121
其中,在公式(1)中,x可以用于表征输入的图像样本,f(x)可以用于表征ResNet18网络针对图像样本输出的预测结果(包括类别预测概率),y可以用于表征该输入的图像样本所属的图像类别标签(真实类别),L(f(x),y)可以用于表征根据类别预测概率以及图像类别标签所确定的交叉熵损失函数值,那么A可以用于表征图像类别标签对应的第一梯度值。
根据该图像矩阵的第二初始损失函数值(由图像预测类别确定的交叉熵损失函数值),可以计算出该第二初始损失函数值与输入的图像样本(图像矩阵)之间的偏导数,可以将该偏导数确定为该图像预测类别对应的第二梯度值。对于确定图像预测类别对应的第二梯度值的具体方法,可以如公式(2)所示:
Figure BDA0002473013410000122
其中,在公式(2)中,x可以用于表征输入的图像样本,f(x)可以用于表征ResNet18网络针对图像样本输出的预测结果(包括类别预测概率),y′可以用于表征该输入的图像样本所属的图像预测类别(ResNet18网络对图像样本的预测类别),L′(f(x),y′)可以用于表征根据类别预测概率以及图像预测类别所确定的交叉熵损失函数值,那么A′可以用于表征图像预测类别对应的第二梯度值。
步骤S104,根据上述第一梯度值以及上述第二梯度值,确定上述图像样本的目标损失函数值,根据上述目标损失函数值对上述图像识别模型进行调整,得到目标图像识别模型,基于上述目标图像识别模型进行图像类别识别处理。
本申请中,根据上述图像样本的第一梯度值以及第二梯度值,可以确定该图像样本的目标损失函数值,确定目标损失函数值的具体方法可以先确定出该图像样本的困难样本损失函数值,再根据该困难样本损失函数值与上述图像样本对应的第一初始损失函数值(由图像类别标签确定的交叉熵损失函数值)共同确定。其中,对于确定图像样本的困难样本损失函数值的具体方法,可以如公式(3)所示:
Figure BDA0002473013410000131
其中,在公式(3)中,‖A-A′‖可以用于表征上述第一梯度值与第二梯度值之间的欧式距离,该欧式距离可以用于表征第一梯度值与第二梯度值之间的相似度,若欧式距离越小,则可以表明第一梯度值与第二梯度值之间越相似;∈可以用于表征损失函数参数,该损失函数参数∈的意义在于避免出现‖A-A′‖为0时,公式(3)中的分母也为0的情况,该损失函数参数∈可以为人为规定的一个较小数值,也可以为机器随机生成的一个很小的数值;L(A,A′)可以用于表征该图像样本对应的困难样本损失函数值。可以看出,确定困难样本损失函数值L(A,A′)的具体方法为,将第一梯度值A与第二梯度值A′之间的相似度‖A-A′‖,与损失函数参数∈进行相加处理,得到相加结果‖A-A′‖+∈,该相加结果‖A-A′‖+∈的倒数值
Figure BDA0002473013410000132
即为困难样本损失函数值L(A,A′)。
进一步地,可以将上述困难样本损失函数值L(A,A′)与第一初始损失函数值(由图像类别标签确定的交叉熵损失函数值)L(f(x),y)进行相加,并将相加后的结果确定为图像样本对应的目标损失函数值。该目标损失函数值可以如公式(4)所示:
Ls=L(f(x),y)+L(A,A′) (4)
其中,在公式(4)中,Ls可以用于表征目标损失函数值。
进一步地,在得到目标损失函数值后,可以根据该目标损失函数值对图像识别模型(如ResNet18网络)进行调整,得到目标图像识别模型。可以看出,该目标损失函数值是针对于图像预测类别以及图像类别标签不一致的图像样本所构建的,在通常情况下,在训练ResNet18网络时,输入至ResNet18网络的图像样本包括至少2张图像,在这些图像样本中,若图像样本M的图像预测类别与图像类别标签不一致,则可以表明ResNet18网络对这张图像样本M预测错误,那么可以将这张输入的图像样本M确定为困难图像样本,也就是说,ResNet18网络对这张图像样本M难以预测正确;在这些图像样本中,若ResNet18网络对图像样本N的预测是正确的,那么可以将这张输入的图像样本N确定为正确图像样本或简单图像样本,也就是说,ResNet18网络很容易就可以准确预测出这张图像样本N的图像类别。也就是说,在输入至ResNet18网络的图像样本中,包括了正确图像样本以及困难图像样本,对于调整ResNet18网络,可以根据正确图像样本以及困难图像样本来共同对ResNet18网络进行调整。根据正确图像样本以及困难图像样本来对ResNet18网络(图像识别模型)进行调整的具体方法可以为,根据正确图像样本对应的类别预测概率以及图像类别标签,生成该正确图像样本对应的正确样本损失函数值;其中,该正确样本损失函数值可以是指交叉熵损失函数值。可以获取到图像样本中所包含的正确图像样本以及困难图像样本的总数量(也就是一并输入至ResNet18网络中的图像样本总数,如m);将该困难图像样本的目标函数损失值与该正确图像样本的正确图像样本损失函数值进行相加,得到相加后的结果(如C),将相加后的结果除以上述总数量(C/m),可以得到平均损失函数值;若该平均损失函数值不满足模型收敛条件,则可以根据该平均损失函数值对上述ResNet18网络中的模型参数(如卷积参数w、偏置参数b以及初始学习率等参数)进行调整。在调整后,ResNet18网络可以再次输出对图像样本的新的预测结果,根据新的预测结果,可以再次计算新的梯度值并根据新的梯度值再次确定出新的平均损失函数值,若该新的平均损失函数值满足了模型收敛条件,则可以将该调整后的ResNet18网络确定为目标图像识别模型。若该平均损失函数值满足模型收敛条件,则可以将该ResNet18网络确定为目标图像识别模型。其中,这里的模型收敛条件可以为平均损失函数值在误差允许范围内,该误差允许范围可以为人为规定范围。
在训练完成即调整完成图像识别模型后,可以将目标图像识别模型投入到图像识别的场景中,也就是说,基于上述目标图像识别模型可以进行图像类别识别处理。目标图像识别模型进行图像类别识别处理的步骤可以为,获取目标图像,将该目标图像输入至目标图像识别模型;通过该目标图像识别模型,可以输出该目标图像对应的至少两个目标类别预测概率;在该至少两个目标类别预测概率中,可以确定出最大目标类别预测概率,将该最大目标类别预测概率对应的图像类别确定为该目标图像对应的图像类别。
可以看出,在上述公式(4)中,若ResNet18网络对图像样本的预测结果是错误的(即输出的图像预测类别与图像类别标签不一致),则可以将ResNet18网络的交叉熵损失函数值以及困难样本损失函数值的相加结果,来作为训练ResNet18网络的目标损失函数值。在公式(4)中,因为第二梯度值A′是根据错误的预测结果(图像预测类别)所确定出来的,那么第二梯度值A′可以表明该ResNet18网络的关注点出现了偏差,因此需要将A与A′很好地区分开,那么在根据目标损失函数值Ls对ResNet18网络进行训练时,可以最小化困难样本损失函数值L(A,A′),也就是说,最大化该第一梯度值A与第二梯度值A′之间的差距,使得ResNet18网络根据第一梯度值A与第二梯度值A′之间较大的差距,可以关注到正确的关注点(如第一梯度值A)上。因为困难图像样本的困难损失函数值L(A,A′)是第一梯度值与第二梯度值所构建出的,确定第一梯度值与第二梯度值利用了卷积神经网络,如ResNet18网络的可导性,则困难损失函数值L(A,A′)则可以理解为是基于卷积神经网络自身特征所确定,那么根据该困难损失函数值L(A,A′)所组成的目标损失函数值Ls可以更有益于对ResNet18网络的训练与调整;根据该困难损失函数值L(A,A′)可以使得ResNet18网络达到最优,使得ResNet18网络可以更为准确的识别出目标图像的图像类别。
本申请实施例利用卷积神经网络的可导性,计算困难图像样本(类别预测错误的图像样本)的图像类别标签的第一梯度值,以及该困难图像样本的图像预测类别的第二梯度值;再根据第一梯度值以及第二梯度值来共同确定出困难图像样本的目标损失函数值,利用该目标损失函数值对卷积神经网络(图像识别模型)进行训练的时候,可以最小化该目标损失函数值,那么也就最大化了该第一梯度值与第二梯度值之间的差异,通过不断最大化第一梯度值以及第二梯度值之间的差异的调整方法,可以使得卷积神经网络不断优化,使得卷积神经网络可以能不断关注正确的地方(如图像类别标签对应的第一梯度值),从而可以使得卷积神经网络预测出的图像预测类别可以不断地逼近于图像类别标签;且因为第一梯度值是根据卷积神经网络输出的类别预测概率与图像类别标签来确定的,第二梯度值是根据图卷积神经网络输出的类别预测概率与图像预测类别来确定的,该第一梯度值以及第二梯度值是基于卷积神经网络自身特征(可导性)来确定的,则由第一梯度值与第二梯度值构建的目标损失函数值也更为符合卷积神经网络的自身特征。因此使用该目标损失函数值来调整卷积神经网络,可以使得卷积神经网络更为优异,这样通过调整得到的目标图像识别模型可以更为准确地预测出图像的图像类别。
为便于理解,请参见图4a-图4b,是本申请实施例提供的一种模型训练示意图。如图4a所示,图像样本40中包括3张图像样本,分别为图像样本40a、图像样本40b以及图像样本40c。将图像样本40a、图像样本40b以及图像样本40c一并输入至图像识别模型4000中,通过图像识别模型可以提取出图像样本40a的图像特征a,图像识别模型4000可以对图像特征a进行卷积计算,计算出对图像样本40a的预测结果,如图4a所示,图像识别模型4000对图像样本40a的预测结果是错误的,也就是说,该图像识别模型4000对图像样本40a的图像预测类别与图像样本40a的图像类别标签不符;同理,图像识别模型4000可以提取出图像样本40b的图像特征b以及图像样本40c的图像特征40c,并对图像特征b以及图像特征c分别进行卷积计算,计算出图像样本40b的预测结果以及图像样本40c的预测结果;如图4a所示,图像识别模型4000对图像样本40b以及图像样本40c的预测结果均为正确的。也就是说,图像识别模型4000对图像样本40b的图像预测类别与图像样本40b的图像类别标签相符,图像识别模型对图像样本40c的图像预测类别与图像样本40c的图像预测类别与图像样本40c的图像类别标签相符。如图4a所示,可以将预测结果错误的图像样本40a确定为困难图像样本,将预测结果正确的图像样本40c以及图像样本40c均确定为正确图像样本。
如图4b所示,因为图像样本40a为困难图像样本,则可以根据困难图像样本40a的图像类别标签确定出交叉熵损失函数值,并根据该图像类别标签的交叉熵损失函数值确定出第一梯度值;根据困难图像样本40a的图像预测类别确定出一个交叉熵损失函数值,并根据该图像预测类别对应的交叉熵损失函数值确定出第二梯度值;根据困难图像样本40a的第一梯度值与第二梯度值构建出困难图像样本40a对应的困难样本损失函数,将困难图像样本40a的困难样本损失函数与上述图像标签的交叉熵损失函数值进行相加,得到困难图像样本40a的目标损失函数值。进一步地,根据正确图像样本40b的图像类别标签以及图像识别模型4000输出的对正确图像样本40b的类别预测概率,可以确定出正确图像样本40b的交叉熵损失函数值;根据正确图像样本40c的图像类别标签以及图像识别模型4000输出的对正确图像样本40c的类别预测概率,可以确定出正确图像样本40c的交叉熵损失函数值。将困难图像样本40a的目标损失函数值、正确图像样本40b的交叉熵损失函数值以及正确图像样本40c的交叉熵损失含数字进行相加,可以得到用于训练图像识别模型4000的平均损失函数值。当该平均损失函数值不满足模型收敛条件时,可以根据该平均损失函数值对图像识别模型4000进行训练。其中,对于图像识别模型4000确定困难图像样本40a的目标损失函数值的具体实现方式,可以参见上述图2所对应实施例中步骤S103-步骤S104的描述,这里将不再进行赘述。
可选的,可以理解的是,对于正确图像样本40b以及正确图像样本40c,也可以计算出正确图像样本40b的图像类别标签对应的第一梯度值,以及正确图像样本40c的图像预测类别对应的第二梯度值,根据该正确图像样本40b的第一梯度值以及第二梯度值确定出正确图像样本40b的一个困难损失函数值b,再将困难损失函数值b与正确图像样本40b的图像类别标签对应的交叉熵损失函数相加,得到正确图像样本40b的目标损失函数值b;同理,可以计算出正确图像样本40c的图像类别标签对应的第一梯度值,以及正确图像样本40c的图像预测类别对应的第二梯度值,根据该正确图像样本40c的第一梯度值以及第二梯度值确定出正确图像样本40c的一个困难损失函数值c,再将困难损失函数值c与正确图像样本40c的图像类别标签对应的交叉熵损失函数相加,得到正确图像样本40c的目标损失函数值c。因为,图像样本40b与图像样本40c为正确图像样本,也就是说图像预测类别与图像类别标签相符合,则正确图像样本40b的第一梯度值与第二梯度值之间的差距会很大,正确图像样本40c的第一梯度值与第二梯度值之间的差距也会很大。则由正确图像样本40b的第一梯度值与第二梯度值确定的困难样本损失函数值b会是很小的一个数值,对目标损失函数值b的影响很小甚至没有影响;由正确图像样本40c的第一梯度值与第二梯度值确定的困难样本损失函数值c也会是一个很小的数值,对目标损失函数值c的影响也会很小甚至没有影响。其中,确定正确图像样本40b的目标损失函数值b以及正确图像样本40c的目标损失函数值c的具体实现方式,可以参见上述对确定困难图像样本40a的目标损失函数值的描述,这里将不再进行赘述。
为便于理解,请参见图5,是本申请实施例提供的一种场景示意图。如图5所示,用户A通过终端A将一位患有糖尿病视网膜病变的患者的眼底图(目标图像A)发送至业务服务器5000,希望可以得到目标图像A的图像类别的预测结果。业务服务器5000接收到该目标图像A后,可以将该目标图像A发送至目标图像识别模型,其中,该目标图像识别模型是训练好的模型,具有准确进行图像分类的能力。对于训练模型得到目标图像识别模型的具体实现方式,可以参见上述图2所对应实施例中步骤S101-步骤S104的描述,这里将不再进行赘述。通过目标图像识别模型,可以输出对目标图像A的预测概率,如图5所示,该预测概率可以包括预测概率P0、预测概率P1、预测概率P2、预测概率P3以及预测概率P4。其中,预测概率P0为0.1,预测概率P1为0.05,预测概率P2为0.65,预测概率P3为0.05,预测概率P4为0.15。因为0.65>0.15>0.1>0.05=0.05,则可以看出,预测概率P2为最大预测概率。其中,预测概率P0对应的图像类别为正常、预测概率P1对应的图像类别为轻度、预测概率P2对应的图像类别为中度、预测概率P3对应的图像类别为重度、预测概率P4对应的图像类别为增殖。可以将最大预测概率P2对应的图像类别“中度”确定为目标图像A的图像类别。也就是说,该目标图像A的图像类别为中度糖尿病视网膜病变,该目标图像A是一张中度糖尿病视网膜病变图像。业务服务器5000可以将预测结果(图像A为中度糖尿病视网膜病变)返回至终端A,用户A可以在终端A的显示页面上查看到这个预测结果,并根据这个预测结果用户可以结合个人的临床经验以及该辅助诊断结果,进行人工分析,进行进一步处理(如,用户A将目标图像A为中度糖尿病视网膜病变的预测结果作为辅助诊断结果,用户A可以结合个人的临床经验以及该辅助诊断结果,进行人工分析,确定出最终的诊断方案)。
请参见图6,是本申请实施例提供的一种模型应用的流程示意图。如图6所示,该流程可以包括:
步骤S201,获取目标图像,将上述目标图像输入上述目标图像识别模型。
本申请中,这里的目标图像识别模型可以为训练调整后的图像识别模型,这里的目标图像识别模型具备准确进行图像分类的能力。对于训练调整图像识别模型,得到目标图像识别模型的具体实现方式,可以参见上述图2所对应实施例中步骤S101-步骤S104的描述,这里将不再进行赘述。
步骤S202,通过上述目标图像识别模型,输出上述目标图像对应的至少两个目标类别预测概率。
步骤S203,在上述至少两个目标类别预测概率,确定出最大目标类别预测概率,将上述最大目标类别预测概率对应的图像类别,确定为上述目标图像对应的图像类别。
本申请中,目标识别模型可以提取出目标图像的目标图像特征,并根据该目标图像特征输出该目标图像对应的至少两个目标类别预测概率,每个目标类别预测概率分别对应一个图像类别,则最大目标类别预测概率对应的图像类别,可以作为该目标图像识别模型对该目标图像预测的图像类别。
步骤S204,根据上述目标图像对应的图像类别,确定上述目标图像的状态。
本申请中,在确定出目标图像对应的图像类别后,可以确定该图像类别是否为异常的图像类别。如,目标图像对应的图像类别为皮肤过敏、糖尿病、冠心病等疾病,则可以将该目标图像的图像类别确定为异常图像类别,异常图像类别还可以为头发枯黄、骨折等,在此不再一一举例;若目标图像对应的图像类别为无糖尿病视网膜病变、无皮肤过敏症状等,则可以将该目标图像的图像类别确定为正常图像类别。本方案中,若目标图像对应的图像类别为异常图像类别,则可以将该目标图像的状态确定为异常状态;若目标图像对应的图像类别为正常图像类别,则可以将该目标图像的状态确定为正常状态。
步骤S205,若上述目标图像为异常状态,则将上述目标图像确定为异常图像,在上述异常图像中确定异常区域。
本申请中,若该目标图像的状态为异常状态,那么可以将该目标图像确定为异常图像,并在该异常图像中确定出异常区域。有关于确定异常区域的具体实现方式,本方案可以采取以下方法,获取到该异常图像对应的图像类别,在异常区域筛查模型集合中,获取该异常图像对应的图像类别所关联的目标异常区域筛查模型;将该异常图像输入至该目标异常区域筛查模型中,通过该目标异常区域筛查模型,可以在该异常图像中确定出异常区域。其中,这里的异常图像对应的图像类别所关联的目标异常区域筛查模型,可以是指异常区域筛查的类别与异常图像对应的图像类别相匹配的模型。如,异常区域筛查模型集合中包括模型A、模型B以及模型C,其中模型A筛查的类别为类别A,模型B筛查的类别为类别B,模型C筛查的类别为类别C,若异常图像对应的图像类别为类别A,该类别A与模型A对应的类别A一致,则可以将模型A确定为目标异常区域筛查模型;若异常图像对应的图像类别为类别a,该类别a是类别A中的子类别,如类别A为糖尿病视网膜病变,而类别a为轻度糖尿病视网膜病变,则该类别a是类别A中的一个轻重程度,属于类别A的一个子类别,则可以将类别a确定为是与类别A相匹配的,则可以将模型A确定为目标异常区域筛查模型。
步骤S206,将上述异常区域在上述异常图像中进行异常标记,输出携带上述异常标记的异常图像。
本申请中,这里进行异常标记的方式可以为在目标图像(异常图像)中,框出异常区域;也可以将异常图像中的异常区域抠出来,与异常图像一并输出。对于对异常区域进行异常标记的方式,本申请不做限制。
可以理解的是,在目标图像识别模型确定出目标图像所属的图像类别后,若该图像类别为异常图像类别,则可以将该具有异常图像类别的目标图像,输入至该图像类别对应的目标异常区域筛查模型中,通过该目标异常区域筛查模型,可以识别出该目标图像中的异常区域,并在该目标图像中对这个异常区域进行异常标记,再输出携带该异常标记的异常图像。也就是说,图像识别模型可以确定出目标图像所属的图像类别,而目标异常区域筛查模型可以确定出该目标图像中的异常区域。图像识别模型是初始的进行图像类别分类,而异常区域筛查模型是进一步地且更为具体地细节识别。
步骤S207,若上述目标图像为正常状态,则将上述目标图像确定为正常图像,输出上述正常图像。
本申请中,若目标图像为正常状态,则可以将目标图像与目标图像所属的图像类别直接输出。
本申请实施例利用卷积神经网络的可导性,计算困难图像样本(类别预测错误的图像样本)的图像类别标签的第一梯度值,以及该困难图像样本的图像预测类别的第二梯度值;再根据第一梯度值以及第二梯度值来共同确定出困难图像样本的目标损失函数值,利用该目标损失函数值对卷积神经网络(图像识别模型)进行训练的时候,可以最小化该目标损失函数值,那么也就最大化了该第一梯度值与第二梯度值之间的差异,通过不断最大化第一梯度值以及第二梯度值之间的差异的调整方法,可以使得卷积神经网络不断优化,使得卷积神经网络可以能不断关注正确的地方(如图像类别标签对应的第一梯度值),从而可以使得卷积神经网络预测出的图像预测类别可以不断地逼近于图像类别标签;且因为第一梯度值是根据卷积神经网络输出的类别预测概率与图像类别标签来确定的,第二梯度值是根据图卷积神经网络输出的类别预测概率与图像预测类别来确定的,该第一梯度值以及第二梯度值是基于卷积神经网络自身特征(可导性)来确定的,则由第一梯度值与第二梯度值构建的目标损失函数值也更为符合卷积神经网络的自身特征。因此使用该目标损失函数值来调整卷积神经网络,可以使得卷积神经网络更为优异,这样通过调整得到的目标图像识别模型可以更为准确地预测出图像的图像类别。且在应用目标图像识别模型时,通过目标图像识别模型对目标图像进行图像类别分类后,可以进一步地利用异常区域筛查模型,在目标图像中确定出异常区域,这样可以做到快速有效的识别出异常区域,节约人工查找异常区域的成本。
请参见图7,是本申请实施例提供的一种困难损失函数的构建方法架构图。如图7所示,将输入图像输入卷积神经网络(如ResNet18)中,该卷积神经网络是神经学习分类,检测技术中常用的一种神经网络,卷积神经网络由卷积层、池化层以及全连接层组成。卷积神经网络可以为上述图2所对应实施例中的图像识别模型。通过卷积神经网络可以提取输入图像的图像特征;如图7所示的分类器可以对该卷积神经网络提取出的图像特征进行卷积计算,计算后可以输出卷积神经网络对输入图像的预测结果f(x)。其中,这里的分类器也就是卷积神经网络中的全连接层,该全连接层中每个节点与上一个节点相连接,可以将前面提取的图像特征综合起来,形成一个预测结果向量。如图7所示,该预测结果f(x)中包括了n个预测概率,分别为预测概率P0、预测概率P1、…、预测概率Pn。根据预测结果f(x),可以确定出卷积神经网络的图像预测类别。若该图像预测类别与输入图像的真实类别标签(真实类别)不一致,则可以认为该输入图像对卷积神经网络来说是困难图像样本,则可以求出困难图像样本的困难损失函数,根据该困难损失函数来对卷积神经网络进行调整。如图7所示,根据输入图像的图像预测类别以及预测结果f(x),可以确定出交叉熵损失函数值L(f(x),y’),将该交叉熵损失函数值L(f(x),y’)对输入图像求偏导(对卷积神经网络而言,输入图像是一个具有很多数值的矩阵),可以得到第二梯度值;根据该输入图像所属的真实类别标签以及预测结果f(x),可以确定出交叉熵损失函数值L(f(x),y),将该交叉熵损失函数值L(f(x),y)对输入图像求偏导,可以得到第一梯度值。根据该第一梯度值以及该第二梯度值,可以构建出该输入图像的困难损失函数值。对于根据该第一梯度值以及该第二梯度值构建出该输入图像的困难损失函数值的具体实现方式,可以参见上述图2所对应实施例中步骤S104中的描述,这里将不再进行赘述。如图7所示中的符号M可以用于表征将困难损失函数值与交叉熵损失函数值L(f(x),y)进行相加,得到目标损失函数值,根据该目标损失函数值,可以对卷积神经网络中的参数进行调整,使得调整后的卷积神经网络可以准确预测出输入图像的图像类别。对于根据目标损失函数值对卷积神经网络进行调整的具体实现方式,可以参见上述图2所对应实施例中步骤S104中的描述,这里将不再进行赘述。可以看出,在卷积神经网络对输入图像预测错误时,利用卷积神经网络的可导性,计算出卷积神经网络的梯度特征(包括第一梯度值以及第二梯度值),根据该梯度特征来确定该输入图像的困难损失函数值,因为该困难损失函数值是根据卷积神经网络的梯度特征所确定的,该困难损失函数值可以体现出卷积神经网络的自身特征。那么由该困难损失函数值来对卷积神经网络进行调整,可以使得卷积神经网络更为准确的预测出输入图像的图像类别。
为便于理解,请参见图8,是本申请实施例提供的一种场景示意图。如图8所示,用户B通过终端B输入一张患者图像70a至业务服务器7000,希望可以得到患者图像70a的图像类别以及患者70a中的异常区域。业务服务器7000可以将该患者图像70a发送至目标图像识别模型中,通过该目标图像识别模型可以确定出该患者图像70a的图像类别为心脏病,因为心脏病这个图像类别是属于异常图像类别,则可以确定该患者图像70a的状态视为异常状态。后续,根据该患者图像70a这一“心脏病”的异常图像类别,可以在异常区域筛查模型集合中,确定出与心脏病这一异常图像类别相对应的目标异常区域筛查模型。如图8所示,在异常区域筛查模型集合中,包括异常区域筛查模型a、异常区域筛查模型b、异常区域筛查模型c以及异常区域筛查模型d,其中,异常区域筛查模型a对应的图像类别为心脏病,也就是该异常区域筛查模型a用于对图像类别为心脏病的图像进行筛查;异常区域筛查模型b对应的图像类别为皮肤病,异常区域筛查模型c对应的图像类别为眼部疾病,异常区域筛查模型d对应的图像类别为肺部疾病。因为患者图像70a所属的异常图像类别为心脏病,则可以在这些异常区域筛查模型中,确定出异常区域筛查模型a作为目标异常区域筛查模型,来对患者图像70a进行异常区域筛查。将该患者图像70a输入至异常区域筛查模型a中,通过异常区域筛查模型a可以确定出患者图像70a中的异常区域为区域G,则可以在患者图像70a中进行异常标记,如图8所示,进行标记后可得到图像70b。其中,图像70b中包括了异常区域G。业务服务器7000可以将该预测结果(患者图像70的异常类别为心脏病)以及图像70b返回至终端B,用户B可以在终端B的显示页面上查看到患者图像70a的图像类别,且可以查看到图像70b,根据图像70b可以确定出该患者图像70a具体是哪个位置发生了异常。用户B可以根据该预测结果以及该异常区域进行后续处理,如用户B可以将该预测结果以及异常区域作为辅助诊断结果,用户B可以结合个人的临床经验以及该辅助诊断结果,进行人工分析,来确定出最终的诊断方案。
进一步地,请参见图9,是本申请实施例提供的一种图像识别装置的结构示意图。上述图像识别装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该图像识别装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。该图像识别装置1可以包括:预测概率输出模块11、预测类别确定模块12、梯度值确定模块13、函数值确定模块14以及模型调整模块15。
预测概率输出模块11,用于获取图像样本,通过图像识别模型输出上述图像样本对应的类别预测概率;
预测类别确定模块12,用于根据上述类别预测概率确定上述图像样本对应的图像预测类别;
梯度值确定模块13,用于若上述图像预测类别与上述图像样本的图像类别标签不一致,则根据上述类别预测概率,分别确定上述图像类别标签对应的第一梯度值以及上述图像预测类别对应的第二梯度值;
函数值确定模块14,用于根据上述第一梯度值以及上述第二梯度值,确定上述图像样本的目标损失函数值;
模型调整模块15,用于根据上述目标损失函数值对上述图像识别模型进行调整,得到目标图像识别模型,基于上述目标图像识别模型进行图像类别识别处理。
其中,预测概率输出模块11、预测类别确定模块12、梯度值确定模块13、函数值确定模块14以及模型调整模块15的具体实现方式可以参见上述图2所对应实施例中步骤S101-步骤S104的描述,这里将不再进行赘述。
请参见图9,上述梯度值确定模块13,可以包括:初始损失值确定单元131以及梯度值确定单元132。
初始损失值确定单元131,用于根据上述类别预测概率以及上述图像类别标签,确定上述图像矩阵的第一初始损失函数值;
梯度值确定单元132,用于将上述第一初始损失函数值与上述图像矩阵之间的偏导数,确定为上述图像类别标签对应的上述第一梯度值;
上述初始损失值确定单元131,还用于根据上述类别预测概率以及上述图像预测类别,确定上述图像矩阵的第二初始损失函数值;
上述梯度值确定单元132,还用于将上述第二初始损失函数值与上述图像矩阵之间的偏导数,确定为上述图像预测类别对应的上述第二梯度值。
其中,初始损失值确定单元131以及梯度值确定单元132的具体实现方式,可以参见上述图2所对应实施例中步骤S103的描述,这里将不再进行赘述。
请参见图9,上述函数值确定模块14,可以包括:参数获取单元141、相似度确定单元142以及函数值构建单元143。
参数获取单元141,用于获取损失函数参数;
相似度确定单元142,用于确定上述第一梯度值与上述第二梯度值之间的相似度;
函数值构建单元143,用于根据上述损失函数参数、上述相似度以及上述第一初始损失函数值,构建上述图像样本的上述目标损失函数值。
其中,参数获取单元141、相似度确定单元142以及函数值构建单元143的具体实现方式,可以参见上述图2所对应实施例中步骤S104中的描述,这里将不再进行赘述。
请参见图9,上述函数值构建单元143,可以包括:困难损失函数值确定子单元1431以及目标损失函数值确定子单元1432。
困难损失函数值确定子单元1431,用于将上述损失函数参数与上述相似度进行相加处理,将相加结果的倒数值,确定为上述图像样本的困难样本损失函数值;
目标损失函数值确定子单元1432,用于将上述困难样本损失函数值与上述第一初始损失函数值进行相加处理,得到上述目标损失函数值。
其中,困难损失函数值确定子单元1431以及目标损失函数值确定子单元1432的具体实现方式,可以参见上述图2所对应实施例中步骤S104的描述,这里将不再进行赘述。
请参见图9,上述模型调整模块15,可以包括:正确损失函数值生成单元151以及模型调整单元152。
正确损失函数值生成单元151,用于根据上述正确图像样本对应的图像预测类别以及图像类别标签,生成上述正确图像样本对应的正确样本损失函数值;
模型调整单元152,用于根据上述困难图像样本的目标损失函数值以及上述正确图像样本的正确样本损失函数值,对上述图像识别模型进行调整,得到上述目标图像识别模型。
其中,正确损失函数值生成单元151以及模型调整单元152的具体实现方式,可以参见上述图2所对应实施例中步骤S104的描述,这里将不再进行赘述。
其中,上述模型调整单元152,可以包括:数量获取子单元1521、评论损失值确定子单元1522、参数调整子单元1523以及目标模型确定子单元1524。
数量获取子单元1521,用于获取上述图像样本中包含的正确图像样本以及困难图像样本的总数量;
评论损失值确定子单元1522,用于将上述困难图像样本的目标函数损失值与上述正确图像样本的正确图像样本损失函数值进行相加,根据相加后的结果与上述总数量确定平均损失函数值;
参数调整子单元1523,用于若上述平均损失函数值不满足模型收敛条件,则根据上述平均损失函数值对上述图像识别模型的模型参数进行调整,在调整后的图像识别模型满足上述模型收敛条件时,将上述调整后的图像识别模型确定为上述目标图像识别模型;
目标模型确定子单元1524,用于若上述平均损失函数值满足上述模型收敛条件,则将上述图像识别模型确定为上述目标图像识别模型。
其中,数量获取子单元1521、评论损失值确定子单元1522、参数调整子单元1523以及目标模型确定子单元1524的具体实现方式,可以参见上述图2所对应实施例中步骤S104的描述,这里将不再进行赘述。
请参见图9,该图像识别装置1可以包括预测概率输出模块11、预测类别确定模块12、梯度值确定模块13、函数值确定模块14以及模型调整模块15,还可以包括:目标图像输入模块16、目标概率输出模块17以及图像类别确定模块18。
目标图像输入模块16,用于获取目标图像,将上述目标图像输入上述目标图像识别模型;
目标概率输出模块17,用于通过上述目标图像识别模型,输出上述目标图像对应的至少两个目标类别预测概率;
图像类别确定模块18,用于在上述至少两个目标类别预测概率,确定出最大目标类别预测概率,将上述最大目标类别预测概率对应的图像类别,确定为上述目标图像对应的图像类别。
其中,目标图像输入模块16、目标概率输出模块17以及图像类别确定模块18的具体实现方式,可以参见上述图6所对应实施例中步骤S201-步骤S203的描述,这里将不再进行赘述。
请参见图9,该图像识别装置1可以包括预测概率输出模块11、预测类别确定模块12、梯度值确定模块13、函数值确定模块14以及模型调整模块15、目标图像输入模块16、目标概率输出模块17以及图像类别确定模块18,还可以包括:状态确定模块19、异常区域确定模块20、异常图像输出模块21以及正常图像输出模块22。
状态确定模块19,用于根据上述目标图像对应的图像类别,确定上述目标图像的状态;
异常区域确定模块20,用于若上述目标图像为异常状态,则将上述目标图像确定为异常图像,在上述异常图像中确定异常区域;
异常图像输出模块21,用于将上述异常区域在上述异常图像中进行异常标记,输出携带上述异常标记的异常图像;
正常图像输出模块22,用于若上述目标图像为正常状态,则将上述目标图像确定为正常图像,输出上述正常图像。
其中,状态确定模块19、异常区域确定模块20、异常图像输出模块21以及正常图像输出模块22的具体实现方式,可以参见上述图6所对应实施例中步骤S204-步骤S207的描述,这里将不再进行赘述。
请参见图9,上述状态确定模块19,可以包括:异常状态确定单元191以及正常状态确定单元192。
异常状态确定单元191,用于若上述目标图像对应的图像类别为异常图像类别,则将上述目标图像的状态确定为异常状态;
正常状态确定单元192,用于若上述目标图像对应的图像类别为正常图像类别,则将上述目标图像的状态确定为正常状态。
其中,异常状态确定单元191以及正常状态确定单元192的具体实现方式,可以参见上述图6所对应实施例中步骤S204中的描述,这里将不再进行赘述。
请参见图9,上述异常区域确定模块20,可以包括:模型获取单元201以及异常区域确定单元202。
模型获取单元201,用于获取上述异常图像对应的图像类别,在异常区域筛查模型集合中,获取上述异常图像对应的图像类别所关联的目标异常区域筛查模型;
异常区域确定单元202,用于将上述异常图像输入至上述目标异常区域筛查模型,通过上述目标异常区域筛查模型,在上述异常图像中确定出异常区域。
其中,模型获取单元201以及异常区域确定单元202的具体实现方式,可以参见上述图6所对应实施例中步骤S205中的描述,这里将不再进行赘述。
本申请实施例利用卷积神经网络的可导性,计算困难图像样本(类别预测错误的图像样本)的图像类别标签的第一梯度值,以及该困难图像样本的图像预测类别的第二梯度值;再根据第一梯度值以及第二梯度值来共同确定出困难图像样本的目标损失函数值,利用该目标损失函数值对卷积神经网络(图像识别模型)进行训练的时候,可以最小化该目标损失函数值,那么也就最大化了该第一梯度值与第二梯度值之间的差异,通过不断最大化第一梯度值以及第二梯度值之间的差异的调整方法,可以使得卷积神经网络不断优化,使得卷积神经网络可以能不断关注正确的地方(如图像类别标签对应的第一梯度值),从而可以使得卷积神经网络预测出的图像预测类别可以不断地逼近于图像类别标签;且因为第一梯度值是根据卷积神经网络输出的类别预测概率与图像类别标签来确定的,第二梯度值是根据图卷积神经网络输出的类别预测概率与图像预测类别来确定的,该第一梯度值以及第二梯度值是基于卷积神经网络自身特征来确定的,则由第一梯度值与第二梯度值构建的目标损失函数值也更为符合卷积神经网络的自身特征。因此使用该目标损失函数值来调整卷积神经网络,可以使得卷积神经网络更为优异,这样通过调整得到的目标图像识别模型可以更为准确地预测出图像的图像类别。
进一步地,请参见图10,是本申请实施例提供的一种计算机设备的示意图。如图10所示,上述计算机设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图10所示的计算机设备1000中,网络接口1004主要用于与业务服务器进行网络通信;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取图像样本,通过图像识别模型输出上述图像样本对应的类别预测概率;
根据上述类别预测概率确定上述图像样本对应的图像预测类别;
若上述图像预测类别与上述图像样本的图像类别标签不一致,则根据上述类别预测概率,分别确定上述图像类别标签对应的第一梯度值以及上述图像预测类别对应的第二梯度值;
根据上述第一梯度值以及上述第二梯度值,确定上述图像样本的目标损失函数值,根据上述目标损失函数值对上述图像识别模型进行调整,得到目标图像识别模型,基于上述目标图像识别模型进行图像类别识别处理。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图2到图8所对应实施例中对该图像识别方法的描述,也可执行前文图9所对应实施例中对该图像识别装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的图像识别的计算机设备1000所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图2到图8所对应实施例中对上述图像识别方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (13)

1.一种图像识别方法,其特征在于,包括:
获取图像样本,通过图像识别模型输出所述图像样本对应的类别预测概率;
根据所述类别预测概率确定所述图像样本对应的图像预测类别;
若所述图像预测类别与所述图像样本的图像类别标签不一致,则根据所述类别预测概率,分别确定所述图像类别标签对应的第一梯度值以及所述图像预测类别对应的第二梯度值;
根据所述第一梯度值以及所述第二梯度值,确定所述图像样本的目标损失函数值,根据所述目标损失函数值对所述图像识别模型进行调整,得到目标图像识别模型,基于所述目标图像识别模型进行图像类别识别处理。
2.根据权利要求1所述的方法,其特征在于,所述图像样本为图像矩阵;
所述根据所述类别预测概率,分别确定所述图像类别标签对应的第一梯度值以及所述图像预测类别对应的第二梯度值,包括:
根据所述类别预测概率以及所述图像类别标签,确定所述图像矩阵的第一初始损失函数值;
将所述第一初始损失函数值与所述图像矩阵之间的偏导数,确定为所述图像类别标签对应的所述第一梯度值;
根据所述类别预测概率以及所述图像预测类别,确定所述图像矩阵的第二初始损失函数值;
将所述第二初始损失函数值与所述图像矩阵之间的偏导数,确定为所述图像预测类别对应的所述第二梯度值。
3.根据权利1所述的方法,其特征在于,所述根据所述第一梯度值以及所述第二梯度值,确定所述图像样本的目标损失函数值,包括:
获取损失函数参数;
确定所述第一梯度值与所述第二梯度值之间的相似度;
根据所述损失函数参数、所述相似度以及所述第一初始损失函数值,构建所述图像样本的所述目标损失函数值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述损失函数参数、所述相似度以及所述第一初始损失函数值,构建所述图像样本的所述目标损失函数值,包括:
将所述损失函数参数与所述相似度进行相加处理,将相加结果的倒数值,确定为所述图像样本的困难样本损失函数值;
将所述困难样本损失函数值与所述第一初始损失函数值进行相加处理,得到所述目标损失函数值。
5.根据权利要求1所述的方法,其特征在于,所述图像样本中包括困难图像样本和正确图像样本;
所述根据所述目标损失函数值对所述图像识别模型进行调整,得到目标图像识别模型,包括:
根据所述正确图像样本对应的类别预测概率以及图像类别标签,生成所述正确图像样本对应的正确样本损失函数值;
根据所述困难图像样本的目标损失函数值以及所述正确图像样本的正确样本损失函数值,对所述图像识别模型进行调整,得到所述目标图像识别模型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述困难图像样本的目标损失函数值以及所述正确图像样本的正确样本损失函数值,对所述图像识别模型进行调整,得到目标图像识别模型,包括:
获取所述图像样本中包含的正确图像样本以及困难图像样本的总数量;
将所述困难图像样本的目标函数损失值与所述正确图像样本的正确图像样本损失函数值进行相加,根据相加后的结果与所述总数量确定平均损失函数值;
若所述平均损失函数值不满足模型收敛条件,则根据所述平均损失函数值对所述图像识别模型的模型参数进行调整,在调整后的图像识别模型满足所述模型收敛条件时,将所述调整后的图像识别模型确定为所述目标图像识别模型;
若所述平均损失函数值满足所述模型收敛条件,则将所述图像识别模型确定为所述目标图像识别模型。
7.根据权利要求1所述的方法,其特征在于,还包括:
获取目标图像,将所述目标图像输入所述目标图像识别模型;
通过所述目标图像识别模型,输出所述目标图像对应的至少两个目标类别预测概率;
在所述至少两个目标类别预测概率,确定出最大目标类别预测概率,将所述最大目标类别预测概率对应的图像类别,确定为所述目标图像对应的图像类别。
8.根据权利要求7所述的方法,其特征在于,还包括:
根据所述目标图像对应的图像类别,确定所述目标图像的状态;
若所述目标图像为异常状态,则将所述目标图像确定为异常图像,在所述异常图像中确定异常区域;
将所述异常区域在所述异常图像中进行异常标记,输出携带所述异常标记的异常图像;
若所述目标图像为正常状态,则将所述目标图像确定为正常图像,输出所述正常图像。
9.根据权利要求8所述的方法,其特征在于,所述根据所述图像类别,确定所述目标图像的状态,包括:
若所述目标图像对应的图像类别为异常图像类别,则将所述目标图像的状态确定为异常状态;
若所述目标图像对应的图像类别为正常图像类别,则将所述目标图像的状态确定为正常状态。
10.根据权利要求8所述的方法,其特征在于,所述在所述异常图像中确定异常区域,包括:
获取所述异常图像对应的图像类别,在异常区域筛查模型集合中,获取所述异常图像对应的图像类别所关联的目标异常区域筛查模型;
将所述异常图像输入至所述目标异常区域筛查模型,通过所述目标异常区域筛查模型,在所述异常图像中确定出异常区域。
11.一种图像识别装置,其特征在于,包括:
预测概率输出模块,用于获取图像样本,通过图像识别模型输出所述图像样本对应的类别预测概率;
预测类别确定模块,用于根据所述类别预测概率确定所述图像样本对应的图像预测类别;
梯度值确定模块,用于若所述图像预测类别与所述图像样本的图像类别标签不一致,则根据所述类别预测概率,分别确定所述图像类别标签对应的第一梯度值以及所述图像预测类别对应的第二梯度值;
函数值确定模块,用于根据所述第一梯度值以及所述第二梯度值,确定所述图像样本的目标损失函数值;
模型调整模块,用于根据所述目标损失函数值对所述图像识别模型进行调整,得到目标图像识别模型,基于所述目标图像识别模型进行图像类别识别处理。
12.一种计算机设备,其特征在于,包括:处理器和存储器;
所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1至10中任一项所述的方法。
CN202010354516.1A 2020-04-29 2020-04-29 一种图像识别方法、装置、设备以及可读存储介质 Active CN111582342B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010354516.1A CN111582342B (zh) 2020-04-29 2020-04-29 一种图像识别方法、装置、设备以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010354516.1A CN111582342B (zh) 2020-04-29 2020-04-29 一种图像识别方法、装置、设备以及可读存储介质

Publications (2)

Publication Number Publication Date
CN111582342A true CN111582342A (zh) 2020-08-25
CN111582342B CN111582342B (zh) 2022-08-26

Family

ID=72113930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010354516.1A Active CN111582342B (zh) 2020-04-29 2020-04-29 一种图像识别方法、装置、设备以及可读存储介质

Country Status (1)

Country Link
CN (1) CN111582342B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149745A (zh) * 2020-09-27 2020-12-29 上海高德威智能交通系统有限公司 确定难例样本的方法、装置、设备及存储介质
CN112348808A (zh) * 2020-11-30 2021-02-09 广州绿怡信息科技有限公司 屏幕透图检测方法及装置
CN112906799A (zh) * 2021-02-25 2021-06-04 深圳前海微众银行股份有限公司 回归学习的调整方法、装置、系统及计算机可读存储介质
CN113011646A (zh) * 2021-03-15 2021-06-22 腾讯科技(深圳)有限公司 一种数据处理方法、设备以及可读存储介质
CN113191401A (zh) * 2021-04-14 2021-07-30 中国海洋大学 基于视觉显著性共享的用于三维模型识别的方法及装置
CN113344890A (zh) * 2021-06-18 2021-09-03 北京百度网讯科技有限公司 医学图像识别方法、识别模型训练方法及装置
CN113705685A (zh) * 2021-08-30 2021-11-26 平安科技(深圳)有限公司 疾病特征识别模型训练、疾病特征识别方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163234A (zh) * 2018-10-10 2019-08-23 腾讯科技(深圳)有限公司 一种模型训练方法、装置和存储介质
US20190377972A1 (en) * 2018-06-08 2019-12-12 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and apparatus for training, classification model, mobile terminal, and readable storage medium
WO2019233341A1 (zh) * 2018-06-08 2019-12-12 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN110738263A (zh) * 2019-10-17 2020-01-31 腾讯科技(深圳)有限公司 一种图像识别模型训练的方法、图像识别的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190377972A1 (en) * 2018-06-08 2019-12-12 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and apparatus for training, classification model, mobile terminal, and readable storage medium
WO2019233341A1 (zh) * 2018-06-08 2019-12-12 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN110163234A (zh) * 2018-10-10 2019-08-23 腾讯科技(深圳)有限公司 一种模型训练方法、装置和存储介质
CN110738263A (zh) * 2019-10-17 2020-01-31 腾讯科技(深圳)有限公司 一种图像识别模型训练的方法、图像识别的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QINGBIN SHAO等: ""Attentive CT Lesion Detection Using Deep Pyramid Inference with Multi-Scale Booster"", 《ARXIV.ORG》 *
杨鑫等: ""基于多分支网络的图像分类算法"", 《软件导刊》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149745A (zh) * 2020-09-27 2020-12-29 上海高德威智能交通系统有限公司 确定难例样本的方法、装置、设备及存储介质
CN112149745B (zh) * 2020-09-27 2022-10-21 上海高德威智能交通系统有限公司 确定难例样本的方法、装置、设备及存储介质
CN112348808A (zh) * 2020-11-30 2021-02-09 广州绿怡信息科技有限公司 屏幕透图检测方法及装置
CN112906799A (zh) * 2021-02-25 2021-06-04 深圳前海微众银行股份有限公司 回归学习的调整方法、装置、系统及计算机可读存储介质
CN113011646A (zh) * 2021-03-15 2021-06-22 腾讯科技(深圳)有限公司 一种数据处理方法、设备以及可读存储介质
CN113011646B (zh) * 2021-03-15 2024-05-31 腾讯科技(深圳)有限公司 一种数据处理方法、设备以及可读存储介质
CN113191401A (zh) * 2021-04-14 2021-07-30 中国海洋大学 基于视觉显著性共享的用于三维模型识别的方法及装置
CN113344890A (zh) * 2021-06-18 2021-09-03 北京百度网讯科技有限公司 医学图像识别方法、识别模型训练方法及装置
CN113344890B (zh) * 2021-06-18 2024-04-12 北京百度网讯科技有限公司 医学图像识别方法、识别模型训练方法及装置
CN113705685A (zh) * 2021-08-30 2021-11-26 平安科技(深圳)有限公司 疾病特征识别模型训练、疾病特征识别方法、装置及设备
CN113705685B (zh) * 2021-08-30 2023-08-01 平安科技(深圳)有限公司 疾病特征识别模型训练、疾病特征识别方法、装置及设备

Also Published As

Publication number Publication date
CN111582342B (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
CN111582342B (zh) 一种图像识别方法、装置、设备以及可读存储介质
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
US12008810B2 (en) Video sequence selection method, computer device, and storage medium
EP3968179A1 (en) Place recognition method and apparatus, model training method and apparatus for place recognition, and electronic device
CN111553419B (zh) 一种图像识别方法、装置、设备以及可读存储介质
Bouchacourt et al. Disco nets: Dissimilarity coefficients networks
EP4002161A1 (en) Image retrieval method and apparatus, storage medium, and device
CN110490136B (zh) 一种基于知识蒸馏的人体行为预测方法
JP7292657B2 (ja) データ処理方法、データ処理装置、コンピュータプログラム及び電子装置
CN111611436A (zh) 一种标签数据处理方法、装置以及计算机可读存储介质
US20230095182A1 (en) Method and apparatus for extracting biological features, device, medium, and program product
CN112395979A (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
CN110457523B (zh) 封面图片的选取方法、模型的训练方法、装置及介质
CN113722474A (zh) 文本分类方法、装置、设备及存储介质
CN110929806A (zh) 基于人工智能的图片处理方法、装置及电子设备
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
US20240005211A1 (en) Data processing method and apparatus
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN114358109A (zh) 特征提取模型训练、样本检索方法、装置和计算机设备
CN113705293A (zh) 图像场景的识别方法、装置、设备及可读存储介质
CN113570512A (zh) 一种图像数据处理方法、计算机及可读存储介质
Zhong A convolutional neural network based online teaching method using edge-cloud computing platform
CN111582404B (zh) 内容分类方法、装置及可读存储介质
CN113569809A (zh) 一种图像处理方法、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40027945

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant