CN114255381B - 图像识别模型的训练方法、图像识别方法、装置及介质 - Google Patents

图像识别模型的训练方法、图像识别方法、装置及介质 Download PDF

Info

Publication number
CN114255381B
CN114255381B CN202111592903.XA CN202111592903A CN114255381B CN 114255381 B CN114255381 B CN 114255381B CN 202111592903 A CN202111592903 A CN 202111592903A CN 114255381 B CN114255381 B CN 114255381B
Authority
CN
China
Prior art keywords
training
recognition model
image recognition
training image
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111592903.XA
Other languages
English (en)
Other versions
CN114255381A (zh
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Real AI Technology Co Ltd
Original Assignee
Beijing Real AI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Real AI Technology Co Ltd filed Critical Beijing Real AI Technology Co Ltd
Priority to CN202111592903.XA priority Critical patent/CN114255381B/zh
Publication of CN114255381A publication Critical patent/CN114255381A/zh
Application granted granted Critical
Publication of CN114255381B publication Critical patent/CN114255381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本申请实施例涉及计算机视觉领域,提供了一种图像识别模型的训练方法、图像识别方法、装置及介质。该训练方法包括:获取多个训练图像样本以及对应的多个预设标签;将多个训练图像样本输入图像识别模型,得到对应的多个输出结果;在训练图像样本为噪声类型数据时,计算对应输出结果与图像识别模型的参数之间的互信息度量;为正常类型数据时,计算对应输出结果与预设标签之间的差异损失;分别汇总各个互信息度量以及各个差异损失,得到互信息度量之和以及各个差异损失之和;更新图像识别模型的参数,以使所述互信息度量之和与所述差异损失之和变小。本申请根据训练图像样本的类型使用不同方式更新模型参数,避免了模型拟合到噪声数据。

Description

图像识别模型的训练方法、图像识别方法、装置及介质
技术领域
本申请的实施例涉及计算机视觉领域,更具体地涉及一种图像识别模型的训练方法、图像识别方法、装置及介质。
背景技术
图像识别和分类是机器学习和真实场景中普遍存在的一类任务,在金融、工业、制造、交通等各种场景中都被广泛应用。近年来随着深度学习技术突飞猛进的发展,深度神经网络已经成为十分重要的机器学习工具,在图像分类任务上已经超过了人类水平。尽管如此,基于深度神经网络的图像分类算法还存在着一系列问题,深度学习模型的训练与学习往往依靠于大量的带有高质量标记的训练图像样本;但在实际中,标记往往是通过众包方式得到的,所以收集到带有高质量标记的训练图像样本往往是代价高昂并且十分困难的,即训练图像样本集往往带有各种各样的噪声,这些噪声一方面是由于标记时所犯错误导致的,例如一只狮子的图像被标记成老虎,另一方面是图像本身包含的数据噪声而导致的,例如由于天气、机器故障等自然原因,造成拍摄图像时图像变得模糊不清;当训练图像样本集中含有不同程度的噪声数据时,模型往往会过拟合到噪声数据,从而使模型的实际预测性能大大降低。
发明内容
针对现有技术中由于训练图像样本中存在噪声数据,使得训练出的图像识别模型拟合到噪声数据,识别结果准确率较低的问题,本申请的实施例期望提供一种图像识别模型的训练方法、图像识别方法、装置及介质,能够避免图像识别模型在训练过程中拟合噪声数据,从而提升图像识别模型的识别准确度。
在本申请的第一方面中,提供了一种图像识别模型的训练方法,包括:
获取多个训练图像样本以及对应的多个预设标签;
将所述多个训练图像样本输入图像识别模型,得到对应的多个输出结果;
确定各个训练图像样本的类型,所述训练图像样本的类型为噪声类型或正常类型;
在训练图像样本为噪声类型数据时,计算对应输出结果与所述图像识别模型的参数之间的互信息度量;
在训练图像样本为正常类型数据时,计算对应输出结果与所述训练图像样本的预设标签之间的差异损失;
分别汇总各个互信息度量以及各个差异损失,得到互信息度量之和以及各个差异损失之和;
更新所述图像识别模型的参数,以使所述互信息度量之和与所述差异损失之和变小。
在本申请的第二方面中,提供了一种图像识别方法,包括:
获取待识别图像;
将所述待识别图像输入图像识别模型,得到所述待识别图像的识别结果,其中,所述图像识别模型采用第一方面中任一项所述的训练方法训练得到。
在本申请的第三方面中,提供了一种图像识别模型的训练装置,包括:
获取模块,被配置为获取多个训练图像样本以及对应的多个预设标签;以及
将所述多个训练图像样本输入图像识别模型,得到对应的多个输出结果;以及
确定各个训练图像样本的类型,其中,所述训练图像样本的类型为噪声类型数据或正常类型数据;
计算模块,被配置为在训练图像样本为噪声类型时,计算对应输出结果与所述图像识别模型的参数之间的互信息度量;以及
在训练图像样本为正常类型数据时,计算对应输出结果与所述训练图像样本的预设标签之间的差异损失;以及
分别汇总各个互信息度量以及各个差异损失,得到互信息度量之和以及各个差异损失之和;
更新模块,被配置为更新所述图像识别模型的参数,以使所述互信息度量之和与所述差异损失之和变小。
在本申请的第四方面中,提供了一种图像识别装置,包括:
输入模块,被配置为获取待识别图像;
处理模块,被配置为将所述待识别图像输入图像识别模型,获取所述待识别图像的识别结果,其中,所述图像识别模型采用第一方面中任一项所述的训练方法训练得到;
输出模块,将所述待识别图像的识别结果输出。
在本申请的第五方面中,提供了一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如第一方面所述的方法,或者执行如第二方面所述的方法。
在本申请的第六方面中,提供了一种计算设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现第一方面所述的方法,或者实现第二方面所述的方法。
根据本申请实施例的图像识别模型的训练方法、图像识别方法、装置及介质,可以根据训练图像样本的类型,即所述训练图像样本是噪声类型数据还是正常类型数据,在训练过程中分别对应的处理,根据不同的方式计算图像识别模型的优化损失,然后对应调整参数来更新图像识别模型,具体包括降低图像识别模型基于噪声数据得到的识别结果与所述噪声类型数据的互信息度量,从而避免图像识别模型拟合到噪声数据,实现图像识别准确度的提升。
附图说明
通过参考附图阅读下文的详细描述,本申请示例性实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施例,其中:
图1为本申请一实施例提供的图像识别模型的训练方法的应用场景示意图;
图2为本申请一实施例提供的图像识别模型的训练方法的流程示意图;
图3为本申请一实施例提供的标签噪声类型数据的示意图;
图4为本申请一实施例提供的质量噪声类型数据的示意图;
图5为本申请一实施例提供的训练图像识别模型的流程示意图;
图6为本申请一实施例提供的图像识别方法的流程示意图;
图7为本申请一实施例提供的图像识别模型的训练装置的结构示意图;
图8为本申请一实施例提供的图像识别装置的结构示意图;
图9示意性地示出了本申请实施例的一种介质的结构示意图;
图10示意性地示出了本申请实施例的一种计算设备的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施例来描述本申请的原理和精神。应当理解,给出这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施例是为了使本申请更加透彻和完整,并且能够将本声请的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本申请的实施例可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本申请可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
本申请实施例提供的方案涉及人工智能的机器学习、计算机视觉等技术,具体提供了一种避免图像识别模型训练时拟合到噪声数据的图像识别模型的训练方法、装置及介质,实现图像识别模型的识别准确度的提升,本申请提供的图像识别模型的训练方法可以应用于图像识别模型、人脸识别模型、目标检测模型等对图像进行识别的神经网络模型的训练,以期望提高相关模型的预测精度,得到的用于图像识别的相关神经网络模型可以具体应用于自动驾驶的目标跟踪、医疗影像的器官辅助识别等领域中。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
相关技术中,图像识别模型主要采用全监督的训练方法,获取图像并采用人工进行标注,在迭代过程中,需要大量的有标注的数据,而这些有标注的数据需要人工进行标注,成本较高,且耗时较长,而且还可能由于人工标注错误或拍摄问题存在噪声数据。
为解决上述技术问题,本申请实施例提供了一种图像识别模型的训练方法,可以应用于如图1所示的应用环境中。其中,终端设备102通过网络与服务器101进行通信。终端102向服务器101发送图像识别模型的训练指令,服务器101根据训练指令获取图像识别模型,并获取训练图像样本集,训练图像样本集包括各个图像样本以及对应的预设标签;服务器101将各个图像样本输入到图像识别模型中进行特征识别,得到各个图像样本的输出结果,并基于各个图像样本的输出结果确定图像样本的类型,例如噪声类型数据或正常类型数据;然后,根据图像样本类型采取不同的方式计算优化损失,以基于所述优化损失迭代更新图像识别模型,避免图像识别模型拟合到噪声数据,提高图像识别的准确度。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器101可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
一些实施方式中,本申请提供的图像识别方法也可应用于如图1所示的应用环境中。终端设备102可以向服务器101发送待识别图像,服务器02可以采用图像识别模型(例如采用本申请的实施例的图像识别模型的训练方法训练得到)对该待识别图像进行处理,并向终端设备102反馈识别结果。该终端设备102可以包括一个或者多个用户终端,这里将不对用户终端的数量进行限制。所述终端设备102中包含的一个或多个用户终端可以分别与上述服务器101进行网络连接,以便于每个终端设备可以通过该网络连接与服务器101进行数据交互。
其中,该终端设备102中的每个用户终端均可以包括:如图1所示的桌上型电脑102a和智能手机102b之外还可以有平板电脑、笔记本电脑、可穿戴设备、智能家居、头戴设备等的智能终端。应当理解,如图1所示的用户终端中的每个用户终端均可以安装有目标应用(即应用客户端),当该应用客户端运行于各用户终端中时,可以分别与上述图1所示的服务器之间进行数据交互;同时,服务器101可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
终端设备和服务器之间可以通过无线网络、有线网络或可移动存储介质进行通信。其中,上述的无线网络使用标准通信技术和/或协议。无线网络通常为互联网(Internet)、但也可以是任何网络,包括但不限于蓝牙、局域网(Local AreaNetwork,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,可以使用定制或专用数据通信技术取代或者补充上述数据通信技术。可移动存储介质可以为通用串行总线(UniversalSerial Bus,USB)闪存盘、移动硬盘或其他可移动存储介质等,本申请在此不做限制。
需要说明的是,该应用环境中也可以仅包括终端设备102,而不包括该服务器101,该图像识别模型可以直接部署于终端设备102中。在该实现方式中,终端设备102也可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
下面参考本申请的若干代表性实施方式,详细阐释本申请的原理和精神。
示例性方法
下面参考图2,图2为本申请一实施例提供的图像识别模型的训练方法的流程示意图,该方法可以适用于计算设备,该计算设备可以是上文列举的应用场景中的终端设备101或服务器102,本申请对执行该图像识别模型的训练方法的计算设备的产品形式及结构不做限定。需要注意的是,本申请的实施例可以应用于适用的任何场景。
图2所示的本申请一实施例提供的图像识别模型的训练方法的流程,包括:
步骤S201,获取多个训练图像样本以及对应的多个预设标签;
在本申请实施例中,所述训练图像样本可以根据用途选择属于不同领域的图像,且训练图像可以是通过拍摄、合成以及制作得到的,进一步的,所述训练图像样本还可以是不同形式的图像,例如可以是二值化图像、灰度图像、索引图像或RGB彩色图像。此外,所述训练图像样本对应的预设标签可以是通过人工标注的,也可以是训练图像样本自带属性。对此,本申请实施例不做限定。
步骤S202,将所述多个训练图像样本输入图像识别模型,得到对应的多个输出结果;
在本申请的一个实施例中,将所述训练图像样本输入到初始的图像识别模型中,所述图像识别模型在识别过程中产生多个预测概率,通过所述初始识别模型的预设规则得到输出结果,其中,所述预设规则可以是将预测概率最大时对应的候选结果作为所述输出结果。对此,本申请实施例不做限定。
步骤S203,确定各个训练图像样本的类型,所述训练图像样本的类型为噪声类型或正常类型;
在本申请的一个实施例中,噪声类型数据包括标签噪声类型数据和质量噪声类型数据;其中,参阅图3提供的标签噪声类型数据的示意图可知标签噪声类型数据指的是数据自身的内容与标签标注的不匹配,例如图像中的内容由于标注时所犯错误导致一只狮子的图像被标记成老虎;参阅图4提供的质量噪声类型数据的示意图可知质量噪声类型数据是指本身包含数据噪声的数据,例如图像本身由于天气、机器故障等自然原因,造成的图像模糊不清的问题。
针对上述内容中自身的内容与标签标注的不匹配的标签噪声类型数据以及本身包含数据噪声的数据的质量噪声类型数据,可以按下述步骤确定所述训练图像样本的类型,具体包括:
根据所述输出结果分别计算所述训练图像样本的标签置信度和最大置信度;
若所述训练图像样本的标签置信度不大于第一预设阈值,确定所述训练图像样本为标签噪声类型数据;其中,所述标签置信度为所述图像识别模型基于所述训练图像样本,计算的多个候选结果中预设标签对应的第一预测概率;
举例说明,一个训练图像样本x1中包括对象A和预设标签a,图像识别模型基于训练图像样本A1得到多个候选结果的预测概率,例如,候选结果a的概率p1,候选结果b的概率p2,然后确定候选结果a的概率p1为所述训练图像样本x1的标签置信度。
若所述训练图像样本的最大置信度不大于第二预设阈值,确定所述训练图像样本为质量噪声类型数据;其中,所述最大置信度为所述图像识别模型基于所述训练图像样本,计算的多个候选结果对应的多个预测概率中的第一最大预测概率;
同样举例说明,训练图像样本x2中包括对象B,图像识别模型基于训练图像样本B1得到多个候选结果的预测概率,例如,候选结果1的预测概率n1,候选结果2对应的预测概率n2,候选结果3对应的预测概率n3,然后假设候选结果2对应的预测概率n2为最大的预测概率,则确定候选结果2对应的预测概率n2作为训练图像样本x2的最大置信度。
若所述训练图像样本的标签置信度大于第一预设阈值,且所述训练图像样本的最大置信度大于第二预设阈值,确定所述训练图像样本为正常类型数据。
具体的,所述训练图像样本的类型还可以利用如下表达式确定:
Figure BDA0003430328030000081
式中,wi为第i个训练图像样本的类型,∈1为第一设定阈值,∈2为第二设定阈值;其中,0代表噪声类型数据,1代表正常类型数据。
步骤S204,在训练图像样本为噪声类型数据时,计算对应输出结果与所述图像识别模型的参数之间的互信息度量;
在本申请的一个实施例中,所述噪声类型数据对应的输出结果与图像识别模型的参数之间的互信息度量表示模型学习到的参数在确定模型的输出结果后而减少的不肯定性;例如,在神经网络训练过程中,互信息度很大,说明模型对给出的预测不确定性高;反之,互信息度很小,说明模型给出的预测不确定性低,也就是给出的预测可靠度高。
所述步骤S204还可以在训练图像样本为正常类型数据时,计算对应输出结果与所述训练图像样本的预设标签之间的差异损失;
在本申请的一个实施例中,所述正常类型数据对应的输出结果与所述训练图像样本的预设标签之间的差异损失可以通过对数损失函数来确定;其中,对数损失函数是对数损失通过惩罚错误的分类,实现对模型预测的准确度的量化,最小化对数损失基本等价于最大化模型预测的准确度。
步骤S205,分别汇总各个互信息度量以及各个差异损失,得到互信息度量之和以及各个差异损失之和;
在本申请的一个实施例中,汇总所有的噪声类型的训练图像样本的计算结果,即计算所述各个互信息度量之和以及汇总所有的正常类型的训练图像样本的计算结果,即计算所述各个差异损失之和;
举例说明,当输入所述图像识别模型的训练图像样本为n个时,对应得到n个输出结果,假设这n个输出结果中对应的有h个噪声类型的训练图像样本和k个正常类型的训练图像样本,那么可分别计算得到h个所述互信息度量和k个所述差异损失,再将h个所述互信息度量及k个所述差异损失分别进行累和,即可得到所述互信息度量之和及所述差异损失之和。
步骤S206,更新所述图像识别模型的参数,以使所述互信息度量之和与所述差异损失之和变小。
在本申请的一实施例中,可将所述互信息度之和与所述差异损失之和作为图像识别模型的联合损失函数,再使所述联合损失函数变小以更新所述图像识别模型的参数;
具体的,可使所述互信息度量之和与所述差异损失之和变小的联合损失函数如下所示:
Figure BDA0003430328030000091
式中,
Figure BDA0003430328030000092
为图像识别模型的联合损失函数,
Figure BDA0003430328030000093
代表输出结果与模型参数之间的互信息度量,xi为第i个训练图像样本,yi为第i个训练图像样本对应的输出结果,θm为第m个子神经网络的参数,
Figure BDA0003430328030000094
为包含训练图像样本的样本集,N为训练图像样本的总数量,y为输出结果,wi为第i个训练图像样本的类型;其中,其中,0代表训练图像样本的类型为噪声类型,1代表训练图像样本的类型为正常类型。。
在本申请的一实施例中,更新所述图像识别模型的参数,以使所述互信息度量之和与所述差异损失之和变小的步骤包括使用梯度优化法、最小二乘法、牛顿法和拟牛顿法中的一种进行。
举例说明,采用梯度优化法更新所述图像识别模型的参数的具体过程包括:
计算所述互信息度量之和与所述差异损失之和相对于所述图像识别模型的参数的梯度;
根据所述梯度,调整所述图像识别模型的参数;
其中,若梯度为正,则根据预设步长,减小所述图像识别模型的参数;
若梯度为负,则根据预设步长,增大所述图像识别模型的参数。
本申请实施例可解决图像识别模型训练过程中由于噪声数据的影响导致训练出的图像识别模型的预测性能较低的问题,具体包括:通过确定所述训练图像样本的类型,在训练过程中,对噪声类型的训练图像,选取最小化输出结果与图像识别模型参数之间的互信息度量的方式,而对正常的训练图像,则选取最小化训练图像样本的预设标签与输出结果之间差异损失的方式,并且以使互信息度之和与差异损失之和达到最小为目标更新图像识别模型参数,由此,各个噪声类型的训练图像与图像识别模型关联关系降到最低,即图像识别模型很少甚至不会从噪声类型的训练图像中学习特征表示,从而降低了训练得到的所述图像识别模型过拟合到噪声类型数据的概率,因此通过本申请提供的图像识别模型的训练方法可以使图像识别模型全面学习正常类型的训练图像样本的特征表示,并极力避免学习噪声类型训练图像的错误特征表示;因此,利用本申请提供的方法对图像识别模型进行训练能够提升图像识别模型的识别准确度。
为了进一步提高图像识别模型的训练效果和预测精度,在本申请的又一个实施例中,可以基于多个训练图像样本对所述图像识别模型进行迭代训练,直到达到预设终止条件;其中,所述预设终止条件可以包括图像识别模型收敛、迭代预设轮次或遍历所有训练图像样本,所述图像识别模型收敛可以为各个互信息度量之和达到最小值和各个差异损失之和达到最小值。
举例说明,当图像识别模型迭代训练的结束条件设定为训练S轮时,迭代过程如下:
获取n个训练图像样本及对应的预设标签;
将n个训练图像样本输入到图像识别模型后得到的n个对应的输出结果;
通过模型对于训练图像样本的学习得到的多个候选结果中的预测概率与第一和/或第二预设阈值之间的对比结果确定每个训练图像样本的类型;
计算训练图像样本为噪声类型数据时对应的输出结果与模型的参数之间的互信息度量;以及
计算训练图像样本为正常类型数据时度对应的输出结果与训练图像样本的预设标签之间的差异损失;
分别汇总各个互信息度量以及各个差异损失,得到互信息度量之和以及各个差异损失之和;
更新所述图像识别模型的参数,以使所述互信息度量之和与所述差异损失之和变小;
重复上述过程至第S轮后,终止迭代,得到训练好的图像识别模型。
同样举例说明,当图像识别模型迭代训练的结束条件为图像识别模型收敛时,其迭代过程具体如下:
获取n个训练图像样本及对应的预设标签;
将n个训练图像样本输入到图像识别模型后得到的n个对应的输出结果;
通过模型对于训练图像样本的学习得到的多个候选结果中的预测概率与第一和/或第二预设阈值之间的对比结果确定每个训练图像样本的类型;
计算训练图像样本为噪声类型数据时对应的输出结果与模型的参数之间的互信息度量;以及
计算训练图像样本为正常类型数据时对应的输出结果与训练图像样本的预设标签之间的差异损失;
分别汇总各个互信息度量以及各个差异损失,得到互信息度量之和以及各个差异损失之和;
更新所述图像识别模型的参数,以使所述互信息度量之和与所述差异损失之和达到最小值;
终止迭代,得到训练好的图像识别模型。
本实施例提供了提高图像识别模型的训练效果和精度的具体方式,其中,一方面,可在图像识别模型的训练中设定迭代目标的迭代方法对模型的进行迭代的训练,以训练得到识别精度更高的图像识别模型;另一方面,可以在图像识别模型的训练中通过增加迭代训练次数的方式提升图像识别模型的学习效率、优化图像识别模型已学习到的参数,以提高图像识别模型的训练精度。
为了进一步提高模型的训练效果和预测精度,在本申请的又一个实施例中,参阅图5,图5为训练包含多个子神经网络构成的图像识别模型的流程图,因此本申请提供的图像识别模型训练方法还可以根据多个子神经网络构成的图像识别模型的结构对多个子神经网络构成的图像识别模型进行训练。
首先,将训练图像样本输入到多个子神经网络构成的图像识别模型中,得到各个子神经网络得到的各个候选结果的预测概率及输出结果,所述输出结果根据预设规则以及各个候选结果的预测概率确定;
举例说明,一个训练图像样本x输入到m个子神经网络构成的图像识别模型中,子神经网络1~m均能基于训练图像样本x得到多个候选结果的预测概率,将子神经网络1~m对应的多个候选结果的概率分布进行平均,然后从平均概率分布中选取预测概率最大的候选结果作为输出结果。
其次,针对所述多个子神经网络构成的图像识别模型,根据所述输出结果分别计算所述训练图像样本的标签置信度和最大置信度的步骤包括:
获取各个子神经网络基于多个训练图像样本,分别计算多个候选结果中预设标签对应的第二预测概率;
将所述多个候选结果中预设标签对应的第二预测概率的平均值作为所述训练图像样本的标签置信度;
举例说明,一个训练图像样本x1包括对象A和预设标签a,图像识别模型基于训练图像样本A1得到m个子神经网络对应的m组候选结果中每个候选结果的预测概率,例如,第1组候选结果中包含的第一个候选结果a对应的概率p11,第二个候选结果对应的概率p12,第m组候选结果中包含的第一个候选结果a对应的概率pm1,第二个候选结果对应的概率pm2,然后将1~m组候选结果中a对应的所有预测概率的平均值作为训练图像样本x1的标签置信度,即(p11+p21+···+pm1)/m。
获取每一子神经网络基于所述训练图像样本,分别计算的多个候选结果对应的多个预测概率中的第二最大预测概率,得到多个第二最大预测概率;
将所述多个第二最大预测概率的平均值作为所述训练图像样本的最大置信度。
同样举例说明,训练图像样本x2中包括对象B和预设标签b,图像识别模型基于训练图像样本x2得到m个子神经网络对应的m组候选结果中每个候选结果的预测概率,例如,第1组候选结果中包含的第一个候选结果对应的概率p11,第二个候选结果b对应的概率p12,第m组候选结果中包含的第一个候选结果对应的概率pm1,第二个候选结果b对应的概率pm2,,将1~m组候选结果中包含的所有候选结果对应的最大预测概率中的平均值作为所述训练图像样本x2的最大置信度,即(p11+p21+···+pm1)/m和(p12+p22+···+pm2)/m中较大的一个。
在本申请的又一个实施例中,所述标签置信度还可以通过下式计算:
Figure BDA0003430328030000121
式中,x表示输入的训练图像样本,
Figure BDA0003430328030000122
表示第m个子神经网络得到的预测概率,y表示标签编号,M为子神经网络的个数。
所述最大置信度也可以通过如下计算式计算:
Figure BDA0003430328030000131
式中,x表示输入的训练图像样本,
Figure BDA0003430328030000132
表示最大预测概率向量,j为下标。
再次,基于上述计算得到的标签置信度和最大置信度,利用第一预设阈值和第二预设阈值确定训练图像样本的类型;在训练图像样本为噪声类型数据时,则计算对应输出结果与所述图像识别模型的参数之间的互信息度量;在所述训练图像样本为正常类型数据时,计算对应输出结果与所述训练图像样本的预设标签之间的差异损失。
在本申请的一个实施例中,所述输出结果与图像识别模型的参数之间的互信息度量为模型学习到的参数在确定模型的输出结果后而减少的不肯定性;例如,在神经网络训练过程中,互信息度很大,说明模型对给出的预测不确定性高;反之,互信息度很小,说明模型给出的预测不确定性低,也就是给出的预测可靠度高;
在本申请的一个实施例中,所述输出结果与所述训练图像样本的预设标签之间的差异损失可以通过对数损失函数来确定;其中,对数损失函数是对数损失通过惩罚错误的分类,实现对模型预测的准确度的量化,最小化对数损失基本等价于最大化模型预测的准确度。
进而,分别汇总各个互信息度量以及各个差异损失,得到互信息度量之和以及各个差异损失之和;
在本申请的一个实施例中,根据所有噪声类型训练图像样本对应计算的所述互信息度量及所有正常类型训练图像样本对应计算的所述差异损失计算所述互信息度之和以及所述差异损失之和;
举例说明,当输入所述图像识别模型的训练图像样本为n个时,得到n个输出结果,假设这n个输出结果中对应的有h个噪声类型的训练图像样本和k个正常类型的训练图像样本,那么可分别计算得到h个所述互信息度量和k个所述差异损失,再将h个所述互信息度量及k个所述差异损失进行累和,即可得到所述互信息度量之和及所述差异损失之和。
最终,更新所述图像识别模型的参数,以使所述互信息度量之和与所述差异损失之和变小;
在本申请的一实施例中,可将所述互信息度之和与所述差异损失之和作为图像识别模型的联合损失函数,再使所述联合损失函数变小以更新所述图像识别模型的参数;
在本申请的一个实施例中,上述可使所述互信息度量之和与所述差异损失之和变小的联合损失函数如下所示:
Figure BDA0003430328030000141
式中,
Figure BDA0003430328030000142
为图像识别模型的联合损失函数,
Figure BDA0003430328030000143
代表预测和模型参数之间的互信息度量,xi为第i个训练图像样本,yi为第i个训练图像样本对应的输出结果,θm为第m个子神经网络的参数,
Figure BDA0003430328030000144
为包含训练图像样本的样本集,N为训练图像样本的数量,y为输出结果,wi为第i个训练图像样本的类型;其中,0代表训练图像样本的类型为噪声类型,1代表训练图像样本的类型为正常类型。
具体的,更新所述多个子神经网络构成的图像识别模型的参数,以使所述互信息度量之和与所述差异损失之和变小步骤的包括使用梯度优化法、最小二乘法、牛顿法和拟牛顿法中的一种进行迭代,直到损失函数收敛或者满足预定结束条件;
举例说明,采用梯度优化法更新所述多个子神经网络构成的图像识别模型的参数的步骤包括:
计算所述互信息度量之和与所述差异损失之和相对所述图像识别模型中各个子神经网络梯度;
根据所述梯度,调整所述图像识别模型中各个子神经网络的参数;
若梯度为正,则根据预设步长,减小梯度为正的子神经网络的参数;
若梯度为负,则根据预设步长,增大所述梯度为正的子神经网络的参数。
在本申请的又一个实施例中,所述第一预设阈值和第二预设阈值的取值范围可以根据多次实验确定;
其中,第一预设阈值是基于100分类的数据集进行实验后取准确率最高时对应的取值确定的,如表1所示,具体为:
根据100分类数据集中的数据设定多组不同概率噪声数据,例如30%标签噪声类型数据x和40%质量噪声类型数据y;
为第一预设阈值设定多个取值,例如1.0、1.5、2.0、2.5、3.0、3.5;
分别利用多个取值的第一设定阈值在多组不同概率的噪声类型数据中过滤标签噪声类型数据,得到第一预设阈值在多个取值下对标签噪声类型数据过滤的准确度;
将标签噪声类型数据过滤准确度最高时对应的取值作为第一预设阈值。
表1
Figure BDA0003430328030000151
第二预设阈值同样是基于100分类的数据集进行实验后取准确率最高时对应的取值确定的,如表2所示,具体为:
根据100分类数据集设定多组不同概率的噪声类型数据,例如30%标签噪声类型数据x和20%质量噪声类型数据y;
为第一预设阈值设定多个取值,例如1.0、2.0、3.0、4.0、5.0、6.0;
分别利用多个取值的第二设定阈值在多组不同概率的噪声类型数据中过滤质量噪声类型数据,得到第二预设阈值在多个取值下对质量噪声类型数据过滤的准确度;
将质量噪声类型数据过滤准确度最高时对应的取值作为第二预设阈值。
表2
Figure BDA0003430328030000152
本申请的又一实施例中,可以针对利用本申请提供的图像识别模型训练方法得到的训练好的图像识别模型,分别采用现有模型在训练中噪声类型数据的分类的准确度和本申请提供的模型在训练中噪声类型数据分类准确度进行对比,对比结果如表3和表4所示:
表3
Figure BDA0003430328030000161
表4
Figure BDA0003430328030000162
表3中采用的是各个模型训练方法在100分类任务中的噪声类型数据区分的准确度,表4是采用各种模型训练方法在200分类任务中噪声类型数据区分的准确度,x为标签噪声类型数据,y为质量噪声类型数据,Single-CE为基于标准交叉熵损失的模型训练方法,DE-CE为深度集成模型的训练方法,DYR为基于动态的正则化损失函数的模型的训练方法,M-DYR为基于进阶的动态正则化损失函数的模型的训练方法,CORES2为基于正则化的样本筛选方法的模型的训练方法,Proposed-L为只采用标签置信度确定训练图像样本是否为噪声数据的模型的训练方法,Proposed-LM为本申请提供的同时采用标签置信度和最大置信度确定训练数据类型的模型的训练方法。
将表3和表4中各个训练方法在区分噪声类型数据的准确度的进行对比可知,采用本申请实施例提供的图像识别模型的训练方法在训练过程中区分噪声类型的训练数据的准确度最高;因此在图像识别模型训练的过程中,可以准确的对噪声类型训练数据采取减小其对应的输出结果与所述模型的参数之间的互信息度量的方式更新图像识别模型的参数,以减少图像识别模型在训练过程中过拟合噪声类型数据的情况;从而可以减少噪声类型训练数据对训练好的图像识别模型输出的扰动,提升了图像识别模型的识别准确度。
在本申请的一实施例中,参阅图6,还提供一种图像识别方法,该方法可以适用于计算设备,该计算设备可以是上文列举的应用场景中的终端设备101或服务器102,本申请对执行该图像识别方法的计算设备的产品形式及结构不做限定;
图6所示的一种图像识别方法的流程具体包括:
步骤S301,获取待识别图像;
步骤S302,将所述待识别图像输入图像识别模型,得到所述待识别图像的识别结果;
在本申请的实施例中,所述图像识别模型采用本申请提供的图像识别模型的训练方法训练得到;
在本申请的一实施例中,待识别图像可以是通过归一化或二值化等方法进行预处理后的图像;对此,本申请不做任何限定。
在本申请的一实施例中,所述待识别图像输入图像识别模型中进行识别的过程可以为:
将所述待识别图像通过卷积/池化操作后生成待识别图像的特征图;
将所述待识别图像的特征图输入至卷积层,经过所述卷积层对所述影像特征图进行提取和卷积计算,得到待识别图像的特征矩阵;
利用激活函数激活所述待识别图像的特征图阵后输入至池化层,采用最大池化方法进行池化操作,得到待识别图像的二维特征图;
将待识别图像的二维特征图输入至全连接层,对所述影像二维特征图进行优化和映射,输出一维特征图到分类器中;
利用分类器对所述一维特征图进行分类,得到待识别图像对应多个候选结果的预测概率;
根据预设规则输出识别结果。
在本申请的实施例中,预设规则可以是将概率最大的候选结果为所述识别结果。
本实施例提供的图像识别方法采用的图像识别模型,在训练过程中,对噪声类型的训练图像,选取最小化输出结果与模型参数之间的互信息度量的方式,而对正常的训练图像,则选取最小化训练图像样本的预设标签与输出结果之间差异损失的方式,并且以使互信息度之和与差异损失之和达到最小为目标更新模型参数,由此,各个噪声类型的训练图像与图像识别模型关联关系降到最低,即图像识别模型很少甚至不会从噪声类型的训练图像中学习特征表示,从而训练得到的所述图像识别模型降低了拟合到噪声类型数据的概率,因此,图像识别模型全面学习正常训练图像的特征表示,并极力避免学习噪声类型训练图像的错误特征表示,从而使得图像识别模型在进行图像识别时的识别准确度高。
示例性装置
在介绍了本申请示例性实施例的方法之后,接下来,参考图7对本申请示例性实施方式的一种图像识别模型装置进行说明,该装置可以适用于计算设备,该计算设备可以是上文列举的应用场景中的终端设备101或服务器102,该装置包括:
获取模块401,获取模块,被配置为获取多个训练图像样本以及对应的多个预设标签;以及
将所述多个训练图像样本输入图像识别模型,得到对应的多个输出结果;以及
确定各个训练图像样本的类型,其中,所述训练图像样本的类型为噪声类型数据或正常类型数据。
计算模块402,被配置为在训练图像样本为噪声类型数据时,计算对应输出结果与所述图像识别模型的参数之间的互信息度量;以及
在训练图像样本为正常类型数据时,计算对应输出结果与所述训练图像样本的预设标签之间的差异损失;以及
分别汇总各个互信息度量以及各个差异损失,得到互信息度量之和以及各个差异损失之和。
更新模块403,被配置为更新所述图像识别模型的参数,以使所述互信息度量之和与所述差异损失之和变小。
作为一种可选的实施方式,所述训练图像样本的类型可以是在被获取模块401获取时已经确定的,例如通过人工标记得到训练图像样本是否为噪声类型数据;其中,所述训练图像样本的类型为噪声类型和正常类型,所述噪声类型中还包括:标签噪声类型和质量噪声类型。
作为一种可选的实施方式,所述获取模块401确定多个训练图像样本类型的过程具体为:
根据训练图像样本对应的输出结果分别计算所述训练图像样本的标签置信度和最大置信度;
若所述训练图像样本的标签置信度不大于第一预设阈值,确定所述训练图像样本为标签噪声类型数据;其中,所述标签置信度为所述图像识别模型基于所述训练图像样本,计算的多个候选结果中预设标签对应的第一预测概率;
举例说明,一个训练图像样本x1中包括对象A和预设标签a,图像识别模型基于训练图像样本A1得到多个候选结果的预测概率,例如,候选结果a的概率p1,候选结果b的概率p2,然后确定候选结果a的概率p1为所述训练图像样本x1的标签置信度。
若所述训练图像样本的最大置信度不大于第二预设阈值,确定所述训练图像样本为质量噪声类型数据;其中,所述最大置信度为所述图像识别模型基于所述训练图像样本,计算的多个候选结果对应的多个预测概率中的第一最大预测概率;
若所述训练图像样本的标签置信度大于第一预设阈值,且所述训练图像样本的最大置信度大于第二预设阈值,确定所述训练图像样本为正常类型数据。
作为一种可选的实施方式,计算模块402在所述训练图像样本为噪声类型数据时,计算对应输出结果与所述图像识别模型的参数之间的互信息度量的具体方式为:根据模型学习到的参数与输出结果之间的联合分布以及各自的边缘概率分布函数计算计算输出结果与所述图像识别模型的参数之间的互信息度量;
在所述训练图像样本为正常类型数据时,计算对应输出结果与所述训练图像样本的预设标签之间的差异损失的具体方式为:基于对应输出结果的预测概率计算模型的对数损失函数,将对数损失函数值作为输出结果与所述训练图像样本的预设标签之间的差异损失。
汇总所有的噪声类型的训练图像样本的计算结果,即计算所述各个互信息度量之;以及,汇总所有的正常类型的训练图像样本的计算结果,即计算所述各个差异损失之和。
作为一种可选的实施方式,更新模块403更新所述图像识别模型的参数,以使所述互信息度量之和与所述差异损失之和变小的步骤包括使用梯度优化法、最小二乘法、牛顿法和拟牛顿法中的一种。
其中,采用采用梯度优化法更新所述图像识别模型的参数的具体过程如下:
计算所述互信息度量之和与所述差异损失之和相对于所述图像识别模型的参数的梯度;
根据所述梯度,调整所述图像识别模型的参数;
其中,若梯度为正,则根据预设步长,减小所述图像识别模型的参数;
若梯度为负,则根据预设步长,增大所述图像识别模型的参数。
本申请实施例提供的图像识别模型的训练装置,通过确定所述训练图像样本的类型,在训练过程中,对噪声类型的训练图像,选取最小化输出结果与图像识别模型参数之间的互信息度量的方式,而对正常的训练图像,则选取最小化训练图像样本的预设标签与输出结果之间差异损失的方式,并且以使互信息度之和与差异损失之和达到最小为目标更新图像识别模型参数,由此,各个噪声类型的训练图像与图像识别模型关联关系降到最低,即图像识别模型很少甚至不会从噪声类型的训练图像中学习特征表示,从而训练得到的所述图像识别模型降低了过拟合到噪声类型数据的概率,因此通过本申请提供的图像识别模型训练方法可以使图像识别模型全面学习正常训练图像的特征表示,并极力避免学习噪声类型训练图像的错误特征表示,从而利用本实施例提供的图像识别模型的训练装置对图像识别模型进行训练能够提升图像识别模型的识别准确度。
在本申请的另一实施例中,参考图8对本申请示例性实施方式的一种图像识别装置进行说明,该装置可以适用于计算设备,该计算设备可以是上文列举的应用场景中的终端设备101或服务器102,该装置包括:
输入模块501,被配置为获取待识别图像;
处理模块502,被配置为将所述待识的图像输入图像识别模型,获取所述待识别图像的识别结果,其中,所述图像识别模型采用本申请提供的图像识别模型的训练方法训练得到;
输出模块503,将所述待识别图像的识别结果输出。
作为一种可选的实施方式,识别模块502将所述待识的图像输入图像识别模型,获取所述待识别图像的识别结果的具体过程为:
将所述待识别图像通过卷积/池化操作后生成待识别图像的特征图;
将所述待识别图像的特征图输入至卷积层,经过所述卷积层对所述影像特征图进行提取和卷积计算,得到待识别图像的特征矩阵;
利用激活函数激活所述待识别图像的特征图阵后输入至池化层,采用最大池化方法进行池化操作,得到待识别图像的二维特征图;
将待识别图像的二维特征图输入至全连接层,对所述影像二维特征图进行优化和映射,输出一维特征图到分类器中;
利用分类器对所述一维特征图进行分类,得到待识别图像对应多个候选结果的预测概率;
根据预设规则确定要输出的识别结果。
本申请实施例提供的图像识别装置,由于图像识别模型的训练过程中减少了模型在训练中拟合噪声数据的情况,因此训练得到的图像识别模型的识别准确率较高,同时可以在模型用于识别后,避免噪声数据对模型的扰动,提升了图像识别模型在图像识别时识别结果的准确度。
示例性介质
在介绍了本申请示例性实施方式的方法和装置之后,接下来,参考图9对本申请示例性实施方式的计算机可读存储介质进行说明,其示出的计算机可读存储介质为光盘60,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如,获取多个训练图像样本以及对应的多个预设标签;将所述多个训练图像样本输入图像识别模型,得到对应的多个输出结果;确定各个训练图像样本的类型,所述训练图像样本的类型为噪声类型或正常类型;在训练图像样本为噪声类型数据时,计算对应输出结果与所述图像识别模型的参数之间的互信息度量;在训练图像样本为正常类型数据时,计算对应输出结果与所述训练图像样本的预设标签之间的差异损失;分别汇总各个互信息度量以及各个差异损失,得到互信息度量之和以及各个差异损失之和;更新所述图像识别模型的参数,以使所述互信息度量之和与所述差异损失之和变小;各步骤的具体实现方式在此不再重复说明。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
示例性计算设备
在介绍了本申请示例性实施方式的方法、介质和装置之后,接下来,参考图10对本申请示例性实施方式的用于图像识别模型的训练的计算设备。
图10示出了适于用来实现本申请实施方式的示例性计算设备70的框图,该计算设备70可以是计算机系统或服务器。图10显示的计算设备70仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图10所示,计算设备70的组件可以包括但不限于:一个或者多个处理器或者处理单元701,系统存储器702,连接不同系统组件(包括系统存储器702和处理单元701)的总线703。
计算设备70典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备70访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器702可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)7021和/或高速缓存存储器7022。计算设备70可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,ROM7023可以用于读写不可移动的、非易失性磁介质(图10中未显示,通常称为“硬盘驱动器”)。尽管未在图10中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线703相连。系统存储器702中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块7024的程序/实用工具7025,可以存储在例如系统存储器702中,且这样的程序模块7024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块7024通常执行本申请所描述的实施例中的功能和/或方法。
计算设备70也可以与一个或多个外部设备704(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口705进行。并且,计算设备70还可以通过网络适配器706与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图10所示,网络适配器706通过总线703与计算设备70的其它模块(如处理单元701等)通信。应当明白,尽管图10中未示出,可以结合计算设备70使用其它硬件和/或软件模块。
处理单元701通过运行存储在系统存储器702中的程序,从而执行各种功能应用以及数据处理,例如,获取多个训练图像样本以及对应的多个预设标签;将所述多个训练图像样本输入图像识别模型,得到对应的多个输出结果;确定各个训练图像样本的类型,所述训练图像样本的类型为噪声类型或正常类型;在训练图像样本为噪声类型数据时,计算对应输出结果与所述图像识别模型的参数之间的互信息度量;在训练图像样本为正常类型数据时,计算对应输出结果与所述训练图像样本的预设标签之间的差异损失;分别汇总各个互信息度量以及各个差异损失,得到互信息度量之和以及各个差异损失之和;更新所述图像识别模型的参数,以使所述互信息度量之和与所述差异损失之和变小。各步骤的具体实现方式在此不再重复说明。应当注意,尽管在上文详细描述中提及了图像识别模型的训练装置的若干单元/模块或子单元/子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
在本申请的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

Claims (14)

1.一种图像识别模型的训练方法,其特征在于,包括:
获取多个训练图像样本以及对应的多个预设标签;
将所述多个训练图像样本输入图像识别模型,得到对应的多个输出结果;
确定各个训练图像样本的类型,所述训练图像样本的类型为噪声类型或正常类型;
在训练图像样本为噪声类型数据时,计算对应输出结果与所述图像识别模型的参数之间的互信息度量;
在训练图像样本为正常类型数据时,计算对应输出结果与所述训练图像样本的预设标签之间的差异损失;
分别汇总各个互信息度量以及各个差异损失,得到互信息度量之和以及各个差异损失之和;
更新所述图像识别模型的参数,以使所述互信息度量之和与所述差异损失之和变小。
2.如权利要求1所述的图像识别模型的训练方法,其特征在于,噪声类型数据包括标签噪声类型数据和质量噪声类型数据,所述确定所述训练图像样本的类型的步骤包括:
根据所述输出结果分别计算所述训练图像样本的标签置信度和最大置信度;
若所述训练图像样本的标签置信度不大于第一预设阈值,确定所述训练图像样本为标签噪声类型数据;其中,所述标签置信度为所述图像识别模型基于所述训练图像样本,计算的多个候选结果中预设标签对应的第一预测概率;
若所述训练图像样本的最大置信度不大于第二预设阈值,确定所述训练图像样本为质量噪声类型数据;其中,所述最大置信度为所述图像识别模型基于所述训练图像样本,计算的多个候选结果对应的多个预测概率中的第一最大预测概率;
若所述训练图像样本的标签置信度大于第一预设阈值,且所述训练图像样本的最大置信度大于第二预设阈值,确定所述训练图像样本为正常类型数据。
3.如权利要求1或2所述的图像识别模型的训练方法,其特征在于,所述图像识别模型包括多个子神经网络,所述多个子神经网络均能根据所述训练图像样本计算各个候选结果的预测概率,所述输出结果根据预设规则以及各个候选结果的预测概率确定;
其中,根据所述输出结果分别计算所述训练图像样本的标签置信度和最大置信度的步骤包括:
获取各个子神经网络基于所述训练图像样本,分别计算的多个候选结果中预设标签对应的第二预测概率;
将所述多个候选结果中预设标签对应的第二预测概率的平均值作为所述训练图像样本的标签置信度;
获取每一子神经网络基于所述训练图像样本,分别计算的多个候选结果对应的多个预测概率中的第二最大预测概率,得到多个第二最大预测概率;
将所述多个第二最大预测概率的平均值作为所述训练图像样本的最大置信度。
4.如权利要求1-3中任一项所述的图像识别模型训练方法,其特征在于,更新所述图像识别模型的参数,以使所述互信息度量之和与所述差异损失之和变小的步骤包括使用梯度优化法、最小二乘法、牛顿法和拟牛顿法中的一种进行。
5.如权利要求4所述的图像识别模型的训练方法,其特征在于,采用梯度优化法更新所述图像识别模型的参数的步骤包括:
计算所述互信息度量之和与所述差异损失之和相对所述图像识别模型的参数的梯度;
根据所述梯度,调整所述图像识别模型的参数;
其中,若梯度为正,则根据预设步长,减小所述图像识别模型的参数;
若梯度为负,则根据预设步长,增大所述图像识别模型的参数。
6.一种图像识别方法,其特征在于,包括:
获取待识别图像;
将所述待识别图像输入图像识别模型,得到所述待识别图像的识别结果,其中,所述图像识别模型采用权利要求1至5中任一项所述的训练方法训练得到。
7.一种图像识别模型的训练装置,其特征在于,包括:
获取模块,被配置为获取多个训练图像样本以及对应的多个预设标签;以及
将所述多个训练图像样本输入图像识别模型,得到对应的多个输出结果;以及
确定各个训练图像样本的类型,其中,所述训练图像样本的类型为噪声类型数据或正常类型数据;
计算模块,被配置为在训练图像样本为噪声类型时,计算对应输出结果与所述图像识别模型的参数之间的互信息度量;以及
在训练图像样本为正常类型数据时,计算对应输出结果与所述训练图像样本的预设标签之间的差异损失;以及
分别汇总各个互信息度量以及各个差异损失,得到互信息度量之和以及各个差异损失之和;
更新模块,被配置为更新所述图像识别模型的参数,以使所述互信息度量之和与所述差异损失之和变小。
8.如权利要求7所述的图像识别模型的训练装置,其中,所述噪声类型数据包括标签噪声类型数据和质量噪声类型数据;
所述获取模块还被配置为通过以下方式确定所述训练图像样本的类型:
根据所述输出结果分别计算所述训练图像样本的标签置信度和最大置信度;
若所述训练图像样本的标签置信度不大于第一预设阈值,确定所述训练图像样本为标签噪声类型数据;其中,所述标签置信度为所述图像识别模型基于所述训练图像样本,计算的多个候选结果中预设标签对应的第一预测概率;
若所述训练图像样本的最大置信度不大于第二预设阈值,确定所述训练图像样本为质量噪声类型数据;其中,所述最大置信度为所述图像识别模型基于所述训练图像样本,计算的多个候选结果对应的多个预测概率中的第一最大预测概率;
若所述训练图像样本的标签置信度大于第一预设阈值,且所述训练图像样本的最大置信度大于第二预设阈值,确定所述训练图像样本为正常类型数据。
9.如权利要求7和8所述的图像识别模型的训练装置,其中,所述图像识别模型包括多个子神经网络,所述多个子神经网络均能根据所述训练图像样本计算各个候选结果的预测概率,所述输出结果是根据预设规则以及各个候选结果的预测概率确定的;
其中,所述获取模块还被配置为:
获取各个子神经网络基于所述训练图像样本,分别计算的多个候选结果中预设标签对应的第二预测概率;
将所述多个候选结果中预设标签对应的第二预测概率的平均值作为所述训练图像样本的标签置信度;
获取每一子神经网络基于所述训练图像样本,分别计算的多个候选结果对应的多个预测概率中的第二最大预测概率,得到多个第二最大预测概率;
将所述多个第二最大预测概率的平均值作为所述训练图像样本的最大置信度。
10.如权利要求7-9中任一项所述的图像识别模型的训练装置,其中,所述更新模块还被配置为更新所述图像识别模型的参数,以使所述互信息度量之和与所述差异损失之和变小的方式具体为使用梯度优化法、最小二乘法、牛顿法和拟牛顿法中的一种进行。
11.如权利要求10所述的图像识别模型的训练装置,所述更新模块还被配置为通过以下方式更新所述图像识别模型的参数:
计算所述互信息度量之和与所述差异损失之和相对所述图像识别模型的参数的梯度;
根据所述梯度,调整所述图像识别模型的参数;
其中,若梯度为正,则根据预设步长,减小所述图像识别模型的参数;
若梯度为负,则根据预设步长,增大所述图像识别模型的参数。
12.一种图像识别装置,其特征在于,包括:
输入模块,被配置为获取待识别图像;
处理模块,被配置为将所述待识别图像输入图像识别模型,获取所述待识别图像的识别结果,其中,所述图像识别模型采用权利要求1至5中任一项所述的训练方法训练得到;
输出模块,将所述待识别图像的识别结果输出。
13.一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-5中任一项所述的方法,或者执行如权利要求6所述的方法。
14.一种计算设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法,或者实现如权利要求6所述的方法。
CN202111592903.XA 2021-12-23 2021-12-23 图像识别模型的训练方法、图像识别方法、装置及介质 Active CN114255381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111592903.XA CN114255381B (zh) 2021-12-23 2021-12-23 图像识别模型的训练方法、图像识别方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111592903.XA CN114255381B (zh) 2021-12-23 2021-12-23 图像识别模型的训练方法、图像识别方法、装置及介质

Publications (2)

Publication Number Publication Date
CN114255381A CN114255381A (zh) 2022-03-29
CN114255381B true CN114255381B (zh) 2023-05-12

Family

ID=80794806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111592903.XA Active CN114255381B (zh) 2021-12-23 2021-12-23 图像识别模型的训练方法、图像识别方法、装置及介质

Country Status (1)

Country Link
CN (1) CN114255381B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661619A (zh) * 2022-11-03 2023-01-31 北京安德医智科技有限公司 网络模型训练、超声图像质量评估方法及装置、电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022254A (zh) * 2016-05-17 2016-10-12 上海民实文化传媒有限公司 图像识别技术
WO2019233394A1 (zh) * 2018-06-08 2019-12-12 Oppo广东移动通信有限公司 图像处理方法和装置、存储介质、电子设备
CN111242222A (zh) * 2020-01-14 2020-06-05 北京迈格威科技有限公司 分类模型的训练方法、图像处理方法及装置
CN112434656A (zh) * 2020-12-09 2021-03-02 张晓娜 一种物联网设备的图像识别方法、装置及计算机设备
CN113313215A (zh) * 2021-07-30 2021-08-27 腾讯科技(深圳)有限公司 图像数据处理方法、装置、计算机设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11526601B2 (en) * 2017-07-12 2022-12-13 The Regents Of The University Of California Detection and prevention of adversarial deep learning
CN108875533B (zh) * 2018-01-29 2021-03-05 北京旷视科技有限公司 人脸识别的方法、装置、系统及计算机存储介质
CN111310616B (zh) * 2020-02-03 2023-11-28 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN111523621B (zh) * 2020-07-03 2020-10-20 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备和存储介质
CN112990432B (zh) * 2021-03-04 2023-10-27 北京金山云网络技术有限公司 目标识别模型训练方法、装置及电子设备
CN113505820B (zh) * 2021-06-23 2024-02-06 北京阅视智能技术有限责任公司 图像识别模型训练方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022254A (zh) * 2016-05-17 2016-10-12 上海民实文化传媒有限公司 图像识别技术
WO2019233394A1 (zh) * 2018-06-08 2019-12-12 Oppo广东移动通信有限公司 图像处理方法和装置、存储介质、电子设备
CN111242222A (zh) * 2020-01-14 2020-06-05 北京迈格威科技有限公司 分类模型的训练方法、图像处理方法及装置
CN112434656A (zh) * 2020-12-09 2021-03-02 张晓娜 一种物联网设备的图像识别方法、装置及计算机设备
CN113313215A (zh) * 2021-07-30 2021-08-27 腾讯科技(深圳)有限公司 图像数据处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN114255381A (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
CN108280477B (zh) 用于聚类图像的方法和装置
CN110909820B (zh) 基于自监督学习的图像分类方法及系统
EP3853764A1 (en) Training neural networks for vehicle re-identification
US11048870B2 (en) Domain concept discovery and clustering using word embedding in dialogue design
CN111127364B (zh) 图像数据增强策略选择方法及人脸识别图像数据增强方法
CN110929802A (zh) 基于信息熵的细分类识别模型训练、图像识别方法及装置
CN113139628B (zh) 样本图像的识别方法、装置、设备及可读存储介质
CN108985190B (zh) 目标识别方法和装置、电子设备、存储介质
CN112541458A (zh) 基于元学习的域自适应的人脸识别方法、系统、装置
CN111125658B (zh) 识别欺诈用户的方法、装置、服务器和存储介质
CN111814821A (zh) 深度学习模型的建立方法、样本处理方法及装置
CN115080749B (zh) 一种基于自监督训练的弱监督文本分类方法、系统和装置
CN113065525A (zh) 年龄识别模型训练方法、人脸年龄识别方法及相关装置
CN113762508A (zh) 一种图像分类网络模型的训练方法、装置、设备和介质
CN114330588A (zh) 一种图片分类方法、图片分类模型训练方法及相关装置
CN114255381B (zh) 图像识别模型的训练方法、图像识别方法、装置及介质
Zhou et al. Adaptive weighted locality-constrained sparse coding for glaucoma diagnosis
CN110020593B (zh) 信息处理方法及装置、介质及计算设备
CN111161238A (zh) 图像质量评价方法及装置、电子设备、存储介质
CN110717037A (zh) 对用户分类的方法和装置
CN112861962B (zh) 样本处理方法、装置、电子设备和存储介质
CN113033817B (zh) 基于隐空间的ood检测方法、装置、服务器及存储介质
CN111798376B (zh) 图像识别方法、装置、电子设备及存储介质
CN111091198B (zh) 一种数据处理方法及装置
CN113378707A (zh) 对象识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant