CN115424056A - 模型训练方法和装置、图像分类方法、设备和介质 - Google Patents
模型训练方法和装置、图像分类方法、设备和介质 Download PDFInfo
- Publication number
- CN115424056A CN115424056A CN202210999162.5A CN202210999162A CN115424056A CN 115424056 A CN115424056 A CN 115424056A CN 202210999162 A CN202210999162 A CN 202210999162A CN 115424056 A CN115424056 A CN 115424056A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- class
- image classification
- classification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供模型训练方法和装置、图像分类方法、设备和介质,涉及人工智能技术领域。方法通过将图像样本输入图像分类模型得到特征矩阵,基于Shapley计算原理根据特征矩阵获取每一个特征通道对应的类别权重值,根据每个特征通道的类别权重值得到类激活图,根据类激活图得到图像样本对应的预测图像类别,根据损失值调整模型权重,直到达到预设损失函数的收敛条件,得到图像分类模型。基于Shapley计算原理得到每一个特征通道对应的类别权重值,不同于相关技术中利用以梯度方向传播作为图像中特征的权重,避免忽略或隐藏特征中不同元素之间的依赖性,提高训练得到的图像分类模型的分类精确度,扩展图像分类的应用场景。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及图像分类模型训练方法和装置、图像分类方法、设备、存储介质。
背景技术
随着机器学习的进步,基于训练得到的图像分类模型,能够根据图像中的内容对图像进行分类。而对图像进行分类的精确度通常与图像分类模型的训练程度相关。目前在训练图像分类模型时,通常是将样本图像输入待训练的图像分类模型进行训练,训练得到的图像分类模型能够实现对图像分类。
相关技术中,图像分类模型中利用以梯度方向传播作为图像中特征的权重,这种方式计算的权重忽略或隐藏了特征中不同元素之间的依赖性问题,导致通过上述方式训练得到的图像分类模型仅适用于分类难度不高的图像,对分类难度较高的图像进行分类时的分类精确度不高。因此,如何提高图像分类的精确度,成为了亟待解决的技术问题。
发明内容
本发明实施例的主要目的在于提出图像分类模型训练方法和装置、图像分类方法、设备、存储介质,基于特征中不同元素之间的依赖性,提高图像分类的精确度,扩展图像分类的应用场景。
为实现上述目的,本发明实施例的第一方面提出了一种图像分类模型训练方法,包括:
构建图像样本集,所述图像样本集包括多个图像样本,所述图像样本包括:图像及类别标签,所述类别标签的种类数量为n,所述类别标签表示所述图像对应的图像类别;
将所述图像样本输入图像分类模型得到特征矩阵,所述特征矩阵包括多个特征通道的特征图;
基于Shapley计算原理根据所述特征矩阵获取每一个所述特征通道对应的类别权重值;
根据每个所述特征通道的所述类别权重值得到类激活图;
根据所述类激活图得到所述图像样本对应的预测图像类别;
根据预设损失函数计算所述预测图像类别和所述类别标签之间的损失值;
根据所述损失值调整所述图像分类模型的模型权重,直到达到所述预设损失函数的收敛条件,得到所述图像分类模型。
在一些实施例,所述将所述图像样本输入图像分类模型得到特征矩阵,包括:
利用一个以上预处理层对所述图像样本中所述图像进行预处理操作,得到预处理特征信息;
利用一个以上特征提取层对所述预处理特征信息依次进行特征提取,得到所述特征矩阵。
在一些实施例,所述基于Shapley计算原理根据所述特征矩阵获取每一个所述特征通道对应的类别权重值,包括:
根据预设Shapley分类方式生成当前特征通道的至少一个特征图子集;
计算所述特征图子集的边际贡献值;
计算所述特征图子集的加权因子;
根据所述加权因子和所述边际贡献值计算得到所述特征图子集的权重值;
根据所述特征图子集的权重值计算当前特征通道的所述类别权重值;
逐一计算得到每个所述特征通道的所述类别权重值。
在一些实施例,所述根据所述特征图子集生成所述特征图子集的边际贡献值,包括:
根据所述特征图子集计算得到第一贡献值;
根据所述特征图子集和当前特征通道的特征图计算得到第二贡献值;
根据所述第一贡献值和所述第二贡献值得到所述特征图子集的所述边际贡献值。
在一些实施例,所述计算所述特征图子集的加权因子,包括:
获取所述特征图子集中包含的特征图数量;
根据所述特征图数量和所述类别标签的种类数量计算得到所述加权因子。
在一些实施例,所述根据所述特征图子集的权重值计算当前特征通道的所述类别权重值,包括:
根据预设Shapley分类方式生成当前特征通道的一个以上特征图子集;
基于预设采样次数对所述特征图子集进行至少一次采样,得到至少一个特征图采样子集;
计算至少一个所述特征图采样子集的边际贡献值;
基于所述预设采样次数对所述边际贡献值计算平均,得到当前特征通道的所述类别权重值;
逐一计算得到每个所述特征通道的所述类别权重值。
在一些实施例,所述根据每个所述特征通道的所述类别权重值得到类激活图之前,包括:
对每个所述特征通道的所述类别权重值求和,得到所述求和权重值;
计算所述求和权重值的平均值,得到平均权重值;
对所述得到平均权重值进行二值化,得到二值化的所述类别权重值。
为实现上述目的,本申请实施例的第二方面提供一种图像分类方法,包括:
获取目标图像;
将所述目标图像输入利用第一方面任一项所述的图像分类模型训练方法训练得到的图像分类模型中,得到所述目标图像模型对应的图像类别。
为实现上述目的,本申请实施例的第三方面提供一种图像分类模型训练装置,包括:
样本集构建单元,用于构建图像样本集,所述图像样本集包括多个图像样本,所述图像样本包括:图像及类别标签,所述类别标签的种类数量为n,所述类别标签表示所述图像对应的图像类别;
特征矩阵获取单元,用于将所述图像样本输入图像分类模型得到特征矩阵,所述特征矩阵包括多个特征通道的特征图;
类别权重值计算单元,用于基于Shapley计算原理根据所述特征矩阵获取每一个所述特征通道对应的类别权重值;
类激活图获取单元,用于根据每个所述特征通道的所述类别权重值得到类激活图,所述类激活图用于表征所述类别标签的概率得分;
图像类别预测单元,用于根据所述类激活图得到所述图像样本对应的预测图像类别;
损失值计算单元,用于根据预设损失函数计算所述预测图像类别和所述类别标签之间的损失值;
模型权重调整单元,用于根据所述损失值调整所述图像分类模型的模型权重,直到达到所述预设损失函数的收敛条件,得到所述图像分类模型。
为实现上述目的,本申请实施例的第四方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法或第二方面所述的方法。
为实现上述目的,本申请实施例的第五方面提出了一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法或第二方面所述的方法。
本发明实施例提出的图像分类模型训练方法和装置、图像分类方法、设备、存储介质,通过构建图像样本集,将图像样本输入图像分类模型得到特征矩阵,基于Shapley计算原理根据特征矩阵获取每一个特征通道对应的类别权重值,根据每个特征通道的类别权重值得到类激活图,根据类激活图得到图像样本对应的预测图像类别,根据预设损失函数计算预测图像类别和类别标签之间的损失值,根据损失值调整图像分类模型的模型权重,直到达到预设损失函数的收敛条件,得到图像分类模型。本实施例中,基于Shapley计算原理得到每一个特征通道对应的类别权重值,不同于相关技术中利用以梯度方向传播作为图像中特征的权重,避免忽略或隐藏特征中不同元素之间的依赖性,提高训练得到的图像分类模型的分类精确度,扩展图像分类的应用场景。
附图说明
图1是本发明实施例提供的图像分类模型训练方法的流程图。
图2是图1中的步骤S120的流程图。
图3是图1中的步骤S130的流程图。
图4是图3中的步骤S132的流程图。
图5是图3中的步骤S133的流程图。
图6是图1中的步骤S130的又一流程图。
图7是本发明实施例提供的图像分类模型训练方法的又一流程图。
图8是本发明实施例提供的图像分类方法的流程图。
图9是本发明实施例提供的图像分类模型训练装置的结构框图。
图10是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
首先,对本发明中涉及的若干名词进行解析:
人工智能(artificial intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着机器学习的进步,基于训练得到的图像分类模型,能够根据图像中的内容对图像进行分类。而对图像进行分类的精确度通常与图像分类模型的训练程度相关。目前在训练图像分类模型时,通常是将样本图像输入待训练的图像分类模型进行训练,训练得到的图像分类模型能够实现对图像分类。
相关技术中,图像分类模型中利用以梯度方向传播作为图像中特征的权重,这种方式计算的权重忽略或隐藏了特征中不同元素之间的依赖性问题,导致通过上述方式训练得到的图像分类模型仅适用于分类难度不高的图像,对分类难度较高的图像进行分类时的分类精确度不高。因此,如何提高图像分类的精确度,成为了亟待解决的技术问题。
基于此,本发明实施例提供一种图像分类模型训练方法和装置、图像分类方法、设备、存储介质,基于Shapley计算原理得到每一个特征通道对应的类别权重值,不同于相关技术中利用以梯度方向传播作为图像中特征的权重,避免忽略或隐藏特征中不同元素之间的依赖性,提高训练得到的图像分类模型的分类精确度,扩展图像分类的应用场景。
本发明实施例提供图像分类模型训练方法和装置、图像分类方法、设备、存储介质,具体通过如下实施例进行说明,首先描述本发明实施例中的图像分类模型训练方法。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明实施例提供的图像分类模型训练方法,涉及人工智能技术领域,尤其涉及数据挖掘技术领域。本发明实施例提供的图像分类模型训练方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的计算机程序。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,如支持图像分类模型训练的客户端,也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。其中,终端通过网络与服务器进行通信。该图像分类模型训练方法可以由终端或服务器执行,或由终端和服务器协同执行。
在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等。此外,终端还可以是智能车载设备。该智能车载设备应用本实施例的图像分类模型训练方法提供相关的服务,提升驾驶体验。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器;也可以是区块链系统中的服务节点,该区块链系统中的各服务节点之间形成组成点对点(P2P,Peer To Peer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission Control Protocol)协议之上的应用层协议。服务器上可以安装图像分类模型训练系统的服务端,通过该服务端可以与终端进行交互,例如服务端上安装对应的软件,软件可以是实现图像分类模型训练方法的应用等,但并不局限于以上形式。终端与服务器之间可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者网络等通讯连接方式进行连接,本实施例在此不做限制。
本发明可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
为了便于理解本申请实施例,下面首先结合具体应用场景的例子对图像分类的概念进行简单介绍。
图像分类是根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。
本申请实施例提供了一种图像分类模型训练方法,可以基于人工智能技术实现。该方法得到的图像分类模型可以应用于对图像分类的场景中。例如根据目标图像进行生物学分类,分类结果用于表征目标图像中的生物学特征类别。
在一种可选的实现方式中,本实施例提供的图像分类模型能够用于对医学图像进行分类,分类结果用于指示医学图像代表的人体器官产生病变的概率,下面以将图像分类模型用于对肿瘤进行分类,以确定肿瘤的发展程度进行介绍:
在本申请实施例中,服务器在训练图像分类模型时,构建图像样本集,图像样本集包括多个肿瘤相关的病理图像样本。然后,按照本申请实施例提供的图像分类模型的训练方法将图像样本输入图像分类模型得到特征矩阵,基于Shapley计算原理根据特征矩阵获取每一个特征通道对应的类别权重值,根据每个特征通道的类别权重值得到类激活图,根据类激活图得到图像样本对应的预测图像类别,根据预设损失函数计算预测图像类别和类别标签之间的损失值,根据损失值调整图像分类模型的模型权重,直到达到预设损失函数的收敛条件,从而得到图像分类模型。终端采集并上传病理图像,图像分类模型对病理图像进行分类预测图像类别,根据预测输出结果判断该病理图像属于正常病理图像还是肿瘤图像,如果是肿瘤图像,其处于哪一个发展程度。
在一种可选的实现方式中,本申请实施例提供的图像分类模型的训练方法,训练得到的图像分类模型,还能够用于对人体图像进行行为分类的场景,分类结果用于指示人体图像中人体行为属于预设行为模式的概率,下面以将图像分类模型用于对人体行为进行分类,以确定人体行为属于哪种预设行为模式进行介绍:
在本申请实施例中,服务器在训练图像分类模型时,构建图像样本集,图像样本集包括多个不同行为模式的人体行为图像样本。然后,按照本申请实施例提供的图像分类模型的训练方法将图像样本输入图像分类模型得到特征矩阵,基于Shapley计算原理根据特征矩阵获取每一个特征通道对应的类别权重值,根据每个特征通道的类别权重值得到类激活图,根据类激活图得到图像样本对应的预测图像类别,根据预设损失函数计算预测图像类别和类别标签之间的损失值,根据损失值调整图像分类模型的模型权重,直到达到预设损失函数的收敛条件,从而得到图像分类模型。终端采集并上传人体行为图像,图像分类模型对人体行为图像进行分类预测图像类别,根据预测输出结果判断该人体行为图像中人体行为模式。并可进一步根据识别得到的行为模式进行业务推荐、内容推荐或设备控制等操作。
需要说明的是,以上目标图像为用于进行生物学分类的图像仅为示例性举例,本申请实施例并不局限于此,在一些实施例中,目标图像还可以为其他类型的图像,例如动物图像,进行动物种类分类等。
本申请实施例对获取目标图像的方式不加以限定,示例性地,目标图像可以由计算机设备采集得到。示例性地,目标图像可以由图像采集设备发送给计算机设备。示例性地,目标图像可以由计算机设备从图像库中提取得到。示例性地,目标图像可以由计算机设备从网络上爬取得到等。
下面详细描述本申请实施例中图像分类模型训练方法。
图1是本发明实施例提供的图像分类模型训练方法的一个可选的流程图,图1中的方法可以包括但不限于包括步骤S110至步骤S170。同时可以理解的是,本实施例对图1中步骤S110至步骤S170的顺序不做具体限定,可以根据实际需求调整步骤顺序或者减少、增加某些步骤。
步骤S110,构建图像样本集。
在一实施例中,图像样本集包括多个图像样本,每个图像样本中均包括:图像及类别标签。在一实施例中,类别标签的种类数量为n,类别标签表示图像对应的图像类别,即按照实际图像分类需求将图像分为多少个类别,每个类别对应一个类别标签。
在一实施例中,若图像分类模型被应用于病理图像识别分类,则图像样本包括肿瘤图像样本和正常病理图像样本,其中,肿瘤图像样本中包括处于不同发展程度的图像样本,例如一级病变、二级病变和三级病变的图像样本,其中根据肿瘤生长位置、肿瘤大小、肿瘤生长时间和肿瘤浸润范围程度划分不同的发展程度。对应设置的类别标签种类数量为4类,分别是:正常、一级病变、二级病变和三级病变。
在一实施例中,若图像分类模型被应用于人体行为模式识别,则图像样本包括多种不同行为模式的人体行为图像,其中,不同人体行为模式包括:阅读模式、行走模式、跳跃运动模式或睡眠模式等。对应设置的类别标签种类数量为4类,分别是:阅读模式、行走模式、跳跃模式和睡眠模式。
由以上可以看出,本申请实施例可以根据实际应用场景,设定不同的图像样本集对图像分类模型进行训练,以适应不同应用场景的使用需求。本实施例中,得到训练用的大量图像样本后,将每一个图像样本输入图像分类模型执行下述步骤进行训练。
步骤S120,将图像样本输入图像分类模型得到特征矩阵。
在一实施例中,图像分类模型利用ResNet-101作为骨架对图像样本中图像进行特征提取得到特征矩阵,其中,特征矩阵包括多个特征通道的特征图。在一实施例中,一个图像类别对应一个特征通道,例如对RGB图像进行特征提取,按照红(R)、绿(G)和蓝(B)三个颜色作为三个类别,设定三个特征通道分别是红特征通道、绿特征通道和蓝特征通道,得到的特征矩阵是将三个特征通道提取得到的特征图组合形成。因此特征矩阵中包含每个特征通道对应的特征图。
在一实施例中,参照图2,是一实施例示出的步骤S120的一种具体实现流程图,在本实施例中将图像样本输入图像分类模型得到特征矩阵的步骤S120,包括步骤S121至步骤S122。
步骤S121,利用一个以上预处理层对图像样本中图像进行预处理操作,得到预处理特征信息。
在一实施例中,图像分类模型中的ResNet-101骨架网络包含4个预处理层开始,分别是两个卷积层和两个最大池化层。在一实施例中,4个预处理层一次连接,两个卷积层的卷积核均是7*7,两个最大池化层的池化尺寸为3*3,四个预处理层的计算步长均为2。
在一实施例中,图像分类模型利用预处理层对图像样本中图像进行预处理操作,得到预处理特征信息,然后执行下述步骤进行特征提取。
步骤S122,利用一个以上特征提取层对预处理特征信息依次进行特征提取,得到特征矩阵。
在一实施例中,图像分类模型利用4个特征提取层对预处理特征信息依次进行特征提取,得到特征矩阵,其中特征提取层均为卷积层。
由以上可以看出,本申请实施例利用ResNet-101骨架网络对图像样本中图像的特征进行提取得到特征矩阵,ResNet-101骨架网络中包含残差结构,在输入与输出之间引入了一条恒等映射,能够缓解随着层数加深,网络性能退化的问题,提高特征提取的准确度。
步骤S130,基于Shapley计算原理根据特征矩阵获取每一个特征通道对应的类别权重值。
在一实施例中,Shapley计算原理是一种合作博弈中的利益分配方法,其基于Shapley值进行联盟成员的利益分配,能够体现各盟员对联盟总目标的贡献程度,避免了分配上的平均主义,比仅按资源投入价值、资源配置效率及将二者相结合的分配方式都更具合理性和公平性,也体现了各盟员相互博弈的过程。
相关技术中,图像分类模型中利用以梯度方向传播作为图像中特征的权重,这种方式训练得到的图像分类模型仅适用于分类难度不高的图像,对分类难度较高的图像进行分类时的分类精确度不高。
因此在一实施例中,在图像分类模型中计算特征权重时,不同于相关技术中利用以梯度方向传播作为图像中特征的权重,基于Shapley计算原理得到每一个特征通道对应的类别权重值,避免忽略或隐藏特征中不同元素之间的依赖性,提高训练得到的图像分类模型的分类精确度,扩展图像分类的应用场景。
在一实施例中,参照图3,是一实施例示出的步骤S130的一种具体实现流程图,在本实施例中基于Shapley计算原理根据特征矩阵获取每一个特征通道对应的类别权重值的步骤S130,包括步骤S131至步骤S136。
步骤S131,根据预设Shapley分类方式生成当前特征通道的至少一个特征图子集。
在一实施例中,对于每个特征通道均对应一个特征图,而特征通道数量与图像类别数量对应相同,即一个特征通道用于提取一个图像类别相关的特征。假设特征通道的数量为n,则表示有n个特征图,按照Shapley计算原理,一个特征图表示一个联盟成员,所有特征图共同构成整个联盟,联盟也可以说是上述特征矩阵,特征图子集S即将联盟中部分成员构成一个子集。
在一实施例中,按照预设Shapley分类方式从联盟(n个特征图构成的特征矩阵)中选取部分联盟成员构成特征图子集S。
假设要计算的当前特征通道为第一个特征通道,对应的特征图为N1,则将特征矩阵中除了N1以外的特征图进行组合,组合得到的特征图子集S中特征图数量从1到N-1,特征图子集S的组合方式有M个,表示为:
由以上可以看出,按照Shapley计算原理,从特征矩阵中选取特征图子集,其中,每个特征图子集原则上都和其他特征图之间有关系,因此可以利用特征中不同元素之间的依赖性进行图像分类,从而提升分类精确度。
步骤S132,计算特征图子集的边际贡献值。
在一实施例中,根据当前特征通道的特征图和特征图子集计算边际贡献值。参照图4,是一实施例示出的步骤S132的具体实现流程图,在本实施例中计算特征图子集的边际贡献值的步骤S132,还可以包括步骤S1321至步骤S1323。
步骤S1321,根据特征图子集计算得到第一贡献值。
步骤S1322,根据特征图子集和当前特征通道的特征图计算得到第二贡献值。
步骤S1323,根据第一贡献值和第二贡献值得到特征图子集的边际贡献值。
在一实施例中,特征矩阵表示为{N1,N2,N3,N4},当前特征通道为第一个特征通道,对应的特征图为N1,第一个特征通道对应包括7种特征图子集S,分别是{S=2},{S=3},{S=4},{S=2、3},{S=3、4},{S=2、4},{S=2、3、4},特征图子集S对应的特征图包括:{N2},{N3},{N4},{N2,N3},{N3,N4},{N2,N4},{N2,N3,N4}。
在一实施例中,步骤S1321中当前特征通道为第一个特征通道,将对应的特征图子集S输入图像分类模型中得到预测概率,将该预测概率作为第一贡献值。在一实施例中,如上述示例,第一贡献值表示为:F1、F2、F3、F4、F5、F6和F7。
在一实施例中,如上述示例,步骤S1322分别将上述特征图子集S对应的特征图和当前特征通道对应的特征图组合后,共同输入图像分类模型中得到预测概率,将预测概率作为对应特征图子集S的第二贡献值。在一实施例中,由于特征图子集S对应的特征图包括:{N2},{N3},{N4},{N2,N3},{N3,N4},{N2,N4},{N2,N3,N4},当前特征通道为第一个特征通道,对应的特征图为N1,将特征图子集S对应的特征图和当前特征通道对应的特征图组合表示为:{N2,N1},{N3,N1},{N4,N1},{N2,N3,N1},{N3,N4,N1},{N2,N4,N1},{N2,N3,N4,N1},将组合之后的特征图输入图像分类模型中得到预测概率,对应的第二贡献值F’表示为:F1’、F2’、F3’、F4’、F5’、F6’和F7’,可见第二贡献值与特征图子集S的选取有关联。
在一实施例中,如上述示例,步骤S1323中根据得到的第一贡献值(F1、F2、F3、F4、F5、F6和F7)和第二贡献值(F1’、F2’、F3’、F4’、F5’、F6’和F7’)分别计算特征图子集S对应的边际贡献值。其中,边际贡献值为第二贡献值减去第一贡献值,即针对不同的特征图子集S,其对应的边际贡献值Fs表示为:F1’-F1、F2’-F2、F3’-F3、F4’-F4、F5’-F5、F6’-F6和F7’-F7。
在一实施例中,上述步骤计算第i个特征通道对应的多个特征图子集S的边际贡献值的过程表示为:
Fs=F′-F=f(S∪{i})-f(S)
其中,S表示特征图子集,{i}表示第i个特征通道的特征图,Fs表示特征图子集S的边际贡献值,S∪{i}表示特征图子集S对应的特征图和当前特征通道对应的特征图组合信息,F表示特征图子集计算得到的第一贡献值,F’表示特征图子集S计算得到的第二贡献值,f()表示图像分类模型根据输入特征图信息得到预测概率的模型函数。
由上述可知,步骤S132根据特征矩阵生成每一个特征图子集的边际贡献值,边际贡献值与特征图子集S的选取有关。由于特征图子集S的选取与当前特征通道有关,因此特征图子集S的边际贡献值一定程度上能够反映当前特征通道对结果的边际贡献程度。本实施例得到边际贡献值后,利用下面步骤计算特征图子集S对应的加权因子。
步骤S133,计算特征图子集的加权因子。
在一实施例中,参照图5,是一实施例示出的步骤S133的一种具体实现流程图,在本实施例中计算特征图子集的加权因子的步骤S133,包括步骤S1331至步骤S1332。
步骤S1331,获取特征图子集中包含的特征图数量。
在一实施例中,不同组合方式中,特征图子集S中包含的特征图数量不同。得到当前特征通道对应的边际贡献值和不同组合(主要体现在特征图子集中包含的特征图数量)的特征图子集S对应的特征图数量后,按照下述步骤计算加权因子。
步骤S1332,根据特征图数量和类别标签的种类数量计算得到加权因子。
在一实施例中,加权因子w,计算过程表示为:
其中,w表示特征图子集S的加权因子,|S|表示该特征图子集中特征图数量,n表示类别标签的数量,也表示图像类别的数量,也表示特征通道的数量,“!”表示阶乘运算。
在一实施例中,特征矩阵表示为{N1,N2,N3,N4},当前特征通道为第一个特征通道,对应的特征图为N1。当特征图子集S是{S=2},{S=3},{S=4}时,其特征图子集S中特征图数量为1,对应的加权因子均相同。当特征图子集S是{S=2、3},{S=3、4},{S=2、4}时,其特征图子集S中特征图数量为2,对应的加权因子均相同。当特征图子集S是{S=2、3、4}时,得到对应的加权因子。
通过上述步骤,能够得到特征图子集S不同组合方式下的加权因子。
步骤S134,根据加权因子和边际贡献值计算得到特征图子集的权重值。
步骤S135,根据特征图子集的权重值计算当前特征通道的类别权重值。
在一实施例中,由于特征图子集S包括多种不同的组合方式,因此按照上述方式计算特征图子集S在每一种组合方式下的加权因子,然后计算该特征图子集S对应的权重值累加所有组合方式下得到的权重值即可得到当前特征通道的类别权重值表示为:
其中,表示当前特征通道的类别权重值,i表示第i个特征通道,S表示特征图子集,{i}表示第i个特征通道的特征图,S∪{i}表示特征图子集S对应的特征图和当前特征通道对应的特征图组合信息,S∈N/{i}表示从去除掉第i个特征通道的特征图后的特征矩阵中选取特征图子集S,表示累加特征图子集S的所有组合方式,N表示特征矩阵中特征图,n表示类别标签的数量,也表示图像类别的数量,f(S)表示特征图子集S计算得到的第一贡献值,f(S∪{i})表示特征图子集S计算得到的第二贡献值。
由上述可知,由于不同的特征图子集S对应不同的划分方式,其获取的特征矩阵中特征图之间的关联性不同,因此累加每一种组合方式下的特征图子集S对应的权重值得到当前特征通道的总的类别权重值这种方式能够利用特征中不同元素之间的依赖性,提高训练得到的图像分类模型的分类精确度。
步骤S136,逐一计算得到每个特征通道的类别权重值。
在一实施例中,对于每一个特征矩阵,按照上述方式逐一计算每个特征通道的类别权重值。在一实施例中,考虑到基于Shapley计算原理的共识方式逐个以枚举的方式划分特征图子集S的计算量较大,因此采用采样的方式从总的特征图子集S中获取部分组合方式的特征图子集S,从而减少运算量,提高图像分类识别速度。
在一实施例中采样方法为蒙特卡洛采样法,这是一种近似推断的采样方式,包括直接采样、拒绝采样与重要性采样三种,相比较随机采样,这种采样方法能提高采样结果的可信度。
在一实施例中,参照图6,是一实施例示出的步骤S130的另一种具体实现流程图,在本实施例中根据所述特征图子集的权重值计算当前特征通道的所述类别权重值的步骤S130,还可以包括步骤S137至步骤S1310。
步骤S137,根据预设Shapley分类方式生成当前特征通道的一个以上特征图子集。
在一实施例中,步骤S137生成特征图子集的过程与步骤S131中相同,这里不再赘述。
步骤S138,基于预设采样次数对特征图子集进行至少一次采样,得到至少一个特征图采样子集。
在一实施例中,如果特征通道较多,则可以生成较多不同的特征图子集,如果逐一进行运算,则运算量较大,图像分类模型训练效率较低,因此该实施例为了减少运算量,利用蒙特卡洛采样的方式在所有特征图子集中进行采样,通过不断的采样达到逐渐逼近的效果,在运算量和准确性之间达到平衡。该实施例中根据运算量能力和准确度需求设定预设采样次数。
在一实施例中,可以采样多次,得到多个特征图采样子集。例如,特征图子集S包括:S1、S2、S3、S4、S5、S6、S7、S8和S9,预设采样次数为3次,则采样三次,每次采样的特征图子集S为:S2、S4、S7,即得到的特征图采样子集Si为S2、S4、S7。
步骤S139,计算至少一个特征图采样子集的边际贡献值。
在一实施例中,步骤S139计算特征图采样子集Si的边际贡献值计算过程描述为:首先计算得到特征图采样子集Si的第一贡献值,然后根据特征图采样子集Si和当前特征通道的特征图计算得到第二贡献值,最后根据第一贡献值和第二贡献值得到特征图采样子集Si的边际贡献值。
在一实施例中,将特征图采样子集Si输入图像分类模型中得到预测概率,将该预测概率作为第一贡献值。在一实施例中,如上述示例,特征图采样子集Si为S2、S4、S7,其第一贡献值分别为:F2、F4和F7。
在一实施例中,将上述特征图采样子集Si对应的特征图和当前特征通道对应的特征图组合后,共同输入图像分类模型中得到预测概率,将预测概率作为对应特征图采样子集Si的第二贡献值。在一实施例中,将组合之后的特征图输入图像分类模型中得到预测概率,对应的第二贡献值表示为:F2’、F4’和F7’,可见第二贡献值与特征图采样子集Si的选取有关联。
在一实施例中,如上述示例,根据得到的第一贡献值(F2、F4和F7)和第二贡献值(F2’、F4’和F7’)分别计算特征图采样子集Si对应的边际贡献值。其中,边际贡献值为第二贡献值减去第一贡献值,即针对不同的特征图采样子集Si,其对应的边际贡献值Fsi表示为:F2’-F2、F4’-F4和F7’-F7。
在一实施例中,上述步骤计算第i个特征通道对应的多个特征图采样子集Si的边际贡献值的过程表示为:
Fsi=f(Si∪{i})-f(Si)
其中,Fsi表示特征图采样子集Si的边际贡献值,Si表示特征图采样子集,{i}表示第i个特征通道的特征图,Fsi表示特征图采样子集Si的边际贡献值,Si∪{i}表示特征图采样子集Si对应的特征图和当前特征通道对应的特征图组合信息,f(Si)表示特征图采样子集Si计算得到的第一贡献值,f(Si∪{i})表示特征图采样子集Si计算得到的第二贡献值,f()表示图像分类模型根据输入特征图信息得到预测概率的模型函数。
由上述可知,边际贡献值与采样得到的特征图采样子集Si有关。由于特征图采样子集Si的选取与当前特征通道有关,因此特征图采样子集Si的边际贡献值一定程度上能够反映当前特征通道对结果的边际贡献程度。
步骤S1310,基于预设采样次数对边际贡献值计算平均,得到当前特征通道的类别权重值。
步骤S1311,逐一计算得到每个特征通道的类别权重值。
其中,表示当前特征通道的类别权重值,i表示第i个特征通道,Si表示特征图采样子集,{i}表示第i个特征通道的特征图,Si∪{i}表示特征图采样子集Si对应的特征图和当前特征通道对应的特征图组合信息,f(Si∪{i})表示特征图采样子集Si计算得到的第二贡献值,f()表示图像分类模型根据输入特征图信息得到预测概率的模型函数,T表示预设采样次数,t表示第t次采样。
由上述可知,由于不同的特征图采样子集Si对应不同的划分方式,其获取的特征矩阵中特征图之间的关联性不同,因此对每一种组合方式下的特征图采样子集Si对应的边际贡献值求和取平均,得到当前特征通道的总的类别权重值这种方式能够利用特征中不同元素之间的依赖性,提高训练得到的图像分类模型的分类精确度。
在一实施例中,为了减少特征通道类别权重值中包含的非重要信息,因此在步骤S1311或者步骤S136后,执行步骤S1312利用二值化操作对类别权重值进行处理。
步骤S1312,利用二值化操作对类别权重值进行处理。
在一实施例中,参照图7,是一实施例示出的步骤S1312的一种具体实现流程图,在本实施例中利用二值化操作对类别权重值进行处理的步骤S1312,包括步骤S1313至步骤S1315。
步骤S1313,对每个特征通道的类别权重值求和,得到求和权重值。
步骤S1314,计算求和权重值的平均值,得到平均权重值。
步骤S1315,对得到平均权重值进行二值化,得到二值化的类别权重值。
上述步骤描述了二值化的过程,表示为:
其中,i表示当前特征通道,n表示特征通道的数量,也表示类别标签的数量,表示当前特征通道对应的类别权重值,表示求和权重值,表示平均权重值,表示二值化的类别权重值,∏()表示指示函数,函数内的值为真也输出为1,否则输出为0。
在一实施例中,经过二值化的类别权重值相比较于[0,1]之间的连续值而言,其具有更强的鲁棒性,能够确保不包含过多的非重要信息,提高图像分类的准确性。
上述得到每个特征通道对应的类别权重值后,利用下述步骤计算类激活图。
步骤S140,根据每个特征通道的类别权重值得到类激活图。
在一实施例中,类激活图也称为通道注意力,其主要思想是通过每个特征通道不同的权重,进行加权求和后,得到注意力热度图的过程,类激活图同时进行了两种操作,一个是向提取的特征矩阵中注入类别标签的相关性信息,另外一个是将原特征矩阵中包含的图像特征映射到了新的特征空间,本实施例中类激活图可以用于表征类别标签的概率得分。
在一实施例中,图像分类模型为卷积神经网络,类激活图表示为:
其中,Mc(x,y)表示经过特征通道加权后的特征在位置(x,y)处关于类别标签c的值,k表示第k个特征通道,表示第k个特征通道的类别权重值,表示二值化过程之后的第k个特征通道的类别权重值,fk(x,y)表示表示特征矩阵在特征通道k位置(x,y)处的值。
在一实施例中,图像分类模型为图神经网络模型,类激活图表示为:
可以理解的是,本实施例不限制特征通道类别权重值是否需要经过二值化,也不限制图像分类模型的模型结构。
由上述可知,在图像分类任务中,无论是卷积网络还是图神经网络,都是通过提取输入样本的特征作为分类的依据,本实施例的类激活图能够将特征通道的权重信息可视化,能够表征图像分类模型对图像分类成功的背后依据是否合理。例如,一个识别图像中是否包括船的图像分类模型,无法得知做出判决的依据到底是船还是水。通过类激活图可以很直观的发现图像分类模型所学习到的特征通道相关的语义信息。在一实施例中,图像分类模型中多个特征通道表示学习到的不同特征信息,基于Shapley的计算原理得到的类激活图能够表征输入图像中各个特征通道对应的边际贡献程度,并能够作为后续分类的判决依据。
利用上述步骤得到类激活图之后,利用类激活图进行图形分类预测。
步骤S150,根据类激活图得到图像样本对应的预测图像类别。
在一实施例中,由于获取的类激活图是一种加权特征矩阵,其每一个通道都代表该类别标签对应的特征图,为了将要将加权后的特征映射回原来的特征空间。在一实施例中,将类激活图输入一个全连接层,将全连接层的输出作为分类的预测,也就是图像样本对应的标签概率,然后根据标签概率与预设的概率阈值判断该图像样本属于哪一种图像类别,即得到预测图像类别。在一实施例中,全连接层为1*1的卷积层。
步骤S160,根据预设损失函数计算预测图像类别和类别标签之间的损失值。
在一实施例中,预设损失函数为交叉熵损失函数,其计算预测图像类别对应的概率和类别标签对应的概率之间的交叉熵作为损失值。
步骤S170,根据损失值调整图像分类模型的模型权重,直到达到预设损失函数的收敛条件,得到图像分类模型。
在一实施例中,预设损失函数的收敛条件可以是最小化交叉熵,也可以是其他收敛条件,例如迭代次数达到设定的最大值等,本实施例对此不做具体限定。在每一次迭代中调整图像分类模型的权重,直到训练完成,得到图像分类模型。
本公开实施例通过构建图像样本集,将图像样本输入图像分类模型得到特征矩阵,基于Shapley计算原理根据特征矩阵获取每一个特征通道对应的类别权重值,根据每个特征通道的类别权重值得到类激活图,根据类激活图得到图像样本对应的预测图像类别,根据预设损失函数计算预测图像类别和类别标签之间的损失值,根据损失值调整图像分类模型的模型权重,直到达到预设损失函数的收敛条件,得到图像分类模型。
在一实施例中,基于Shapley计算原理得到每一个特征通道对应的类别权重值,不同于相关技术中利用以梯度方向传播作为图像中特征的权重,避免忽略或隐藏特征中不同元素之间的依赖性,提高训练得到的图像分类模型的分类精确度,扩展图像分类的应用场景。
本发明实施例还提供一种图像分类方法,参照图8,该方法包括但不限于步骤S810至步骤S820:
步骤S810,获取目标图像。
在一实施例中,对获取目标图像的方式不加以限定,示例性地,目标图像可以由计算机设备采集得到。示例性地,目标图像可以由图像采集设备发送给计算机设备。示例性地,目标图像可以由计算机设备从图像库中提取得到。示例性地,目标图像可以由计算机设备从网络上爬取得到等。
步骤S820,将目标图像输入图像分类模型中,得到图像类别。
在一实施例中,将目标图像输入利用上述实施例中图像分类模型训练方法训练得到的图像分类模型中,得到目标图像模型对应的图像类别,根据图像类别对图像进行分类的场景中。例如根据目标图像进行生物学分类,分类结果用于表征目标图像中的生物学特征类别。生物学分类包括:医学图像分类和人体行为识别分类,生物学特征分别指:器官病变概率和人体行为模式。需要说明的是,以上目标图像为用于进行生物学分类的图像仅为示例性举例,本申请实施例并不局限于此,在一些实施例中,目标图像还可以为其他类型的图像,例如动物图像,进行动物种类分类等。
本实施例中图像分类模型对目标图像进行分类的具体实施方式与上述图像分类模型训练方法的具体实施方式基本一致,在此不再赘述。
本发明实施例还提供一种图像分类模型训练装置,可以实现上述图像分类模型训练方法,参照图9,该装置包括:
样本集构建单元910,用于构建图像样本集,图像样本集包括多个图像样本,图像样本包括:图像及类别标签,类别标签的种类数量为n,类别标签表示图像对应的图像类别。
特征矩阵获取单元920,用于将图像样本输入图像分类模型得到特征矩阵,特征矩阵包括多个特征通道的特征图。
类别权重值计算单元930,用于基于Shapley计算原理根据特征矩阵获取每一个特征通道对应的类别权重值。
类激活图获取单元940,用于根据每个特征通道的类别权重值得到类激活图,类激活图用于表征类别标签的概率得分。
图像类别预测单元950,用于根据类激活图得到图像样本对应的预测图像类别。
损失值计算单元960,用于根据预设损失函数计算预测图像类别和类别标签之间的损失值。
模型权重调整单元970,用于根据损失值调整图像分类模型的模型权重,直到达到预设损失函数的收敛条件,得到图像分类模型。
本实施例的图像分类模型训练装置的具体实施方式与上述图像分类模型训练方法的具体实施方式基本一致,在此不再赘述。
本发明实施例还提供了一种电子设备,包括:
至少一个存储器;至少一个处理器;至少一个程序;所述程序被存储在存储器中,处理器执行所述至少一个程序以实现本发明实施上述的图像分类模型训练方法或图像分类方法。该电子设备可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant,简称PDA)、车载电脑等任意智能终端。
请参阅图10,图10示意了另一实施例的电子设备的硬件结构,电子设备包括:
处理器1001,可以采用通用的CPU(CentralProcessingUnit,中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本发明实施例所提供的技术方案;
存储器1002,可以采用ROM(ReadOnlyMemory,只读存储器)、静态存储设备、动态存储设备或者RAM(RandomAccessMemory,随机存取存储器)等形式实现。存储器1002可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1002中,并由处理器1001来调用执行本发明实施例的图像分类模型训练方法或图像分类方法;
输入/输出接口1003,用于实现信息输入及输出;
通信接口1004,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;和总线1005,在设备的各个组件(例如处理器1001、存储器1002、输入/输出接口1003和通信接口1004)之间传输信息;
其中处理器1001、存储器1002、输入/输出接口1003和通信接口1004通过总线1005实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种存储介质,存储介质为计算机可读存储介质,该存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述图像分类模型训练方法或图像分类方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例提出的图像分类模型训练方法、图像分类方法、图像分类模型训练装置、电子设备、存储介质,通过构建图像样本集,将图像样本输入图像分类模型得到特征矩阵,基于Shapley计算原理根据特征矩阵获取每一个特征通道对应的类别权重值,根据每个特征通道的类别权重值得到类激活图,根据类激活图得到图像样本对应的预测图像类别,根据预设损失函数计算预测图像类别和类别标签之间的损失值,根据损失值调整图像分类模型的模型权重,直到达到预设损失函数的收敛条件,得到图像分类模型。本实施例基于Shapley计算原理得到每一个特征通道对应的类别权重值,不同于相关技术中利用以梯度方向传播作为图像中特征的权重,避免忽略或隐藏特征中不同元素之间的依赖性,提高训练得到的图像分类模型的分类精确度,扩展图像分类的应用场景。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。
Claims (11)
1.一种图像分类模型训练方法,其特征在于,包括:
构建图像样本集,所述图像样本集包括多个图像样本,所述图像样本包括:图像及类别标签,所述类别标签的种类数量为n,所述类别标签表示所述图像对应的图像类别;
将所述图像样本输入图像分类模型得到特征矩阵,所述特征矩阵包括多个特征通道的特征图;
基于Shapley计算原理根据所述特征矩阵获取每一个所述特征通道对应的类别权重值;
根据每个所述特征通道的所述类别权重值得到类激活图;
根据所述类激活图得到所述图像样本对应的预测图像类别;
根据预设损失函数计算所述预测图像类别和所述类别标签之间的损失值;
根据所述损失值调整所述图像分类模型的模型权重,直到达到所述预设损失函数的收敛条件,得到所述图像分类模型。
2.根据权利要求1所述的图像分类模型训练方法,其特征在于,所述将所述图像样本输入图像分类模型得到特征矩阵,包括:
利用一个以上预处理层对所述图像样本中所述图像进行预处理操作,得到预处理特征信息;
利用一个以上特征提取层对所述预处理特征信息依次进行特征提取,得到所述特征矩阵。
3.根据权利要求1所述的图像分类模型训练方法,其特征在于,所述基于Shapley计算原理根据所述特征矩阵获取每一个所述特征通道对应的类别权重值,包括:
根据预设Shapley分类方式生成当前特征通道的至少一个特征图子集;
计算所述特征图子集的边际贡献值;
计算所述特征图子集的加权因子;
根据所述加权因子和所述边际贡献值计算得到所述特征图子集的权重值;
根据所述特征图子集的权重值计算当前特征通道的所述类别权重值;
逐一计算得到每个所述特征通道的所述类别权重值。
4.根据权利要求3所述的图像分类模型训练方法,其特征在于,所述根据所述特征图子集生成所述特征图子集的边际贡献值,包括:
根据所述特征图子集计算得到第一贡献值;
根据所述特征图子集和当前特征通道的特征图计算得到第二贡献值;
根据所述第一贡献值和所述第二贡献值得到所述特征图子集的所述边际贡献值。
5.根据权利要求3所述的图像分类模型训练方法,其特征在于,所述计算所述特征图子集的加权因子,包括:
获取所述特征图子集中包含的特征图数量;
根据所述特征图数量和所述类别标签的种类数量计算得到所述加权因子。
6.根据权利要求1所述的图像分类模型训练方法,其特征在于,所述根据所述特征图子集的权重值计算当前特征通道的所述类别权重值,包括:
根据预设Shapley分类方式生成当前特征通道的一个以上特征图子集;
基于预设采样次数对所述特征图子集进行至少一次采样,得到至少一个特征图采样子集;
计算至少一个所述特征图采样子集的边际贡献值;
基于所述预设采样次数对所述边际贡献值计算平均,得到当前特征通道的所述类别权重值;
逐一计算得到每个所述特征通道的所述类别权重值。
7.根据权利要求1至6任一项所述的图像分类模型训练方法,其特征在于,所述根据每个所述特征通道的所述类别权重值得到类激活图之前,包括:
对每个所述特征通道的所述类别权重值求和,得到所述求和权重值;
计算所述求和权重值的平均值,得到平均权重值;
对所述得到平均权重值进行二值化,得到二值化的所述类别权重值。
8.一种图像分类方法,其特征在于,包括:
获取目标图像;
将所述目标图像输入利用权利要求1至7任一项所述的图像分类模型训练方法训练得到的图像分类模型中,得到所述目标图像模型对应的图像类别。
9.一种图像分类模型训练装置,其特征在于,包括:
样本集构建单元,用于构建图像样本集,所述图像样本集包括多个图像样本,所述图像样本包括:图像及类别标签,所述类别标签的种类数量为n,所述类别标签表示所述图像对应的图像类别;
特征矩阵获取单元,用于将所述图像样本输入图像分类模型得到特征矩阵,所述特征矩阵包括多个特征通道的特征图;
类别权重值计算单元,用于基于Shapley计算原理根据所述特征矩阵获取每一个所述特征通道对应的类别权重值;
类激活图获取单元,用于根据每个所述特征通道的所述类别权重值得到类激活图,所述类激活图用于表征所述类别标签的概率得分;
图像类别预测单元,用于根据所述类激活图得到所述图像样本对应的预测图像类别;
损失值计算单元,用于根据预设损失函数计算所述预测图像类别和所述类别标签之间的损失值;
模型权重调整单元,用于根据所述损失值调整所述图像分类模型的模型权重,直到达到所述预设损失函数的收敛条件,得到所述图像分类模型。
10.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的图像分类模型训练方法,或,如权利要求8所述的图像分类方法。
11.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的图像分类模型训练方法,或,如权利要求8所述的图像分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210999162.5A CN115424056A (zh) | 2022-08-19 | 2022-08-19 | 模型训练方法和装置、图像分类方法、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210999162.5A CN115424056A (zh) | 2022-08-19 | 2022-08-19 | 模型训练方法和装置、图像分类方法、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115424056A true CN115424056A (zh) | 2022-12-02 |
Family
ID=84198699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210999162.5A Pending CN115424056A (zh) | 2022-08-19 | 2022-08-19 | 模型训练方法和装置、图像分类方法、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115424056A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116129199A (zh) * | 2023-04-13 | 2023-05-16 | 西南石油大学 | 一种可解释性的皮肤癌分类方法、装置、介质及设备 |
CN116150421A (zh) * | 2023-04-23 | 2023-05-23 | 深圳竹云科技股份有限公司 | 图像的展示方法、装置、计算机设备和存储介质 |
-
2022
- 2022-08-19 CN CN202210999162.5A patent/CN115424056A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116129199A (zh) * | 2023-04-13 | 2023-05-16 | 西南石油大学 | 一种可解释性的皮肤癌分类方法、装置、介质及设备 |
CN116150421A (zh) * | 2023-04-23 | 2023-05-23 | 深圳竹云科技股份有限公司 | 图像的展示方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929622B (zh) | 视频分类方法、模型训练方法、装置、设备及存储介质 | |
CN110689025B (zh) | 图像识别方法、装置、系统及内窥镜图像识别方法、装置 | |
CN109492627B (zh) | 一种基于全卷积网络的深度模型的场景文本擦除方法 | |
CN115424056A (zh) | 模型训练方法和装置、图像分类方法、设备和介质 | |
CN111444826B (zh) | 视频检测方法、装置、存储介质及计算机设备 | |
CN114331829A (zh) | 一种对抗样本生成方法、装置、设备以及可读存储介质 | |
CN111553267A (zh) | 图像处理方法、图像处理模型训练方法及设备 | |
CN113392866A (zh) | 一种基于人工智能的图像处理方法、装置及存储介质 | |
CN115239675A (zh) | 分类模型的训练方法、图像分类方法和装置、设备及介质 | |
CN114693624A (zh) | 一种图像检测方法、装置、设备及可读存储介质 | |
CN110457523B (zh) | 封面图片的选取方法、模型的训练方法、装置及介质 | |
CN114333049A (zh) | 猪只攻击行为识别方法、系统、计算机设备和存储介质 | |
CN114358250A (zh) | 数据处理方法、装置、计算机设备、介质及程序产品 | |
CN113705301A (zh) | 图像处理方法及装置 | |
CN111626212A (zh) | 图片中对象的识别方法和装置、存储介质及电子装置 | |
CN116740485A (zh) | 病变检测模型的训练方法和装置、电子设备及存储介质 | |
CN117011449A (zh) | 三维面部模型的重构方法和装置、存储介质及电子设备 | |
CN115114480A (zh) | 数据处理方法、装置、设备、可读存储介质及程序产品 | |
Aufar et al. | Face recognition based on Siamese convolutional neural network using Kivy framework | |
CN112749711B (zh) | 视频获取方法和装置及存储介质 | |
CN116665261A (zh) | 图像处理方法、装置和设备 | |
CN113569809A (zh) | 一种图像处理方法、设备及计算机可读存储介质 | |
CN116701706B (zh) | 一种基于人工智能的数据处理方法、装置、设备及介质 | |
CN116612341B (zh) | 用于对象计数的图像处理方法、装置、设备及存储介质 | |
CN112329606B (zh) | 一种活体检测方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |