CN117274719B - 图像分类方法、装置、计算机设备及存储介质 - Google Patents
图像分类方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN117274719B CN117274719B CN202311508722.3A CN202311508722A CN117274719B CN 117274719 B CN117274719 B CN 117274719B CN 202311508722 A CN202311508722 A CN 202311508722A CN 117274719 B CN117274719 B CN 117274719B
- Authority
- CN
- China
- Prior art keywords
- image
- sample
- target
- feature
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 238000003860 storage Methods 0.000 title claims abstract description 36
- 238000010586 diagram Methods 0.000 claims abstract description 65
- 238000000605 extraction Methods 0.000 claims description 122
- 238000012549 training Methods 0.000 claims description 47
- 230000004931 aggregating effect Effects 0.000 claims description 15
- 230000002776 aggregation Effects 0.000 claims description 15
- 238000004220 aggregation Methods 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 210000002569 neuron Anatomy 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 17
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 230000008569 process Effects 0.000 description 24
- 238000010801 machine learning Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 17
- 241000282414 Homo sapiens Species 0.000 description 14
- 238000013135 deep learning Methods 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000002269 spontaneous effect Effects 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 241000282412 Homo Species 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 239000003086 colorant Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种图像分类方法、装置、计算机设备及存储介质,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景,本申请可以获取待分类的图像,并对图像进行特征提取,得到图像对应的特征图;基于特征图对图像进行第一次类别识别,得到图像的初始分类结果,初始分类结果包括图像所属的类别和置信度;根据特征图的特征位置和置信度,确定特征图针对图像的类别识别的重要性权值;根据重要性权值对特征图进行聚合,生成用于表征解释图像为类别的描述信息;基于描述信息对图像进行第二次类别识别,得到图像的目标分类结果,目标分类结果用于指示图像所属的目标类别。提高了图像分类的准确性。
Description
技术领域
本申请涉及图像处理领域,具体涉及一种图像分类方法、装置、计算机设备及存储介质。
背景技术
随着科技的快速发展,图像的种类越来越丰富,因此,可以对图像进行分类。目前,在对图像进行分类的过程中,先获取待分类的图像,然后将图像输入分类网络,通过分类网络提取图像的特征,并基于图像的特征对图像进行分类,得到图像对应的类别。然而,这种图像分类方式,仅仅是基于图像的特征进行图像分类,导致图像分类的准确性较低。
发明内容
本申请实施例提供一种图像分类方法、装置、计算机设备及存储介质,可以提高对图像分类的准确性。
为解决上述技术问题,本申请实施例提供以下技术方案:
本申请实施例提供了一种图像分类方法,包括:
获取待分类的图像,并对所述图像进行特征提取,得到所述图像对应的特征图;
基于所述特征图对所述图像进行第一次类别识别,得到所述图像的初始分类结果,所述初始分类结果包括所述图像所属的类别和置信度;
根据所述特征图的特征位置和所述置信度,计算所述特征图针对所述图像的类别识别的重要性权值;
根据所述重要性权值对所述特征图进行聚合,生成用于表征解释所述图像为所述类别的描述信息;
基于所述描述信息对所述图像进行第二次类别识别,得到所述图像的目标分类结果,所述目标分类结果用于指示所述图像所属的目标类别。
根据本申请的一个方面,还提供了一种图像分类装置,包括:
获取单元,用于获取待分类的图像,并对所述图像进行特征提取,得到所述图像对应的特征图;
第一识别单元,用于基于所述特征图对所述图像进行第一次类别识别,得到所述图像的初始分类结果,所述初始分类结果包括所述图像所属的类别和置信度;
确定单元,用于根据所述特征图的特征位置和所述置信度,确定所述特征图针对所述图像的类别识别的重要性权值;
聚合单元,用于根据所述重要性权值对所述特征图进行聚合,生成用于表征解释所述图像为所述类别的描述信息;
第二识别单元,用于基于所述描述信息对所述图像进行第二次类别识别,得到所述图像的目标分类结果,所述目标分类结果用于指示所述图像所属的目标类别。
在一些实施方式中,所述第一识别单元具体用于,通过分类网络基于所述特征图对所述图像进行第一次类别识别,得到所述图像的初始分类结果;
所述第二识别单元具体用于,通过反馈网络基于所述描述信息对所述图像进行第二次类别识别,得到所述图像的目标分类结果。
在一些实施方式中,所述图像分类装置还包括:
样本获取单元,用于获取训练样本,所述训练样本包括样本图像及其对应的分类标签和样本分数;
第一预测单元,用于通过分类网络对所述样本图像进行特征提取,得到所述样本图像对应的样本特征图,并基于所述样本特征图对所述样本图像进行第一次类别预测,得到预测标签和预测分数;
权值计算单元,用于根据所述样本特征图的特征位置和所述预测分数,计算所述样本特征图针对所述样本图像的类别预测的样本重要性权值;
样本聚合单元,用于根据所述样本重要性权值对所述样本特征图进行聚合,生成用于表征解释所述样本图像所属所述预测标签的样本描述信息;
第二预测单元,用于通过反馈网络基于所述样本描述信息对所述样本图像进行第二次类别预测,得到目标预测标签;
损失计算单元,用于计算所述预测标签和所述分类标签之间的差异,得到第一损失,以及计算所述目标预测标签和所述分类标签之间的差异,得到第二损失;
调整单元,用于根据所述第一损失调整所述分类网络的参数,以及根据所述第二损失调整所述反馈网络的参数,直至满足预设停止条件。
在一些实施方式中,所述样本特征图包括基于分类网络的多个特征提取层依次对所述样本图像进行特征提取,得到的各特征提取层对应的多个通道的样本特征图,
在一些实施方式中,所述样本聚合单元具体用于:
从多个特征提取层中筛选出满足预设语义条件的特征提取层,得到目标特征提取层;
根据所述目标特征提取层提取的样本特征图对应的样本重要性权值,对所述目标特征提取层的多个通道的样本特征图进行聚合,生成用于表征解释所述样本图像所属所述预测标签的样本描述信息。
在一些实施方式中,所述训练样本还包括所述样本图像对应的类别描述信息,所述第二预测单元具体用于:
基于所述类别描述信息和所述样本描述信息生成描述信息集合;
从所述描述信息集合中选择目标描述信息;
通过反馈网络基于所述目标描述信息,对所述样本图像进行第二次类别预测,得到目标预测标签。
在一些实施方式中,所述第二预测单元具体用于:
基于所述目标描述信息,生成表征所述样本图像的特征重要性分布的样本热力图;
将所述样本图像和所述样本热力图进行融合,得到融合后图像;
通过反馈网络根据所述融合后图像对所述样本图像进行第二次类别预测,得到目标预测标签。
在一些实施方式中,所述图像分类装置还包括:
搜索单元,用于根据所述目标分类结果,搜索与所述图像所属的目标类别匹配的目标图像,并对所述目标图像进行显示或推送;
存储单元,用于根据所述目标分类结果,将所述图像存储至与所述图像所属的目标类别匹配的存储空间;
生成单元,用于根据所述目标分类结果,生成与所述图像所属的目标类别匹配的内容。
根据本申请的一个方面,还提供了一种计算机设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行本申请实施例提供的任一种图像分类方法。
根据本申请的一个方面,还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序被处理器加载,以执行本申请实施例提供的任一种图像分类方法。
根据本申请的一个方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器加载,以执行本申请实施例提供的任一种图像分类方法。
本申请可以获取待分类的图像,并对图像进行特征提取,得到图像对应的特征图;然后,基于特征图对图像进行第一次类别识别,得到图像的初始分类结果,该初始分类结果包括图像所属的类别和置信度;其次,可以根据特征图的特征位置和置信度,确定特征图针对图像的类别识别的重要性权值;以及,根据重要性权值对特征图进行聚合,生成用于表征解释图像为类别的描述信息;此时,可以基于描述信息对图像进行第二次类别识别,得到图像的目标分类结果,目标分类结果用于指示图像所属的目标类别。该方案通过第一次类别识别的初始分类结果,自动化的反馈到第二次类别识别,结合了自发和反馈思考,模仿了人类思维过程,提升了图像分类的效果,并且,基于特征图的重要性权值对特征图进行聚合,生成有意义解释且更强语义表示的描述信息,帮助准确识别图像所属类别,从而实现了结合人类的反馈思维模式和机器学习的能力,通过生成描述信息来提高图像分类的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的图像分类方法应用的场景示意图;
图2是本申请实施例提供的图像分类方法的流程示意图;
图3是本申请实施例提供的分类网络和反馈网络训练的流程示意图;
图4是本申请实施例提供的图像分类方法的另一流程示意图;
图5是本申请实施例提供的分类网络和反馈网络训练的结构示意图;
图6是本申请实施例提供的分类网络和反馈网络训练的另一结构示意图;
图7是本申请实施例提供的分类网络和反馈网络训练的另一结构示意图;
图8是本申请实施例提供的反馈网络的结构示意图;
图9是本申请实施例提供的图像分类装置的示意图;
图10是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请以下描述中,涉及到“一些实施方式”,其描述了所有可能实施方式的子集,但是可以理解,“一些实施方式”可以是所有可能实施方式的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
本申请以下描述中,所涉及的术语“第一\第二”等仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
本申请实施例提供一种图像分类方法、装置、计算机设备及存储介质。
请参阅图1,图1为本申请实施例所提供的图像分类方法应用的场景示意图,该图像分类方法可以应用于计算机设备,计算机设备可以集成有本申请提供的图像分类装置,该计算机设备可以是服务器10或终端20等,该服务器10可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。服务器10与终端20之间可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。该终端20可以是手机、电脑、智能语音交互设备、智能家电、以及车载终端等。
其中,当计算机设备为服务器10时,服务器10可以接收终端20发送的待分类的图像,并对图像进行特征提取,得到图像对应的特征图;然后,基于特征图对图像进行第一次类别识别,得到包含图像所属的类别和置信度的初始分类结果,例如,可以通过分类网络对图像进行特征提取,得到图像对应的特征图,并基于特征图对图像进行第一次类别识别,得到图像的初始分类结果。其次,可以根据特征图的特征位置和置信度,确定特征图针对图像的类别识别的重要性权值;以及,根据重要性权值对特征图进行聚合,生成用于表征解释图像为类别的描述信息;此时,可以通过反馈网络基于描述信息对图像进行第二次类别识别,得到用于指示图像所属的目标类别的目标分类结果,服务器10可以将目标分类结果发送给终端20,或者服务器10可以搜索与图像所属的目标类别匹配的目标图像,并向终端20推送该目标图像,或者服务器10将图像存储至与图像所属的目标类别匹配的存储空间,或者可以生成与图像所属的目标类别匹配的内容,等等。实现了通过第一次类别识别的初始分类结果,自动化的反馈到第二次类别识别,结合了自发和反馈思考,模仿了人类思维过程,提升了图像分类的效果,并且,基于特征图的重要性权值对特征图进行聚合,生成有意义解释且更强语义表示的描述信息,帮助准确识别图像所属类别,从而实现了结合人类的反馈思维模式和机器学习的能力,通过生成描述信息来提高图像分类的准确性。
需要说明的是,图1所示的图像分类方法应用的场景示意图仅仅是一个示例,本申请实施例描述的图像分类方法应用以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着图像分类方法应用的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请中,可以采用人工智能学习方式实现对图像进行分类,提高了图像分类的准确性。需要说明的是,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能、感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括机器学习(Machine Learning, ML)技术,其中,深度学习(Deep Learning,DL)是机器学习中一个新的研究方向,它被引入机器学习以使其更接近于最初的目标,即人工智能。目前,深度学习主要应用在机器视觉、语音处理技术、自然语言处理等领域。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及意向程度论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
在本实施例中,将从图像分类装置的角度进行描述,该图像分类装置具体可以集成在服务器或终端等计算机设备中。
请参阅图2,图2是本申请一实施例提供的图像分类方法的流程示意图。该图像分类方法可以包括步骤S101至步骤S105等。
S101、获取待分类的图像,并对图像进行特征提取,得到图像对应的特征图。
其中,待分类的图像中可以包含人物、建筑物、动物或植物等一种或多种对象,可以基于图像中包含的对象的类型对图像进行分类,或者可以基于图像的风格对图像进行分类,或者可以基于图像中包含的特征对图像进行分类等,在此不做限定。
待分类的图像的获取方式可以包括:接收终端发送的图像,将接收到的图像作为待分类的图像;或者,通过摄像头采集图像,将采集到的图像作为待分类的图像;或者,从本地图像库中获取待分类的图像;或者,向服务器发送图像获取请求,接收服务器响应于图像获取请求返回的图像,将接收到的图像作为待分类的图像,等等;当然,还可以通过其他方式获取待分类的图像,在此不做限定。
在得到待分类的图像后,可以提取图像对应的特征图,在一些实施方式中,对图像进行特征提取,得到图像对应的特征图,包括:通过分类网络的特征提取层对图像进行特征提取,得到多个通道的特征图。
其中,分类网络可以称为分类器或分类模型等,分类网络的具体网络结构可以根据实际需求进行灵活设置,在此不做限定,例如,分类网络可以是卷积神经网络(VisualGeometry Group,VGG)、残差网络(Residual Network,ResNet)或生成对抗网络(Generative Adversarial Network,GAN)等。
具体地,可以通过分类网络的特征提取层对图像进行特征提取,得到多个通道的特征图,当特征提取层有多层时,每个特征提取层均包含多个通道,针对每个特征提取层均可得到多个通道的特征图,或者针对每个特征提取层均可得到对应的一个特征图,多个特征提取层可以提取得到多个特征图,等等,当然,多个特征图还可以通过其他方式获取,在此不做限定。
S102、基于特征图对图像进行第一次类别识别,得到图像的初始分类结果,初始分类结果包括图像所属的类别和置信度。
在得到特征图后,可以基于特征图对图像进行第一次类别识别,得到图像的初始分类结果,在一些实施方式中,基于特征图对图像进行第一次类别识别,得到图像的初始分类结果,包括:通过分类网络基于特征图对图像进行第一次类别识别,得到图像的初始分类结果,该初始分类结果可以包括识别得到的图像所属的类别和置信度等信息,该置信度可以是图像所属的该类别的分数。
为了提高对图像进行类别识别的准确性,可以预先对分类网络和反馈网络进行训练,在一些实施方式中,如图3所示,通过分类网络基于特征图对图像进行第一次类别识别,得到图像的初始分类结果之前,图像分类方法还包括步骤S21至步骤S27等。
S21、获取训练样本,训练样本包括样本图像及其对应的分类标签和样本分数。
其中,训练样本可以包括样本图像及其对应的分类标签、样本分数和其他信息等,样本图像中可以包含人物、建筑物、动物或植物等一种或多种对象,样本图像可以包括多张,每张样本图像均对应有分类标签和样本分数等。该分类标签可以用于指示样本图像所属的真实类别,该样本分数可以是逻辑值(logits)或真实分数等。
训练样本的获取方式可以包括:通过摄像头采集多张图像,将采集到的多张图像作为样本图像,并为每张样本图像设置分类标签和样本分数,根据多张样本图像及其对应的分类标签和样本分数生成训练样本。或者,从图像库中获取多张图像,将获取到的多张图像作为样本图像,并为每张样本图像设置分类标签和样本分数,根据多张样本图像及其对应的分类标签和样本分数生成训练样本,等等;当然,还可以通过其他方式获取训练样本,在此不做限定。
S22、通过分类网络对样本图像进行特征提取,得到样本图像对应的样本特征图,并基于样本特征图对样本图像进行第一次类别预测,得到预测标签和预测分数。
在得到样本图像后,可以通过分类网络(即待训练的分类网络)对样本图像进行特征提取,得到样本图像对应的样本特征图,例如,可以通过分类网络的多个特征提取层依次对样本图像进行特征提取,得到各特征提取层对应的多个通道的样本特征图,即当分类网络的特征提取层有多层时,每个特征提取层均包含多个通道,针对每个特征提取层均可得到多个通道的样本特征图,或者针对每个特征提取层均可得到对应的一个样本特征图,多个特征提取层可以提取得到多个样本特征图,等等。
在得到样本特征图后,可以通过分类网络基于样本特征图对样本图像进行第一次类别预测,得到预测标签和预测分数等预测结果,该预测标签用于指示预测得到的样本图像所属的预测类别,该预测分数可以是logits值或预测分数等,该logits值可以是在进行softmax操作之前的得分,即logits值可以是分类网络输出层的原始(未归一化的)预测分数,logits可以用来衡量输入的样本图像属于某个类别的可能性。
S23、根据样本特征图的特征位置和预测分数,计算样本特征图针对样本图像的类别预测的样本重要性权值。
在得到样本特征图后,可以根据样本特征图中的特征位置和预测分数,计算样本特征图针对样本图像的类别预测的样本重要性权值,该特征位置可以是特征图中神经元的位置,每个特征图可以是一个二维数组,其中每个元素/>的索引/>指的是这个特征图上的特征位置。
具体地,在进行第一次类别预测时可以获得一个类别判别性及位置敏感的解释,其中u表示样本特征图的高度,v表示样本特征图的宽度,d表示样本特征图的深度(或通道数),使用具有K个特征图/>的卷积层L进行解释,其中每个元素的索引为。即/>指的是样本特征图/>中的位置/>,预测分数为类别/>的得分(在softmax之前)。可以通过对神经元的激活空间维度高度和宽度进行全局平均池化,使用索引/>来计算神经元的重要性权值(即样本特征图的重要性权值)。其中,样本重要性权值的计算公式可以如下公式(1)所示。
(1)
其中,表示第k个特征图对应的样本重要性权值,其表示特征图k对于目标类别c的重要性,/>表示预测分数,/>表示样本特征图/>中的位置/>,Z是一个标准化常数,Z的具体取值可以根据实际需求进行灵活设置,在此不做限定。
S24、根据样本重要性权值对样本特征图进行聚合,生成用于表征解释样本图像所属预测标签的样本描述信息。
在得到样本重要性权值后,可以根据样本重要性权值对样本特征图进行聚合,生成用于表征解释样本图像所属预测标签的样本描述信息,例如,可以通过分类器根据样本重要性权值对K个样本特征图进行聚合,生成用于表征解释样本图像所属预测标签的样本描述信息,该样本描述信息可以是有意义的解释信息(可以简称为解释),该解释信息可以用于解释样本图像为某种类别的理由,例如,解释该样本图像为什么是马的图像。
为了使得样本描述信息包含更丰富的语义信息,可以对需要聚合的样本特征图进行筛选,在一些实施方式中,样本特征图包括基于分类网络的多个特征提取层依次对样本图像进行特征提取,得到的各特征提取层对应的多个通道的样本特征图,根据样本重要性权值对样本特征图进行聚合,生成用于表征解释样本图像所属预测标签的样本描述信息,包括:
从多个特征提取层中筛选出满足预设语义条件的特征提取层,得到目标特征提取层;
根据目标特征提取层提取的样本特征图对应的样本重要性权值,对目标特征提取层的多个通道的样本特征图进行聚合,生成用于表征解释样本图像所属预测标签的样本描述信息。
具体地,首先,可以从多个特征提取层中筛选出满足预设语义条件的特征提取层,得到目标特征提取层,该目标特征提取层可以包括多层,该目标特征提取层可以是输入层之后和输出层之前的中间层,例如在卷积神经网络(CNN)中,这些中间层可以包括卷积层、池化层和全连接层等。预设语义条件可以根据实际需求进行灵活设置,在此不做限定。
然后,可以根据目标特征提取层提取的样本特征图对应的样本重要性权值,对目标特征提取层的多个通道的样本特征图进行聚合,生成用于表征解释样本图像所属预测标签的样本描述信息。例如,针对每个目标特征提取层,均对其多个通道的样本特征图进行聚合,从而得到每个目标特征提取层对应的样本描述信息。又例如,针对每个目标特征提取层,均对其多个通道的样本特征图进行聚合,得到每个目标特征提取层对应的样本描述信息,再对每个目标特征提取层对应的样本描述信息进行聚合,得到样本图像的样本描述信息。通过聚合样本特征图可以生成包含丰富信息的样本描述信息,不仅可以更直观地理解模型关注的区域,而且减少样本特征图的数量可以降低模型的复杂性,从而降低过拟合的风险,提高图像分类的准确性。
其中,可以利用样本重要性权值聚合(假设/>为整数)个特征图(即筛选出的多个通道的样本特征图),得到样本描述信息,其计算公式可以如下公式(2)所示。
(2)
其中,表示第/>个样本描述信息(即解释信息,可以热力图形式存在),/>表示第k个特征图对应的样本重要性权值,/>表示第k个特征图。
S25、通过反馈网络基于样本描述信息对样本图像进行第二次类别预测,得到目标预测标签。
其中,反馈网络的具体结构可以根据实际需求进行灵活设置,在此不做限定,例如,反馈网络可以是在分类网络的(如残差网络ResNet或卷积神经网络VGG等)的基础结构上进行扩展,增加额外的层(如解释层)来处理解释性(即样本描述信息)的任务。
在得到样本描述信息后,可以通过反馈网络基于样本描述信息对样本图像进行第二次类别预测,得到目标预测标签。为了提高预测的准确性,在一些实施方式中,训练样本还包括样本图像对应的类别描述信息,通过反馈网络基于样本描述信息对样本图像进行第二次类别预测,得到目标预测标签,包括:
基于类别描述信息和样本描述信息生成描述信息集合;
从描述信息集合中选择目标描述信息;
通过反馈网络基于目标描述信息,对样本图像进行第二次类别预测,得到目标预测标签。
具体地,训练样本还可以包括样本图像对应的类别描述信息,该类别描述信息可以包括针对多个不同类别的解释,例如,样本图像为什么是狗图像的解释,样本图像为什么是猫图像的解释,样本图像为什么是马图像的解释,等等。可以基于类别描述信息和样本描述信息生成描述信息集合,其中,,可以表示具有n个类别的描述信息集合(即解释集合),correct表示解释是“正确的”,即正确类别的真实解释,predicted表示分类网络预测类别得到的预测解释(即样本描述信息),Random表示其他类别的解释,该其他类别的解释可以包括多种类别的解释。然后,可以从描述信息集合中随机选择或者按照预设策略选择,一个或多个目标描述信息,此时可以通过反馈网络基于一个或多个目标描述信息,对样本图像进行第二次类别预测,得到目标预测标签。
在一些实施方式中,通过反馈网络基于目标描述信息,对样本图像进行第二次类别预测,得到目标预测标签,包括:
基于目标描述信息,生成表征样本图像的特征重要性分布的样本热力图;
将样本图像和样本热力图进行融合,得到融合后图像;
通过反馈网络根据融合后图像对样本图像进行第二次类别预测,得到目标预测标签。
其中,热力图可以通过颜色的深浅来表示特征的密度或重要性,例如通过不同颜色区分显示模型关注的区域,颜色越深,关注度越强,说明重要性越大,反之,颜色越浅,关注度越弱,说明重要性越小。在得到目标描述信息后,可以基于目标描述信息生成表征样本图像的特征重要性分布的样本热力图,然后,可以通过反馈网络将样本图像和样本热力图进行融合,得到融合后图像,该融合后图像可以称为属性图,该属性图可以用于显示输入的样本图像的某些属性或特性,可以用于解释模型(如分类网络)的决策。此时,可以通过反馈网络根据融合后图像对样本图像进行第二次类别预测,得到包含目标预测标签的预测结果。通过样本图像和样本热力图的融合后进行类别预测,可以提高类别预测的准确性。
S26、计算预测标签和分类标签之间的差异,得到第一损失,以及计算目标预测标签和分类标签之间的差异,得到第二损失。
例如,在通过第一次类别预测得到预测标签,以及通过第一次类别预测得到目标预测标签后,可以通过第一损失函数(如交叉熵损失函数)算预测标签和分类标签之间的差异,得到第一损失,以及通过第二损失函数计算目标预测标签和分类标签之间的差异,得到第二损失。
S27、根据第一损失调整分类网络的参数,以及根据第二损失调整反馈网络的参数,直至满足预设停止条件。
其中,预设停止条件可以根据实际需求进行灵活设置,例如,预设停止条件可以是损失最小化或迭代次数达到预设次数等,在此不做限定,该预设次数可以根据实际需求进行灵活设置,在此不做限定。
例如,在计算得到第一损失和第二损失后,可以根据第一损失调整分类网络的参数,以及根据第二损失调整反馈网络的参数,直至损失最小化或迭代次数达到预设次数,停止训练,从而完成对分类网络和反馈网络的训练。通过结合人类的反馈思维模式和机器学习的预测能力,以及生成具有解释功能的样本描述信息来提高反馈网络预测的准确性和可解释性。
S103、根据特征图的特征位置和置信度,确定特征图针对图像的类别识别的重要性权值。
在得到图像的特征图以及置信度后,可以按照上述公式(1)计算重要性权值,即根据特征图的特征位置和置信度,计算特征图针对图像的类别识别的重要性权值。
S104、根据重要性权值对特征图进行聚合,生成用于表征解释图像为类别的描述信息。
在得到重要性权值后,可以根据重要性权值对特征图进行聚合,生成用于表征解释图像为类别的描述信息,该描述信息可以称为解释信息(可以简称为解释),该解释信息可以用于解释图像为某种类别的理由,例如,解释该图像为什么是马的图像。在一些实施方式中,特征图可以包括基于分类网络的多个特征提取层依次对图像进行特征提取,得到的各特征提取层对应的多个通道的特征图,根据重要性权值对特征图进行聚合,生成用于表征解释图像为类别的描述信息,包括:
从多个特征提取层中筛选出满足预设语义条件的特征提取层,得到目标特征提取层;
根据目标特征提取层提取的特征图对应的重要性权值,对目标特征提取层的多个通道的特征图进行聚合,生成用于表征解释图像所属预测标签的描述信息。
其中,目标特征提取层可以包括多层,该目标特征提取层可以是输入层之后和输出层之前的中间层,预设语义条件可以根据实际需求进行灵活设置,在此不做限定。首先,从多个特征提取层中筛选出满足预设语义条件的特征提取层,得到目标特征提取层,然后,可以根据目标特征提取层提取的特征图对应的重要性权值,对目标特征提取层的多个通道的特征图进行聚合,生成用于表征解释图像所属预测标签的描述信息,可以按照上述公式(2)计算得到描述信息。例如,针对每个目标特征提取层,均对其多个通道的特征图进行聚合,从而得到每个目标特征提取层对应的描述信息。又例如,针对每个目标特征提取层,均对其多个通道的特征图进行聚合,得到每个目标特征提取层对应的描述信息,再对每个目标特征提取层对应的描述信息进行聚合,得到图像的样本描述信息。通过聚合特征图生成包含丰富信息的描述信息,可以提高图像分类的准确性。
S105、基于描述信息对图像进行第二次类别识别,得到图像的目标分类结果,目标分类结果用于指示图像所属的目标类别。
在得到描述信息后,可以基于描述信息对图像进行第二次类别识别,得到用于指示图像所属的目标类别的目标分类结果,在一些实施方式中,基于描述信息对图像进行第二次类别识别,得到图像的目标分类结果,包括:通过反馈网络基于描述信息对图像进行第二次类别识别,得到图像的目标分类结果。
在一些实施方式中,通过反馈网络基于描述信息对图像进行第二次类别识别,得到图像的目标分类结果,包括:基于描述信息生成表征图像的特征重要性分布的热力图;将图像和热力图进行融合,得到融合后属性图;通过反馈网络根据融合后属性图对图像进行第二次类别识别,得到图像的目标分类结果。
例如,可以基于描述信息生成表征图像的特征重要性分布的热力图,该热力图中颜色越深的区域,说明该区域重要性越大,反之,颜色越浅的区域,说明该区域重要性越小。然后可以通过反馈网络将图像和热力图进行融合,得到融合后属性图,该融合后属性图用于显示输入的图像的某些属性或特性,可以用于解释网络的决策;此时,可以通过反馈网络根据融合后属性图对图像进行第二次类别识别,得到图像的目标分类结果。通过将图像和热力图的融合后进行类别识别,可以提高识别的准确性。
在一些实施方式中,基于描述信息对图像进行第二次类别识别,得到图像的目标分类结果之后,图像分类方法还包括:
根据目标分类结果,搜索与图像所属的目标类别匹配的目标图像,并对目标图像进行显示或推送;或者,
根据目标分类结果,将图像存储至与图像所属的目标类别匹配的存储空间;或者,
根据目标分类结果,生成与图像所属的目标类别匹配的内容。
针对不同的应用场景,可以基于得到的目标分类结果对图像进行不同的处理,例如,针对智能搜索的应用场景,可以根据目标分类结果,搜索与图像所属的目标类别匹配的目标图像,并对目标图像进行显示,从而可以帮助搜索引擎更准确地识别和分类图像,从而提高搜索结果的质量和准确性。
又例如,针对商品推送的应用场景,可以根据目标分类结果,搜索与图像所属的目标类别匹配的目标图像,该目标图像为商品图像,将目标图像推送给终端,从而可以帮助电子商务平台自动识别和分类商品图像,提高了商品搜索和推送的准确性和效率。
又例如,针对图像存储的应用场景,可以根据目标分类结果,确定与图像所属的目标类别匹配的存储空间,并将图像存储至与图像所属的目标类别匹配的存储空间,从而可以帮助社交媒体等图像存储平台自动识别和分类图像进行存储,从而提高图像存储的效率。
又例如,针对内容推送的应用场景,可以根据目标分类结果,生成与图像所属的目标类别匹配的内容(如广告),从而可以自动识别并生成符合需求的内容,提高内容创意的制作效率。
本申请实施例可以获取待分类的图像,并对图像进行特征提取,得到图像对应的特征图;然后,基于特征图对图像进行第一次类别识别,得到图像的初始分类结果,该初始分类结果包括图像所属的类别和置信度;其次,可以根据特征图的特征位置和置信度,确定特征图针对图像的类别识别的重要性权值;以及,根据重要性权值对特征图进行聚合,生成用于表征解释图像为类别的描述信息;此时,可以基于描述信息对图像进行第二次类别识别,得到图像的目标分类结果,目标分类结果用于指示图像所属的目标类别。该方案通过第一次类别识别的初始分类结果,自动化的反馈到第二次类别识别,结合了自发和反馈思考,模仿了人类思维过程,提升了图像分类的效果,并且,基于特征图的重要性权值对特征图进行聚合,生成有意义解释且更强语义表示的描述信息,帮助准确识别图像所属类别,从而实现了结合人类的反馈思维模式和机器学习的能力,通过生成描述信息来提高图像分类的准确性。
根据上述实施例所描述的方法,以下将举例作进一步详细说明。
本实施例以图像分类装置集成在服务器为例,请参阅图4,图4为本申请实施例提供的图像分类方法的流程示意图。该方法流程可以包括:
S201、在训练阶段,服务器获取训练样本,训练样本包括样本图像及其对应的分类标签、样本分数和类别描述信息。
其中,该分类标签可以用于指示样本图像所属的真实类别,该样本分数可以是逻辑值(logits)或真实分数等,该类别描述信息可以包括对样本图像所属的真实类别进行解释的解释信息和对其他类别进行解释的解释信息等,该解释信息可以包括像素的低级细节或者更有语义意义的高级特征等的解释。例如,如果解释信息主要突出图像的局部纹理或边缘,则可能是基于像素的低级细节的解释;如果解释信息突出了物体的整体形状或部分,则可能是基于高级特征的解释。
S202、服务器通过分类网络对样本图像进行特征提取,得到样本图像对应的样本特征图,并基于样本特征图对样本图像进行第一次类别预测,得到预测标签和预测分数。
如图5所示,服务器通过分类网络的特征提取层对样本图像进行特征提取,得到样本图像对应的样本特征图,并通过分类网络的分类层基于样本特征图对样本图像进行第一次类别预测,得到预测标签和预测分数等预测结果。
该预测标签用于指示预测得到的样本图像所属的预测类别,该预测分数可以是logits值或预测分数等,该logits值可以是在进行softmax操作之前的得分,即logits值可以是分类网络输出层的原始(未归一化的)预测分数,logits可以用来衡量输入的样本图像属于某个类别的可能性。
其中,特征图可以是深度学习中用于理解网络决策过程的重要概念,可以是由分类网络中的某一层输出的一组矩阵,其中每个矩阵都对应输入图像的一个不同的特征,这些特征描述了图像不同区域的抽象视觉概念,比如边缘、纹理和形状等。特征图可以显示网络在某一层如何“看到”输入,显示了输入图像在该层的表示或特征,例如在对图像分类的分类网络中,浅层的特征图可能捕捉边缘和纹理,而更深层的特征图可能捕捉更高级的、具有语义的特征。
分类网络可以是卷积神经网络VGG或对抗网络GAN等,其中,VGG的网络结构可以包括多个卷积层和全连接层,可以用于图像分类任务。在VGG中,卷积层中的卷积核大小可以是3x3,并采用相同SAME填充方式以保持输入和输出的大小一致,此外此外VGG具有非常深的结构,网络深度可以高达16层甚至19层,VGG的结构可以用作其他神经网络结构的基础。GAN可以由两个神经网络组成:生成器网络和判别器网络。其中,生成器网络接受随机的输入噪声,然后尝试生成与真实数据类似的数据,而判别器网络则接受真实数据和生成器生成的数据,并尝试区分哪些是真实的,哪些是生成的。生成器和判别器网络相互竞争,一方面生成器网络试图骗过判别器网络,另一方面判别器网络试图区分真实数据和生成数据,通过这种方式GAN可以产生高质量、原始、具有多样性的数据,因此在图像生成、图像分类、图像转换和图像增强等任务上有广泛应用。
在完成第一次类别预测后,可以利用第一次类别预测的预测结果进行自我反馈到第二次类别预测,从而结合自发和反馈思考,模仿了人类思维过程,通过结合人类的反馈思维模式和机器学习的能力生成解释来提高分类网络和反馈网络训练的准确性和可靠性。
其中,自我反馈是指通过自身产生的解释来提高分类网络的性能,进而改进深度学习模型(可以称为深度学习网络或机器学习模型等,如分类网络和反馈网络)。自我反馈包括自发和反馈性思考,模拟了人类的思维过程。通过生成解释技术生成的大量解释信息,可以增强深度学习模型的原始输入,实现多模态数据增强,以提高模型性能。自我反馈的重要优点包括会产生对于输入类别的多个假设,以及能够帮助网络识别给定输入的正确和不正确的解释,并将其转换为正确的结果,从而提高分类精度和训练效率,可以为深度学习应用自我反馈的学习过程以及学习解释打开新的途径。
本申请建立在人类推理的基本概念上,人类包括两种不同的思维模式:(i)快速、无意识、本能的系统用于确定物体的相对距离,和(ii)缓慢、有意识、深思熟虑的系统用于集中注意力在拥挤、嘈杂的环境中特定的人物上。受到这个想法的启发,扩展了深度学习中的经典推理方法,将基于单个(快速)前向传递的经典深度学习推理扩展到利用解释的更具反馈的推理过程。使用一种经过调整的可解释性方法从神经网络的输出层向后传播解释。然后使用解释和输入一起做出最终决策。将解释快速预测,并结合原始输入和解释快速预测来做出最终决策的过程称为“反馈”。
生成解释技术是指通过可解释的技术,为机器学习模型生成解释(即样本描述信息),以帮助理解机器学习模型(简称模型,如分类网络和反馈网络)的决策过程。这些解释可以提供关于模型行为的丰富信息,可以为模型决策提供支持,同时还可以用于改进机器学习模型(如分类网络和反馈网络)的性能。在深度学习中,生成解释技术可以生成对输入图像各像素的重要程度的热力图来解释模型的分类决策过程,提高了模型的可解释性和可靠性,并将反馈和自我增强过程引入模型的学习中,提升了模型的性能。其核心思想包括:人类既有快速、直观的决策能力,也能够思考自己的思维过程并可以从解释中得到反馈用于学习,因此本申请使用可解释性方法生成解释来模拟这一过程的潜力,通过对机器学习模型的理解,提供关于模型行为的大量信息,可以为每个输入生成多个解释,并利用这些解释来理解机器学习模型所做的决策。经过实际数据验证,在多个图像分类数据集和网络架构中,将解释与类别标签相结合可以显著提高分类准确性和训练效率。
S203、服务器根据样本特征图的特征位置和预测分数,计算样本特征图针对样本图像的类别预测的样本重要性权值。
其中,该特征位置可以是特征图中神经元的位置,每个特征图可以是一个二维数组,其中每个元素/>的索引/>指的是这个特征图上的位置。
样本重要性权值可以称为权重,可以基于样本特征图的样本重要性权值生成注意力图,注意力图用于显示模型在进行决策时关注的区域,该注意力图是指通过对分类网络中间层的通道进行整合,得到样本特征图中针对每个像素位置的类别判别影响因素,以此来解释分类网络决策的可解释性技术,通过此技术可以帮助分类网络产生更好的性能。其基本思想是为输入的每个样本特征图分配一个权重,这个权重表示该样本特征图对于输出的重要性,通过注意力机制产生这样的权重,然后可以将这些权重可视化为图像,形成注意力图,即注意力图可以根据模型内部的注意力权重生成。
具体地,在进行第一次类别预测时可以获得一个类别判别性及位置敏感的解释,其中u表示样本特征图的高度,v表示样本特征图的宽度,d表示样本特征图的深度(或通道数),使用具有K个特征图/>的卷积层L进行解释,其中每个元素的索引为。即/>指的是样本特征图/>中的位置/>,预测分数为类别/>的得分(在softmax之前)。可以按照上述公式(1)根据样本特征图的特征位置和预测分数,计算样本特征图针对样本图像的类别预测的样本重要性权值,即通过对神经元的激活空间维度高度和宽度进行全局平均池化,使用索引/>来计算神经元的重要性权值(即样本特征图的重要性权值)。
S204、服务器根据样本特征图对应的样本重要性权值,对目标样本特征图进行聚合,生成用于表征解释样本图像所属预测标签的样本描述信息。
其中,该样本描述信息可以是有意义的解释信息,该解释信息可以用于解释样本图像为某种类别的理由,例如,解释该样本图像为什么是马的图像。
服务器可以从多个特征提取层中筛选出满足预设语义条件的特征提取层,得到目标特征提取层,该目标特征提取层可以包括多层,该目标特征提取层可以是输入层之后和输出层之前的中间层,例如在卷积神经网络(CNN)中,这些中间层包括卷积层、池化层和全连接层等,中间层也称为隐含层或中间特征层,其包含了丰富的信息,这些信息可以捕捉图像或其他数据的空间结构和模式等。例如,可以筛选出具有高级语义特征的中间层作为目标特征提取层,或者,筛选出信息量大于预设阈值的中间层作为目标特征提取层,或者,通过注意力机制筛选出重要性权值较大的中间层作为目标特征提取层,等等。
然后,服务器可以根据目标特征提取层提取的样本特征图对应的样本重要性权值,对目标特征提取层的多个通道的样本特征图进行聚合,生成用于表征解释样本图像所属预测标签的样本描述信息。例如,针对每个目标特征提取层,均对其多个通道的样本特征图进行聚合,从而得到每个目标特征提取层对应的样本描述信息。又例如,针对每个目标特征提取层,均对其多个通道的样本特征图进行聚合,得到每个目标特征提取层对应的样本描述信息,再对每个目标特征提取层对应的样本描述信息进行聚合,得到样本图像的样本描述信息。通过聚合样本特征图生成包含丰富信息的样本描述信息,以便获得更高级和更具描述性的特征表示,不仅可以更直观地理解模型关注的区域,避免多个特征图之间可能存在冗余信息,使模型更加紧凑,提高后续计算效率,而且减少样本特征图的数量可以降低模型的复杂性,从而降低过拟合的风险,提高图像分类的准确性。
其中,服务器可以基于样本描述信息生成显示特征的某种分布或重要性的热力图,通过热力图提供对模型预测的可视化解释,帮助理解模型为什么会做出这样的预测,热力图是一种可视化图,用于显示数据的强度或频率在二维平面上的分布。例如深度学习模型的解释中,热力图可以用于显示输入图像中哪些部分最重要或最不重要。服务器可以按照上述公式(2)利用样本重要性权值聚合多个特征图,得到一个深度为L的热度图。实现了通过聚合简化抽象解释,其中,聚合是指可以将来自不同源的信息或特征组合在一起。简化是指通过聚合让大量的信息被合并为一个更简洁的形式,使得输出的表示更加简洁且容易理解。抽象解释是指在神经网络中,初级层可能直接关注像素级的细节,而更高级的层则可能关注更为抽象的概念(如物体的部分或整体形状),通过聚合和简化,可以从低级的、具体的表示中提取出这些更高级、更抽象的概念,并给出一个抽象的解释。即可以将网络中的大量信息或特征聚合起来,得到一个简化且更抽象的表示,从而使得解释更为简明和高级,有助于理解网络的决策,从而提高分类的准确性。
S205、服务器基于类别描述信息和样本描述信息生成描述信息集合,并从描述信息集合中选择目标描述信息。
服务器可以基于类别描述信息和样本描述信息生成描述信息集合,其中,/>,可以表示具有n个类别的描述信息集合(即解释集合),correct表示解释是“正确的”,即正确类别的真实解释,predicted表示分类网络预测类别得到的解释(即样本描述信息),Random表示其他类别的解释,该其他类别可以包括多种类别,可以通过用于获取解释的网络进行微调,从而实现自我反馈,产生其他类别的解释;或者可以使用随机初始化和来自其他网络的解释从头开始训练反馈网络的过程中,产生其他类别的解释;或者该解释可以是随机噪声,每个噪声值在每次迭代中均匀随机选择,对反馈网络进行训练,提高反馈网络的鲁棒性。
其中,的集合中所有类别的解释的子集可以是静态的或动态的,即/>中的解释在训练反馈网络/>的分类器/>使用之前可以进行预计算得到,该解释在整个训练过程中可以保持不变或动态调整,特别是考虑/>包含随机选择的类别的解释,这样可以在所有可能的类别中随机选择一个类别,针对每个样本图像X为/>集合并在整个训练中保持相同的类别。在一些实施方式中,对于训练过程中,可以使用分类网络预测的解释/>,可以使得/>。
具体地,服务器可以从描述信息集合中随机选择或者按照预设策略选择,一个或多个目标描述信息,例如,可以从[1,n]描述信息集(即解释集合)中随机选择的一个类别的解释,在训练开始之前,如果,则可以为每个样本X随机且独立地选择一个随机类/>,并将此解释用于/>进行第二次类别预测。每个样本图像X获得一组解释/>,在训练过程中,集合/>可以保持静态,而在每个训练周期,样本X与集合/>的随机解释一起用于训练,其中,解释集合中可以包含一个或多个解释,甚至可以包含重复解释。
需要说明的是,本申请不仅使用正确的预测类别的解释,也使用其他错误类别的解释,并通过数据增强来丰富数据,从而使得反馈网络输出可能的预测结果,使得反馈网络可以从正确和错误预测的解释中学习,基于错误或正确预测的反馈都会给反馈网络训练带来更好的结果。例如,如图6所示,针对输入马的图像,在通过分类网络第一次类别预测得到错误预测,基于该错误预测将马的解释和马的图像输入反馈网络进行第二次类别预测得到正确预测。又例如,如图7所示,针对输入马的图像,在通过分类网络第一次类别预测得到正确预测,基于该正确预测将马的解释和马的图像输入反馈网络进行第二次类别预测得到正确预测。
S206、服务器将目标描述信息和样本图像输入反馈网络,通过反馈网络融合样本图像和目标描述信息,得到融合后图像,并根据融合后图像对样本图像进行第二次类别预测,得到目标预测标签。
服务器可以通过反馈网络基于一个或多个目标描述信息,对样本图像进行第二次类别预测,得到目标预测标签。例如,可以将目标描述信息和样本图像输入反馈网络,通过反馈网络融合样本图像和目标描述信息,得到融合后图像,并根据融合后图像对样本图像进行第二次类别预测,得到目标预测标签。通过目标描述信息(即解释)和样本图像的融合,可以实现多模态数据增强,在训练网络时使用解释数据来增强数据,可以提高分类准确性和训练效率,并且通过反馈和解释自动学习,使反馈网络自动学习和性能得到提高。
例如,在得到目标描述信息后,服务器可以基于目标描述信息生成表征样本图像的特征重要性分布的样本热力图,其中,热力图是一种强度可视化图,可以用颜色来表示特征的密度或重要性,例如通过不同颜色区分显示模型关注的区域,颜色越深,关注度越强,说明重要性越大,表示对网络决策最重要的区域,反之,颜色越浅,关注度越弱,说明重要性越小。然后,可以通过反馈网络将样本图像和样本热力图进行融合,得到融合后图像,该融合后图像可以称为属性图,该属性图可以是一种可视化图,用于显示输入的样本图像的某些属性或特性,可以用于解释模型的决策。此时,可以通过反馈网络根据融合后图像对样本图像进行第二次类别预测,得到包含目标预测标签的预测结果。通过样本图像和样本热力图的融合后进行类别预测,可以提高预测的准确性。
需要说明的是,当样本图像和样本热力图之间的尺寸空间维度不匹配时,可以对样本图像和样本热力图两者中尺寸空间维度较小者进行上采样,得到尺寸空间维度匹配的样本图像和样本热力图,或者对样本图像和样本热力图两者中尺寸空间维度较大者进行下采样,得到尺寸空间维度匹配的样本图像和样本热力图,然后将样本图像和样本热力图进行融合,融合后图像可以通过使用解释性方法来生成,来帮助理解图像的分类结果,并进一步提高分类器的准确性和训练效率。
其中,反馈网络可以是在分类网络的(如残差网络ResNet或卷积神经网络VGG等)的基础结构上进行扩展,增加额外的解释层来处理解释性(即样本描述信息)的任务,使得反馈网络能够在原始分类任务的基础上提供额外的解释性信息的处理。该反馈网络可以是经过预训练的网络,也可以是未经过预训练的网络,在此不做限定。
如图8所示,展示了VGG作为反馈网络示例,一个VGG网络通过解释得以扩展为一个带有解释的网络,解释通过两个卷积层传递,输出到VGG网络,并且每个卷积层后面可以接一个贝叶斯网络(BN)和一个激活层(Relu)。即反馈网络与分类网络/>可以具有相同的基本架构,但增加了一些额外的层以适应解释,例如,可以将解释添加到反馈网络的解释层(该解释层由两个卷积层组成),首先使用两个顺序卷积层对解释进行处理,每个卷积层后跟批量归一化和激活层ReLU,第二个卷积层的结果附加到用于计算解释的层上,以对齐空间维度,经过一系列卷积、池化及全连接等操作后输出类别预测结果,通过对齐空间维度是确保来自不同来源或处于不同尺寸的数据可以在空间上匹配并进行有效的操作或融合。可以使用与分类网络/>类似的设置来训练此反馈网络/>,只不过反馈网络/>输入由样本X和解释/>(样本描述信息)。
具体地,如图5所示,首先服务器可以通过分类网络对输入的样本图像进行第一次类别预测,然后对这个预测或其他可能的结果进行推理,得出一个解释,这个解释和样本图像可以输入反馈网络进行第二次类别预测。反馈还涉及考虑和设想不同的预测,例如网络可能会被给予正确类别的解释,即使它预测了一个错误的类别,使得每个样本的解释可以具有多样性。在训练过程中为了防止反馈网络过度依赖解释,需要同时使用样本图像随解释一起输入反馈网络进行第二次类别预测。此外解释的信息量是网络决策的关键因素,可以通过阈值和置信度等方式控制每个解释的信息量,得到更具信息量的解释。其中,解释可以具有多个通道的空间范围和深度,该空间范围可以是数据在宽度、高度和深度(如彩色图像中的RGB通道)等维度上的范围或覆盖面积。在计算机视觉中,空间范围可以指图像的像素分辨率,例如256x256的图像比128x128的图像有更大的空间范围。对于卷积神经网络,空间范围还可以指的是滤波器或卷积核的尺寸,如3x3或5x5。该深度可以是模型的层数,例如一个深度为10的模型有10层,而深度为100的模型有100层。此外该解释可以提供更高级别的抽象,或更具有语义的物体特征,而不仅仅是单个像素,使得解释关注于更具有语义意义的或者中间层次的表示,可以充分利用语义或者深度维度。
S207、服务器计算预测标签和分类标签之间的差异,得到第一损失,以及计算目标预测标签和分类标签之间的差异,得到第二损失;
例如,服务器可以通过第一损失函数(如交叉熵损失函数)算预测标签和分类标签之间的差异,得到第一损失,以及通过第二损失函数计算目标预测标签和分类标签之间的差异,得到第二损失。
S208、服务器根据第一损失调整分类网络的参数,以及根据第二损失调整反馈网络的参数,直至满足预设停止条件。
服务器可以根据第一损失调整分类网络的参数,以及根据第二损失调整反馈网络的参数,直至损失最小化或迭代次数达到预设次数,停止训练,从而完成对分类网络和反馈网络的训练。通过结合人类的反馈思维模式和机器学习的预测能力,通过生成具有解释功能的样本描述信息来提高反馈网络的预测准确性,可以增强模型的泛化能力、可信度和可解释性。
S209、在应用阶段,服务器接收终端发送的待分类的图像。
S210、通过分类网络对图像进行特征提取,得到图像对应的特征图,并基于特征图对图像进行第一次类别识别,得到包含图像所属的类别和置信度的初始分类结果。
例如,服务器可以通过分类网络的特征提取层对图像进行特征提取,得到多个特征图。
S211、服务器根据特征图的特征位置和置信度,计算特征图针对图像的类别识别的重要性权值。
S212、服务器根据重要性权值对特征图进行聚合,生成用于表征解释图像为类别的描述信息。
例如,服务器可以从多个特征图中筛选出满足预设语义条件的目标特征图,然后,可以根据目标特征图对应的重要性权值,对目标特征图进行聚合,生成用于表征解释图像所属预测标签的描述信息,通过聚合特征图生成包含丰富信息的描述信息,可以提高图像分类的准确性。
S213、服务器将描述信息和图像输入反馈网络,通过反馈网络融合描述信息和图像后,对图像进行第二次类别识别,得到的目标分类结果。
例如,服务器可以基于描述信息生成表征图像的特征重要性分布的热力图,该热力图中颜色越深的区域,说明该区域重要性越大,反之,颜色越浅的区域,说明该区域重要性越小。然后可以通过反馈网络将图像和热力图进行融合,得到融合后属性图,该融合后属性图用于显示输入的图像的某些属性或特性,可以用于解释反馈网络的决策;此时,服务器可以通过反馈网络根据融合后属性图对图像进行第二次类别识别,得到图像的目标分类结果。通过将图像和热力图的融合后进行类别识别,可以提高识别的准确性。
S214、服务器根据目标分类结果,搜索与图像所属的目标类别匹配的目标图像,并将目标图像发送给终端。
例如,服务器可以根据目标分类结果,搜索与图像所属的目标类别匹配的目标图像,并将目标图像发送给终端,从而可以更准确地识别和分类图像,提高搜索结果的准确性和推送的效率。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对图像分类方法的详细描述,此处不再赘述。
为便于更好的实施本申请实施例提供的图像分类方法,本申请实施例还提供一种基于上述图像分类方法的装置。其中名词的含义与上述图像分类方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图9,图9为本申请实施例提供的图像分类装置的结构示意图,其中该图像分类装置300可以包括获取单元301、第一识别单元302、确定单元303、聚合单元304、以及第二识别单元305等。
其中,获取单元301,用于获取待分类的图像,并对图像进行特征提取,得到图像对应的特征图;
第一识别单元302,用于基于特征图对图像进行第一次类别识别,得到图像的初始分类结果,初始分类结果包括图像所属的类别和置信度;
确定单元303,用于根据特征图的特征位置和置信度,确定特征图针对图像的类别识别的重要性权值;
聚合单元304,用于根据重要性权值对特征图进行聚合,生成用于表征解释图像为类别的描述信息;
第二识别单元305,用于基于描述信息对图像进行第二次类别识别,得到图像的目标分类结果,目标分类结果用于指示图像所属的目标类别。
在一些实施方式中,第一识别单元302具体用于,通过分类网络基于特征图对图像进行第一次类别识别,得到图像的初始分类结果;
第二识别单元305具体用于,通过反馈网络基于描述信息对图像进行第二次类别识别,得到图像的目标分类结果。
在一些实施方式中,图像分类装置300还包括:
样本获取单元,用于获取训练样本,训练样本包括样本图像及其对应的分类标签和样本分数;
第一预测单元,用于通过分类网络对样本图像进行特征提取,得到样本图像对应的样本特征图,并基于样本特征图对样本图像进行第一次类别预测,得到预测标签和预测分数;
权值计算单元,用于根据样本特征图的特征位置和预测分数,计算样本特征图针对样本图像的类别预测的样本重要性权值;
样本聚合单元,用于根据样本重要性权值对样本特征图进行聚合,生成用于表征解释样本图像所属预测标签的样本描述信息;
第二预测单元,用于通过反馈网络基于样本描述信息对样本图像进行第二次类别预测,得到目标预测标签;
损失计算单元,用于计算预测标签和分类标签之间的差异,得到第一损失,以及计算目标预测标签和分类标签之间的差异,得到第二损失;
调整单元,用于根据第一损失调整分类网络的参数,以及根据第二损失调整反馈网络的参数,直至满足预设停止条件。
在一些实施方式中,样本特征图包括基于分类网络的多个特征提取层依次对样本图像进行特征提取,得到的各特征提取层对应的多个通道的样本特征图,
在一些实施方式中,样本聚合单元具体用于:
从多个特征提取层中筛选出满足预设语义条件的特征提取层,得到目标特征提取层;
根据目标特征提取层提取的样本特征图对应的样本重要性权值,对目标特征提取层的多个通道的样本特征图进行聚合,生成用于表征解释样本图像所属预测标签的样本描述信息。
在一些实施方式中,训练样本还包括样本图像对应的类别描述信息,第二预测单元具体用于:
基于类别描述信息和样本描述信息生成描述信息集合;
从描述信息集合中选择目标描述信息;
通过反馈网络基于目标描述信息,对样本图像进行第二次类别预测,得到目标预测标签。
在一些实施方式中,第二预测单元具体用于:
基于目标描述信息,生成表征样本图像的特征重要性分布的样本热力图;
将样本图像和样本热力图进行融合,得到融合后图像;
通过反馈网络根据融合后图像对样本图像进行第二次类别预测,得到目标预测标签。
在一些实施方式中,图像分类装置300还包括:
搜索单元,用于根据目标分类结果,搜索与图像所属的目标类别匹配的目标图像,并对目标图像进行显示或推送;
存储单元,用于根据目标分类结果,将图像存储至与图像所属的目标类别匹配的存储空间;
生成单元,用于根据目标分类结果,生成与图像所属的目标类别匹配的内容。
本申请实施例可以由获取单元301获取待分类的图像,并对图像进行特征提取,得到图像对应的特征图;然后,由第一识别单元302基于特征图对图像进行第一次类别识别,得到图像的初始分类结果,该初始分类结果包括图像所属的类别和置信度;其次,可以由确定单元303根据特征图的特征位置和置信度,确定特征图针对图像的类别识别的重要性权值;以及,由聚合单元304根据重要性权值对特征图进行聚合,生成用于表征解释图像为类别的描述信息;此时,可以由第二识别单元305基于描述信息对图像进行第二次类别识别,得到图像的目标分类结果,目标分类结果用于指示图像所属的目标类别。该方案通过第一次类别识别的初始分类结果,自动化的反馈到第二次类别识别,结合了自发和反馈思考,模仿了人类思维过程,提升了图像分类的效果,并且,基于特征图的重要性权值对特征图进行聚合,生成有意义解释且更强语义表示的描述信息,帮助准确识别图像所属类别,从而实现了结合人类的反馈思维模式和机器学习的能力,通过生成描述信息来提高图像分类的准确性。
本申请实施例还提供一种计算机设备,该计算机设备可以是终端或服务器等,如图10所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图10中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待分类的图像,并对图像进行特征提取,得到图像对应的特征图;基于特征图对图像进行第一次类别识别,得到图像的初始分类结果,初始分类结果包括图像所属的类别和置信度;根据特征图的特征位置和置信度,确定特征图针对图像的类别识别的重要性权值;根据重要性权值对特征图进行聚合,生成用于表征解释图像为类别的描述信息;基于描述信息对图像进行第二次类别识别,得到图像的目标分类结果,目标分类结果用于指示图像所属的目标类别。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对图像分类方法的详细描述,此处不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机指令来完成,或通过计算机指令控制相关的硬件来完成,该计算机指令可以存储于一计算机可读存储介质(即存储介质)中,并由处理器进行加载和执行。为此,本申请实施例提供一种存储介质,其中存储有计算机程序,计算机程序可以包括计算机指令,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种图像分类方法。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种图像分类方法中的步骤,因此,可以实现本申请实施例所提供的任一种图像分类方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种图像分类方法、装置、计算机设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种图像分类方法,其特征在于,包括:
获取待分类的图像,并对所述图像进行特征提取,得到所述图像对应的特征图;所述特征图包括基于多个特征提取层依次对所述图像进行特征提取,得到的各特征提取层对应的多个通道的特征图;
基于所述特征图对所述图像进行第一次类别识别,得到所述图像的初始分类结果,所述初始分类结果包括所述图像所属的类别和置信度;
根据所述特征图的特征位置和所述置信度,确定所述特征图针对所述图像的类别识别的重要性权值;所述特征位置为所述特征图中神经元的位置;
从所述多个特征提取层中筛选出满足预设语义条件的特征提取层,得到目标特征提取层;
根据所述目标特征提取层提取的特征图对应的重要性权值,对所述目标特征提取层的多个通道的特征图进行聚合,生成用于表征解释所述图像为所述所属的类别的描述信息;
基于所述描述信息生成表征所述图像的特征重要性分布的热力图;
将所述图像和所述热力图进行融合,得到融合后属性图;
根据所述融合后属性图对所述图像进行第二次类别识别,得到所述图像的目标分类结果,所述目标分类结果用于指示所述图像所属的目标类别。
2.根据权利要求1所述的图像分类方法,其特征在于,所述基于所述特征图对所述图像进行第一次类别识别,得到所述图像的初始分类结果,包括:
通过分类网络基于所述特征图对所述图像进行第一次类别识别,得到所述图像的初始分类结果;
所述根据所述融合后属性图对所述图像进行第二次类别识别,得到所述图像的目标分类结果,包括:
通过反馈网络根据所述融合后属性图对所述图像进行第二次类别识别,得到所述图像的目标分类结果。
3.根据权利要求2所述的图像分类方法,其特征在于,所述通过分类网络基于所述特征图对所述图像进行第一次类别识别,得到所述图像的初始分类结果之前,所述图像分类方法还包括:
获取训练样本,所述训练样本包括样本图像及其对应的分类标签和样本分数;
通过分类网络对所述样本图像进行特征提取,得到所述样本图像对应的样本特征图,并基于所述样本特征图对所述样本图像进行第一次类别预测,得到预测标签和预测分数;
根据所述样本特征图的特征位置和所述预测分数,计算所述样本特征图针对所述样本图像的类别预测的样本重要性权值;
根据所述样本重要性权值对所述样本特征图进行聚合,生成用于表征解释所述样本图像所属所述预测标签的样本描述信息;
通过反馈网络基于所述样本描述信息对所述样本图像进行第二次类别预测,得到目标预测标签;
计算所述预测标签和所述分类标签之间的差异,得到第一损失,以及计算所述目标预测标签和所述分类标签之间的差异,得到第二损失;
根据所述第一损失调整所述分类网络的参数,以及根据所述第二损失调整所述反馈网络的参数,直至满足预设停止条件。
4.根据权利要求3所述的图像分类方法,其特征在于,所述样本特征图包括基于分类网络的多个特征提取层依次对所述样本图像进行特征提取,得到的各特征提取层对应的多个通道的样本特征图,所述根据所述样本重要性权值对所述样本特征图进行聚合,生成用于表征解释所述样本图像所属所述预测标签的样本描述信息,包括:
从多个特征提取层中筛选出满足预设语义条件的特征提取层,得到目标特征提取层;
根据所述目标特征提取层提取的样本特征图对应的样本重要性权值,对所述目标特征提取层的多个通道的样本特征图进行聚合,生成用于表征解释所述样本图像所属所述预测标签的样本描述信息。
5.根据权利要求3所述的图像分类方法,其特征在于,所述训练样本还包括所述样本图像对应的类别描述信息,所述通过反馈网络基于所述样本描述信息对所述样本图像进行第二次类别预测,得到目标预测标签,包括:
基于所述类别描述信息和所述样本描述信息生成描述信息集合;
从所述描述信息集合中选择目标描述信息;
通过反馈网络基于所述目标描述信息,对所述样本图像进行第二次类别预测,得到目标预测标签。
6.根据权利要求5所述的图像分类方法,其特征在于,所述通过反馈网络基于所述目标描述信息,对所述样本图像进行第二次类别预测,得到目标预测标签,包括:
基于所述目标描述信息,生成表征所述样本图像的特征重要性分布的样本热力图;
将所述样本图像和所述样本热力图进行融合,得到融合后图像;
通过反馈网络根据所述融合后图像对所述样本图像进行第二次类别预测,得到目标预测标签。
7.根据权利要求1至6任一项所述的图像分类方法,其特征在于,所述根据所述融合后属性图对所述图像进行第二次类别识别,得到所述图像的目标分类结果之后,所述图像分类方法还包括:
根据所述目标分类结果,搜索与所述图像所属的目标类别匹配的目标图像,并对所述目标图像进行显示或推送;或者,
根据所述目标分类结果,将所述图像存储至与所述图像所属的目标类别匹配的存储空间;或者,
根据所述目标分类结果,生成与所述图像所属的目标类别匹配的内容。
8.一种图像分类装置,其特征在于,包括:
获取单元,用于获取待分类的图像,并对所述图像进行特征提取,得到所述图像对应的特征图;
第一识别单元,用于基于所述特征图对所述图像进行第一次类别识别,得到所述图像的初始分类结果,所述初始分类结果包括所述图像所属的类别和置信度;
确定单元,用于根据所述特征图的特征位置和所述置信度,确定所述特征图针对所述图像的类别识别的重要性权值;所述特征位置为所述特征图中神经元的位置;
聚合单元,用于根据所述重要性权值对所述特征图进行聚合,生成用于表征解释所述图像为所述类别的描述信息;
第二识别单元,用于基于所述描述信息对所述图像进行第二次类别识别,得到所述图像的目标分类结果,所述目标分类结果用于指示所述图像所属的目标类别;
其中,所述特征图包括基于多个特征提取层依次对所述图像进行特征提取,得到的各特征提取层对应的多个通道的特征图;所述聚合单元具体用于,从所述多个特征提取层中筛选出满足预设语义条件的特征提取层,得到目标特征提取层;根据所述目标特征提取层提取的特征图对应的重要性权值,对所述目标特征提取层的多个通道的特征图进行聚合,生成用于表征解释所述图像为所述所属的类别的描述信息;
所述第二识别单元具体用于,基于所述描述信息生成表征所述图像的特征重要性分布的热力图;将所述图像和所述热力图进行融合,得到融合后属性图;根据所述融合后属性图对所述图像进行第二次类别识别,得到所述图像的目标分类结果。
9.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行如权利要求1至7任一项所述的图像分类方法。
10.一种存储介质,其特征在于,所述存储介质用于存储计算机程序,所述计算机程序被处理器加载以执行权利要求1至7任一项所述的图像分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311508722.3A CN117274719B (zh) | 2023-11-14 | 2023-11-14 | 图像分类方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311508722.3A CN117274719B (zh) | 2023-11-14 | 2023-11-14 | 图像分类方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117274719A CN117274719A (zh) | 2023-12-22 |
CN117274719B true CN117274719B (zh) | 2024-02-27 |
Family
ID=89204803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311508722.3A Active CN117274719B (zh) | 2023-11-14 | 2023-11-14 | 图像分类方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117274719B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036455A (zh) * | 2020-08-19 | 2020-12-04 | 浙江大华技术股份有限公司 | 一种图像识别方法、智能终端和存储介质 |
CN113469236A (zh) * | 2021-06-25 | 2021-10-01 | 江苏大学 | 一种自我标签学习的深度聚类图像识别系统及方法 |
CN116071591A (zh) * | 2023-02-16 | 2023-05-05 | 重庆邮电大学 | 基于类别层次的动态高效网络训练方法、装置、计算机设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699937B (zh) * | 2020-12-29 | 2022-06-21 | 江苏大学 | 基于特征引导网络的图像分类与分割的装置、方法、设备及介质 |
-
2023
- 2023-11-14 CN CN202311508722.3A patent/CN117274719B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036455A (zh) * | 2020-08-19 | 2020-12-04 | 浙江大华技术股份有限公司 | 一种图像识别方法、智能终端和存储介质 |
CN113469236A (zh) * | 2021-06-25 | 2021-10-01 | 江苏大学 | 一种自我标签学习的深度聚类图像识别系统及方法 |
CN116071591A (zh) * | 2023-02-16 | 2023-05-05 | 重庆邮电大学 | 基于类别层次的动态高效网络训练方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于条件随机场的多标签图像分类识别方法;王莉 等;计算机仿真;20200815;第37卷(第08期);第394-397页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117274719A (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yi et al. | ASSD: Attentive single shot multibox detector | |
Kaymak et al. | A brief survey and an application of semantic image segmentation for autonomous driving | |
CN112131978B (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
CN107851191B (zh) | 用于图像中的对象检测的基于上下文的先验 | |
CN107209873B (zh) | 用于深度卷积网络的超参数选择 | |
CN111507378A (zh) | 训练图像处理模型的方法和装置 | |
CN113570029A (zh) | 获取神经网络模型的方法、图像处理方法及装置 | |
Wu et al. | Yunet: A tiny millisecond-level face detector | |
CN115223020B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN111222557A (zh) | 图像分类方法、装置、存储介质及电子设备 | |
CN117011616B (zh) | 一种图像内容审核方法、装置、存储介质和电子设备 | |
CN114746868A (zh) | 编译神经网络模型的方法和装置 | |
CN112668608A (zh) | 一种图像识别方法、装置、电子设备及存储介质 | |
Terziyan et al. | Causality-aware convolutional neural networks for advanced image classification and generation | |
CN116844032A (zh) | 一种海洋环境下目标检测识别方法、装置、设备及介质 | |
CN116935170A (zh) | 视频处理模型的处理方法、装置、计算机设备和存储介质 | |
CN113705293A (zh) | 图像场景的识别方法、装置、设备及可读存储介质 | |
CN117350366A (zh) | 一种网络模型构建方法以及相关设备 | |
CN112699800A (zh) | 一种车辆查找方法、装置、存储介质及终端 | |
CN117274719B (zh) | 图像分类方法、装置、计算机设备及存储介质 | |
CN117010480A (zh) | 模型训练方法、装置、设备、存储介质及程序产品 | |
Li et al. | MSF-CSPNet: A Specially Designed Backbone Network for Faster R-CNN | |
CN114373098A (zh) | 一种图像分类方法、装置、计算机设备及存储介质 | |
Peng et al. | Pedestrian motion recognition via Conv‐VLAD integrated spatial‐temporal‐relational network | |
CN113822293A (zh) | 用于图数据的模型处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |