CN116188879B

CN116188879B - 图像分类、图像分类模型训练方法、装置、设备及介质

Info

Publication number: CN116188879B
Application number: CN202310467778.2A
Authority: CN
Inventors: 张泽初; 梅侠峰; 陈学谦; 麻志豪
Original assignee: Guangzhou Yisi Information Technology Co ltd
Current assignee: Guangzhou Yisi Information Technology Co ltd
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-11-28
Anticipated expiration: 2043-04-27
Also published as: CN116188879A

Abstract

本申请公开了一种图像分类、图像分类模型训练方法、装置、设备及介质，属于数据识别领域。本申请实施例中，通过使用图像分类模型，由该图像分类模型先对图像进行分块，得到图像块，再逐个确定了图像块的注意力权重，从而进行分类，考虑到了不同图像块对图像分类结果的重要性和影响力，而并非直接对图像进行整体分类，这样可以有效聚焦图像的局部特征和细微特征差异，这样便可以区分出对分类结果影响到的关键特征和无关特征，从而使得分类结果更加准确，自然也就避免分类错误后人为纠正，从而大大提高了分类效率。

Description

图像分类、图像分类模型训练方法、装置、设备及介质

技术领域

本申请涉及数据识别领域，特别涉及一种图像分类、图像分类模型训练方法、装置、设备及介质。

背景技术

数据识别技术在各个领域广泛应用，例如，图像识别、图像分类等。在医学领域，针对透明正畸平台医生端提交正畸患者资料时，需要手动对图像类型进行分辨并放置适当位置，操作过程繁琐和易识别出错。

现有平台工具未能自动地区分图像类别，辅助诊疗程度较低。患者主诉包括牙列拥挤、深覆合、开合等，为根据患者具体情况设计出个性正畸治疗方案，需要医生提供患者正面像、微笑像、上颌、下颌、正颌面像、侧脸像、左颌面像、右颌面像、侧X光和全X光。但提交的患者图像资料中存在较为相似的类别，例如正面像和微笑像，由于在拍正面像时嘴巴需要合拢，而在微笑像时需要漏齿，因此两者仅在嘴巴位置有明显误差，而其他图像区域特征十分相似，导致模型难以学习到细微的特征差异，影响分类准确率。又比如，上颌和下颌均表现为弧形牙齿排列状态，图像特征也较为相近，导致深度学习模型也无法很好地捕捉两者之间的特征差异。又比如，左颌面像和右颌面像同样存在类间特征难以区分的问题，从而影响模型自动识别图像类型的准确率，一旦出现错误分类，操作员需要重新手动进行图像归类，导致操作效率较低，未能达到辅助诊断的效果。

因而，现阶段的图像分类模型对图像进行分类时的错误率较高，效率又低，导致二次人为分类的情况比较多。

发明内容

本申请实施例提供了一种图像分类、图像分类模型训练方法、装置、设备及介质，能够达到提高分类效率和分类准确率的效果。所述技术方案如下：

一方面，提供了一种图像分类方法，所述方法包括：

获取待分类的图像；

基于图像分类模型，对所述图像进行分块处理，得到所述图像的多个图像块；

基于所述图像分类模型，确定所述多个图像块各自的注意力权重，一个图像块的所述注意力权重用于指示所述图像块对确定所述图像所属类别的影响力；

基于所述图像分类模型、所述多个图像块和所述多个图像块各自的注意力权重，对所述图像进行分类，得到所述图像的类别。

在一些实施例中，所述基于图像分类模型，对所述图像进行分块处理，得到所述图像的多个图像块，包括：

基于图像分类模型，利用滑动窗口，对所述图像进行分割，得到所述图像的多个图像块，其中，所述多个图像块中相邻的两个图像块存在重叠区域。

在一些实施例中，所述基于所述图像分类模型，确定所述多个图像块各自的注意力权重，包括：

基于所述图像分类模型中的编码层，对所述多个图像块进行编码，得到所述多个图像块的编码信息；

基于所述图像分类模型的模型参数，对所述多个图像块的编码信息进行计算，得到所述多个图像块各自的注意力权重。

在一些实施例中，所述图像分类模型包括多层编码层；

所述基于所述图像分类模型中的编码层，对所述多个图像块进行编码，得到所述多个图像块的编码信息，包括：

基于所述图像分类模型中的第i层编码层，对所述多个图像块进行编码，得到所述多个图像块的第一编码信息，继续基于所述图像分类模型中的第i+1层编码器，对所述第一编码信息进行编码，得到所述多个图像块的第二编码信息，直至最后一层编码器编码得到所述多个图像块的目标编码信息，所述i为正整数；

所述基于所述图像分类模型的模型参数，对所述多个图像块的编码信息进行计算，得到所述多个图像块的注意力权重，包括：

基于所述图像分类模型的模型参数，对所述多个图像块在每一层编码层得到的编码信息进行计算，得到所述多个图像块在多层编码层的注意力权重；

对所述多个图像块在多层编码层的注意力权重进行加权求和，得到所述多个图像块各自的注意力权重。

在一些实施例中，所述基于所述图像分类模型、所述多个图像块和所述多个图像块各自的注意力权重，对所述图像进行分类，得到所述图像的类别，包括：

基于所述图像分类模型、所述多个图像块和所述多个图像块各自的注意力权重，确定至少一个目标图像块，所述目标图像块的所述注意力权重符合目标条件；

基于所述至少一个目标图像块，对所述图像进行分类，得到所述图像的类别。

在一些实施例中，所述图像分类模型的模型参数基于第一损失值和第二损失值进行更新得到，其中，所述第一损失值用于指示样本图像的预测类别和所携带分类标签之间的误差，所述第二损失值用于指示第一相似度与第二相似度之间的误差，所述第一相似度为两个样本图像的图像特征之间的相似度，所述第二相似度为两个样本图像携带的分类标签之间的相似度，其中，样本图像携带的分类标签用于指示所述样本图像的真实类别。

另一方面，提供了一种图像分类模型训练方法，所述方法包括：

获取多个样本图像，所述多个样本图像分别携带有分类标签，一个样本图像携带的分类标签用于指示所述样本图像的真实类别；

将所述多个样本图像输入初始图像分类模型中，由所述初始图像分类模型对所述多个样本图像进行分块处理得到每个样本图像的多个图像块，基于模型参数确定每个样本图像的多个图像块各自的注意力权重，基于每个样本图像的多个图像块以及各自的注意力权重，对所述每个样本图像进行分类，得到所述每个样本图像的预测类别；其中，一个图像块的所述注意力权重用于指示所述图像块对确定所述样本图像所属类别的影响力；

基于所述每个样本图像的预测类别和携带的分类标签，对所述初始图像分类模型的模型参数进行更新，直至符合目标条件时停止，得到图像分类模型。

在一些实施例中，所述基于所述每个样本图像的预测类别和携带的分类标签，对所述初始图像分类模型的模型参数进行更新，包括：

基于所述每个样本图像的预测类别和携带的分类标签，确定第一损失值，所述第一损失值用于指示所述预测类别和所述携带的分类标签之间的误差；

基于所述多个样本图像中任两个样本图像的多个图像块，确定第二损失值，所述第二损失值用于指示第一相似度与第二相似度之间的误差，所述第一相似度为所述任两个样本图像的图像特征之间的相似度，所述第二相似度为所述任两个样本图像携带的分类标签之间的相似度；

基于所述第一损失值和所述第二损失值，对所述初始图像分类模型的模型参数进行更新。

在一些实施例中，所述由所述初始图像分类模型对所述多个样本图像进行分块处理得到每个样本图像的多个图像块，包括：

由所述初始图像分类模型，利用滑动窗口，对所述多个样本图像进行分割，得到每个样本图像的多个图像块，其中，每个样本图像的多个图像块中相邻的两个图像块存在重叠区域。

在一些实施例中，所述基于模型参数确定每个样本图像的多个图像块各自的注意力权重，包括：

基于编码层，对每个样本图像的所述多个图像块进行编码，得到所述多个图像块的编码信息；

基于模型参数，对所述多个图像块的编码信息进行计算，得到每个样本图像的所述多个图像块各自的注意力权重。

在一些实施例中，所述图像分类模型包括多层编码层；

所述基于编码层，对每个样本图像的所述多个图像块进行编码，得到所述多个图像块的编码信息，包括：

基于第i层编码层，对每个样本图像的所述多个图像块进行编码，得到所述多个图像块的第一编码信息，继续基于第i+1层编码器，对所述第一编码信息进行编码，得到所述多个图像块的第二编码信息，直至最后一层编码器编码得到所述多个图像块的目标编码信息，所述i为正整数；

所述基于模型参数，对所述多个图像块的编码信息进行计算，得到每个样本图像的所述多个图像块各自的注意力权重，包括：

基于模型参数，对所述多个图像块在每一层编码层得到的编码信息进行计算，得到所述多个图像块在多层编码层的注意力权重；

对所述多个图像块在多层编码层的注意力权重进行加权求和，得到每个样本图像的所述多个图像块各自的注意力权重。

在一些实施例中，所述基于每个样本图像的多个图像块以及各自的注意力权重，对所述每个样本图像进行分类，得到所述每个样本图像的预测类别，包括：

基于基于每个样本图像的多个图像块以及各自的注意力权重，确定每个样本图像的至少一个目标图像块，所述目标图像块的所述注意力权重符合目标条件；

基于每个样本图像的所述至少一个目标图像块，对所述每个样本图像进行分类，得到所述每个样本图像的预测类别。

另一方面，提供了一种图像分类装置，所述装置包括：

获取模块，用于获取待分类的图像；

分块模块，用于基于图像分类模型，对所述图像进行分块处理，得到所述图像的多个图像块；

确定模块，用于基于所述图像分类模型，确定所述多个图像块各自的注意力权重，一个图像块的所述注意力权重用于指示所述图像块对确定所述图像所属类别的影响力；

分类模块，用于基于所述图像分类模型、所述多个图像块和所述多个图像块各自的注意力权重，对所述图像进行分类，得到所述图像的类别。

在一些实施例中，所述分块模块用于基于图像分类模型，利用滑动窗口，对所述图像进行分割，得到所述图像的多个图像块，其中，所述多个图像块中相邻的两个图像块存在重叠区域。

在一些实施例中，所述确定模块包括编码单元和计算单元；

所述编码单元，用于基于所述图像分类模型中的编码层，对所述多个图像块进行编码，得到所述多个图像块的编码信息；

所述计算单元，用于基于所述图像分类模型的模型参数，对所述多个图像块的编码信息进行计算，得到所述多个图像块各自的注意力权重。

在一些实施例中，所述图像分类模型包括多层编码层；

所述编码单元用于基于所述图像分类模型中的第i层编码层，对所述多个图像块进行编码，得到所述多个图像块的第一编码信息，继续基于所述图像分类模型中的第i+1层编码器，对所述第一编码信息进行编码，得到所述多个图像块的第二编码信息，直至最后一层编码器编码得到所述多个图像块的目标编码信息，所述i为正整数；

所述计算单元用于：

在一些实施例中，所述分类模块用于：

另一方面，提供了一种图像分类模型训练装置，所述装置包括：

获取模块，用于获取多个样本图像，所述多个样本图像分别携带有分类标签，一个样本图像携带的分类标签用于指示所述样本图像的真实类别；

处理模块，用于将所述多个样本图像输入初始图像分类模型中，由所述初始图像分类模型对所述多个样本图像进行分块处理得到每个样本图像的多个图像块，基于模型参数确定每个样本图像的多个图像块各自的注意力权重，基于每个样本图像的多个图像块以及各自的注意力权重，对所述每个样本图像进行分类，得到所述每个样本图像的预测类别；其中，一个图像块的所述注意力权重用于指示所述图像块对确定所述样本图像所属类别的影响力；

更新模块，用于基于所述每个样本图像的预测类别和携带的分类标签，对所述初始图像分类模型的模型参数进行更新，直至符合目标条件时停止，得到图像分类模型。

在一些实施例中，所述更新模块用于：

在一些实施例中，所述处理模块用于由所述初始图像分类模型，利用滑动窗口，对所述多个样本图像进行分割，得到每个样本图像的多个图像块，其中，每个样本图像的多个图像块中相邻的两个图像块存在重叠区域。

在一些实施例中，所述处理模块用于：

在一些实施例中，所述图像分类模型包括多层编码层；

所述处理模块用于：

在一些实施例中，所述处理模块用于：

另一方面，提供了一种电子设备，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现上述图像分类方法或图像分类模型训练方法的各种可选实现方式。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现上述图像分类方法或图像分类模型训练方法的各种可选实现方式。

另一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括一条或多条程序代码，所述一条或多条程序代码存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码，所述一个或多个处理器执行所述一条或多条程序代码，使得电子设备能够执行上述任一种可能实施方式的图像分类方法或图像分类模型训练方法。

本申请实施例中，通过使用图像分类模型，由该图像分类模型先对图像进行分块，得到图像块，再逐个确定了图像块的注意力权重，从而进行分类，考虑到了不同图像块对图像分类结果的重要性和影响力，而并非直接对图像进行整体分类，这样可以有效聚焦图像的局部特征和细微特征差异，这样便可以区分出对分类结果影响到的关键特征和无关特征，从而使得分类结果更加准确，自然也就避免分类错误后人为纠正，从而大大提高了分类效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还能够根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像分类模型训练方法的流程图；

图2是本申请实施例提供的一种图像分类模型的训练流程图；

图3是本申请实施例提供的依靠两种损失函数的图像分类模型训练流程图；

图4是本申请实施例提供的基于块选择增强的图像分类模型训练流程图；

图5是本申请实施例提供的一种图像分类方法的流程图；

图6是本申请实施例提供的一种图像分类装置的结构示意图；

图7是本申请实施例提供的一种图像分类模型训练装置的结构示意图；

图8是本申请实施例提供的一种电子设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如，在不脱离各种该示例的范围的情况下，第一图像能够被称为第二图像，并且类似地，第二图像能够被称为第一图像。第一图像和第二图像都能够是图像，并且在某些情况下，能够是单独且不同的图像。

本申请中术语“至少一个”的含义是指一个或多个，本申请中术语“多个”的含义是指两个或两个以上，例如，多个数据包是指两个或两个以上的数据包。

应理解，在本文中对各种该示例的描述中所使用的术语只是为了描述特定示例，而并非旨在进行限制。如在对各种该示例的描述和所附权利要求书中所使用的那样，单数形式“一个(“a”“an”)”和“该”旨在也包括复数形式，除非上下文另外明确地指示。

还应理解，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。术语“和/或”，是一种描述关联对象的关联关系，表示能够存在三种关系，例如，A和/或B，能够表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本申请中的字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，在本申请的各个实施例中，各个过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还应理解，根据A确定B并不意味着仅仅根据A确定B，还能够根据A和/或其它信息确定B。

还应理解，术语“包括”(也称“inCludes”、“inCluding”、“Comprises”和/或“Comprising”)当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。

还应理解，术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

本申请涉及人工智能技术，通过训练图像分类模型，使得图像分类模型具备对人体组织图像处理的能力，来代替人工计算。下面对人工智能进行介绍。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

图像分类是深度学习视觉处理领域的主要研究热点，根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。深度学习模型通过大量图片数据训练得到能够自动区分当前任务下的图像类型，相对于传统的手动分类方式和机器学习方法，能够提升识别准确率，提供高效的自动类型识别工具。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

本申请实施例提供的方案涉及人工智能的计算机视觉技术中图像处理、机器学习等技术，具体通过如下实施例进行说明。

图1是本申请实施例提供的一种图像分类模型训练方法的流程图，该方法应用于电子设备中，该电子设备为终端或服务器，参见图1，该方法包括以下步骤。

101、电子设备获取多个样本图像，该多个样本图像分别携带有分类标签。

电子设备获取该多个样本图像，通过该多个样本图像对初始图像分类模型进行训练，使得该初始图像分类模型能对图像进行分块后，基于图像块对图像进行分类，得到图像的类别，以便于将多种类别的图像进行分类归档。

该多个样本图像可以存储于不同位置，相应地，该电子设备可以通过不同的方式获取该多个样本图像。

在一些实施例中，该多个样本图像可以存储于图像数据库中，相应地，电子设备可以从图像数据库中提取该多个样本图像。例如，该图像数据库可以为语料库。在另一些实施例中，该多个样本图像也可以存储于该电子设备中，相应地，电子设备可以从本地存储中提取该多个样本图像。在另一些实施例中，该多个样本图像可以存储于服务器中，相应地，电子设备可以从服务器中提取该多个样本图像。本申请对该多个样本图像的存储位置以及获取方式不作具体限定。

其中，一个样本图像携带的分类标签用于指示该样本图像的真实类别。也就是说，分类标签用于表示该样本图像的正确分类结果或者真实分类结果。该分类标签可以由人工标注得到。例如，分类类别的数量可以为两个或者两个以上。比如，共有5个分类类别，可以设置有0、1、2、3、4这五个分类标签来分别标识该5个分类类别。每个分类标签对应一种类别，通过该分类标签能够获知携带有该分类标签的样本图像的正确分类结果，也即是指该样本图像分类后应当属于哪种类别。

具体地，在模型训练过程中，该初始图像分类模型能够对输入的样本图像进行分类，得到预测类别。可以理解地，预测类别为初始图像分类模型得到的一种预测结果，分类标签则用于指示真值，指示正确的或真实的类别。通过初始图像分类模型来对这些样本图像进行处理，并基于初始图像分类模型得到的预测类别以及其携带的分类标签，来分析初始图像分类模型得到的预测类别是否准确，以此来对初始图像分类模型的模型参数来进行优化，提高初始图像分类模型的处理性能。

在一个具体的可能实施例中，该多个样本图像可以为医学图像，该初始图像分类模型和训练好的图像分类模型也即是用于对医学图像进行分类。例如，该多个样本图像可以包括正面图像、微笑图像、上颌面像、下颌面像、正颌面像、侧脸像、左颌面像、右颌面像、侧X光图像和全X光图像中至少两种。这样使用该多个样本图像对图像分类模型进行训练的目的则是使得图像分类模型能够准确识别一个图像属于上述几种图像中的哪一个，这样代替人工操作，提高分类效率和准确率。在此仅为一种示例性说明，本领域技术人员可以根据需求设置上述类别，本申请实施例对此不作限定。

102、电子设备将该多个样本图像输入初始图像分类模型中，由该初始图像分类模型对该多个样本图像进行分块处理得到每个样本图像的多个图像块，基于模型参数确定每个样本图像的多个图像块各自的注意力权重，基于每个样本图像的多个图像块以及各自的注意力权重，对该每个样本图像进行分类，得到该每个样本图像的预测类别。

电子设备获取到多个样本图像之后，可以将其输入初始图像分类模型中，由该初始图像分类模型对每个样本图像进行分类，输出每个样本图像的预测类别。

其中，预测类别为初始图像分类模型得到的一种预测结果，也即是，该初始图像分类模型通过对样本图像进行处理，确定该图像属于哪种类别。

上述步骤101中，样本图像还携带有分类标签，分类标签则用于指示真值，指示正确的或真实的类别。基于初始图像分类模型得到的预测类别以及其携带的分类标签，就可以分析初始图像分类模型得到的预测类别是否准确，以此来对初始图像分类模型的模型参数来进行优化，提高初始图像分类模型的处理性能，从而得到训练好的图像分类模型。

对于初始图像分类模型对样本图像的处理过程可以包括三个步骤：分块、确定注意力权重和分类。下面针对这三个步骤进行具体介绍。

步骤一、分块。

在该步骤一中，电子设备可以将样本图像分割成多个图像块，每个图像块包括该样本图像的一部分，这样可以对样本图像的各个局部的图像进行特征提取得到细微的图像特征，从而基于图像块对图像进行分类，能够得到更准确的分类结果。

该分块过程其实质为图像分割、图像裁剪过程。分块的不同，能够提取到的图像特征也可能不同。

在一些实施例中，分块步骤可以通过滑动窗口实现，具体地，该步骤一可以为：由该初始图像分类模型，利用滑动窗口，对该多个样本图像进行分割，得到每个样本图像的多个图像块，其中，每个样本图像的多个图像块中相邻的两个图像块存在重叠区域。

相邻的两个图像块存在重叠区域，这样能够保证样本图像的所有图像内容均在多个图像块中，且能够有效避免损害图像局部邻近结构的情况出现，还能够增加将样本图像的关键特征分到同一个图像块的概率。

具体地，可以提前设置好图像块的尺寸和滑动窗口尺寸，在模型训练时，电子设备中的初始图像分类模型按照图像块的尺寸和滑动窗口的尺寸，利用滑动窗口，对该多个样本图像进行分割，得到每个样本图像的多个图像块。这样分割出来的图像块的尺寸均相同。

该图像块的尺寸和滑动窗口的尺寸可以由相关技术人员根据需求进行设置，本申请实施例对此不作限定。

例如，采用滑动窗口进行切分，产生具有重叠区域的图像块，这样可以防止细微差距图像特征区域被分割。假设输入样本图像的分辨率大小为，图像块的大小设置为P，滑动窗口的尺寸为S，该分块过程可以如下述公式一所示。其中，H为高度，W为宽度。

，公式一

其中，N为图像块的数量，为图像块的高度，/>为图像块的宽度。

从上述公式一可知，相邻的图像块共享一个重叠的大小区域，也即是相邻的两个图像块之间的重叠区域大小为/>。这有助于保留局部区域特征信息，确保重要的图像块能被完整送入初始图像分类模型进行训练。当滑动窗口的尺寸S越小，模型性能越好，但同时需要考虑到模型计算代价。

上述给出了一种采用滑动窗口的图像分块策略，当然，也可以采用其他方式进行图像分块，例如，可以设置缩放比例和裁剪尺寸，按照裁剪尺寸确定出样本图像的目标区域后，对目标区域按照缩放比例进行缩放，从而得到样本图像的图像块。这样该样本图像的多个图像块中相邻的图像块之间也可以存在重叠区域，也可以避免破坏图像的邻近结构，增加将样本图像的关键特征分到同一个图像块的概率。本申请实施例对具体采用哪种实现方式不作限定。

步骤二、确定注意力权重。

其中，一个图像块的该注意力权重用于指示该图像块对确定该样本图像所属类别的影响力。可以理解地，如果一个图像块的注意力权重较大，说明该图像块对确定该样本图像所属类别的影响力越大，也就说明该图像块对该样本图像分类过程很重要，后续分类过程则应该重点注意该图像块。

这样针对每个图像块都进行了注意力权重的确认，能够有效区分对图像分类的关键特征和无关特征，从而筛选出关键的图像块，能够在学习过程中大大提高该初始图像分类模型的特征提取能力，有效聚焦图像的关键特征，这样后续进行分类得到的分类结果也就更加准确。

该注意力权重由该初始图像分类模型基于自身的模型参数为图像块计算得到。在模型训练过程中，每次迭代后，均可以基于损失值对模型参数进行更新，这样经过多次迭代，该初始图像分类模型的模型参数则能够更好地计算该注意力权重，

在一些实施例中，该初始图像分类模型可以包括编码层，该注意力权重的计算可以通过先编码后计算注意力权重的方式实现。相应地，该步骤二可以为：基于编码层，对每个样本图像的该多个图像块进行编码，得到该多个图像块的编码信息，然后基于模型参数，对该多个图像块的编码信息进行计算，得到每个样本图像的该多个图像块各自的注意力权重。

通过编码可以将该图像块的图像特征进行处理，得到能够更好地表征该图像的特征的编码信息，然后基于编码信息进行计算，能够得到更准确的注意力权重，能够更好地分析哪些图像块比较关键，比较重要。

在一些实施例中，该图像分类模型可以包括多层编码层。相应地，上述编码过程可以为：基于第i层编码层，对每个样本图像的该多个图像块进行编码，得到该多个图像块的第一编码信息，继续基于第i+1层编码器，对该第一编码信息进行编码，得到该多个图像块的第二编码信息，直至最后一层编码器编码得到该多个图像块的目标编码信息，该i为正整数。

这样将图像块输入第一层编码层中，由第一层编码层对图像块进行编码后得到第一编码信息后，再将第一编码信息输入第二层编码层，第二层编码层再将对第一编码信息进行编码，得到第二编码信息，然后第二层编码层再将第二编码信息输入第三层编码层中，以此类推，直至最后一层编码层输出最终的目标编码信息。

相应地，编码后进行注意力权重计算的过程可以为：基于模型参数，对该多个图像块在每一层编码层得到的编码信息进行计算，得到该多个图像块在多层编码层的注意力权重，然后对该多个图像块在多层编码层的注意力权重进行加权求和，得到每个样本图像的该多个图像块各自的注意力权重。

也即是，每个编码层在得到编码信息后，均可以基于编码信息计算一次注意力权重，这样一个图像块经过了多层编码层，也就得到了多个注意力权重，最终进行分类之前，可以对一个图像块的多个注意力权重进行加权求和，得道该图像块的注意力权重。

其中，对多个注意力权重加权求和时，可以为多层编码层设置不同的权重，也可以为多层编码层设置相同的权重，本申请实施例对此不作限定。

在一些实施例中，该编码层可以为Transformer（转换）编码层。在另一些实施例中，该编码层可以为Vision Transformer（简称：ViT，中文全称：视觉转换，）编码层。ViT编码层可以通过叠加多层的Transformer编码器，对输入的图像块进行高维深层次语义特征编码操作。

在一些实施例中，该初始图像分类模型还可以包括线性投影层，该线性投影层能够将输入的图像块映射到嵌入空间中，得到图像的嵌入信息，然后将嵌入信息输入后续的编码层，由编码层进行编码。

在一些实施例中，在该线性投影层进行映射时，还可以添加图像块的位置信息，将位置信息与嵌入信息结合，得到目标嵌入信息，然后将目标嵌入信息输入后续的编码层，由编码层进行编码。其中，该位置信息用于指示多个图像块在输入的样本图像上的相对位置。

具体地，图像分类模型可以对输入的样本图像进行分块后，利用线性投影层对样本图像的多个图像块进行嵌入处理，得到该多个图像块的嵌入信息，然后将该多个图像块的嵌入信息与该多个图像块的位置编码进行拼接，得到该多个图像块的目标嵌入信息。然后将目标嵌入信息输入第一层编码层，后续的编码过程可参见上述编码过程的内容，在此不做过多赘述。

在一些实施例中，该线性投影层的参数可以在模型训练过程中每次迭代后基于损失值进行更新，也即是，该线性投影层可训练，从而能得到更准确的嵌入信息。当然，该位置编码或位置信息，也可以在模型训练过程中更新，也即是，该位置编码或位置信息可学习。

例如，引入可训练的线性投影层将向量化的图像块映射到潜在的d维嵌入空间。在图像嵌入中添加可学习的相对位置嵌入，以保留位置信息，弥补Transformer（转换）编码器无法捕捉位置特征的缺陷。该线性投影层的具体计算过程可以如下述公式二所示。

，公式二

其中，N表示图像块数量，为图像块嵌入投影矩阵，/>为图像块大小，/>为通道数，/>为图像块经映射后维度大小。/>表示每个图像块的相对位置嵌入。/>向量表示可学习的嵌入向量，与其他块向量输入到Transformer编码器中，最后取第一个向量作为类别预测结果。

在一个具体示例中，该Transformer编码器包含层多层头部自注意（Multi-headself-attention，MSA）和多层感知器（Multilayer Perceptron，MLP）块。因此，第/>层编码器的输出计算过程可以如下述公式三和公式四所示。

，公式三

，公式四

其中，，/>为Transformer编码器的层数。/>表示层归一化操作。/>为/>层编码器得到的图像特征编码，/>为经过多层头部注意力机制计算得到的特征表示，最后一层编码器输出特征。/>为图像全局分类特征，可输入线性层进行结果预测，也即是线性层用于分类。

在一些实施例中，该初始图像分类模型可以包括块选择模块（Part SelectionMoudle，PSM），由块选择模块来进行上述注意力权重的计算。细粒度视觉分类中最重要的问题之一是准确地确定判别区域，这些区域解释了相似子类别之间的细微差异。块选择模块则能够通过计算注意力权重，准确筛选出关键的图像块。

例如，假设PSM模块最后一层Transformer编码的输入为，最后一层的编码计算过程可以如下述公式五所示。

，公式五

第层注意力权重大小用/>表示，该注意力权重可以通过下述公式六计算得到。

，公式六

其中，表示编码层的层数。

假设由K个自注意力头进行注意力权重的计算，每个自注意力头的计算过程可以如公式七所示。

，公式七

其中，用于表示自注意力头。

因此，从输入层到更高层数的嵌入信息的计算过程可以通过下述公式八实现。

，公式八

其中，为图像块的注意力权重。

步骤三、分类。

该分类过程也即是基于图像块的相关信息，识别出该样本图像的类别的过程。在一些实施例中，该分类过程可以通过线性层或者线性函数实现，将多个图像块的相关信息输入线性层进行处理，该线性层输出样本图像的预测类别。

在一些实施例中，通过上述步骤二已经得到该样本图像的图像块和各自的注意力权重，则图像分类模型即可基于这些数据进行分类，得到分类结果，也即是预测类别。在具体分类时，上述注意力权重可以用于筛选出重要的图像块，然后分类过程仅基于这些重要的图像块进行，选择丢弃不重要的图像块，这样可以避免不重要的图像块对样本图像的分类结果造成干扰。具体地，该步骤三中，可以基于基于每个样本图像的多个图像块以及各自的注意力权重，确定每个样本图像的至少一个目标图像块，该目标图像块的该注意力权重符合目标条件，然后基于每个样本图像的该至少一个目标图像块，对该每个样本图像进行分类，得到该每个样本图像的预测类别。

其中，目标图像块也就是重要的图像块。该目标条件可以由相关技术人员根据需求进行设置，例如，该目标条件可以为注意力权重大于目标权重，该目标权重也可以由相关技术人员根据需求进行设置，例如，目标权重为0.5，也可以为0.8，本申请实施例对此不作具体限定。

具体地，该目标图像块在图像分类模型中体现为目标图像块的编码信息，然后可以基于该至少一个目标图像块的编码信息，对每个样本图像进行分类，得到该每个样本图像的预测类别。

例如，在上述步骤二中计算得到注意力权重后，下面可以通过选取/>中K个不同注意力首部（头部）的最大值/>、/>、...、/>，也即是K个图像块，并将其与分类token（标签）进行拼接，得到图像最终的特征表征信息/>（也即是目标图像块的信息）。该特征表征信息的计算过程可以通过下述公式九实现。该步骤不仅保留了全局信息/>，也让模型更加关注与不同类别之间的微小差异。然后再基于特征表征信息/>，进行分类，得到预测类别。

，公式九

103、电子设备基于该每个样本图像的预测类别和携带的分类标签，对该初始图像分类模型的模型参数进行更新，直至符合目标条件时停止，得到图像分类模型。

在经过初始图像分类模型对样本图像进行处理得到预测类别后，电子设备可以基于预测类别该样本图像的真实类别，来衡量初始图像分类模型的分类准确率，如果分类准确率不够，则需要对模型参数进行更新，然后基于更新后的模型参数再重复上述步骤102，然后得到新一轮预测类别，以此类推，经过多次更新，该模型参数所能达到的分类效果越来越好，直至符合目标条件时停止，就得到了训练好的图像分类模型。

也即是，上述步骤二为一次迭代过程，后续每次模型参数更新后可以进行下一次迭代过程，经过多次迭代，将模型参数优化，得到分类性能好的图像分类模型。

在一些实施例中，在对模型参数进行更新时，可以设置两种损失函数分别计算两种损失值，从而联合两种损失值进行模型参数更新，从而更好地提升图像分类模型的性能。具体地，该步骤103可以通过下述步骤1、步骤2和步骤3实现。

步骤1：电子设备基于该每个样本图像的预测类别和携带的分类标签，确定第一损失值。

该第一损失值用于指示该预测类别和该携带的分类标签之间的误差，也即是，该第一损失值用于衡量图像分类模型分类的结果是否准确。

在一些实施例中，该第一损失值可以通过交叉熵损失函数实现。在另一些实施例中，该第一损失值也可以通过其他损失函数实现，例如，L1损失函数，L2损失函数等，本申请实施例对该第一损失值具体通过哪种损失函数计算得到不作限定。

步骤2：电子设备基于该多个样本图像中任两个样本图像的多个图像块，确定第二损失值。

该第二损失值用于指示第一相似度与第二相似度之间的误差，该第一相似度为该任两个样本图像的图像特征之间的相似度，该第二相似度为该任两个样本图像携带的分类标签之间的相似度。也即是，确定图像分类模型对相同分类标签的两个样本图像进行处理后得到的图像特征（图像表征、编码信息）之间是否更加相似，对不同分类标签的两个样本图像进行处理后得到的图像特征（图像表征、编码信息）之间是否不太相似。

在本申请实施例中，加入对比损失函数，使不同分类标签对应的分类标记（表征）的相似性最小，使相同标签y样本的分类标记的相似性最大化。为了防止损失被容易的负值（相似度很小的不同类别样本）所主导，引入了一个恒定的边际因子α，只有相似度大于α的负对才会产生损失/>。批处理大小为B时对比损失表示如公式十所示。

，公式十

其中，用于表示样本图像/>和样本图像/>之间的相似度。B为批处理大小。

步骤3：电子设备基于该第一损失值和该第二损失值，对该初始图像分类模型的模型参数进行更新。

在该步骤3中，综合考虑了两种损失值，这样得到的模型参数，能够更好的进行特征提取或特征表征，也能更准确地进行分类。

在一些实施例中，该步骤3中，电子设备可以对第一损失值和第二损失值进行加权求和，得到目标损失值，然后基于目标损失值，对该初始图像分类模型的模型参数进行更新。

在一些实施例中，在加权求和时，可以由相关技术人员为第一损失值和第二损失值设置权重，例如，该第一损失值和第二损失值的权重可以都为1，这样该目标损失值可以为第一损失值和第二损失值之和。在另一些实施例中，该第一损失值和第二损失值的权重可以在图像分类模型训练的过程中进行更新，通过多次迭代过程得到最优的权重，本申请实施例对具体采用哪种实现方式不作限定。

例如，在一个具体示例中，整体损失函数由交叉熵损失函数与对比损失函数结合而成，该目标损失值计算过程如公式十一所示。

，公式十一

其中，和/>分别为真实标签（分类标签）和预测标签（预测类别）。/>为目标损失值。为第一损失值，/>为第二损失值。

下面通过几个具体示例对本申请提供的方法的流程进行说明。在一个具体示例中，该图像分类模型的训练流程如图2所示，可以将携带有分类标签的样本图像输入图像分类模型中，该图像分类模型可以由四个模块组成：分类模块、编码模块、块选择模块和分类模块。样本图像输入图像分类模型中，该图像分类模型的各个模块对其进行处理，输出分类结果，也就是预测类别，然后基于预测类别和分类标签能够通过损失函数计算出损失值，然后基于损失值训练图像分类模型。

在另一个具体示例中，如图3所示，图像分类模型的训练依靠两种损失函数，一种是交叉熵损失函数，另一种是对比损失函数。具体地，可以将携带有分类标签的样本图像输入图像分类模型中，该图像分类模型可以由四个模块组成：分类模块、编码模块、块选择模块和分类模块。样本图像输入图像分类模型中，该图像分类模型的各个模块对其进行处理，输出预测类别，然后基于预测类别和分类标签能够通过交叉熵损失函数计算出第一损失值，然后该图像分类模型分类过程中得到的图像特征编码，可以进一步与分类标签一起计算出第二损失值，然后两种损失值结合起来训练图像分类模型。

在另一个具体示例中，如图4所示，可以称上述图像分类模型为基于块选择模块增强的ViT模型，ViT-PSM整体架构如图4所示，主要由特征提取模型ViT、基于滑动窗口的图像分块策略、块选择策略和多分类交叉熵和对比损失函数构成。采用基于块选择模块增强的ViT模型，用于解决目前研究存在的不足。基于块选择模块增强的ViT模型主要由特征提取模型ViT、基于滑动窗口的图像分块策略、块选择策略和多分类交叉熵和对比损失函数构成。Vision Transformer中实现的原始分割方法将图像切割成不重叠的块，损害了图像的局部邻近结构，特别是当细微差距图像特征区域被分割时，因此采用基于滑动窗口进行切分，产生具有重叠区域的图像块。基于滑动窗口的图像分块有助于保留局部区域特征信息，确保重要图像块能被完整送入模型训练。ViT模型通过叠加多层的Transformer编码器，对输入的图像块进行高维深层次语义特征编码操作。块选择模块通过计算多层注意力得分结果下每个图像块对分类结果的作用大小，筛选出关键图像块特征，降低无关特征对结果造成干扰。多分类交叉熵作为基本损失函数用于监督模型训练，对比损失函数能够使不同标签对应的分类标记的相似性最小，使相同标签y样本的分类标记的相似性最大化。最后在正畸生产环境中通过数据集训练模型验证了本申请的可行性和有效性。

在该方法应用到正畸患者的医学图像分类场景时，该方法可以为正畸过程中医生提交患者图像资料时提供自动识别分类功能，从而解决在操作过程中易出错和操作繁琐以及所提交的图片类型正面像和微笑像、上颌和下颌以及左颌面像和右颌面像类间十分相似导致的错分类问题。且引入了对比损失函数，放大相似类间的局部差异，解决多分类交叉熵损失函数未能完全监督特征的学习的问题。因此，通过改进的图像深度学习模型对正畸患者图片类型进行快速且准确地自动类型识别，避免手动操作过程耗时长和由于人为因素导致图片放置位置错误，提高医生提交病例时的处理效率，加快正畸治疗进度，达到辅助诊断的目的。同时本专利改进的深度学习模型较目前优秀的图像分类方法在准确率上有明显提升，进一步提高了正畸案例治疗处理效率，避免由于识别出错导致的重复操作。

因而，上述方法采用块选择模块对每个图像块进行对分类结果重要性计算，得到每个图像块的注意力得分，以区分对分类结果影响到的关键特征和无关特信息，提高模型识别准确率。且引入对比损失函数，放大相似类间的局部差异，解决多分类交叉熵损失函数未能完全监督特征的学习的问题。同时为增加关键特征分到同一个块的概率，采用基于滑动窗口进行切分，产生具有重叠区域的图像块，避免损害了图像局部邻近结构。

针对分类过程中出现了类间相似导致难以分类的问题，通过结合基于滑动窗口的图像分块策略、ViT特征编码网络、块选择模块以及对比损失等先进技术，大幅度提升了模型分类准确率，避免错分类导致二次手动操作影响操作效率。

本申请基于块选择增强的ViT模型能够在正畸患者图像自动识别任务上取得更高的分类性能，有效地解决了类间较相似的分类难题，为正畸平台提供了方便快捷的自动分类工具，提升医生病例提交效率。

为了验证上述图像分类模型训练方法训练得到的模型性能，本申请实施例经过在真实正畸生产环境中进行实验，证明其可行性，具体实验过程和结果如下所示。

模块参数和训练过程参数设置对性能结果表现有着密切关联，经大量实验调优后，具体参数设置如下：采用图像预训练模型ViT_32进行权重加载，其在imageNet21K数据集上进行预训练，层数大小为12，输入维度大小为448*448，分块大小为16*16，嵌入维度为768，多头注意力机制头数为8。基于滑动窗口进行块切分策略中，H、W、P和S分别被设置为448、448、16和12。边际因子α设置为0.4。

损失函数为多分类交叉熵损失函数；批处理大小为8，初始学习率大小为3e-2；训练轮次为8次；采用优化器RAdam自适应调整学习率大小使模型在训练过程中跳出局部最优，增强模型寻优能力，从而加速模型收敛和提升训练效果。

为验证本申请提出的模型ViT-PSM在正畸图片分类任务上的可行性和有效性，采用图像分类任务中常用的相关评价指标：准确率(Accuracy)，计算过程如下述公式十二所示。

，公式十二

为验证发明ViT-PSM模型的分类性能，采用医生提交患者照片资料数据集，通过爬虫方式进行数据收集，由专业口腔正畸研究方法的医生进行数据标注。存在10个类别需要区分的图片，如正面像、微笑像、上颌、下颌、正颌面像、侧脸像、左颌面像、右颌面像、侧X光和全X光共11292张，数据集详情如表1所示。实验过程将数据集按照8:1:1划分成训练集、测试集和验证集，划分过程完全随机。

表1

实验结果如表2所示。

表2

图5是本申请实施例提供的一种图像分类方法的流程图，该方法应用于电子设备中，该电子设备为终端或服务器，参见图5，该方法包括以下步骤。

501、电子设备获取待分类的图像。

在有分类需求时，电子设备可以获取待分类的图像，然后应用如图1所示的图像分类模型训练方法训练得到的图像分类模型进行分类，从而确定该图像的类别。

在一些实施例中，该待分类的图像可以为医学图像，例如，该待分类的图像可以为正面图像、微笑图像、上颌面像、下颌面像、正颌面像、侧脸像、左颌面像、右颌面像、侧X光图像和全X光图像中的任一种。上述图像分类模型基于这些图像训练得到，即具备对这些图像进行分类的功能。在此仅为一种示例性说明，本领域技术人员可以根据需求设置上述类别，本申请实施例对此不作限定。

502、电子设备基于图像分类模型，对该图像进行分块处理，得到该图像的多个图像块。

所述图像分类模型基于样本图像训练得到，所述样本图像携带有分类标签，所述样本图像的分类标签用于指示所述样本图像的类别。该图像分类模型的训练过程具体可以参见上述图1所示实施例，在此不多做赘述。

与步骤102中的步骤一同理的，该分块过程其实质为图像分割、图像裁剪过程。分块的不同，能够提取到的图像特征也可能不同。

与步骤102中的步骤一同理的，在一些实施例中，分块步骤可以通过滑动窗口实现，该步骤502可以为：电子设备基于图像分类模型，利用滑动窗口，对该图像进行分割，得到该图像的多个图像块，其中，该多个图像块中相邻的两个图像块存在重叠区域。

该图像分类模型对图像进行分块处理的过程具体可以参见上述图1所示实施例中步骤102中的步骤一，在此不多做赘述。

503、电子设备基于该图像分类模型，确定该多个图像块各自的注意力权重，一个图像块的该注意力权重用于指示该图像块对确定该图像所属类别的影响力。

可以理解地，如果一个图像块的注意力权重较大，说明该图像块对确定该图像所属类别的影响力越大，也就说明该图像块对该图像分类过程很重要，后续分类过程则会重点注意该图像块。

与上述步骤102中的步骤二同理的，在一些实施例中，该图像分类模型可以包括编码层，该步骤503可以为：电子设备基于该图像分类模型中的编码层，对该多个图像块进行编码，得到该多个图像块的编码信息，然后基于该图像分类模型的模型参数，对该多个图像块的编码信息进行计算，得到该多个图像块各自的注意力权重。

与上述步骤102中的步骤二同理的，在一些实施例中，该图像分类模型包括多层编码层。相应的，该步骤503可以为：电子设备基于该图像分类模型中的第i层编码层，对该多个图像块进行编码，得到该多个图像块的第一编码信息，继续基于该图像分类模型中的第i+1层编码器，对该第一编码信息进行编码，得到该多个图像块的第二编码信息，直至最后一层编码器编码得到该多个图像块的目标编码信息，该i为正整数。然后电子设备基于该图像分类模型的模型参数，对该多个图像块在每一层编码层得到的编码信息进行计算，得到该多个图像块在多层编码层的注意力权重，再对该多个图像块在多层编码层的注意力权重进行加权求和，得到该多个图像块各自的注意力权重。

需要说明的是，该步骤503中具体确定注意力权重的过程具体可以参见上述步骤102中的步骤二，在此不多做赘述。

504、电子设备基于该图像分类模型、该多个图像块和该多个图像块各自的注意力权重，对该图像进行分类，得到该图像的类别。

与上述步骤102中的步骤三同理的，在一些实施例中，电子设备在进行分类时可以先筛选目标图像块，再基于目标图像块进行分类。相应的，该步骤504可以为：电子设备基于该图像分类模型、该多个图像块和该多个图像块各自的注意力权重，确定至少一个目标图像块，该目标图像块的该注意力权重符合目标条件，然后基于该至少一个目标图像块，对该图像进行分类，得到该图像的类别。

在一些实施例中，该图像分类模型的模型参数基于第一损失值和第二损失值进行更新得到，其中，该第一损失值用于指示样本图像的预测类别和所携带分类标签之间的误差，该第二损失值用于指示第一相似度与第二相似度之间的误差，该第一相似度为两个样本图像的图像特征之间的相似度，该第二相似度为两个样本图像携带的分类标签之间的相似度，其中，样本图像携带的分类标签用于指示该样本图像的真实类别。该图像分类模型的具体训练过程具体可以参见上述图1所示实施例，在此不多做赘述。

上述所有可选技术方案，能够采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图6是本申请实施例提供的一种图像分类装置的结构示意图，参见图6，该装置包括：

获取模块601，用于获取待分类的图像；

分块模块602，用于基于图像分类模型，对所述图像进行分块处理，得到所述图像的多个图像块；

确定模块603，用于基于所述图像分类模型，确定所述多个图像块各自的注意力权重，一个图像块的所述注意力权重用于指示所述图像块对确定所述图像所属类别的影响力；

分类模块604，用于基于所述图像分类模型、所述多个图像块和所述多个图像块各自的注意力权重，对所述图像进行分类，得到所述图像的类别。

在一些实施例中，所述分块模块602用于基于图像分类模型，利用滑动窗口，对所述图像进行分割，得到所述图像的多个图像块，其中，所述多个图像块中相邻的两个图像块存在重叠区域。

在一些实施例中，所述确定模块603包括编码单元和计算单元；

在一些实施例中，所述图像分类模型包括多层编码层；

所述计算单元用于：

在一些实施例中，所述分类模块604用于：

本申请实施例提供的装置，通过使用图像分类模型，由该图像分类模型先对图像进行分块，得到图像块，再逐个确定了图像块的注意力权重，从而进行分类，考虑到了不同图像块对图像分类结果的重要性和影响力，而并非直接对图像进行整体分类，这样可以有效聚焦图像的局部特征和细微特征差异，这样便可以区分出对分类结果影响到的关键特征和无关特征，从而使得分类结果更加准确，自然也就避免分类错误后人为纠正，从而大大提高了分类效率。

需要说明的是：上述实施例提供的图像分类装置在进行图像分类时，仅以上述各功能模块的划分进行举例说明，实际应用中，能够根据需要而将上述功能分配由不同的功能模块完成，即将图像分类装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像分类装置与图像分类方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是本申请实施例提供的一种图像分类模型训练装置的结构示意图，参见图7，该装置包括：

获取模块701，用于获取多个样本图像，所述多个样本图像分别携带有分类标签，一个样本图像携带的分类标签用于指示所述样本图像的真实类别；

处理模块702，用于将所述多个样本图像输入初始图像分类模型中，由所述初始图像分类模型对所述多个样本图像进行分块处理得到每个样本图像的多个图像块，基于模型参数确定每个样本图像的多个图像块各自的注意力权重，基于每个样本图像的多个图像块以及各自的注意力权重，对所述每个样本图像进行分类，得到所述每个样本图像的预测类别；其中，一个图像块的所述注意力权重用于指示所述图像块对确定所述样本图像所属类别的影响力；

更新模块703，用于基于所述每个样本图像的预测类别和携带的分类标签，对所述初始图像分类模型的模型参数进行更新，直至符合目标条件时停止，得到图像分类模型。

在一些实施例中，所述更新模块703用于：

在一些实施例中，所述处理模块702用于由所述初始图像分类模型，利用滑动窗口，对所述多个样本图像进行分割，得到每个样本图像的多个图像块，其中，每个样本图像的多个图像块中相邻的两个图像块存在重叠区域。

在一些实施例中，所述处理模块702用于：

在一些实施例中，所述图像分类模型包括多层编码层；

所述处理模块702用于：

在一些实施例中，所述处理模块702用于：

本申请实施例提供的装置，在训练图像分类模型时由该图像分类模型先对图像进行分块，得到图像块，再逐个确定了图像块的注意力权重，从而进行分类，考虑到了不同图像块对图像分类结果的重要性和影响力，而并非直接对图像进行整体分类，这样可以有效聚焦图像的局部特征和细微特征差异，这样便可以区分出对分类结果影响到的关键特征和无关特征，让模型学习到细微特征差异，从而提升模型的分类性能，使用这样的图像分类模型进行分类，也能够更加准确地分类，自然也就避免分类错误后人为纠正，从而大大提高了分类效率。

需要说明的是：上述实施例提供的图像分类模型训练装置在训练图像分类模型时，仅以上述各功能模块的划分进行举例说明，实际应用中，能够根据需要而将上述功能分配由不同的功能模块完成，即将图像分类模型训练装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像分类模型训练装置与图像分类模型训练法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8是本申请实施例提供的一种电子设备的结构示意图，该电子设备800可因配置或性能不同而产生比较大的差异，能够包括一个或一个以上处理器（Central ProcessingUnits，CPU）801和一个或一个以上的存储器802，其中，所述存储器802中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器801加载并执行以实现上述各个方法实施例提供的图像分类方法或图像分类模型训练方法。该电子设备还能够包括其他用于实现设备功能的部件，例如，该电子设备还能够具有有线或无线网络接口以及输入输出接口等部件，以便进行输入输出。本申请实施例在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条计算机程序的存储器，上述至少一条计算机程序由可由处理器执行以完成上述实施例中的图像分类方法或图像分类模型训练方法。例如，计算机可读存储介质能够是只读存储器（Read-Only Memory，简称：ROM）、随机存取存储器（Random Access Memory，简称：RAM）、只读光盘（Compact Disc Read-Only Memory，简称：CD-ROM）、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括一条或多条程序代码，所述一条或多条程序代码存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码，所述一个或多个处理器执行所述一条或多条程序代码，使得电子设备能够执行上述图像分类方法或图像分类模型训练方法。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

应理解，根据A确定B并不意味着仅仅根据A确定B，还能够根据A和/或其它信息确定B。

本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成，也能够通过程序来指令相关的硬件完成，该程序能够存储于一种计算机可读存储介质中，上述提到的存储介质能够是只读存储器，磁盘或光盘等。

以上描述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像分类方法，其特征在于，所述方法包括：

获取待分类的图像；

基于图像分类模型，利用滑动窗口，对所述图像进行分割，得到所述图像的多个图像块，其中，所述多个图像块中相邻的两个图像块存在重叠区域；

基于所述至少一个目标图像块，对所述图像进行分类，得到所述图像的类别；

所述基于所述图像分类模型，确定所述多个图像块各自的注意力权重，包括：

基于所述图像分类模型中的编码层，对所述多个图像块进行编码，得到所述多个图像块的编码信息；基于所述图像分类模型的模型参数，对所述多个图像块的编码信息进行计算，得到所述多个图像块各自的注意力权重；

所述图像分类模型的模型参数基于第一损失值和第二损失值进行更新得到，其中，所述第一损失值用于指示样本图像的预测类别和所携带分类标签之间的误差，所述第二损失值用于指示第一相似度与第二相似度之间的误差，所述第一相似度为两个样本图像的图像特征之间的相似度，所述第二相似度为两个样本图像携带的分类标签之间的相似度，其中，样本图像携带的分类标签用于指示所述样本图像的真实类别；

图像分割方法为：；

其中，图像的分辨率大小为，图像块的大小设置为P，滑动窗口的尺寸为S，图像块的数量为N，/>为图像块的高度，/>图像块的宽度；

图像分类模型可以对输入的样本图像进行分块后，利用线性投影层对样本图像的多个图像块进行嵌入处理，得到该多个图像块的嵌入信息，然后将该多个图像块的嵌入信息与该多个图像块的位置编码进行拼接，得到该多个图像块的目标嵌入信息；线性投影层的具体计算公式为：/>其中，N表示图像块数量，/>为图像块嵌入投影矩阵，C为通道数，D为图像块经映射后维度大小，/>表示每个图像块的相对位置嵌入，/>向量表示可学习的嵌入向量。

2.一种图像分类装置，其特征在于，所述装置包括：

获取模块，用于获取待分类的图像；

分块模块，用于基于图像分类模型，利用滑动窗口，对所述图像进行分割，得到所述图像的多个图像块，其中，所述多个图像块中相邻的两个图像块存在重叠区域；

分类模块，用于基于所述图像分类模型、所述多个图像块和所述多个图像块各自的注意力权重，确定至少一个目标图像块，所述目标图像块的所述注意力权重符合目标条件；基于所述至少一个目标图像块，对所述图像进行分类，得到所述图像的类别；

其中，所述基于所述图像分类模型，确定所述多个图像块各自的注意力权重，包括：

图像分割方法为：；

3.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1所述的图像分类方法。

4.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1所述的图像分类方法。