CN116543429A

CN116543429A - 基于深度可分离卷积的舌象识别系统及方法

Info

Publication number: CN116543429A
Application number: CN202310276430.5A
Authority: CN
Inventors: 赵盛荣; 刘雨辰; 梁虎
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2023-08-04

Abstract

本公开涉及图像处理技术领域，提出了一种基于深度可分离卷积的舌象识别系统及方法，通过构建舌象识别网络，融合深度可分离卷积和残差网络，对输入后的待分类舌象图像，反复进行倒残差操作，依次扩大通道数，扩大特征图感受野后捕捉图中更加细节的舌像特征表征信息，以用于对舌像的识别分类；每次倒残差操作中，进行深度可分离卷积操作，并基于通道注意力和空间注意力操作提取特征图通道和空间上的关联信息。以实现中医舌诊的客观化并在舌象数据量较小的情况下，实现利用深度学习网络模型来快速、准确的判别舌象，从而提高舌象识别分类的准确度和速度。

Description

基于深度可分离卷积的舌象识别系统及方法

技术领域

本公开涉及图像处理相关技术领域，具体的说，是涉及一种基于深度可分离卷积的舌象识别系统及方法。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，并不必然构成在先技术。

舌诊作为中医的特色诊法之一，因其可直观反映人体气血状态、脏腑功能与邪气盛衰，加之舌外无表皮覆盖，舌象的变化往往先于临床症状而显现于外，但因舌诊主观依赖性较强，量化、客观化研究仍处于探索阶段，致使其在疾病如高血压病诊疗中的价值未被重视及充分挖掘。探寻舌象信息间深层规律，进而建立一种基于舌象的评估模型，或可最大化地发挥舌诊在智能医疗诊疗中的优势，实现中医舌诊的传承转化与创新。现有的舌象识别方法识别速度较慢且参数量较大，无法很好的将其应用在移动端设备上。

发明人在研究中发现，舌象医疗数据数据量很小，无法满足深度神经网络的训练，并且对于一般的卷积神经网络而言，随着网络层数的不断加深，过拟合情况往往会非常严重，无法获得准确用于舌象图像分类的深度神经网络。进而如何在数据量较小的情况下，实现利用神经网络模型对医疗舌象图片进行快速、自动而准确的分类是一个亟待解决的问题。

发明内容

本公开为了解决上述问题，提出了一种基于深度可分离卷积的舌象识别系统及方法，以实现中医舌诊的客观化并在舌象数据量较小的情况下，实现利用深度学习网络模型来快速、准确的判别舌象，并且从而提高舌象识别分类的准确度和速度。本公开提出了一种轻量性的识别方法，模型参数量比现有模型的参数量都小且运行速度快。

为了实现上述目的，本公开采用如下技术方案：

一个或多个实施例提供了基于深度可分离卷积的舌象识别方法，包括如下步骤：

获取待分类的舌象图片，并进行特征提取得到输入特征图；

采用倒残差操作，将输入的特征图，依次进行通道数扩张操作与深度可分离卷积操作，并基于通道注意力机制和空间注意力机制捕捉特征图通道和空间上的关联信息；

级联进行多次倒残差操作，上一级倒残差操作的输出连接至下一级级联操作，依次扩大通道数，扩大特征图感受野后捕捉图中更加细节的舌像特征表征信息；

针对舌像特征表征信息，转换特征处理通道数后进行分类输出。

一个或多个实施例提供了基于深度可分离卷积的舌象识别系统，包括：

输入模块：被配置为获取待分类的舌象图片，并进行特征提取得到输入特征图；

倒残差模块：被配置为用于采用倒残差操作，将输入的特征图，依次进行通道数扩张操作与深度可分离卷积操作，并基于通道注意力机制和空间注意力机制捕捉特征图通道和空间上的关联信息；

分类输出模块：被配置为针对舌像特征表征信息，转换特征处理通道数后进行分类输出。

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述方法所述的步骤。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述方法所述的步骤。

与现有技术相比，本公开的有益效果为：

本公开中，利用深度可分离卷积和残差网络来实现舌象判别，避免了模型的过拟合问题和卷积神经网络模型参数量较大的问题。

本公开中还创新性的提出了一种包括通道注意力和空间注意力的注意力机制并将其和深度可分离卷积操作融合，最终提高了模型推理的准确度和速度，可以部署在移动设备上，不再需要人工识别舌象，实现了中医舌象判别的客观化，并且提高了舌像信息识别的准确性。

本公开的优点以及附加方面的优点将在下面的具体实施例中进行详细说明。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的限定。

图1是本公开实施例1的舌象识别网络训练的流程图；

图2是本公开实施例1的舌象识别网络的结构示意图；

图3是本公开实施例1的CASA注意力子模块的结构示意图；

图4是本公开实施例1的CASA注意力子模块的算法流程图；

图5是本公开实施例1的带残差连接的倒残差模块的流程结构图；

图6是本公开实施例1的不带残差连接的倒残差模块的流程结构图；

图7是本公开实施例1提供的舌象识别网络与现有模型参数量的对比图；

图8是本公开实施例1提供的舌象识别网络与现有模型FLOPs(浮点运算数)对比图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是，在不冲突的情况下，本公开中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。

实施例1

在一个或多个实施方式公开的技术方案中，如图1至图8所示，基于深度可分离卷积的舌象识别方法，包括如下步骤：

步骤1、获取待分类的舌象图片，并进行特征提取得到输入特征图；

步骤2、采用倒残差操作，将输入的特征图，依次进行通道数扩张操作与深度可分离卷积操作，并基于通道注意力机制和空间注意力机制捕捉特征图通道和空间上的关联信息；

步骤3、级联进行多次倒残差操作，上一级倒残差操作的输出连接至下一级级联操作，依次扩大通道数，扩大特征图感受野后捕捉图中更加细节的舌像特征表征信息；

步骤4、针对舌像特征表征信息，转换特征处理通道数后进行分类输出。

本实施例中，融合深度可分离卷积和残差网络，对输入后的待分类舌象图像，反复进行倒残差操作，每次倒残差操作中，进行深度可分离卷积操作，并基于通道注意力和空间注意力操作提取特征图通道和空间上的关联信息，对深度可分离卷积操作后的特征图施加权重；多次倒残差操作依次扩大通道数，扩大特征图感受野后捕捉图中更加细节的舌像特征表征信息，以用于对舌像的识别分类；通过融合利用深度可分离卷积和残差网络来实现舌象判别，避免了模型的过拟合问题和卷积神经网络模型参数量较大的问题。

本实施例中还创新性的提出了一种包括通道注意力和空间注意力的CASA注意力机制并将其和深度可分离卷积操作融合，最终提高了模型推理的准确度和速度，可以部署在移动设备上，不再需要人工识别舌象，实现了中医舌象判别的客观化，并且提高了舌像信息识别的准确性。

步骤1中为特征提取的步骤，针对待分类的舌象图片，可以依次进行卷积操作、批量归一化操作以及函数激活输出操作，得到输入特征图，进行了浅层特征的提取，以有利于后面的步骤进行更深层次的特征提取。

步骤4中，针对舌像特征表征信息，转换特征处理通道数后进行分类输出，包括如下步骤：

对倒残差操作后的输出，进行特征处理通道数的转换，得到通道转换后的特征图；

对通道转换后的特征图进行全局平均池化操作；

针对全局平均池化后的特征图，进行线性转换得到分类输出。

上述舌象识别方法通过构建象识别网络实现，下面对舌象识别网络的网络结构进行说明。

在一些实施例中，如图2所示，舌象识别网络采用深度可分离卷积网络，在深度可分离卷积网络中融合设置了残差网络和CASA注意力子模块。

在一些可以实现的实施方式中，深度可分离卷积网络从输入到输出，包括依次连接的输入模块、多个倒残差模块、卷积归一化激活模块、全局池化层和分类输出模块。

输入模块，用于对输入的图像进行卷积以及批量归一化处理，激活后得到输入特征图；

多个倒残差模块通过残差连接进行连接，反复进行倒残差操作，依次扩大通道数，扩大特征图感受野后捕捉图中更加细节的舌像特征表征信息；

其中，舌像特征表征信息为用于表征舌色、舌态、舌下脉络、苔质、苔色等特征的信息。舌态主要包括舌的痿软、歪斜以及短缩等特征；苔质主要包括舌苔的厚薄、润燥、腻腐、剥落等方面的特征。

本实施例倒残差模块，不仅仅能够识别舌色、舌形、苔色等基本的特征，通过能够提取关于舌像更综合细致的特征。

每个倒残差模块，被配置为针对输入的特征图，依次进行通道数扩张操作与深度可分离卷积操作，基于通道注意力机制和空间注意力机制捕捉特征图通道和空间上的关联信息，进行通道数压缩后，得到第二特征图，压缩后连接至下一倒残差模块或者卷积归一化激活模块。

卷积归一化激活模块，用于对倒残差模块的输出，进行特征处理通道数的转换；

全局池化层，用于对卷积归一化激活模块输出的特征图进行全局平均池化操作；

分类输出模块，针对全局平均池化后的特征图，进行线性转换得到分类输出。

针对背景技术中提出的，训练数据量小的问题，对舌象识别网络进行训练时，还包括构建扩展数据样本集步骤，如下：

构建扩展数据样本集，包括如下步骤：

步骤S11、获取舌象视频并提取舌象图片，生成舌象图片数据库；

具体的，可以由医院用舌象图片采集设备来采集临床患者舌象视频，再从视频中提取舌象图片，生成舌象图片数据库；

步骤S12、对舌象图片数据库中的图片进行人工数据集标注；

步骤S13、标注完成后对图片进行预处理与数据增强处理，建立扩展数据样本集；

可选的，数据增强处理可以包括随机水平翻转、随机垂直翻转以及中心区域随机裁剪并拉伸等数据增强操作；

本实施例通过数据增强处理，能够增大数据的样本量，从而克服舌象图片严重不足而导致的训练数据量无法满足训练要求的技术缺陷。

用扩展样本数据集对舌象识别网络进行训练，获得训练后的舌象识别网络；

在舌象识别阶段，将待分类的舌象图片输入舌象判别模型，获得分类结果。

在一些实施例中，舌象识别网络的输入模块包括依次连接的第一卷积层、第一批量归一化层和第一激活函数层；

可设置的，第一卷积层的输入通道数可以设置为3，输出通道数可以设置为16，步长可以设置为1。

可选的，第一激活函数层可以采用HardSwish激活函数。

HardSwish激活函数是一种人工神经网络激活函数，它是对Swish激活函数的改进版本。

HardSwish函数的数学公式为：

f(x)＝x*ReLU6(x+3)/6，

其中，ReLU6是一种非线性激活函数，其全称为"Rectified Linear Unit 6"。

ReLU6的数学公式为：f(x)＝min(max(0,x),6)，即当x大于0时输出x，当x小于等于0时输出0，当x大于6时输出6。

HardSwish的输出范围在0到1之间，与普通的ReLU(表示修正线性单元(RectifiedLinear Unit)，即：当x大于0时输出x，否则输出0)激活函数不同，它不会产生梯度消失和梯度爆炸的问题。同时，HardSwish比Swish激活函数更加稳定，运算速度更快，因此在深度学习任务中具有更高的效率。采用HardSwish激活函数的优势在于它可以在保证模型性能的同时降低计算复杂度，在实际应用中具有很高的价值。此外，在卷积层和激活层之间使用了批量归一化层。通过使用批量归一化层，可以在每个正向传播过程中对数据的正态分布进行归一化。

在一些实施例中，倒残差模块包括依次连接的第一卷积归一化激活子模块、第二卷积归一化激活子模块、CASA注意力子模块、第三卷积归一化激活子模块和残差连接模块。

本实施例中，在所有的倒残差模块中，前两个卷积归一化激活子模块，即第一卷积归一化激活子模块和第二卷积归一化激活子模块均可以采用ReLU6作为激活函数，第三卷积归一化激活子模块可以采用HardSwish激活函数。

本实施例的倒残差模块设置了三个卷积批量归一化子模块，具体来说，卷积批量归一化子模块包含了一个卷积层，一个批量归一化层和一个HardSwish激活函数。卷积批量归一化子模块的结构可以与卷积归一化激活模块的结构相同。

卷积归一化激活模块包括依次连接的第二卷积层、第二批量归一化层和第二激活函数层；第二激活函数层可以采用HardSwish激活函数。

全局池化层包含了一个全局平均池化操作；

分类输出模块包括第三卷积层、第三激活函数层、随机丢弃层和线性输出层。第三激活函数层可以采用HardSwish激活函数。

本实施例中，在倒残差模块中引用残差连接可以有效的避免梯度消失问题，带有残差连接和不带有残差连接的倒残差模块分别如图5和图6所示，如果输入的通道数与输出的通道数一致，则采用图5所示的结构(即用残差连接)；反之为图6；

本实施例提出的CASA注意力子模块可以使网络更加关注重要的细节信息。CASA注意力子模块通过学习来自动获取每个特征通道中的重要特征和空间上的有效特征，实现了选择性的提升通道和空间中有用的特征，抑制无用的特征。

可选的，CASA注意力子模块的结构可以如图3所示，包括依次连接的通道注意力部分和空间注意力部分。

通道注意力部分，用于对每个输入通道进行自适应性加权；

空间注意力部分，用于对每个像素点进行自适应性加权。

本实施例中，通过结合通道注意力和空间注意力两个注意力机制，使得CASA注意力子模块可以更好地捕捉空间和通道上的重要信息。

可选的，通道注意力部分具体采用Coordinate Attention(CA)注意力机制，引入一个CA注意力子模块；

进一步地，将通道注意力部分缩减通道数率固定为16。

本实施例对CA注意力子模块的改进为将缩减通道数率固定为16，在舌象数据上的处理效果更好。

CA注意力子模块将位置信息嵌入到通道注意力中，克服了经典的SE模块忽略位置信息的缺点，能够进一步提升本模型的性能。SE通道注意力通过二维全局池化将特征张量转换为单个特征向量；CA注意力将通道注意力分解为两个一维特征编码过程，从而更有效的来捕获位置信息和通道关系，以增强网络的特征表示。

CA注意力子模块包括两个全局平均池化层，一个卷积层一个批量归一化操作和一个HardSwish激活函数层；

CA注意力子模块，用于对输入的特征矩阵进行池化，然后对得到的高和宽轴的特征图进行融合，生成最终的高和宽轴的注意力机制，得到通道注意力特征矩阵；具体的，处理过程包括如下步骤：

步骤A1：将输入数据x经过两个全局平均池化获得高特征图x_h和宽轴特征图x_w两个矩阵，然后对矩阵进行拼接；

如图4中所示，进行横轴平均池化得到高特征图x_h，进行纵轴平均池化得到宽轴特征图x_w；

步骤A2：对拼接后的矩阵进行卷积操作，并进行正态分布的归一化调整，然后通过激活函数处理；

具体的，拼接后的矩阵经过一个1×1的卷积(conv1)和批量归一化，并经过HardSwish激活函数；

步骤A3：通过激活函数处理后的特征图，进行卷积操作分别计算出高和宽轴的注意力得分，基于得分得到通道注意力特征矩阵，基于该通道注意力的得分可以调整权重。

具体的，通过两个1×1的卷积(conv2和conv3)分别计算出输出矩阵out_h和out_w两个概率分布，并将输入矩阵和原始输入的乘积输出。

一种可实现的实施方式，三个卷积层conv1，conv2和conv3，分别用于将平均池化后的高和宽轴的特征图进行融合，并生成最终的高和宽轴的注意力机制。其中，第一个卷积层conv1的输出通道数为输入通道数/16，核大小为1，步长为1，不使用填充。在第一个卷积层conv1后面接了一个批量归一化层，一个HardSwish激活函数。第二个卷积层conv2和第三个卷积层conv3的输入通道数均为输入通道数/16，输出通道数为了方便下面衔接空间注意力子模块则设为原输入通道数，核大小为1，步长为1，同样不使用填充。

空间注意力部分是对通道注意力的补充，与通道注意力不同的是，空间注意力更关注哪里是最具有信息量的部分。

可选的，空间注意力部分由一个多层感知机组成，主要包括一个压缩部分和一个空间部分。

压缩部分采用一种通道池化操作，而空间部分则采用一个卷积层和一个批量归一化层。

空间注意力部分，对输入数据即为通道注意力特征矩阵进行压缩，并通过卷积操作建立空间特征间的相关性，然后依次进行特征提取和函数激活，得到每个像素的空间掩码并返回空间掩码和原始输入的乘积；具体的，如图4所示，通过通道注意力调整权重后执行空间注意力部分的处理过程，包括如下：

步骤B1、针对输入的通道注意力特征矩阵进行压缩，得到两通道输出，并提取空间特征间的相关性；

输入数据首先会经过压缩部分，通过在通道维度上进行最大值和均值的结合来实现通道池化，主要是将每个通道的最大值和均值拼接在一起得到一个包含两个通道的输出，其中的全局平均池化操作和最大池化操作获得了空间注意力特征，通过两个卷积建立空间特征间的相关性。

步骤B2、对两通道输出进行特征提取；

压缩部分得到的输出进入空间部分，对压缩部分的两个通道的输出进行特征提取，本实施例中采用了一个卷积核大小为7×7，步长为1，填充为3的卷积操作和一个批量归一化操作。通过卷积核为7×7的卷积操作，极大地减少了参数和计算量，有利于建立高维度的空间特征相关性。

步骤B3、对提取后的两通道特征，采用激活函数激活，得到空间注意力特征矩阵；

通过sigmoid函数进行激活，得到每个像素的空间掩码，进而计算空间掩码和原始输入的乘积。

本实施例中，当特征矩阵传入CASA注意力子模块，首先经过通道注意力部分获得一个通道注意力特征矩阵，然后将此特征矩阵再作为输入传入空间注意力部分，经过这种处理后网络模型将会更容易捕捉到通道和空间中较重要的信息，提高各个特征在通道和空间上的联系，从而更有利于提取目标的有效特征,提升识别准确率。

分类输出模块的随机丢弃层则是在训练过程中每次更新参数时随机断开输入神经元，以一定概率删除部分层。

可选的，随机丢弃层采用的丢弃率可以设置为20％。其作用是防止过拟合，提高模型的泛化能力。最后的线性输出层用来输出分类结果。

上述深度可分离卷积网络的数据处理过程为：

在深度可分离卷积网络中，输入一张224×224×3的图片，经过输入模块后进入倒残差模块，在模型中每一层卷积后都使用了Batch Normalization(批量归一化，BN)，BN的主要思路是对每次前向传播的过程中对数据进行正态分布的归一化调整。

倒残差模块的主要原理为：首先采用一个卷积归一化激活子模块对通道数进行1×1的卷积使通道数扩张到指定数量，接下来进入下一个卷积归一化激活子模块进行深度可分离卷积操作，卷积核大小为3×3或者5×5；之后经过上一个卷积归一化激活模块处理好的特征图会进入一个CASA注意力子模块，从而更好的捕捉通道和空间上的重要信息，其输入通道数与输出通道数与上一个卷积归一化激活模块的输出通道数相同。接着再采用一个1×1卷积核大小的卷积归一化激活模块将CASA注意力子模块处理好的特征图通道数压缩到指定量，此时如果输入倒残差模块中的通道数与输出的通道数相同且倒残差块中指定的步长为1，则采用残差连接链接倒残差模块的首尾，从而有效的减缓梯度消失的情况。

在本网络中倒残差模块将反复进行15次，通道数逐渐扩大，从而随着特征图感受野的不断扩大捕捉其中更加细节和重要的信息，具体的：

第一个倒残差结构的输入通道数为16，扩张后的通道数为16，输出通道数为16，该倒残差模块中第二个卷积归一化激活模块的卷积核大小为3×3，步长为1；

第二个倒残差结构的输入通道数为16，扩张后的通道数为64，输出通道数为24，该倒残块中第二个卷积归一化激活模块的卷积核大小为3×3，步长为2；

第三个倒残差结构的输入通道数为24，扩张后的通道数为72，输出通道数为24，该倒残块中第二个卷积归一化激活模块的卷积核大小为3×3，步长为1；

第四个倒残差结构的输入通道数为24，扩张后的通道数为72，输出通道数为40，该倒残块中第二个卷积归一化激活模块的卷积核大小为5×5，步长为2；

第五、六个倒残差结构的输入通道数为40，扩张后的通道数为120，输出通道数为40，该倒残块中第二个卷积归一化激活模块的卷积核大小为5×5，步长为1；

第七个倒残差结构的输入通道数为40，扩张后的通道数为240，输出通道数为80，该倒残块中第二个卷积归一化激活模块的卷积核大小为3×3，步长为2；

第八个倒残差结构的输入通道数为80，扩张后的通道数为200，输出通道数为80，该倒残块中第二个卷积归一化激活模块的卷积核大小为3×3，步长为1；

第九、十个倒残差结构的输入通道数为80，扩张后的通道数为184，输出通道数为80，该倒残块中第二个卷积归一化激活模块的卷积核大小为3×3，步长为1；

第十一个倒残差结构的输入通道数为80，扩张后的通道数为480，输出通道数为112，该倒残块中第二个卷积归一化激活模块的卷积核大小为3×3，步长为1；

第十二个倒残差结构的输入通道数为112，扩张后的通道数为672，输出通道数为112，该倒残块中第二个卷积归一化激活模块的卷积核大小为3×3，步长为1；

第十三个倒残差结构的输入通道数为112，扩张后的通道数为672，输出通道数为160，该倒残块中第二个卷积归一化激活模块的卷积核大小为5×5，步长为2；

第十四、十五个倒残差结构的输入通道数为160，扩张后的通道数为960，输出通道数为160，该倒残块中第二个卷积归一化激活模块的卷积核大小为5×5，步长为1；)

接下来进入一个卷积归一化激活模块，采用1×1卷积将输出通道数转换为960；接下来进入全局平均池化层，进行平均池化操作(卷积核大小为7×7，步长为1)，

最后经过输出模块：首先通过卷积操作将通道数从960扩张到1280(此处卷积核大小为1×1，步长为1)，经过Dropout(随机丢弃)层，该层在训练过程中每次更新参数时，都会随机断开输入神经元，并以一定的概率删除一些层，它的作用是防止过拟合，提高模型的泛化能力，最后用一个线性层转换为分类输出。

具体的，舌象识别网络训练过程的一个具体实现方式，可以如下：

S1、可以利用舌象采集设备采集临床患者舌象视频，再从视频中提取患者舌头部位的图片，由于涉及隐私，在截取时只截取舌头部分。

S2、图像标注。

舌象的标注工作由两名中医诊断的教授进行，如果出现不同意见则进行商讨，商讨未果再请其他教授进行判别，尽量将医生的个人主观性判断降到最小并获取较准确的判别结果。

S3、图像预处理：建立标注好的舌象图片数据集，去掉由于光线，伸舌动作不标准等造成的问题图片；对图片进行裁剪或缩放，使其成为224*224统一规格的图片

S4、对图片进行数据增强操作:由于舌象图片的特殊性，只做随机水平与垂直翻转以及随机裁剪100×100大小区域并进行拉伸的处理，从而构建舌象数据扩展库。

S5、图片输入到舌象识别网络模型，实验环境为单个的GPU集群，GPU为GeForceRTX 2080Ti，计算能力为7.5，显卡内存为12GB,使用pytorch深度学习库。

S6、模型进行训练，舌象数据扩展库中80％的舌象图片用来进行训练，20％的舌象图片用来进行测试，设置100次迭代训练，采用Adam优化器，批量大小设置为4，学习率直接固定为0.0003，模型针对学习率不再进行微调，以期望收获更一般的效果。在训练时利用回调函数将训练集中的扩展数据样本的索引次序进行打乱，获得次序打乱后的训练集。本实施例在训练过程中，调用回调函数，该函数会在每一个epoch(纪元，训练)结束的时候自动执行，它的意义是随机打乱索引次序以方便下一批训练数据运行，其中shuffle(洗牌)决定是否在数据生成时要对数据进行打乱。

S7、模型训练完成后进行模型测试，确定测试精度。

最后拿本模型和一些经典模型和轻量级模型进行比较，比较结果见下表1、表2、图7和图8所示。最终发现本模型相比其他模型而言性能更优越且具有轻量性，可以根据舌象图片更快速、更准确的识别舌象综合信息。

表1

模型	参数量
		She_mobile(Ours)	3.3M
Mobilenetv3-large	4.2M
		MobileViT_Small	4.94M
Resnet50	23.51M
		GoogLenet	5.98M
VGG_16	134.27M
		Alexnet	14.59M

表2

模型	准确率
		She_mobile(Ours)	72％
Mobilenetv3-large	58％
		MobileViT_Small	57％
Resnet50	65％
		GoogLenet	46％
VGG_16	46％
		Alexnet	46％

表中，She_mobile(Ours)为本实施例的识别方法；

Mobilenetv3-large：

MobileNetV3是一种轻量级的卷积神经网络，是在MobileNetV2的基础上进一步改进而来的。MobileNetV3采用了一些创新的设计来提高模型的性能，如通过可分离卷积和线性瓶颈激活函数来减少计算量和内存占用，以及通过Squeeze-and-Excitation模块来提高模型的表达能力。MobileNetV3-large是MobileNetV3系列中的一个大型模型，具有更高的准确率和更复杂的网络结构。

MobileViT_Small：

MobileViT是一种基于Transformer架构的轻量级图像分类模型，旨在解决在移动设备上进行高效图像分类的问题。MobileViT_Small是MobileViT系列中的一个小型模型，由于采用了轻量级的Transformer结构和注意力机制，因此可以在保持较高准确率的情况下显著减少模型的大小和计算量。

Resnet50：

ResNet(Residual Network)是一种非常流行的深度残差网络，由于在2015年ImageNet图像分类竞赛中获得了优异的表现而广受关注。ResNet采用了残差块的设计，允许信息在网络中跨越多个层级进行传递，从而解决了梯度消失和模型退化等问题。ResNet50是ResNet系列中的一个具有50层卷积的模型，通常用于图像分类和目标检测等任务。

GoogLeNet：

GoogLeNet是Google在2014年提出的一种深度卷积神经网络，是第一个在ImageNet图像分类竞赛中打败人类视觉系统的神经网络。GoogLeNet采用了Inception模块的设计，允许网络在不同尺度和不同层级上提取特征，从而在保持较少参数和计算量的情况下提高准确率。GoogLeNet具有22个层级，其中包括9个Inception模块和3个全连接层。

VGG_16：

VGG(Visual Geometry Group)是一种经典的卷积神经网络，由牛津大学的研究团队于2014年提出。VGG的主要特点是采用了多个小尺寸的卷积核，使得网络可以更深，并且具有更好的表达能力。VGG-16是VGG系列中的一个模型，具有16个卷积层和3个全连接层，通常用于图像分类任务。

Alexnet：

AlexNet是一种非常经典的深度卷积神经网络，由Alex Krizhevsky等人在2012年提出，并在ImageNet图像分类竞赛中大幅度超越传统机器学习方法。AlexNet采用了多层卷积和池化层，具有非常深的网络结构和大量的可训练参数。除此之外，AlexNet还采用了一些创新的技术，如ReLU激活函数、Dropout正则化和数据增强等，从而使得网络可以更好地泛化和防止过拟合。

本实施例的方法可以快速、高效的识别舌象综合特征，其识别效果优于传统的卷积神经网络模型和最近的轻量级卷积神经网络模型，而且模型参数量较小，能够很好的部署在移动端设备上来完成识别舌像的识别。

实施例2

基于实施例1，本实施例中提供基于深度可分离卷积的舌象识别系统，包括：

输入模块：获取待分类的舌象图片，并进行特征提取得到输入特征图；

舌象识别系统通过构建象识别网络实现，下面对舌象识别网络的网络结构进行说明。

在一些实施例子中，舌象识别网络采用深度可分离卷积网络，在深度可分离网络中融合设置了残差网络和CASA注意力子模块；

深度可分离卷积网络从输入到输出，包括依次连接的输入模块、多个倒残差模块、卷积归一化激活模块、全局池化层和分类输出模块；

多个倒残差模块通过残差连接进行连接，反复进行倒残差操作，依次扩大通道数，扩大特征图感受野后捕捉图中更加细节的信息以及舌像的特征表征信息；

输入模块包括依次连接的第一卷积层、第一批量归一化层和第一激活函数层；

倒残差模块包括依次连接的第一卷积归一化激活子模块、第二卷积归一化激活子模块、CASA注意力子模块、第三卷积归一化激活子模块和残差连接模块；

全局池化层包含了一个全局平均池化操作；

可选的，CASA注意力子模块通过学习来自动获取每个特征通道中的重要特征和空间上的有效特征，选择性的提升通道和空间中有用的特征，抑制无用的特征；

具体的，CASA注意力子模块包括依次连接的通道注意力部分和空间注意力部分；

通道注意力部分，用于对每个输入通道进行自适应性加权；

空间注意力部分，用于对每个像素点进行自适应性加权。

通道注意力部分具体为CA注意力子模块，采用CA注意力机制，将通道注意力部分缩减通道数率固定为16；

在一些实施例中，CA注意力子模块，用于对输入的特征矩阵进行池化，然后对得到的高和宽轴的特征图进行融合，生成最终的高和宽轴的注意力机制，得到通道注意力特征矩阵，具体的，处理过程包括如下步骤：

将输入数据经过两个全局平均池化获得高特征图矩阵和宽轴特征图矩阵，然后对两个矩阵进行拼接；

对拼接后的矩阵进行卷积操作，并进行正态分布的归一化调整，然后通过激活函数处理；

通过激活函数处理后的特征图，进行卷积操作分别计算出高和宽轴的注意力得分；

在一些实施例中，空间注意力部分，对输入数据即为通道注意力特征矩阵进行压缩，并通过卷积操作建立空间特征间的相关性，然后依次进行特征提取和函数激活，得到每个像素的空间掩码并返回空间掩码和原始输入的乘积。

本实施例中，利用深度可分离卷积和残差网络来实现舌象判别，避免了模型的过拟合问题和卷积神经网络模型参数量较大的问题。

实施例3

本实施例提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1的方法所述的步骤。

实施例4

本实施例提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1的方法所述的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.基于深度可分离卷积的舌象识别方法，其特征在于，包括如下步骤：

获取待分类的舌象图片，并进行特征提取得到输入特征图；

2.如权利要求1所述的基于深度可分离卷积的舌象识别方法，其特征在于：所述舌象识别方法通过构建舌象识别网络实现，舌象识别网络采用深度可分离卷积网络，在深度可分离网络中融合设置了残差网络和CASA注意力子模块；

3.如权利要求2所述的基于深度可分离卷积的舌象识别方法，其特征在于，对舌象识别网络进行训练，还包括构建扩展数据样本集步骤，如下：

获取舌象视频并提取舌象图片，生成舌象图片数据库；

对舌象图片数据库中的图片进行人工数据集标注；

标注完成后对图片进行预处理与数据增强处理，建立扩展数据样本集；

或者，数据增强处理包括随机水平翻转、随机垂直翻转或/和中心区域随机裁剪并拉伸数据增强操作。

4.如权利要求2所述的基于深度可分离卷积的舌象识别方法，其特征在于：

或者，倒残差模块包括依次连接的第一卷积归一化激活子模块、第二卷积归一化激活子模块、CASA注意力子模块、第三卷积归一化激活子模块和残差连接模块；

或者，卷积归一化激活模块包括依次连接的第二卷积层、第二批量归一化层和第二激活函数层；第二激活函数层采用HardSwish激活函数；

或者，全局池化层包含了一个全局平均池化操作；

或者，分类输出模块包括第三卷积层、第三激活函数层、随机丢弃层和线性输出层；第三激活函数层采用HardSwish激活函数。

5.如权利要求4所述的基于深度可分离卷积的舌象识别方法，其特征在于：

CASA注意力子模块通过学习来自动获取每个特征通道中的重要特征和空间上的有效特征，选择性的提升通道和空间中有用的特征，抑制无用的特征；

CASA注意力子模块包括依次连接的通道注意力部分和空间注意力部分；

通道注意力部分，用于对每个输入通道进行自适应性加权；

空间注意力部分，用于对每个像素点进行自适应性加权。

6.如权利要求5所述的基于深度可分离卷积的舌象识别方法，其特征在于：

CA注意力子模块包括两个全局平均池化层，一个卷积层一个批量归一化操作和一个HardSwish激活函数层。

7.如权利要求6所述的基于深度可分离卷积的舌象识别方法，其特征在于：

CA注意力子模块，用于对输入的特征矩阵进行池化，然后对得到的高和宽轴的特征图进行融合，生成最终的高和宽轴的注意力机制，得到通道注意力特征矩阵，具体的，处理过程包括如下步骤：

或者，空间注意力部分，对输入数据即为通道注意力特征矩阵进行压缩，并通过卷积操作建立空间特征间的相关性，然后依次进行特征提取和函数激活，得到每个像素的空间掩码并返回空间掩码和原始输入的乘积。

8.基于深度可分离卷积的舌象识别系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项方法所述的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项方法所述的步骤。