CN116309465A

CN116309465A - 一种基于改进的YOLOv5的自然环境下舌像检测定位方法

Info

Publication number: CN116309465A
Application number: CN202310281209.9A
Authority: CN
Inventors: 辛国江; 张杨; 王鑫; 梁昊; 刘嵘澂
Original assignee: Hunan University of Chinese Medicine
Current assignee: Hunan University of Chinese Medicine
Priority date: 2023-03-21
Filing date: 2023-03-21
Publication date: 2023-06-23
Anticipated expiration: 2043-03-21
Also published as: CN116309465B

Abstract

一种基于改进的YOLOv5的自然环境下舌像检测定位方法，包括：构建舌像数据集；采用YOLOv5作为舌像检测网络的基础网络，使用Ghost轻量化框架改进YOLOv5基础网络中原有的C3模块，融合SimAm注意力机制到舌像检测网络中，激活函数使用ReLU函数，得到改进的舌像检测网络；对改进的YOLOv5舌像检测网络进行训练，训练后得到在训练集中网络综合性能最高时的最佳权重，对舌像数据集进行预测；根据预测图像查看检测效果，实现舌像位置的检测和定位。本发明使用轻量化框架，与原YOLOv5基础网络相比减少大量的浮点数运算量，同时也使得训练后的权重轻量化，注意力机制对舌像信息进行多维度融合，ReLU激活函数使舌像检测网络具有稀疏性特征，提升舌像检测精度。

Description

一种基于改进的YOLOv5的自然环境下舌像检测定位方法

技术领域

本发明涉及图像识别领域，具体涉及基于改进的YOLOv5的自然环境下的舌像检测定位方法。

背景技术

舌诊是中医望诊的重要内容，通过观察病人的舌像，了解病理过程，可以无需现代化医疗设备，实现低成本的对人体进行检查。中医舌诊，一般在自然环境下进行诊治，依靠医生的辨证思维，对病人的身体情况做出诊断，不同的医生对同一种病症有不同的理解，便有了不同的诊治方案。或者通过舌诊仪等辅助设备来完成诊断，这些设备都有着造价高昂，要求在封闭的环境下，光源充足恒定的情况下，这种设备要求条件苛刻，不利于中医舌诊快速普及。在自然状态下进行舌像的获取存在自然光照，不同背景，拍摄设备等影响，自然环境下舌像的采集、检测和定位，成为舌像采集设备的关键。

随着深度学习的技术飞速发展，图像识别在各个领域都取得不错的成果。对舌像的采集方式主要分为两类：一类是通过统计学习结合色彩变换的方式；一类时通过深度学习的卷积神经网络的方式。统计学习结合色彩变换的方式需要有严苛的环境要求，无法满足自然环境下舌像的采集。现今深度学习的发展飞速发展，已经可以解决部分标准实验环境下舌像的采集工作，但是对于大规模的自然环境下的采集，依然存在一定的困难，比如存在不同的干扰物体，使得舌像采集、检测和识别困难。采集者的舌像特征复杂且相互关联，如舌色与苔色间的相关性较为明显，要达到预期的分类精度具有一定的难度；自然环境下存在颜色相近的干扰物体，常规的舌像检测时在高清的舌诊仪下采集，速度检测较慢，设备价钱昂贵。

因此需要一种高效的计算机图像识别方法来对图像中的舌像进行准确检测和定位。

发明内容

本发明设计了一种基于改进的YOLOv5的自然环境下舌像检测定位方法，包括：

步骤1、构建舌像数据集，数据集包括自然状态下的舌像数据和舌像仪采集的舌像数据，使用开源软件LabelImag进行标注，生成标签文件xml文件和对应的txt文件；

步骤2、采用YOLOv5作为舌像检测网络的基础网络，使用Ghost轻量化框架改进YOLOv5基础网络中原有的C3模块，融合SimAm注意力机制到舌像检测网络中，激活函数使用ReLU函数，得到改进的舌像检测网络；

步骤3、对步骤1中用LabelImag标注的实际框进行聚类，对所述舌像数据集中的图像进行Mosaic增强，结合标签文件xml文件和对应的txt文件中的信息，对改进的YOLOv5舌像检测网络进行训练，训练后得到在训练集中网络综合性能最高时的最佳权重，所述最佳权重加载至YOLOv5网络的检测文件，对舌像数据集进行预测；

步骤4、舌像检测网络在加载具有最佳权重的检测文件后，根据预测图像查看检测效果，实现舌像位置的检测和定位，并采用混淆矩阵进行评测。

进一步地，其中步骤1中，xml文件存储的是使用LabelImg标注的类别信息与像素值信息，txt文件存储的是使用xml文件转化的类别信息、代表实际框的中心点坐标与长宽的归一化信息。

进一步地，其中步骤2中，所述使用Ghost轻量化框架改进YOLOv5基础网络中原有的C3模块，所述Ghost轻量化框架采用两个分支结构，一个分支分别经过Ghost卷积、深度可分离卷积和Ghost卷积处理；另一个分支先经过深度可分离卷积，再经过1*1标准卷积层，将两个分支结果相加得到的特征图输出给下层网络；所述深度可分离卷积用于降低卷积参数量，所述1*1标准卷积层用于将特征图的各通道信息进行融合和添加非线性因素；

所述SimAm注意力机制承接上层网络输出的特征图，使用能量函数赋予具有空域抑制的神经元更高的权重，自动获取神经元的重要性，将多维的舌像信息进行融合，同时输出特征图至多分类器中，完成舌像数据集的分类；

所述激活函数使用ReLU函数，依据激活函数的位置，在原有的标准卷积单元中的卷积层、批标准化层、激活函数层这3层，将第3层的激活函数层的SiLU激活函数层，改换成ReLU激活函数层，重新对标准的卷积层进行封装，完成激活函数的改变，所述ReLU激活函数输入的神经元是负值时，把神经元灭活，将网络由稠密变为稀疏，提高舌像检测网络精度。

进一步地，其中步骤3中将所述实际框进行聚类，是将实际框聚成9个小类的聚类检测框对舌像边界检测，首先随机初始化9个聚类检测框，然后计算各聚类检测框与实际框之间的交并比，将实际框分配最接近的聚类并重新计算聚类中心，然后更新聚类中心，重复上述操作直至计算的聚类中心不再改变，确定适合的舌像检测框。

进一步地，其中步骤4所述采用混淆矩阵进行评测，就是将检测文件生成的预测检测框与实际框的交并比进行对比，通过对比交并比的大小来评测检测效果，当交并比为1时，检测效果最好，当交并比为0时，没有检测效果；所述实际框是LabelImg标注产生的框，所述预测检测框是检测文件产生的框；所述交并比是预测检测框与实际框的交集/预测检测框与实际框的并集。

本发明中，首先采用Ghost轻量化框架对，减小舌像检测网络的模型权重，然后改变舌像检测网络的激活函数，使舌像检测网络具有稀疏性特征，最后采用SimAm注意力机制，对舌像信息进行多维度的融合，最大程度上融合舌像的信息，完成多维度舌像检测。在步骤2中，使用Ghost轻量化框架与原YOLOv5基础网络相比减少了大量的浮点数运算量，同时也使得训练后的权重轻量化。Ghost轻量化框架的作用是将参数减少，权重变小。本发明由于使用轻量化框架，可以减小舌像检测网络的检测模型的权重大小。原来没有注意力机制，在网络中添加注意力机制。由于使用ReLU激活函数，可以将舌像检测网络具有稀疏性特征，提升舌像检测的精度。构建的模型可以有效解决拍照人附近存在干扰物体以及自然环境和色彩光照的问题，对舌像采集具有重要的意义。

附图说明

图1示出了本发明的舌像检测定位方法流程图；

图2示出了本发明Ghost轻量化框架处理逻辑图；

图3是本发明的舌像检测数据集。

具体实施方式

总体处理流程如下：对舌像数据集进行LabelImg标注，产生xml(txt文件，对产生的框进行聚类产生聚类检测框，送入改进网络训练(加载YOLOv5权重)，训练完毕后产生新的权重并送入detect文件，根据新的权重对舌像数据集进行预测(查看效果)，实现舌像检测与定位。

下面结合实施例对本发明的技术方案进行具体说明。

如图1所示，一种基于改进的YOLOv5的自然环境下舌像检测定位方法，具体实现步骤如下：

步骤1、构建舌像数据集，生成相对应的xml文件和txt文件。

所述数据集包括自然状态下的舌像数据和舌像仪采集的舌像数据，对数据集使用开源软件LabelImag进行标注，将标注的文件格式设置为VOC，标注的信息类别为tongue，同时生成xml文件和xml文件对应的txt文件，txt文件存放标注的舌像的相对坐标信息，然后将生成的txt文件按照训练集与验证集的格式进行划分，将划分好的训练集与验证集数据分别存储至同一级目录的文件夹下。标签文件是xml文件和txt文件。xml文件存储的是使用LabelImg标注的类别信息与像素值信息，txt文件存储的是使用xml文件转化的类别信息、代表实际框的中心点坐标与长宽的归一化信息(实际框在用软件标的时候产生)。后续网络训练的过程中根据txt文件存储的类别信息与实际框信息进行网络的训练与验证。

具体实施过程中，搜集舌像数据集，其中舌像数据集中自然环境下的舌像数据集1500张，舌像仪器下的环境500张，总共2000张，然后对数据集在开源软件LabelImg上进行标注，其中格式选择为VOC形式，将含有舌像的图像用方框标记为Tongue并自动生成含有坐标信息的xml文件，然后将生成的xml文件转成txt文件，数据集按照训练集与验证集的方式进行划分，训练集与验证集比值为3:1，其中训练集有1500张，验证集有500张。舌像数据集如图3所示。

步骤2、采用YOLOv5作为舌像检测网络的基础网络，使用Ghost轻量化框架改进YOLOv5基础网络中原有的C3模块，融合SimAm注意力机制到舌像检测网络中，激活函数使用ReLU函数，得到改进的舌像检测方法。

步骤1生成的标签文件不在步骤2中使用，生成的标签文件作为舌像检测网络的输入文件，步骤2是改进的步骤。

如图2所示，所述使用Ghost轻量化框架改进YOLOv5基础网络中原有的C3模块，采用两个分支结构，一个分支分别经过Ghost卷积、深度可分离卷积和Ghost卷积处理；另一个分支先经过深度可分离卷积，再经过1*1标准卷积层，将两个分支结果相加得到的特征图输出给下层网络。所述深度可分离卷积用于降低卷积参数量，所述1*1标准卷积层用于将特征图的各通道信息进行融合和添加非线性因素。Ghost轻量化框架的使用减少参数量，使得最后训练的网络模型权重减小。每一个处理输入都为特征图，输出也都为特征图。

C3模块是YOLOv5网络中的一个重要组成部分，其主要作用是增加网络的深度和感受野，提高特征提取的能力。C3模块结构为两支，一支使用了上述指定多个Bottleneck堆叠和3个标准卷积层，另一支仅经过一个基本卷积模块，最后将两支进行特征拼接操作。标准卷积层包括：卷积，批标准化，SiLU激活函数层。Bottlenck堆叠包括：两个标准卷积层。

在步骤2中，采用YOLOv5作为基础网络，采用Ghost轻量化框架，就是对YOLOv5基础网络原有C3模块进行改进，使用Ghost轻量化框架与原YOLOv5基础网络相比减少了大量的浮点数运算量，同时也使得训练后的权重轻量化；在轻量化Ghost框架替换C3的框架中，改进C3模块有两个方面，一方面首先进行一次Ghost轻量化框架，经过深度可分离卷积，然后再经过Ghost轻量化框架，另一方面首先深度可分离卷积，然后进行一次1*1标准卷积层，然后两方面特征图的输出相加，得到特征图的输出，得到的特征图输出为下一层网络的输入。Ghost轻量化框架的作用是将参数减少，权重变小。

视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。在人类中，空间注意力和通道注意力是共存的，共同促进视觉处理过程中的信息选择。因此提出一个注意力模块，使得每个神经元被分配一个唯一的权重。为更好的实现注意力，我们需要评估每个神经元的重要性。在神经科学中，信息丰富的神经元通常表现出与周围神经元不同的放电模式。而且，激活神经元通常会抑制周围神经元，即空域抑制。换句话说，具有空域抑制效应的神经元应当赋予更高的重要性找到这些神经元最简单的实现是测量一个目标神经元和其他神经元之间的线性可分性。这里使用的SimAM注意力机制并不会引入额外的参数。

在神经网络中，激活函数负责将来自节点的加权输入转换为该输入的节点或输出的激活。ReLU是一个分段线性函数，如果输入为正，它将直接输出，否则，它将输出为零。它已经成为许多类型神经网络的默认激活函数，因为使用它的模型更容易训练，并且通常能够获得更好的性能。为了训练深层神经网络，需要一个激活函数神经网络，它看起来和行为都像一个线性函数，但实际上是一个非线性函数，允许学习数据中的复杂关系。该函数还必须提供更灵敏的激活和输入，避免饱和。采用ReLU可以是深度学习革命中为数不多的里程碑之一。ReLU激活函数是一个简单的计算，如果输入大于0，直接返回作为输入提供的值；如果输入是0或更小，返回值0。

本发明由于使用轻量化框架，可以减小舌像检测网络的检测模型的权重大小。原来没有注意力机制，在网络中添加注意力机制。通过对舌像特征权重进行3D加权评估，多维度融合舌像信息，进而强化舌像的目标信息，弱化自然背景信息，来实现对舌像的关注。

进一步地，步骤2所述SimAm注意力机制，承接上层网络输出的特征图，使用能量函数赋予具有空域抑制的神经元更高的权重，自动获取神经元的重要性，将多维的舌像信息进行融合，同时输出3个大小为20*20,40*40,80*80的特征图至多分类器中，完成舌像数据集最终的分类。

在步骤2中，所述采用SimAm注意力机制融入到舌像检测网络的基础模型中，注意力机制通过定义能量函数，能量函数利用激活神经元对其它神经元有空域抑制作用，通过赋予更高的重要性给具有空域抑制效应的激活神经元，就是将特征图(特征图是舌像检测网络产生的特征图)通过能量函数自动获取每个神经元的重要性，然后赋予新的权重，融合舌像信息，抑制自然环境等无用特征。能量函数是SimAm注意力机制实现使用的函数，SimAm注意力机制模块的一部分。所使用的能量函数如下所示：

t、x_i——输入特征X的目标神经元和其他神经元；

i——空间维度上的索引号；

M——某个通道上所有神经元的个数；

y——标签值，表示是否为重要神经元；

w_t、b_t——加权与偏置。

本发明由于使用SimAm注意力机制，可以多维度融合舌像特征，提升舌像检测的精度。

进一步地，步骤2所述激活函数改成ReLU函数，依据激活函数的位置，在原有的标准卷积单元中的卷积层、批标准化层、激活函数层这3层，将第3层的激活函数层的SiLU激活函数层，改换成ReLU激活函数层，重新对标准的卷积层进行封装，完成激活函数的改变，ReLU激活函数通过神经元的输入，神经元的输入是负值时，激活函数把神经元灭活，可以将网络由稠密变为稀疏，当舌像检测网络具有稀疏性特征时，可以拟合网络，拟合网络的目的是提高舌像检测网络的精度。本发明由于使用ReLU激活函数，可以将舌像检测网络具有稀疏性特征，提升舌像检测的精度。

步骤3、利用所述数据集(数据集的主要部分包括了xml，txt文件，还必须包括图像，txt文件记录了类别与实际框的信息，还得有对应的图像)对所述改进的YOLOv5舌像检测网络进行训练，训练前对标定的舌像检测框进行聚类，标定的舌像检测框就是步骤1中用LabelImag标定的实际框，训练后得到在训练集中综合性能最高时的权重，综合性能最高的表现是检测精度，检测速度，模型权重大小综合看待最好，将该权重命名为最佳权重，并加载至YOLOv5网络的detect检测文件，对舌像数据集进行预测。

进一步地，步骤3所述将数据集的输入进行Mosaic增强，YOLOv5舌像检测网络从舌像数据集中随机选取4张舌像，进行任意角度的裁剪，加噪音，进行拼凑成一张640*640的图片，当做训练集送入舌像检测网络训练。先进行舌像检测框的聚类，再进行数据集输入的Mosaic增强。

步骤3所述将舌像检测框进行聚类，就是将检测框聚成9个小类的检测框对舌像边界检测，首先计算各检测框与实际框之间的交并比(实际框就是LabelImg标定的框)，将实际框分配最接近的聚类并重新计算聚类中心，然后更新聚类中心，重复上述操作直至计算的聚类中心不再改变，确定适合的舌像检测框。

具体对舌像检测框进行聚类的过程如下，划分出9个检测框，分别对应20*20,40*40,80*80这3个尺度，其中20*20对应的检测框[101,141]、[110,116]、[114,85]，40*40对应的检测框[88,139]、[88,36]、[95,113]，80*80对应的检测框[40,19]、[43,52]、[65,88]，对于大的特征图由于感受野小，含有丰富的位置信息，有利于目标进行定位，适合小目标检测，所以使用较小的检测框进行检测。

在步骤3中，所述数据集对改进的YOLOv5的自然环境下的舌像检测方法进行训练，数据集的实质是图片与标注信息(xml文件和txt文件)，就是将训练的舌像数据集，按照训练集与验证集3:1的方式划分，训练集用于舌像检测网络学习，验证集用于舌像检测网络调优，动量设置为0.937,权重衰减为0.0005,批次大小为16，学习率为0.01，迭代次数为300轮，舌像IOU的阈值参数为0.5。IoU是一种测量在特定数据集中检测相应物体准确度的一个标准。IoU是一个简单的测量标准，只要是在输出中得出一个预测范围(bounding boxex)的任务都可以用IoU来进行测量。

步骤4、舌像检测网络在加载YOLOv5权重文件后(刚开始的时候用的是YOLOv5的权重文件，经过训练后会产生另外一个权重文件，此权重文件是传入detect文件，传入权重文件之后就对测试集的图像进行预测，根据预测的图像，看看检测的效果)，对自然环境的舌像位置进行检测和定位，并采用混淆矩阵进行评测。

步骤4所述将采用混淆矩阵进行评测，就是将预测检测框与实际框的交并比进行对比，通过对比交并比的大小来评测检测效果，当交并比为1时，检测效果最好，当交并比为0时，没有检测效果。

交并比IOU:就是预测检测框与实际框的交集/预测检测框与实际框的并集，IOU＝P/Q，其中P:预测检测框与实际框的公共部分面积，Q：预测检测框与实际框的面积之和减去检测框与实际框的公共部分面积。

预测检测框，实际框和聚类检测框是不同的框，预测检测框：检测(detect)文件产生的框，实际框：LabelImg产生的框，聚类检测框：根据实际框聚类产生的框。

实验中采用混淆矩阵计算的相关指标对舌像检测效果进行评价，例如：TP:真正例，FN:假负例，FP：假正例，Precision：预测舌像为真舌像的比例，Recall：预测舌像为真舌像占全部真舌像的比例。具体的Precision和Recall的公式如下：

Precision作为纵坐标，Recall作为横坐标，根据Precision和Recall的面积计算mAP，IOU阈值0.5，本发明提出改进后的测试表如表1所示：改进的YOLOv5的自然环境下的舌像检测与定位方法在检测舌像时，检测的精准率,召回率和平均精度均值达到了98.2％、91.8％和96.6％，检测速度达到了86帧/s,权重大小到了7.8MB。

类别	Precision	Recall	mAP	检测速度	权重大小
						舌像	98.2％	91.8％	96.6％	86帧/s	7.8MB

表1

与现有技术相比，本发明基于改进的YOLOv5结合SimAm注意力机制的舌像检测定位算法能够有效完成自然状态下的舌像检测，在检测的精度与检测的所需内存上得到有效提升，检测的权重相比Faster R-CNN小101.1MB,比SSD检测算法小92.2MB,比YOLOv4-tiny小14.8MB,改进的检测算法权重达到了7.8MB；改进的检测算法检测精度达到了96.6％，比Faster R-CNN高0.5％，比SSD检测算法高3.9％，比YOLOv4-tiny高11.5％；改进的检测算法检测速度比Faster R-CNN高76帧/s，比SSD检测算法高71帧/s，比YOLOv4-tiny高52帧/s,检测速度达到了86帧/s；与常用的检测算法对比，本算法不仅有较高的舌像检测精度，而且有较小的权重，做到了精准定位舌像的同时，降低舌像检测设备的硬件要求，解决了舌像权重占用高内存问题。

综上，本发明首先使用了Ghost轻量化框架降低了舌像检测网络的复杂度，然后结合注意力机制融合舌像特征，最后改变网络的激活函数，使得网络达到稀疏性特征，提高网络的检测精度，有效完成自然状态舌像检测。在实际应用中，既能成为舌像采集的仪器，为医生辅助诊断提供帮助，又能成为舌像分析的基础权重，

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于改进的YOLOv5的自然环境下舌像检测定位方法，包括：

2.如权利要求1所述的方法，其中步骤1中，xml文件存储的是使用LabelImg标注的类别信息与像素值信息，txt文件存储的是使用xml文件转化的类别信息、代表实际框的中心点坐标与长宽的归一化信息。

3.如权利要求1所述的方法，其中步骤2中，所述使用Ghost轻量化框架改进YOLOv5基础网络中原有的C3模块，所述Ghost轻量化框架采用两个分支结构，一个分支分别经过Ghost卷积、深度可分离卷积和Ghost卷积处理；另一个分支先经过深度可分离卷积、再经过1*1标准卷积层处理，将两个分支结果相加得到的特征图输出给下层网络；所述深度可分离卷积降低卷积参数量，所述1*1标准卷积层将特征图的各通道信息进行融合并添加非线性因素；

4.如权利要求1所述的方法，其中步骤3中将所述实际框进行聚类，是将实际框聚成9个小类的聚类检测框对舌像边界检测，首先随机初始化9个聚类检测框，然后计算各聚类检测框与实际框之间的交并比，将实际框分配最接近的聚类并重新计算聚类中心，然后更新聚类中心，重复上述操作直至计算的聚类中心不再改变，确定适合的舌像检测框。

5.如权利要求1所述的方法，其中步骤4所述采用混淆矩阵进行评测，就是将检测文件生成的预测检测框与实际框的交并比进行对比，通过对比交并比的大小来评测检测效果，当交并比为1时，检测效果最好，当交并比为0时，没有检测效果；所述实际框是LabelImg标注产生的框，所述预测检测框是检测文件产生的框；所述交并比是预测检测框与实际框的交集/预测检测框与实际框的并集。