CN114998220B

CN114998220B - 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法

Info

Publication number: CN114998220B
Application number: CN202210517301.6A
Authority: CN
Inventors: 辛国江; 朱磊; 梁昊; 王鑫; 张杨; 刘嵘澂
Original assignee: Hunan University of Chinese Medicine
Current assignee: Hunan University of Chinese Medicine
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2023-06-13
Anticipated expiration: 2042-05-12
Also published as: CN114998220A

Abstract

一种基于改进的Tiny‑YOLO v4自然环境下舌像检测定位方法，包括：收集舌像数据，并制作舌像数据集；构建改进Tiny‑YOLO v4网络结构，实施与结构相匹配的Tiny‑YOLO v4目标检测方法；对与结构相匹配的Tiny‑YOLO v4目标检测方法进行训练，将训练后最佳的权重文件加载至Tiny‑YOLO v4目标检测方法中得到目标检测网络模型；目标检测网络模型训练完成后进行多组独立数据集测试，在自然环境下快速定位检测舌体的位置并评价模型检测效果。本发明避免传统舌像识别算法的复杂度，利用检测准确率极高的Tiny‑YOLO v4算法和神经网络在轻量化的CSPDarknet53框架上实现，加上协同注意力机制的空间信息特征和通道信息特征相融合，能够快速有效在自然环境下定位检测舌像。

Description

一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于改进的Tiny-YOLO v4的自然环境下舌像检测定位方法。

背景技术

舌诊作为中医望诊的重要组成部分，通过获取舌像特征进行辩证论治，可以实现无创诊断、降低诊断费用，在临床诊断中起着重要的作用。传统舌诊，主要依靠医生的肉眼观察，并进行分析判断，诊断结果往往与医生的临床经验和知识储备水平有直接关系，而且易受环境的影响，存在主观性差异和评判标准不一致等问题。另外由于舌诊辅助系统在对舌像进行采集时对环境要求极为严苛，即在密闭、光照稳定的环境下采集，且仪器设备笨重，不适于大规模推广舌像采集。并且自然环境下存在光源色温、光线强弱、拍摄角度、设备差异等诸多不确定因素的影响，会导致所采集到的舌像颜色失真、分辨率低、曝光过度等问题，与同标准环境下所采集的相比，会存在一定程度的偏差，影响后续处理。因此，在自然环境下对所采集到的舌像数据快速、准确地定位舌像区域尤为重要。

由于环境差异、个体差异、设备差异等干扰因素的影响，实现高效、准确、鲁棒性能好的舌像定位有一定的难度。

目前的舌像检测定位方法大致上可以分为两类。一类是基于传统方法，利用外观信息如亮度、对比度，对舌像进行检测与定位；另一类是基于深度学习方法，利用深度卷积神经网络提取图片的信息，对舌像进行检测与定位。这类算法虽然在一定程度上提高了定位准确率，但舌像信息的采集，对环境要求极为严苛，不适宜在自然环境下采集舌像。近年来，研究者们也提出将这两类方法相结合，实现舌像的定位。但上述两种方法相结合都无法在自然环境下去精确地定位舌像，这无疑对舌像的大规模采集造成了巨大的阻碍，给舌像分析过程增加难度。

发明内容

本发明的目的在于提供一种基于改进的Tiny-YOLO v4的自然环境下舌像检测定位方法，能够在一套系统中精确快速地定位自然环境下所采集的舌像位置，相对于传统的检测定位算法提高了识别的精度和速度，同时还降低了相应定位算法的复杂度。

一种基于改进的Tiny-YOLO v4的自然环境下的舌像检测定位方法，包括以下步骤：

a步骤、收集舌像数据，并制作舌像数据集；

b步骤、构建改进Tiny-YOLO v4网络结构，在所述改进网络结构基础上实施与结构相匹配的Tiny-YOLO v4目标检测方法，所述改进网络结构包括特征提取骨干网络、协同注意力机制模块、特征融合模块和多分类器模块。

c步骤、利用a步骤的数据集对所述与结构匹配的Tiny-YOLO v4目标检测方法进行训练，将训练后最佳的权重文件加载至Tiny-YOLO v4目标检测方法中得到目标检测网络模型，训练中采用Mosaic数据增强方法对舌像数据集进行扩充，采用K-Means聚类方法对舌像尺寸进行分类。

d步骤、目标检测网络模型训练完成后进行多组独立数据集测试，在自然环境下快速定位检测舌体的位置并评价模型检测效果；

其中所述特征提取骨干网络为轻量化的CSPDarknet53网络结构，所述轻量化CSPDarknet53网络结构输出两个大小分别为26*26，13*13的浅层特征图，两个浅层特征图分别输入到所述协同注意力机制模块中，提取空间位置信息和通道权重信息，并通过连接操作将空间位置信息和通道权重信息融合得到中间特征图，然后将中间特征图再传输到所述特征融合模块中，经过上采样、卷积和连接操作获取更高维度语义信息特征图，所述多分类器模块基于特征融合模块输出的两个13*13和26*26尺度的融合特征进行分类检测，输出最终的目标检测结果；

所述轻量化的CSPDarknet53网络结构具体包括：依次连接第一Darknet卷积层模块、第二Darknet卷积模块、第一Resblock_body模块、第二Resblock_body模块、第三Resblock_body模块、第三Darknet卷积层模块，所述第一Darknet卷积层模块包含二维卷积操作、归一化和非线性激活函数，输入的的舌像图片经过第一Daeknet卷积层之后输出大小为208*208的特征图，传输到第二Darknet卷积层模块；然后再传入到第一Resblock_body模块输出大小为52*52的浅层特征图传输到第二Resblock_body模块；第二Resblock_body模块输出大小为26*26的浅层特征图有两个走向，一方面传入协同注意力机制模块中，另一方面传入第三Resblock_body模块中；第三Resblock_body模块输出大小为13*13的浅层特征图传入第三Darknet卷积层；Resblock_body模块包含一次下采样和多次残差结构的堆叠,避免训练过程中出现梯度消失或梯度爆炸问题，使神经网络层数更多；

所述协同注意力机制模块包括协同信息编码模块和协同注意力生成模块，其中协同信息编码模块提取来自第二Resblock_body模块的和第三Draknet卷积层模块的特征图中标注目标的空间坐标信息和通道权重信息，然后协同注意力生成模块通过连接操作将提取得到的空间坐标信息和通道权重信息融合在一起形成中间特征图，输出两个大小为13*13和26*26的中间特征图传输到特征融合模块中。

进一步地，其中所述舌像数据集按下述方法制作：根据需要识别的目标收集自然环境下和标准环境下舌像图片数据，利用标签制作工具将图片数据中的检测目标进行标注，完成之后将数据集按比例随机分为训练集和测试集，所述标签制作工具为Labelimg标签制作工具。

进一步地，其中所述舌像数据集的格式为VOC格式，其中包括图片数据文件夹、存放xml标签文件的文件夹和保存图片路径的文件，所述标签制作工具Labelimg将图片数据中的检测目标标记后，会自动生成存放标签的文件，文件中记录标签的具体位置坐标信息和标签名称。

进一步地，所述特征融合模块包括，依据数据流向依次连接的第一卷积层、上采样层、连接层和第二卷积层，获得更高维度语义信息的特征图，同时输出两个大小为13*13，26*26的特征图至多分类器模块器中；其中协同注意力机制模块输出的中间特征图输入到第一卷积层，经过卷积输出大小为13*13的融合特征至多分类器模块中；中间特征图同时经过上采样层后输入连接层，再输入到第二卷积层中，输出大小为26*26的融合特征至多分类器模块中。

进一步地，所述多分类器模块包括第一分类器、第二分类器，所述第一分类器用于接收所述特征融合模块输出大小为13*13的融合特征，所述第二分类器用于接收所述特征融合模块输出大小为26*26的融合特征。

进一步地，Mosaic数据增强每次会读取四张图片，利用四张图片进行拼接，使拼接后的图片具有丰富的物体检测背景，且在归一化层计算时会一次计算四张图片的数据；K-Means聚类方法随机初始化9个聚类中心，再计算各锚框与坐标点与聚类中心锚框交并比距离，接着再分配各锚框到交并比距离最小聚类中心所属类别中，然后根据交并比距离更新聚类中心，判断聚类中心是否改变，如果改变则再重复之前步骤，如果没有改变则输出聚类中心，从而获得获取9种尺寸的锚框，进而得到最合适舌像检测的锚框。

进一步地，对13*13，26*26两个尺度的融合特征分别做检测，将输入图片划分单元格，如果目标的真值框中心位置坐标落在某个单元格区域内，则由这个单元格作为预测目标的单元格，每个单元格产生9个候选框，每个候选框包含置信度和目标所属类别的概率，当目标的类别置信度大于设置好的阈值时，相应单元格产生的9个候选框将会被保留，通过非极大值抑制筛选出最合适的边界框，其中候选框的预测采用逻辑回归的方式：

c_x、、c_y是网格的坐标偏移量；p_w、p_h是预设的锚框的边长；b_x、b_y、b_w，b_h为最终得到边框坐标值；t_x、t_y为检测目标的候选框中心位置坐标偏移量，经过σ(x)函数归一化到0和1之间，t_w、t_h为锚框的尺度缩放，分别与p_w、p_h作用后得到候选框的宽和高。

与现有技术相比，本发明的有益效果是：本发明旨在提出一种基于改进的Tiny-YOLO v4的自然环境下的舌像检测定位方法，避免了传统舌像识别算法的复杂度，利用检测准确率极高的Tiny-YOLO v4算法和神经网络，在轻量化的CSPDarknet53框架上实现，轻量化的CSPDarknet53网络提取的特征加上协同注意力机制的空间信息特征和通道信息特征相融合，能够快速有效的达到在自然环境下定位检测舌像。在工程实践方面也利用此方法可以辅助医生进行舌像信息采集定位，快速检测出舌像图片中相应的信息，有利于后续的舌像分析，方便医生对病人舌像做进一步的病情分析。另外，该方法的提出还可以加入更多数据信息，训练出综合识别功能更多的舌像分析模型，应用于医疗领域计算机辅助诊断，推进中医信息化发展。

附图说明

图1为本发明基于改进的Tiny-YOLO v4自然环境下舌像检测定位流程图；

图2(a)和(b)为本发明收集的舌像数据集截图；

图3(a)和(b)为本发明针对训练集制作的带有舌体标签的数据集截图；

图4为改进的Tiny-YOLO V4目标检测网络框架图；

图5为K-Means聚类方法设置锚框的流程图；

图6(a)、(b)、(c)和(d)为本发明自然环境下舌像图片中舌体定位实测效果展示图。

具体实施方式

下面结合实施例对本发明的技术方案进行具体说明。

一种基于改进的Tiny-YOLO v4的自然环境下舌像检测定位方法，参见图1，包括下列步骤：

a步骤、收集舌像数据，并制作舌像数据集。

舌像数据集按下述方法制作：根据需要识别的目标收集自然环境下和标准环境下舌像图片数据2120张，其中自然环境下采集780张舌像图片，标准环境下采集1340张舌像图片，利用标签制作工具将图片数据中的检测目标标注为“Tongue”，完成之后将数据集按照8：2的比例随机分为训练集和测试集，其中训练集有1696张舌像图片，测试集有424张舌像图片，图片数据参见组图2、3，其中图2为原始图片数据，包括标准环境下采集的舌像图片数据和自然环境下采集的舌像图片数据；图3为标注完成之后的舌像图片，所述的标签制作工具为Labelimg标签制作工具。

其中舌像数据集的格式为VOC格式，VOC格式是一种图片的标注规范，其中包括图片数据的JPEGImages文件夹、存放xml标签文件的Annotations文件夹和保存图片路径的ImageSets文件。图2(a)、(b)分别是在标准环境下采集的舌像图片数据、自然环境下采集的舌像图片数据，图3(a)、(b)分别是利用标签制作工具Labelimg将图片数据中的检测目标标记为“Tongue”标签，会自动生成存放标签的Annotations文件，文件中记录了“Tongue”标签的具体位置坐标信息和标签名称。

b步骤、构建改进的Tiny-YOLO v4网络结构，在所述改进的Tiny-YOLO v4网络结构基础上实施与结构匹配的目标检测方法。

YOLO是最先进的实时物体检测系统。它是由约瑟夫·雷德蒙(Joseph Redmon)开发的。它是一种实时对象识别系统，可以在单个帧中识别多个对象。随着时间的流逝，YOLO已演变为较新的版本，即YOLOv2，YOLOv3和YOLOv4。YOLO使用的方法与以前的其他检测系统完全不同。它将单个神经网络应用于完整图像。该网络将图像划分为多个区域，并预测每个区域的边界框和概率。这些边界框由预测的概率加权。Tiny-YOLO v4是YOLOv4的简化版本。

Tiny-YOLO v4算法在检测速度和检测精度方面均具有较优的效果，本实施例在现有的Tiny-YOLO v4算法的基础上进行改进，改进的重点为针对Tiny-YOLO v4算法中的网络结构进行改进，构建改进型Tiny-YOLO v4网络结构，从而得到改进Tiny-YOLO v4算法，以更好适用于舌像检测与定位，以提升舌像定位检测效果。

如图4所示，本实施例中改进型Tiny-YOLO v4网络结构包括特征提取骨干网络、协同注意力机制模块、特征融合模块和多分类器模块。

特征提取骨干网络为轻量化的CSPDarknet53网络结构，所述轻量化CSPDarknet53网络结构输出两个大小分别为26*26，13*13的浅层特征图，两个浅层特征图分别输入到所述的协同注意力机制模块中，提取空间位置信息和通道权重信息，并通过连接操作将空间位置信息和通道权重信息融合得到中间特征图，然后将中间特征图再传输到所述的特征融合模块中，经过上采样、卷积和连接操作获取更高维度语义信息特征图，所述的多分类器模块基于特征融合模块输出的两个13*13和26*26尺度的融合特征进行分类检测，输出最终的目标检测结果。

具体的，改进的Tiny-YOLO v4网络结构的各个模块如下：

1.特征提取骨干网络

本实施例中的特征提取骨干网络为轻量化的CSPDarknet53网络结构，轻量化的CSPDarknet53网络结构具体包括：依次连接第一Darknet卷积层模块、第二Darknet卷积模块、第一Resblock_body模块、第二Resblock_body模块、第三Resblock_body模块、第三Darknet卷积层模块。并且轻量化的CSPDarknet53网络结构中的Inputs表示输入，本实施例中的输入为a步骤中的舌像图片，大小为416*416的舌像图片。相比YOLO V4结构包含的五层Resblock_body模块，既简化了网络结构，又降低了参数计算量，使得模型更加轻量化。在针对小目标检测时，小目标往往在整张图像中占比小，不需要YOLO V4那样的复杂结构来检测，这种轻量化的网络结构既可以满足检测精度的要求又可以更好更快的检测出识别目标，而且训练耗时也大大缩减。

其中所述第一Darknet卷积层模块包含二维卷积操作(DarknetCnov2D)、归一化(BatchNormalization)和非线性激活函数(GELU)，输入的416*416的舌像图片经过第一Daeknet卷积层之后输出大小为208*208的特征图，传输到第二Darknet卷积层模块；然后再传入到第一Resblock_body模块输出大小为52*52的浅层特征图传输到第二Resblock_body模块；第二Resblock_body模块输出大小为26*26的浅层特征图有两个走向，一方面传入协同注意力机制模块中，另一方面传入第三Resblock_body模块中；第三Resblock_body模块输出大小为13*13的浅层特征图传入第三Darknet卷积层。

本发明中，用GELU激活函数替换了YOLO V4中的Mish激活函数，嵌在darknet模块中。原因1：Mish激活函数计算量大，导致模型训练耗时长，而GELU激活函数相对于Mish激活函数计算量小很多，可以减少参数的运算量，从而加快模型训练，使损失函数可以更快的收敛。原因2：对比GELU与mish函数，GELU在正值区间的变化更为显著，因此具有稍高一些的梯度，在反向传播时可以更有效的更新梯度,在负值区域，GELU函数的值更加靠近x轴，因此具有更佳的单边抑制效果，GELU函数在负值区域比其它两者梯度变化大，在正值附近梯度值也要比其它两者变化快，中间区域也要稍微大于其它两者，可以使模型更好更快的收敛，可以有效避免梯度消失和梯度爆炸问题。

其中所述的Resblock_body模块包含一次下采样和多次残差结构的堆叠构成,其作用也是避免训练过程中出现梯度消失或梯度爆炸问题，使神经网络层数更多，模型能够学习到更多的特征信息。

2.协同注意力机制模块

协同注意力机制模块是用于提高模型检测精度的。协同注意力机制模块由协同信息编码模块和协同注意力生成模块。其中协同信息编码模块从水平方向和垂直方向去捕获舌像的空间位置信息和通道权重信息，而协同注意力生成模块对协同信息编码模块得到的信息进行融合处理，对浅层特征图进行重新赋予权重信息，得到中间特征图传入到特征融合模块中。

所述的协同注意力机制模块包括协同信息编码模块和协同注意力生成模块，其中协同信息编码模块提取来自第二Resblock_body模块的和第三Draknet卷积层模块的特征图中的“Tongue”类别的空间坐标信息和通道权重信息，然后协同注意力生成模块通过连接操作将提取得到的空间坐标信息和通道权重信息融合在一起形成中间特征图，输出两个大小为13*13和26*26的中间特征图传输到特征融合模块中。

所述的特征融合模块包括依据数据流向依次连接第一卷积层、上采样层、连接层和第二卷积层，获得更高维度语义信息的特征图，同时输出两个大小为13*13，26*26的特征图至多分类器模块器中。特征融合模块本文发明是简化的版本与YOLO V4特征融合模型不同，包含上采样层和卷积，可以使模型结构在不降低检测精度的情况下使模型更加轻量化，参数量更少，提高检测的速度。轻量化的模型可以为以后将算法嵌入进智能终端设备中节约内存空间。

其中协同注意力机制模块输出的中间特征图输入到第一卷积层，经过卷积输出大小为13*13的融合特征至多分类模块中；中间特征图同时经过上采样层后输入连接层，再输入到第二卷积层中，输出大小为26*26的融合特征至多分类器模块中。

经过上述协同注意力机制模块和特征融合模块，可以使负责小目标检测的浅层融合特征层最大限度融合深层特征，从而达到提高小目标检测的目的。另外由于舌像相对与整个图片而言面积相对较小，所以对网络小目标检测要求更高，采用协同注意力机制模块从水平方向和垂直方向对浅层特征图进行提取空间信息和通道权重信息，可以有效的提升小目标的检测。

3.多分类器模块

所述的多分类器模块包括第一YOLO Head分类器、第二YOLO Head分类器，所述第一YOLO Head分类器用于接收所述特征融合模块输出大小为13*13的融合特征，所述第二YOLO Head分类器用于接收所述特征融合模块输出大小为26*26的融合特征。

即特征融合模块最深层13*13特征直接输出至第一YOLO Head分类器进行分类，并通过2倍上采样与26*26特征进行连接，连接完后输出至第二YOLO Head分类器进行分类。采用13*13，26*26两个尺度的融合特征层分别做检测，采用独立的逻辑分类器。以13*13为例，将输入图片划分为13*13的单元格，如果目标的Ground truth(真值框)中心位置坐标落在某个单元格区域内，则由这个单元格作为预测目标的单元格，每个单元格可产生9个候选框，每个候选框包含置信度和目标所属类别的概率，共生成19×19×9＝3249个预测框。当目标的类别置信度大于设置好的阈值时，相应单元格产生的9个候选框将会被保留，在通过非极大值抑制(NMS)筛选出最合适的边界框。其中候选框的预测采用逻辑回归的方式：

c_x、c_y是网格的坐标偏移量；p_w、p_h是预设的锚框的边长；b_x、b_y、b_w，b_h为最终得到边框坐标值；t_x、t_y为检测目标的候选框中心位置坐标偏移量，经过σ(x)(sigmoid)函数归一化到0和1之间，t_w、t_h为锚框的尺度缩放，分别与p_w、p_h作用后得到候选框的宽和高。

c步骤、利用a步骤所述的数据集对改进的Tiny-YOLO v4算法进行训练，将训练后最佳的权重文件加载至改进Tiny-YOLO v4算法得到目标检测网络模型。

本实施例在训练时，按照2：8的比例随机分为训练集和测试集，其中训练集有1696张舌像图片，测试集有424张舌像图片。将训练集中的样本图像输入改进的Tiny-YOLO v4算法，通过不断迭代训练得到舌像目标定位检测最优的权重文件。其本质就是利用损失函数不断调节网络中的权重，在利用测试集去测试网络训练的结果好坏，直到得到最优的权重文件，并将该权重文件加载至改进的Tiny-YOLO v4算法中得到作为目标检测的目标检测网络。

本实施例中使用多尺度训练的方法提高算法对不同尺度的检测精度，即采用26*26，13*13两个尺度的融合特征层分别做检测，并且在训练过程中采用以下方法来保证训练的有效性。

1.根据需要识别的目标类别“Tongue”修改网络参数，如类别数(num_class)修改为2，学习率调整为0.0001，批尺寸(batch_size)改为16,迭代次数(epoch)调整为2000，优化器调整为Adam。

2.使用Mosaic数据增强方法对舌像数据集进行扩充，Mosaic数据增强每次会读取四张图片，利用四张图片进行拼接，从而使拼接后的图片具有丰富的物体检测背景，且在归一化层计算时会一次计算四张图片的数据。

3.设置Anchor(预选框)尺寸，使用K-Means聚类算法对舌像尺寸进行分类具体过程如下，K-Means聚类算法的目的是使预选框尺寸可以更加适合舌像检测定位任务，提高模型检测的精度和加快模型的收敛速度，流程框图见图5。①首先随机初始化9个聚类中心；②再计算各锚框与坐标点与聚类中心锚框交并比距离(IoU：Intersection over Union)；③接着再分配各锚框到IoU距离最小聚类中心所属类别中；④然后根据IoU距离更新聚类中心；⑤再判断聚类中心是否改变，如果改变则再重复之前①②③④的步骤，如果没有改变则输出聚类中心；⑥输出聚类中心。从而获得获取9种尺寸的锚框，进而得到最合适舌像检测的锚框，锚框尺寸从小到大依次为(56，73)、(59，92)、(62，59)、(68，106)、(70，78)、(244，240)、(270，198)、(289，273)、(357，315)。

4.采用CIOU损失函数。损失函数是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。CIOU损失函数的作用，就是计算神经网络每次迭代的前向计算结果与真实值的差距，从而指导下一步的训练向正确的方向进行。不同于IOU简单比值的概念，CIOU将目标与Anchor(候选框)之间的距离，重叠率、尺度以及惩罚项都考虑进去，使得目标框回归变得更加稳定，不会像IOU和GIOU一样在训练过程中出现发散等问题。而惩罚因子把预测框长宽比拟合目标框的长宽比考虑进去。CIOU公式如下：

其中，IOU为预选框和真值框的交并比，ρ²(b，b^gt)分别表示预测框和真实框中心点的欧式距离，c代表的是能够同时包含预测框和真实框的最下闭包区域的对角线距离。

而α和υ的公式如下：

其中ω^gt、h^gt、ω、h分别表示真值框和预测框的宽和高。

1-CIOU就可以得到相应LOSS函数：

d步骤、目标检测网络模型训练完成后进行多组独立数据集测试，在自然环境下快速定位检测舌体的位置并评价模型检测效果

图6(a)～(d)为不包含在训练过程中的舌像图片实际测试结果截图，其中图6(a)为为标准环境下的测试结果；图6(b)为自然环境下带有干扰的测试结果，图中可以看出本实施方法能够有效检测出舌体的位置；图6(c)和图6(d)模仿的是自然环境下多目标的情况，由检测结果显示本实施方法能够准确且快速识别出自然环境下多目标的舌体位置。

与现有技术相比，本发明基于改进的Tiny-YOLO v4结合神经网络层的舌像检测定位方法能够快速在自然环境下的舌像图片中定位并识别出舌像，在检测精度与速度方面得到了提升，检测速度比Fast R-CNN快2倍，比YOLO V3快4倍，比YOLO V4快3倍之多，达到了27f/s的检测速度；检测精度达到了98.89％，比Fast R-CNN高13.79％，比YOLO V3高1.08％，比YOLO V4低0.16％，但检测时间却只用了YOLO V4的三分之一不到；与基于传统方法的定位检测舌像相比，本发明基于深度卷积神经网络的方法不仅可以提取舌像图片更深层次的特征，做到同时定位舌像位置，且简化了检测算法的复杂度，降低了舌像采集对环境的要求，无需特别的硬件装置也能完成快速对自然环境下舌像图片中舌体作定位处理。综上，本发明旨在提出一种在自然环境下舌像的定位检测方法，避免了传统舌像识别算法的复杂度，降低了舌像采集对环境的要求，利用检测准确率极高的Tiny-YOLO v4算法和神经网络在轻量化的CSPDarknet53框架上的实现，轻量化的CSPDarknet53网络提取的特征加上协同注意力机制的空间信息特征和通道信息特征相融合，能够快速有效的达到在自然环境下定位检测舌像。在工程实践方面也利用此方法可以辅助医生进行舌像信息采集定位，快速检测出舌像图片中相应的信息，有利于后续的舌像分析，方便医生对病人舌像做进一步的病情分析。另外，该方法的提出还可以加入更多的数据信息，训练出综合识别功能更多的舌像分析模型，应用于医疗领域计算机辅助诊断，推进中医信息化发展。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法，包括a步骤、收集舌像数据，并制作舌像数据集；

b步骤、构建改进Tiny-YOLO v4网络结构，在所述改进网络结构基础上实施与结构相匹配的Tiny-YOLO v4目标检测方法，所述改进网络结构包括特征提取骨干网络、协同注意力机制模块、特征融合模块和多分类器模块；

c步骤、利用a步骤的数据集对所述与结构相匹配的Tiny-YOLO v4目标检测方法进行训练，将训练后最佳的权重文件加载至Tiny-YOLO v4目标检测方法中得到目标检测网络模型，训练中采用Mosaic数据增强方法对舌像数据集进行扩充，采用K-Means聚类方法对舌像尺寸进行分类；

其中所述特征提取骨干网络为轻量化的CSPDarknet53网络结构，所述轻量化CSPDarknet53网络结构输出两个大小分别为26*26，13*13的浅层特征图，两个浅层特征图分别输入到所述协同注意力机制模块中，提取空间位置信息和通道权重信息，并通过连接操作将空间位置信息和通道权重信息融合得到中间特征图，然后将中间特征图传输到所述特征融合模块中，经过上采样、卷积和连接操作获取更高维度语义信息特征图，所述多分类器模块基于特征融合模块输出的两个13*13和26*26尺度的融合特征进行分类检测，输出最终的目标检测结果；

所述轻量化的CSPDarknet53网络结构具体包括：依次连接的第一Darknet卷积层模块、第二Darknet卷积模块、第一Resblock_body模块、第二Resblock_body模块、第三Resblock_body模块、第三Darknet卷积层模块，所述第一Darknet卷积层模块包含二维卷积操作、归一化和非线性激活函数，输入的的舌像图片经过第一Daeknet卷积层之后输出大小为208*208的特征图，传输到第二Darknet卷积层模块；然后再传入到第一Resblock_body模块输出大小为52*52的浅层特征图传输到第二Resblock_body模块；第二Resblock_body模块输出大小为26*26的浅层特征图有两个走向，一方面传入协同注意力机制模块中，另一方面传入第三Resblock_body模块中；第三Resblock_body模块输出大小为13*13的浅层特征图传入第三Darknet卷积层；Resblock_body模块包含一次下采样和多次残差结构的堆叠,避免训练过程中出现梯度消失或梯度爆炸问题，使神经网络层数更多；

所述协同注意力机制模块包括协同信息编码模块和协同注意力生成模块，其中协同信息编码模块提取来自第二Resblock_body模块的和第三Draknet卷积层模块的特征图中标注目标的空间坐标信息和通道权重信息，协同注意力生成模块通过连接操作将提取得到的空间坐标信息和通道权重信息融合在一起形成中间特征图，输出两个大小为13*13和26*26的中间特征图传输到特征融合模块中。

2.如权利要求1所述的方法，其中所述舌像数据集按下述方法制作：根据需要识别的目标收集自然环境下和标准环境下舌像图片数据，利用标签制作工具将图片数据中的检测目标进行标注，完成之后将数据集按比例随机分为训练集和测试集，所述标签制作工具为Labelimg标签制作工具。

3.如权利要求2所述的方法，其中所述舌像数据集的格式为VOC格式，其中包括图片数据文件夹、存放xml标签文件的文件夹和保存图片路径的文件，所述标签制作工具Labelimg将图片数据中的检测目标标记后，会自动生成存放标签的文件，文件中记录标签的具体位置坐标信息和标签名称。

4.如权利要求1所述的方法，所述特征融合模块包括，依据数据流向依次连接的第一卷积层、上采样层、连接层和第二卷积层，获得更高维度语义信息的特征图，同时输出两个大小为13*13，26*26的特征图至多分类器模块器中；其中协同注意力机制模块输出的中间特征图输入到第一卷积层，经过卷积输出大小为13*13的融合特征至多分类器模块中；中间特征图同时经过上采样层后输入连接层，再输入到第二卷积层中，输出大小为26*26的融合特征至多分类器模块中。

5.如权利要求1所述的方法，所述多分类器模块包括第一分类器、第二分类器，所述第一分类器用于接收所述特征融合模块输出大小为13*13的融合特征，所述第二分类器用于接收所述特征融合模块输出大小为26*26的融合特征。

6.如权利要求1所述的方法，Mosaic数据增强每次会读取四张图片，利用四张图片进行拼接，使拼接后的图片具有丰富的物体检测背景，且在归一化层计算时会一次计算四张图片的数据；K-Means聚类方法随机初始化9个聚类中心，再计算各锚框与坐标点与聚类中心锚框交并比距离，接着再分配各锚框到交并比距离最小聚类中心所属类别中，然后根据交并比距离更新聚类中心，判断聚类中心是否改变，如果改变则再重复之前步骤，如果没有改变则输出聚类中心，从而获得获取9种尺寸的锚框，进而得到最合适舌像检测的锚框。

7.如权利要求5所述的方法，对13*13，26*26两个尺度的融合特征分别做检测，将输入图片划分单元格，如果目标的真值框中心位置坐标落在某个单元格区域内，则由这个单元格作为预测目标的单元格，每个单元格产生9个候选框，每个候选框包含置信度和目标所属类别的概率，当目标的类别置信度大于设置好的阈值时，相应单元格产生的9个候选框将会被保留，通过非极大值抑制筛选出最合适的边界框，其中候选框的预测采用逻辑回归的方式：

c_x、c_y是网格的坐标偏移量；p_w、p_h是预设的锚框的边长；b_x、b_y、b_w，b_h为最终得到边框坐标值；t_x、t_y为检测目标的候选框中心位置坐标偏移量，经过σ(x)函数归一化到0和1之间，t_w、t_h为锚框的尺度缩放，分别与p_w、p_h作用后得到候选框的宽和高。