CN116843672A

CN116843672A - 一种基于深度学习的舌苔检测方法

Info

Publication number: CN116843672A
Application number: CN202310908724.5A
Authority: CN
Inventors: 沈新; 廖劲松; 陈晖�; 吴旭睿; 樊静
Original assignee: Nanjing Dajing Tcm Information Technology Co ltd
Current assignee: Nanjing Dajing Tcm Information Technology Co ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-10-03

Abstract

本发明公开了一种基于深度学习的舌苔检测方法，属于舌苔检测技术领域。包括如下步骤：S1、将被检测者的舌部置于检测设备内，采集并输入舌部图像；S2、对S1采集到的舌部图像，采用YOLO V3目标检测模型进行舌部图像分割；S3、采用ResNet‑50分类模型对S2分割后的舌部图像的舌质与舌苔进行分类；S4、将分类后的图像与原始设置比对，输出检测结果。本发明能够快速、准确的通过一幅面部图像中舌头局部或整体特征的分析，获得舌色、舌形、苔色及苔质的类别。

Description

一种基于深度学习的舌苔检测方法

技术领域

本发明属于舌苔检测技术领域，更具体地说，涉及一种基于深度学习的舌苔检测方法。

背景技术

在进行舌象检测的第一步中，需要将舌部图像分割后进行，一般采用基于目标检测的方法实现。目标检测，也叫目标提取，是一种基于目标几何和统计特征的图像分割。它将目标的分割和识别合二为一，其准确性和实时性是整个系统的一项重要能力。目标检测的任务是在一幅图像或视频中找到目标类别以及目标位置。目标检测算法可以分为两类，一类是基于Region Proposal的R-CNN系算法（R-CNN，Fast R-CNN, Faster R-CNN等），它们是两阶段的，需要先算法产生目标候选框，也就是目标位置，然后再对候选框做分类与回归。而另一类是Yolo，SSD这类单阶段算法，其仅仅使用一个卷积神经网络CNN直接预测不同目标的类别与位置。第一类方法是准确度高一些，但是速度慢，但是第二类算法是速度快，但是准确性要低一些。

识别舌色、舌形、苔色及苔质的类别，是一个典型的图像分类问题，即根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。图像分类算法通过手工特征或者特征学习方法对整个图像进行全局描述，然后使用分类器判断是否存在某类物体。应用比较广泛的图像特征有SIFT，HOG，SURF等。这些对图像分类的研究中，大多数特征提取过程是人工设计的，通过浅层学习获得图像底层特征，与图像高级主题间还存在很大的“语义鸿沟”。

因此需要一种既能保证准确度又能实现速度快的方法。

发明内容

舌象检测的目标是通过一幅面部图像中舌头局部或整体特征的分析，获得舌色、舌形、苔色及苔质的类别。为了提高识别的准确率，通过两个步骤完成该任务：

舌部图像的定位分割；

基于舌部图像检测特征并识别舌色、舌形、苔色及苔质的类别。

这里的两个步骤均通过基于深度学习的智能图像分析技术完成。其中采用YOLOV3目标检测模型实现了基于简单标注的舌部图像分割，采用ResNet-50分类模型实现了基于分割后的舌部图像的舌质与舌苔分类。

为了解决上述技术问题至少之一，根据本发明的一方面，提供了一种基于深度学习的舌苔检测方法，包括如下步骤：

S1、将被检测者的舌部置于检测设备内，采集并输入舌部图像；

S2、对S1采集到的舌部图像，采用YOLO V3目标检测模型进行舌部图像分割；

S3、采用ResNet-50分类模型对S2分割后的舌部图像的舌质与舌苔进行分类；

S4、将分类后的图像与原始设置比对，输出检测结果。

进一步的，步骤S2中，YOLO V3目标检测模型的网络结构具体为：

S21、通过Backbone网络提取舌部图像特征；

S22、构建特征金字塔FPN实现舌部图像特征融合；

S23、使用YOLO Head获取舌部图像预测结果。

进一步的，FPN 从Backbone获取三个有效特征层后，进一步提取特征，进行特征融合，其目的是结合不同尺度的特征信息；

Darknet-53提取输入的舌部图像的特征之后，从提取的众多特征层中选取三个特征层用来构建特征金字塔，实现不同等级特征的有效融合，这三个特征层位于Darknet-53网络的不同位置。

进一步的，S23具体为：通过Darknet53与FPN，所获得三个加强过的特征层分别传入YOLO Head中获得舌部图像预测结果。

进一步的，模型预测结果的解码包括如下步骤：

舌部图像先验框；

检测框解码，有了先验框与输出舌部特征图，就可以通过公式解码检测框；

置信度解码，置信度在输出中占固定一位，由sigmoid函数解码即可，解码之后数值区间在[0，1]中，代表检测框中有物体的概率；

类别解码，训练时box全部送入打标签函数，进行后一步的标签以及损失函数的计算；推理时，选取一个置信度阈值，过滤掉低阈值box，再经过nms，就可以输出整个最终的预测结果。

进一步的，S3具体为：ResNet-50 网络中包含了49个卷积层和一个全连接层；

ResNet-50网络结构包括七个部分，第一部分不包含残差块，主要对输入进行卷积、正则化、激活函数、最大池化的计算；第二、三、四、五部分结构都包含了残差块，在ResNet-50网络结构中，残差块都有三层卷积，网络总共有1+3×（3+4+6+3）=49个卷积层，加上最后的全连接层总共是50层；网络的输入为224×224×3，经过前五部分的卷积计算，输出为7×7×2048，池化层会将其转化成一个特征向量，最后分类器会对所述特征向量进行计算并输出类别概率。

进一步的，S3中将整体的舌色分类为：淡白、淡红、鲜红、红绛和青紫；

将舌形分类为老舌、嫩舌、胖大舌、瘦薄舌、点刺舌和正常舌；

将整体苔色分类为：白苔、黄苔和灰黑苔；

将苔质分类为：厚苔、薄苔、润苔、滑苔、燥苔、腻苔、腐苔、剥落苔和无苔；

将所述不同指标综合从而得出舌苔检测结果。

根据本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明的基于深度学习的舌苔检测方法中的步骤。

根据本发明的又一方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明的基于深度学习的舌苔检测方法中的步骤。

相比于现有技术，本发明至少具有如下有益效果：

本发明的基于深度学习的舌苔检测方法，能够通过一幅面部图像中舌头局部或整体特征的分析，获得舌色、舌形、苔色及苔质的类别。快速、准确的为舌苔诊断提供客观化、可靠化的检测结果。使得舌诊得以实施，帮助人们快速得知身体健康状况，无需医生或他人的协助，大大节省了寻找或等待医生的时间，也不会让用户因害怕被他人知道隐疾而不肯就医，有利于用户及时发现自己的身体异常状况。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本发明的一些实施例，而非对本发明的限制。

图1示出了本发明的基于深度学习的舌苔检测方法流程图；

图2示出了YOLO V3模型的网络结构示意图；

图3示出了ResNet-50网络结构示意图；

图4示出了本发明一个较佳实施例检测出的舌部示意图；

图5示出了本发明一个较佳实施例程序自动截取舌部图像的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。

除非另作定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

如图1-图5所示，

实施例1

本实施例提供一种基于深度学习的舌苔检测方法，包括如下步骤：

S4、将分类后的图像与原始设置比对，输出检测结果。

考虑到目前采集的是在特定环境下的人类脸部图像，而且分割只是处理的第一个步骤，这里选择了速度较快的单阶段算法模型，即YOLO v3。

深度学习利用设定好的网络结构，完全从训练数据中学习图像的层级结构性特征，能够提取更加接近图像高级语义的抽象特征，在图像识别上的表现远远超过传统方法，因此这里采用的是基于深度学习的ResNet-50分类模型。

对S1采集到的舌部图像，采用YOLO V3目标检测模型进行基于简单标注的舌部图像分割；

YOLO是当前目标检测领域性能最优算法的之一，YOLO的优势在于又快又准，可实现实时的目标检测。YOLO算法是一种单阶段的目标检测算法，与两阶段目标检测算法最大区别在于运算速度上，YOLO系列算法将图片划分成若干个网格，再基于anchor机制生成先验框，只用一步就生成检测框，这种方法大大提升了算法的预测速度。

YOLO V3模型的网络结构如图2所示，其主要由三部分组成：Backbone网络提取图像特征、构建特征金字塔FPN实现特征融合、使用YOLO Head获取预测结果。

1、Darknet53是Yolov3的主干网络，用来提取图像特征。共提取了三个特征层进行下一步网络的构建，这三个特征层即为“有效特征层”。

主干部分是一次1x1conv和一次3x3conv。残差shortcut部分不做任何处理，直接将主干和的输出和从shortcut过来的输入结合。如图2所示，共有5个残差模块。后面的xN,表示这个残差模块包含N个残差块。

Darknet53的每一个darknetConv2D后都紧跟Batch Normalization标准化与Leaky ReLU部分。

2、FPN 从backbone获取三个有效特征层后，进一步提取特征，进行特征融合，其目的是结合不同尺度的特征信息。

Darknet-53提取输入图像的特征之后，从提取的众多特征层中选取三个特征层用来构建特征金字塔，实现不同等级特征的有效融合，这三个特征层位于Darknet-53网络的不同位置，它们的shape分别为(52,52,256)、(26,26,512)、(13,13,1024)，

3、Yolo Head是YoloV3的分类器与回归器。

通过Darknet53与FPN, 可以获得三个加强过的特征层。然后把这3个加强特征层分别传入Yolo Head中获得模型预测结果。Yolo Head本质上是一次3x3卷积加上一次1x1卷积。以20类目标为例，这3个加强特征层输入到YoLo Head中首先经过3×3卷积分别获得(13,13,1024)、(26,26,512)、(52,52,256)的特征图，然后经过1×1卷积获得3个shape为(13,13,75)、(26,26,75)、(52,52,75)的输出特征图，其中75与数据集中目标类别总数有关，75=3×(20+1+4)，3代表输出特征图上的每个特征点上存在3个预测框，20代表数据集包含20类物体，1代表预测框中是否包含物体，4代表预测框的调整参数，即预测框的中心点坐标参数x_offset、y_offset以及预测框的高h和宽w。

YOLO V3中在每个特征点生成三个候选框。进行物体的检测。再使用IOU，置信度等方法提取出最合适的检测框。每个特征点生成三个先验框anchors。就是再每个特征点上，生成三个不同宽高的anchor，检测目标时，如果某个特征点附近的anchors内存在目标物体。经过调整anchor的宽高和中心位置，得到预测框，在包含物体的预测框中再进行anchor的置信度调整，选择最合适的框，就是说选取目标物体占整个框的区域最大的框输出预测。三个anchor中心的那个点就是这三个anchors的特征点。每个特征点都生成对应的三个anchors。

YOLO V3模型预测结果的解码：

假设数据集一共有20类目标，图像尺寸为416×416×3，将其输入到yolov3网络中，得到的3种不同尺度的输出特征图分别表示3种不同的预测结果，它们的shape分别为13×13×75、26×26×75、52×52×75，小尺度的特征图预测大目标，大尺度的特征图预测小目标。以尺寸为13×13×75的输出特征图为例，它相当于将原始输入图像划分成13×13个网格，也就是说原始输入图像上每32×32个像素点经过yolov3网络映射到输出特征图上就成了1个特征点。然后每种输出特征图上的每个特征点都存在3种不同宽高比的先验框，这些先验框的h和w是网络训练前根据以往经验预先设定好的，后续会通过网络训练对先验框进行参数调整，yolov3网络的预测结果包括：检测框包含物体的置信度，检测框的调整参数x，y，w，h以及这个物体所属种类的置信度，3×(1+4+20)=75，这就是3种输出特征图的通道数都为75的原因。

2.1、先验框：

先验框一共有9种尺寸，分别为(10×13)，(16×30)，(33×23)，(30×61)，(62×45)，(59× 119)， (116×90)， (156×198)，(373×326)，顺序为w×h，其中尺度为13×13的输出特征图对应(116,90)，(156,198)，(373,326)这3种宽高比的先验框，尺度为26×26的输出特征图对应(30×61)，(62×45)，(59× 119)这3种宽高比的先验框，尺度为52×52的输出特征图对应(10×13)，(16×30)，(33×23)这3种宽高比的先验框。需要注意的是：这9种尺寸的先验框是相对于输入图像而言的，而代码实现时往往是在输出特征图上进行操作，所以需要注意转化一下；另外，先验框只与检测框的w、h有关，与x、y无关。

2.2、检测框解码：

有了先验框与输出特征图，就可以通过公式解码检测框。

2.3 、置信度解码：

物体的检测置信度在Yolo设计中非常重要，关系到算法的查准率与召回率。置信度在输出25维中占固定一位，由sigmoid函数解码即可，解码之后数值区间在[0，1]中，代表检测框中有物体的概率。

2.4 、类别解码：

如果数据集有20个类别，所以类别数在25维输出中占了20维，每一维代表一个类别的置信度，使用sigmoid激活函数可以使网络更加灵活。3种不同尺度的输出特征图一共可以解码出 13×13×3 + 26×26×3 + 52×52×3 = 10647个box以及相应的类别、置信度。

训练时10647个box全部送入打标签函数，进行后一步的标签以及损失函数的计算。

推理时，选取一个置信度阈值，过滤掉低阈值box，再经过nms（非极大值抑制），就可以输出整个最终的预测结果。

3、检测结果如图4和图5所示：

利用标记工具软件，对面部图像中的舌部区域人工添加简单的矩形区域标记，训练出用于分割的YOLO V3模型。对样本图像进行检测，得到一下分割结果。

在S3中采用ResNet-50分类模型进行基于分割后的舌部图像的舌质与舌苔分类。

当深度学习网络层数越深时，理论上表达能力会更强，但是CNN网络达到一定的深度后，再加深，分类性能不会提高，而是会导致网络收敛更缓慢，准确率也随着降低，即使把数据集增大，解决过拟合的问题，分类性能和准确度也不会提高。ResNet-50能有效解决深度网络退化问题，将输入的多重非线性变化拟合变成了拟合输入与输出的残差，变为恒等映射，50即50层。

如图3所示，ResNet-50 网络中包含了49个卷积层、一个全连接层。ResNet-50网络结构可以分成七个部分，第一部分不包含残差块，主要对输入进行卷积、正则化、激活函数、最大池化的计算。第二、三、四、五部分结构都包含了残差块，在ResNet-50网络结构中，残差块都有三层卷积，网络总共有1+3×（3+4+6+3）=49个卷积层，加上最后的全连接层总共是50层。网络的输入为224×224×3，经过前五部分的卷积计算，输出为7×7×2048，池化层会将其转化成一个特征向量，最后分类器会对这个特征向量进行计算并输出类别概率。

将整体的舌色分类为：淡白、淡红、鲜红、红绛和青紫；

将整体苔色分类为：白苔、黄苔和灰黑苔；

将所述不同指标综合从而得出舌苔检测结果。确定身体状态，为疾病的治疗和预防提供重要的参考。

实施例2

本实施例的计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例1的基于深度学习的舌苔检测方法中的步骤。

本实施例的计算机可读存储介质可以是终端的内部存储单元，例如终端的硬盘或内存；本实施例的计算机可读存储介质也可以是所述终端的外部存储设备，例如终端上配备的插接式硬盘，智能存储卡，安全数字卡，闪存卡等；进一步地，计算机可读存储介质还可以既包括终端的内部存储单元也包括外部存储设备。

本实施例的计算机可读存储介质用于存储计算机程序以及终端所需的其他程序和数据，计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

实施例3

本实施例的计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例1的基于深度学习的舌苔检测方法中的步骤。

本实施例中，处理器可以是中央处理单元，还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等；存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据，存储器的一部分还可以包括非易失性随机存取存储器，例如，存储器还可以存储设备类型的信息。

本领域内的技术人员应明白，实施例公开的内容可提供为方法、系统、或计算机程序产品。因此，本方案可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本方案可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

本方案是参照根据本方案实施例的方法、和计算机程序产品的流程图和/或方框图来描述的，应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合；可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-OnlyMemory，ROM）或随机存储记忆体（RandomAccessMemory，RAM）等。

本发明所述实例仅仅是对本发明的优选实施方式进行描述，并非对本发明构思和范围进行限定，在不脱离本发明设计思想的前提下，本领域工程技术人员对本发明的技术方案作出的各种变形和改进，均应落入本发明的保护范围。

Claims

1.一种基于深度学习的舌苔检测方法，其特征在于，包括如下步骤：

S4、将分类后的图像与原始设置比对，输出检测结果。

2. 根据权利要求1所述的方法，其特征在于，步骤S2中，YOLO V3目标检测模型的网络结构具体为：

S21、通过Backbone网络提取舌部图像特征；

S22、构建特征金字塔FPN实现舌部图像特征融合；

S23、使用YOLO Head获取舌部图像预测结果。

3.根据权利要求2所述的方法，其特征在于，FPN 从Backbone获取三个有效特征层后，进一步提取特征，进行特征融合，其目的是结合不同尺度的特征信息；

4.根据权利要求2所述的方法，其特征在于，S23具体为：通过Darknet53与FPN，所获得三个加强过的特征层分别传入YOLO Head中获得舌部图像预测结果。

5.根据权利要求4所述的方法，其特征在于，模型预测结果的解码包括如下步骤：

舌部图像先验框；

6.根据权利要求1所述的方法，其特征在于，S3具体为：ResNet-50 网络中包含了49个卷积层和一个全连接层；

7.根据权利要求6所述的方法，其特征在于，S3中将整体的舌色分类为：淡白、淡红、鲜红、红绛和青紫；

将整体苔色分类为：白苔、黄苔和灰黑苔；

将所述不同指标综合从而得出舌苔检测结果。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该程序被处理器执行时实现如权利要求1~7中任一项所述的基于深度学习的舌苔检测方法中的步骤。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1~7中任一项所述的基于深度学习的舌苔检测方法中的步骤。