CN107977671B

CN107977671B - 一种基于多任务卷积神经网络的舌象分类方法

Info

Publication number: CN107977671B
Application number: CN201711026169.4A
Authority: CN
Inventors: 王丽冉; 汤一平; 何霞; 陈朋; 袁公萍; 金宇杰
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2021-10-26
Anticipated expiration: 2037-10-27
Also published as: CN107977671A

Abstract

一种基于多任务卷积神经网络的舌象分类方法，包括对采集到的舌象进行一系列预处理的图像操作、用于舌整体特征提取的深度卷积神经网络、用于对舌面标签进行检测的感兴趣区域定位网络、用于深度学习和训练识别的多任务深度卷积神经网络，完成对舌象舌色、苔色、苔质的厚薄、腐腻、润燥属性的标签分类。本发明有效的解决了现有方法不能对舌象舌色、苔色、苔质的厚薄、腐腻、润燥等多个属性进行同时识别的多分类问题。

Description

一种基于多任务卷积神经网络的舌象分类方法

技术领域

本发明涉及一种分析方法，具体涉及中医舌诊、移动互联网、数据库管理、计算机视觉、数字图像处理、模式识别、深度学习和深度卷积神经网络等技术在舌象自动分析领域的应用。

背景技术

舌诊是中医临床最直接、最基本的诊断方法之一，自古以来就受到众多医家的推崇，广泛应用于临床实践。舌象包含着人体丰富的生理和病理信息，通过对患者舌面苔迹、舌质相关属性,包括颜色、形态等进行观察,从而判断疾病所在,进行辨证论治，这对中医用药及判断疾病有重要的参考意义。但长期以来，由于舌诊结果完全依赖于医生的主观判断，诊断信息的正确与否受到医生的经验积累、环境因素的影响，导致舌诊缺乏客观的诊断方法与标准，且大多数舌象诊断经验不易于传授和保存，在一定程度上阻碍了舌诊的发展。因此，以中医理论为基础，将中医诊疗与图像分析技术相结合，对舌象进行定量分析，实现舌诊的客观化、标准化和定量化成为中医舌诊发展的必经之路。

颜色是舌诊中最重要的一个特征，在舌图像的分析过程中，舌色和苔色提供了大量有参考价值的诊断信息，因此关于舌像颜色的研究较多。除舌色和苔色外，纹理的识别也对后续的诊断具有重要的意义。近几年，也有些研究者关注舌面裂纹和齿痕，苔质厚薄、腐腻等的识别和分析。一张舌象同时包含颜色、纹理等多种属性信息，颜色可细分为舌色、苔色，纹理可细分为裂纹、齿痕等。因此舌象属于多标签数据，舌象分类属于多分类问题。

(1)舌质的颜色。淡红舌反映出人体气血调和，心气充足，多见于正常健康人，也见于外感病初期，病情较轻。淡白舌多见于气虚证、血虚证和实寒证。较正常舌色红，呈鲜红色谓之红舌。舌色较红舌颜色更深或暗红，谓之绛舌。二者皆主热证。全舌均匀呈现紫色，或局部有青紫色斑点，谓之青舌，主气血运行不畅，癖滞。舌质色紫者，谓之紫舌，由气血壅滞，运行不畅所致。

(2)舌苔的颜色。白苔为正常舌苔，病多主寒证，表证，湿证。黄苔，有淡黄、深黄、焦黄之分，无论哪种都主热证，里证。苔色愈黄，说明热邪愈甚。淡黄苔为轻热，深黄苔为热甚，焦黄苔为热极。灰黑苔多由白苔或黄苔转化而来。黑苔多在久病或病情较重时才出现，主热极或寒盛。但无论寒热均属重证，黑色越深，病情越重。

(3)舌苔的质地。苔质颗粒细腻致密，均匀成片，如涂有油腻之状，紧贴舌面，揩之不去，刮之不脱，称为腻苔。且有粘腻、滑腻、垢腻、燥腻之分。苔质颗粒粗大，质地疏松，如豆腐渣堆积舌面，揩之不去，称为腐苔。

(4)舌苔的厚度。舌苔厚与薄以“见底”和“不见底”作为衡量标准，透过舌苔能隐隐见到舌质称为薄苔，也叫见底苔。不能透过舌苔见到舌质者，称为厚苔，又叫不见底苔。舌苔厚薄反映邪正的盛衰和病位的深浅，主表证和里证。

(5)舌形。包括老嫩、胖瘦、肿胀、点刺、裂纹等。

以上各个舌象特征都从不同的侧面反映了人体生理与病理的变化。中医在观察舌象时，往往是对多个特征进行综合处理和分析然后得到相应的结论。

申请号为CN02103795.7的中国专利申请公开了一种基于多类支持向量机的中医舌色、苔色、舌苔厚度分析方法。该方法是由数码相机进行图象采集，并通过USB接口将图象输人到计算机处理器中，在处理器中将舌体区域从舌图象中分割出来，还依次包括下述步骤：在进行分级聚类分析生成聚类树并调整的基础上，采用基于聚类树的支持向量机(CTSYM)方法进行舌体区域像素识别，并把舌体区像素识别的类别数设为15种；将舌面分为五个区域，统计各区中数量最多的像素类别，及各种类型的象素数；进行舌色描述；进行舌苔色描述；进行舌苔厚定量分析和描述；最后采用文字和伪彩色图显示分析结果。

申请号为CN201310753203.3的中国专利申请公开了一种基于图像检索的中医舌色苔色自动分析方法，设计了一种基于图像检索的中医舌色苔色自动分析方法。包括：用户输入待分析的舌图像，首先通过舌体分割技术对舌体区域进行分割，再将舌面进行区域划分，区分舌质区域和舌苔区域，在各区域内分别图像的视觉特征，构成特征向量，然后计算该特征向量与特征库中已标注舌图像的舌象特征的相似度，返回最相似的图像作为检索结果，最后使用统计决策的方法对检索结果进行判决，分别给出该舌象的舌色和苔色分类建议。

申请号为CN200610150873.6的中国专利申请公开了一种舌象纹理自动分析方法，从原始图像中选取子图像，对不同子图像分别进行预处理,预处理后进行特征参数提取，将提取的特征向量送入分类器进行分类，分类后输出分类结果。采用Gabor滤波、灰度共生矩阵以及分形模型等多种方法来分析和识别不同舌象纹理特征，分别对厚苔薄苔进行分类，对红刺进行分类，对舌质老嫩纹理舌象纹理进行分类和对红星进行分类。

申请号为CN201510390275.5的中国专利申请公开了一种基于纹理、粗糙度和分布特征的舌苔腐腻识别方法。包括：(1)利用己有的舌面图像样本图建立结合Gabor纹理、Tamura粗糙度和舌苔分布特征训练样本集；(2)利用支持向量机对训练样本集进行训练，构建舌苔腐腻分类器；(3)利用建立的舌苔腐腻分类器进行识别，判断待识别的舌面图像是否属于腐腻舌象。

申请号为CN201010117453.4的中国专利申请公开了一种舌象识别裂纹的方法，包括：得到标准舌图后，转为灰度图。复制图像，按照图像宽高大小将两张图像划分为小区域，并且使两张图像任何一个小区域不会和原图小区域重合；利用OTSU滤波方法对两幅图像的每个小区域单独滤波；根据两张图像的滤波结果按照一定规则，合并为一张图像；对滤波后的图像去噪，排除干扰，使裂纹特征更加清晰。

舌象特征如颜色、纹理、舌形等，传统的计算机视觉需要人工来描述和提取各种舌象特征，而舌象特征提取的好坏直接影响到后续的诊断建模与系统分析的成败。且传统的舌象分类方法一般以单独的颜色或纹理为主要研究内容，未考虑到多标签问题，不符合中医舌诊的整体观诊断思想，也无法充分利用标签间的相关性提升其分类性能。因此，如何提取到更具表达力的深层特征，如何解决多个标签所产生的歧义性问题，如何挖掘并利用标签间的相关性进而提升其分类性能成为了实现舌象多标签分类的关键问题。

发明内容

为了克服现有的舌象分类方式的准确性较差、无法适用于多分类情况的不足，本发明提供一种准确性较高、适用于多分类情况的基于多任务卷积神经网络的舌象分类方法。

本发明解决其技术问题所采用的技术方案是：

一种基于多任务卷积神经网络的舌象分类方法，包括对采集到的舌象进行一系列预处理的图像操作；包括用于舌整体特征提取的深度卷积神经网络、包括用于对舌面标签进行检测的感兴趣区域定位网络、用于深度学习和训练识别的多任务深度卷积神经网络，完成对舌象舌色、苔色、苔质的厚薄、腐腻、润燥属性的标签分类；

所述的对采集到的舌象进行一系列预处理的图像操作包括颜色校正、舌体分割、阴影区域去除在内的三个预处理操作，对自然环境下得到的舌象进行较好的校正，满足后续识别的要求；

所述的用于舌整体特征提取的深度卷积神经网络，作为多任务卷积神经网络的基础网络，共分为五层，由卷积层、激活层和池化层交替构成的深度结构，隐式地从给定的舌像数据中进行无监督学习，避免了人工进行显式的特征提取；

所述的用于对舌面标签进行定位的感兴趣区域提取网络，即RPN网络，对舌面上不同属性对应的区域进行检测和划分，用于下一阶段网络的分类训练；

所述的用于深度学习和训练识别的多任务深度卷积神经网络，由全连接层组成，对上一阶段得到的各类标签候选区域进行深层特征提取，输入区域在网络中进行层层映射，得到不同的表示形式，提取其抽象特征，从而实现对舌象的深度表示。

进一步，所述对采集到的舌象进行一系列预处理的图像操作中，针对舌象中存在颜色种类单一且存在大片相近颜色的情况，采用基于图像熵约束的灰度世界算法对舌象进行颜色校正；采用一种基于两阶段深度卷积神经网络的舌体分割方法；根据阴影区域和舌面其他区域相比具有较高的饱和度和较低的亮度值的特性进行阴影点的检测；

其中，颜色校正算法的实现分为三个步骤：

(1)首先对图像的三个颜色通道分别计算一维离散相对熵；

式中，k＝R，G，B，P_k,i表示k分量的灰度值为i的像素在图像中所占的比例；

(2)R、G、B三个通道的“约束”增益系数分别为：

式中，k_r，k_g，k_b分别为灰度世界算法计算得到的三个通道增益系数；

(3)进行“约束”增益系数校正；

图像颜色越丰富，则Hk R越接近于1，krc r≈k_r,krc g≈k_g,krc b≈k_b，即对通道的增益系数几乎没有做任何的调整；反之图像颜色越少，Hk R越接近于0，krc r＝krc g＝krc b≈1，图像颜色不做任何校正，从而防止了“过校正”的现象；

基于两阶段深度卷积神经网络的舌体分割方法流程如下：

Step1：第一阶段为粗分割，针对原始舌象图中干扰信息较多的特点，利用卷积神经网络自动学习舌体的深层特征，训练感兴趣区域模型，先利用选择性搜索网络RPN生成候选框，并以此为基础从相似的背景中提取出感兴趣区域，粗分割获得舌体的所在区域，去除大量干扰信息，弱化其与舌体周边组织的影响；

Step2：第二阶段为精分割，将前一阶段得到的感兴趣区域作为全卷积网络的输入，在不需要人工干预的情况下，自动学习样本训练Softmax分类器，用训练好的Softmax分类器对图像的每一个像素进行分类进而进行精分割，得到较为完整准确的舌体图像；

Step3：最后对精分割得到的图像进行后续处理，使分割结果得到进一步优化；

阴影区域去除的算法处理过程如下：

Step1：首先将分割后的舌象图从RGB颜色空间转换到HSV颜色空间，构造新的通道S/V，在此通道根据设定的阈值进行判定即检测出大部分阴影点；

Step2：经过上一步的检测获取到舌根处的主要阴影区，利用形态学方法进行小区块的删除恢复舌体边缘。

再进一步，所述的用于舌整体特征提取的深度卷积神经网络，共分为五层，卷积神经网络是由卷积层、激活层和池化层交替构成的深度结构；通过卷积操作，使原信息增强并减少噪声；通过池化操作，利用图像局部相关性的原理，对图像进行子抽样，在保留图像有用信息的基础上减少数据的处理量；

网络接受任意尺寸的舌象作为输入，具体网络结构如下：第一个卷积层Conv1的卷积核个数为96，大小为7×7×3，卷积步长为2，填充值为3；第一个池化层(Pool1)的池化核为7×7×3，池化步长为2，填充值为1；随后进行ReLU激活层1处理；第二个卷积层Conv2有256个卷积核，大小为5×5×96，步长为2，填充值为2；第二池化层Pool2的池化核为7×7×96，步长为2，填充值为1；随后进行ReLU激活层1处理；第三个卷积层Conv3有384个卷积核，大小为3×3×256，填充值为1；随后进行ReLU激活层1处理；第四个卷积层Conv4有384个卷积核，大小为3×3×384，填充值为1；随后进行ReLU激活层1处理；第五个卷积层Conv5有256个卷积核，大小为3×3×384，填充值为1；随后进行ReLU激活层1处理；

经过这五层的特征提取，每张舌象得到256张特征图，作为RPN网络的输入。

更进一步，所述用于对舌面标签进行定位的感兴趣区域提取网络中，RPN网络接收基础网络生成的256张特征图作为输入，利用三个卷积层及算法层对特征图进行二次处理，输出矩形目标候选框的集合，每个框包含4个位置坐标变量和一个得分；

RPN网络的第一个卷积层Conv1/rpn有256个卷积核，大小为3×3×256；RPN网络的第二个卷积层Conv2/rpn有18个卷积核，大小为1×1×256，RPN网络的第三个卷积层Conv3/rpn有36个卷积核，大小为1×1×256；

RPN网络为了生成区域候选框额外加入了算法层，在特征图上进行多尺度卷积操作，具体实现为：在每一个滑动窗口的位置使用3种尺度和3种长宽比,以当前滑动窗口中心为中心，并对应一种尺度和长宽比，则在原图上映射得到9种不同尺度的候选区域，如对于大小为w×h的共享卷积特征图，则总共有w×h×9个候选区域；最后，分类层输出w×h×9×2个候选区域的得分，即对每个区域是目标/非目标的估计概率，回归层输出w×h×9×4个参数，即候选区域的坐标参数；

在RPN网络中训练过程如下：首先用3×3的滑动窗口遍历特征图上的每个点，找到该点处滑动窗口中心点映射在原图中的位置，并以其为中心点，在原图上生成3种尺度(128²，256²，512²)和3种长宽比(1:1,2:1,1:2)的候选区域，即特征图上的每个点在原图中都对应9个候选区域，设特征图大小为w×h，则生成的候选区域数目为w×h×9，接下来对所有候选区域进行两次筛选及两次判断；首先删去超出原图范围的候选区域完成第一次筛选，接着对剩余的候选区域计算其与所有真实的标签区域交并集之比即重叠率，并根据比值为每个候选区域分配一个二进制标签，以此来判断该区域是不是标注对象，判断标准为：1)将比值最大的候选区域视为正样本，即标注对象；2)在其他候选区域中，若比值大于0.7，则认为是正样本，小于0.3，则认为是负样本，即非标注对象，比值介于这两者之间的候选区域进行舍弃；

候选区域与真实标注框GT重叠率的计算由式(5)表示：

完成对候选区域的二次筛选后，对其进行第二次标记判断，即将与其有最大交并集之比的真实标注区域的标签作为该候选区域的标签，并为所有负样本添加背景标签，对正负样本进行随机采样，采样数目设为128，采样比例设为1:1，一般情况下正样本数较少，若正样本数目少于64，则差额部分由负样本补足，在后续的网络中将128个正负样本进行融合一同训练，以增强标注样本与非标注样本的区分度。

所述用于深度学习和训练识别的多任务深度卷积神经网络中，根据所要识别的属性种类构建不同个数的子网络，每个子网络结构相同，由全连接层组成，并在此之前加入了金字塔池化层进行尺度归一化；

子网络利用全连接层对采样后的候选区域进行特征提取，候选区域共有9种尺寸，而全连接层要求输入尺寸一致，故在此先利用金字塔池化层进行尺度归一化，再将其送入三个全连接层进行深层特征提取，子网络中全连接层输出神经元个数均设为1024，得到1024维的特征向量；接着，将该特征向量分别送入两个全连接层进行特征压缩，根据子网络所需完成的具体任务对这两个全连接层的输出神经元个数分别进行设置，在子网络一中设置为9和36，在子网络二中设置为4和16；最后，将输出值分别与真实标签值做对比，进行损失函数的回归约束；

以任一子网络为例，多任务损失函数由公式(6)表示：

式中，类别损失函数由式(7)定义为：

位置回归损失函数由式(8)定义为：

R是鲁棒的损失函数smooth_L1，由式(9)表示为：

式中，N_cls和N_reg是为避免过拟合的正则项，λ为权重系数，i是该候选区域的类别索引值，t_i是该候选区域的预测坐标偏移量，

是该候选区域的实际坐标偏移量，p_i是预测候选区域属于第i类的概率，

表示其真实类别，

表示背景类,

表示非背景类；

通过这两个损失函数分别计算预测值与给定真实值之间的误差，利用反向传播算法将误差层层回传，利用随机梯度下降法对每层的参数进行调整和更新，更新公式如式(10)所示，使得网络的预测值更接近真实值，即最后两个全连接层的输出更接近给定标注值中的类别和位置信息；

式中，w和w'分别为更新前后的参数值，E为通过损失函数层计算得到的误差值，η为学习率。

本发明的技术构思为：近几年深度学习在计算机视觉领域得到广泛应用，这得益于卷积神经网络的快速发展。卷积神经网络技术从R-CNN，Fast R-CNN发展到Faster R-CNN，几乎覆盖了目标检测、分类、分割等计算机视觉几大重要领域。卷积神经网络通过模拟人脑的阶层式结构逐层进行信息传递，自动挖掘数据的本质信息，进而得到更有力的特征表达，这些特征在大量的任务中被证实比传统的手工提取特征具有更强的表征能力，能够更完整地描述图像的整体结构。因此，采用深度卷积神经网络进行舌象深层特征的提取，有利于实现对舌象的准确分类。

目前的深度卷积神经网络结构只支持单标签数据，由于多标签会产生歧义性问题，因此无法直接利用现有的网络结构实现舌象多个标签的同时识别；若通过训练多个网络将多分类转化为二分类，分别实现多个标签的分类识别，则同样不符合舌诊的整体观诊断思想，也忽略了标签间的相关性可能为分类提供的有效信息。

针对上述问题，本文利用深度卷积神经网络构建基于特征相关性的多任务联合学习模型实现舌象的多标签分类。在不需要先验知识的条件下，从特征的角度出发自动挖掘数据间的相关性，从而提升其分类性能。对舌象的主要属性同时进行识别分析，这也更符合中医舌诊的整体观诊断思想。

实现的总体技术路线是：首先，设计一系列舌象预处理操作得到处理后的舌象图用于之后的识别；其次，设计一种共享卷积神经网络增强舌象多个标签特征之间的依赖性，从而利用其相关性提升其分类性能；接着，利用RPN网络定位出舌象各个标签的位置，并得到多个候选区域的坐标和类别标注；最后，设计一种深层提取网络对候选区域进行进一步特征提取，并利用Softmax分类器实现对各个标签的分类识别。

本发明的有益效果为：准确性较高，对舌象舌色、苔色、苔质的厚薄、腐腻、润燥等多个属性进行多分类同时识别。

附图说明

图1为对采集到的舌象进行一系列图像预处理的操作结果图。其中，(a)为原图；(b)为颜色校正结果；(c)为舌体分割结果；(d)为初步阴影检测结果；(e)为最终的阴影检测结果；(f)为经过完整预处理操作后的结果；

图2为基于两阶段深度卷积神经网络的舌体语义分割方法框架图；

图3为基于多任务深度卷积神经网络的舌象识别算法流程图；

图4为RPN网络结构图；

图5为子网络结构示意图。

图6为一种基于多任务卷积神经网络的舌象分类方法的流程图。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1～图6，一种基于多任务卷积神经网络的舌象分类方法，包括对采集到的舌象进行一系列预处理的图像操作；包括用于舌整体特征提取的深度共享卷积神经网络、包括用于对舌面标签进行检测的感兴趣区域定位网络、用于深度学习和训练识别的多任务深度卷积神经网络，完成对舌象舌色、苔色、苔质的厚薄、腐腻、润燥等多个属性的标签分类。

其主要流程如下：当系统接收到用户拍摄的舌体图像时，自动触发预处理模块，得到颜色校正、舌体分割、以及阴影区域去除后的舌体图像；接着，处理后的舌象图先由共享卷积神经网络提取包括整个舌体，即所有标签区域的特征；然后，将上一步得到的特征图送入RPN网络中根据各个标签的标注位置进行定位，得到多个候选区域的坐标和类别标注；接下来，根据这些候选区域的类别标注送入不同的子网络进行深层特征提取，并利用多个Softmax分类器对多个标签进行分类；最后，将所有结果进行联合输出，可同时得到所有标签的预测结果。

对采集到的舌象进行一系列图像预处理的操作，包括颜色校正、舌体分割、阴影区域去除在内的三个预处理操作，其特征在于：针对舌象中存在颜色种类单一且存在大片相近颜色的情况，采用基于图像熵约束的灰度世界算法对舌象进行颜色校正；针对现有舌体分割算法普适性弱，不能对多类舌象均实现较好的分割结果，采用一种基于两阶段深度卷积神经网络的舌体分割方法；为避免阴影区域的存在对之后的颜色识别造成的干扰(容易将阴影部位识别为灰黑苔等)，根据阴影区域和舌面其他区域相比通常具有较高的饱和度和较低的亮度值的特性可进行阴影点的检测；

其中，颜色校正算法的实现可分为三个步骤：

(4)首先对图像的三个颜色通道分别计算一维离散相对熵；

式中，k＝R，G，B，P_k,i表示k分量的灰度值为i的像素在图像中所占的比例。

(5)R、G、B三个通道的“约束”增益系数分别为：

式中，k_r，k_g，k_b分别为灰度世界算法计算得到的三个通道增益系数。

(6)进行“约束”增益系数校正；

图像颜色越丰富，则Hk R越接近于1，krc r≈k_r,krc g≈k_g,krc b≈k_b，即对通道的增益系数几乎没有做任何的调整；反之图像颜色越少，Hk R越接近于0，krc r＝krc g＝krc b≈1，图像颜色不做任何校正，从而防止了“过校正”的现象。

基于两阶段深度卷积神经网络的舌体分割算法流程如下：

Step1：在第一阶段(粗分割)，针对原始舌象图中干扰信息较多的特点，利用卷积神经网络自动学习舌体的深层特征，训练感兴趣区域模型，先利用选择性搜索网络(RegionProposal Networks，RPN)生成候选框，并以此为基础从相似的背景中提取出感兴趣区域，粗分割获得舌体的所在区域，去除大量干扰信息，弱化其与舌体周边组织的影响；

Step2：在第二阶段(精分割)，将前一阶段得到的感兴趣区域作为全卷积网络的输入，在不需要人工干预的情况下，自动学习样本训练Softmax分类器，用训练好的Softmax分类器对图像的每一个像素进行分类进而进行精分割，得到较为完整准确的舌体图像；

Step3：最后设计算法对精分割得到的图像进行后续处理，使分割结果得到进一步优化。

阴影区域去除的算法处理过程如下：

Step1：首先将分割后的舌象图从RGB颜色空间转换到HSV颜色空间，构造新的通道S/V，在此通道根据设定的阈值进行判定即可检测出大部分阴影点，经实验测定阈值一般为0.85，若要得到更精确的检测结果需要人工进行调节；

Step2：经过上一步的检测可获取到舌根处的主要阴影区。但舌体边缘一些亮度值较低的点也会被认为是阴影点，若不对此进行处理，会使舌体边缘有所损失。由于齿痕舌的判定主要利用了边缘信息，边缘失真不利于下一步对其进行齿痕舌与否的判定，故在此利用形态学方法进行小区块的删除恢复舌体边缘。

用于舌整体特征提取的深度共享卷积神经网络，共分为五层，卷积神经网络是由卷积层、激活层和池化层交替构成的深度结构；通过卷积操作，可以使原信息增强并减少噪声；通过池化操作，利用图像局部相关性的原理，对图像进行子抽样，可以在保留图像有用信息的基础上减少数据的处理量，提高网络对舌象的处理效率。

网络接受任意尺寸的舌象作为输入，具体网络结构如下：第一个卷积层(Conv1)的卷积核个数为96，大小为7×7×3，卷积步长为2，填充值为3；第一个池化层(Pool1)的池化核为7×7×3，池化步长为2，填充值为1；随后进行ReLU激活层1处理；第二个卷积层(Conv2)有256个卷积核，大小为5×5×96，步长为2，填充值为2；第二池化层(Pool2)的池化核为7×7×96，步长为2，填充值为1；随后进行ReLU激活层1处理；第三个卷积层(Conv3)有384个卷积核，大小为3×3×256，填充值为1；随后进行ReLU激活层1处理；第四个卷积层(Conv4)有384个卷积核，大小为3×3×384，填充值为1；随后进行ReLU激活层1处理；第五个卷积层(Conv5)有256个卷积核，大小为3×3×384，填充值为1；随后进行ReLU激活层1处理。

经过这五层的特征提取，每张舌象可得到256张特征图，作为RPN网络的输入。

所述的RPN：RPN网络将一个任意尺度图像作为输入，输出矩形目标候选框的集合，每个框包含四个位置坐标变量和一个得分。所述的矩形目标候选框的目标指的是各个标签在舌面上的分布位置。

对每个候选框是目标/非目标的估计概率，是用二分类的Softmax层实现的分类层；k个候选框被相应的k个称为anchor的候选框参数化；

每个anchor以当前滑动窗口中心为中心，并对应一种尺度和长宽比，使用3种尺度和3种长宽比，在原图的相应位置上生成一定的候选区域，这样在每一个滑动位置就有k＝9个anchor。

训练RPN网络时，给每个候选区域分配一个二进制的标签，以此来标注该区域是不是目标。具体操作如下：1)与某个真正目标区域(Ground Truth，GT)有最高的IoU(Intersection-over-Union，交集并集之比)重叠的候选区域(可能不到0.7)；2)与任意GT包围盒有大于0.7的IoU交叠的候选区域。分配负标签给与所有GT包围盒的IoU比率都低于0.3的候选区域；3)介于两者之间的舍弃。

候选区域与真实标注框GT重叠率的计算由式(5)表示：

以任一子网络为例，多任务损失函数由公式(6)表示：

式中，类别损失函数由式(7)定义为：

位置回归损失函数由式(8)定义为：

R是鲁棒的损失函数smooth_L1，由式(9)表示为：

表示其真实类别，

表示背景类,

表示非背景类；

所述的用于深度学习和训练识别的多任务深度卷积神经网络，根据具体识别的内容分为多个结构相同的子网络，每个子网络均由三个全连接层构成，每个全连接层的输出特征向量维度均为1024，将在RPN网络中得到多个带有标签信息的候选区域，接下来根据每个候选区域的标签将其送入不同的子网络进行训练，候选区域共有9种尺寸，而全连接层要求输入尺寸一致，故在此需要先利用金字塔池化层进行尺度归一化，得到相同尺度的样本后再将其送入三个全连接层进行深层特征提取。接着将这些特征图再次送入两个全连接层进行特征压缩，根据每个子网络中所包含的标签将这两个全连接层的输出神经元个数分别进行设置，并将输出值分别与真实标签值做对比，进行损失函数的回归约束。该部分网络的损失函数与RPN网络的损失函数一致，通过这两个损失函数分别计算预测值与给定真实值之间的误差，利用反向传播算法将误差层层回传，利用随机梯度下降法对每层的参数进行调整和更新，如式(10)所示，使得网络的预测值更接近真实值，即最后两个全连接层的输出更接近给定标注值中的类别和位置信息，从而实现对舌象的准确识别。

E为通过损失函数层计算得到的误差值，w为更新前的参数值，w’为更新后的参数值，η为学习率。

Claims

1.一种基于多任务卷积神经网络的舌象分类方法，其特征在于：包括对采集到的舌象进行一系列预处理的图像操作；包括用于舌整体特征提取的深度卷积神经网络、包括用于对舌面标签进行检测的感兴趣区域定位网络、用于深度学习和训练识别的多任务深度卷积神经网络，完成对舌象舌色、苔色、苔质的厚薄、腐腻、润燥属性的标签分类；

所述的对采集到的舌象进行一系列预处理的图像操作包括颜色校正、舌体分割、阴影区域去除在内的三个预处理操作，对自然环境下得到的舌象进行校正，满足后续识别的要求；

所述的用于深度学习和训练识别的多任务深度卷积神经网络，由全连接层组成，对上一阶段得到的各类标签候选区域进行深层特征提取，输入区域在网络中进行层层映射，得到不同的表示形式，提取其抽象特征，从而实现对舌象的深度表示；

子网络利用全连接层对采样后的候选区域进行特征提取，候选区域共有9种尺寸，而全连接层要求输入尺寸一致，故在此先利用金字塔池化层进行尺度归一化，再将其送入三个全连接层进行深层特征提取，子网络中全连接层输出神经元个数均设置为1024，得到1024维的特征向量；接着，将该特征向量分别送入两个全连接层进行特征压缩，根据子网络所需完成的具体任务对这两个全连接层的输出神经元个数分别进行设置，在子网络一中设置为9和36，在子网络二中设置为4和16；最后，将输出值分别与真实标签值做对比，进行损失函数的回归约束；

以任一子网络为例，多任务损失函数由公式(6)表示：

式中，类别损失函数由式(7)定义为：

位置回归损失函数由式(8)定义为：

R是鲁棒的损失函数smooth_L1，由式(9)表示为：

表示其真实类别，

表示背景类,

表示非背景类；

2.如权利要求1所述的一种基于多任务卷积神经网络的舌象分类方法，其特征在于：所述对采集到的舌象进行一系列预处理的图像操作中，针对舌象中存在颜色种类单一且存在大片相近颜色的情况，采用基于图像熵约束的灰度世界算法对舌象进行颜色校正；采用一种基于两阶段深度卷积神经网络的舌体分割方法；根据阴影区域和舌面其他区域相比具有高饱和度和低亮度值的特性进行阴影点的检测；

其中，颜色校正算法的实现分为三个步骤：

(1)首先对图像的三个颜色通道分别计算一维离散相对熵；

(2)R、G、B三个通道的“约束”增益系数分别为：

(3)进行“约束”增益系数校正；

基于两阶段深度卷积神经网络的舌体分割方法流程如下：

Step1：第一阶段为粗分割，针对原始舌象图中干扰信息多的特点，利用卷积神经网络自动学习舌体的深层特征，训练感兴趣区域模型，先利用选择性搜索网络RPN生成候选框，并以此为基础从相似的背景中提取出感兴趣区域，粗分割获得舌体的所在区域，去除大量干扰信息，弱化其与舌体周边组织的影响；

Step3：最后对精分割得到的图像进行后续处理，使分割结果得到进一步优化；阴影区域去除的算法处理过程如下：

3.如权利要求1所述的一种基于多任务卷积神经网络的舌象分类方法，其特征在于：所述的用于舌整体特征提取的深度卷积神经网络，共分为五层，卷积神经网络是由卷积层、激活层和池化层交替构成的深度结构；通过卷积操作，使原信息增强并减少噪声；通过池化操作，利用图像局部相关性的原理，对图像进行子抽样，在保留图像有用信息的基础上减少数据的处理量；

网络接受任意尺寸的舌象作为输入，具体网络结构如下：第一个卷积层Conv1的卷积核个数为96，大小为7×7×3，卷积步长为2，填充值为3；第一个池化层Pool1的池化核为7×7×3，池化步长为2，填充值为1；随后进行ReLU激活层1处理；第二个卷积层Conv2有256个卷积核，大小为5×5×96，步长为2，填充值为2；第二池化层Pool2的池化核为7×7×96，步长为2，填充值为1；随后进行ReLU激活层1处理；第三个卷积层Conv3有384个卷积核，大小为3×3×256，填充值为1；随后进行ReLU激活层1处理；第四个卷积层Conv4有384个卷积核，大小为3×3×384，填充值为1；随后进行ReLU激活层1处理；第五个卷积层Conv5有256个卷积核，大小为3×3×384，填充值为1；随后进行ReLU激活层1处理；

4.如权利要求3所述的一种基于多任务卷积神经网络的舌象分类方法，其特征在于：所述用于对舌面标签进行定位的感兴趣区域提取网络中，RPN网络接收基础网络生成的256张特征图作为输入，利用三个卷积层及算法层对特征图进行二次处理，输出矩形目标候选框的集合，每个框包含4个位置坐标变量和一个得分；

在RPN网络中训练过程如下：首先用3×3的滑动窗口遍历特征图上的每个点，找到该点处滑动窗口中心点映射在原图中的位置，并以其为中心点，在原图上生成3种尺度128²，256²，512²和3种长宽比1:1,2:1,1:2的候选区域，即特征图上的每个点在原图中都对应9个候选区域，设置特征图大小为w×h，则生成的候选区域数目为w×h×9，接下来对所有候选区域进行两次筛选及两次判断；首先删去超出原图范围的候选区域完成第一次筛选，接着对剩余的候选区域计算其与所有真实的标签区域交并集之比即重叠率，并根据比值为每个候选区域分配一个二进制标签，以此来判断该区域是不是标注对象，判断标准为：1)将比值最大的候选区域视为正样本，即标注对象；2)在其他候选区域中，若比值大于0.7，则认为是正样本，小于0.3，则认为是负样本，即非标注对象，比值介于这两者之间的候选区域进行舍弃；

候选区域与真实标注框GT重叠率的计算由式(5)表示：

完成对候选区域的二次筛选后，对其进行第二次标记判断，即将与其有最大交并集之比的真实标注区域的标签作为该候选区域的标签，并为所有负样本添加背景标签，对正负样本进行随机采样，采样数目设置为128，采样比例设置为1:1，正若正样本数目少于64，则差额部分由负样本补足，在后续的网络中将128个正负样本进行融合一同训练，以增强标注样本与非标注样本的区分度。