CN111223553B

CN111223553B - 一种两阶段深度迁移学习中医舌诊模型

Info

Publication number: CN111223553B
Application number: CN202010005713.2A
Authority: CN
Inventors: 陈志奎; 张旭; 高静; 李朋
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2023-08-08
Anticipated expiration: 2040-01-03
Also published as: CN111223553A

Abstract

一种两阶段深度迁移学习中医舌诊模型，属于中医辅助诊疗技术领域。首先，基于深度卷积特征范式，构建深度网络，利用金字塔策略，融合多尺度特征，构建对输入舌像的深层抽象表示。然后，设计两阶段的深度迁移学习，针对性地获取舌像诊断中对代表性病灶特征的识别能力，有效解决数据缺乏问题，降低训练成本。在此基础上，设计病灶检查代价函数，训练深度迁移模型，从不同尺度进行检测，标注异常舌像病灶，提高检测精度。最后，根据深度迁移模型的检查结果模拟中医诊疗“众诊合参”过程，进行异常舌像的实时判别，提高诊断的准确率。本发明设计的模型能够模拟中医诊断理论，实时诊断异常舌像，为中医提供临床辅助和诊疗建议。

Description

一种两阶段深度迁移学习中医舌诊模型

技术领域

本发明属于中医辅助诊疗技术领域，涉及一种两阶段深度迁移学习中医舌诊模型，解决深度学习在传统中医诊疗方法计算机化的过程中，面临的数据缺乏、诊断准确率不高等问题。

背景技术

中医是我国一项重要的非物质文化遗产，在治疗慢性病与突发疾病中具有重要的作用。随着医学和计算机科学的共同发展，中医的现代化愈发得到重视，传统中医诊疗方法的标准化和计算机化迫在眉睫。采用先进的计算机技术模拟复现中医诊疗方法，传承名老中医经验，具有重要的现实意义。然而，现有基于浅层机器学习的方法，受限于方法的特征挖掘能力，难以建模中医诊疗中灵活多样的诊断规则。因此，研究深度中医辅助诊疗模型成为当前研究热点。

深度诊疗方法使用临床数据训练深度神经网络，能够拟合名医诊疗规则，传承中医经验。然而，现有的深度诊疗方法依赖海量的标签临床数据才能拟合医师的诊断规则。而中医诊疗数据来源缺乏、采集困难；同时数据稀少昂贵，往往需要资深医生对数据进行标注。在实际诊断中，很难获得足够的数据训练中医深度诊疗模型。因此如何设计少样本深度诊断方法成为中医现在话辅助诊疗的关键课题。

因此，为了更加有效地拟合中医诊疗规则，满足实际应用中实时诊疗的需求，本发明针对中医“望诊”中重要的诊疗方式——舌诊，提出一种两阶段深度迁移中医舌诊模型，将舌诊病灶发现建模为图像标注问题，进而模拟中医“众诊合参”的重要理论进行判断，实现对常见异常舌像的实时诊断，为中医提供临床辅助和诊疗建议。

两阶段深度迁移中医舌诊模型在设计过程中，主要存在以下三方面挑战：

(1)舌诊数据缺乏问题：

中医舌诊数据采集自临床诊断，而当前中医诊疗方法的现代化仍处在起步阶段，现有的舌像图片数据数量相对较少，难以支撑深度模型训练。同时，每张舌像图片样本都需要经验丰富的医生进行标注，导致有效的舌诊数据更加稀少。因此，如何利用有限的舌诊数据训练可靠模型，实现高精度标注，是模型设计的关键问题之一。

(2)训练开销问题：

现有的基于深度学习的图像标注方法，为了得到高精度的识别模型，除了需要大量训练数据，还需要顶级硬件设备作为计算支持，进行长时间的训练。时间和硬件的开销都制约着模型的实际应用。因此，如何在短时间内应用低端设备训练可靠模型，使之更广泛应用于中医辅助诊断，是模型设计的关键问题之一。

(3)精确度问题：

中医舌诊中的病灶不同于现有常见物体识别，其外观特征有很大区别，难以直接应用现有模型。异常舌像病灶较小，对模型精确识别小目标的能力有着较高的要求。同时，舌诊图像采集自日常诊疗，舌像分布随机，标签不均衡。这些因素都会影响舌像辅助诊疗的准确度。因此，如何保证训练的模型具有较高的精确度，使其能够满足中医诊疗的实际需要，是模型设计的关键问题之一。

发明内容

舌诊是中医“望、闻、问、切”四诊中最重要的组成部分之一，通过观察病人舌头的颜色、姿态、舌苔以及舌体上的病灶等舌像，医生可以分析病人的身心状态，推断内脏器官的潜在疾病。舌诊主要倚赖于视觉观察，往往依赖经验进行判断。然而，有经验的中医医生和病人需求相比数量严重不足，尤其在落后地区；同时年轻的医生缺乏临床经验，可能发生误判，影响病人及时得到诊疗，这些都严重制约了中医的发展和现代化进程。

因此，本发明提供一种两阶段深度迁移学习中医舌诊模型，通过将专业设备采集的病人舌像照片输入深度神经网络，进行特征提取、特征图融合和训练，应用图像标注技术，寻找并标注代表性病灶，依此对异常舌像进行分类。通过完成上述工作，达到模拟中医诊断过程，实现中医舌诊标准化和计算机化，为医护人员提供实时诊疗方案和辅助决策的目的。

为了达到上述目的，本发明采用的技术方案如下：

一种两阶段深度迁移中医舌诊模型，将任务模块化予以实现，设计舌像特征提取和融合模块、病灶检测标注模块、以及异常舌像判别模块。其整体过程可以分为三个阶段：

在第一阶段，基于两阶段深度迁移学习进行中医舌诊病灶特征识别。

基于深度卷积特征范式，建立高性能深度神经网络，将输入舌像图片转换为向量，利用金字塔策略，融合多尺度特征，构建对输入舌像的深层抽象表示。定义两阶段的深度迁移学习，针对数据缺乏和训练开销问题，针对性地获取舌像诊断中代表性病灶特征的识别能力，降低训练成本。

在第二阶段，进行异常舌像的病灶检测和标注。设计病灶检测代价函数，训练深度迁移模型，度量检测结果；针对精确度问题，利用大—中—小三种尺度进行检测，特别重视了对小尺度病灶的检测能力；对于检出的病灶，用边界框标注病灶范围并予以记录，保存检测结果，以便后续利用。

在第三阶段，进行异常舌像的判别。根据第二阶段中检索出的症状的数量及其严重程度，模拟中医诊疗“众诊合参”过程进行诊断，判断病人具有何种异常舌像，为中医舌诊提供辅助决策。

因此，采用所述中医舌诊模型进行异常舌像辅助诊断的具体步骤如下：

(一)基于两阶段深度迁移学习的中医舌诊病灶特征识别

在病灶特征识别阶段，实现对输入舌诊图像的高效特征提取和特征融合，完成舌像特征提取和融合模块的构建，为后续的目标识别分类等一系列工作提供基础。

本发明基于深度卷积特征范式，构建深度网络；提出两阶段迁移学习架构，融合样本迁移和网络迁移，构造中医舌诊模型的高性能深度神经网络架构。构建完成的网络包括53个卷积层，这些卷积层又可以进一步细分为单卷积层和多卷积层。此外，网络中还包括用于实现上采样和特征图融合操作的Route层。以及实现ShortCut捷径操作的，由残差模块构成的残差层，用于确保将特征传入网络的更深层进行计算，同时避免传统深度神经网络中常见的，信息传递过程中由层次过深导致的梯度弥散等问题影响网络性能。进一步的，本发明对残差层进行了优化，使用SE模块替代原有的架构，以进一步提高其性能。

通过向量操作，构建对输入舌像的深层抽象表示，利用金字塔策略，融合多尺度特征，实现中医舌诊特征的深度检测和提取。网络接受416*416维的图像输入，输出13*13维的特征图。模型具有较好的鲁棒性，在深度神经网络的训练过程中，不同尺寸的输入图片可以在损失较少信息的情况下被自动调整为一致的大小。在深度学习领域，公认卷积层数越多，即越深的网络具有更好的特征提取和计算能力。因此，基于两阶段深度迁移学习的中医舌诊模型在不改变深度卷积特征模型计算范式的前提下，使用小尺度卷积核卷积层学习输入检测数据特征，主要涉及3*3卷积操作和1*1卷积操作，从而在确保计算复杂性的前提下，构建更深层特征提取网络结构，建模输入图像的更深层特征提高模型识别能力，通过多个卷积层和抽样层的堆叠构建深度特征抽取与多尺度特征融合网络。与此同时，采用特征融合金字塔模型，对特征图进行融合叠加，进行多尺度特征融合计算，有效地融合网络的低维高层强语义特征与高维底层强结构特征，综合考量多方面的因素，合理分配特征权重，将提取到的多尺度特征融合构造得到最终输出特征，以实现舌像病灶特征的有效融合。在特征融合阶段计算中，所述提取模块中的卷积层自底至顶，逐层构建金字塔模型中的特征图，逐层构建输入流向的高层强语义特征；通过上采样操作，自顶至底构建金字塔模型中对应层强语义特征；通过通道叠加操作，融合金字塔模型中对应层特征，构建最终输出特征。图片被转换成向量表示并输入模型，尺度大小分别设置为52*52、26*26以及13*13。在不同尺度分别进行特征图的高层强语义特征与底层强结构特征融合，从而完成舌像特征融合任务。

第一阶段是基于两阶段深度迁移学习的中医舌诊病灶特征识别阶段，具体步骤为：

提出两阶段迁移学习架构，将深度迁移学习的理论进行扩展，有机地结合样本迁移和网络迁移的优势。基于该理论，构造中医舌诊模型的高性能深度神经网络架构。进一步的，在网络架构基础上对模块进行构建，实现舌像特征提取和融合模块，进行中医舌诊病灶特征的识别。

1、构建更深层的神经网络，加入更多的残差层并使用SE块优化其中的残差模块，确保计算结果能够传入网络的深处，进行高效地特征提取学习和融合计算。残差模块通过捷径(shortcut)操作，确保浅层的计算结果能够在几乎没有损失的情况下传递到神经网络的深处。本发明例构建的高性能神经网络中拥有很多残差层，以训练一个可靠的更深层次的神经网络。而SE(Squeeze-and-Excitation)块常用于提高基于卷积神经网络架构的深度网络中特征表示的质量，其主要优势是考虑了通道之间的联系。通过将神经网络中的模块进一步细化为通道表示，探索通道间的联系，SE块得以在更细的粒度上筛选对提取重要特征更具意义的信息。同时，SE块的灵活特性使其易于集成到多种深度神经网络架构中，由残差模块组成的残差神经网络(ResNet)就是其中之一。因此，采用同样的方法，集成SE块到现有的残差层中的残差模块上，使得网络得以执行特征的重新校准，学习全局信息，选择性地强调那些贡献更大的特征信息，同时抑制那些贡献相对不大的信息。融合了SE块的残差层命名为SE-Residual层，用于在网络中更好的传递信息。

2、独创性地提出两阶段深度迁移学习的思想，分别采用基于样本的迁移和基于模型的迁移手段，使模型在训练数据有限的情况下，得以高效迅速地掌握对模型间易于共享的低级特征进行识别和提取的能力。

(1)首先采用基于样本的深度迁移方法。在这一阶段中，先从使用高质量大规模数据集、顶级硬件设备训练完成的模型中迁移对共享的低级特征的学习能力；再从具有大样本量的，具有和病灶相似形态特征表现的样本中，学习对高级特征的判断能力，使得模型能够在高层对低级特征进行再次组合，准确识别符合中医舌诊要求的病灶特征。在第一阶段的迁移中，首先使用成熟模型作为源域。众所周知的高质量大规模数据集包括Pascal VOC和ImageNet数据集。训练的第一步是从这些数据集上获得网络的初始化权重，从而迁移对低级特征的学习能力，使得模型不需要从零开始定义并掌握对点线面等共享低级特征的识别能力，而是具有良好的基础；接下来，由于有标记的异常舌像数据不足以支撑从头训练一个新的神经网络，采用深度迁移学习方法中的样本迁移理论，针对性的选择具有和病灶表现出的代表性形态特征相似的实体作为输入，对模型进行特化训练。举例来说，异常舌像裂纹舌的代表性特征包括舌体上的明显裂纹，尽管我们可能没有足够的裂纹舌样本，但这些裂纹在某种程度上和龟裂的大地呈现出的裂纹是有共性的。基于样本的深度迁移基于这一理论，使用大地裂纹作为相似样本输入模型，尝试将模型的权重进行微调从而获得对裂纹的识别能力。以此类推，使得模型能够从具有大样本量的具有和病灶相似特征的样本中，学习对病灶可能出现特定高级特征的判断能力，在高层将低级特征重新组合成为符合中医舌诊要求的病灶特征。与此同时，由于异常舌像的采集来自真实临床数据，病人的随机性使得不同病症的分布并不平衡，而具有更多实例的类别可能获得更高的精度。为此，在此阶段中采用图像增强技术，和实例迁移技术共同起到平衡数据集的作用。最后，原始训练数据和增强数据一起被发送至网络，加载初始训练权重，获得数据集的权重，测试样本被载入网络，同时前一步的权重被加载以获得测试输出。

(2)进一步结合基于网络的迁移方法，将一阶段中训练好的网络架构和重要参数进行迁移并调整使之更适用于具体任务。在这一过程中，模型强大的学习能力得到保留，在此基础上使用真实采集的临床舌诊图片数据集输入模型进行微调，确保提出的模型对异常舌像这一样本少、形态特征特殊、识别难度高的目标具有实时可靠的识别能力。将一阶段中训练好的网络架构和重要参数进行迁移，保留了强大的学习能力并应用于具体任务，使用真实临床数据进行微调，从而确保模型对异常舌像这一样本少、形态特征特殊、识别难度高的目标具有实时可靠的识别能力。具体的，继承源域神经网络的层作为特征提取器来提取通用特征。这些层在进一步的训练中将大部分被冻结，全连接层和交互层则被重新训练以适应具体任务，用于特征识别、特征融合和分类。原始结构和超参数将首先直接作为新的神经网络的一部分使用，并在其后微调以适应异常舌像的检测任务。深度迁移学习允许我们更好地利用这些强大的预先训练好的网络，使用规模相对较小训练数据集也可以获得更高的精确度，同时将训练时间缩短几个数量级，并消除了优化超参数的需要。

3、基于两阶段深度迁移学习的中医舌诊模型的实现过程中，基于上述理论构造一个高性能的深度神经网络架构。在此基础上，实现舌像特征提取和融合模块，通过多个卷积层和抽样层的堆叠，构建深度特征抽取与多尺度特征融合网络，包括反向参数更新计算和前向特征提取计算。在反向参数更新计算中，模型采用反向传播算法对网络参数进行更新，在前向特征提取过程中，模型涉及：(1)深度特征提取计算；(2)多尺度特征融合计算。其具体方式如下：

(1)网络首先通过特征提取模块进行深度特征检测和提取计算。网络接受416*416维的图像输入，输出13*13维的特征图。主要涉及3*3卷积操作和1*1卷积操作。在深度学习领域，公认卷积层数越多，即越深的网络具有更好的特征提取和计算能力。基于两阶段深度迁移学习的中医舌诊模型在不改变深度卷积特征模型计算范式的前提下，使用小尺度卷积核卷积层学习输入检测数据特征，在确保计算复杂性的前提下，构建更深层特征提取网络结构，建模输入图像的更深层特征提高模型识别能力，通过多个卷积层和抽样层的堆叠构建深度特征抽取与多尺度特征融合网络。具体地，首先使用3*3卷积层构建特征提取模块的主干网络，在减少模型参数的同时增加模型深度；然后随机向特征提取模块的主干网络添加1×1卷积层，在不过多增加网络参数的前提下进一步提高深度特征提取网络的深度，最终提高模型的学习能力。

(2)特征融合模块对特征图进行融合叠加，进行多尺度特征融合计算。在此过程中，综合考量多方面的因素，合理分配特征权重，将提取到的多尺度特征融合构造得到最终输出特征，以实现舌像病灶特征的有效融合。本实施例中提供的模型采用特征融合金字塔模型，有效地融合网络的低维高层强语义特征与高维底层强结构特征，从大—中—小三个尺度展开多尺度检测，尤其强调了对小尺度特征的识别能力。具体地，首先通过特征融合阶段的卷积层自底至顶逐层构建金字塔模型中的每层特征图，逐层构建输入图像的语义特征；然后通过上采样操作自顶至底构建金字塔模型中对应层强语义特征(即，经过上采样后的强语义特征)，最后，通过通道叠加操作在Route层融合金字塔模型中对应层特征，构建最终输出特征。基于金字塔特征融合模型，可以设计合理的多尺度特征融合网络结构，融合低维高层强语义特征与高维底层强结构语义特征，在不同特征尺度上构建对数据的感知表示，提高网络对目标的捕获能力。

在本模型训练过程中，定义初始的输入图像尺寸为416*416。模型具有一定的鲁棒性，在深度神经网络的训练过程中，不同尺寸的输入图片可以在损失较少信息的情况下被自动调整为一致的输入大小。通过Route层的上采样实现特征图的叠加，在特征提取模块中的计算层，图片被转换成向量表示并输入模型，分别在52*52、26*26以及13*13三种尺度上进行特征图的高层强语义特征与底层强结构特征的融合，从而构建特征融合模块。

多尺度特征融合阶段的计算过程如下：当检测数据经过深度特征提取网络达到多尺度特征融合网络时，深度特征首先自底至顶通过3*3卷积层与1*1卷积层逐层构建金字塔模型中的每层特征图，约束多尺度特征的维度并逐层学习输入行人数据的强语义表示，然后通过上采样操作(UpSampling)自顶至底将高层强语义特征反映射到对应层强语义特征，最后，将前向强结构特征与反向强语义特征进行通道融合，构建数据的最终不同尺度特征。

特征融合模块分别从三个尺度上进行特征叠加的计算，此处选择一例说明特征融合操作。令第n层的输入特征为X⁽ⁿ⁾，同时分别表示网络中该层所对应的第n层卷积核、n+1层卷积核以及n+2层卷积核，则特征融合模块中自底向顶流向第一特征图O^(1[n])的计算如下，该特征图对应52*52尺度：

其中，f表示非线性映射函数，b表示对应层偏置。

同理，融合网络自底至顶流向的第二特征图O^(2[n])(对应26*26尺度)与第三特征图O^(3[n])(对应13*13尺度)其计算公式分别如下：

如图3所示，网络整个计算过程中进行多次特征图的提取和融合操作，将其结果进行叠加以最大化利用网络中的信息。

类似的，特征融合模块中自顶至底流向的第一强语义特征图TO^(3[n])与特征融合模块中自底至顶流向的第三特征图O^(3[n])一致。

第二强语义特征图TO^(2[n])的计算形式如下：

TO^(2[n])＝upsample(TO^(2[n])*K_1×1) (4)

其中，upsample表示上采样操作。

第三强语义特征图TO^(1[n])的计算形式如下：

其中，表示通道叠加。

特征融合模块中的输出层的多尺度特征图如下：

FO^(3[n])＝TO^(3[n])*K_1×1 (6)

其中，FO^(1[n])、FO^(2[n])、FO^(3[n])分别表示以52*52、26*26以及13*13尺度上进行多尺度融合的特征图。

多尺度特征融合阶段的计算主要包括3*3卷积操作、1*1卷积操作以及上采样操作。上采样操作的形式化定义如下：

上采样定义：给定的输入特征x∈R^I×I，步长为S＝2，则上采样的操作定义如下：

y_ijs＝upsample(x_ij) (9)

即将x中每一个元素复制到2*2特征图。其中，y表示输出特征，上采样操作中为2I*2I维度，y_ij表示输出特征图中第(i,j)个元素。

(二)中医舌诊中异常舌像病灶检测和标注

在本阶段中，实现病灶检测标注模块，并应用其执行检测计算。由于在异常舌像的病灶检测中，病灶目标的大小形态不同，一部分常见舌像病灶的尺寸相比整张图片较小，需要从大—中—小三个尺度展开多尺度检测，尤其强调对小尺度目标的检测能力。同时为了抑制图片背景影响，需要对舌体进行有效的标记，保证病灶出现在舌体上。在经过上一阶段的特征检测和融合后，定义病灶检测代价函数，通过获取病灶中心位置信息、病灶边界框的宽高信息、边界框的置信度信息以及所属病灶类别置信度信息等，对舌像图片中的病灶进行标注。函数预测包括边界框中心坐标损失、边界框宽高损失、边界框置信度损失和类别置信度损失等参数，进而构建病灶检测计算的网络输出层。通过张量升阶操作，对于上一阶段输出的融合多尺度特征，13*13*18的张量升阶为13*13*3*6的张量，26*26*18的张量升阶为26*26*3*6的张量，52*52*18的张量升阶为52*52*3*6的张量。

第二阶段是异常舌像病灶检测和标注阶段，具体步骤为：

在本阶段中，实现病灶检测标注模块，并应用其执行检测计算。由于在异常舌像的病灶检测中，病灶目标的大小形态不同，一部分常见舌像病灶的尺寸相比整张图片较小，需要从大—中—小三个尺度展开多尺度检测，尤其强调对小尺度目标的检测能力。同时为了抑制图片背景影响，需要对舌体进行有效的标记，保证病灶出现在舌体上。在病灶检测计算中，模型不仅要检测出输入的图像中是否包含病灶及其对应的数量，而且还要分别提供其位置信息。即：模型要在检测图像中准确标注出边界框。

因此，通过病灶中心位置信息、边界框的宽高信息、边界框的置信度信息以及所属类别置信度信息等4种信息构建病灶检测计算的网络输出层，作为后续判断病症和为异常舌像进行分类的依据。同时，基于均方差误差函数设计代价函数，包括预测边界框中心坐标损失、预测边界框宽高损失、预测边界框置信度损失和预测类别置信度损失。具体地：

预测边界框中心坐标损失E₁的形式化定义如下：

其中，N表示病灶检测器输出结果个数；I_i表示第i个输出结果中是否包含病灶目标，I_i＝1表示包含，I_i＝0表示不包含；t_w,t_h表示病灶目标真实边界框的高度和宽度，t_w×t_h即可得到病灶目标边界框的相对面积，取值范围(0,1)，用于加权预测的边界框；t_x,t_y表示病灶目标的真实中心坐标位置，b_x,b_y表示预测的病灶目标中心点坐标位置。

预测边界框宽高损失E₂的形式定如下：

其中，t_w,t_h表示病灶目标真实边界框的高度和宽度，b_w,b_h表示病灶目标预测边界框的高度和宽度。

预测边界框置信度损失E₃的形式定义如下：

其中t_c表示病灶目标边界框真实置信度，p_c表示网络预测的病灶目标边界框置信度。

预测类别置信度损失E₄的形式定义如下：

E₄＝(I_i-p_i)² (13)

其中，I_i表示预测边界框中心坐标损失表示第i个输出结果中是否包含病灶目标，也表示真实数据病灶的概率。I_i＝1表示包含时，概率为1，I_i＝0表示不包含时，概率为0。p_i表示是预测的置信度或者概率。

综上所述，所述整体检测代价函数形式化定义如下：

其中，E₁表示预测边界框中心坐标损失，E₂表示预测边界框宽高损失，E₃表示预测边界框置信度损失，E₄表示预测类别置信度损失。

(三)中医舌诊中异常舌像的判别

在本阶段中，实现异常舌像判别模块，根据检测到的病灶实现异常舌像的分类。通过定义分类算法，模拟中医诊疗中“众诊合参”的重要思想，根据检出病灶的数量及其严重程度做出综合判定，最终为病人具有何种异常舌像进行判断和划分，从而为中医舌诊提供辅助决策。

第三阶段是异常舌像判别阶段，具体步骤为：

实现异常舌像判别模块，根据检测到的病灶实现异常舌像的分类。区别于传统方法使用整张图片输入神经网络直接对其进行分类，通过目标检测方法记录检测出的病灶及其置信度定义的严重程度，依此定义分类算法，模拟中医诊疗中“众诊合参”的重要思想，根据检出病灶的数量及其严重程度做出综合判定，最终为病人具有何种异常舌像进行判断和划分，从而为中医舌诊提供辅助决策。

算法的形式化定义如下：

本发明的有益效果：本发明面向传统中医诊疗计算机化中异常舌像诊断缺乏可靠模型的问题，针对病灶检测的准确性、快速性、目标多尺度性、以及对小目标要求具有精确检测能力等特点，引入深度神经网络的优势，设计两阶段深度迁移学习中医舌诊模型。旨在克服当前缺乏可用可靠的检测模型、现有模型难以实现实时检测、缺乏对小目标病灶的判别能力，以及没有模拟中医“众诊合参”的思想导致结果不科学等难题。从而提升模型的准确性和实时性，更好地推行舌诊的计算机化，辅助缺乏临床经验的青年医生进行决策。同时，提出的两阶段迁移学习方法可以有效地应对传统深度方法需要海量数据进行训练，而中医数据相对稀缺、采集和标注成本高的难题。重点是设计了两阶段的深度迁移方法，并以之为基础构造对应的53层高性能神经网络，设计特征金字塔网络，模块化的实现面向异常舌像检测的舌像特征提取和融合、病灶检测标注、异常舌像判别等主要功能。

附图说明

图1是本发明实施例中提供的基于两阶段深度迁移学习的中医舌诊模型的框架图。

图2是本发明实施例中提供的整体工作流程图。

图3是本发明实施例中深度特征提取网络的架构图。

图4是本发明实施例中基于金字塔网络的特征融合示意图。

图5是本发明实施例中用于优化残差层的SE块结构示意图。

图6(a)举例展示了本发明实施例中检测的几种常见的异常舌像症状及其病灶标注结果。其中(1)为正常舌，(2)为齿痕舌；(3)为点刺舌；(4)为剥苔舌。

图6(b)为本发明实施例中采用“众诊合参”重要思想综合判断异常舌像的结果展示。其中，A为典型厚苔舌；B为带有齿痕的厚苔舌，但齿痕病灶数量不足以达到齿痕舌的标准；C为厚苔舌和裂纹舌的复合症状。

图7显示增加两阶段深度迁移学习架构进行舌像检测的准确率的结果示意图。

图8显示增加两阶段深度迁移学习架构进行舌像检测的召回率的结果示意图。

图9显示本发明模型与典型的基于分类的舌诊检测方法准确率进行对比的结果示意图。

图10是本发明实施例中提供的基于两阶段深度迁移学习的中医舌诊模型的检测流程图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

一种两阶段深度迁移中医舌诊模型分为三个阶段：舌像特征提取能力学习阶段、异常舌像病灶目标检测阶段，以及异常舌像判别阶段。为了实现对输入舌诊图像的高效特征提取、特征融合、目标识别以及模拟诊断等一系列工作，本发明提出两阶段迁移学习架构，将深度迁移学习的理论进行扩展，对基于样本和网络的迁移进行有机的结合。并基于该理论，构造中医舌诊模型的高性能深度神经网络架构，设计了具有53个卷积层的高性能深度神经网络模型，依托该网络分别实现舌像特征提取和融合模块、病灶检测标注模块、以及异常舌像判别模块等主要模块，用于完成上述三阶段中的功能。参照图1至图4，在第一阶段，如图1所示，所述舌像特征提取和融合模块通过两阶段深度迁移学习，从相似对象中挖掘共享特征，进一步提高对舌像诊断中代表性病灶特征的识别能力；之后，基于深度卷积特征范式，将输入舌像图片转换为向量，堆叠多层卷积层、抽样层构建深度特征提取模型，逐层拟合输入检测数据的深层抽象表示；利用图3所示的特征金字塔网络对多尺度特征图进行融合，统筹考虑输入检测数据的多尺度特征，从而构建对输入数据的深层抽象表示。在第二阶段，所述病灶检测标注模块基于目标检测技术，根据其特征检测舌诊中最具代表性的几种症状表现，使用边界框标注其范围并予以记录，保存其检测结果以便后续利用。模型在注重实时性检测的同时针对病灶特点，特别注重强化对小目标和多目标共现的检测能力。模块构建多尺度快速检测模型的输出层，检测病灶信息构建定位边界框，并通过反向传播算法对模型参数进行训练。在第三阶段，所述异常舌像判别模块根据第二阶段中检索出的症状的数量及其严重程度，采用机器学习分类算法为其分配权重，模拟中医诊疗中“众诊合参”的重要理论实施模拟诊断，从而判断病人具有何种异常舌像，实现中医舌诊的计算机化，为青年医生提供辅助决策。模型的总体工作流程如图2所示。

每个阶段的具体实施方式分别如下：

(一)基于两阶段深度迁移学习的中医舌诊病灶特征识别

本发明基于深度卷积特征范式，构造中医舌诊模型的高性能深度神经网络架构。利用金字塔策略，融合多尺度特征，构建对输入舌像的深层抽象表示。在网络架构基础上对模块进行构建，实现舌像特征提取和融合模块，进行中医舌诊病灶特征的识别。设计两阶段迁移学习架构，将深度迁移学习的理论进行扩展，有机地结合样本迁移和网络迁移的优势，针对性地获取舌像诊断中对代表性病灶特征的识别能力，有效解决数据缺乏问题，降低训练成本。

1、基于两阶段深度迁移学习的中医舌诊模型的实现过程中，构造一个高性能的深度神经网络架构。通过多个卷积层和抽样层的堆叠，构建深度特征抽取与多尺度特征融合网络，包括反向参数更新计算和前向特征提取计算。在此基础上，实现舌像特征提取和融合模块。在反向参数更新计算中，模型采用反向传播算法对网络参数进行更新，在前向特征提取过程中，模型涉及：(1)深度特征提取计算；(2)多尺度特征融合计算。其具体方式如下：

首先，探索卷积层网络的计算结构，设计合理的面向中医舌诊模型的深度网络架构。通过向深度特征提取网络中添加小卷积核计算层，在不增加大量网络参数的前提下，提高网络对检测图像特征抽象能力，用于拟合输入数据的本质特征表示。参考图3，构建完成的网络进行深度特征检测和提取融合，并在三个不同大小的尺度上进行预测以检测目标。网络包括53个卷积层，又可以进一步细分为单卷积层和多卷积层。单卷积层结构由一个3*3卷积层、批归一化层、LeakyReLU非线性激活函数构成，每个单卷积层后各具有1个最大值抽样层。多卷积层结构在结构中添加1*1卷积、对应的批归一化层、以及LeakyReLU非线性激活函数，每组多卷积层后各具有1个最大值抽样层。此外，网络中还包括用于实现上采样和特征图融合操作的Route层，以及实现ShortCut捷径操作的，由残差模块构成的残差层，用于确保将特征传入网络的更深层进行计算的同时，避免网络层次过深导致的信息传递过程中的丢失和梯度弥散等问题。进一步的，本发明对残差层进行了优化，使用SE模块替代原有的架构，以进一步提高其性能。网络的具体参数如表1所示。其中，Convolutional代表卷积层；Avgpool表示全局平均抽样；SE-Residual代表经过SE块优化其中残差模块后构成的残差层；Route代表实现上采样和特征融合操作的Route层。

表1网络参数说明表

使用3*3卷积，可以在防止输入图像特征维度缩减的前提下有效地减少网络参数，提高网络的拟合能力，降低网络过拟合风险。此外，在网络中使用3*3的卷积层可以有效地提高对输入数据中小尺寸目标特征的识别能力以及对不明显目标的特征提取能力，从而进一步提高网络对小尺度病灶的检测能力。

使用1*1卷积，可以提高网络对局部特征非线性模式的识别能力，从而加强对输入图像的学习能力。同时，通过计算通道的融合计算，可以有效地融合前层输出的底层语义表示，构建高层抽象表示。此外，向特征网络中添加1*1卷积层，可以在较少地增加网络参数的前提下，进一步提高特征提取网络的深度，使特征提取网络得以学习更深层的特征，有效地构建目标深度表示。

在本模型训练过程中，定义初始的输入图像尺寸为416*416。模型具有一定的鲁棒性，在深度神经网络的训练过程中，不同尺寸的输入图片可以在损失较少信息的情况下被自动调整为一致的输入大小。图4是本发明实施例中基于金字塔网络的特征融合示意图。通过Route层的上采样实现特征图的叠加，在特征提取模块中的计算层，图片被转换成向量表示并输入模型，分别在52*52、26*26以及13*13三种尺度上进行特征图的高层强语义特征与底层强结构特征的融合，从而构建特征融合模块。

其中，f表示非线性映射函数，b表示对应层偏置。

/>

第二强语义特征图TO^(2[n])的计算形式如下：

TO^(2[n])＝upsample(TO^(2[n])*K_1×1) (4)

其中，upsample表示上采样操作。

第三强语义特征图TO^(1[n])的计算形式如下：

其中，表示通道叠加。

特征融合模块中的输出层的多尺度特征图如下：

FO^(3[n])＝TO^(3[n])*K_1×1 (6)

y_ijs＝upsample(x_ij) (9)

在每一组深度特征提取层中，参考图3，分别以52*52、26*26以及13*13多个尺度，在特征图上分别进行高层强语义特征与底层强结构特征融合，构建特征融合网络。

2、与传统方法不同，本发明创新性地首次采用了基于两阶段深度迁移学习的架构。在面向目标识别的计算机视觉领域，有两个重要的理论已经得到证明：第一，更深层次的特征对输入图像具有更强的抽象能力；第二，高级视觉特征可以由低级的特征(点、线、面、阴影、明暗等)组合而成。尽管高级特征在不同的任务中经常具有各异的形态结构和特征表现，组成这些特征的低级特征在不同模型内往往可以共享。但训练更深层的网络也意味着伴随更大的困难：(1)更难以有效的将计算结果传入网络的深层而避免梯度弥散或梯度消失等问题。(2)即使模型能很好的抽象低级特征，异常舌像中的病灶和传统目标识别任务中的类别形态特征上具有较大的差异，使得网络很难进行有效识别，加之数据珍贵，难以直接使用大量真实数据对模型进行“填鸭式”的训练。因此，本实施例中提供的两阶段深度迁移学习架构分别基于这两方面针对性地展开工作。具体实施方式如下：

(1)构建更深层的神经网络，加入更多的残差层并使用SE块优化其中的残差模块，确保计算结果能够传入网络的深处，进行高效地特征提取学习和融合计算。残差模块通过捷径(shortcut)操作，确保浅层的计算结果能够在几乎没有损失的情况下传递到神经网络的深处。本发明例构建的高性能神经网络中拥有很多残差层，以训练一个可靠的更深层次的神经网络。而SE(Squeeze-and-Excitation)块常用于提高基于卷积神经网络架构的深度网络中特征表示的质量，其主要优势是考虑了通道之间的联系。SE块的结构示意图如图5所示。通过将神经网络中的模块进一步细化为通道表示，探索通道间的联系，SE块得以在更细的粒度上筛选对提取重要特征更具意义的信息。同时，SE块的灵活特性使其易于集成到多种深度神经网络架构中，由残差模块组成的残差神经网络(ResNet)就是其中之一。因此，采用同样的方法，可以集成SE块到现有的残差层中的残差模块上，使得网络得以执行特征的重新校准，学习全局信息，选择性地强调那些贡献更大的特征信息，同时抑制那些贡献相对不大的信息。如图3所示，融合了SE块的残差层命名为SE-Residual层，用于在网络中更好的传递信息。

(2)独创性地提出两阶段深度迁移学习的思想，分别采用基于样本的迁移和基于模型的迁移手段，使模型在训练数据有限的情况下，得以高效迅速地掌握对模型间易于共享的低级特征进行识别和提取的能力。具体的，第一阶段采用基于样本的深度迁移方法。在这一阶段中，先从使用高质量大规模数据集、顶级硬件设备训练完成的模型中迁移对共享的低级特征的学习能力；再从具有大样本量的，具有和病灶相似形态特征表现的样本中，学习对高级特征的判断能力，使得模型能够在高层对低级特征进行再次组合，准确识别符合中医舌诊要求的病灶特征。在第一阶段的迁移中，首先使用成熟模型作为源域。众所周知的高质量大规模数据集包括Pascal VOC和ImageNet数据集。训练的第一步是从这些数据集上获得网络的初始化权重，从而迁移对低级特征的学习能力，使得模型不需要从零开始定义并掌握对点线面等共享低级特征的识别能力，而是具有良好的基础；接下来，由于有标记的异常舌像数据不足以支撑从头训练一个新的神经网络，采用深度迁移学习方法中的样本迁移理论，针对性的选择具有和病灶表现出的代表性形态特征相似的实体作为输入，对模型进行特化训练。举例来说，异常舌像裂纹舌的代表性特征包括舌体上的明显裂纹，尽管可能没有足够的裂纹舌样本，但这些裂纹在某种程度上和龟裂的大地呈现出的裂纹是有共性的。基于样本的深度迁移基于这一理论，使用大地裂纹作为相似样本输入模型，尝试将模型的权重进行微调从而获得对裂纹的识别能力。以此类推，使得模型能够从具有大样本量的具有和病灶相似特征的样本中，学习对病灶可能出现特定高级特征的判断能力，在高层将低级特征重新组合成为符合中医舌诊要求的病灶特征。与此同时，由于异常舌像的采集来自真实临床数据，病人的随机性使得不同病症的分布并不平衡，而具有更多实例的类别可能获得更高的精度。为此，在此阶段中采用图像增强技术，和实例迁移技术共同起到平衡数据集的作用。最后，原始训练数据和增强数据一起被发送至网络，加载初始训练权重，获得数据集的权重，测试样本被载入网络，同时前一步的权重被加载以获得测试输出。

第二阶段的迁移则是将一阶段中训练好的网络架构和重要参数进行迁移并调整使之更适用于具体任务。在这一过程中，模型强大的学习能力得到保留，在此基础上使用真实采集的临床舌诊图片数据集输入模型进行微调，确保了本发明提出的模型对异常舌像这一样本少、形态特征特殊、识别难度高的目标具有实时可靠的识别能力。将一阶段中训练好的网络架构和重要参数进行迁移，保留了强大的学习能力并应用于具体任务，使用真实临床数据进行微调，从而确保模型对异常舌像这一样本少、形态特征特殊、识别难度高的目标具有实时可靠的识别能力。具体的，继承源域神经网络的层作为特征提取器来提取通用特征。这些层在进一步的训练中将大部分被冻结，全连接层和交互层则被重新训练以适应具体任务，用于特征识别、特征融合和分类。原始结构和超参数将首先直接作为新的神经网络的一部分使用，并在其后微调以适应异常舌像的检测任务。深度迁移学习允许更好地利用这些强大的预先训练好的网络，使用规模相对较小训练数据集也可以获得更高的精确度，同时将训练时间缩短几个数量级，并消除了优化超参数的需要。

(二)中医舌诊中异常舌像病灶检测和标注

在本阶段中，实现病灶检测标注模块，并应用其执行检测计算。由于在异常舌像的病灶检测中，病灶目标的大小形态不同，一部分常见舌像病灶的尺寸相比整张图片较小，需要从大—中—小三个尺度展开多尺度检测，尤其强调对小尺度目标的检测能力。同时为了抑制图片背景影响，需要对舌体进行有效的标记，保证病灶出现在舌体上。在病灶检测计算中，模型不仅要检测出输入的图像中是否包含病灶及其对应的数量，而且还要分别提供其位置信息。即：模型要在检测图像中准确标注出边界框。因此，本实施例中提供的基于两阶段深度迁移学习的中医舌诊模型通过病灶中心位置信息、边界框的宽高信息、边界框的置信度信息以及所属类别置信度信息等4种信息构建病灶检测计算的网络输出层，作为后续判断病症和为异常舌像进行分类的依据。同时，基于均方差误差函数，设计中心位置信息、边界框的宽高信息、边界框的置信度信息以及所属置信度信息误差函数来度量模型的输出。

具体地，通过合理设计输出层结构，通过病灶中心位置信息、病灶边界框的宽高信息、边界框的置信度信息以及所属病灶类别置信度信息构建病灶检测计算的网络输出层。在检测图像中是否包含病灶的同时准确的标注出边界框，并记录其对应信息。通过张量升阶操作，将第一阶段中多尺度特征融合模块的输出中，13*13*18的张量升阶为13*13*3*6的张量，26*26*18的张量升阶为26*26*3*6的张量，52*52*18的张量升阶为52*52*3*6的张量；此外，设计对应的误差函数，度量网络的代价，通过反向传播算法，训练多尺度快速深度检测模型。定义病灶检测代价函数，其包括预测边界框中心坐标损失、预测边界框宽高损失、预测边界框置信度损失和预测类别置信度损失。

参见图2，其中，(x,y)表示预测的目标的中心位置，(w,h)表示边界框的宽和高，剩余两维表示边界框的置信度以及病灶的置信度。为了训练多尺度快速深度检测模型，本实施例中提供的检测模型基于均方差代价函数设计代价函数，包括预测边界框中心坐标损失、预测边界框宽高损失、预测边界框置信度损失和预测类别置信度损失。具体地：

预测边界框中心坐标损失E₁的形式化定义如下：

其中，N表示病灶检测器输出结果个数；I_i表示第i个输出结果中是否包含病灶目标，I_i＝1表示包含，I_i＝0表示不包含；t_w×t_h表示病灶目标边界框的相对面积，取值范围(0,1)，用于加权预测的边界框；t_x,t_y表示病灶目标的真实中心坐标位置，b_x,b_y表示预测的病灶目标中心点坐标位置。

预测边界框宽高损失E₂的形式定如下：

/>

预测边界框置信度损失E₃的形式定义如下：

预测类别置信度损失E₄的形式定义如下：

E₄＝(I_i-p_i)² (13)

综上所述，所述整体检测代价函数形式化定义如下：

表2众诊合参算法的形式化定义

(三)中医舌诊中异常舌像判别

最后，所述异常舌像判别模块根据检测到的病灶实现异常舌像的分类。区别于传统方法使用整张图片输入神经网络直接对其进行分类，通过目标检测方法记录检测出的病灶及其置信度定义的严重程度，依此定义分类算法，模拟中医诊疗中“众诊合参”的重要思想，根据检出病灶的数量及其严重程度做出综合判定，最终为病人具有何种异常舌像进行判断和划分，从而为中医舌诊提供辅助决策。

算法的形式化定义如表2所示。

结合本发明的方案，进行实验分析如下：

为了验证本发明实施例中提供的两阶段深度迁移中医舌诊模型的有效性，将两阶段深度迁移中医舌诊模型与现有的主流分类算法、目标检测算法进行对比，验证本发明实施例中提供的模型在实时检测小目标以及对样本稀缺的病灶目标可靠检测的有效性。具体地：

基于卷积神经网络的方法(CNN)：搭建深度网络，其结构与现有的两种基于深度神经网络的舌像分类方法相同，但直接使用舌像图片作为输入数据集进行训练，以验证深度迁移学习的作用。网络通过反复迭代提取舌像特征，对输入的异常舌像图片进行直接分类。通过与该方法的对比可以说明，传统方法难以对小规模样本数据集进行有效特征学习，而迁移学习在能够解决训练样本不足时的模型训练同时，需要训练的参数少、准确率高，性能和时间开销上都具备优势。

支持向量机方法(SVM)：支持向量机方法同样尝试对舌像图片进行直接分类，对于给定的训练样本，SVM建立一个超平面作为决策面进行分类。由于支持向量机方法是图片分类中常用的、非基于深度神经网络的方法，本发明选择其作为一种经典分类方法进行对比，验证其是否能够有效用于异常舌像图片的分类从而完成模拟舌诊。

YOLO：YOLO方法是目标识别的前沿方法，可以高效地完成对对象目标的检测。对比方法直接使用舌像图片对YOLO方法的神经网络进行训练，观察其在未经过针对性迁移学习的情况下对病灶目标的准确识别能力，并根据检测结果直接对目标异常舌像进行分类，通过和本发明例提出的模型对比，验证迁移学习和模拟众诊合参算法对于提高检测精度的效果。

CNN with GoogleNet：是现有的一种舌诊方法，使用GoogleNet架构，基于迁移学习和全连接神经网络对部分异常舌像直接进行分类。该网络允许保证计算量基本不变的前提下拓展网络的深度和宽度，具有三级分类器，该方法在继承网络对点、线等基础特征识别能力的前提下，使用其中的一、二级分类器训练神经网络，学习对复杂舌苔特征的识别能力。

Improved CNN：一种现有的基于神经网络对舌像进行分类的方法。应用经ImageNet海量数据集训练后的卷积Inception_v3网络提取舌像图片的点、线等有效特征，再使用全连接神经网络对特征进行训练分类，将深度学习网络学习到的图像知识迁移到异常舌像识别任务中。以上两种方法实施过程中仅通过一次深度迁移学习，通过对比，可以验证本发明提出的两阶段迁移学习的有效性和优势。

1)实验验证数据集

本发明在验证过程中，采用目标域中医临床数据集与辅助域公开数据集训练验证两阶段深度迁移中医舌诊。本发明实施例首先使用公开的多目标检测数据集，训练模型对点、线、面等基特征的学习能力，使模型具有较强的基础特征的感知能力；然后，迁移模型并使用真实数据集和病灶目标微调模型，强化模型拟合中医舌诊诊断中高层的模式的能力，即组合基础层特征拟合高层抽象特征的能力，以符合中医舌诊诊断的需求。此外，本发明实施例使用深度样本迁移，进一步提高模型对病灶典型表现的针对性检测能力，即使用与病灶特征具有相似形态特征的目标数据对模型训练，例如，使用土地干裂时呈现的裂纹形状模拟舌异常舌像中舌体呈现的裂纹进行训练，使用海生生物的裙裾和腹足呈现的褶皱模拟齿痕舌异常舌像舌体边缘的齿痕的明暗变化等。

目标域中医临床数据集：本发明目标域数据采用大连市中医药协会临床收集的临床舌诊数据集，验证两阶段深度迁移中医舌诊模型的有效性。数据集共包括607张舌诊照片，每张舌诊图像均为专业医生标注的真实舌诊图片，其中300张具有相对标准的格式(相同的大小、光照条件、采集规则等)；剩余的307张舌诊照片则以更泛化的方式采集，格式大小不一，利用更泛化的舌诊数据可以提高模型的鲁棒性。同时为了均衡临床舌诊图片的分布，由于舌诊图像具有水平对称性，舌苔主要分布在舌体中心，且病灶的相对位置不会影响对异常舌像的判断，本实施例中采用水平翻转的图像增强手段扩展舌诊数据集。最终的实验数据集定义6类常见的病灶和舌体标签，即“舌体”、“厚苔”、“齿痕”、“裂纹”、“剥苔”和“点刺”。同时，本实施例采用“众诊合参”的诊断的重要思想，利用模型检测病灶的数量，拟合中医舌诊诊断的模式，辅助中医诊断。

辅助域公开数据集：本发明辅助域数据集采用公开多目标检测数据集PASCALVOC2007+2012。PASCAL VOC数据集是典型的视觉对象的分类识别和检测的基准测试，包括鸟、猫、牛、狗等20个常用类，11000张图片和27000个边界框。在本实施例中，PASCAL VOC用于训练模型学习点、线、面等基特征的能力。

2)实验验证标准：

本发明使用交并比(IOU)，模型准确率(Precision)和召回率(Recall)衡量目标检测过程中的准确程度，使用准确率(Accuracy，ACC)和模型预测速度验证两阶段深度迁移中医舌诊模型对异常舌像图像的分类准确度。

交并比IOU是目标检测中常用的衡量标准，定义为模型检测的候选边界框与真实边界框之间的重叠区域之比，其形式化定义如下：

其中，C表示预测边界框，G表示真实的边界框。IOU用来判断两个边界框的相似程度，理想状况下，完全重叠时比值为100％。该方法仅对被检测区域的位置和面积的正确性进行评估，而没有考虑被检测对象的类，在本发明的实施例中，每个病灶存在多个框预测目标，因此，使用非最大抑制(NMS)来抑制这些冗余框。因此，为了充分考虑被检测对象的类别信息，本发明实施例采用非最大抑制IOU，即，当同一舌诊异常同时出现在多个边界框中时，仅取具有最大IOU值的边界框，其形式化定义为：

准确率(Precision)，定义为正确预测的边界框数量与标签总数的比值，形式化定义为：

召回率(Recall)是正确预测的边界框数量与预测总数的比值，形式化定义分别如下：

其中，TP(True Positive)表示将目标正确判断的数量，FP(false positive)表示将非目标正确判断的数量，FN(false negative)表示应检测到但未能检测的目标数量。具体的，本发明实施例中的TP检测定义为其IOU值大于阈值0.5，同时与正确边界框属于同一类别的概率大于阈值0.5。即只有预测边界和实际边界的重叠面积大于50％且置信度也大于50％时，将其作为一个检测出的病灶对象。

3)实验结果

首先验证两阶段深度迁移学习对病灶目标检测的性能。具体地，本发明与当前最先进的实时多目标检测模型YOLO v3进行对比，对比模型分别为：(1)直接在舌像数据集上进行训练，(2)仅进行基于网络迁移的训练模型。

实验结果如表1、图6(a)、图6(b)、图7、图8所示。从实验结果中可以看出，本发明例提出的方法有效地提高了对病灶目标的检测效果。尤其是在检测齿痕、剥苔、点刺等病灶目标时，由于其尺寸小、且表现出的形态特征与视觉对象识别方法训练中常用的类别(鸟、猫、交通工具等)具有显著差距，相比本发明例提出的方法，其他现有方法难以进行有效识别，从而验证了本发明例提出的两阶段迁移的有效性。直接训练的YOLO模型，由于临床数据集规模较小，未能学习到足够充分的特征识别能力，不能很好地检测特殊病灶目标。基于网络迁移的YOLO方法有所改善，但仍未能很好地在高层组织所需要的高层特征，来高效地检测特殊的病灶目标。两阶段YOLO模型继承了对基本层特征识别能力的基础上，利用相似样本补充训练集，使模型进一步获得对特殊目标的检测能力，最大化地发挥了深度迁移学习在解决数据稀缺上的优势。

为进一步验证模型对病灶目标检测的有效性，本发明将两阶段深度迁移YOLO模型与典型的基于分类的舌诊检测方法进行对比，验证本发明中基于目标检测方法对异常舌像的识别性能。对比模型包括：对舌像图片直接分类的卷积神经网络CNN；支持向量机SVM；对舌像图片直接进行目标检测的YOLO v3；以及两种基于升级CNN的方法，也是对舌像图片进行直接分类，但是模型各自完成了一次迁移，首先分别在Google Inception_v3和GoogLeNet数据集上进行了预训练，应用经海量数据集训练后的卷积网络提取舌诊图像中的点、线等有效特征，再使用全连接神经网络对特征进行训练分类，将深度学习网络学习到的图像知识迁移到异常舌像识别任务中。不同于以上方法，本发明例将舌诊检测建模为目标检测问题，基于检测出的病灶置信度和数量，模拟“众诊合参”的诊断的思想，识别舌像的异常。

表1不同方法对病灶目标的检测能力

表2不同方法对异常舌像的分类能力

实验结果如表2、图9所示。通过实验结果可以发现，CNN和SVM不适用于少量数据的舌诊任务。CNN模型中存在大量的参数用于学习图像的特征知识，需要大量的临床舌诊数据拟合模型的参数，当数据集比较小时，无法学习到舌诊图像的有效表示。因此，CNN不适于临床数据比较珍贵的中医舌诊检测。SVM方法寻找最大边缘分类超平面，没有过多的迭代操作，分类时间短，但分类能力受限、精度很低。直接训练的YOLO方法具有较好的实时检测速度，由于训练数据集规模过小，不能有效地检出所有病灶目标，分类精度仍处在不可用的情况。两种改进的CNN方法都采用了深度迁移学习的理论，具有较好的检测能力，但它们的速度大大慢于本发明中的两阶段深度迁移模型。针对两种改进的CNN，它们的架构限制了模型的检测速度，而检测速度在舌诊辅助诊断中有着重要意义。同时，本发明的模型采用“众诊合参”的重要中医理论，全面考虑所有并发的症候，依据检测到的目标病灶数量和置信度综合进行诊疗，确保本发明的模型取得最高的分类精度。

Claims

1.一种两阶段深度迁移学习中医舌诊模型的建构方法，其特征在于，两阶段深度迁移学习中医舌诊模型需要三个阶段：基于两阶段深度迁移学习的中医舌诊病灶特征识别，异常舌像的病灶检测和标注，异常舌像的判别；在基于两阶段深度迁移学习的中医舌诊病灶特征识别阶段，定义两阶段的深度迁移学习，针对数据缺乏和训练开销问题，针对性地获取舌像诊断中代表性病灶特征的识别能力，并且建立高性能神经网络，基于深度卷积特征范式，将输入舌像图片转换为向量，构建对输入数据的深层抽象表示；利用特征金字塔网络对多尺度特征进行融合；在异常舌像的病灶检测和标注阶段，针对精确度问题，利用大、中、小三种尺度进行检测，着重对小尺度病灶进行检测；形式化检测代价函数，度量检测结果；对于检出的病灶，用边界框标注病灶范围并予以记录，保存检测结果，以便后续利用；在异常舌像的判别阶段，根据第二阶段中检索出的症状的数量及其严重程度，模拟中医诊疗“众诊合参”过程进行诊断，判断病人具有何种异常舌像，为中医舌诊提供辅助决策；

(一)第一阶段是基于两阶段深度迁移学习的中医舌诊病灶特征识别阶段，具体步骤为：

1)构建更深层的神经网络

构建完成的神经网络包括53个卷积层，卷积层进一步细分为单卷积层和多卷积层；此外，网络中还包括用于实现上采样和特征图融合操作的Route层，以及实现ShortCut捷径操作的由残差模块构成的残差层；进一步的，集成SE块到现有的残差层中的残差模块上，对残差层进行优化；

2)利用两阶段深度迁移学习的思想，分别采用基于样本的迁移和基于模型的迁移手段，使模型在训练数据有限的情况下，得以掌握对模型间易于共享的低级特征进行识别和提取的能力；

(1)采用基于样本的深度迁移方法

首先使用成熟模型作为源域；训练的第一步是从这些数据集上获得网络的初始化权重，从而迁移对低级特征的学习能力，使得模型不需要从零开始定义并掌握对共享低级特征的识别能力；接下来，采用深度迁移学习方法中的样本迁移理论，针对性的选择具有和病灶表现出的代表性形态特征相似的实体作为输入，对模型进行特化训练；异常舌像裂纹舌的代表性特征包括舌体上的明显裂纹，这些裂纹和龟裂的大地呈现出的裂纹是有共性的；基于样本的深度迁移基于这一理论，使用大地裂纹作为相似样本输入模型，将模型的权重进行微调从而获得对裂纹的识别能力；以此类推，使得模型能够从具有大样本量的具有和病灶相似特征的样本中，学习对病灶可能出现特定高级特征的判断能力，在高层将低级特征重新组合成为符合中医舌诊要求的病灶特征；与此同时，采用图像增强技术和实例迁移技术共同起到平衡数据集的作用；最后，原始训练数据和增强数据一起被发送至网络，加载初始训练权重，获得数据集的权重，测试样本被载入网络，同时前一步的权重被加载以获得测试输出；

(2)结合基于网络的迁移方法，对步骤(1)中训练好的网络架构和重要参数进行迁移并调整，使之更适用于具体任务；具体的：继承源域神经网络的层作为特征提取器来提取通用特征；这些层在进一步的训练中将大部分被冻结，全连接层和交互层则被重新训练以适应具体任务，用于特征识别、特征融合和分类；原始结构和超参数将首先直接作为新的神经网络的一部分使用，并在其后微调以适应异常舌像的检测任务；

3)基于两阶段深度迁移学习的中医舌诊模型，以及基于两阶段深度迁移学习的思想构造一个高性能的深度神经网络架构的实现过程；构建舌像特征提取和融合模块，通过多个卷积层和抽样层的堆叠，构建深度特征抽取与多尺度特征融合网络，包括反向参数更新计算和前向特征提取计算；在反向参数更新计算中，模型采用反向传播算法对网络参数进行更新，在前向特征提取过程中，模型涉及：(1)深度特征提取计算；(2)多尺度特征融合计算；其具体方式如下：

(1)网络首先通过特征提取模块进行深度特征检测和提取计算；网络接受416*416维的图像输入，输出13*13维的特征图；具体地，首先使用3*3卷积层构建特征提取模块的主干网络，在减少模型参数的同时增加模型深度；然后随机向特征提取模块的主干网络添加1×1卷积层，在不过多增加网络参数的前提下进一步提高深度特征提取网络的深度，最终提高模型的学习能力；

(2)特征融合模块对特征图进行融合叠加，进行多尺度特征融合计算；具体地，首先通过特征融合阶段的卷积层自底至顶逐层构建金字塔模型中的每层特征图，逐层构建输入图像的语义特征；然后通过上采样操作自顶至底构建金字塔模型中对应层强语义特征，最后，通过通道叠加操作在Route层融合金字塔模型中对应层特征，构建最终输出特征；通过Route层的上采样实现特征图的叠加，在特征提取模块中的计算层，图片被转换成向量表示并输入模型，分别在52*52、26*26以及13*13三种尺度上进行特征图的高层强语义特征与底层强结构特征的融合，从而构建特征融合模块；

(二)第二阶段是异常舌像病灶检测和标注阶段，具体步骤为：

在异常舌像的病灶检测中，一部分常见舌像病灶的尺寸相比整张图片较小，需要从大、中、小三个尺度展开多尺度检测，强调对小尺度目标的检测能力；同时为了抑制图片背景影响，需要对舌体进行有效的标记，保证病灶出现在舌体上；在病灶检测计算中，模型不仅要检测出输入的图像中是否包含病灶及其对应的数量，而且还要分别提供其位置信息；即：模型要在检测图像中准确标注出边界框；

通过病灶中心位置信息、边界框的宽高信息、边界框的置信度信息以及所属类别置信度信息4种信息构建病灶检测计算的网络输出层，作为后续判断病症和为异常舌像进行分类的依据；同时，基于均方差误差函数设计代价函数，包括预测边界框中心坐标损失、预测边界框宽高损失、预测边界框置信度损失和预测类别置信度损失；具体地：

预测边界框中心坐标损失E₁的形式化定义如下：

其中，N表示病灶检测器输出结果个数；I_i表示第i个输出结果中是否包含病灶目标，I_i＝1表示包含，I_i＝0表示不包含；t_w,t_h表示病灶目标真实边界框的高度和宽度，t_w×t_h即能得到病灶目标边界框的相对面积，取值范围(0,1)，用于加权预测的边界框；t_x,t_y表示病灶目标的真实中心坐标位置，b_x,b_y表示预测的病灶目标中心点坐标位置；

预测边界框宽高损失E₂的形式定如下：

其中，t_w,t_h表示病灶目标真实边界框的高度和宽度，b_w,b_h表示病灶目标预测边界框的高度和宽度；

预测边界框置信度损失E₃的形式定义如下：

其中，t_c表示病灶目标边界框真实置信度，p_c表示网络预测的病灶目标边界框置信度；

预测类别置信度损失E₄的形式定义如下：

E₄＝(I_i-p_i)² (13)

其中，p_i表示预测的置信度或者概率；

整体检测代价函数形式化定义如下：

其中，E₁表示预测边界框中心坐标损失，E₂表示预测边界框宽高损失，E₃表示预测边界框置信度损失，E₄表示预测类别置信度损失；

(三)第三阶段是异常舌像判别阶段，具体步骤为：

利用异常舌像判别模块，根据检测到的病灶实现异常舌像的分类；区别于传统方法使用整张图片输入神经网络直接对其进行分类，通过目标检测方法记录检测出的病灶及其置信度定义的严重程度，依此定义分类算法，模拟中医诊疗中“众诊合参”的重要思想，根据检出病灶的数量及其严重程度做出综合判定，最终为病人具有何种异常舌像进行判断和划分，从而为中医舌诊提供辅助决策。

2.根据权利要求1所述的一种两阶段深度迁移学习中医舌诊模型的建构方法，其特征在于，多尺度特征融合计算过程如下：当检测数据经过深度特征提取网络达到多尺度特征融合网络时，深度特征首先自底至顶通过3*3卷积层与1*1卷积层逐层构建金字塔模型中的每层特征图，约束多尺度特征的维度并逐层学习输入行人数据的强语义表示，然后通过上采样操作自顶至底将高层强语义特征反映射到对应层强语义特征，最后，将前向强结构特征与反向强语义特征进行通道融合，构建数据的最终不同尺度特征；

特征融合模块分别从三个尺度上进行特征叠加的计算，令第n层的输入特征为X⁽ⁿ⁾，同时分别表示网络中该层所对应的第n层卷积核、n+1层卷积核以及n+2层卷积核，则特征融合模块中自底向顶流向第一特征图O^(1[n])的计算如下，该特征图对应52*52尺度：

其中，f表示非线性映射函数，b表示对应层偏置；

同理，融合网络自底至顶流向的第二特征图O^(2[n])，对应26*26尺度，以及第三特征图O⁽³ ^[n])，对应13*13尺度，其计算公式分别如下：

网络整个计算过程中进行多次特征图的提取和融合操作，将其结果进行叠加以最大化利用网络中的信息；

特征融合模块中自顶至底流向的第一强语义特征图TO^(3[n])与特征融合模块中自底至顶流向的第三特征图O^(3[n])一致；

第二强语义特征图TO^(2[n])的计算形式如下：

TO^(2[n])＝upsample(TO^(2[n])*K_1×1) (4)

其中，upsample表示上采样操作；

第三强语义特征图TO^(1[n])的计算形式如下：

其中，表示通道叠加；

特征融合模块中的输出层的多尺度特征图如下：

FO^(3[n])＝TO^(3[n])*K_1×1 (6)

其中，FO^(1[n])、FO^(2[n])、FO^(3[n])分别表示以52*52、26*26以及13*13尺度上进行多尺度融合的特征图；

多尺度特征融合计算包括3*3卷积操作、1*1卷积操作以及上采样操作；上采样操作的形式化定义如下：

给定的输入特征x∈R^I×I，步长为S＝2，则上采样的操作定义如下：

y_ijs＝upsample(x_ij) (9)

即将x中每一个元素复制到2*2特征图；其中，y表示输出特征，上采样操作中为2I*2I维度，y_ij表示输出特征图中第(i,j)个元素。

3.根据权利要求1所述的一种两阶段深度迁移学习中医舌诊模型的建构方法，其特征在于，异常舌像判别阶段的计算过程具体如下：

模型的输入为P张待检测的舌诊图片；

待检测的图片在模型中以数组Di的形式存储和表示，分别对应一种常见的异常舌像；

对于数组中的每个元素Di[n]，其值为检测过程中出现的症状的置信度概率，当未检测到对应症状时，Di[n]＝0；

对于不同的症状，根据中医诊疗中定义的不同重要程度定义其阈值φi；仅当置信度概率大于阈值时，判定为检测到该症状；

对于每张输入的待检测图片，模型重复以下步骤：

从第一种症状开始检测并判定，并保存置信度结果至对应的Di[n]，随后检测下一种症状；

对于某些症状，当置信度概率大于其对应的阈值时，即能判定为检测到该症状；

对于某些特定的症状，需要当置信度概率大于对应阈值，且检测出病灶的数量之和也大于一定的值时，才判定为检测到该症状；

对于所有被检测到的症状，处理互相冲突和覆盖的症状，处理误检；

基于众诊合参理论，得到最终的模拟诊断结果，输出为病灶已被标记出的舌诊图片及模拟诊断结果。