CN114565035A

CN114565035A - 一种舌象分析方法、终端设备及存储介质

Info

Publication number: CN114565035A
Application number: CN202210173680.1A
Authority: CN
Inventors: 张东晓; 杜鑫康
Original assignee: Jimei University
Current assignee: Jimei University
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-05-31

Abstract

本发明涉及一种舌象分析方法、终端设备及存储介质，该方法中包括：构建舌象识别模型，通过舌体目标图像训练集对舌象识别模型进行训练，通过训练后的模型判断是否为异常舌象图像；舌象识别模型的网络结构中以Swin Transformer网络作为基础网络架构，舌体目标图像输入Swin Transformer网络后得到的特征图像一方面通过分类网络得到第一预测结果，另一方面通过Grad‑CAM得到特征图像对应的注意力区域，通过注意力区域对特征图像进行裁剪后，通过分类网络得到第二预测结果，根据两个预测结果计算得到为异常舌象图像的概率进行输出。本发明对于舌苔图像细粒度识别水平有明显提升，且更易于布置于移动端效果更好。

Description

一种舌象分析方法、终端设备及存储介质

技术领域

本发明涉及舌诊技术领域，尤其涉及一种舌象分析方法、终端设备及存储介质。

背景技术

现有的舌诊仪器以辅助医生进行诊断为主，并且其中一种仪器更多需要医生进行操作，进而对结果进行分析，或者只能针对舌苔这一大类进行检测。其不足之处在于：仪器受众范围小，辅助医生进行诊断，普通用户无法使用；单人无法拍摄舌像；仪器系统无法进行联网更新，并且检测精度不高。

发明内容

为了解决上述问题，本发明提出了一种舌象分析方法、终端设备及存储介质。

具体方案如下：

一种舌象分析方法，包括：

构建舌象识别模型，通过包含正常和异常舌象的舌体目标图像训练集对舌象识别模型进行训练，通过训练后的舌象识别模型判断舌体目标图像是否为异常舌象图像；

舌象识别模型的网络结构中以Swin Transformer网络作为基础网络架构，舌体目标图像输入Swin Transformer网络后得到的特征图像一方面通过分类网络得到第一预测结果，另一方面通过Grad-CAM得到特征图像对应的注意力区域，通过注意力区域对特征图像进行裁剪后，将裁剪结果通过分类网络得到第二预测结果，根据第一预测结果和第二预测结果计算得到输入舌体目标图像为异常舌象图像的概率进行输出。

进一步的，舌体目标图像训练集的获取方法包括以下步骤：

S1：接收具有舌体区域标注的正常舌象图像和异常舌象图像作为舌象图像训练集；

S2：构建目标检测模型，通过舌象图像训练集对目标检测网络进行训练，将训练后的模型作为舌体目标检测模型；

S3：将舌象图像训练集中的正常舌象图像和异常舌象图像输入舌体目标检测模型，并将得到的正常舌体目标图像和异常舌体目标图像组成舌体目标图像训练集。

进一步的，目标检测模型采用YOLOv4网络架构。

进一步的，根据第一预测结果和第二预测结果计算得到输入舌体目标图像为异常舌象图像的概率的方法为：取第一预测结果和第二预测结果的平均值作为输入舌体目标图像为异常舌象图像的概率。

一种舌象分析终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，对于舌苔图像细粒度识别水平有明显提升，且更易于布置于移动端效果更好。

附图说明

图1所示为本发明实施例一的流程图。

图2所示为该实施例中Swin Transformer网络结构示意图。

图3所示为该实施例中Transformer模块的网络结构示意图。

图4所示为该实施例中舌象识别模型的网络结构示意图。

图5所示为该实施例中舌象分析的整体流程示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

本发明实施例提供了一种舌象分析方法，如图1所示，所述方法包括以下步骤：

S1：接收具有舌体区域标注的正常舌象图像和异常舌象图像作为舌象图像训练集。

S2：构建目标检测模型，通过舌象图像训练集对目标检测网络进行训练，将训练后的模型作为舌体目标检测模型。

舌体目标检测网络主要负责对舌象图像进行处理，剪裁出只包含舌体的图像，经过裁剪处理后的图像再输入后续的舌象识别模型，可以大幅提升最终检测精度。

目标检测是计算机视觉和数字图像处理的一个热门方向，通过计算机视觉减少对人力资本的消耗，具有重要的现实意义和引用价值。在众多目标检测算法中，YOLO在准确率和速度方面表现优异，得到学界的广泛认同。该算法基于一个单独的end-to-end网络，将物体检测作为回归问题求解，完成从原始图像的输入到物体位置的输出。本实施例中采用最新的YOLOv4作为目标检测模型的基础网络，通过对现有开放环境下的舌体图像进行标注，重新训练舌体目标检测模型，获取适应中医舌体图像检测任务的算法模型。因此，本实施例方法可以适用于更为一般的开放式采集环境下舌体图像检测任务，对成像环境和成像设备具有鲁棒性。

S4：构建舌象识别模型，通过舌体目标图像训练集对舌象识别模型进行训练，得到训练后的舌象识别模型。

舌象识别模型是本实施例的核心模型，主要用于舌象分类。近年来，基于transformer模型的研究越来越多，并取得了良好的效果。然而transformer仍然存在细粒度检测能力差的问题。为了解决这些问题，本实施例在transformer和CNN优点的基础上改进了Swin transformer，并设计了一个ST-Tongue主干，以增强网络的局部感知并提高小规模目标的检测精度。

舌象识别模型中采用Swin Transformers网络作为基础神经网络模型(backbone)，然后再使用Grad-Cam算法(注意力可视化)，将transformer里面的注意力可视化，将注意力图首先经过标准化，再经过ReLU函数，可以将响应值(响应值越高，代表图片该区域所含的信息越丰富)低的部分(小于零的部分)归为零，然后把注意力高的区域剪裁出来，两个推理结果做融合，形成基于纯注意力机制的舌象细粒度网络。

舌象识别模型的网络结构由如下几部分构成：

a、Swin Transformer网络框架(ST)：ST是Vision Transformers的一个子类别，在当前多个视觉领域均获得最好效果，其通过将图像块合并到更深层来构建分层特征图，并且由于仅在每个局部窗口内发生自注意力处理，因此具有与输入图像大小成正比的线性计算复杂度。因此，其可以用作图片分类和密集识别应用的通用主干。相比之下，早期的transformer生成具有单个低分辨率的特征图，并且由于全局自注意力处理，其计算复杂度与输入图像的大小成正比。

如图2所示，输入的图像先经过一层卷积进行patch映射，具体是将图像先分割成4×4的小块，然后将每一个小块通过映射成一个像素点，进行了通道上的扩充。

特征图一开始输入到stage1，stage1由两层transformer组成，如图3所示，这两层transformer的核心一个是普通的window attention,另一个是shift window attention。可以将window attention和shift window attention视为两个模块，在每一个stage内部就是直接堆积这两个模块。然后在stage与stage之间要有一个pooling操作来降低要处理的数据的尺寸，也就是为了从一开始的局部信息搜索到全局信息的提取。当然这个pooling操作与传统卷积里面的pooling也不太一样，它是将特征图先经过一个space to depth变为1/4，通道数变为原来的4倍，再由一个MLP缩减一半。也就是说每经过一个stage，总的数据量变为原来1/2。swin transformer和resnet一样设计的是一个层次结果很明显的网络，底部的结构处理的数据更多也更局部，顶部的网络处理的数据更少但是语义信息是更加丰富的。不同的是swin主要提取信息的方式是采用transformer，而resnet是卷积核。

b、注意力可视化(Gradient-weighted Class Activation Mapping，Grad-CAM)：Grad-CAM能对图像位置进行判别，流入feature map最后一个特征层的梯度信息为每个神经元分配重要值，以进行特定的关注决策，其可以用来解释深层网络任何层中的注意力。

c、注意力剪裁：对于通过Grad-CAM获得的注意力图(attention map)

我们可以放大这部分区域并提取详细的局部特征。具体来说，可以先确定一个阈值θ_C，然后通过对比注意力图上的元素和阈值θ_C的大小，来得到裁剪掩码。得从

中剪裁出的C_K如公式1所示：

其中，C_k表示裁剪掩码，θ_C表示阈值，并且θ_C∈[0,1]

得到裁剪掩码后，我们就可以确定一个可以覆盖原始图像积极响应的区域(即注意力所关注的区域)，并且通过放大该区域，可以实现放大细节的功能，从而更好地提取细粒度特征。

d、推理融合(blend)：

如图4所示，舌体目标图像x1输入Swin Transformer网络后得到的特征图像f1一方面通过分类网络得到第一预测结果y1，另一方面通过Grad-CAM得到特征图像对应的注意力区域，通过注意力区域对特征图像进行裁剪后，将裁剪结果x2通过分类网络得到第二预测结果，根据第一预测结果和第二预测结果计算得到输入舌体目标图像为异常舌象图像的概率进行输出。

该实施例中取第一预测结果和第二预测结果的平均值作为输入舌体目标图像为异常舌象图像的概率，在其他实施例中也可以采用其他的计算方式，在此不做限制。

S5：当接收到待识别舌象图像时，将其输入舌体目标检测网络得到对应的待检测舌体图像后，将待识别舌体图像输入训练后的舌象识别模型得到其为异常舌象图像的概率，根据该概率和预设的概率阈值的关系可以判定是否为异常舌象图像，参考图5所示。

本发明实施例对于舌苔图像细粒度识别水平有明显提升，并且网络使用Transformer模块并行速度更好，对于模型布置于移动端效果更好。

实施例二：

本发明还提供一种舌象分析终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述舌象分析终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述舌象分析终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述舌象分析终端设备的组成结构仅仅是舌象分析终端设备的示例，并不构成对舌象分析终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述舌象分析终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述舌象分析终端设备的控制中心，利用各种接口和线路连接整个舌象分析终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述舌象分析终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述舌象分析终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种舌象分析方法，其特征在于，包括：

2.根据权利要求1所述的舌象分析方法，其特征在于：舌体目标图像训练集的获取方法包括以下步骤：

3.根据权利要求2所述的舌体目标检测方法，其特征在于：目标检测模型采用YOLOv4网络架构。

4.根据权利要求1所述的舌象分析方法，其特征在于：根据第一预测结果和第二预测结果计算得到输入舌体目标图像为异常舌象图像的概率的方法为：取第一预测结果和第二预测结果的平均值作为输入舌体目标图像为异常舌象图像的概率。

5.一种舌象分析终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～4中任一所述方法的步骤。

6.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1～4中任一所述方法的步骤。