CN110705425A

CN110705425A - 一种基于图卷积网络的舌象多标签分类学习方法

Info

Publication number: CN110705425A
Application number: CN201910912799.4A
Authority: CN
Inventors: 李自然; 秦建增
Original assignee: Guangzhou Sisi Digital Technology Co Ltd
Current assignee: Guangzhou Sisi Digital Technology Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2020-01-17
Anticipated expiration: 2039-09-25
Also published as: CN110705425B

Abstract

本发明公开了一种基于图卷积网络的舌象多标签分类学习方法，包括如下步骤：S1、对原始图像进行舌体检测，抽取得到舌体图像；S2、对步骤S1中抽取的舌体图像进行图像预处理，所述预处理包括去反光点处理、锐化处理和摆正处理；S3、针对各个标签，对预处理后的舌体图像进行半自动化标注，得到大样本多标签数据集；S4、使用图卷积网络对步骤S3中得到的大样本多标签数据集进行训练和推断，得到基于图卷积网络的舌体多标签分类模型。本发明通过一个图卷积网络同时对舌象的多个标签进行分类诊断，充分学习标签之间的依赖关系，使得机器舌诊的过程变得更加高效准确。

Description

一种基于图卷积网络的舌象多标签分类学习方法

技术领域

本发明涉及中医舌诊机器视觉的检测与分类技术领域，具体涉及一种基于图卷积网络的舌体检测、舌体预处理、舌体半自动化标注流程以及舌象多标签分类的新方法。

背景技术

中医诊断依据的四诊“望，闻，问，切”中，“望”乃首要。而“望舌观病”又是“望诊”的重要组成部分，因为人体的五脏六腑通过经络与舌头相连，人体的变化情况均可反映在舌象上。中医舌诊以肉眼观察，主观性较强。因此，定量化分析方法能够为更精准的舌诊提供依据。

舌诊本质上就是图像分类问题。随着近年来机器视觉领域软硬件的蓬勃发展，以及数据驱动型算法的研究发展，对舌象的分类精度越来越高。但多数研究中的舌象分类任务，被设定为单标签的多类(或二元)分类问题，而少数运用多标签学习的研究，其标签数量较少，且并未运用深度学习技术，因此效果一般。医学的分类问题，从实用性角度，应该是多输出分类的，而多标签分类即是多输出分类的一种。在多标签学习中大致有三种策略：(1)将多标签问题拆解成多个独立的二元分类问题：如果标签之间不存在依赖关系，该策略是比较高效的；(2)考虑成对的标签结构关系：比如任意两个标签之间的相关性；(3)同时考虑多个标签之间的复杂的拓扑关系。舌象的标签之间必定存在一定的依赖关系，因此通过挖掘标签间的依赖关系，对于多标签学习在舌象分类领域的实用性发展，具有非常重要的意义。

以往大多数针对舌象的分类研究，是对各个标签进行单独分类，忽略了标签之间的依赖关系，且结果输出了多个分类模型，也就意味着在推断时，需要加载多个模型，从而影响效率。少数采用多标签的研究要么没有采用深度学习的技术，要么没有充分挖掘标签之间的依赖关系，影响了准确度。

发明内容

针对现有技术的不足，本发明旨在提供一种基于图卷积网络的舌象多标签分类学习方法，通过一个图卷积网络同时对舌象的多个标签进行分类诊断，充分学习标签之间的依赖关系，使得机器舌诊的过程变得更加高效准确。

为了实现上述目的，本发明采用如下技术方案：

一种基于图卷积网络的舌象多标签分类学习方法，包括如下步骤：

S1、对原始图像进行舌体检测，抽取得到舌体图像；

S2、对步骤S1中抽取的舌体图像进行图像预处理，所述预处理包括去反光点处理、锐化处理和摆正处理；

S3、针对各个标签，对预处理后的舌体图像进行半自动化标注，得到得到大样本多标签数据集；

S4、使用图卷积网络对步骤S3中得到的大样本多标签数据集进行训练和推断，得到基于图卷积网络的舌体多标签分类模型。

进一步地，步骤S1的具体过程如下：

S1.1、数据准备

S1.1.1、CenterNet的输入数据X为原始图像，先对原始图像进行随机缩放和平移的仿射变换，并设定变换后的图像大小为512×512，然后缩放像素到[0,1]之间，最后做归一化处理；

S1.1.2、CenterNet的输入数据Y包括舌体中心点热力图Y_hm、舌体中心点误差下限Y_reg以及舌体边界框的宽和高Y_wh；在生成输入数据Y时，首先对边界框的坐标进行与输入数据X同样的缩放和平移的仿射变换，并设定变换后的图像大小为128×128；然后根据变换后的舌体边界框的坐标(x_min,y_min,x_max,y_max)，计算舌体边界框的宽w、高h和中心点坐标误差下限reg：

h＝y_max-y_min

w＝x_max-x_min

最后根据二维高斯核函数构建舌体中心点热力图H_x,y(P)：

其中，

r＝min(r₁,r₂,r₃),

上式中，x_min是舌体边界框左上角的横坐标，y_min是舌体边界框左上角的纵坐标，x_max是舌体边界框右下角的横坐标，y_max是舌体边界框右下角的纵坐标，w是舌体边界框的宽，h是舌体边界框的高，reg是舌体中心点坐标误差下限，H_x,y(P)∈[0,1]，r是高斯核半径，m∈[0.6,0.9]，p_x是舌体中心点横坐标，p_y是舌体中心点纵坐标；

S1.2、模型创建：

利用深层聚和网络创建四个层级的网络，第一个层级网络共有33个隐含层，各层输出计算如下：

第二个层级网络共有18个隐含层，各层输出计算如下：

第三个层级网络共有6个隐含层，各层输出计算如下：

第四个层级网络对前三个层级网络分别接全连接层，各层输出计算如下：

上式中，X是训练数据；W_i,j表示第i层隐含层和第j层隐含层之间的卷积参数；

表示第i层隐含层和第j层隐含层之间的、并列第d个的卷积参数；

表示第i层隐含层和第j层隐含层之间的转置卷积参数；

表示第k层的输出；

是中心点误差下限的预测值；

是舌体中心点热力图预测值；

是舌体边界框的宽和高的预测值；MP(·)表示最大池化函数；σ(·)表示ReLu函数；BN(·)是batch正则化函数；concat(·)表示将一个或多个输入进行融合的函数；f_DCN(·)是可变卷积函数。

进一步地，步骤S1.2中，对于每一个batch，模型训练的损失函数为：

loss＝loss_hm+λ_whloss_wh+λ_regloss_reg；

其中，

其中，b是一个batch的大小，x,y＝[1,2,...,128]，N是中值为1的元素个数。

更进一步地，步骤S1.2中，模型训练的优化器用的是Adam算法，学习率设置为0.000125。

进一步地，所述去反光点处理的具体过程为：

S2.1.1、将舌体图像从RGB空间转为HSV色彩空间，并且拆分成H,S,V三个矩阵，并构造一个椭圆形态的结构矩阵f和矩阵S′：

S′_ij为矩阵S′的元素，S_ij为矩阵S的元素；

S2.1.2、利用结构矩阵f，对矩阵S′_ij进行腐蚀处理，腐蚀处理后的矩阵记为S_e；根据矩阵S_e中值等于0的元素(S_e)_ij，将矩阵V中相应位置上的元素V_ij设置为0，即：

V_ij＝0,if(S_e)_ij＝0；

然后创建矩阵V′：

S2.1.3、用所述结构矩阵f对V′_ij进行两次膨胀处理，记膨胀处理后的矩阵为V_d；矩阵V_d即为修复掩码，其中非零元素的位置即为需要修复的像素位置；

S2.1.4、利用基于Navier-Stokes的方法，对需要修复的像素位置附近的圆形区域进行插值处理。

进一步地，所述锐化处理的具体过程包括：

对经过去反光点处理后的舌体图像，使用滤波器为W_s进行卷积处理，所述滤波器W_s如下所示：

进一步地，所述摆正处理的具体过程包括：

S2.3.1、首先将锐化处理后的舌体图像大小转换至300×1000，然后将RGB彩色空间转为灰度空间，再对灰度图进行二值阈值化操作，阈值设置为127，填充值为255；

S2.3.2、对二值阈值化后的舌体图像进行查找外轮廓处理，并认为包含像素点最多的外轮廓即为舌体外轮廓；

S2.3.3、用椭圆来拟合舌体外轮廓，返回旋转角度θ；

S2.3.4、设舌体摆正角度为θ′(非弧度制)，则

设舌体图像是

h'和w'分别是图像的高和宽，其中心点为

那么舌体图像的旋转矩阵R为：

最后利用旋转矩阵R，对舌体图像进行旋转操作。

进一步地，步骤S3的具体过程如下：

S3.1、针对每个标签提取小样本舌体图像，医学专业人员对舌体图像的各个标签进行单独标注，标注方式为图像级别的弱监督标注，且尽量保证各个标签的各类小样本数量是均衡的；

S3.2、根据各个标签的特征在舌体表面的分布情况以及标签内的子类数目，采用步骤S3.1得到的经弱监督标注后小样本进行训练得到各标签的均衡小样本模型；具体为，当标签的特征分散在舌体表面的各个部位且标签内的子类数目等于1，则训练该标签的检测小样本模型，当标签的特征集中在舌体表面的某个部位且标签内的子类数目等于2，则训练该标签的二分类小样本模型，当标签的特征集中在舌体表面的某个部位且标签内的子类数目大于2，则训练该标签的多分类小样本模型；

S3.3、训练出各标签的小样本模型后，对各个标签的剩余样本进行推断，并在各个标签于舌体表面集中分布的区域添加标注框信息，使得将原先的弱监督标注转为强监督标注；

S3.4、将所关注舌体区域是一样的标签合并为一个标签，得到大样本多标签数据集；

S3.5、再让医学专业人员进行复核，包括调整边框位置，添加未检测出的标签，或新增其他标签，得到最终的大样本多标签数据集。

进一步地，步骤S4的具体过程为：

图卷积网络的输入数据X包括舌体图像

和各个标签的词嵌入向量

其中16是一个batch的大小，3是图像通道数，512是舌体图像大小，C是标签数量，t是词嵌入向量的维度；输入数据Y＝{0,1}^16×C，则具体的向前模型如下：

g₁＝σ_l(AZw₁+b₁)

g₂＝(Ag₁w₂+b₂)^T

其中，

其中，D_ij为矩阵D的元素，A″_ij为矩阵A″的元素，Bⁿ(·)表示函数B自身复合n次的函数；MP(·)表示最大池化函数；σ(·)表示ReLu函数；σ_l(·)表示LeakyReLu函数；BN(·)是batch正则化函数；W_k×k表示k×k卷积核；w_i,b_i,i＝{1,2}分别表示图卷积层的权值参数和偏置；A是相关矩阵；m_ij是第i个标签和第j个标签共同出现的数量；n_j表示第j个标签出现的数量；

是最终的预测结果。

更进一步地，模型训练的损失函数用的是多标签软间隔损失，则每一个batch的损失为：

其中，Y是真实数据值，

是预测值，σ_s(·)是Sigmoid激活函数，N是一个batch的大小，C是标签数量；

模型训练的优化器用的是随机梯度下降算法，学习率设置为0.1，冲量设置为0.9，权值衰减系数为0.0001。

本发明的有益效果在于：

1、本发明通过一个图卷积网络同时对舌象的多个标签进行分类诊断，充分学习标签之间的依赖关系，使得机器舌诊的过程变得更加高效准确；

2、本发明使用了基于CenterNet的舌体检测算法，相比Anchor-based的检测算法，该方法更简单、高效、准确；

3、传统的舌象反光点处理基本上是基于RGB空间或者灰色空间进行阈值筛选，处理后的效果并不是非常明显。本发明将图像的RGB空间转为HSV色彩空间，然后对不饱和的像素，进行腐蚀、膨胀等处理，生成高亮区域掩码，最后对该掩码区域进行插值处理，以达到修复反光点的效果；

4、本发明对舌体图像进行摆正的预处理，因为如果舌体不正，按模板分出来的位置就不准确，本发明通过一系列的缩放、椭圆拟合、旋转和仿射等处理，可以简单、准确的摆正舌体；

5、本发明建立了舌象多标签标注优化流程，大大减少了医学专员的标注工作量。

附图说明

图1为本发明实施例方法的总体流程示意图；

图2为本发明实施例方法中的CenterNet舌体检测示意图；

图3为本发明实施例方法中去反光点处理示意图；

图4为本发明实施例方法中舌体锐化处理示意图；

图5为本发明实施例方法中舌体摆正处理示意图；

图6为本发明实施例方法中数据准备步骤的处理示意图；

图7为本发明实施例方法中舌象多标签标注优化流程示意图；

图8为本发明实施例方法中的模板示意图；

图9为本发明实施例方法中小样本模型的训练示意图；

图10为本发明实施例方法中标签合并示意图；

图11为本发明实施例方法中基于图卷积网络的舌体多标签分类模型示意图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

本实施例提供一种基于图卷积网络的舌象多标签分类学习方法，如图1所示，包括如下步骤：

S1、对原始图像进行舌体检测，抽取得到舌体图像。本步骤可以有效减少干扰信息。

具体地，本实施例中，使用了基于CenterNet的舌体检测算法对原始图像进行舌体检测。CenterNet属于Anchor-free检测算法。传统的基于Anchor-based的舌体检测算法，都需要枚举出几乎所有潜在的目标检测框，然后进行分类，这样既浪费资源又不高效，而且还需要后续的很多处理。在本实施例中，CenterNet利用舌体检测框的中心点进行建模，先对该中心点的坐标进行估计，然后对舌体检测框的顶点坐标进行回归(如图2所示)。这是一个端对端的方法，相比Anchor-based的检测算法，该方法更简单、高效、准确。具体过程包括：

S1.1、数据准备

S1.1.1、CenterNet的输入数据X为原始图像，先对原始图像进行随机缩放和平移的仿射变换，并设定变换后的图像大小为512×512，然后缩放像素到[0,1]之间，最后做归一化处理(图6(a))。

S1.1.2、CenterNet的输入数据Y包括舌体中心点热力图Y_hm、舌体中心点误差下限Y_reg以及舌体边界框的宽和高Y_wh；在生成输入数据Y时，首先对边界框的坐标进行与输入数据X同样的缩放和平移的仿射变换，并设定变换后的图像大小为128×128(图6(b))；然后根据变换后的舌体边界框的坐标(x_min,y_min,x_max,y_max)，计算舌体边界框的宽w、高h和中心点坐标误差下限reg：

h＝y_max-y_min

w＝x_max-x_min

最后根据二维高斯核函数构建舌体中心点热力图H_x,y(P)：

其中，

r＝min(r₁,r₂,r₃),

上式中，x_min是舌体边界框左上角的横坐标，y_min是舌体边界框左上角的纵坐标，x_max是舌体边界框右下角的横坐标，y_max是舌体边界框右下角的纵坐标，w是舌体边界框的宽，h是舌体边界框的高，reg是舌体中心点坐标误差下限，H_x,y(P)∈[0,1]，r是高斯核半径，m∈[0.6,0.9]，p_x是舌体中心点横坐标，p_y是舌体中心点纵坐标。可以看到高斯核半径随着边界框的大小而改变，而σ_P随着高斯核半径的大小而调整。

由于只需要识别舌体，因此目标类别数目为1；设定一张128×128的图中，最多有128个舌体。当batch大小设置为16，即在每一个batch中，输入数据X∈[0,1]^{16×3×512×512}，输入数据Y_hm∈[0,1]^{16×1×128×128}、Y_reg∈[0,1]^16×128×2、为实数集。

S1.2、模型创建

采用深层聚和网络(Deep Layer Aggregation，DLA)进行舌体图像特征抽取。该网络由两种结构组合而成，分别是层级式深度聚和(Hierarchical Deep Aggregation，HDA)以及迭代式深度聚合(Iterative Deep Aggregation，IDA)。设HDA函数为H_n，n为层数深度，则：

H₁(X)＝F(X,B(X),B²(X))

···

即

其中，F(·)表示节点聚和操作函数；B(·)表示卷积块操作函数；B²(·)表示复合卷积块操作函数。

设IDA函数为I_s，s为迭代式聚和节点数目，则：

其中，

是隐含层序列；F(·)表示节点聚和操作函数。

本实施例利用上述模型创建四个层级的网络，第一个层级网络共有33个隐含层，各层输出计算如下：

第二个层级网络共有18个隐含层，各层输出计算如下：

第三个层级网络共有6个隐含层，各层输出计算如下：

表示第i层隐含层和第j层隐含层之间的转置卷积参数；

表示第k层的输出；是中心点误差下限的预测值；是舌体中心点热力图预测值；是舌体边界框的宽和高的预测值；MP(·)表示最大池化函数；σ(·)表示ReLu函数；BN(·)是batch正则化函数；concat(·)表示将一个或多个输入进行融合的函数；f_DCN(·)是可变卷积函数。

对于每一个batch，模型训练的损失函数为：

loss＝loss_hm+λ_whloss_wh+λ_regloss_reg

其中，

其中，b是一个batch的大小，x,y＝[1,2,...,128]，N是

中值为1的元素个数；

模型训练的优化器用的是Adam算法，学习率设置为0.000125。

S2、对步骤S1中抽取的舌体图像进行图像预处理。

在本实施例中，所述图像预处理过程包括：

S2.1、去反光点处理；

传统的舌象反光点处理基本上是基于RGB空间或者灰色空间进行阈值筛选，处理后的效果并不是非常明显。而在本实施例中，首先将舌体图像的RGB空间转为HSV色彩空间，然后对不饱和的像素进行腐蚀、膨胀等处理，生成高亮区域掩码，最后对掩码后的高亮区域进行插值处理，以达到修复反光点的效果(如图3所示)。

更具体地，所述去反光点处理的具体流程包括：

S′_ij为矩阵S′的元素，S_ij为矩阵S的元素；

V_ij＝0,if(S_e)_ij＝0；

然后创建矩阵V′：

S2.1.4、利用基于Navier-Stokes的方法，对需要修复的像素位置附近的圆形区域进行插值处理，圆形区域的半径为5；

S2.2、锐化处理；

舌体表面的细节信息和边缘信息主要集中在图像的高频部分，而进行去反光点处理时会使得小部分的高频噪声丢失，因此需要锐化处理来提高模糊细节的质量(如图4所示)。

具体地，对经过去反光点处理后的舌体图像，使用滤波器为W_s进行卷积处理，所述滤波器W_s如下所示：

S2.3、舌体摆正处理；

中医认为舌体的不同位置是人体的五脏六腑的缩略图，因此需要根据一定的模板比例将标准舌体分割开。但如果舌体不正，按模板分出来的位置就不准确，因此需要对舌像进行摆正处理。在本实施例中，具体对舌体图像依次进行缩放、椭圆拟合、旋转和仿射等处理，可以简单、准确的摆正舌体(如图5所示)。

具体流程包括：

S2.3.3、用椭圆来拟合舌体外轮廓，返回旋转角度θ；

S2.3.4、设舌体摆正角度为θ′(非弧度制)，则

设舌体图像是

h'和w'分别是图像的高和宽，其中心点为那么舌体图像的旋转矩阵R为：

最后利用旋转矩阵R，对舌体图像进行旋转操作。

S3、针对各个标签，对预处理后的舌体图像进行半自动化标注；

多标签的标注难度相比单标签会大很多，除了要考虑标签样本的均衡问题，也要考虑标注工作中带来的人为误差问题。因此，本实施例中通过建立舌象多标签标注优化流程，大大减少了医学专员的标注工作量，具体如图7所示，将多标签图像级别的标注，转为各个单标签图像级别的标注，并在考虑各个单标签正负样本均衡问题的前提下，对每个标签单独训练小样本模型；利用得到的小样本模型去推断各个标签剩余的大样本，然后合并单标签成多标签数据集，最后进行人工复核。

具体过程如下：

S3.1、针对每个标签提取小样本舌体图像，医学专业人员对舌体图像的各个标签进行单独标注，标注方式为图像级别的弱监督标注(即没有任何标注框或关键点的信息)，且尽量保证各个标签的各类小样本数量是均衡的；

S3.2、根据各个标签的特征在舌体表面的分布情况以及标签内的子类数目，采用步骤S3.1得到的经弱标注后小样本进行训练得到各标签的均衡小样本模型；具体为，当标签的特征分散在舌体表面的各个部位且标签内的子类数目等于1，则训练该标签的检测小样本模型，当标签的特征集中在舌体表面的某个部位且标签内的子类数目等于2，则训练该标签的二分类小样本模型，当标签的特征集中在舌体表面的某个部位且标签内的子类数目大于2，则训练该标签的多分类小样本模型；

具体地，可以根据模板(如图8所示)，对各标签特征在舌体表面集中分布的位置进行切割，例如裂纹主要分布在舌根和舌中部位，那就切割出舌中和舌根作为训练数据，训练裂纹二分类小样本模型，而像淤点瘀斑分布比较随机，则需要训练检测模型，具体如图9所示。

S3.4、由于有些标签所关注舌体区域是一样的，因此将这些标签合并为一个标签，得到大样本多标签数据集；比如裂纹、剥落和腐腻都集中关注舌根和舌中部分，因此合并三个标签成一个标签，如图10所示。

S3.5、再让医学专业人员进行复核，比如调整边框位置，添加未检测出的标签，或新增其他标签等，得到最终的大样本多标签数据集。

S4、使用图卷积网络对步骤S3中得到的大样本多标签数据集进行训练和推断，得到基于图卷积网络的舌体多标签分类模型。过往的研究大多将舌体图像的多标签任务拆分成多个单标签子任务，少数舌象多标签分类并没有学习到标签之间的拓扑关系。而在本实施例中，用一个有向图对舌体图像的标签之间的依赖关系进行建模，构建基于图卷积网络的舌体多标签分类模型，如图11所示。

图卷积网络的输入数据X包括舌体图像

和各个标签的词嵌入向量其中16是一个batch的大小，3是图像通道数，512是舌体图像大小，C是标签数量，t是词嵌入向量的维度；输入数据Y＝{0,1}^16×C，则具体的向前模型如下：

g₁＝σ_l(AZw₁+b₁)

g₂＝(Ag₁w₂+b₂)^T

其中，

是最终的预测结果。

模型训练的损失函数用的是多标签软间隔损失，则每一个batch的损失为：

其中，Y是真实数据值，

是预测值，σ_s(·)是Sigmoid激活函数，N是一个batch的大小，C是标签数量。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。