CN114298978A

CN114298978A - 基于近红外摄像与深度学习的人手腕脉口位置精准定位方法

Info

Publication number: CN114298978A
Application number: CN202111493641.1A
Authority: CN
Inventors: 路红; 罗静静; 杨博弘; 孟凯; 聂鑫垚; 黄冠豪; 祝兴
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-04-08

Abstract

本发明属于计算机图像处理技术领域，具体为基于近红外摄像与深度学习的人手腕脉口位置精准定位方法。本发明的基本步骤为：首先通过近红外相机对多人进行手部图像采样，由专业医生进行脉口位置的标记，作为深度学习脉口定位网络模型的训练数据；然后构建深度学习网络模型，网络模型包括特征提取网络和回归网络，特征提取网络对训练集进行腕部轮廓纹理颜色等特征提取，将提取到的腕部特征通过回归网络进行脉口位置预测，得到泛化能力较强的深度学习脉口定位网络模型；最后将拍摄到的手部图像作为预先训练好的深度学习脉口定位网络模型的输入，预测得到手腕脉口在图像上的位置。本发明方法能以较高的精度找到人手腕的脉口位置，为机器人进行中医脉诊提供实时的视觉定位。

Description

基于近红外摄像与深度学习的人手腕脉口位置精准定位方法

技术领域

本发明属于计算机图像处理技术领域，具体涉及人手腕脉口精准定位的方法。

背景技术

脉诊即切脉，医生在切脉诊断过程中,将食指、中指和无名指轻压于患者左手或右手腕部桡动脉浅露肤表的一段长度上,感知脉搏的变化模式,通过临床经验分析出患者的健康情况。脉诊是中医临床诊断的重要依据,随着传感器技术和电子信息技术的发展,脉诊数字化成为重要的研究领域,尤其是近年来人工智能的迅速崛起,为传统中医脉诊提供了新的发展方向。

机器人能够通过摄像头和脉口定位算法来实现脉口位置的定位，能够通过机械臂以及压力传感器来获取相应的脉象信息。此外随着硬件的更新换代和算法的优化，物体检测的速度也越来越快，物体的检测精度越来越高，物体检测算法的实现达到了实时水平。因此，脉口的精确定位可以用红外摄像机采集数据和深度学习方法来完成。

发明内容

本发明的目的在于提供一种能够对人手腕脉口位置进行精准定位的方法。

本发明提供的人手腕脉口位置精准定位方法，是基于近红外相机与深度学习技术的；基本步骤为：首先通过近红外相机对多人进行手部图像采样，由专业医生进行脉口位置的标记，作为深度学习脉口定位网络模型的训练数据；然后构建深度学习网络模型，网络模型包括特征提取网络和回归网络，特征提取网络对训练集进行腕部特征提取，并通过回归网络进行脉口位置预测，得到泛化能力较强的深度学习脉口定位网络模型；最后将拍摄到的手部图像作为预先训练好的深度学习脉口定位网络模型的输入，预测得到手腕脉口在图像上的位置。

本发明提出的基于深度学习的人手腕脉口位置精准定位方法，具体步骤如下：

（1）获取深度学习的训练数据；

（2）构建深度学习网络模型；对采集的腕部图像进行划分；训练网络模型；

该网络模型结构由特征提取网络和回归网络组成；其中，所述特征提取网络的基本卷积块有两种，第一种卷积块包括卷积层、批归一化层、激活层、最大池化层和辍学层；第二种卷积块只包括卷积层、批归一化层、激活层和辍学层，没有最大池化层；所述卷积层在不同的卷积块中是不相同的，它们具有不同的卷积核和步长；其中，卷积层用于提取腕部特征；批归一化层用于加快模型的收敛速度，使得训练深层网络模型更加容易和稳定；激活层用于增加网络的非线性表达能力；最大池化层用于特征降维、压缩数据和参数的数量、减小过拟合，同时提高模型的容错性；辍学层用于消除减弱神经元节点间的联合适应性，增强泛化能力；所述回归网络由一个全连接层组成,全连接层用于整合之前的卷积层和池化层提取的局部特征进行脉口位置定位；

（3）利用经过训练的网络模型，对采集的手部图像预测脉口位置。

进一步地，步骤（1）中所述获取深度学习的训练数据，具体过程如下：

（11）通过红外相机对多个人进行手部图像采样；所述红外相机是在摄像机前加上了一个红外滤波片组成，能够采集到红外图像；根据深度学习模型对输入图像的形状要求，对采集的红外图像进行裁剪和放缩；每个人采样的图像数量不低于20张；采集时，一般固定拍摄高度为20cm，手腕变换为各种不同的位姿（也即手腕朝向不同），并保确整个手及手腕包含在图像内；

（12）由专业医生对脉口位置进行有效标记；

进一步地，步骤（2）中所述卷积层在不同的卷积块中是不相同的，它们具有不同的卷积核和步长，具体为，第一种卷积块有三层卷积层，它们的卷积核分别为7*7，5*5，3*3，它们的步长分别为3，2，1；第二种卷积块有四层卷积层，它们的卷积核均为3*3，它们的步长均为1。

进一步地，步骤（2）中所述对采集的腕部图像进行划分，是划分为训练集、测试集、验证集；

对于步骤（1）中采集数据集（红外图像）进行划分，其中，20%作为测试集；然后对80% 部分的数据进行增强处理，具体是通过平移变换进行数据增强；首先将这些红外图像进行右移50pixel，生成相对原图右移50pixel的新的图片，将产生的新图片再进行下移得到相对于新图片下移50pixel的图片，将上述3个数据集联合起来，共得到3倍原数据集的图片；接着将这些数据以8：2的比例分割为训练集、验证集；训练集的作用是用来拟合模型，通过设置深度学习脉口定位网络模型的超参数，训练深度学习脉口定位网络模型；验证集作用是当通过训练集训练出多个模型后，为了能找出效果最佳的模型，使用各个模型对验证集数据进行预测，并记录模型准确率。选出效果最佳的模型所对应的参数。测试集作用是当训练集和验证集得出最优模型后，使用测试集进行模型预测，来衡量该最优模型的性能和分类能力。

进一步地，步骤（2）中所述训练网络模型；包括：

首先设置模型超参数：

批次大小（batch size）：批次更大使网络容易收敛，但是过大容易引起内存不足，一般批次大小可以设置为15-25；

学习率（learning rate）：学习率决定着权值更新的速度，设置得太大会使结果超过最优值，太小会使下降速度过慢。学习率可以设置为0.0001-0.0005；

迭代次数（steps）：训练的总次数，一般迭代次数可以设置为1000-2000。

然后进行网络模型训练，本发明采用均方误差损失（MSE）作为模型预测结果衡量的标准：

（1）

其中，

是脉口位置的真实数值,

是经过深度学习脉口定位网络预测的数值。训练损失和验证损失值由该公式（1）计算得出；训练过程注意训练时的训练损失和验证损失值，两者的值同时减小说明网络预测能力正逐步增加，当两者不再减小时，说明网络已经收敛，可以结束训练。

多次调整模型中上述几个超参数，得到泛化性能最好的模型。

进一步地，步骤（3）中所述利用经过训练的网络模型，对采集的手部图像预测脉口位置，具体流程为：

（31）首先通过红外相机进行手部图像采样；

（32）将采集的手部图像输入经过训练的网络模型，由特征提取网络进行腕部特征提取，再进入回归网络模型，得到预测结果，便是最终脉口的位置。

与现有技术相比，本发明的有益效果为：

（1）只需要用户提供手部图像，就能精确找到脉口的位置；

（2）为机器人进行中医脉诊提供视觉定位的方法。

附图说明

图1为本发明的总流程框图。

图2为用于脉口位置精准定位的网络结构。

图3为步骤（22）通过移位进行数据增强。其中，（a）是所采集的手部图像样例，（b）是将图a进行右移，（c）将图b进行下移。

图4为训练过程中验证损失值和训练损失值变化情况。其中，（a）是验证损失值的变化情况，（b）是训练损失值的变化情况。

图5为对腕部图片的腕部轮廓纹理颜色等特征提取，是深度学习脉口定位网络不同卷积层中得到的featuremap。

图6为步骤（32）所述的将要预测的手部图像放进预先训练好的模型里回归得到预测的脉口位置。图中蓝点为预测得到的脉口位置。

具体实施方式

一、数据采集及数据增强

对多个人进行手部图像采样，每个人采样数量不低于20张，固定拍摄高度20cm，采样时手腕具有不同的位姿（也即手腕朝向不同），保证采样时整个手及手腕包含在图像内。在样本数量不足的情况下可进行数据增强，通过对样本进行移位操作，以增强网络的泛化能力。参见图3所示，首先将873张图片进行右移50pixel，生成相对原图右移50pixel的新图片，将产生的新图片再进行下移得到相对与新图片下移50pixel的图片，将上述3个数据集联合起来，共得到2619张图片。

二、参数设置

调整参数进行不同的训练过程，得到预测效果最好的模型。其中批次大小设置25，迭代次数设置为1000次，学习率初始化置为10^-3。

三、训练过程

参见图4所示，图（a）是验证损失值，图（b）是训练损失值，由公式（1）计算得出。两者同时减小说明网络预测能力正逐步增加，当两者不再减小时，说明网络已经收敛，可以结束训练，纵坐标是损失值，横坐标是迭代次数，可以看到，当迭代次数超过1000次时，损失值几乎不再下降。

参见图5所示，是脉口定位网络逐层学到的腕部特征。

参见图6所示，从图中可以看出训练迭代1000次之后，真实值是红点，预测值是蓝点，绿色圆是以真实值位置为圆心，对应的阈值为半径的圆，可以见预测值均处于绿色圆内，表明预测结果已经接近真实值。

四、与经典网络的比较

我们根据像素距离来评估脉口定位结果的准确率。准确率是预测位置和真实位置的距离

少于设定阈值T的图片数量与测试集数量的比值：

，

（2）

N是测试集，N _in是预测准确的图片集合，y _i是测试集I _i图片的真实脉口位置，

是经过

网络预测的位置，T是阈值，分别设置为50, 40, 30, 25和15pixel。我们将我们提出的网络模型与一些经典的网络体系结构（即Visual Geometry Group Network^[1](VGG16)和Residual Network^[2](ResNet-50）进行了比较,如表1所示，发现提出的网络的性能在大阈值时（即 50、40和30像素）接近Res-Net50。但在小阈值时（即25 和15像素）性能表现更好。与这两种网络相比，我们提出的网络模型具有更少的参数量。

表1

。

参考文献

1. SIMONYAN K, ZISSERMAN A. Very deep convolutional networks forlarge-scale image recognition[C]//International Conference on LearningRepresenta-tions. [S.l.: s.n.], 2015.

2. He K, Zhang X, Ren S, et al. Deep Residual Learning for ImageRecognition[C]//2016 IEEE Conference on Computer Vision and PatternRecognition (CVPR).[S.l.: s.n.], 2016: 770-778。

Claims

1.一种基于深度学习的人手腕脉口位置精准定位方法，其特征在于，首先通过近红外相机对多人进行手部图像采样，由专业医生进行脉口位置的标记，作为深度学习脉口定位网络模型的训练数据；然后构建深度学习网络模型，网络模型包括特征提取网络和回归网络，特征提取网络对训练集进行腕部轮廓纹理颜色等特征提取，将提取到的腕部特征通过回归网络进行脉口位置预测，得到泛化能力较强的深度学习脉口定位网络模型；最后将拍摄到的手部图像作为预先训练好的深度学习脉口定位网络模型的输入，预测得到手腕脉口在图像上的位置。

2.根据权利要求1所述的基于深度学习的人手腕脉口位置精准定位方法，其特征在于，具体步骤如下：

（1）获取深度学习的训练数据；

（2）构建深度学习定位网络模型；对采集的腕部图像进行划分；训练网络模型；

该网络模型结构由特征提取网络和回归网络组成；其中，所述特征提取网络的基本卷积块有两种，第一种卷积块包括卷积层、批归一化层、激活层、最大池化层和辍学层；第二种卷积块只包括卷积层、批归一化层、激活层和辍学层，没有最大池化层；所述卷积层在不同的卷积块中是不相同的，它们具有不同的卷积核和步长；其中，卷积层中的卷积核能对图片上每一小块像素区域进行处理，提取图像纹理信息；通过多层卷积层提取图像中的边缘信息，并总结出更高层的结构信息，用于识别桡骨所在位置的轮廓及腕部轮廓等特征，辅助脉口位置定位；批归一化层用于加快模型的收敛速度，使得训练深层网络模型更加容易和稳定；激活层用于增加网络的非线性表达能力；最大池化层用于特征降维、压缩数据和参数的数量、减小过拟合，同时提高模型的容错性；辍学层用于消除减弱神经元节点间的联合适应性，增强泛化能力；所述回归网络由一个全连接层组成,全连接层用于整合之前的卷积层和池化层提取的局部特征进行脉口位置定位；

3.根据权利要求2所述的基于深度学习的人手腕脉口位置精准定位方法，其特征在于，步骤（1）所述获取深度学习的训练数据，具体过程如下：

（11）通过红外相机对多个人进行手部图像采样；根据深度学习脉口定位网络模型对输入图像的形状要求，对采集的红外图像进行裁剪和放缩；每个人采样的图像数量不低于20张；采集时，固定拍摄高度为20cm，手腕变换为各种不同的位姿，并保确整个手及手腕包含在图像内；

（12）由专业医生对脉口位置进行有效标记。

4.根据权利要求3所述的基于深度学习的人手腕脉口位置精准定位方法，其特征在于，步骤（2）中所述对采集的腕部图像进行划分，是划分为训练集、测试集、验证集；

对于步骤（1）中采集数据集即红外图像进行划分，其中，20%作为测试集；然后对80% 那部分的数据进行增强处理：首先将这些红外图像进行右移50 pixel，生成相对原图右移50pixel的新的图片，将产生的新图片再进行下移得到相对于新图片下移50pixel的图片，将上述3个数据集联合起来，共得到3倍原数据集的图片；接着将这些数据以8：2的比例分割为训练集、验证集；训练集用于拟合模型，通过设置深度学习脉口定位网络模型的超参数，训练深度学习脉口定位网络模型；验证集作用是当通过训练集训练出多个模型后，为了能找出效果最佳的模型，使用各个模型对验证集数据进行预测，并记录模型准确率，选出效果最佳的模型所对应的参数；测试集作用是当训练集和验证集得出最优模型后，使用测试集进行模型预测，来衡量该最优模型的性能和分类能力。

5.根据权利要求4所述的基于深度学习的人手腕脉口位置精准定位方法，其特征在于，步骤（2）中所述训练深度学习脉口定位网络模型，包括：

（1）首先设置模型超参数：

批次大小：设置为15-25；

学习率：设置为0.0001-0.0005；

迭代次数：设置为1000-2000；

（2）然后进行网络模型训练，采用均方误差损失MSE作为模型预测结果衡量的标准：

（1）

其中，

是脉口位置的真实数值,

是经过深度学习脉口定位网络模型预测的位置数值；训练损失和验证损失值由公式（1）计算得出；训练过程注意训练时的训练损失和验证损失值，两者的值同时减小说明网络预测能力正逐步增加，当两者不再减小时，说明网络已经收敛，结束训练；

（3）多次调整模型中上述几个超参数，得到泛化性能最好的深度学习脉口定位网络模型。

6.根据权利要求5所述的基于深度学习的人手腕脉口位置精准定位方法，其特征在于，步骤（3）中所述利用经过训练的网络模型，对采集的手部图像预测脉口位置，具体流程为：

（31）首先通过红外相机进行手部图像采样；

（32）将采集的手部图像输入经过训练的网络模型，由特征提取网络进行腕部特征提取，再通过回归网络模型，得到预测结果，便是最终脉口的位置。

7.根据权利要求1-6之一所述的基于深度学习的人手腕脉口位置精准定位方法，其特征在于，所述深度学习网络模型中，卷积层在不同的卷积块中具有不同的卷积核和步长，具体如下：第一种卷积块有三层卷积层，它们的卷积核分别为7*7、5*5、3*3，它们的步长分别为3、2、1；第二种卷积块有四层卷积层，它们的卷积核均为3*3，它们的步长均为1。