CN114373226A

CN114373226A - 手术室场景下基于改进HRNet网络的人体姿态估计方法

Info

Publication number: CN114373226A
Application number: CN202111668026.XA
Authority: CN
Inventors: 吴秋遐; 杨鹭飞
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-19

Abstract

本发明公开了一种手术室场景下基于改进HRNet网络的人体姿态估计方法，包括：1)数据准备，包括手术室场景下的样本数据和一个人体姿态相关的数据集；2)对HRNet网络进行改进，加入了设计的混合注意力机制模块；3)对改进HRNet网络进行训练，采用迁移学习的方式，在准备的人体姿态相关的那个数据集上进行训练，采用在两个数据集并行训练方式，同时在网络的中间层加入MMD Loss，计算中间特征图的损失，来拉近不同数据集的数据分布距离；4)将测试集传入到训练后的改进HRNet网络中，得到最终预测的人体关键点。本发明能够克服原有数据集样本量少，遮挡、人体肢干难以识别的问题，改进后的HRNet网络提高了人体姿态估计检测的精度，有助于3D人体姿态估计以及行为识别等其它视觉任务。

Description

手术室场景下基于改进HRNet网络的人体姿态估计方法

技术领域

本发明涉及图像处理与神经网络的技术领域，尤其是指一种手术室场景下基于改进HRNet网络的人体姿态估计方法。

背景技术

随着深度学习的快速发展，基于人体的姿态估计研究得到了广泛的关注，成为一个热门的研究课题；为了促进人体姿势估计方法及其在手术室(OR)中的应用的发展，科研人员已经提出相应的数据集进行研究。人体的姿态估计的本质是研究如何从图像中精确识别目标人体并获得识别关键点的问题，是一系列现实场景应用的基础，包括行为识别、运动捕捉和增强现实等等。目前，科研工作者已经提出了很多针对户外场景的的2D人体姿态估计算法，但是面对真实场景，例如手术室环境中复杂背景干扰、目标遮挡、光照变换等诸多挑战，仍存在网络泛化能力弱、性能差等问题，如何优化网络在特殊场景中的性能是一个亟待解决的任务。

为了在医学数据集上提出一个具有准确和高效的人体姿态估计算法，需要明确该任务存在的一些问题以及现存的解决方案。首先，医学数据集涉及到大量的医生和患者的隐私，不易于公开，存在数据样本较少的问题；由于目前存在大量已提出的网络在通用数据集上的验证结果，可以通过迁移学习的相关知识，利用预训练参数、域自适应的相关方法将现有的方法迁移到医学数据集中。同时，医学图像的往往存在复杂混乱的环境的问题包括医生之间的遮挡、设备的遮挡，以及穿着和正常区别较大等等，这些问题都增大了2D人体姿态估计方法在医学数据集上应用的难度；可采用在网络结构中增加相应的增强模块，包括注意力机制，多任务学习等等，建立一个精细化的人体姿态估计网络。实现网络在原有的性能下，提升网络的鲁棒性和泛化能力，在医学数据集达到高准确率的目标。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种手术室场景下基于改进HRNet网络的人体姿态估计方法，能够克服原有数据集样本量少，遮挡、人体肢干难以识别的问题，改进后的HRNet网络提高了人体姿态估计检测的精度，有助于3D人体姿态估计以及行为识别等其它视觉任务，其中3D人体姿态估计的精度非常依赖于2D人体姿态估计方法的精度。

为实现上述目的，本发明所提供的技术方案为：手术室场景下基于改进HRNet网络的人体姿态估计方法，包括以下步骤：

1)数据准备，包括手术室场景下的样本数据和一个人体姿态相关的数据集，其中，手术室场景下的样本数据划分出一部分样本作为测试集，所有数据中的图像都包含人工标记的人体框和关键点位置信息，每幅图像中人体框标注有N个，每个人体框信息对应两个坐标位置，分别为人体框的左上角和右下角的坐标，每个人体框都包含m个人体关键点的标记信息，每个标记信息对应具体类别和坐标值；

2)对HRNet网络进行改进，加入了设计的混合注意力机制模块，使用空间注意力机制和通道注意力机制顺序结合的方式代替了原有HRNet网络中多分辨率特征图融合的方式，将特征直接相加的方式转化为学习对应权重的方式进行加权求和，得到更聚焦检测关键点的特征图；改进后的HRNet网络根据特征图生成最终结果图，结果图包含多张概率图，其中用于监督的概率图是由步骤1)中每个人体框包含的m个人体关键点生成的；

3)对改进HRNet网络进行训练，由于手术室场景下的样本的量少，需先用步骤1)中准备的人体姿态相关的那个数据集进行训练，然后再把手术室场景下的样本数据加入到训练过程中，选取合适的位置，加入一个中间监督即最大均值差异损失MMD Loss用于计算人体姿态相关的那个数据集的数据空间与手术室场景的数据空间的分布差异，拉进两者的数据空间；通过MMD Loss来优化改进HRNet网络在人体姿态相关的那个数据集上训练得到的参数，来达到更高准确率的目的；

4)将步骤1)中的测试集传入到训练后的改进HRNet网络中，得到最终预测的人体关键点，预测出的人体关键点包含类别和坐标信息。

进一步，在步骤1)中，人体框是指在图像上标记两个坐标点，表示为：

式中，N_i指第i个人体框，n大于零，表示可能存在人体框的数量，lx_i和rx_i是指图像坐标系下框的左上角和右下角位置对应的X轴分量，ly_i和ry_i是指在图像坐标系下框的左上角和右下角位置对应的Y轴分量；

每一个人体框都包含m个人体关键点，人体关键点的信息对应于图像中的二维坐标信息，人体关键点所对应的坐标信息为：

式中，M_j指第j个人体关键点在一张图片中具体的坐标位置，m大于零，表示存在人体关键点的个数，x_j和y_j分别表示M_j在图像坐标系下的X轴、Y轴分量。

进一步，在步骤2)中，所设计的混合注意力机制模块包含空间注意力机制和空间注意力机制，具体情况如下：

a、空间注意力机制

假设一个输入特征图F，通过全局最大池化或全局平均池化对输入特征图的通道域特征进行压缩，接着通过卷积将多通道特征压缩为单通道，消除通道间信息分布对空间注意力机制的影响，然后通过激活函数归一化空间权重信息，最终将空间权重信息和输入特征图对应元素相乘，生成不同权重的特征图，空间注意力机制的运算过程具体式子如下：

M_s(F)＝δ(f^3×3[AvgPool(F)；MaxPool(F)])

式中，F为输入特征图，δ表示sigmoid激活函数，f表示卷积层，卷积核大小为3×3，[AvgPool(F)；MaxPool(F)]表示池化后的特征图，M_s是一个空间注意力参数矩阵；

b、通道注意力机制

通道注意力机制包含3个部分：压缩模块、激励模块和融合模块；

压缩模块通过使用一个池化层，把通道内的全局特征信息进行求和压缩，形成各自的通道特征，该特征能够体现全局的通道特征信息，扩大了网络的感受野；

激励模块是为了降低参数数量同时增强通道注意力机制的迁移能力，该激励模块采用两个连接层得到各自的权重参数；

融合模块在每个通道域上对得到的特征权重与原卷积相应的通道特征值进行加权融合，使得卷积通道特征表现出不同的权重，从而提取出特征目标中的关键信息，具体式子如下：

式中，MLP表示多层感知机，

表示平均池化特征，W₀∈R^(c/r)×c和W₁∈R^c×(c/r)表示多层感知机的权重，其中R表示维度，r表示减少率，c是特征通道数，M_c(F)是一个通道注意力参数矩阵；

由于HRNet网络中存在多分辨率特征图进行上采样或者下采样后进行融合的过程，其中采样后的特征图和原有分辨率的特征图直接对应位置相加的方式，原有的HRNet网络主观地认为不同分辨率的特征具有同样的重要性，该方式是有缺陷的，改进措施是将该方式改为自学习的方式，在改进HRNet网络中，设计的混合注意力机制模块采用了空间注意力机制和通道注意力机制顺序结合的方式，在融合过程中加入了空间注意力机制和通道注意力机制，能够提升最终人体姿态估计检测的精度，具体方式如下：

假设有两个特征图F₀∈R^H×W×3C和F₁∈R^H/2×W/2×2C进行融合，其中H表示特征图的长，W表示特征图的宽，C表示特征图的通道数量，原有的融合方式是直接将F₁进行上采样后经过1×1的卷积变为通道数为C后再与F₀进行相加，加入空间注意力机制和通道注意力机制后的流程为：先对F₀和F₁分别进行一次空间注意力机制，分别获取到对应的特征图F′₀∈R^H×W×C和F₁′∈R^H/2×W/2×2C，然后将F₁′使用双线性插值的方式进行上采样到特征图F₁″∈R^H×W×2C，此时将F′₀和F₁″进行一个拼接得到一个新的融合特征图F_s∈R^H×W×3C，在融合特征图F_s后续采用通道注意力的方式得到新的特征图F_c∈R^H×W×3C，然后再通过一个1×1×C的卷积核，将通道数降为C，得到最终的特征图F_o∈R^H×W×C；

以上，就是在混合注意力机制模块中针对上采样过程加入的方式，由于网络中同时存在下采样过程，只需要将F₀′∈R^H×W×C经过步长为2的卷积核下采样到特征图F₀″∈R^H ^/2×W/2×C，然后将F₀″和F₁′进行一个拼接得到一个新的融合特征图F_s′∈R^H/2*W/2*3C，然后再经过通道注意力机制，同时采用1×1×2C的卷积核进行卷积来改变通道数，获取到最终的特征图F′_o∈R^H/2×W/2×2C；

最终，改进HRNet网络根据提取的特征图输出预测结果图，其输出的结果是多张预测的概率图，其中每一张概率图代表一种人体关键点的预测结果；所以需要使用步骤1)准备的样本数据，根据每个人体框中m个人体关键点真实标注信息生成对应的概率图，其中生成真实概率图的方式是采用高斯函数预测出真实人体关键点坐标位置和周围坐标的概率值，使得网络的训练更容易收敛。

进一步，在步骤3)中，在网络的训练过程中，采用了迁移学习的方式，首先在准备的人体姿态相关的那个数据集上进行训练，然后采用在两个数据集并行训练方式，同时在网络的中间层加入MMD Loss，计算中间特征图的损失，来拉近不同数据集的数据分布距离；

最大均值差异损失MMD Loss是迁移学习，是领域自适应中的一种损失函数，主要用来度量两个不同但相关分布的距离，该两个分布的距离MMD(X,Y)定义为：

式中，x_i和y_i表示在数据集X和数据集Y中的第i个样本，n和m表示两个数据集中对应的样本总数，φ表示映射函数，深度学习中直接使用一些卷积层或者全连接层进行代替，H表示这个距离是由将数据映射到再生希尔伯特空间中进行度量的；再生希尔伯特空间是一个带有内积的完备向量空间，它是欧几里德空间的一个推广，并将向量代数和微积分的方法从二维欧氏平面和三维空间扩展到任何有限或无限维数的空间，使其不局限于实数的情形和有限的维数，但又不失完备性；

由于MMD Loss是将数据映射到再生希尔伯特空间中来计算距离的，最终的张量大小不要超过1024或者2048，所以需要先对网络提取的特征进行降维，降到符合要求的固定大小向量进行计算，是对特征进一步的高纬提取；

加入MMD Loss的主要作用是能够解决手术室场景下样本量小的情况下，不使用给定的标签数据先拉近两者数据空间的距离，在对改进HRNet网络进行训练中，分别获取多个样本的特征集合为SList代表源数据集的样本集合和TList代表目标数据集的样本集合，每一个样本对应多种不同分辨率的特征图，所以SList和TList都是一个二维的样本集合；然后，将对应的特征图经过1×1卷积核，将通道数量降为1，同时再经过一个全连接层，将不同分支的特征向量变成预先设置大小的向量；接着，将同一分辨率不同的样本使用线性的MMDLoss计算公式，计算出损失值，最终使用以下式子来最小化损失：

式中，B表示不同分辨率分支的个数，MMD_i(X,Y)表示第i个分支上的MMD Loss损失，Loss_mmd表示所有分支加入MMD Loss后的总损失。

进一步，在步骤4)中，所述测试集中的图像为包含人体框的待测手术室场景图像，将测试集传入训练后的改进HRNet网络中，得到最终预测的人体关键点结果，具体如下：

由于构建的改进HRNet网络输出和用于监督的数据都是概率图的形式，最后还要转换成具体的坐标值，转换的方式是选取概率图的概率值中第一个和第二个最大的值进行连线，然后选取距离最大值点1/4处的位置为最终的结果；同时，输出结果是包含多张预测的概率图，每一张概率图代表具体关键点的类别，最终，对预测的人体关键点按照图片、人体框、关键点类别和坐标的形式，以json文件的格式输出。

本发明与现有技术相比，具有如下优点与有益效果：

1、采用了混合空间注意力和通道注意力机制的方式来代替原有的特征融合过程，加强了网络特征提取，丰富语义信息提升检测准确性的同时，一定程度上解决了深度学习模型常出现的过拟合问题。

2、率先采用了迁移学习的相关知识，在不使用的手术室场景样本的监督下也能够得到非常好的结果，MMD Loss的应用在人体姿态估计任务中具有先进性。

3、在复杂场景任务中具有广泛的使用空间，改进后的HRNet网络带来的高准确率使其具有广阔的应用前景。

附图说明

图1为本发明方法的流程图。

图2为只包含两个分辨率分支(Branch1和Branch2)的人体关键点检测整体网络结构图。

图3为上采样和下采样过程中的混合注意力机制模块架构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本实施例在pytorch深度学习框架下实现，计算机配置采用：Intel Core i56600K处理器，16GB内存，NVIDIA GeForce GTX2080Ti显卡，Linux操作系统。如图1至图3所示，本实施例公开了一种手术室场景下基于改进HRNet网络的人体姿态估计方法，其具体情况如下：

1)数据准备，包括手术室场景下的样本数据和一个人体姿态相关的数据集，其中，手术室场景下的样本数据划分出30％样本作为测试集，所有数据中的图像都包含人工标记的人体框和关键点位置信息，每幅图像中人体框标注有N个，每个人体框信息对应两个坐标位置，分别为人体框的左上角和右下角的坐标，每个人体框都包含m个人体关键点的标记信息，每个标记信息对应具体类别和坐标值。

人体框是指在图像上标记两个坐标点，采用的数据集包括MSCOCO 2017人体姿态任务中的数据集和MVOR数据集，其中人体框是指在图像上包含整个人体的矩形框，标记为：

式中，N_i是指第i个人体框，n大于零，表示可能存在人体框的数量，lx_i和rx_i是指图像坐标系下框的左上角和右下角位置对应的X轴分量，ly_i和ry_i是指在图像坐标系下框的左上角和右下角位置对应的Y轴分量。

在MSCOCO 2017数据中每个人体框中包含17个关键点，关键点的信息对应于图像中的二维坐标信息，关键点所对应的坐标信息为：

式中，M_j是指第j个关键点在一张图片中具体的坐标位置，x_j和y_j分别表示M_j在图像坐标系下的X轴、Y轴分量。

2)对HRNet网络进行改进，加入了设计的混合注意力机制模块，使用空间注意力机制和通道注意力机制顺序结合的方式代替了原有HRNet网络中多分辨率特征图融合的方式，将特征直接相加的方式转化为学习对应权重的方式进行加权求和，得到更聚焦检测关键点的特征图；改进后的HRNet网络根据特征图生成最终结果图，结果图包含多张概率图，其中用于监督的概率图是由步骤1)中每个人体框包含的m个人体关键点生成的。

所设计的混合注意力机制模块包含空间注意力机制和空间注意力机制，具体情况如下：

a、空间注意力机制

M_s(F)＝δ(f^3×3[AvgPool(F)；MaxPool(F)])

b、通道注意力机制

式中，MLP表示多层感知机，

表示平均池化特征，W₀∈R^(c/r)×c和W₁∈R^c×(c/r)表示多层感知机的权重，，其中R表示维度，r表示减少率，c是特征通道数，M_c(F)是一个通道注意力参数矩阵；

将改进HRNet网络分为四个阶段，同时也包含BottleNeck和BasicBlock这些基础模块，结构可以描述为以下形式：

BottleNeck模块：包含一个conv2d(3×3×C)卷积层、批归一化层、一个激活层、一个conv2d(3×3×C)卷积层，批归一化层、一个激活层、一个conv2d(3×3×256)卷积层，得到F_BottleNeck；如果在进入该模块的时候，通道数C不为256，需要经过一个conv2d(3×3×256)卷积层和一个批归一化层，然后与F_BottleNeck特征进行相加，否则直接相加；最终再经过一个激活层，输出经过BottleNeck模块的特征图。

BasicBlock模块：包含一个conv2d(3×3×C)卷积层、批归一化层、一个激活层、一个conv2d(3×3×C)卷积层、批归一化层、相加操作、一个激活层，输出经过BasicBlock模块的特征图。

a、第一阶段网络，图像输入网络中，提取高分辨率低通道数的特征，通过Transition模块生成低分辨率分支:

Branch1：包含一个conv2d(3×3×64)的卷积层，将通道数C转变为64，一个批归一化层和一个激活层、4个BottleNeck模块层，得到通道数为256的特征图；

Transition1：将Branch1输出的特征图分别输入两个分支Branch1和Branch2。Branch1分支经过conv2d(3×3×32)的卷积层，将通道数设为32、一个批归一化层和一个激活层，得到特征图F_stage1-1∈R^H×W×32；Branch2分支经过步长为2的conv2d(3×3×64)的卷积层，将通道数设为64、一个批归一化层和一个激活层，得到特征图F_stage1-2∈R^H/2×W/2×64。

b、第二阶段网络，在第一阶段网络两个分辨率分支上进一步特征的提取和融合，通过Transition模块生成低分辨率分支：

Branch1：由4个BasicBlock模块层组成；

Branch2：由4个BasicBlock模块层组成；

Fuse2：将Branch1和Branch2的特征图进行融合，使用步骤3)中设计的基于注意力机制方式进行融合。

Transition2：保留Branch1和Branch2的特征图、将Branch2的特征图输入到Branch3，Branch3分支经过步长为2的conv2d(3×3×64)的卷积层，将通道数设为128、一个批归一化层和一个激活层，得到特征图F_stage2-3∈R^{H/4×W/4×128}。

c、第三阶段网络，在第二阶段网络三个分辨率分支上进一步特征的提取和融合，通过Transition模块生成低分辨率分支：

Branch1：由4个BasicBlock模块层组成；

Branch2：由4个BasicBlock模块层组成；

Branch3：由4个BasicBlock模块层组成；

Fuse3：每个分支都执行基于与其它分支基于注意力方式的特征融合，Branch1中分别与Branch2和Branch3分支中上采样的特征进行融合；Branch2分别与Branch1中下采样和Branch3中上采样的特征进行融合；Branch3分别与Branch1和Branch2分支中下采样的特征进行融合；最终都经过一个激活层。

Transition3：保留Branch1、Branch2和Branch3的特征图、将Branch3的特征图输入到Branch4，Branch4分支经过步长为2的conv2d(3×3×64)的卷积层，将通道数设为256、一个批归一化层和一个激活层，得到特征图F_stage3-4∈R^{H/8×W/8×256}。

d、第四阶段网络，在第三阶段网络四个分辨率分支上进行特征融合：

Branch1：由4个BasicBlock模块层组成；

Branch2：由4个BasicBlock模块层、conv2d(1×1×32)卷积层、上采样层组成；

Branch3：由4个BasicBlock模块层、conv2d(1×1×32)卷积层、上采样层组成；

Branch4：由4个BasicBlock模块层组成、conv2d(1×1×32)卷积层、上采样层组成；

Final:将Branch1、Branch2、Branch3和Branch4的特征图经过SUM操作、一个批归一化层、一个conv2d(1×1×17),输出最终的结果。

3)对改进HRNet网络进行训练，由于手术室场景下的样本的量少，需先用步骤1)中准备的人体姿态相关的那个数据集进行训练，然后再把手术室场景下的样本数据加入到训练过程中，选取合适的位置，加入一个中间监督即最大均值差异损失MMD Loss用于计算人体姿态相关的那个数据集的数据空间与手术室场景的数据空间的分布差异，拉进两者的数据空间；通过MMD Loss来优化改进HRNet网络在人体姿态相关的那个数据集上训练得到的参数，来达到更高准确率的目的。

在网络的训练过程中，基于迁移学习的相关的知识，首先在MSCOCO 2017数据集上进行训练，然后采用在两个数据集并行训练的方式，同时在网络的中间层加入了MMD Loss损失函数，计算中间特征图的损失，来拉近不同数据集的数据分布距离：

式中，x_i和y_i表示在数据集X和数据集Y中的第i个样本，n和m表示两个数据集中对应的样本总数，φ表示映射函数，在深度学习中可以直接使用卷积层或者全连接层进行代替，H表示这个距离是由将数据映射到再生希尔伯特空间(RKHS)中进行度量的。再生希尔伯特空间是一个带有内积的完备向量空间。它是欧几里德空间的一个推广，并将向量代数和微积分的方法从二维欧氏平面和三维空间扩展到任何有限或无限维数的空间，使其不局限于实数的情形和有限的维数，但又不失完备性。当一个内积空间满足通过内积空间可推导出范数空间(赋范空间)，并且是完备的，那么这个内积空间就是再生希尔伯特空间。

由于MMD Loss通常是将数据映射到再生希尔伯特空间中来计算距离的，但是一般情况下，最终的张量大小不要超过1024或者2048长，因为向量长度过大的话训练失效，参数量过大，造成无法迭代，所以需要先对HRNet提取的特征进行降维，降到长为1024的向量进行计算，是对特征进一步的高纬体征提取。

加入MMD Loss的主要作用是能够解决在MVOR样本量小的情况下，不使用给定的标签数据先拉近两者数据空间的距离。具体应用的方式是，在训练过程中需要同时传入MVOR数据集的样本和MSCOCO 2017数据集的样本，计算两个数据流之间的距离，主要作用是在优化原本HRNet提取的特征能够适应两者不同的数据空间，这种基于领域自适应的迁移方式被证明是非常有效的。实现的方式如下：

在HRNet网络的第二阶段的末尾处，分别获取多个样本的特征集合为SList代表源数据集的样本集合和TList代表目标数据集集的样本集合,由于选取的中间特征是第二阶段，经过实验对比，使用该阶段的样本能够满足既有区分度，同时也满足计算量相对较少的需求。每一个数据样本会对应两种不同分辨率的特征图，所以SList和TList都是一个二维的数据集合；然后，将对应的特征图经过1×1的卷积核，将通道数量降为1，同时再经过一个全连接层，将高分辨率分支的特征向量变成1024×1的向量，将低分辨率分支的特征向量变成256×1的向量；然后，将同一分辨率不同的样本使用线性的MMD Loss计算公式，计算出损失值，最终使用以下式子来最小化损失：

在本实施例，mmd1_loss表示高分辨率分支损失和mmd2_loss表示低分辨率分支损失，最终使用以下式子来最小化损失：

mmd_loss＝mmd1_loss+mmd2_loss

4)步骤1)中的测试集的图像为包含人体框的待测手术室场景图像，将测试集传入到训练后的改进HRNet网络中，得到最终预测的人体关键点，预测出的人体关键点包含类别和坐标信息，具体如下：

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.手术室场景下基于改进HRNet网络的人体姿态估计方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于改进HRNet网络的人体姿态估计方法，其特征在于，在步骤1)中，人体框是指在图像上标记两个坐标点，表示为：

3.根据权利要求1所述的基于改进HRNet网络的人体姿态估计方法，其特征在于，在步骤2)中，所设计的混合注意力机制模块包含空间注意力机制和空间注意力机制，具体情况如下：

a、空间注意力机制

M_s(F)＝δ(f^3×3[AvgPool(F)；MaxPool(F)])

b、通道注意力机制

式中，MLP表示多层感知机，

由于HRNet网络中存在多分辨率特征图进行上采样或者下采样后进行融合的过程，其中采样后的特征图和原有分辨率的特征图直接对应位置相加的方式，原有的HRNet网络主观地认为不同分辨率的特征具有同样的重要性，该方式是有缺陷的，改进措施是将该方式改为自学习的方式，在改进HRNet网络中，设计的混合注意力机制模块采用了空间注意力机制和通道注意力机制顺序结合的方式，在融合过程中加入了空间注意力机制和通道注意力机制,能够提升最终人体姿态估计检测的精度，具体方式如下：

假设有两个特征图F₀∈R^H×W×3C和F₁∈R^H/2×W/2×2C进行融合，其中H表示特征图的长，W表示特征图的宽，C表示特征图的通道数量,原有的融合方式是直接将F₁进行上采样后经过1×1的卷积变为通道数为C后再与F₀进行相加，加入空间注意力机制和通道注意力机制后的流程为：先对F₀和F₁分别进行一次空间注意力机制，分别获取到对应的特征图F₀'∈R^H×W×C和F₁'∈R^H/2×W/2×2C，然后将F₁'使用双线性插值的方式进行上采样到特征图F₁”∈R^H×W×2C，此时将F₀'和F₁”进行一个拼接得到一个新的融合特征图F_s∈R^H×W×3C，在融合特征图F_s后续采用通道注意力的方式得到新的特征图F_c∈R^H×W×3C，然后再通过一个1×1×C的卷积核，将通道数降为C，得到最终的特征图F_o∈R^H×W×C；

以上，就是在混合注意力机制模块中针对上采样过程加入的方式，由于网络中同时存在下采样过程，只需要将F₀'∈R^H×W×C经过步长为2的卷积核下采样到特征图F₀”∈R^H/2×W/2×C，然后将F₀”和F₁'进行一个拼接得到一个新的融合特征图F_s'∈R^H/2*W/2*3C，然后再经过通道注意力机制，同时采用1×1×2C的卷积核进行卷积来改变通道数，获取到最终的特征图F_o'∈R^H/2×W/2×2C；

4.根据权利要求1所述的基于改进HRNet网络的人体姿态估计方法,其特征在于，在步骤3)中，在网络的训练过程中，采用了迁移学习的方式，首先在准备的人体姿态相关的那个数据集上进行训练，然后采用在两个数据集并行训练方式，同时在网络的中间层加入MMDLoss，计算中间特征图的损失，来拉近不同数据集的数据分布距离；

5.根据权利要求1所述的基于改进HRNet网络的人体姿态估计方法,其特征在于，在步骤4)中，所述测试集中的图像为包含人体框的待测手术室场景图像，将测试集传入训练后的改进HRNet网络中，得到最终预测的人体关键点结果，具体如下：