CN117877071A

CN117877071A - 体位动作识别方法及系统

Info

Publication number: CN117877071A
Application number: CN202410264188.4A
Authority: CN
Inventors: 于大洋; 周可; 王羽嗣; 王云忠; 刘思德
Original assignee: Guangzhou Side Medical Technology Co ltd
Current assignee: Guangzhou Side Medical Technology Co ltd
Priority date: 2024-03-08
Filing date: 2024-03-08
Publication date: 2024-04-12

Abstract

本发明涉及图像识别技术领域，具体公开了一种体位动作识别方法及系统，包括：获取包含人体姿势的待识别图像并输入训练好的体位动作识别模型中，得到待识别图像中人体姿势的第一体位动作数据，其中，体位动作识别模型的骨干网络包括多个阶段依次连接的、卷积核尺寸递增的卷积网络，头部网络基于骨干网络输出的显式特征编码和隐式特征编码识别体位动作，体位动作识别模型既可以从图像中捕获胶囊内窥镜检查时人体处于卧姿时的全局语义特征，又可以提取细粒度的边缘和方向等特征，且通过隐式特征编码排除胶囊内窥镜检查环境中人体被被单遮挡、畸变等复杂环境的干扰，提高了体位动作识别模型对胶囊内窥镜场景下人体卧姿的体位动作识别的准确度。

Description

体位动作识别方法及系统

技术领域

本发明属于图像识别技术领域，尤其涉及一种体位动作识别方法及系统。

背景技术

胶囊内窥镜进入人体内后，通过调整人体体位可以使得胶囊内窥镜更容易到达目标区域，以便胶囊内窥镜采集所需图像，比如通过调整人体体位使得胶囊内窥镜通过胃幽门等，因此，判断人体体位动作是否标准尤为重要。

目前，主要是通过深度学习算法对图像进行识别获得人体体位动作分类，适用于具有明显特征和简单背景的场景，比如适用于站立人体以及处于简单背景环境中人体的体位动作识别，而在胶囊内窥镜使用场景下人体处于卧姿、家庭卧室的床上等存在被褥或其他遮挡物遮挡人体场景时，现有的深度学习识别人体体位动作的算法无法准确识别出人体的体位动作。

发明内容

本发明实施例的目的在于提供一种体位动作识别方法及系统，旨在解决现有深度学习算法在胶囊内窥镜使用场景下，无法准确识别人体处于卧姿以及人体受阻挡时的人体体位动作的问题。

为实现上述目的，本发明实施例提供如下技术方案：

本发明提实施例供一种体位动作识别方法，具体包括以下步骤：

获取包含人体姿势的待识别图像；

将所述待识别图像输入预先训练好的体位动作识别模型中，得到所述待识别图像中人体姿势的第一体位动作数据；

其中，所述体位动作识别模型包括骨干网络和头部网络，所述骨干网络包括多个阶段依次连接的、卷积核尺寸递增的卷积网络，所述头部网络基于所述骨干网络输出的显式特征编码和隐式特征编码识别体位动作。

作为本发明实施例技术方案的进一步限定，将所述待识别图像输入预先训练好的体位动作识别模型中，得到所述待识别图像中人体姿势的第一体位动作数据，具体包括以下步骤：

将所述待识别图像输入预先训练好的体位动作识别模型中，在所述骨干网络中对所述待识别图像进行多个阶段的、卷积核尺寸递增的卷积操作，得到显式特征编码和隐式特征编码；

在所述头部网络中基于所述显式特征编码和隐式特征编码识别所述待识别图像中人体姿势的第一体位动作数据。

作为本发明实施例技术方案的进一步限定，具体还包括以下步骤：

根据所述第一体位动作数据和预置的第二体位动作数据计算动作误差值，所述第二体位动作数据为标准体位动作的数据；

判断所述动作误差值是否小于预置的阈值；

若是，确定所述待识别图像中人体的体位动作合格；

若否，确定所述待识别图像中人体的体位动作不合格，生成提示信息。

作为本发明实施例技术方案的进一步限定，所述体位动作识别模型通过以下步骤训练：

获取训练图像；

构建体位动作识别模型，所述体位动作识别模型包括骨干网络和头部网络，所述骨干网络包括多个阶段依次连接的、卷积核尺寸递增的卷积网络，所述头部网络基于所述骨干网络输出的显式特征编码和隐式特征编码识别体位动作；

采用所述训练图像训练所述体位动作识别模型。

作为本发明实施例技术方案的进一步限定，所述构建体位动作识别模型，具体包括以下步骤：

构建多个依次连接的n个阶段的卷积网络作为骨干网络，第一阶段到第n阶段的卷积网络的卷积核尺寸递增，第i阶段的卷积网络包括卷积分支网络、x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络，第i阶段的卷积分支网络、x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络以第i-1阶段的卷积网络输出的特征编码作为输入，第i阶段的卷积分支网络、x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络输出的特征编码拼接后作为第i+1阶段的卷积网络的输入，其中i为自然数并且2≤i≤n；

构建头部网络，所述头部网络的输入层与所述骨干网络中的第n阶段的卷积网络的输出层连接。

作为本发明实施例技术方案的进一步限定，所述骨干网络包括4个阶段的卷积网络，其中，第一阶段的卷积网络的卷积核尺寸为4×4，第二阶段到第四阶段的卷积网络中卷积分支网络的卷积核尺寸分别为5×5、7×7、9×9。

作为本发明实施例技术方案的进一步限定，所述头部网络的目标函数如下：

y=f_θ(x)★g_θ(z)；

其中，f_θ表示卷积网络的操作，θ是卷积网络的参数，x为卷积网络输出的显式特征编码，z表示预置的隐式特征编码，g_θ表示从显式特征编码和隐式特征编码进行选择或组合，★表示相加或相乘。

作为本发明实施例技术方案的进一步限定，所述训练图像标注有第三体位动作数据，所述采用所述训练图像训练所述体位动作识别模型，包括：

随机提取训练图像输入体位动作识别模型中得到第四体位动作数据；

采用所述第三体位动作数据和所述第四体位动作数据计算损失率；

判断是否满足训练条件；

若是，对所述骨干网络中各个阶段的卷积网络进行重参数化操作，得到训练完成的体位动作识别模型；

若否，依据所述损失率对所述体位动作识别模型的参数进行调整，返回随机提取训练图像输入体位动作识别模型中得到第四体位动作数据的步骤。

作为本发明实施例技术方案的进一步限定，所述随机提取训练图像输入体位动作识别模型中得到第四体位动作数据，包括：

在所述骨干网络的第一阶段的卷积网络中对所述训练图像进行卷积操作，从所述第一阶段的卷积网络中输出特征图；

将第一阶段的卷积网络所输出特征图输入第二阶段的卷积网络中，以在第二阶段到第n阶段的卷积网络的卷积分支网络、x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络提取卷积特征、x方向的sobel特征、y方向的sobel特征以及Laplace特征，并对卷积特征、x方向的sobel特征、y方向的sobel特征以及Laplace特征融合，在第n阶段的卷积网络输出最终的特征图；

在所述头部网络中输入最终的特征图作为显式特征编码以及输入预置的隐式特征编码，识别所述训练图像中的第四体位动作数据。

作为本发明实施例技术方案的进一步限定，所述对所述骨干网络中各个阶段的卷积网络进行重参数化操作，得到训练完成的体位动作识别模型，包括：

将所述骨干网络中各个阶段的卷积网络中的卷积分支网络的参数、x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络的参数进行融合，得到融合卷积参数；

在各个阶段的卷积网络中删除x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络，并采用所述融合卷积参数替换掉卷积分支网络的参数，得到训练完成的体位动作识别模型。

一种体位动作识别系统，具体包括以下模块：

待识别图像获取模块，用于获取包含人体姿势的待识别图像；

体位动作识别模块，用于将所述待识别图像输入预先训练好的体位动作识别模型中，得到所述待识别图像中人体姿势的第一体位动作数据；

与现有技术相比，本发明的有益效果是：

本发明实施例用于对待识别图像识别体位动作的体位动作识别模型包括骨干网络和头部网络，由于骨干网络中多个阶段的卷积网络的卷积核尺寸递增，实现了在浅层阶段通过小尺寸卷积核提取图像中细粒度的语义特征，在深层阶段通过大尺寸卷积核提取图像中粗粒度的全局语义特征，适用于胶囊内窥镜检查人体处于卧姿时宽度大于高度的场景，既可以从图像中捕获人体处于卧姿时的全局语义特征，又可以提取细粒度的边缘和方向等特征，另外，头部网络引入隐式特征编码，通过隐式特征编码可以排除胶囊内窥镜检查环境中人体被被单遮挡、畸变等复杂环境的干扰，提高了体位动作识别模型对胶囊内窥镜场景下人体卧姿的体位动作识别的准确度，以通过识别到的高准确度的体位动作辅助胶囊内窥镜检查，提高检查效率和减轻医务人员的工作负担。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1示出了本发明一个实施例提供的体位动作识别方法的流程图。

图2示出了一个实施例中体位动作识别模型的模型结构示意图；

图3示出了一个实施例中体位动作识别模型训练的流程图；

图4示出了卷积网络的分支网络的示意图；

图5示出了体位动作对比的一个示意图；

图6示出了一个实施例中采用训练图像训练体位动作识别模型的流程图；

图7示出示出了重参数化操作的示意图；

图8示出了本发明另一个实施例提供的体位动作识别方法的流程图；

图9示出了本发明一个实施例提供的体位动作识别系统的应用架构图；

图10示出了本发明另一个实施例提供的体位动作识别系统的应用架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1示出了本发明实施例提供的体位动作识别方法的流程图，具体的，如图1所示，本发明实施例的体位动作识别方法具体包括以下步骤：

步骤101、获取包含人体姿势的待识别图像。

本实施例可以应用于胶囊内窥镜检查中识别患者的体位动作的场景，可以在患者吞服胶囊内窥镜后，通过摄像头对患者采集包含人体姿势的图像，以作为待识别图像，当然，待识别图像还可以是任意场景下采集到的包含人体姿势的图像，比如，还可以是家庭卧室的床上等存在被褥或其他遮挡物遮挡人体的场景，本实施例对包含人体姿势的待识别图像的采集场景不作限制。

步骤102、将待识别图像输入预先训练好的体位动作识别模型中，得到待识别图像中人体姿势的第一体位动作数据。

本实施例中，体位动作识别模型可以用于识别人体的体位动作，输出体位动作数据，体位动作数据可以是体位动作的分类类别或者是人体关键点的数据。体位动作识别模型包括骨干网络和头部网络，骨干网络用于从图像中提取特征，头部网络基于骨干网络提取的特征识别体位动作，其中，骨干网络包括多个阶段依次连接的、卷积核尺寸递增的卷积网络，头部网络基于骨干网络输出的显式特征编码和隐式特征编码识别体位动作。

显式特征编码可以是从图像中提取到的可直接观测到的特征的编码，比如，显式特征编码可以是骨干网络提取到的特征图，隐式特征编码可以是人工通过常规和潜意识学习总结的先验经验进行的编码，示例性的，具体到本实施例中，先验经验或者隐藏知识可以是人体卧姿时人体的宽度远大于高度、检查台上可能有被褥遮挡人体、人体躺在有皱褶的床单上、人体部分部位可能被遮挡等，隐式特征编码可以是对隐藏知识直接编码获得的特征编码，也可以是通过多任务学习所得到的共用的特征编码。

如图2所示为本实施例的体位动作识别模型的网络结构示意图，该体位动作识别模型中骨干网络包括4个阶段（Stage1- Stage4）的卷积网络，当然在实际应用中可以包括更多阶段的卷积网络，并且随着阶段的深入，各个阶段的卷积网络的卷积核尺寸递增，在图2中Stage1阶段的卷积网络的卷积核尺寸为4×4，Stage2阶段的卷积网络的卷积核尺寸为5×5，Stage3阶段的卷积网络的卷积核尺寸为7×7，Stage4阶段的卷积网络的卷积核尺寸为9×9，实现了在浅层阶段的卷积网络中通过小尺寸的卷积核对图像提取高分辨率的特征，捕获到图像中细粒度的语义特征，在深层次阶段的卷积网络中通过大尺寸的卷积核可以捕获到更为广泛的全局信息，比如，大尺寸卷积核可以捕获到人体处于卧姿时人体宽度大于高度的特征，通过多尺度的卷积核，使得骨干网络提取从图像中提取细粒度和粗粒度的语义特征，提高了骨干网络多尺度特征表示能力，适用于胶囊内窥镜检查场景下人体卧姿时体位动作识别。

如图3所示，在一个实施例中，体位动作识别模型可以通过以下步骤训练：

步骤1021，获取训练图像。

训练图像可以是用于对体位动作识别模型进行训练的图像，在一个实施例中，可以在胶囊内窥镜使用场景下采集图像，比如，在医疗机构的胶囊内窥镜检查室中，在患者躺卧在检查台上吞服胶囊内窥镜后，开始采集摄像头对检查台区域采集图像，在检查过程中，医护人员可以随着检查过程的进行，指示患者调整体位动作，摄像头采集到视频图像后，可以从视频图像中截取出包括人体的图像作为训练图像，并对训练图像标注第三体位动作数据，其中，第三体位动作数据可以是体位动作分类或者是标注人体上的各个关键点的位置。

步骤1022，构建体位动作识别模型，体位动作识别模型包括骨干网络和头部网络，骨干网络包括多个阶段依次连接的、卷积核尺寸递增的卷积网络，头部网络基于骨干网络输出的显式特征编码和隐式特征编码识别体位动作。

在一个可选实施例中，在构建骨干网络时，可以构建多个依次连接的n个阶段的卷积网络作为骨干网络，第一阶段到第n阶段的卷积网络的卷积核尺寸递增，第i阶段的卷积网络中的每个卷积核包括卷积分支网络、x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络，第i阶段的卷积分支网络、x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络以第i-1阶段的卷积网络输出的特征编码作为输入，第i阶段的卷积分支网络、x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络输出的特征编码拼接后作为第i+1阶段的卷积网络的输入，其中2≤i≤n，在构建头部网络时，头部网络的输入层与骨干网络中的第n阶段的卷积网络的输出层连接。

如图2和图4所示，骨干网络包括Stage1- Stage4一共4个阶段的卷积网络，其中，Stage1阶段的卷积网络可以是经典普通的卷积网络，Stage1阶段的卷积网络无分支网络，而Stage2-4阶段的卷积网络设置有多个分支网络，即Stage2-4阶段的卷积网络均设置有卷积分支网络、x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络。

如图4所示，卷积分支网络可以是常用的普通卷积操作的卷积网络，可以用于提取高层次的特征，Sobel算子和Laplace算子是图像处理领域中的边缘检测算子，用于从图像中提取边缘和轮廓信息。Sobel算子是基于卷积的边缘检测算子，Sobel算子通过在图像上滑动一个卷积核来计算像素点周围的梯度值，Sobel算子分为x方向（水平方向）和y方向（垂直方向）卷积，分别用于检测图像中的水平和垂直边缘，x方向的sobel算子分支网络、y方向的sobel算子分支网络的权重分布可以捕捉图像中的亮度变化情况，从而找出边缘的位置。

Laplace算子是基于二阶导数的边缘检测算子，Laplace算子在图像中寻找像素值的快速变化，Laplace算子可以用于检测较为复杂的边缘和轮廓，因为它在图像中寻找的是像素值的二阶导数，即图像的弯曲程度。

如图4所示，每个阶段卷积网络中的卷积分支网络、x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络以上一阶段的卷积网络输出的特征作为输入，各个分支网络提取的特征合并后作为该阶段的卷积网络的输出特征，以输入到下一个阶段的卷积网络中。

本实施例的骨干网络中的卷积网络包括并行的x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络，能够提取到更加丰富的边缘和方向信息，有助于感知胶囊内窥镜检查中人体体位动作的微小变化，以进行细粒度判别。

如图5所示，胶囊内窥镜检查中的左侧半撑体位，在图5中，体位的细粒度区别在于左手臂撑地时，左手臂与地面垂直，腰侧不能下沉，通过x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络提取的特征，可以识别左手臂与腰侧的细微变化，尤其适用于胶囊内窥镜检查中人体体位动作细微变化的识别。

传统神经网络可以通过以下公式（1）表示：

（1）；

其中，y为目标，x为观测量，表示神经网络操作，θ是神经网络的参数，/>为误差项。

本实施例在头部网络中引入隐式知识，可以将直接可观察的知识定义为显式知识，将隐藏在神经网络中且无法观察的知识定义为隐式知识，显式知识和隐式知识可以用特征编码表示，可以使用显式知识和隐式知识结合对误差项进行建模，以指导神经网络训练，具体的，训练公式如下公式（2）：

（2）

其中，分别表示来自显式特征编码x的误差、来自隐式特征编码z的误差，g_θ表示从显式特征编码和隐式特征编码的误差中进行选择或组合，为了简化操作，公式（2）简化为公式（3）：

y=f_θ(x)★g_θ(z) （3）

其中，★表示相加或相乘。

本实施例通过引入隐式知识，可以排除胶囊内窥镜检查环境中人体被被单遮挡、畸变等复杂环境的干扰，提高体位动作识别的准确度。

步骤1023，采用训练图像训练体位动作识别模型。

在构建体位动作识别模型并初始化参数后，可以采用训练图像训练体位动作识别模型，在一个实施例中，如图6所示，步骤1023具体包括以下子步骤：

子步骤10231，随机提取训练图像输入体位动作识别模型中得到第四体位动作数据。

具体的，在将训练图像输入骨干网络后，可以在骨干网络的第一阶段的卷积网络中对训练图像进行卷积操作，从第一阶段的卷积网络中输出特征图，将第一阶段的卷积网络所输出特征图输入第2阶段的卷积网络中，以在第2阶段到第n阶段的卷积网络的卷积分支网络、x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络提取卷积特征、x方向的sobel特征、y方向的sobel特征以及Laplace特征，并对卷积特征、x方向的sobel特征、y方向的sobel特征以及Laplace特征融合，将融合后的特征输入下一阶段的卷积网络，直到在第n阶段的卷积网络输出最终的特征图，在头部网络中输入最终的特征图作为显式特征编码以及输入预置的隐式特征编码，识别训练图像中的第四体位动作数据，该第四体位动作数据可以是人体上各个关键点的位置数据，也可以是体位动作分类。

子步骤S10232，采用第三体位动作数据和第四体位动作数据计算损失率。

在一个实施例中，第三体位动作数据可以是对训练图像标注的数据，可以将第三体位动作数据和第四体位动作数据代入均方差损失函数中计算损失率。

在另一个实施例中，损失函数还可以是交叉熵损失函数，本实施例对计算损失率所使用的损失函数不作限制。

子步骤10233，判断是否满足训练条件。

在一个实施例中，训练条件可以是损失率小于预设的阈值，在另一个实施例中，训练条件可以是迭代训练的次数达到预设的次数，在又一个实施例中，训练条件还可以是相邻两次迭代训练的损失率的差值的绝对值小于预设值，当满足训练条件时，执行子步骤10234，若未满足训练条件，执行子步骤10235。

子步骤10234，对骨干网络中各个阶段的卷积网络进行重参数化操作，得到训练完成的体位动作识别模型。

若满足训练条件，确定体位动作识别模型的精度准确度已满足要求，可以停止对体位动作识别模型进行训练，得到训练完成的体位动作识别模型。

在另一个实施例中，可以将骨干网络中各个阶段的卷积网络中的卷积分支网络的参数、x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络的参数进行融合，得到融合卷积参数，在各个阶段的卷积网络中删除x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络，并采用融合卷积参数替换掉卷积分支网络的参数，得到训练完成的体位动作识别模型。

如图4所示，所训练的体位动作识别模型中，骨干网络中的卷积网络包括卷积分支网络的参数、x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络，其中，x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络的网络参数可以是固定参数，在训练结束后卷积分支网络学习到了网络参数，可以将卷积分支网络学习到了网络参数与x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络的固定参数进行融合。

具体的，可以通过RepVGG中的重参数化技术对各个卷积网络进行重构，将x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络的固定参数与卷积分支网络学习到了网络参数进行融合，通过该融合后的网络参数重构一个卷积网络，实现了将卷积分支网络的参数、x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络合并为一个卷积网络。

如图7示出了卷积分支网络的卷尺核尺寸为3×3，x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络的卷尺核尺寸也为3×3时进行融合的情况，在实际应用中，当卷尺核尺寸为5×5（如图2中Stage2的卷积网络）、卷尺核尺寸为7×7（如图2中Stage3的卷积网络）、卷尺核尺寸为9×9（如图2中Stage4的卷积网络）时，可以将x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络的卷积核进行扩充到相应尺寸，比如在各个算子对应的尺寸为3×3的卷积核外围填充0扩充至5×5、7×7、9×9的尺寸后，分别与各个阶段相同尺寸的卷积分支网络的卷积核的参数进行融合，得到融合后的网络参数。

在一个实施例中，可以重构骨干网络中各个阶段的卷积网络，该卷积网络中只有一个分支的卷积网络结构，该卷积网络的网络参数为融合后的网络参数。

在另一个实施例中，可以在骨干网络的各个阶段的卷积网络中去掉x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络，并采用融合后的网络参数替换掉卷积分支网络的网络参数，得到最终的体位动作识别模型。

本实施例在训练时在骨干网络的各个阶段的卷积网络设置多个分支网络，在训练结束后对各个分支网络的参数进行融合，将多个分支网络合并为一个网络分支，合并后的网络分支在不损失精度的情况下可以提高整个体位动作识别模型的推理速度，适应于胶囊内窥镜检查中人体体位变化快的场景下，能够快速识别人体的体位动作。

子步骤10235，依据损失率对体位动作识别模型的参数进行调整，返回子步骤10231。

当未满足训练条件时，可以通过损失率计算梯度，并对模型参数进行梯度下降，以调整模型参数，并返回子步骤10231继续训练，其中，梯度下降算法可以采用随机梯度下降、批量梯度下降、小批量梯度下降等算法，本实施例对模型参数调整的方式不做限制。

本发明实施例所训练的体位动作识别模型包括骨干网络和头部网络，由于骨干网络中多个阶段的卷积网络的卷积核尺寸递增，实现了在浅层阶段通过小尺寸卷积核提取图像中细粒度的语义特征，在深层阶段通过大尺寸卷积核提取图像中粗粒度的全局语义特征，适用于胶囊内窥镜检查人体处于卧姿时宽度大于高度的场景，既可以从图像中捕获人体处于卧姿时的全局语义特征，又可以提取细粒度的语义特征，另外，头部网络引入隐式特征编码，通过隐式特征编码可以排除胶囊内窥镜检查环境中人体被被单遮挡、畸变等复杂环境的干扰，提高了体位动作识别模型对胶囊内窥镜场景下人体卧姿的体位动作识别的准确度，以通过识别到的高准确度的体位动作辅助胶囊内窥镜检查，提高了检查效率和减轻医务人员的工作负担。

在训练完成体位动作识别模型后，在体位动作识别模型部署后，将待识别图像输入训练好的体位动作识别模型时，在体位动作识别模型的骨干网络中对待识别图像进行多个阶段的、卷积核尺寸递增的卷积操作，得到显式特征编码和隐式特征编码，在头部网络中基于显式特征编码和隐式特征编码识别待识别图像中人体姿势的第一体位动作数据。

示例性的，骨干网络包括n个阶段的卷积网络，在将待识别图像输入骨干网络后，可以在骨干网络的第一阶段的卷积网络中对待识别图像进行卷积操作，从第一阶段的卷积网络中输出特征图，将第一阶段的卷积网络所输出特征图输入第2阶段的卷积网络中，以在第2阶段到第n阶段的卷积网络的卷积分支网络、x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络提取卷积特征、x方向的sobel特征、y方向的sobel特征以及Laplace特征，并对卷积特征、x方向的sobel特征、y方向的sobel特征以及Laplace特征融合，将融合后的特征输入下一阶段的卷积网络，直到在第n阶段的卷积网络输出最终的特征图，在头部网络中输入最终的特征图作为显式特征编码以及输入预置的隐式特征编码，识别待识别图像中人体姿势的第一体位动作数据，该第一体位动作数据可以是人体上各个关键点的位置数据，也可以是体位动作分类。

在另一个实施例中，如图8所示，通过体位动作识别模型识别待识别图像中的人体姿势的第一体位动作数据后，具体还包括以下步骤：

步骤103，根据第一体位动作数据和预置的第二体位动作数据计算动作误差值，第二体位动作数据为标准体位动作的数据。

本实施例中，第二体位动作数据为标准体位动作的数据，其中，标准体位动作可以预先设置并选择，比如，在胶囊内窥镜检查过程中，医护人员可以在交互界面根据检查进度选择需要患者调整的标准体位动作，以根据所选择的标准体位动作加载第二体位动作数据，该第二体位动作数据可以是体位动作数据的类别，还可以是人体各个关键点的位置数据。

可以计算第一体位动作数据与第二体位动作数据的误差作为动作误差值，通过该动作误差值衡量患者的体位动作与标准体位动作的差异，在一个示例中，体位动作数据可以是人体各个关键点的位置，可以计算各个关节点的位置的差值作为动作误差值，在另一个实施例中，体位动作数据可以是一个体位动作类别的概率，可以计算概率的差值作为动作误差值。

步骤104，判断动作误差值是否小于预置的阈值。

具体的，可以将动作误差值与预置的阈值比较，若动作误差值小于或等于阈值，执行步骤105，若动作误差值大于阈值，执行步骤106。

步骤105，确定待识别图像中人体的体位动作合格。

当动作误差值小于或等于阈值时，确定患者的当前体位动作为胶囊内窥镜检查所需的标准体位动作。

步骤106，确定待识别图像中人体的体位动作不合格，生成提示信息。

当动作误差值大于阈值时，确定患者的当前体位动作不是胶囊内窥镜检查所需的标准体位动作，可以生成提示信息，比如生成体位动作不合格的人体部分的提示信息，如图5所示，在人体左侧半撑体位中，标准动作是左手臂与地面垂直，腰侧不能下沉，在图5中，左手臂与地面倾斜不合格，可以在图像中以提示框提示左手臂动作不合格。

本实施例在通过体位动作识别模型识别出待识别图像中人体姿势的第一体位动作数据后，计算第一体位动作数据与标准体位动作的第二体位动作数据的动作误差值，在动作误差值大于阈值时确定待识别图像中人体的体位动作不合格，生成提示信息，以提示医护人员，减去医护人员判断体位动作是否合格的工作负担，方便医护人员根据提示信息指导患者将体位动作调整到标准体位动作，提高胶囊内窥镜的检查效率。

图9示出了本发明实施例提供的体位动作识别系统的应用架构图，本实施例的体位动作识别系统包括：

待识别图像获取模块901，用于获取包含人体姿势的待识别图像；

体位动作识别模块902，用于将所述待识别图像输入预先训练好的体位动作识别模型中，得到所述待识别图像中人体姿势的第一体位动作数据；

作为本发明实施例技术方案的进一步限定，体位动作识别模块902具体包括以下单元：

特征提取单元，用于将所述待识别图像输入预先训练好的体位动作识别模型中，在所述骨干网络中对所述待识别图像进行多个阶段的、卷积核尺寸递增的卷积操作，得到显式特征编码和隐式特征编码；

体位动作识别单元，用于在所述头部网络中基于所述显式特征编码和隐式特征编码识别所述待识别图像中人体姿势的第一体位动作数据。

作为本发明实施例技术方案的进一步限定，具体还包括以下模块：

体位动作误差值计算模块903，用于根据所述第一体位动作数据和预置的第二体位动作数据计算动作误差值，所述第二体位动作数据为标准体位动作的数据；

体位动作误差值判断模块904，用于判断所述动作误差值是否小于预置的阈值，若是，执行体位动作合格确定模块905，若否，执行体位动作不合格确定模块906；

体位动作合格确定模块905，用于确定所述待识别图像中人体的体位动作合格；

体位动作不合格确定模块906，用于确定所述待识别图像中人体的体位动作不合格，生成提示信息。

作为本发明实施例技术方案的进一步限定，所述体位动作识别模型通过以下模块训练：

训练图像获取模块，用于获取训练图像；

模型构建模块，用于构建体位动作识别模型，所述体位动作识别模型包括骨干网络和头部网络，所述骨干网络包括多个阶段依次连接的、卷积核尺寸递增的卷积网络，所述头部网络基于所述骨干网络输出的显式特征编码和隐式特征编码识别体位动作；

模型训练模块，用于采用所述训练图像训练所述体位动作识别模型。

作为本发明实施例技术方案的进一步限定，所述模型构建模块具体包括：

骨干网络构建单元，用于构建多个依次连接的n个阶段的卷积网络作为骨干网络，第一阶段到第n阶段的卷积网络的卷积核尺寸递增，第i阶段的卷积网络包括卷积分支网络、x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络，第i阶段的卷积分支网络、x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络以第i-1阶段的卷积网络输出的特征编码作为输入，第i阶段的卷积分支网络、x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络输出的特征编码拼接后作为第i+1阶段的卷积网络的输入，其中2≤i≤n；

头部网络构建单元，用于构建头部网络，所述头部网络的输入层与所述骨干网络中的第n阶段的卷积网络的输出层连接。

y=f_θ(x)★g_θ(z)；

作为本发明实施例技术方案的进一步限定，所述训练图像标注有第三体位动作数据，所述模型训练模块包括：

图像识别单元，用于随机提取训练图像输入体位动作识别模型中得到第四体位动作数据；

损失率计算单元，用于采用所述第三体位动作数据和所述第四体位动作数据计算损失率；

训练条件判断单元，用于判断是否满足训练条件，若是，执行重参数化子单元，若否，执行模型参数调整子单元；

重参数化子单元，用于对所述骨干网络中各个阶段的卷积网络进行重参数化操作，得到训练完成的体位动作识别模型；

模型参数调整子单元，用于依据所述损失率对所述体位动作识别模型的参数进行调整，返回图像识别单元。

作为本发明实施例技术方案的进一步限定，所述图像识别单元包括：

普通卷积子单元，用于在所述骨干网络的第一阶段的卷积网络中对所述训练图像进行卷积操作，从所述第一阶段的卷积网络中输出特征图；

多分支卷积子单元，用于将第一阶段的卷积网络所输出特征图输入第二阶段的卷积网络中，以在第二阶段到第n阶段的卷积网络的卷积分支网络、x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络提取卷积特征、x方向的sobel特征、y方向的sobel特征以及Laplace特征，并对卷积特征、x方向的sobel特征、y方向的sobel特征以及Laplace特征融合，在第n阶段的卷积网络输出最终的特征图；

头部网络预测子单元，用于在所述头部网络中输入最终的特征图作为显式特征编码以及输入预置的隐式特征编码，识别所述训练图像中人体姿势的第四体位动作数据。

作为本发明实施例技术方案的进一步限定，所述重参数化子单元包括：

参数融合子单元，用于将所述骨干网络中各个阶段的卷积网络中的卷积分支网络的参数、x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络的参数进行融合，得到融合卷积参数；

卷积网络参数替换子单元，用于在各个阶段的卷积网络中删除x方向的sobel算子分支网络、y方向的sobel算子分支网络以及Laplace算子分支网络，并采用所述融合卷积参数替换掉卷积分支网络的参数，得到训练完成的体位动作识别模型。

本发明实施例所提供的体位动作识别系统可执行本发明实施例所提供的体位动作识别方法，具备执行方法相应的功能模块和有益效果。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的，程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种体位动作识别方法，其特征在于，具体包括以下步骤：

获取包含人体姿势的待识别图像；

2.如权利要求1所述的体位动作识别方法，其特征在于，将所述待识别图像输入预先训练好的体位动作识别模型中，得到所述待识别图像中人体姿势的第一体位动作数据，具体包括以下步骤：

3.如权利要求1所述的体位动作识别方法，其特征在于，具体还包括以下步骤：

判断所述动作误差值是否小于预置的阈值；

若是，确定所述待识别图像中人体的体位动作合格；

4.如权利要求1所述的体位动作识别方法，其特征在于，所述体位动作识别模型通过以下步骤训练：

获取训练图像；

采用所述训练图像训练所述体位动作识别模型。

5.如权利要求4所述的体位动作识别方法，其特征在于，所述构建体位动作识别模型，具体包括以下步骤：

6.如权利要求5所述的体位动作识别方法，其特征在于，所述骨干网络包括4个阶段的卷积网络，其中，第一阶段的卷积网络的卷积核尺寸为4×4，第二阶段到第四阶段的卷积网络中卷积分支网络的卷积核尺寸分别为5×5、7×7、9×9。

7.如权利要求5所述的体位动作识别方法，其特征在于，所述头部网络的目标函数如下：

y=f_θ(x)★g_θ(z)；

8.如权利要求5所述的体位动作识别方法，其特征在于，所述训练图像标注有第三体位动作数据，所述采用所述训练图像训练所述体位动作识别模型，包括：

判断是否满足训练条件；

9.如权利要求8所述的体位动作识别方法，其特征在于，所述随机提取训练图像输入体位动作识别模型中得到第四体位动作数据，包括：

在所述头部网络中输入最终的特征图作为显式特征编码以及输入预置的隐式特征编码，识别所述训练图像中的人体姿势的第四体位动作数据。

10.如权利要求8所述的体位动作识别方法，其特征在于，所述对所述骨干网络中各个阶段的卷积网络进行重参数化操作，得到训练完成的体位动作识别模型，包括：

11.一种体位动作识别系统，其特征在于，具体包括以下模块：