CN111881818A

CN111881818A - 医疗行为细粒度识别装置及计算机可读存储介质

Info

Publication number: CN111881818A
Application number: CN202010732191.6A
Authority: CN
Inventors: 张立华; 苏柳桢; 邝昊鹏; 林野
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2020-11-03
Anticipated expiration: 2040-07-27
Also published as: CN111881818B

Abstract

本发明涉及一种医疗行为细粒度识别装置，包括摄像机、处理器和存储器及如下算法：通过摄像机采集实时发生的医疗行为视频；对视频数据预处理；获取上一时刻的卷积核的采样感受野；计算上一时刻图像与当前时刻图像的局部相干约束；计算当前时刻的感受野位移量；对每个采样点增加相应的位移量，获得变形后的卷积核；进行当前时刻的卷积运算，得到外观特征信息；计算感受野随时间的差值并提取运动特征信息；合并上述运动特征和外观特征，得到时空特征；将所述时空特征输入到三维卷积神经网络，经由全连接层得到动作分割与预测结果；对三维卷积神经网络的输出结果进行特征分割和动作分类预测。本发明可以提高系统的速度和效率及识别精度。

Description

医疗行为细粒度识别装置及计算机可读存储介质

技术领域

本发明涉及一种医疗行为细粒度识别装置及包含用于进行所述医疗行为细粒度识别的程序的计算机可读存储介质。

背景技术

自2012年起，深度学习在短短的几年内蓬勃发展，在计算机视觉、自然语言处理、和人体行为识别等人工智能的多个子领域取得了巨大的成功。人体行为识别指计算机根据摄像机采集的图像或视频数据感知识别数据中人类所执行的行为类型，目前基于深度神经网络的人体行为识别方法主要有基于卷积神经网络的双流(Two-Stream)方法、基于三维卷积的3DCNN方法(如C3D、I3D)、基于时序模型(如RNN、LSTM)的网络方法。

现有的行为识别方法一般是通过人工观察和设计，手动设计出能够表征动作的特征算子再通过密集采样等感兴趣区域提取，最后进行行为分类与识别。在基于视频的细粒度的动作检测识别中，网络一般包含时空特征提取和长时间建模两个步骤。时空特征提取一般是通过观察几个连续的帧来建立空间和短期时间信息的模型，光流的方法通常被用于这种短期时间建模，它是将不同特征提取器中的时空信息解耦，然后通过融合模块将两种数据流结合起来。

然而，基于光流的方法通常是计算昂贵的，并可能出现由视频压缩造成的噪声问题，不足以捕捉小的运动，这对细粒度的动作识别精度影响非常大。此外，在长时间建模步骤中，通常对提取的时空特征在整个视频中的长期依赖关系进行建模，当前已有的方法关注于建立长期依赖的模型，通常依赖于现有的特征，且模型的复杂度较高，模型的参数存在一定的冗余，这使得模型的运行效率较为低下。

智慧医院的建设目标之一是利用智能化和信息化技术提升医疗服务的品质与效率，包括减少医疗行为与操作流程中人为因素所引发的医疗质量问题。这些医疗动作通常关联性较大，具有高度的类间相似性，即使是人类也很难仅从观察场景外观就区分两种不同的细粒度行为。与一般的动作检测不同的是，细粒度的行为识别需要额外的原因来解释对象如何在多个视频帧之间移动，所以细粒度的行为识别通常只能通过动作模式的细微差别来区分。

现有技术无法有效感知识别细粒度的医疗行为，因此医疗行为的合规性判断与医疗流程的智能优化缺乏行为识别方面的技术基础。

发明内容

本发明要解决的技术问题是提供一种医疗行为细粒度识别装置，旨在通过视频图像有效地感知细粒度的医疗行为，为医疗行为的合规性评估与智能化干预提供算法层的识别技术。

为解决上述技术问题的技术方案是：一种医疗行为细粒度识别装置，包括摄像机、处理器和存储器，其特征是还包括如下算法：

通过摄像机采集实时发生的医疗行为视频数据；

对视频数据预处理，选择性地抑制图像中的噪声、加强图像中的有用信息；

获取上一时刻的卷积核的采样感受野；

计算上一时刻图像与当前时刻图像的局部相干约束，并根据局部相干约束计算当前时刻的感受野位移量；

在上一时刻采样感受野的基础上对每个采样点增加相应的位移量，获得变形后的卷积核；

通过该卷积核进行当前时刻的卷积运算，得到视频中目标的外观特征信息；

计算感受野随时间的差值并提取视频中目标的运动特征信息；

合并上述运动特征和外观特征，得到时空特征；

将所述时空特征输入到三维卷积神经网络，经由全连接层得到动作分割与预测结果；

根据动作分割与预测的结果对三维卷积神经网络的输出结果进行特征分割，得到特征片段；

通过全连接层对分割得到的特征片段进行动作分类预测，得到视频中某一片段得到的细粒度动作分类结果。

所述视频数据预处理的算法是：

通过k近邻平均法消除图像中的随机噪声；

通过直方图均衡和对数变换的方法对视频图像进行图像增强处理。

所述得到动作分割与预测结果的算法是通过softmax的方法。

本发明的技术效果是：

一、本发明，使用运动特征和外观特征进行动作分割与动作识别，复用了两种特征结果以及三维卷积所提取得到的深层时空特征，这有效地降低了模型的复杂性，能显著提高医疗行为识别系统的运行速度和效率。

二、本发明，基于局部一致可变形卷积网络，构建了单流骨干网络同时学习时空特征，这种网络能用与光流等效的行为来表示时间信息，增强了骨干网络的灵活性；同时，这种在运动特征层面的建模方法使得网络具有区分不同动作模式之间的细微差别的能力，提高了细粒度的动作识别精度。

附图说明

图1是本发明的基于视频的医疗行为识别系统的结构示意图。

图2是本发明的基于视频的医疗行为识别系统的主流程图。

图3是本发明的可变形卷积网络特征提取的程序模块。

图4是本发明的细粒度动作分割与分类程序模块。

具体实施方式

现结合附图和实施例对本发明作进一步详细说明。

本发明提出了一种细粒度地识别视频中医疗行为的装置，结构示意图和流程图分别如图1、图2所示。硬件包括摄像机10、处理器20和存储器30以及显示器40；软件主要包括步骤11：医疗行为视频采集与预处理、步骤12：局部一致的可变形卷积网络特征提取步骤13：细粒度动作分割与识别这几个步骤，以下分别进行描述。

步骤11：医疗行为视频采集与预处理

本发明通过在医疗现场架设摄像机，采集医疗过程中实时发生的行为视频。现实应用中视频图像采集常常受光照条件的影响较大，且存在噪声，因此当通过摄像机获得医疗行为视频后，本发明首先通过k近邻平均法部分消除图像中的随机噪声，然后通过直方图均衡和对数变换的方法对视频图像进行图像增强处理。通过以上方法，选择性地抑制图像中的噪声、加强图像中的有用信息，以将图像转变为更适合机器处理的形式。以便于针对医疗行为视频数据后续的抽取和识别。

步骤12：局部一致的可变形卷积网络特征提取

通过摄像机采集并经过预处理得到的医疗行为视频数据是一长段视频，而这一长段视频中通常包括多个医疗动作，比如一段静脉输液的医疗行为视频中，可能包含有配置液体、排气、选取血管、静脉穿刺、控制滴速、更换液体、拔针等多个细粒度动作，这些动作通常关联性较大，具有高度的类间相似性，只能通过动作模式的细微差别来区分。所以，进行细粒度医疗行为识别的基础是将每一个细粒度动作所属的视频片段从一长段视频中分割出来。

针对细粒度的医疗行为识别问题，本发明在可变形卷积运算的基础上，提出了一种自适应感受野的时态信息建模方法，方法的算法流程图如图2所示。该自适应感受野的可变形卷积时空特征提取方法的处理步骤如下：

获取上一时刻的卷积核的采样感受野；

计算上一时刻图像与当前时刻图像的局部相干约束；

根据局部相干约束计算当前时刻的卷积核感受野位移量；

在上一时刻采样感受野的基础上对每个采样点增加相应的位移量；

获得变形后的卷积核，并通过该卷积核进行当前时刻的卷积运算，得到视频中目标的外观特征信息；

计算感受野随时间的差值；

根据感受野差值计算提取视频中目标的运动特征信息。

在细粒度的行为识别任务中，用感受野随时间的差值来直接建模运动效果较差，因为原始的可变形卷积公式中不能保证感受野的局部一致性。因此，进一步地，本发明在可变形卷积特征的基础上，进一步地提出了一种专门为细粒度行为识别设计的感受野具有局部一致性的可变形卷积方法，来建模视频中行为的时间信息，得到运动特征。本发明所提出的局部一致可变形卷积是可变形卷积的一种特殊情况，它的主要特征是可以通过局部相干约束对输入信号进行变形，而不是仅使感受野变形。本方法中的变形偏移量都通过卷积层来学习，由于局部一致可变形卷积的感受野偏移量和标准可变形卷积的感受野偏移量共享相同的空间维度，它们可以应用于不同的时间帧，局部一致可变形卷积的感受野偏移量也可以在不同的位置和时间建模运动。

本发明基于各个视频图像帧之间的关键点一致的基本假设，通过取不同时间的自适应感受野的差异来建模运动。由于可变形卷积网络可以端到端训练，因此本发明提出的方法可以在网络的隐藏层中学习建模运动，然后将其与空间特征结合起来，就形成了强大的时空特征。从更高的层级来看，本发明所提出的可变形卷积层中的自适应感受野可以看作是重要像素的集合，因为网络可以灵活地改变每个卷积样本的位置。在某种程度上，自适应感受野执行的是某种形式的关键点检测。此外，本发明中的局部一致可变形卷积的变形偏移量只需要一个一个核，但是标准的可变形卷积需要多个核，所以本发明所提出的局部一致可变形卷积网络具有内存效率高的优点。

本发明采用强制一致性网络输出和在帧间共享权值的方法，通过学习得到的当前时刻的变形映射来编码运动信息。其中，当前时刻与上一时刻的感受野偏移量差分可生成与光流方法等效的的运动信息。所以，本发明使用所提出的局部一致可变形卷积网络，在单一的网络结构中有效地建模外观和运动信息，为动作分割与细粒度动作识别程序提供了基础。

步骤13：细粒度动作分割与识别

本发明在自适应感受野的运动建模和局部一致可变形卷积网络的基础上，进一步地提出了一种视频动作分割方法和细粒度动作识别方法。在使用局部一致可变形卷积网络对视频进行处理并得到运动特征和外观特征后，本发明通过以下步骤进一步地处理两种特征，最终得到视频中医疗行为细粒度的动作分割与动作分类结果，其处理的流程框图如图4所示。

更具体地，细粒度的动作分割与动作分类方法处理流程介绍如下：

合并视频中固定帧数的局部一致可变形卷积网络检测得到运动特征和外观特征；

将合并的特征输入到三维卷积神经网络，其输出首先输入到全连接层中，通过softmax的方法得到动作分割与预测结果；

根据动作分割与预测的结果对三维卷积神经网络的输出结果进行特征分割；

本发明所提出的方法中，在动作分割与动作识别两部分都采用局部一致可变形卷积网络所提取得到的运动特征和外观特征，以及它随后由三维卷积提取得到的深层时空特征。动作分割的预测结果直接被用于对三维卷积的特征输出进行特征分割处理，最后通过全连接层预测得到动作分类结果。

基于以上对局部一致的可变形卷积网络和动作分割与分类网络的描述，本发明所提出的深度神经网络使用单流的骨干网络，同时提取视频中人体行为的时域特征和空间特征。所以本发明使用在实际医疗中采集得到的实际医疗行为数据对所提出的深度神经网络使用端到端地训练方法。

本发明针对目前在医疗过程中缺乏智能化地医疗行为合规性评估方法的问题，提出了一种细粒度地识别医疗行为的方法。发明所提出方法的主要特点是不用光流来建模时间信息，而是通过所提出的局部一致可变形卷积网络来直接从特征空间中学习时间信息，以及通过评估自适应感受野随时间变化的局部运动聚焦感兴趣区域的运动。局部一致的可变形卷积网络特征提取方法更有效地建模细粒度运动的特征，在降低模型复杂性的同时有效地提高了识别准确率和算法运行速度。本发明技术方案的主要有益效果如下：

利用自适应感受野随时间的变化来建模特征空间中的运动，而不是像传统的基于光流的方法那样依赖于像素空间，同时引入了局部相干的约束，增强了运动的一致性，这有效地减少了模型的参数冗余，降低了模型的复杂性，使运动建模更加鲁棒；

基于局部一致可变形卷积网络，构建了单流骨干网络同时学习时空特征，这种网络能用与光流等效的行为来表示时间信息，增强了骨干网络的灵活性；同时，这种在运动特征层面的建模方法使得网络具有区分不同动作模式之间的细微差别的能力，是实现医疗行为细粒度动作识别的关键，使在30类医疗行为细粒度识别的测试中达到了90％以上的准确率。

使用运动特征和外观特征进行动作分割与动作识别步骤中，本发明所提出的方法复用了两种特征结果以及三维卷积所提取得到的深层时空特征，这有效地降低了模型的复杂性，能显著提高医疗行为识别系统的运行速度和效率。

总之，本发明所提出的医疗行为细粒度识别方法可有效地提升医疗服务的品质与效率，包括通过摄像机细粒度地智能感知识别医疗行为、为医疗行为的合规性评估与智能化干预提供参考材料、减少医疗行为与操作流程中人为因素所引发的医疗质量问题。

Claims

1.一种医疗行为细粒度识别装置，包括摄像机、处理器和存储器，其特征是还包括如下算法：

通过摄像机采集实时发生的医疗行为视频数据；

获取上一时刻的卷积核的采样感受野；

合并上述运动特征和外观特征，得到时空特征；

2.如权利要求1所述的医疗行为细粒度识别装置，其特征是：所述视频数据预处理的算法包括如下步骤：

通过k近邻平均法消除图像中的随机噪声；

3.如权利要求1所述的医疗行为细粒度识别装置，其特征是所述得到动作分割与预测结果的算法是通过softmax的方法。

4.一种包含程序的计算机可读存储介质，其特征是所述程序包括如下算法：

通过摄像机采集实时发生的医疗行为视频数据；

获取上一时刻的卷积核的采样感受野；

合并上述运动特征和外观特征，得到时空特征；