CN111681748A

CN111681748A - 基于智能视觉感知的医疗行为动作规范性评价方法

Info

Publication number: CN111681748A
Application number: CN202010532597.XA
Authority: CN
Inventors: 单光存; 曾祥睿; 宋振举; 尹明; 苏银沛; 王田; 文博; 秦飞
Original assignee: Everlasting Technology Hangzhou Co ltd; Zhongshan Hospital Fudan University; Beihang University
Current assignee: Everlasting Technology Hangzhou Co ltd; Zhongshan Hospital Fudan University; Beihang University
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-09-18
Anticipated expiration: 2040-06-11
Also published as: CN111681748B

Abstract

本发明提供一种基于智能视觉感知的医疗行为动作规范性评价方法，包括：利用13D网络提取包含待评价医疗行为的视频的双流特征向量；利用所述双流特征向量通过残差空洞因果卷积模块进行动作概率分析；利用所述动作概率分析的结果通过边界决策分析获取待选动作提名片段集ψp；对待选动作提名片段集ψp进行联合概率动作密度排序处理，得到待评价医疗行为视频中的有效动作提名片段；获取标准动作片段；利用所述标准动作片段和所述有效动作提名片段通过训练好的孪生神经网络评价所述医疗行为动作规范性。本发明基于智能视觉感知的医疗行为动作规范性评价方法可以准确的判断动作规范性，在医疗领域有较好的应用前景。

Description

基于智能视觉感知的医疗行为动作规范性评价方法

技术领域

本发明涉及视频处理技术领域，特别涉及一种基于智能视觉感知的医疗行为动作规范性评价方法。

背景技术

目前，医疗行为动作规范性评价方法通常操作复杂，准确性不高，对人工的依赖较多，智能化程度低，且医疗行为动作的规范性主要是通过医疗人员的个体经验来确定，主观性较强，因此亟需提出一种操作简单、准确、高效、智能化的医疗行为动作规范性评价方法。

发明内容

(一)要解决的技术问题

鉴于上述问题，本发明的主要目的在于提供一种基于智能视觉感知的医疗行为动作规范性评价方法，以期至少部分地解决上述提及的技术问题中的至少之一。

(二)技术方案

根据本发明的一个方面，提供了一种基于智能视觉感知的医疗行为动作规范性评价方法，包括：

利用I3D网络提取包含待评价医疗行为的视频的双流特征向量；

利用所述双流特征向量通过残差空洞因果卷积模块进行动作概率分析；

利用所述动作概率分析的结果通过边界决策分析获取待选动作提名片段集ψp；

对待选动作提名片段集ψp进行联合概率动作密度排序处理，得到待评价医疗行为视频中的有效动作提名片段；

获取标准动作片段；

利用所述标准动作片段和所述有效动作提名片段通过训练好的孪生神经网络评价所述医疗行为动作规范性。

进一步的，在利用所述标准动作片段和所述有效动作提名片段通过训练好的孪生神经网络评价所述医疗行为动作规范性之前，还包括训练孪生神经网络；

其中，训练孪生神经网络，包括：

获取训练集数据中的有效动作提名片段；

利用所述训练集数据中的有效动作提名片段作为输入，交叉熵损失函数作为损失函数对一分类神经网络进行训练；

对训练好的所述分类神经网络进行迁移学习，得到孪生神经网络；

利用所述训练集数据中的有效动作提名片段和标准动作片段作为所述孪生神经网络的输入，对所述孪生神经网络进行训练。

进一步的，所述双流特征向量包括空间流和时间流，所述空间流是由堆叠的RGB图像为输入得到的特征向量，所述时间流是由堆叠的光流图像为输入得到的特征向量。

进一步的，利用所述双流特征向量通过残差空洞因果卷积模块进行动作概率分析，包括：将所述双流特征向量输入至堆叠的残差空洞因果卷积模块中进行时序建模，并进行动作概率分析，得到动作概率分数。

进一步的，若残差空洞因果卷积模块的顶层卷积层的感受野大小为K，则对于任一t时刻顶层神经元接收所述t时刻前面的K个时刻的输入，对所述K个时刻内的视频进行时序建模，构建短时记忆，在所述残差空洞因果卷积模块内设置Sigmoid激活函数，进行动作率分数的分析，并输出3K维的动作概率分数向量，由此得到动作概率分数，所述动作概率分数向量如下式所示：

式中，

分别表示在t时刻由所述顶层神经元所预测的m时刻的动作开始、动作结束和动作正在进行的概率分数。

进一步的，利用所述动作概率分析的结果通过边界决策分析获取待选动作提名片段集ψp，包括：

确定m时刻及其后面K个时刻的动作开始、动作结束、动作正在进行的概率分数集S_m、E_m、A_m；

对所述概率分数集S_m、E_m、A_m进行投票策略或峰值策略分析，得到动作边界时刻的概率分数集；

利用所述动作边界时刻的概率分数集确定待选动作提名片段；

其中，所述概率分数集S_m、E_m、A_m分别如下式所示：

进一步的，对所述概率分数集S_m、E_m、A_m进行投票策略或峰值策略分析，得到动作边界时刻的概率分数集，包括：

若m时刻满足投票决策和/或峰值决策，则收集对应的时刻m作为动作开始时刻或动作结束时刻，分别得到动作开始时刻的概率分数集C_S和动作结束时刻的概率分数集C_E。

进一步的，利用所述动作边界时刻的概率分数集确定待选动作提名片段，包括：

若概率分数集C_S中的任意元素为m^t _s与概率分数集C_E中的任意元素为m^j _e满足m¹ _s＜m^j _e，则区间[mⁱ _s，m^j _e]为一待选动作提名片段；利用多个所述待选动作提名片段形成待选动作提名片段集ψp。

进一步的，所述投票策略按照如下方式进行：若S_m或E_m中有u个以上的概率分数超过一分数阈值，则m时刻为动作开始时刻或动作结束时刻，u≥3；

所述峰值策略按照如下方式进行：若

或者

则m时刻为动作开始或动作结束的时刻。

进一步的，对待选动作提名片段集ψp进行联合概率动作密度排序处理，得到有效动作提名片段，包括：

利用联合概率动作密度指标d_c对待选动作提名片段集ψp进行联合概率动作密度排序处理；

在联合概率动作密度排序之后，利用非极大值抑制(NMS)对时间有重复的动作片段进行处理，筛选出其中d_c值最大的片段，即有效动作提名片段；其中，

式中，

表示m_i时刻后面K个时刻的顶层神经元预测的m_i时刻的动作正在进行的概率分数的平均值；

表示动作密度指标；

表示ms时刻后面K个顶层神经元预测的m_s时刻的动作开始的概率分数的平均值；

表示m_e时刻后面K个时刻的顶层神经元预测m_e时刻为动作结束的概率分数的平均值。

(三)有益效果

从上述技术方案可以看出，本发明基于智能视觉感知的医疗行为动作规范性评价方法至少具有以下有益效果其中之一：

(1)相较于现有医疗行为动作规范性评价方法对人员经验的依赖较多、智能化程度低、主观性较强、准确度不高，本发明利用孪生神经网络衡量输入的相似性，实现准确的判断动作规范性，智能化程度高，降低了人力成本，在医疗领域有较好的应用前景。

(2)本发明基于智能视觉感知的医疗行为动作规范性评价方法，能够高效、准确的获取动作提名，在动作提名过程中不需要滑动窗户或锚箱，操作简单，使用方便。

(3)在动作提名获取过程中采用动作开始-动作正在进行-动作结束的打分策略，同时采用了回顾多次打分的方式，由此能够提高动作提名获取的准确性。

(4)采用残差空洞因果卷积模块，同时将顶层感受野尺寸和打分相结合，提高了动作提名获取的准确性和智能化程度。

(5)采用联合概率动作密度排序策略，可解释性强，获取效果好，且无需构建复杂的神经网络。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明动作提名方法的流程示意图。

图2为本发明残差因果卷积模块示意图。

图3为本发明动作的概率分数获取过程示意图。

图4为本发明有效动作区域获取过程示意图。

图5为本发明度量规范性的孪生神经网络示意图。

图6为本发明实验例得到的AR-AN曲线。

图7为本发明实验例得到的mAP-Epoch曲线。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明涉及一种基于智能视觉感知的医疗行为动作规范性评价方法，通过从(长时)视频中提取动作提名从而对医疗行为动作规范性进行评价(也就是从视频中提取动作提名，从而对视频中的医疗行为动作规范性进行判定)方法，其包括以下步骤：

步骤1、获取包含待评价医疗行为的视频的双流特征向量，具体的，可利用13D网络提取视频的双流特征向量；

步骤2、将双流特征向量作为时序动作提名模块的输入，进行时序建模并进行动作概率评估；

步骤3、根据边界决策分析获取待选动作提名片段及其集ψp，并对ψp进行联合概率动作密度排序处理，得到有效动作提名片段(包含待评价医疗行为的视频的有效动作提名片段)；

步骤4、获取训练集数据的有效动作提名片段(与获取包含待评价医疗行为的视频的有效动作提名片段的过程类似，即前述步骤1至步骤3的提取方式，只是处理对象由包含待评价医疗行为的视频变为训练集数据)，将训练集数据的有效动作提名片段对应的视频片段的双流特征作为一神经网络(任意分类神经网络即可)的输入，进行动作分类，从而对所述一神经网络进行预训练；

步骤5、将步骤4中预训练后的所述一神经网络网络进行迁移学习，得到孪生神经网络，并利用训练集数据的有效动作提名片段和标准动作片段对所述孪生神经网络进行训练；

步骤6、利用训练好的所述孪生神经网络进行医疗行为规范性预测，具体的，将待评价的有效动作提名片段与相应类别的标准动作片段(标准动作片段可以为训练集中已有的数据)的双流特征作为孪生神经网络的输入，由此评价动作的规范性。

在所述步骤1中，所述双流特征向量包括空间流和时间流，所述空间流是由堆叠的RGB图像为输入得到的特征向量，所述时间流是由堆叠的光流图像为输入得到的特征向量。

在所述步骤2中，所述时序动作提名模块例如为残差空洞因果卷积模块(RCCM)，所述残差空洞因果卷积模块可包括空洞卷积层、层正则化(layer-norm)层、dropout层、ReLU层和映射层设定所述空洞卷积层的卷积步长为1，第i层神经元的感受野尺寸如式(1)所示：

式(1)中，F(i)表示第i层的感受野尺寸，F(i-1)表示第i-1层的感受野尺寸，k_i、d_i分别表示第i层的卷积核尺寸和第i层的卷积空洞率。设定所述映射层(顶层卷积层)的感受野大小为K，则t时刻的顶层神经元接受该t时刻前面的K个时刻的输入，对这K个时刻内的视频单元进行时序建模，构建短时记忆，所述映射层为1*1的卷积层，在所述映射层的卷积层内设置有Sigmoid激活函数，进行动作概率分数的分析，并输出3K维的向量，所述向量如式(2)所示。

式(2)中，

分别表示在t时刻由顶层神经元所预测的m时刻的动作开始、动作结束和动作正在进行的概率分数。

可选的，在对上述时序动作提名模块进行训练时，损失函数可以表示为：

L＝L_start+L_end+βL_action (3)

式(3)中，L_start、L_end、L_action分别表示动作开始、动作结束和动作正在进行的分数损失。β为平衡系数，用于动作开始、动作结束的分数损失与动作正在进行的分数损失之间的平衡。L_start、L_end、L_action可分别通过交叉熵函数获得。

所述步骤3包括以下子步骤：

步骤3-1、将所述步骤2得到概率分数调整为以当前时刻m时刻及其后面K个时刻的动作概率分数集动作开始、动作结束和动作正在进行的概率分数集S_m、E_m、A_m；

步骤3-2、对概率分数集S_m、E_m、A_m进行边界策略分析，得到动作边界时刻的概率分数集；其中，所述动作边界时刻包括动作开始时刻和动作结束时刻；

步骤3-3、对所述动作边界时刻的概率分数集进行组合，得到待选动作提名片段。

在所述步骤3-1中，以当前时刻m时刻及其后面K个时刻的动作概率分数集动作开始、动作结束和动作正在进行的概率分数集S_m、E_m、A_m，如式(4-1)～式(4-3)所示：

在所述步骤3-2中，所述边界策略分析包括投票策略和峰值策略；优选地，所述投票策略按如下方式进行：若S_m或E_m中有u个以上(u≥3，优选u＝5)的概率分数超过一分数阈值(例如0.5)，则m时刻为动作开始时刻或动作结束时刻；所述峰值策略按如下方式进行：若

或者

时，则m时刻为动作开始或动作结束的时刻。当m时刻满足投票决策和/或峰值决策时，收集对应的时刻m作为动作开始时刻或动作结束时刻，分别得到动作开始时刻的概率分数集C_S和动作结束时刻的概率分数集C_E；

在所述步骤3-3中，所述组合按如下方式进行：设C_S中的任意元素为m^l _s，C_E中的任意元素为m^j _e，若满足m^l _s＜m^j _e，则区间[m^l _s，m^j _e]为一个待选动作片段。优选的，多个所述待选动作提名片段的集合形成待选动作提名片段集ψp。

在所述步骤3中，对待选动作提名片段集ψp进行联合概率动作密度排序处理，如下式(5)所示：

式(5)中，

表示m_i时刻后面K个时刻的顶层神经元预测的m_i时刻的动作正在进行的概率分数的平均值；分式

表示动作密度指标，为待选动作提名片段的评价动作分数密度；

表示m_s时刻后面K个顶层神经元预测的m_s时刻的动作开始的概率分数的平均值；

表示m_e时刻后面K个时刻的顶层神经元预测m_e时刻为动作结束的概率分数的平均值，

和

的乘积表示当前待选动作提名片段拥有正确动作边界的置信度。由此可以得到联合概率动作密度指标d_c来为待选动作提名片段排序。

优选的，

如下式(6)所示：

式(6)中，

表示未来j时刻的顶层神经元预测m_i时刻为动作正在进行的概率分数，K表示顶层卷积层的感受野大小，以d_c为指标，该指标值越高，对应的动作提名片段的质量越高。

在联合概率动作密度排序之后，利用非极大值抑制(NMS)对时间有重复的动作片段进行处理，筛选出其中d_c值最大的片段，即有效动作提名片段，其中，设定非极大值抑制的阈值例如为0.8。

根据上述得到的时序动作提名片段，输入一神经网络进行动作分类。将时序动作提名的片段经过I3D提取双流特征，通过1个全连接层后输出，经过Softmax层后利用交叉熵损失函数监督训练，得到分类结果。

根据上述方法得到的时序动作的类别是时间起始位置，可通过孪生神经网络进行动作规范性判定。孪生网络具有两个输入x₁，x₂，分别为待评价片段和标准动作片段，通过同一个双流特征提取网络，将提取出来的融合的2048维特征向量经过两个全连接层得到编码后的向量f(x₁)，f(x₂)，计算两个输入经过网络编码后得到向量的距离，

d(x₁，x₂＝||f(x₁)-f(x₂)||² (7)

样本标记过程中，如果是不同类别的动作，相似度为0，相同类别的动作类别中，规范动作得分为1，不规范动作根据规范程度得分为0-1，据此进行训练。孪生网络的损失函数采用contrastive loss，如下式(8)所示：

式(8)中，D_W即为两个输入X₁、X₂在权重为W的神经网络的处理后的距离，由式(7)计算得到。m为一个阈值，判定当距离大于m时，即为不同类别的动作。

在所述步骤4中，获取训练集数据中的有效动作提名片段，包括：利用I3D网络提取训练集数据中的双流特征向量；将双流特征向量作为时序动作提名模块的输入，进行时序建模并进行动作概率评估；根据边界决策分析获取待选动作提名片段及其集ψp，并对ψp进行联合概率动作密度排序处理，得到训练集数据中的有效动作提名片段。

所述步骤5为预测前的训练过程，步骤6为实际预测过程，训练过程孪生神经网络的输入分别为由训练集数据提取的有效动作提名片段与相应类别的标准动作片段；预测过程孪生神经网络的输入分别为由包含待评价医疗行为的视频提取的有效动作提名片段与相应类别(举例来说，若待评价的医疗行为静脉注射动作，则相应类别也为静脉注射)的标准动作片段。

下面结合附图详细介绍本发明实施例。本实施例主要关注长时视频片段的时序动作提名与对应动作规范性的评价，即给定一段未裁剪的长视频，找出该长视频中所有目标行为的开始时刻和结束时刻，然后对该动作进行分类以及规范性评价。如图1所示，本实施例时序动作提名及动作规范性评价流程如下：

时序动作提名过程(涉及步骤1-3，训练过程和预测过程均需要进行时序动作提名，处理方式相同，只是处理对象不同，参见前文描述)：

步骤1、利用I3D网络提取视频的双流特征向量。所述双流特征向量包括空间流和时间流。所述空间流是由堆叠的RGB图像为输入得到的特征向量，所述时间流是由堆叠的光流图像为输入得到的特征向量。其中，所述空间流中堆叠的RGB图像包含了物体的外观信息，时间流中堆叠的光流图像包含了物体的运动信息。与目标检测中使用的静态图片不同，动态视频中的上下文语义编码信息对动作提名任务至关重要。在本发明中，采用双流I3D网络提取视频特征。其中，I3D以堆叠的RGB图像和堆叠的光流图像作为输入，输出对应的特征向量。该部分通过两个相互独立的网络融合了两个1024维的向量，输出为一个2048维的向量。作为后续时序动作提名、动作分类和动作规范性评价的输入。

步骤2、将双流特征向量输入至堆叠的残差空洞因果卷积模块(RCCM)中，进行时序建模并进行动作概率评估。如图2所示，所述残差空洞因果卷积模块均包括空洞卷积层、层正则化(Layer-norm)层、Dropout层、ReLU层和映射层。因果卷积的贡献是使用堆叠的空洞卷积实现使用更少的参数获得更大的感受野，成功地克服了RNN训练中的难以训练和梯度消失的难题。“因果”的意思是神经网络在t时刻的输出仅仅与t时刻前的某段输入有关。图2示出了因果卷积(右侧)和普通卷积(左侧)之间的关联。因果卷积在实现时，通过仅仅在输入的前端补0，让输入和输出的尺寸保持一致。通过这种方式，每一个时刻的输出仅仅与该时刻前的输入有关，可以用于时间推理。因此，因果卷积可用于时序建模和推理。本实施例在所述残差卷积模块(RCCM)中，设定卷积的步长为1，第i层神经元的感受野尺寸如式(1)所示：

式(1)中，F(i)表示第i层的感受野尺寸，F(i-1)表示第i-1层的感受野尺寸，k_i和d_i分别表示第i层的卷积核尺寸和第i层的卷积空洞率(d_i＝1表示没有空洞)。在本实施例中，将残差卷积模块中所有的卷积层的k都设为相同的值，同样，d也设为相同的值。每个空洞卷积层的k取值相同，每个空洞卷积层的d取值相同。这样，顶层神经元的感受野尺寸为F(n)＝F(0)+n(k-1)d。在卷积后，顶层神经元在时刻t的输出仅仅与输入层在[t-F(n)+1，t]区间内的F(n)的时刻有关。最后，通过1*1卷积构成的映射层，将输入经过变换后加到输出，构建残差连接。

如图3所示，设定顶层卷积层的感受野大小为K，则t时刻的顶层神经元接受该时刻前面的K个时刻的输入，并对这K个时刻内的视频单元进行时序建模，构建短时记忆。其中，当顶层感受野为K时，说明顶层只能看到过去K个输入，因此，顶层神经元分析过去K个时刻的输入。通过回顾这K个时刻的输入，t时刻的顶层神经元对过去K个时刻中每个时刻的动作状态进行分析，所述动作状态包括动作(starting)开始、动作结束(ending)或者动作正在进行(ongoing)。所述映射层为1*1的卷积层，在所述卷积层内设置有Sigmoid激活函数，进行动作概率分数的分析，并输出3K维的向量，所述向量如式(2)所示。

式(2)中，

分别表示t时刻的顶层神经元预测时刻m为动作开始、动作结束和动作正在进行的概率分数。对时序动作提名模块进行训练，损失函数可以表示为：

L＝L_start+L_end+βL_action (3)

式(3)中，L_start、L_end、L_action分别表示动作开始、动作结束和动作正在进行的分数损失。β为平衡系数，用于动作开始、动作结束的分数损失与动作正在进行的分数损失之间的平衡。L_start、L_end、L_action分别通过交叉熵函数获得，例如L_start可由式(3-1)得到：

式(3-1)中，i表示时刻，q_i(q_i∈{S_t})为残差空洞因果卷积模块输出的动作开始的概率分数，p_i为动作开始概率的标签，N_B为参与模型训练的视频单元。具体地，给定一个时刻i(一个时刻是包含δ帧的一个视频单元)，残差空洞因果卷积模块会输出一个该时刻作为动作开始的概率值q_i，利用数据集的标签能得到动作开始概率的真实值p_i。本实施例中采用交叉熵作为损失计算方法。

步骤3、根据边界决策分析获取待选动作提名片段及其集ψp。包括以下子步骤：

步骤3-1、将步骤2得到概率分数调整为以当前时刻m时刻及其后面K个时刻的动作概率分数集动作开始、动作结束和动作正在进行的概率分数集S_m、E_m、A_m；

步骤3-2、对概率分数集进行边界策略分析，得到动作边界时刻，所述动作边界时刻包括动作开始时刻和动作结束时刻；

步骤3-3、对动作边界对应的动作概率分数集进行组合，得到待选动作提名片段；

在步骤3-1中，以当前时刻m时刻及其后面K个时刻的动作概率分数集动作开始、动作结束和动作正在进行的概率分数集S_m、Em、Am，如式(4-1)～式(4-3)所示：

在步骤3-2中，所述边界策略分析包括投票策略和峰值策略；优选地，所述投票策略按照如下方式进行：若Sm或Em中有3个以上(优选5个以上)的概率分数超过了0.5，则m时刻为动作开始时刻或动作结束时刻；所述峰值策略按照如下方式进行：若

或者

时，则m时刻为动作开始或动作结束的时刻。其中，带有上横线表示该时刻的平均值。当m时刻满足投票决策和峰值决策中的一项时，收集对应的时刻m作为动作开始时刻或动作结束时刻，分别得到动作开始时刻的概率分数集C_S和动作结束时刻的概率分数集C_E。

本实施例通过投票策略综合考虑了未来时刻中能看到当前时刻的神经元的决策，这种方式避免了个别神经元误判带来的漏检。峰值策略额外关注了那些吸引神经元注意的局部极大值，这些时刻也可能是动作正在开始或结束的时刻。

在步骤3-3中，所述组合按照如下方式进行：设C_S中的任意元素为

C_E中的任意元素为

若满足

则区间

为一个待选动作片段。多个所述待选动作提名片段的集合形成待选动作提名片段的集ψp。

在步骤3中，所述联合概率动作密度排序按下式(5)处理：

式(5)中，

表示表示m_i时刻后面K个时刻的顶层神经元预测m_i时刻为动作正在进行的概率分数的平均值；上式右边的分式为动作密度指标，表示待选动作提名片段的评价动作分数密度；上式右边第一项表示m_s时刻后面K个顶层神经元预测m_s时刻为动作开始的概率分数的平均值，第二项表示m_e时刻后面K个时刻的顶层神经元预测m_e时刻为动作结束的概率分数的平均值，这两项的乘积代表了当前待选动作提名片段拥有正确动作边界的置信度。由此可以得到联合概率密度动作密度指标d_c来为待选动作提名片段排序，请参照图4所示。

在进一步优选的实施方式中，

如式(6)所示：

式(6)中，

在联合概率动作密度排序之后，利用非极大值抑制(NMS)对时间有重复的动作片段进行处理，筛选出其中d_c值最大的片段，即有效动作提名片段，设定非极大值抑制的阈值为0.8。

训练过程(涉及步骤4和步骤5)：

步骤4、根据时序动作提名的结果，将有效动作提名片段对应的视频片段的双流特征作为神经网络的输入，进行动作分类；该神经网络包括Batch Norm层，全连接层，采用Relu激活函数后再经过Softmax层，最后输出到包含N个神经元的输出层，利用交叉熵损失函数作为监督训练，得到分类结果，N为动作的总类别数量。

步骤5、将得到的网络用于迁移学习，在多种标准医疗行为的视频数据上进行训练，并分类作为标准动作片段。这些经过分类的标准动作片段即为评估动作规范性的依据。

预测过程(涉及步骤6)：

步骤6、利用上述方法得到的时序动作的类别和该动作发生的时间起始位置，可通过孪生神经网络进行动作规范性的评价。孪生网络的结构如图5所示，孪生网络具有两个输入x₁、x₂，分别为待评价片段和标准动作片段，通过同一个双流特征提取网络，将提取出来的融合的2048维特征向量经过两个全连接层得到编码后的向量f(x₁)，f(x₂)，计算两个输入经过网络编码后得到向量的距离，

d(x₁，x₂)＝||f(x₁)-f(x₂)||² (7)

下面详细介绍本发明实验例。

在本实验中，首先训练动作提名模块：此处应用了在UCF-101数据上训练的I3D模型，提取每16帧为一个视频单元，调节特征序列长度为100，使用Adam作为优化函数，学习率为1e-4，batch size设置为16，训练10个epoch。

再训练动作分类模块：使用Adam作为优化函数，学习率为1e-4，batchsize设置为32，训练20个epoch。

实验例效果评估

对ActivityNet数据集进行处理，输出动作区域集，与数据集中带标签的真实动作提名片段集进行对比分析，其中使用AR-AN曲线作为评价指标，评价指标分析方法说明：

AR-AN曲线：AR为平均召回率，AN为平均召回率-平均提名数目曲线；

计算AR-AN时，设定阈值从0.5变化到0.95，每次阈值变化0.05，分别计算每个阈值下的R-AN，然后对这些结果取均值，得到AR-AN曲线。如图6所示。

在医疗行为视频数据上迁移训练时，对每一个epoch，首先计算每一类的平均精度，然后计算所有类的均值即为mAP，得到mAP-Epoch曲线。如图7所示。

从图6～7中可以看出，(1)在AR-AN曲线中，AN＝100时的评价召回率为75％，说明动作提名片段与真实片段重叠率较高。(2)迁移训练时，模型收敛速度很快，在5个epoch时mAP可以达到99％，最终mAP可以达到99.8％，这个效果是显著的。

需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件的定义并不仪限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

当然，根据实际需要，本发明还可以包含其他的部分，由于同本发明的创新之处无关，此处不再赘述。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面发明的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

此外，在附图或说明书描述中，相似或相同的部分都使用相同的图号。说明书中示例的各个实施例中的技术特征在无冲突的前提下可以进行自由组合形成新的方案，另外每个权利要求可以单独作为一个实施例或者各个权利要求中的技术特征可以进行组合作为新的实施例，且在附图中，实施例的形状或是厚度可扩大，并以简化或是方便标示。再者，附图中未绘示或描述的元件或实现方式，为所属技术领域中普通技术人员所知的形式。另外，虽然本文可提供包含特定值的参数的示范，但应了解，参数无需确切等于相应的值，而是可在可接受的误差容限或设计约束内近似于相应的值。

除非存在技术障碍或矛盾，本发明的上述各种实施方式可以自由组合以形成另外的实施例，这些另外的实施例均在本发明的保护范围中。

虽然结合附图对本发明进行了说明，但是附图中公开的实施例旨在对本发明优选实施方式进行示例性说明，而不能理解为对本发明的一种限制。附图中的尺寸比例仅仅是示意性的，并不能理解为对本发明的限制。

虽然本发明总体构思的一些实施例已被显示和说明，本领域普通技术人员将理解，在不背离本总体发明构思的原则和精神的情况下，可对这些实施例做出改变，本发明的范围以权利要求和它们的等同物限定。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于智能视觉感知的医疗行为动作规范性评价方法，其特征在于，包括：

获取标准动作片段；

2.根据权利要求1所述的方法，其特征在于，在利用所述标准动作片段和所述有效动作提名片段通过训练好的孪生神经网络评价所述医疗行为动作规范性之前，还包括训练孪生神经网络；

其中，训练孪生神经网络，包括：

获取训练集数据中的有效动作提名片段；

3.根据权利要求1所述的方法，其特征在于，所述双流特征向量包括空间流和时间流，所述空间流是由堆叠的RGB图像为输入得到的特征向量，所述时间流是由堆叠的光流图像为输入得到的特征向量。

4.根据权利要求1所述的方法，其特征在于，利用所述双流特征向量通过残差空洞因果卷积模块进行动作概率分析，包括：将所述双流特征向量输入至堆叠的残差空洞因果卷积模块中进行时序建模，并进行动作概率分析，得到动作概率分数。

5.根据权利要求4所述的方法，其特征在于，若残差空洞因果卷积模块的顶层卷积层的感受野大小为K，则对于任一t时刻顶层神经元接收所述t时刻前面的K个时刻的输入，对所述K个时刻内的视频进行时序建模，构建短时记忆，在所述残差空洞因果卷积模块内设置Sigmoid激活函数，进行动作率分数的分析，并输出3K维的动作概率分数向量，由此得到动作概率分数，所述动作概率分数向量如下式所示：