CN110309786A

CN110309786A - 一种基于深度视频的哺乳母猪姿态转换识别方法

Info

Publication number: CN110309786A
Application number: CN201910596270.6A
Authority: CN
Inventors: 薛月菊; 杨晓帆; 郑婵; 陈畅新; 李诗梅; 甘海明
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2019-10-08
Anticipated expiration: 2039-07-03
Also published as: CN110309786B

Abstract

本发明公开了一种用于深度视频的哺乳母猪姿态转换识别方法，步骤为：深度视频质量增强；用改进的3D Mask R‑CNN算法检测、跟踪母猪并识别母猪姿态，选取每帧中概率最大的姿态类别，形成姿态序列；根据姿态序列的变化频率进行疑似转换片段粗定位，并利用前后帧各类姿态的概率方差细定位疑似转换片段的起始帧和结束帧；设计三阶段上下文深度运动特征图，以提取疑似转换片段的运动特征；将提取到的特征输入CNN模型进行转换/非转换片段识别，输出识别结果。本发明能在光线变化及夜间场景下，自动识别定位长段视频中的母猪姿态转换，为母猪的高危行为识别打下基础。

Description

一种基于深度视频的哺乳母猪姿态转换识别方法

技术领域

本发明涉及视频识别技术领域，特别涉及一种基于深度视频的哺乳母猪姿态转换识别方法。

背景技术

在养猪场集中饲养环境下，母猪的姿态转换是造成仔猪死亡的主要因素之一，姿态转换的频率和持续时间与其母性好坏密切相关。传统方法一般是采用人工远程观察视频统计、分析母猪的姿态转换行为，该种方法费时耗力，并且拥有强主观性。基于计算机视觉的母猪姿态转换行为的自动识别在克服以上人工远程观察缺点的同时，还可对其母性行为特质和规律提供基础研究信息，并防止仔猪踩压死亡，提高仔猪生存率，有利于提升我国生猪产业智能化决策水平。

传感器技术已被用于监测母猪姿态，如公开号为CN105850773A的专利公开了一种基于微惯性传感器的生猪姿态监测装置。公开号为CN106326919A的专利通过微惯性传感器MPU-6050，磁力计传感器HMC5833实时采集生猪的加速度、角速度和姿态角信息，采用BP神经网络对生猪的站、走、卧、躺行为进行分类。为克服母猪应激、传感器脱落或损坏等影响，计算机视觉开始用于获取母猪姿态信息。公开号为CN104881636A的专利用猪的二值图像和深度图像对猪的躺卧行为进行识别；公开号为CN108830144A的专利用改进的Faster R-CNN模型识别了深度图像中母猪的站立、坐立、俯卧、腹卧和侧卧姿态。但上述发明均限于基于静态图像的姿态识别。

而哺乳母猪姿态转换行为是从一个姿态变换到另一个姿态的行为，涉及到转换的前后姿态及转换过程。由于未充分利用行为的时间序列信息，已有的静态图像目标检测算法难以直接用于行为识别，需从视频帧序列中自动分析正在进行的姿态转换行为。公开号为CN109711389A的专利提出了基于Faster R-CNN和HMM的哺乳母猪姿态转换识别方法。该方法通过Faster R-CNN检测母猪并形成母猪的姿态类别序列，然后以滑动窗口中姿态变化的频次定位疑似转换片段，继而提取疑似转换片段中母猪不同部分的高度序列，由HMM识别姿态转换。但该方法缺点在于：(1)母猪检测时未利用视频帧间时序信息，影响了母猪定位和姿态分类精度；(2)基于滑动窗口的方法导致疑似转换片段的时间定位精度不高；(3)在疑似转换片段中，仅提取了高度序列特征，未充分利用姿态转换的上下文信息以及母猪的外形特征，降低了转换与非转换片段的分类精度。可见，基于计算机视觉识别猪的姿态转换行为仍面临极大的挑战。

因此，提供一种适用于全天候未剪切视频的母猪姿态转换行为识别的方法是本领域技术人员亟待解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度视频的哺乳母猪姿态转换识别方法，能够充分利用行为的时间序列信息，克服自由栏场景下，母猪姿态转换行为过程中姿态的不确定性和身体的形变，及仔猪运动的影响，准确识别出母猪的姿态转换。为实现上述目的其具体方案如下：

本发明公开了一种用于深度视频的哺乳母猪姿态转换识别方法，包括如下步骤：

S1、采集母猪的深度视频，并建立母猪姿态转换识别视频库；

S2、建立改进的3D Mask R-CNN母猪检测、跟踪及姿态识别模型；

S3、用改进的3D Mask R-CNN对深度视频中的母猪进行检测、跟踪并识别母猪姿态。选取每帧中概率最大的姿态类别，形成母猪姿态序列，用姿态类别波动频次粗定位母猪姿态序列中的疑似转换片段，根据前后帧各类姿态的概率方差细定位疑似转换片段的起始帧和结束帧；

S4、在疑似转换片段中，设计三阶段上下文深度运动特征图3C-DMM(three-stagecontext depth motion map)，以提取疑似转换片段的运动特征；

S5、将提取到的3C-DMM特征输入CNN姿态转换识别模型进行转换/非转换片段识别，获得识别结果。

3D Mask R-CNN利用卷积、池化提取视频帧的时空特征，较好地克服了自由栏场景下，母猪姿态转换行为过程中姿态的不确定性和身体的形变，及仔猪对哺乳母猪姿态转换行为识别的影响。本发明通过改进的3D Mask R-CNN对母猪检测、跟踪并识别姿态，在此基础上，设计3C-DMM特征图，以提取疑似转换片段的运动特征，由CNN模型识别姿态转换。

优选的，所述步骤S1的具体过程如下：

S11、数据采集：实时采集获取俯视母猪深度视频；

S12、构建数据库：剔除母猪身体缺失、相机抖动的视频段，构建训练集、验证集和测试集；

S13、采用中值滤波对深度视频逐帧预处理，再通过限制对比度自适应直方图均衡化的方法提高视频帧对比度；

S14、构建改进的3D Mask R-CNN模型的训练集、验证集和测试集，对改进的3DMask R-CNN模型的训练集、验证集和测试集数据进行手工标注，即标注出母猪在视频帧中的边界框和姿态类别(对于母猪处于姿态转换的视频，仅标注边界框)；

S15、构建CNN姿态转换识别模型的训练集、验证集和测试集，对CNN姿态转换识别模型的训练集、验证集和测试集数据进行手工标注，即标注出母猪在视频中发生的转换/非转换行为。

优选的，所述步骤S2包括训练改进的3D Mask R-CNN模型，具体过程如下：

S21、选择ResNet-18作为基础网络，通过Detectron框架进行模型训练；

S22、在RoIAlign阶段后，除了已有的3D Classification Head之外，新添加一个头部2D Classification Head，其中3D Classification Head用于检测与跟踪母猪，新增的2D Classification Head用于识别母猪姿态。

其中，RoIAlign阶段会从L(本发明取L＝3)个时间切片的特征图中对每个时间切片提取感兴趣区域，再将感兴趣区域在时间维度上进行串联形成大小为L×R×R的特征图，R为RoIAlign输出的分辨率，本发明取R＝7。3D Classification Head由一个3D ResNet块组成，输入大小为L×R×R，2D Classification Head由一个2D ResNet块组成，输入大小为1×R×R，与RoIAlign阶段输出的特征图维度不一致，本发明通过抽取特征图的中间切片作为输入解决该问题。

S23、基础网络的参数采用center初始化；

其中，改进的3D Mask R-CNN的卷积核均为3D，而预训练模型的卷积核均为2D，维度不一致，因此在初始化时用2D卷积核的权值初始化3D卷积核的中间切片，其余切片的权值均设置为0。

S24、根据深度视频中母猪的尺寸，将锚点面积设置为962、1282和1602，长宽比设置为1:1、1:3和3:1；

S25、模型训练分两个阶段：第一阶段设置Track cls输出类别数为2，包括母猪和背景，对基础网络、TPN、3D Classification Head三个参数进行微调，2D ClassificationHead部分参数固定不变；第二阶段剔除了改进的3DMask R-CNN训练集和验证集中母猪发生姿态转换的片段，设置Pose cls输出类别数为5，包括背景、站立、坐立、趴卧和侧卧，仅对2DClassification Head参数进行微调，其余部分参数固定不变；其中，对参数进行微调的方法采用随机梯度下降法和反向传播算法。

其中，第一阶段微调参数过程前9000次迭代学习率为0.001，第9000-11000次迭代学习率为0.0001，后1000次迭代学习率为0.00001；第二阶段微调参数过程前3000次学习率为0.001，后续每迭代1000次学习率减少10倍。冲量为0.9，权值的衰减系数为5×10^-4，mini-batch为256。

优选的，所述步骤S3的具体过程如下：

S31、用改进的3D Mask R-CNN对深度视频中的母猪进行检测与跟踪并识别母猪姿态，输出每帧母猪的检测框及4类姿态概率，其中检测框由3D Classification Head的reg层输出，4类姿态概率由2D Classification Head的pose cls层输出；此处4类姿态指的是站立、坐立、趴卧和侧卧姿态；

S32、选取每帧中概率最大的姿态类别，形成姿态序列。以长度为5帧、步长为1帧的中值滤波对姿态序列进行修正。根据姿态序列的变化频率粗定位疑似转换片段，本发明采用滑动窗口的方式(窗口长度为20帧，步长为1帧)计算每个窗口内姿态序列的变化次数，选取变化次数大于等于3的片段作为疑似转换片段，其余片段作为单一姿态片段；

S33、细定位疑似转换片段的起始帧和结束帧。根据公式(1)计算疑似转换片段内每一帧与前后两帧的概率方差，其中P_t表示第t帧4类姿态的概率，sum(x)表示对矩阵x所有元素相加求和。设t_first为疑似转换片段内首次概率方差V_t大于0.1的视频帧，t_last为疑似转换片段内最后一次概率方差V_t大于0.1的视频帧，在t_first、t_last的基础上再向外扩张N帧，用于获取转换前后的上下文信息，则细定位后的疑似转换片段起始帧和结束帧分别为t_first-N和t_last+N，形成疑似转换片段；

优选的，所述步骤S4的具体过程如下：

S41、在疑似转换片段中，用改进的3D Mask R-CNN输出结果提取母猪检测与跟踪的外接矩形框；

S42、设计3C-DMM特征图，提取疑似转换片段外接矩形内的运动特征，具体过程如下：

S421、初始化三张特征图，用于存储疑似转换片段3C-DMM特征，特征图大小与外接矩形相同，特征图中所有元素均初始化为0。

S422、根据公式(2)-(7)，计算疑似转换片段外接矩形内的3C-DMM特征。其中T为疑似转换片段长度，I_t为疑似转换片段中第t帧外接矩形内的灰度，公式(2)-(4)为3C-DMM特征的计算公式，公式(5)-(7)为系数W_r(t)、W_g(t)、W_b(t)的计算公式。

优选的，所述步骤S5的具体过程如下：

S51、训练CNN姿态转换识别模型，具体过程如下：

S511、对CNN姿态转换识别模型的训练集、验证集和测试集提取3C-DMM特征，其中，分别对训练集、验证集做顺时针90°、180°和270°旋转以及水平、垂直镜像扩增，对测试集不扩增；

S512、选择CaffeNet作为网络结构，设置模型最终输出类别为9(非转换、站立转坐立、站立转卧、坐立转卧、卧转站立、卧转坐立、坐立转站立、趴卧转侧卧、侧卧转趴卧)，通过Detectron框架进行模型训练；

S513、采用随机梯度下降法和反向传播算法微调参数，对网络层采用高斯分布初始化。

其中，微调参数过程选择最大迭代次数为104，初始学习率为0.005，每迭代2000次学习率减少2倍，冲量为0.9，权值的衰减系数为5×10^-4，mini-batch为512，对网络层采用均值为0，标准差为0.1的高斯分布初始化。

S52、将步骤S422提取到的特征输入至CNN姿态转换识别模型，输出9个类别(非转换、站立转坐立、站立转卧、坐立转卧、卧转站立、卧转坐立、坐立转站立、趴卧转侧卧、侧卧转趴卧)的概率；

S53、根据输出结果中概率最大的类别对疑似转换片段分类，合并非转换片段(类别为非转换的疑似转换片段)和单一姿态片段，输出最终结果。

优选的，所述最终预测结果是各种姿态及姿态转换的起始帧和结束帧。

优选的，所述训练集是指用来训练改进的3D Mask R-CNN和CNN姿态转换识别模型的数据集；所述验证集是指在训练过程中，用来优化网络结构参数和模型参数的数据集，选择最优模型；所述测试集是指用来测试模型性能，并进行性能评价。

优选的，所述单一姿态片段是指母猪保持同一姿态的片段，所述疑似转换片段是指母猪可能发生姿态转换的片段，疑似转换片段进一步分为非转换、站立转坐立、站立转卧、坐立转卧、卧转站立、卧转坐立、坐立转站立、趴卧转侧卧和侧卧转趴卧共9个类别。

优选的，所述单一姿态包括：站立、坐、趴卧和侧卧。所述姿态转换包括：站立转坐立，站立转卧，坐立转卧，卧转站立，卧转坐立，坐立转站立，趴卧转侧卧和侧卧转趴卧。

优选的，改进的3D Mask R-CNN训练集和验证集的视频长度为60-120帧，仅用于训练模型检测、跟踪母猪并识别母猪姿态。在实际中，改进的3D Mask R-CNN可应用于任意长度的视频段。

与现有技术相比，本发明技术方案的有益效果是：

(1)本发明建立一个哺乳母猪姿态转换识别视频库，该数据库包含了猪舍场景下，母猪日常生活中的各种行为姿态俯视视频，所有视频的拍摄高度、背景、尺度等方面都各有差异，该数据库为以后的母猪行为分析、算法设计等提供数据支持；

(2)本发明基于3D Mask R-CNN和CNN，采用部分母猪视频训练改进的3D Mask R-CNN模型和CNN姿态转换识别模型，采用部分母猪视频作为验证集，提高模型的泛化性能，解决了在复杂环境下，如光线、小猪运动、猪体尺寸不同等因素下，母猪姿态转换识别难的问题；

(3)本发明在改进3D Mask R-CNN模型的基础上，通过融合3C-DMM、CNN模型等算法，实现深度视频中哺乳母猪姿态转换的自动识别，为后续分析母猪母性行为特质和规律提供基础研究信息；

(4)该发明适用于全天候的母猪监控，可为母猪行为自动化检测识别等研究打下基础。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种用于深度视频的哺乳母猪姿态转换识别方法的流程图；

图2为公式(5)-(7)中W_r(t)、W_g(t)、W_b(t)的变化曲线；

图3附图为本发明改进的3D Mask R-CNN模型的结构示意图；

图4附图为本发明CNN姿态转换识别模型的网络结构图；

图5附图为本发明疑似转换片段细定位示意图；

图6附图为本发明在不同交并比阈值下的成功率(success rate)；

图7附图为本发明分段结果与人工分段在部分片段上的对比示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为克服自由栏场景下，母猪姿态转换行为过程中姿态的不确定性和身体的形变，及仔猪对哺乳母猪姿态转换行为识别的影响，本发明利用目标检测-跟踪-行为分析的方法研究母猪姿态转换行为识别。以深度视频为母猪姿态转换识别的数据源，采用改进的3DMask R-CNN检测、跟踪并识别母猪姿态，设计三阶段上下文深度运动特征图对母猪可能发生姿态转换的片段进行特征提取，最后将特征输入CNN模型进行转换/非转换片段识别。试验验证了本文方法能适用于全天候未剪切视频的母猪姿态转换行为识别，可为母猪行为自动化检测识别等研究打下基础。

参见图1为本发明的流程图，该方法在Ubuntu16.04操作系统下，基于NvidiaTesla K80的GPU硬件平台上搭建Detectron深度学习框架，进行改进的3D Mask R-CNN和CNN模型的训练和测试，并在Matlab下完成母猪姿态转换的自动识别。

具体实现为：

步骤一、采集母猪的深度视频，并建立母猪姿态转换识别视频数据库；

步骤二、建立改进的3D Mask R-CNN母猪检测、跟踪及姿态识别模型；

步骤三、用改进的3D Mask R-CNN对深度视频中的母猪进行检测、跟踪并识别母猪姿态。选取每帧中概率最大的姿态类别，形成母猪姿态序列，用姿态类别波动频次粗定位母猪姿态序列中的疑似转换片段，根据前后帧各类姿态的概率方差细定位疑似转换片段的起始帧和结束帧；

步骤四、在疑似转换片段中，设计三阶段上下文深度运动特征图(3C-DMM，three-stage context depth motion map)，以提取疑似转换片段的运动特征；

步骤五、将提取到的3C-DMM特征输入CNN姿态转换识别模型进行转换/非转换片段识别，合并单一姿态片段和非转换片段，获得识别结果。

表1 3D Mask R-CNN和CNN模型训练集、验证集和测试集的构建

所述步骤一，采集母猪的深度视频，并建立母猪姿态转换识别视频库，具体包括：

1)将摄像机固定到实地猪栏正上方，调整至适宜高度(230-250cm)，以获取完整的猪栏区域。用USB连接至电脑视频获取系统，实时获取俯视母猪视频，并保存至本地硬盘，共采集123段母猪俯视深度视频，视频分辨率为512×424像素。随机挑选45段视频构建数据库训练集，38段视频构建数据库验证集，剩余40段视频构建数据库测试集。

2)构建改进的3D Mask R-CNN训练集、验证集和测试集，详见表1。对训练集、验证集和测试集数据进行手工标注，即标注出母猪在视频帧中的边界框和姿态类别(对于母猪处于姿态转换的视频，仅标注边界框)。

3)构建CNN姿态转换识别模型的训练集、验证集和测试集，详见表1。对训练集、验证集和测试集数据进行手工标注，即标注出母猪在视频中发生的转换/非转换行为。

4)采用中值滤波的方法对视频逐帧进行预处理，窗口大小为5×5，再通过限制对比度自适应直方图均衡化的方法提高视频帧对比度，其中结构元大小设置为16×16，截断系数取0.01。

所述步骤二，建立改进的3D Mask R-CNN母猪检测、跟踪及姿态识别模型，具体包括：

1)改进的3D Mask R-CNN模型的训练基于Detectron框架，选择ResNet-18作为基础网络，在RoIAlign阶段后，除了已有的3D Classification Head之外，新添加一个头部2DClassification Head，其中3D Classification Head用于检测、跟踪母猪，新增的2DClassification Head用于识别母猪姿态，图3为改进的3D Mask R-CNN模型的结构示意图，其中Reg loss用于训练跟踪框回归，Track cls loss用于训练母猪和背景的分类，Posecls loss用于训练四类姿态与背景的分类。考虑到RoIAlign阶段会从L(本发明取L＝3)个时间切片的特征图中对每个时间切片提取感兴趣区域，再将感兴趣区域在时间维度上进行串联形成大小为L×R×R的特征图，R为RoIAlign输出的分辨率，本发明取R＝7。3DClassification Head由一个3D ResNet块组成，输入大小为L×R×R，2D ClassificationHead由一个2D ResNet块组成，输入大小为1×R×R，与RoIAlign阶段输出的特征图维度不一致，本发明通过抽取特征图的中间切片作为输入解决该问题。

2)模型训练分两个阶段，第一阶段设置迭代次数12000，Track cls输出类别数为2(母猪和背景)，对基础网络、TPN、3D Classification Head三个部分微调参数，2DClassification Head部分参数固定不变；微调参数过程前9000次迭代学习率为0.001，第9000-11000次迭代学习率为0.0001，后1000次迭代学习率为0.00001。第二阶段剔除了训练集和验证集中母猪发生姿态转换的片段(训练集剩余60段，验证集剩余40段，第一阶段无剔除操作)，设置迭代次数5000，Pose cls输出类别数为5(背景、站立、坐立、趴卧和侧卧)，仅对2D Classification Head部分微调参数，其余部分参数固定不变；微调参数过程前3000次学习率为0.001，后续每迭代1000次学习率减少10倍。两个阶段均设置冲量为0.9，权值的衰减系数为5×10^-4，mini-batch为256。基础网络的参数采用center初始化，即用预训练模型初始化3D卷积核的中间切片，其余切片的权值均设置为0。根据深度视频中母猪的尺寸，将锚点面积设置为96²、128²和160²，长宽比设置为1:1、1:3和3:1。当检测框与人工标注框交并比超过阈值0.7并且类别一致，则认为检测结果正确。

所述步骤三，用改进的3D Mask R-CNN对深度视频中的母猪进行检测、跟踪并识别母猪姿态，选取每帧中概率最大的姿态类别，形成母猪姿态序列，用姿态类别波动频次粗定位母猪姿态序列中的疑似转换片段，根据前后帧各类姿态的概率方差细定位疑似转换片段的起始帧和结束帧，具体包括：

1)将深度视频输入至训练好的改进3D Mask R-CNN模型进行检测，输出每帧母猪的检测框及4类姿态概率，其中检测框由3D Classification Head的reg层输出，4类姿态概率由2D Classification Head的pose cls层输出。在对深度视频逐帧进行3D Mask R-CNN检测时，每连续三张图像产生2000个候选管道并行输入至3D Classification Head和2DClassification Head，仅保留Track cls层输出母猪概率最高的管道，并计算该管道中间切片对应四类姿态的概率(即Pose cls层输出的概率)。

2)选取每帧中概率最大的姿态类别，形成姿态序列。以长度为5帧、步长为1帧的中值滤波对姿态序列进行修正。采用滑动窗口的方法(窗口长度为20帧，步长为1帧)计算每个窗口内姿态序列的变化次数，选取变化次数大于等于3的片段作为疑似转换片段，其余片段作为单一姿态片段。

3)细定位疑似转换片段的起始帧和结束帧。根据公式(1)计算疑似转换片段内每一帧与前后两帧的概率方差，其中P_t表示第t帧4类姿态的概率，sum(x)表示对矩阵x所有元素相加求和。设t_first为疑似转换片段内首次概率方差V_t大于0.1的视频帧，t_last为疑似转换片段内最后一次概率方差V_t大于0.1的视频帧，在t_first、t_last的基础上再向外扩张10帧，用于获取转换前后的上下文信息，则细定位后的疑似转换片段起始帧和结束帧分别为t_first-10和t_last+10，形成疑似转换片段，见图5。图中红线中间部分为人工标注的转换片段，蓝色中间部分为粗定位结果，绿色中间部分为细定位结果，可见细定位后的结果与人工标注更为接近；

所述步骤四，根据改进的3D Mask R-CNN的检测、跟踪结果，设计3C-DMM特征图，提取疑似转换片段外接矩形内的运动特征，具体包括：

1)在疑似转换片段中，用改进的3D Mask R-CNN输出结果提取母猪检测与跟踪的外接矩形框。即统计疑似转换片段所有跟踪框的最大横坐标X_max、最小横坐标X_min、最大纵坐标Y_max、最小纵坐标Y_min，则外接矩形的左上角的坐标和右下角的坐标分别为(X_min，Y_min)和(X_max，Y_max)。

2)设计3C-DMM特征图，提取疑似转换片段外接矩形内的运动特征。首先初始化三张特征图，用于存储疑似转换片段3C-DMM特征。特征图大小与外接矩形相同，特征图中所有元素均初始化为0。根据公式(2)-(7)，计算疑似转换片段外接矩形内的3C-DMM特征，其中T为疑似转换片段长度，I_t为疑似转换片段中第t帧外接矩形内的灰度，公式(2)-(4)为3C-DMM特征的计算公式，公式(5)-(7)为系数W_r(t)、W_g(t)、W_b(t)的计算公式。图2为公式(5)-(7)中W_r(t)、W_g(t)、W_b(t)的变化曲线。

所述步骤五，将提取到的特征输入CNN姿态转换识别模型进行识别，合并单一姿态片段和非转换片段，获得识别结果，具体包括：

1)训练CNN姿态转换识别模型，对步骤一所建立的CNN姿态转换识别模型训练集、验证集和测试集提取3C-DMM特征，分别对训练集、验证集做顺时针90°、180°和270°旋转以及水平、垂直镜像扩增，对测试集不扩增；选择CaffeNet作为网络结构，设置模型最终输出类别为9(非转换、站立转坐立、站立转卧、坐立转卧、卧转站立、卧转坐立、坐立转站立、趴卧转侧卧、侧卧转趴卧)，通过Detectron框架对提取的CNN姿态转换识别模型训练集、验证集和测试集的3C-DMM特征进行模型训练；对网络层参数采用高斯分布初始化，通过随机梯度下降法和反向传播算法微调参数。微调参数过程选择最大迭代次数为10⁴，初始学习率为0.005，每迭代2000次学习率减少2倍，冲量为0.9，权值的衰减系数为5×10^-4，mini-batch为512，对网络层采用均值为0，标准差为0.1的高斯分布初始化。图4为CaffeNet的网络结构图，图像输入大小为227×227，经过卷积、池化、全连接等操作后，最终输出长度为9的向量，对应本发明设置的9个类别。

2)将步骤四提取到的特征输入至CNN姿态转换识别模型，输出9个类别(非转换、站立转坐立、站立转卧、坐立转卧、卧转站立、卧转坐立、坐立转站立、趴卧转侧卧、侧卧转趴卧)的概率；

3)根据输出结果中概率最大的类别对疑似转换片段分类，将非转换片段(类别为非转换的疑似转换片段)标记为单一姿态片段，与其他单一姿态片段合并。

4)对于合并后的单一姿态片段类别，根据其姿态序列中占比最大的姿态进行分类，即统计每种姿态在姿态序列中出现的次数，选择出现次数最多的姿态作为该段单一姿态片段的类别，输出最终结果。

单一姿态包括：站立、坐立、趴卧和侧卧；姿态转换包括：站立转坐立、站立转卧、坐立转卧、卧转站立、卧转坐立、坐立转站立、趴卧转侧卧和侧卧转趴卧，定义如表所示。

表2哺乳母猪姿态及姿态转换介绍

下面详细说明本发明的实验结果：

为验证本发明对母猪目标跟踪、姿态和姿态转换分类的准确性，本发明分别统计了改进的3D Mask R-CNN模型的成功定位率(Success Plot)、四类姿态的mAP和CNN姿态转换识别模型的分类准确率。各指标具体定义如公式(8)-(11)所示，式中n_IoU＞α表示检测框与人工标注框交并比大于α的视频帧，∑t为测试集总帧数，P_q(r)为分类器对类别q的precision-recall函数，Q为类别数,n_ij表示人工判别为i类而模型识别为j类的片段数，Sum(SCS)为疑似转换片段总段数。

accuracy_CNN＝∑_in_ii/Sum(SCS) (11)

图6是不同交并比阈值下的成功率，当α＝0.7时为97.46，当α＝0.8时为95.83，成功定位率为0.9434，而公开号为CN109711389A的专利在α＝0.7时成功率为97.40，在α＝0.8时为94.83％，成功定位率为0.9351，可见本发明的定位精度更高。表明该算法对母猪目标具有较强的跟踪能力。改进的3DMask R-CNN模型对四类姿态的mAP为0.9264，识别精度较高。对于测试集的所有姿态转换片段(共97段，由人工挑选)，CNN姿态转换识别模型能正确分类其中90段，准确率为92.78％。表为CNN姿态转换识别模型对测试集所有姿态转换片段的分类混淆矩阵，其中NONE表示无转换。

本发明主要采用召回率和准确率评价算法最终结果，各指标具体定义如公式(12)、(13)所示，式中s_{R@1，tIoU＞β}表示算法分段与人工分段中，类别一致且交并比大于β的姿态转换片段，∑s_G表示测试集中的所有姿态转换片段，∑s_R为算法识别的姿态转换片段，β的取值范围均为[0，1]，本文选择β＝0.5作为阈值。

accuracy＝∑s_{R@1，tIoU＞β}/∑s_R (12)

recall＝∑s_{R@1，tIoU＞β}/∑s_G (13)

采用上述指标对测试集(40段未剪切长视频)的分段效果进行计算。表为本发明的姿态转换识别混淆矩阵，其中ST2SI表示站立转坐立，ST2LY表示站立转卧，SI2LY表示坐立转，LY2ST表示卧转站立，SI2ST表示坐立转站立，VL2LL表示趴卧转侧卧，LL2VL表示侧卧转趴卧。测试集中共出现97次转换，本发明共识别出95次转换，其中有88个姿态转换片段分类正确且tIoU大于0.5，经计算，可得本发明的准确率为92.6％，召回率为90.7％，与公开号为CN109711389A的专利相比召回率提升了2.86个百分点。本发明能有效识别母猪的8类姿态转换，而公开号为CN109711389A的专利仅将母猪的姿态转换分为4类，与之相比类别数更多，分类更为细致。

表3 CNN姿态转换识别模型混淆矩阵

表4本发明在测试集的姿态转换识别混淆矩阵(tIoU>0.5)

以上对本发明所提供的一种基于深度视频的哺乳母猪姿态转换识别方法及自动化标定方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种根据权利要求1所述的一种基于深度视频的哺乳母猪姿态转换识别方法，其特征在于，包括如下步骤：

S2、建立改进的3D Mask R-CNN母猪检测、跟踪及姿态识别模型；

S3、用改进的3D Mask R-CNN对深度视频中的母猪进行检测、跟踪并识别母猪姿态；选取每帧中概率最大的姿态类别，形成母猪姿态序列，用姿态类别波动频次粗定位母猪姿态序列中的疑似转换片段，根据前后帧各类姿态的概率方差细定位疑似转换片段的起始帧和结束帧；

S4、在疑似转换片段中，设计三阶段上下文深度运动特征图3C-DMM，以提取疑似转换片段的运动特征；

S5、将提取到的3C-DMM特征输入CNN姿态转换识别模型进行转换片段/非转换片段识别，获得识别结果。

2.根据权利要求1所述的一种基于深度视频的哺乳母猪姿态转换识别方法的自动化标定方法，其特征在于，所述步骤S1的具体过程如下：

S11、实时采集获取俯视母猪深度视频；

S12、剔除母猪身体缺失、相机抖动的视频段，构建训练集、验证集和测试集；

S14、构建改进的3D Mask R-CNN训练集、验证集和测试集，对改进的3D Mask R-CNN训练集、验证集和测试集数据进行手工标注，即标注出母猪在视频帧中的边界框和姿态类别，对于母猪处于姿态转换的视频，仅标注边界框；

S15、构建CNN姿态转换识别模型的训练集、验证集和测试集，对CNN姿态转换识别模型的训练集、验证集和测试集数据进行手工标注，即标注出母猪在视频中发生的转换行为/非转换行为。

3.根据权利要求1所述的一种基于深度视频的哺乳母猪姿态转换识别方法的自动化标定方法，其特征在于，所述步骤S2包括训练改进的3D Mask R-CNN模型，具体过程如下：

S22、在RoIAlign阶段后，除了已有的3D Classification Head之外，新添加一个头部2D Classification Head，其中3D Classification Head用于检测与跟踪母猪，新增的2DClassification Head用于识别母猪姿态；

S23、基础网络的参数采用center初始化；

S24、根据深度视频中母猪的尺寸，设置锚点面积和长宽比；

S25、模型训练分两个阶段：第一阶段设置Track cls输出类别数为2，包括母猪和背景，对基础网络、TPN、3D Classification Head三个参数进行微调，2D Classification Head部分参数固定不变；第二阶段剔除了改进的3D Mask R-CNN训练集和验证集中母猪发生姿态转换的片段，设置Pose cls输出类别数为5，包括背景、站立、坐立、趴卧和侧卧，仅对2DClassification Head参数进行微调，其余部分参数固定不变；其中，对参数进行微调的方法采用随机梯度下降法和反向传播算法。

4.根据权利要求1所述的一种基于深度视频的哺乳母猪姿态转换识别方法的自动化标定方法，其特征在于，所述步骤S3的具体过程如下：

S31、用改进的3D Mask R-CNN对深度视频中的母猪进行检测与跟踪并识别母猪姿态，输出每帧母猪的检测框及4类姿态概率，其中检测框由3D Classification Head的reg层输出，4类姿态概率由2D Classification Head的pose cls层输出；

S32、选取每帧中概率最大的姿态类别，形成母猪姿态序列，采用中值滤波对姿态序列进行修正；采用滑动窗口的方式计算每个窗口内姿态序列的变化次数，根据姿态类别的变化频率粗定位疑似转换片段，选取变化次数大于或等于3的片段作为疑似转换片段，其余片段作为单一姿态片段；

S33、细定位疑似转换片段的起始帧和结束帧，根据公式(1)计算疑似转换片段内每一帧与前后两帧的概率方差，

其中，P_t表示第t帧4类姿态的概率，sum(x)表示对矩阵x所有元素相加求和；设t_first为疑似转换片段内首次概率方差V_t大于0.1的视频帧，t_last为疑似转换片段内最后一次概率方差V_t大于0.1的视频帧；在t_first、t_last的基础上再向外扩张N帧，用于获取转换前后的上下文信息，则细定位后的疑似转换片段起始帧和结束帧分别为t_first-N和t_last+N，形成疑似转换片段。

5.根据权利要求1所述的一种用于深度视频的哺乳母猪姿态转换识别方法，其特征在于，所述步骤S4的具体过程如下：

S42、设计3C-DMM特征图，提取疑似转换片段外接矩形框内的运动特征，具体过程如下：

S421、初始化三张特征图，用于存储疑似转换片段3C-DMM特征，特征图大小与外接矩形框相同，特征图中所有元素均初始化为0：

S422、根据公式(2)-(7)，计算疑似转换片段外接矩形框内的3C-DMM特征，

其中，T为疑似转换片段长度，I_ｔ为疑似转换片段中第t帧外接矩形内的灰度，公式(2)-(4)为3C-DMM特征的计算公式，公式(5)-(7)为系数W_r(t)、W_g(t)、W_b(t)的计算公式。

6.根据权利要求1所述的一种用于深度视频的哺乳母猪姿态转换识别方法，其特征在于，所述步骤S5的具体过程如下：

S51、训练CNN姿态转换识别模型，具体过程如下：

S512、选择CaffeNet作为网络结构，设置模型最终输出类别为9，包括非转换、站立转坐立、站立转卧、坐立转卧、卧转站立、卧转坐立、坐立转站立、趴卧转侧卧、侧卧转趴卧，通过Detectron框架进行模型训练；

S513、采用随机梯度下降法和反向传播算法微调参数，对网络层采用高斯分布初始化；

S52、将3C-DMM特征输入至CNN姿态转换识别模型，输出所述9个类别的概率；

S53、根据输出结果中概率最大的类别对疑似转换片段分类，合并非转换片段和单一姿态片段，输出最终结果。

7.根据权利要求6所述的一种用于深度视频的哺乳母猪姿态转换识别方法，其特征在于，所述最终预测结果是各种姿态及姿态转换的起始帧和结束帧。

8.根据权利要求2所述的一种用于深度视频的哺乳母猪姿态转换识别方法，其特征在于，所述训练集是指用来训练改进的3D Mask R-CNN和CNN模型的数据集；所述验证集是指在训练过程中，用来优化网络结构参数和模型参数的数据集，选择最优模型；所述测试集是指用来测试模型性能，并进行性能评价。

9.根据权利要求1所述的一种用于深度视频的哺乳母猪姿态转换识别方法，其特征在于，所述单一姿态片段是指母猪保持同一姿态的片段，所述疑似转换片段是指母猪可能发生姿态转换的片段，疑似转换片段进一步分为非转换、站立转坐立、站立转卧、坐立转卧、卧转站立、卧转坐立、坐立转站立、趴卧转侧卧和侧卧转趴卧共9个类别。

10.根据权利要求1所述的一种用于深度视频的哺乳母猪姿态转换识别方法，其特征在于，所述单一姿态包括：站立、坐立、趴卧和侧卧。所述姿态转换包括：站立转坐立，站立转卧，坐立转卧，卧转站立，卧转坐立，坐立转站立，趴卧转侧卧和侧卧转趴卧。