CN111046808A

CN111046808A - 采用残差卷积神经网络和长短期记忆分类群养猪饮水和玩耍饮水器的分析方法

Info

Publication number: CN111046808A
Application number: CN201911290959.2A
Authority: CN
Inventors: 朱伟兴; 陈晨; 李新城
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-04-21
Anticipated expiration: 2039-12-13
Also published as: CN111046808B

Abstract

本发明公开了一种采用残差卷积神经网络和长短期记忆分类群养猪饮水和玩耍饮水器的分析方法。从俯视群养猪视频中挑选饮水片段和玩耍饮水器片段并保持数据平衡；接着采用残差卷积神经网络提取这些片段中每一帧的空间特征；然后采用长短期记忆将这些空间特征转化成时空特征；最后采用全连接层和Softmax函数分类时空特征从而分类饮水和玩耍饮水器；统计所检测饮水和玩耍饮水器的持续时间和发生频率作为猪健康和福利的评价指标。该项研究是基于残差卷积神经网络和长短期记忆对群养猪进行饮水和玩耍饮水器分类，为传统的人工观测群养猪饮水和玩耍饮水器行为提供了参考，所统计的饮水和玩耍饮水器的时间和频率数据有助于农场主对猪健康和福利进行评估。

Description

采用残差卷积神经网络和长短期记忆分类群养猪饮水和玩耍饮水器的分析方法

技术领域

本发明涉及深度学习、计算机视觉、模式识别、动物行为分析等技术，具体涉及一种俯视状态下分类视频中群养猪饮水和玩耍饮水器分析方法。

背景技术

猪养殖产业中福利的基本组成部分之一是提供充足的食物和水。猪饮水量和重要参数有关，例如环境温度、食物摄入量、食物转换、生长率和健康状况。不充足的饮水可能会导致减少食物摄入，减少产量和增加健康问题。监控猪的饮水是也检测疾病的有效工具。通过监控猪的饮水消耗，腹泻的爆发能够在身体症状可见于猪上的大约前一天被检测。当猪发生水肿、猪瘟和其他疾病时，饮水也会变异常。因此，监控猪饮水行为是非常必要的。然而，产生猪饮水量估计误差的一个重要原因是好奇的猪仔可能只是在玩耍饮水器并非饮水。在单帧中，饮水和玩耍饮水器具有相似的姿态，且猪嘴到饮水器的距离都很近。这使得分类饮水和玩耍饮水器成为猪仔饮水检测研究中的难点，也是亟待解决的问题。与传统人工观测相比，计算机视觉技术具有优势，因为其无侵扰、连续、更客观。

发明内容

本发明的目的是对俯视状态下群养猪监控视频中的饮水和玩耍饮水器进行分类。首先从俯视群养猪视频中挑选饮水片段和玩耍饮水器片段并保持数据平衡；接着采用残差卷积神经网络提取这些片段中每一帧的空间特征。然后采用长短期记忆将这些空间特征转化成时空特征。最后采用全连接层和Softmax函数分类时空特征从而分类饮水和玩耍饮水器。本发明给出一种采用残差卷积神经网络和长短期记忆分类群养猪饮水和玩耍饮水器的方法。本方法根据饮水和玩耍饮水器在序列上的运动模式差异，从视频片段中提取饮水和玩耍饮水器的时空特征，并采用全连接层分类这些时空特征从而分类饮水和玩耍饮水器，也为其他家畜的相似行为的分类提供了理论依据。所统计的饮水和玩耍饮水器的时间和频率数据有助于农场主对猪健康和福利进行评估。

本发明采用的技术方案是：采用残差卷积神经网络和长短期记忆分类群养猪饮水和玩耍饮水器的分析方法包括以下步骤：

步骤1，从俯视群养猪视频中挑选饮水片段和玩耍饮水器片段并保持数据平衡；步骤2，采用残差卷积神经网络提取这些片段中每一帧的空间特征；步骤3，采用长短期记忆将这些空间特征转化成时空特征；步骤4，采用全连接层和Softmax函数分类时空特征从而分类饮水和玩耍饮水器。

进一步，所述步骤1具体包括：

首先改建实验用猪舍，在猪舍正上方安装拍摄俯视视频的图像采集系统，获取包含猪饮水和玩耍饮水器的视频。然后从这些视频中挑选出饮水和玩耍饮水器片段，并保持数据平衡。

进一步，所述挑选饮水和玩耍饮水器片段以及保持数据平衡的具体方法是：

步骤1.1，根据饮水持续最小时间为2秒，从获取的所有视频中挑选出所有饮水2秒片段和玩耍饮水器2秒片段，并统计所有饮水和玩耍饮水器片段的数量。

步骤1.2，根据实际的饮水片段和玩耍饮水器片段的比例，采用水平镜像，垂直镜像和对角镜像保持饮水片段和玩耍饮水器片段的数量一致。

步骤1.3，由于饮水和玩耍饮水器的运动差异主要集中在猪头部且猪体间可能存在粘连和重叠，将原始视频进一步定位到猪头部运动区域，从而产生新的饮水和玩耍饮水器片段。

进一步，所述步骤2的具体过程为：

步骤2.1，由于在单帧中饮水和玩耍饮水器具有相似的姿态，即头部和饮水器的距离都很近。为了最大获取较大区分度的空间特征，采用较深的残差卷积神经网络ResNet50将这些片段中每一帧转化成2048维7×7像素的特征图。

步骤2.2，将每一帧对应的所有特征图中的灰度值拉直成100352维列向量[x₁，x₂，...，x₁₀₀₃₅₂]，并将此列向量作为残差卷积神经网络所提取的空间特征。

进一步，所述步骤3的具体过程为：

步骤3.1，根据视频序列中饮水猪保持几乎静止的姿态而玩耍饮水器猪的嘴部绕着饮水器进行咀嚼和闻嗅的特点，采用长短期记忆网络提取饮水和玩耍饮水器过程中的时空特征用来分类这两种行为。将每一帧的空间特征乘以相应权重得到长短期记忆网络的4个输入控制信号z，z_i，z_o和z_f。

步骤3.2，将这4个输入控制信号通过长短期记忆网络的输入门、输出门、忘记门和记忆单元得到每一帧对应的一个输出y^t。

步骤3.3，由于帧率为30fps，将视频片段中所有帧对应的输出作为一个列向量[y¹，y²，...，y⁶⁰]，将此列向量作为长短期记忆所提取的时空特征。

进一步，所述步骤4的具体过程为：

步骤4.1，采用全连接层对片段的时空特征进行分类得到一个2维向量。

步骤4.2，采用Softmax函数将此2维向量转化成表示饮水的向量[1，0]和表示玩耍饮水器的向量[0，1]。

进一步，所述步骤5的具体过程为：

步骤5.1，对所检测饮水片段和玩耍饮水器片段的数量进行统计。

步骤5.2，由于饮水和玩耍饮水器的持续时间和发生频率与猪健康和福利紧密相关，采用饮水和玩耍饮水器片段数量计算饮水和玩耍饮水器的持续时间和发生频率。

本发明的有益效果是：

本发明对群养猪饮水和玩耍饮水器进行分类。本发明采用的残差卷积神经网络结构ResNet50能够从图像中提取有较强区分度的空间特征。本发明采用长短期记忆结构所提取的时空特征能够用来分类相似的饮水和玩耍饮水器行为。本发明采用的卷积神经网络和长短期记忆方法能够直接从视频片段中分类出饮水和玩耍饮水器，这对提高饮水量监测精度具有一定作用。在潜在应用方面，本发明可以结合饮水量估计模型从而直接给出猪的饮水量参数，为传统的人工观测提供辅助。由于单帧中姿态相似但序列上存在运动差异的行为存在于很多其他动物的行为中，此方法对其他家畜的相似行为的分类提供了理论依据。所统计的饮水和玩耍饮水器的时间和频率数据有助于农场主对猪健康和福利进行评估。此外，传统计算机视觉和深度学习方法通过对单帧图像进行空间特征提取后间接计算时空特征。本发明的长短时期记忆方法能够直接提取时空特征从而分类出片段中的饮水和玩耍饮水器，这对实际应用而言是直接且便利的。

附图说明

下面结合附图和具体实施方式对本发明做进一步详细说明：

图1是基于残差卷积神经网络和长短期记忆的分类群养猪饮水和玩耍饮水器流程图。

图2是残差卷积神经网络ResNet50的结构原理图。

图3是长短期记忆(LSTM)的结构原理图。

具体实施方式

图1为基于残差卷积神经网络和长短期记忆的分类群养猪饮水和玩耍饮水器流程图，下面结合该图，进一步说明具体涉及的各部分具体实施方式。

步骤1：改建猪舍，获取俯视状态下群养猪饮水和玩耍饮水器的视频，然后从这些视频中挑选出饮水和玩耍饮水器片段并保持数据平衡。

具体方法是：(1)在猪舍(长*宽*高＝1.78m*1.88m*1m)正上方2.44m处，安装拍摄俯视视频的图像采集系统，获取包含群养猪饮水和玩耍饮水器的视频。根据饮水持续最小时间为2秒，从获取的所有视频中挑选出所有饮水2秒片段和玩耍饮水器2秒片段，并统计所有饮水和玩耍饮水器片段的数量。

(2)根据实际的饮水片段和玩耍饮水器片段的比例，采用MATLAB2018b中imwarp函数和水平、垂直和对角镜像的变换矩阵([-100；010；Width 01]，[100；0-10；0Height 1]和[-100；0-10；Width Height 1])实现两类片段的水平镜像，垂直镜像和对角镜像，从而保持饮水片段和玩耍饮水器片段的数量一致。

(3)由于饮水和玩耍饮水器的运动差异主要集中在猪头部且猪体间可能存在粘连和重叠，采用MATLAB中imcrop函数将原始视频进一步定位到猪头部运动区域，从而产生新的饮水和玩耍饮水器片段。

步骤2：采用残差卷积神经网络提取这些片段中每一帧的空间特征。

具体方法是：(1)由于在单帧中饮水和玩耍饮水器具有相似的姿态，即头部和饮水器的距离都很近。为了最大获取较大区分度的空间特征，采用较深的残差卷积神经网络ResNet50将这些片段中每一帧转化成2048维7×7像素的特征图。

(2)将每一帧对应的所有特征图中的灰度值拉直成100352维列向量[x₁，x₂，...，x₁₀₀₃₅₂]，并将此列向量作为残差卷积神经网络所提取的空间特征，如图2所示。整个过程可以被理解为通过特征降维和优化将图像的原始特征(即802816(＝112×112×64)维向量)转化为带有区分度的特征(即100352(＝7×7×2048)维向量)。其中，采用16(＝3+4+6+3)个3层瓶颈残差块(即图2中每个弧线包含的3个卷积层的捷径连接)获取更深卷积神经网络结构。此外，图2中虚线表示特征图的尺寸减半，这是通过将卷积层的stride设置为2实现的。

步骤3：采用长短期记忆将这些空间特征转化成时空特征。

具体方法是：(1)根据视频序列中饮水猪保持几乎静止的姿态而玩耍饮水器猪的嘴部绕着饮水器进行咀嚼和闻嗅的特点，采用长短期记忆网络提取饮水和玩耍饮水器过程中的时空特征用来分类这两种行为。将每一帧的空间特征乘以相应权重得到长短期记忆网络的4个输入控制信号z，z_i，z_o和z_f。

(2)将这4个输入控制信号通过长短期记忆网络的输入门、输出门、忘记门和记忆单元得到每一帧对应的一个输出y^t，如图3所示。可以将长短期记忆网络LSTM考虑成一个有4输入1输出的特殊神经元。z，z_i，z_o和z_f是LSTM的控制信号。这4个信号通过输入门、输出门和忘记门，得到输出y^t。此过程中产生的记忆单元c^t和h^t被带入下一个LSTM，使得LSTM具有记忆功能(t＝1，2，...，60)。其中，z的激活函数g为区间[-1，1]的tanh函数，z_i，z_o和z_f的激活函数f为区间[0，1]的Sigmoid函数，记忆单元cell的激活函数h为区间[-1，1]的tanh函数。c^t、h^t和y^t的计算公式如式(1)：。

在第1帧中，对应的25088维向量[x₁，x₂，...，x₂₅₀₈₈]乘以权重得到LSTM的控制信号z，z_i，z_o和z_f，通过LSTM得到输出y₁和记忆单元c¹和h¹。在第2帧中，采用获取的另一组100352维向量[x₁，x₂，...，x₂₅₀₈₈]乘以权重得到LSTM的控制信号z，z_i，z_o和z_f，通过LSTM得到输出y₂和记忆单元c²和h²。其中，第1帧中的记忆单元c¹和h¹被带入第2个LSTM，决定了第2帧中的c²和h²。依次采用此方法，得到60帧对应的60维向量[y¹，y²，...，y⁶⁰]作为60个LSTM的总输出。

(3)由于帧率为30fps，将视频片段中所有帧对应的输出列向量[y¹，y²，...，y⁶⁰]作为长短期记忆所提取的时空特征。

步骤4：采用全连接层和Softmax函数分类时空特征从而分类饮水和玩耍饮水器。

具体方法是：(1)采用全连接层对片段的时空特征进行分类得到一个2维向量。

(2)采用Softmax函数转化此2维向量为所有元素为区间(0，1)间的值并且标准化这些值(这些值的和为1)。最终，带有最高概率的类被选择为预测值1，另一维为0。其中，[1，0]表示饮水，[0，1]表示玩耍饮水器。

步骤5：统计所检测饮水和玩耍饮水器的持续时间和发生频率作为猪健康和福利的评价指标。

具体方法是：(1)对所检测饮水片段和玩耍饮水器片段的数量进行统计。

(2)由于饮水和玩耍饮水器的持续时间和发生频率与猪健康和福利紧密相关，采用饮水和玩耍饮水器片段数量计算饮水和玩耍饮水器的持续时间和发生频率。

优选实施例：

本发明的一个最优具体实施方式：改建猪舍，在猪舍(长*宽*高＝1.78m*1.88m*1m)正上方2.44m处，安装拍摄俯视视频的图像采集系统，获取包含8头左右猪的饮水和玩耍饮水器视频，头部活动区域图像分辨率为240×240像素。从获取的所有视频中挑选出所有饮水2秒片段和玩耍饮水器2秒片段，并保持数据平衡。采用残差卷积神经网络结构ResNet50获取这些片段中每一帧的2048维7×7像素的特征图，并拉直成一个100352维向量[x₁，x₂，...，x₁₀₀₃₅₂]作为空间特征。将每一帧的空间特征乘以相应权重得到长短期记忆网络的4个输入控制信号z，z_i，z_o和z_f。将这4个输入控制信号通过长短期记忆网络的输入门、输出门、忘记门和记忆单元得到所有帧对应的总输出[y¹，y²，...，y⁶⁰]作为时空特征。采用全连接层和Softmax函数分类时空特征为表示饮水的向量[1，0]和表示玩耍饮水器的向量[0，1]。统计所检测饮水和玩耍饮水器的持续时间和发生频率作为猪健康和福利的评价指标。经过上述步骤，最终实现了俯视群养猪的饮水和玩耍饮水器分类以及猪健康和福利的评估。

综上所述，本发明的一种采用残差卷积神经网络和长短期记忆分类群养猪饮水和玩耍饮水器的分析方法，首先是从俯视群养猪视频中挑选饮水片段和玩耍饮水器片段并保持数据平衡；接着采用残差卷积神经网络提取这些片段中每一帧的空间特征；然后采用长短期记忆将这些空间特征转化成时空特征；最后采用全连接层和Softmax函数分类时空特征从而分类饮水和玩耍饮水器。该项研究是基于残差卷积神经网络和长短期记忆对群养猪进行饮水和玩耍饮水器分类，不会对猪个体产生任何干扰，为传统的人工观测群养猪饮水和玩耍饮水器行为提供了参考，也对其他家畜的相似行为的分类提供了理论依据。所统计的饮水和玩耍饮水器的时间和频率数据有助于农场主对猪健康和福利进行评估。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种采用残差卷积神经网络和长短期记忆分类群养猪饮水和玩耍饮水器的分析方法，其特征在于，包含以下步骤：

步骤1，获取俯视状态下群养猪视频，从视频中挑选饮水片段和玩耍饮水器片段并保持数据平衡；步骤2，采用残差卷积神经网络提取这些片段中每一帧的空间特征；步骤3，采用长短期记忆将这些空间特征转化成时空特征；步骤4，采用全连接层和Softmax函数分类时空特征从而分类饮水和玩耍饮水器；步骤5，统计所检测饮水和玩耍饮水器的持续时间和发生频率作为猪健康和福利的评价指标。

2.根据权利要求1所述的一种采用残差卷积神经网络和长短期记忆分类群养猪饮水和玩耍饮水器的分析方法，其特征在于：所述步骤1具体包括：

3.根据权利要求2所述的一种采用残差卷积神经网络和长短期记忆分类群养猪饮水和玩耍饮水器的分析方法，其特征在于：所述视频中挑选出饮水和玩耍饮水器片段，并保持数据平衡的具体方法是：

根据饮水持续最小时间为2秒，从获取的所有视频中挑选出所有饮水2秒片段和玩耍饮水器2秒片段，并统计所有饮水和玩耍饮水器片段的数量；根据实际的饮水片段和玩耍饮水器片段的比例，采用水平镜像，垂直镜像和对角镜像保持饮水片段和玩耍饮水器片段的数量一致；由于饮水和玩耍饮水器的运动差异主要集中在猪头部且猪体间可能存在粘连和重叠，将原始视频进一步定位到猪头部运动区域，从而产生新的饮水和玩耍饮水器片段。

4.根据权利要求1所述的一种采用残差卷积神经网络和长短期记忆分类群养猪饮水和玩耍饮水器的分析方法，其特征在于：所述步骤2的具体过程为：

由于在单帧中饮水和玩耍饮水器具有相似的姿态，即头部和饮水器的距离都很近，为了最大获取较大区分度的空间特征，采用较深的残差卷积神经网络ResNet50将这些片段中每一帧转化成2048维7×7像素的特征图；将每一帧对应的所有特征图中的灰度值拉直成100352维列向量[x₁，x₂，...，x₁₀₀₃₅₂]，并将此列向量作为残差卷积神经网络所提取的空间特征。

5.根据权利要求1所述的一种采用残差卷积神经网络和长短期记忆分类群养猪饮水和玩耍饮水器的分析方法，其特征在于：所述步骤3的具体过程为：

根据视频序列中饮水猪保持几乎静止的姿态而玩耍饮水器猪的嘴部绕着饮水器进行咀嚼和闻嗅的特点，采用长短期记忆网络提取饮水和玩耍饮水器过程中的时空特征用来分类这两种行为。将每一帧的空间特征乘以相应权重得到长短期记忆网络的4个输入控制信号z，z_i，z_o和z_f；将这4个输入控制信号通过长短期记忆网络的输入门、输出门、忘记门和记忆单元得到每一帧对应的一个输出y^t；由于帧率为30fps，将视频片段中所有帧对应的输出作为一个列向量[y¹，y²，...，y⁶⁰]，将此列向量作为长短期记忆所提取的时空特征。

6.根据权利要求1所述的一种采用残差卷积神经网络和长短期记忆分类群养猪饮水和玩耍饮水器的分析方法，其特征在于：所述步骤4的具体过程为：

7.根据权利要求1所述的一种采用残差卷积神经网络和长短期记忆分类群养猪饮水和玩耍饮水器的分析方法，其特征在于：所述步骤5的具体过程为：

步骤5.1，对所检测饮水片段和玩耍饮水器片段的数量进行统计；