CN113378004A

CN113378004A - 基于FANet的农民劳作行为识别方法和装置、设备及介质

Info

Publication number: CN113378004A
Application number: CN202110621272.3A
Authority: CN
Inventors: 李想; 陈兆祺; 许金坡; 赵文馨; 陈昕; 卢韬
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-09-10

Abstract

本发明涉及一种基于FANet的农民劳作行为识别方法和装置、电子设备及存储介质。该方法包括：建立农民劳作运动行为的数据集；构建FANet模型；将所述农民劳作运动行为的数据集输入到所述FANet模型进行训练；以及基于训练后的FANet模型，预测得到所述农民劳作行为的识别结果。本发明通过视频记录农民在劳作时的一系列运动动作变化，通过深度学习识别观察者的劳作动作类型。一方面，可以真实客观的记录农民的劳作行为，可以为农场管理和农产品追溯提供真实的客观数据；同时，较直接存储视频，可以有效的降低存储空间，提供结构化数据便于分析；另外，较人工监管，可以大幅度提高效率，减少人工成本。

Description

基于FANet的农民劳作行为识别方法和装置、设备及介质

技术领域

本发明总体涉及一种农民劳作行为识别方法，并且更特别地，涉及一种基于FANet的农民劳作行为识别方法和装置、电子设备及存储介质。

背景技术

现阶段，机器虽然被大量用到农业生产中，但人还是不可或缺的因素。农民的劳作较大的影响了食品安全，所以对农民的行为分析很有必要。一方面，农民行为识别有助于在农产品溯源中客观真实地记录农产品生产的每一个环节的信息，以便消费者购买农产品的时候，做到农产品信息的透明化。另一方面，农场、合作社、园区等新型经营主体的经营者在管理中，人员的劳作也是管理的重要组成部分，劳作的质量和数量直接影响到农产品的品质和企业的成本。从这两方面，都需要对农民的劳作行为进行记录。

现有的记录系统分为两类：1)农民打卡和填写；2)视频记录。针对第一种方式，农民打卡和填写，受限于农民使用信息系统的能力，完全记录具有较大困难，且用于溯源系统，由生产者填写数据，数据的真实性完全依赖生产主体本身的责任意识和道德意识，无法解决市场上存在的信任问题；针对第二种方式，视频虽然完全记录了农民的行为，但海量的视频信息，存储的成本较大，且不产生直接的有效信息，需要人力进行转化，较难实用。

发明内容

针对现有技术中的问题，本发明通过实现农民劳作运动的行为识别，填补农民劳作运动上的行为识别空白，为农民自动打卡提供实现基础，推进农产品溯源系统智能化进程。

第一方面，本发明提供一种基于FANet的农民劳作行为识别方法，包括：

建立农民劳作运动行为的数据集；

构建FANet模型；

将所述农民劳作运动行为的数据集输入到所述FANet模型进行训练；以及

基于训练后的FANet模型，预测得到所述农民劳作行为的识别结果。

进一步地，所述农民劳作行为包括喷农药、锄地、除草和插秧。

进一步地，所述建立农民劳作运动行为的数据集，包括：

对所述农民劳动行为的数据进行预处理，所述预处理包括：

将所述农民劳动行为的视频转换为图像序列；

将所述图像序列划分为视频段；

使用间隔式方式抽取所述视频段中的图像，形成样本集；以及

提取所述样本集中的农民运动区域。

进一步地，所述提取所述样本集中的农民运动区域，包括：定位、关联匹配和抓取运动区域；

所述定位包括：探测所述样本集中每张图像中的人体所在的区域；

所述关联匹配包括：以所述样本集中的一个样本中探测到的人体所在的区域为基准，利用最邻近值算法KNN进行人物关联匹配，形成分组；以及

所述抓取运动区域包括：提取不同分组的运动区域。

进一步地，在使用间隔式方式抽取所述视频段中的图像，形成所述样本集之前，所述方法还包括：剔除不存在农民或者场景切换时出现重叠的视频段。

进一步地，所述搭建FANet模型，包括：

采用残差块的构建方式得到时空残差卷积模块，并使用Swish函数作为激活函数。

进一步地，所述搭建FANet模型，包括：

在构建时空卷积模块时，使用Swish函数作为激活函数。

第二方面，本发明还提供一种基于FANet的农民劳作行为识别装置，包括：

数据集建立单元，用于建立农民劳作运动行为的数据集；

FANet模型构建单元，用于构建FANet模型；

训练单元，用于将所述农民劳作运动行为的数据集输入到所述FANet模型进行训练；以及

预测单元，用于基于训练后的FANet模型，预测得到所述农民劳作行为的识别结果。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面中任一项所述基于FANet的农民劳作行为识别方法的步骤。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如第一方面中任一项所述基于FANet的农民劳作行为识别方法的步骤。

本发明通过视频记录农民在劳作时的一系列运动动作变化，通过深度学习识别观察者的劳作动作类型。一方面，可以真实客观的记录农民的劳作行为，可以为农场管理和农产品追溯提供真实的客观数据；同时，较直接存储视频，可以有效的降低存储空间，提供结构化数据便于分析；另外，较人工监管，可以大幅度提高效率，减少人工成本。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，以下将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，以下描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的基于FANet的农民劳作行为识别方法的流程图；

图2为本发明实施例提供的提取农民运动区域的示意图；

图3为本发明实施例提供的FANet模型的结构示意图；

图4为本发明实施例提供的时空卷积模块的结构示意图；

图5为本发明实施例提供的时空残差卷积模块的结构示意图；

图6为本发明实施例提供的基于FANet的农民劳作行为识别装置的结构框图；以及

图7为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明实施例提供的基于FANet的农民劳作行为识别方法的流程图。

参照图1，基于FANet的农民劳作行为识别方法包括以下步骤：

步骤S101：建立农民劳作运动行为的数据集；

步骤S103：构建FANet模型；

步骤S105：将农民劳作运动行为的数据集输入到FANet模型进行训练；以及

步骤S107：基于训练后的FANet模型，预测得到农民劳作行为的识别结果。

在本发明实施例中，具体地，步骤S101包括：

首先，获取53个与农民劳作运动相关的视频。其中，视频来源于bilibili、腾讯视频、优酷、土豆等视频网站，并且视频的帧率在20-30fps间，分辨率不统一。此外，视频中含有4种动作类别：喷农药、锄地、除草、插秧，在下文中将被称为FAD。

应注意的是，虽然本发明实施例公开了构成数据集的视频数据中的农民行为类别，但是本公开不限于此。

然后，通过对视频数据进行半自动化处理(即，数据预处理)，从而获得数据集。

具体地，数据预处理包括：

(1)转换：将视频转成图像序列，并按图像在视频出现的先后顺序进行排列命名。

(2)分段：将图像按序划分成视频段。例如，根据每个视频段的大小为50至70帧进行划分。

(3)采样：使用间隔式采样抽取视频段中的图像作为样本。例如，以5至7帧为间隔单位进行采样。

(4)提取农民运动区域：采用半自动化方式提取农民运动区域。通过提取农民劳作运动的区域降低样本背景的复杂度，提高农民劳作运动的信息。因为部分视频中包含多人的情况，在提取农民劳作运动的区域时需要进行人体检测和人体关联匹配，最后锁定区域并提取。

为了使识别方法更准确，可以在上述步骤(3)之前剔除没有出现农民或者场景切换过快(即，场景切换时出现重叠)的视频段。

图2示出了提取农民运动区域的示意图。参照图2，上述步骤(4)(即，提取农民运动区域)包括：

定位：采用yolov3模型作为人体探测器，探测样本集合里每张图像里人体所在的区域(图2所示的点构成的虚线区域)。

关联匹配：以样本集合第一张图片里人体所在的区域为基准，使用最邻近值方法(KNN)进行人物关联匹配，形成分组。

提取运动区域：分别使用最小矩形框(图2所示的短划线构成的矩形框)包围每一组，然后对每个最小矩形框使用最小正方形框(图2所示的实线构成的正方形框)包围，并且最小正方形框与最小矩形框同中心(图2所示的实心圆点)，最后提取每张图像中位于最小正方形框的区域，并将每个最小正方形框区域里的图像汇集成一份样本。

通过上述方式，获得的数据集如以下表1所示：

表1数据集统计数据

行为	视频量	样本量
			喷农药	14	119
锄地	13	146
			除草	13	163
插秧	13	149

由表1可知，在FAD中，共有53个视频，每类动作有13-14个视频和119-163个样本，每个视频可切分出1-58个片段。样本数量共计577份，其中测试集含有120份，剩余457份以4：1比例划分为训练集和验证集。

在本发明实施例中，具体地，步骤S103包括：考虑到深层的卷积并不一定有助于提取数据特征，并且不适合端到端使用。所以，残差块里的残差层里只有两层卷积层，最终结构如图3所示。

在图3中，FANet模型以(N,10,116,116,3)作为输入，利用ConvNet进行卷积处理，再通过两个全连接层(512)，最终得到输出结果。

具体地，ConvNet首先通过时空卷积(Spatio TemporalConv)、时空残差卷积(Spatio TemporalResBlock)进行卷积计算，再经过三维平均池化(AveragePooling 3D)处理，最后重新设置维度(Reshape)，图3示出了不同处理过程所采用的卷积核大小(KernelSize)以及输出张量(Output Tensor)。

具体地，FANet的输入数据采用短间隔式，以跳帧的10张112x112RGB图片作为模型输入，跳帧单位为4帧。与传统的连续式输入图像相比，短间隔式的输入能够更加明显的显示出数据在时间与空间上的特征，使得卷积层易于提取输入序列图像的特征。模型的ConvNet部分会按以下公式提取输入数据的特征信息：

y＝CNN_θc(x)

其中，y为映射得到的512维的特征向量，θc为模型中ConvNet的参数，x为输入数据。

在模型中，通过控制卷积核进行卷积的步长来实现数据的下采样，从而达到保留更多数据信息的效果，有利于防止过滤掉有用信息。卷积后输出特征图的尺寸按以下公式进行计算：

其中，(w_i,h_i)代表卷积后输出特征图的尺寸，(w_i-1,h_i-1)代表输入卷积的特征图尺寸，p代表卷积前对特征图进行填充的尺寸，k代表卷积核的尺寸，s代表卷积核进行卷积的步长。

时空卷积模块的结构如图4所示，具体地，时空卷积模块包括空间卷积(SpatioConv)、批标准化(BatchNormalization)、激活函数以及时间卷积(Temporal Conv)等处理过程。

在本发明实施例中，时空卷积模块采用Swish激活函数作为激活函数。

时空残差卷积模块的结构采用了残差块的构建方式。为了使模型的损失(loss)能够快速地下降，采用Swish函数替换残差块里的激活函数ReLU。考虑到该模块中有实现下采样(Downsample)的功能，在其直接映射中添加了一个下采样卷积，结构如图5所示。

图5示出了模型结构里的残差网络模块，其中，h(x₁)为残差网络中的恒等映射部分，F(x₁,W₁)为残差网络中的残差部分，时空卷积和Swish模块在上文中已经进行了描述，此处不再进行描述，此外，批标准化(BatchNormalization)是一种常见的神经网络优化技术，此处也省略对其的详细描述。

在图5中，残差块分成直接映射部分和残差部分，其公式为：

x_i+1＝h(x₁)+F(x₁,W₁)

其中，h(x₁)为直接映射函数，F(x₁,W₁)为残差部分函数。

此外，模型的2个全连接层维度为512维，采用Swish函数作为激活函数，最后再接一个d维的分类层。模型采用交叉熵函数作为损失函数，如以下所示：

其中，L代表损失，y代表分类标签，

代表预测值。

在本发明实施例中，具体地，步骤S105包括：使用i9-10900K cpu和一张3080rtx显卡作为训练环境。训练时采用小批量(mini-batch)和5折交叉验证方式训练。梯度更新方法采用Adam，学习率初始为0.001。此外，模型进行70个周期的训练，并且每隔5次周期重新对数据进行打乱。

在数据增强上，每份样本在训练中有0.5的概率进行水平翻转。为适度增加数据复杂度，存在小部分未进行提取农民劳作运动区域的原始样本。

在本发明实施例中，具体地，步骤S107包括：基于训练好的FANet模型，对数据集中的测试集进行预测。

以下示出了FANet模型与R(2+1)D模型的结果：

表2 FANet与R(2+1)D对比结果

由表2可知，FANet的mAP为0.9839，R(2+1)D的mAP为0.8945。在四种行为的recall上，FANet的最大值为1.000，最小值为0.9565；R(2+1)D的最大值0.9412，最小值为0.7391。

在本发明实施例中，FANet的参数总量、训练时长和预测时长分别为4.982M、783.46s、30.70ms，R(2+1)D的参数总量、训练时长和预测时长分别为31.278M、2495.97s、51.99ms。

通过FANet和R(2+1)D的对比分析可知：FANet的mAP比R(2+1)D高了0.0894，recall的最小值比R(2+1)D的最大值高了0.0153。FANet在参数总量、训练时长、预测时长上分别是R(2+1)D的15.93％、31.39％、59.05％。在模型的收敛速度上，FANet比R(2+1)D更早收敛。

图6为本发明实施例提供的基于FANet的农民劳作行为识别装置的结构框图。参照图6，该装置600包括：

数据集建立单元601，用于建立农民劳作运动行为的数据集；

FANet模型构建单元603，用于构建FANet模型；

训练单元605，用于将农民劳作运动行为的数据集输入到FANet模型进行训练；以及

预测单元607，用于基于训练后的FANet模型，预测得到农民劳作行为的识别结果。

由以上可知，装置600的各个单元601至607可以分别执行参照上述实施例描述的识别方法中的各个步骤，此处将不再对其细节进行描述。

本发明实施例通过视频记录农民在劳作时的一系列运动动作变化，通过深度学习识别观察者的劳作动作类型。一方面，可以真实客观的记录农民的劳作行为，可以为农场管理和农产品追溯提供真实的客观数据；同时，较直接存储视频，可以有效的降低存储空间，提供结构化数据便于分析；另外，较人工监管，可以大幅度提高效率，减少人工成本。

另一方面，本发明提供了一种电子设备。如图7所示，电子设备700包括处理器701、存储器702、通信接口703和通信总线704。

其中，处理器701、存储器702、通信接口703通过通信总线704完成相互间的通信；

处理器701用于调用存储器702中的计算机程序，处理器701执行计算机程序时实现如上所述的本发明实施例所提供的基于FANet的农民劳作行为识别方法的步骤。

此外，上述存储器中的计算机程序可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干计算机程序以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如上所述的本发明实施例所提供的基于FANet的农民劳作行为识别方法的步骤。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于FANet的农民劳作行为识别方法，其特征在于，包括：

建立农民劳作运动行为的数据集；

构建FANet模型；

2.根据权利要求1所述的基于FANet的农民劳作行为识别方法，其特征在于，所述农民劳作行为包括喷农药、锄地、除草和插秧。

3.根据权利要求1所述的基于FANet的农民劳作行为识别方法，其特征在于，所述建立农民劳作运动行为的数据集，包括：

对所述农民劳动行为的数据进行预处理，所述预处理包括：

将所述农民劳动行为的视频转换为图像序列；

将所述图像序列划分为视频段；

提取所述样本集中的农民运动区域。

4.根据权利要求3所述的基于FANet的农民劳作行为识别方法，其特征在于，所述提取所述样本集中的农民运动区域，包括：定位、关联匹配和抓取运动区域；

所述抓取运动区域包括：提取不同分组的运动区域。

5.根据权利要求3所述的基于FANet的农民劳作行为识别方法，其特征在于，在使用间隔式方式抽取所述视频段中的图像，形成所述样本集之前，所述方法还包括：

剔除不存在农民或者场景切换时出现重叠的视频段。

6.根据权利要求1所述的基于FANet的农民劳作行为识别方法，其特征在于，所述搭建FANet模型，包括：

7.根据权利要求1所述的基于FANet的农民劳作行为识别方法，其特征在于，所述搭建FANet模型，包括：

在构建时空卷积模块时，使用Swish函数作为激活函数。

8.一种基于FANet的农民劳作行为识别装置，其特征在于，包括：

数据集建立单元，用于建立农民劳作运动行为的数据集；

FANet模型构建单元，用于构建FANet模型；

9.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述基于FANet的农民劳作行为识别方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述基于FANet的农民劳作行为识别方法的步骤。