CN115497030A - 一种基于深度学习的钓鱼行为识别方法 - Google Patents

一种基于深度学习的钓鱼行为识别方法 Download PDF

Info

Publication number
CN115497030A
CN115497030A CN202211327497.9A CN202211327497A CN115497030A CN 115497030 A CN115497030 A CN 115497030A CN 202211327497 A CN202211327497 A CN 202211327497A CN 115497030 A CN115497030 A CN 115497030A
Authority
CN
China
Prior art keywords
fishing rod
fishing
pedestrian
deep learning
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211327497.9A
Other languages
English (en)
Inventor
杨明祥
乔广超
王浩
蒋云钟
刘春雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Institute of Water Resources and Hydropower Research
Original Assignee
China Institute of Water Resources and Hydropower Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Institute of Water Resources and Hydropower Research filed Critical China Institute of Water Resources and Hydropower Research
Priority to CN202211327497.9A priority Critical patent/CN115497030A/zh
Publication of CN115497030A publication Critical patent/CN115497030A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的钓鱼行为识别方法,包括S1、利用行人数据集对行人检测模型进行训练,利用训练好的行人检测模型检测待测视频图像中的行人,并输出行人位置参数;S2、从检测到的行人边界框中心点向外扩增,并裁剪出外扩后的图像,获取大量裁剪后的图像;S3、利用步骤S2中获取的大量裁剪后的图像作为鱼竿数据集训练鱼竿分类模型;并将裁剪后的待检测视频图像输入训练好的鱼竿分类模型中,获取鱼竿分类识别结果;S4、根据鱼竿分类识别结果确定行人是否在钓鱼。优点是:通过检测出视频图像中的行人,并从各个边界框的中心点为中心向外扩增,裁剪扩增后的区域,使得鱼竿分类模型关注更小区域,提升分类性能,有效识别钓鱼行为。

Description

一种基于深度学习的钓鱼行为识别方法
技术领域
本发明涉及智慧巡河管理技术领域,尤其涉及一种基于深度学习的钓鱼行为识别方法。
背景技术
在河长制全面建立以后,全国各地明确了省、市、县、乡四级河长30多万名,村级河长76万余名,各级河长按照规定执行例行巡河任务,及时发现水域岸线的违法违规行为。其中最为常见的是在禁钓河段钓鱼,尤其是在危险河段,极大威胁钓鱼者人身安全。当前巡河手段主要依靠人工巡河,任务繁重,效率低下,难以实现全天候24小时以及全河段的有效覆盖。随着计算机视觉与图像处理理论和技术的发展,利用视频监控结合人工智能,借助摄像头全天候监管禁钓区域内的钓鱼行为,并实现及时预警、及时取证、及时处置。
目前,对于钓鱼行为识别相关的研究较少,若仅采用图像处理技术或目标检测技术难以有效识别钓鱼行为。在实际场景中,钓鱼者旁边往往存在不少的行人或者围观的人,给钓鱼行为识别带来很大的干扰。
发明内容
本发明的目的在于提供一种基于深度学习的钓鱼行为识别方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种基于深度学习的钓鱼行为识别方法,包括如下步骤,
S1、利用行人数据集对行人检测模型进行训练,利用训练好的行人检测模型检测待测视频图像中的行人,并输出行人位置参数;
S2、从检测到的行人所在位置边界框的中心点向外扩增,并裁剪出外扩后的图像,获取大量裁剪后的图像;
S3、利用步骤S2中获取的大量裁剪后的图像作为鱼竿数据集训练鱼竿分类模型;并将裁剪后的待检测视频图像输入训练好的鱼竿分类模型中,获取鱼竿分类识别结果;
S4、根据鱼竿分类识别结果确定行人是否在钓鱼。
优选的,步骤S1具体包括如下内容,
S11、从公共COCO数据集中提取行人类别,得到行人类别对应的图片文件和标注文件,以构成行人数据集;
S12、利用行人数据集训练行人检测模型,并获取训练好的行人检测模型;
S13、将待检测视频图像输入训练好的行人检测模型中;
S14、获取行人检测模型输出的行人位置参数。
优选的,所述行人检测模型为基于YOLOv5目标检测算法。
优选的,在训练行人检测模型时,使用SGD优化器进行训练,momentum为0.937,weight_decay为0.0005,batch size为16,learning rate为0.01,总的迭代次数为300。
优选的,步骤S2具体为,从检测到的行人所在位置边界框的中心点以边界框宽高的两倍向外扩增,裁剪出外扩后的图像区域。
优选的,步骤S3具体包括如下内容,
S31、对于步骤S2获取的大量裁剪后的图像,将包含有鱼竿的图像命名为rod_序号.jpg,不包含鱼竿的图像命名为norod_序号.jpg,以此制作用于训练鱼竿分类模型的鱼竿数据集;
S32、基于深度学习框架Keras快速搭建鱼竿分类模型;
S33、利用鱼竿数据集训练鱼竿分类模型,并获取训练好的鱼竿分类模型;
S34、将裁剪后的待检测视频图像输入训练好的鱼竿图像分类模型中;
S35、输出鱼竿分类识别结果。
优选的,在训练鱼竿分类模型时,使用relu激活函数,输出层采用softmax激活函数进行分类。
优选的,步骤S4具体为,根据步骤S35输出的鱼竿分类识别结果,判断裁剪区域中是否包含鱼竿,若是,则判定该图像中的人这正在钓鱼;若否,则判定该图像中的人没有发生钓鱼行为。
本发明的有益效果是:1、本方法能够避免单一检测行人或者鱼竿产生大量的误报结果,通过检测行人、识别鱼竿的两个阶段有效识别钓鱼行为。2、本方法能够从围观行人、路过行人、钓鱼者中有效地将真正的钓鱼者提取出来。3、本方法通过检测出视频图像中的行人,并从各个边界框的中心点为中心向外扩增,裁剪扩增后的区域,使得鱼竿分类模型关注更小区域,提升分类性能。
附图说明
图1是本发明实施例中识别方法的流程示意图;
图2是本发明实施例中图像区域扩增示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本实施例中,提供了一种基于深度学习的钓鱼行为识别方法,包括如下步骤,
S1、利用行人数据集对行人检测模型进行训练,利用训练好的行人检测模型检测待测视频图像中的行人,并输出行人位置参数;
S2、从检测到的行人所在位置边界框的中心点向外扩增,并裁剪出外扩后的图像,获取大量裁剪后的图像;
S3、利用步骤S2中获取的大量裁剪后的图像作为鱼竿数据集训练鱼竿分类模型;并将裁剪后的待检测视频图像输入训练好的鱼竿分类模型中,获取鱼竿分类识别结果;
S4、根据鱼竿分类识别结果确定行人是否在钓鱼。
下面分别针对上述四个步骤展开说明:
一、行人检测模型训练及行人检测
该部分对应步骤S1,具体包括如下内容,
1、从公共COCO数据集中提取行人类别(person),得到行人类别对应的图片文件和标注文件,以构成行人数据集;
2、利用行人数据集训练行人检测模型,并获取训练好的行人检测模型;具体训练过程为:在一台具有英特尔Xeon(至强)Gold 5218@2.30GHz、Tesla T4和64GB内存的PC上,对基于YOLOv5目标检测算法(行人检测模型)进行训练。在训练时,使用SGD优化器对网络进行训练,momentum为0.937,weight_decay为0.0005,batch size为16,learning rate为0.01,总的迭代次数为300。
3、将待检测视频图像输入训练好的行人检测模型中;
4、获取行人检测模型输出的行人位置参数(即行人所在位置的边界框)。
二、图像扩增与裁剪
该部分对应步骤S2,具体为,从检测到的行人所在位置边界框的中心点以边界框宽高的两倍向外扩增,裁剪出外扩后的图像区域,扩增过程参见图2;扩增后裁剪能够使后续的鱼竿分类模型关注更小的区域。
具体倍数可以根据实际情况进行选择,以便更好的满足实际需求。本发明选择的是边界框高宽的两倍。
三、鱼竿分类模型的训练及鱼竿检测
该部分对应步骤S3,具体包括如下内容,
1、对于步骤S2获取的大量裁剪后的图像,将包含有鱼竿的图像命名为rod_序号.jpg,放到名称为rod的文件夹下,不包含鱼竿的图像命名为norod_序号.jpg,放到名称为norod的文件夹下,以制作用于训练鱼竿分类模型的鱼竿数据集;
2、基于深度学习框架Keras快速搭建鱼竿分类模型;
3、利用鱼竿数据集训练鱼竿分类模型,并获取训练好的鱼竿分类模型;具体训练过程为,在一台具有英特尔Xeon(至强)Gold 5218@2.30GHz、Tesla T4和64GB内存的PC上,利用鱼竿数据集训练鱼竿分类模型。在训练时,使用relu激活函数,输出层采用softmax激活函数进行分类。
4、将裁剪后的待检测视频图像输入训练好的鱼竿图像分类模型中;
5、输出鱼竿分类识别结果。
四、钓鱼行为判定
该部分对应步骤S4,具体为,根据步骤S35输出的鱼竿分类识别结果,判断裁剪区域中是否包含鱼竿,若是,则判定该图像中的人这正在钓鱼;若否,则判定该图像中的人没有发生钓鱼行为。并将结果回写到原视频图像中的对应位置。
本实施例中,使用专门制作的测试数据集对本发明方案进行了验证。结果显示,超过90%的样本被有效地判定为存在钓鱼行为,处理速度满足现场的实时性需求,实现了全天候24小时持续监测。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
本发明提供了一种基于深度学习的钓鱼行为识别方法,本方法能够避免单一检测行人或者鱼竿产生大量的误报结果,通过检测行人、识别鱼竿的两个阶段有效识别钓鱼行为。本方法能够从围观行人、路过行人、钓鱼者中有效地将真正的钓鱼者提取出来。本方法通过检测出视频图像中的行人,并从各个边界框的中心点为中心向外扩增,裁剪扩增后的区域,使得鱼竿分类模型关注更小区域,提升分类性能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (8)

1.一种基于深度学习的钓鱼行为识别方法,其特征在于:包括如下步骤,
S1、利用行人数据集对行人检测模型进行训练,利用训练好的行人检测模型检测待测视频图像中的行人,并输出行人位置参数;
S2、从检测到的行人所在位置边界框的中心点向外扩增,并裁剪出外扩后的图像,获取大量裁剪后的图像;
S3、利用步骤S2中获取的大量裁剪后的图像作为鱼竿数据集训练鱼竿分类模型;并将裁剪后的待检测视频图像输入训练好的鱼竿分类模型中,获取鱼竿分类识别结果;
S4、根据鱼竿分类识别结果确定行人是否在钓鱼。
2.根据权利要求1所述的基于深度学习的钓鱼行为识别方法,其特征在于:步骤S1具体包括如下内容,
S11、从公共COCO数据集中提取行人类别,得到行人类别对应的图片文件和标注文件,以构成行人数据集;
S12、利用行人数据集训练行人检测模型,并获取训练好的行人检测模型;
S13、将待检测视频图像输入训练好的行人检测模型中;
S14、获取行人检测模型输出的行人位置参数。
3.根据权利要求2所述的基于深度学习的钓鱼行为识别方法,其特征在于:所述行人检测模型为基于YOLOv5目标检测算法。
4.根据权利要求2所述的基于深度学习的钓鱼行为识别方法,其特征在于:在训练行人检测模型时,使用SGD优化器进行训练,momentum为0.937,weight_decay为0.0005,batchsize为16,learning rate为0.01,总的迭代次数为300。
5.根据权利要求2所述的基于深度学习的钓鱼行为识别方法,其特征在于:步骤S2具体为,从检测到的行人所在位置边界框的中心点以边界框宽高的两倍向外扩增,裁剪出外扩后的图像区域。
6.根据权利要求5所述的基于深度学习的钓鱼行为识别方法,其特征在于:步骤S3具体包括如下内容,
S31、对于步骤S2获取的大量裁剪后的图像,将包含有鱼竿的图像命名为rod_序号.jpg,不包含鱼竿的图像命名为norod_序号.jpg,以此制作用于训练鱼竿分类模型的鱼竿数据集;
S32、基于深度学习框架Keras快速搭建鱼竿分类模型;
S33、利用鱼竿数据集训练鱼竿分类模型,并获取训练好的鱼竿分类模型;
S34、将裁剪后的待检测视频图像输入训练好的鱼竿图像分类模型中;
S35、输出鱼竿分类识别结果。
7.根据权利要求6所述的基于深度学习的钓鱼行为识别方法,其特征在于:在训练鱼竿分类模型时,使用relu激活函数,输出层采用softmax激活函数进行分类。
8.根据权利要求6所述的基于深度学习的钓鱼行为识别方法,其特征在于:步骤S4具体为,根据步骤S35输出的鱼竿分类识别结果,判断裁剪区域中是否包含鱼竿,若是,则判定该图像中的人这正在钓鱼;若否,则判定该图像中的人没有发生钓鱼行为。
CN202211327497.9A 2022-10-27 2022-10-27 一种基于深度学习的钓鱼行为识别方法 Pending CN115497030A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211327497.9A CN115497030A (zh) 2022-10-27 2022-10-27 一种基于深度学习的钓鱼行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211327497.9A CN115497030A (zh) 2022-10-27 2022-10-27 一种基于深度学习的钓鱼行为识别方法

Publications (1)

Publication Number Publication Date
CN115497030A true CN115497030A (zh) 2022-12-20

Family

ID=85115139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211327497.9A Pending CN115497030A (zh) 2022-10-27 2022-10-27 一种基于深度学习的钓鱼行为识别方法

Country Status (1)

Country Link
CN (1) CN115497030A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583265A (zh) * 2020-05-07 2020-08-25 赛特斯信息科技股份有限公司 基于编解码器结构实现钓鱼行为检测处理的方法及相应的语义分割网络系统
CN113052140A (zh) * 2021-04-25 2021-06-29 合肥中科类脑智能技术有限公司 一种基于视频的变电站人员车辆违规检测方法及系统
US20210224572A1 (en) * 2020-01-21 2021-07-22 Vanadata Inc. Image analysis-based classification and visualization of events
CN114359830A (zh) * 2021-12-30 2022-04-15 阿里巴巴(中国)有限公司 图像检测方法、设备及计算机存储介质
CN114445769A (zh) * 2021-12-31 2022-05-06 浙江大华技术股份有限公司 一种钓鱼行为检测方法、装置及系统
CN115100732A (zh) * 2021-03-08 2022-09-23 深圳云天励飞技术股份有限公司 钓鱼检测方法、装置、计算机设备及存储介质
CN115205581A (zh) * 2022-05-31 2022-10-18 浙江大华技术股份有限公司 一种钓鱼检测方法、钓鱼检测设备和计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210224572A1 (en) * 2020-01-21 2021-07-22 Vanadata Inc. Image analysis-based classification and visualization of events
CN111583265A (zh) * 2020-05-07 2020-08-25 赛特斯信息科技股份有限公司 基于编解码器结构实现钓鱼行为检测处理的方法及相应的语义分割网络系统
CN115100732A (zh) * 2021-03-08 2022-09-23 深圳云天励飞技术股份有限公司 钓鱼检测方法、装置、计算机设备及存储介质
CN113052140A (zh) * 2021-04-25 2021-06-29 合肥中科类脑智能技术有限公司 一种基于视频的变电站人员车辆违规检测方法及系统
CN114359830A (zh) * 2021-12-30 2022-04-15 阿里巴巴(中国)有限公司 图像检测方法、设备及计算机存储介质
CN114445769A (zh) * 2021-12-31 2022-05-06 浙江大华技术股份有限公司 一种钓鱼行为检测方法、装置及系统
CN115205581A (zh) * 2022-05-31 2022-10-18 浙江大华技术股份有限公司 一种钓鱼检测方法、钓鱼检测设备和计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李俊国 等: "基于场景-部件的人体行为识别方法", 《测控技术》 *

Similar Documents

Publication Publication Date Title
CN108062349B (zh) 基于视频结构化数据及深度学习的视频监控方法和系统
CN109344753A (zh) 一种基于深度学习的航拍图像输电线路细小金具识别方法
CN111611970B (zh) 一种基于城管监控视频的乱扔垃圾行为检测方法
CN110745704A (zh) 一种塔吊预警方法及装置
CN104123544A (zh) 基于视频分析的异常行为检测方法及系统
CN113469278B (zh) 一种基于深度卷积神经网络的强天气目标识别方法
CN114445803A (zh) 驾驶数据的处理方法、装置及电子设备
CN114267082B (zh) 基于深度理解的桥侧坠落行为识别方法
CN111340843A (zh) 基于环境自适应和小样本学习的电力场景视频检测方法
CN106339657A (zh) 基于监控视频的秸秆焚烧监测方法、装置
CN112836657A (zh) 一种基于轻量化YOLOv3的行人检测方法及系统
CN111145222A (zh) 一种结合烟雾运动趋势和纹理特征的火灾检测方法
CN113191273A (zh) 基于神经网络的油田井场视频目标检测与识别方法及系统
CN113326783A (zh) 一种水利行业的边缘预警方法
CN116052082A (zh) 一种基于深度学习算法的配电站房异常检测方法及装置
CN115661932A (zh) 一种垂钓行为检测方法
JP2024514175A (ja) 鳥の検出および種決定
CN114494965A (zh) 一种基于视觉的流浪宠物的检测方法及系统
CN115497030A (zh) 一种基于深度学习的钓鱼行为识别方法
CN114821978B (zh) 一种误报警的消除方法、装置以及介质
CN117172984A (zh) 基于设备检修数字孪生场景的安全风险识别方法及系统
CN109614926B (zh) 基于预测模型的分布式光纤传感信号模式识别方法及系统
CN114882206A (zh) 图像生成方法、模型训练方法、检测方法、装置及系统
CN114882207A (zh) 图像生成方法、模型训练方法、检测方法、装置及系统
Terdal et al. YOLO-Based Video Processing for CCTV Surveillance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221220

RJ01 Rejection of invention patent application after publication