CN117854211B - 一种基于智能视觉的目标对象识别方法及装置 - Google Patents
一种基于智能视觉的目标对象识别方法及装置 Download PDFInfo
- Publication number
- CN117854211B CN117854211B CN202410256915.2A CN202410256915A CN117854211B CN 117854211 B CN117854211 B CN 117854211B CN 202410256915 A CN202410256915 A CN 202410256915A CN 117854211 B CN117854211 B CN 117854211B
- Authority
- CN
- China
- Prior art keywords
- position information
- information
- picture data
- recognition
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000001514 detection method Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000001629 suppression Effects 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001681 protective effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- WHXSMMKQMYFTQS-UHFFFAOYSA-N Lithium Chemical compound [Li] WHXSMMKQMYFTQS-UHFFFAOYSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 229910052744 lithium Inorganic materials 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B13/00—Burglar, theft or intruder alarms
- G08B13/18—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
- G08B13/189—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
- G08B13/194—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
- G08B13/196—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B13/00—Burglar, theft or intruder alarms
- G08B13/18—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
- G08B13/189—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
- G08B13/194—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
- G08B13/196—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
- G08B13/19639—Details of the system layout
- G08B13/19645—Multiple cameras, each having view on one of a plurality of scenes, e.g. multiple cameras for multi-room surveillance or for tracking an object by view hand-over
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
- G08B21/02—Alarms for ensuring the safety of persons
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
- G08B21/18—Status alarms
- G08B21/24—Reminder alarms, e.g. anti-loss alarms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Emergency Management (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于智能视觉的目标对象识别方法及装置,所述方法包括:获取图片数据,将所述图片数据输入第一识别模型中,得到第一对象的识别结果;基于所述第一对象的识别结果,将所述图片数据输入第二识别模型中,得到每一图片数据中多个第二对象的属性信息;其中,所述属性信息包括:位置信息、状态信息及数量信息;基于所述第二对象的数量信息N预定义N个ROI区域,基于所述第二对象的位置信息对应生成M个预测位置信息;计算每一所述预测位置信息与每一所述ROI区域之间的IOU值,根据所述IOU值确定每一第二对象对应的目标对象;当所述状态信息为第一状态时,通过与该第二对象对应的目标对象进行危险告警。
Description
技术领域
本申请涉及人工智能算法领域,特别涉及一种基于智能视觉的目标对象识别方法及装置。
背景技术
在各行业的工厂生产中,针对存放货物的静置库场景通常需要使用堆垛机来对货物进行精准搬运、堆垛,缩短了人工往返搬运物料的距离,缩短货物装卸及搬运时间,实现存储空间最大化,大大的提升工作效率,有效降低营运成本。但当静置库内的堆垛机工作时,会高速移动,存在一定的安全隐患,容易造成该区域内人员误闯入受伤。该场景的人员闯入与堆垛机的使用状态绑定,工作人员能够通过两侧信号灯的颜色判断堆垛机是否在工作,进而约束工作人员什么时候可以进入,避免安全事故的发生。因此识别信号灯状态也变得十分重要。
相关技术中,场景的信号灯状态识别以及人员闯入识别,只能通过人员主观意识和现场管理手段进行监测,效率很低,并且由于是通过人员主观意识判断,识别的准确率也不稳定,依旧存在很大的安全隐患。
发明内容
有鉴于此,本发明提供了一种基于智能视觉的目标对象识别方法及装置,通过网络摄像头和人工智能算法对工厂视觉质检流程中的人员闯入进行监测,减少人工成本,提升监测效率与准确率,减少静置房内堆垛机存在的安全隐患。
第一方面,本申请实施例提供一种基于智能视觉的目标对象识别方法,所述识别方法包括:获取图片数据,将所述图片数据输入第一识别模型中,得到第一对象的识别结果;基于所述第一对象的识别结果,将所述图片数据输入第二识别模型中,得到每一图片数据中多个第二对象的属性信息;其中,所述属性信息包括:第二对象的位置信息、第二对象的状态信息及第二对象的数量信息;基于所述第二对象的数量信息N预定义N个ROI区域,基于所述第二对象的位置信息对应生成M个预测位置信息;其中,N、M均为自然数;计算每一所述预测位置信息与每一所述ROI区域之间的IOU值,根据所述IOU值确定每一第二对象对应的目标对象;当所述第二对象的状态信息为第一状态时,通过与该第二对象对应的目标对象进行危险告警。
在一些实施例中,所述方法还包括:当所述第二对象的状态信息为第二状态时,采用第三识别模型识别目标区域内的第一对象是否满足预定条件;当所述目标区域内的第一对象不满足预定条件,通过与该第二对象对应的目标对象进行危险告警。
在一些实施例中,所述第一对象的识别结果包括:第一对象在所述图片数据中的坐标信息。
在一些实施例中,通过以下步骤计算每一所述预测位置信息与每一所述ROI区域之间的IOU值:分别计算预测位置信息与ROI区域之间的重叠区域面积、并集区域面积;通过所述重叠区域面积除以所述并集区域面积得到所述IOU值。
在一些实施例中,所述根据所述IOU值确定每一第二对象对应的目标对象包括:基于所述IOU值构建IOU结果矩阵,当所述IOU结果矩阵中的行最大值大于预定值时,确定该ROI区域中存在与该第二对象对应的目标对象。
在一些实施例中,在计算每一所述预测位置信息与每一所述ROI区域之间的IOU值之前,所述方法还包括:第二识别模型将每一图片数据划分为多个预测框,通过特征提取器及特征金字塔网络输出每一预测框的置信度及偏移量;按照所述预测框的置信度的高低将每一所述预测框依次排序,当置信度低于预设置信度时,删除该预测框;采用非极大值抑制算法依次计算预测框的偏移量,筛选得到M个预测位置信息。
在一些实施例中,所述采用非极大值抑制算法依次计算预测框的偏移量,筛选得到M个预测位置信息,包括:依次计算所述预测框两两之间的偏移量的重叠度,当所述重叠度大于预定重叠度时,保留置信度较高的预测框,遍历所有预测框后,得到M个预测位置信息。
在一些实施例中,所述第一识别模型、第二识别模型、第三识别模型的训练过程包括:分别获取包括第一对象的第一数据集、包括第二对象的第二数据集、包括第三对象的第三数据集;对所述第一数据集、第二数据集、第三数据集分别进行第一对象、第二对象、第三对象标注;将标注后的第一数据集、第二数据集、第三数据集分别输入基于YOLO算法的目标检测神经网络模型中进行迭代训练得到能对第一对象、第二对象、第三对象进行识别的第一识别模型、第二识别模型、第三识别模型。
本申请实施例提供一种基于智能视觉的目标对象识别装置,所述装置包括:
获取模块,用于获取图片数据;识别模块,用于将所述图片数据输入第一识别模型中,得到第一对象的识别结果;所述识别模块还用于基于所述第一对象的识别结果,将所述图片数据输入第二识别模型中,得到每一图片数据中多个第二对象的属性信息;其中,所述属性信息包括:第二对象的位置信息、第二对象的状态信息及第二对象的数量信息;生成模块,用于基于所述第二对象的位置信息对应生成M个预测位置信息,基于所述第二对象的数量信息N预定义N个ROI区域;计算模块,用于计算每一所述预测位置信息与每一所述ROI区域之间的IOU值,根据所述IOU值确定每一第二对象对应的目标对象;其中,N、M均为自然数;告警模块,用于当所述第二对象的状态信息为第一状态时,通过与该第二对象对应的目标对象进行危险告警。
本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于设备执行的程序代码,该程序代码包括用于执行上述任一种的识别方法。
本发明通过网络摄像头获取监控,接入人工智能目标检测算法对信号灯进行实时监测,实时反馈信号灯识别的状态,进而识别人员闯入。该方法不仅可以减少人工成本,并且通过几次模型的迭代准确率稳定且达到99%以上。
附图说明
图1为本申请实施例1提供的识别方法的流程示意图;
图2为本申请实施例2提供的识别方法的流程示意图;
图3为本申请实施例2提供的计算IOU值的示意图;
图4为本申请实施例3提供的识别装置组成示意图。
具体实施方式
下面将结合示意图对本发明的具体实施方式进行更详细的描述。根据下列描述,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
实施例1 本申请实施例1提供一种基于智能视觉的目标对象识别方法,图1为本申请实施例1提供的识别方法的流程示意图,参考图1,所述识别方法包括:
步骤S101:获取图片数据,将所述图片数据输入第一识别模型中,得到第一对象的识别结果;在本申请实施例中,通过安装于应用场景中的摄像头监控应用场景,通过摄像头拍摄现场视频或图片获取图片数据,将图片数据输入第一识别模型中,第一识别模型用于对图片数据中的第一对象进行识别,得到图片数据中第一对象的识别结果,这里,第一对象可以是进入场景中的人或物体。识别结果为图片数据中存在第一对象,或图片数据中不存在第一对象。在本申请实施例中,第一识别模型基于图片数据还输出第一对象的二维坐标信息,包括第一对象在图片数据中的左上角和右下角两个二维坐标,示例性地,第一对象的二维坐标表示为(x11,y11,x12,y12)
步骤S102:基于所述第一对象的识别结果,将所述图片数据输入第二识别模型中,得到每一图片数据中多个第二对象的属性信息;其中,所述属性信息包括:第二对象的位置信息、第二对象的状态信息及第二对象的数量信息。
本申请实施例中,当识别结果为图片数据中存在第一对象时,表明此时有人或物体进入了当前场景中,此时,将该图片数据输入第二识别模型中,第二识别模型用于识别图片数据中的第二对象,通过第二识别模型输出第二对象的属性信息,包括第二对象的位置信息、第二对象的状态信息及第二对象的数量信息。这里,第二对象为场景中的信号灯或指示灯等。
步骤S103:基于所述第二对象的数量信息N预定义N个ROI(region of interest,感兴趣)区域,基于所述第二对象的位置信息对应生成M个预测位置信息;其中,N、M均为自然数。通过引入先验信息(需要检测的目标的大致位置)来确定最终的第二对象的位置信息,提高了模型预测结果的准确性,有助于后续的行人闯入判断,提高了后续逻辑判断的精度。并且预定义的ROI区域的位置是可以再次修改的,具有一定的灵活性,当换一个改变了堆垛机位置的场景时,只需要调整一下预定义的ROI即可,不需要对模型进行重新训练或是其他优化。
在机器视觉及图像处理中,从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域,称为ROI区域。使用ROI区域圈定检测的目标区域,可以减少处理时间,增加精度。这里,预定义的ROI区域数量与第二对象的数量信息相同,也就是说,对每一个第二对象均预定义一个ROI区域,ROI区域的范围大于预测位置信息的范围,如此,通过预定义的ROI区域来进一步确定每一第二对象对应的目标对象。
本申请实施例中,设置有多个第二对象,且每一第二对象对应一目标对象,为确定目标对象对应于哪一个第二对象,首先基于第二对象的的数量信息N预定义N个ROI区域,随后基于第二对象的位置信息对应生成M个预测位置信息,这里,预定义与第二对象数量N相同的ROI区域,第二识别模型基于位置信息会生成多个预测位置信息,通过ROI区域与预测位置信息来确定目标对象对应的第二对象。
步骤S104:计算每一所述预测位置信息与每一所述ROI区域之间的IOU(Intersection over Union)值,根据所述IOU值确定每一第二对象对应的目标对象。IOU值可以衡量两个区域(每个区域有四个坐标)的距离,当两个区域的距离较远时IOU的值就更小,距离更近时就更大;当两个区域有重叠部分的时候IOU才有值且范围是0到1之间,当没有重叠区域的时候则为0。
本申请实施例中,由第二识别模型输出M个预测位置信息,这里的预测位置信息为一包含第二对象的区域,这里,第二识别模型输出内容还包括:预测位置信息的二维坐标,这里的二位坐标包括预测位置信息在图片数据中的左上角、右下角的二维坐标,示例性地,第二对象的二维坐标表示为(x21,y21,x22,y22)。相应的,预定义的ROI区域的二维坐标为(xr1,yr1,xr2,yr2),其中,(xr1,yr1)为预定义ROI区域的左上角坐标,(xr2,yr2)为ROI区域的右下角坐标。根据第二识别模型输出的第二对象的预测位置信息坐标(x21,y21,x22,y22)与预定义的ROI区域的坐标(xr1,yr1,xr2,yr2),计算IOU重叠值,从而匹配第二对象对应的目标对象。
当步骤S104中计算的IOU值满足匹配规则时,进行步骤S105:当所述第二对象的状态信息为第一状态时,通过与该第二对象对应的目标对象进行危险告警。
本申请实施例中,匹配规则为:计算N个预测位置信息与M个ROI区域之间IOU值,得到一个[N,M]的IOU结果矩阵,每一行取最大值,最大值IOU阈值大于预定值即为满足匹配规则,此时获取第二对象的状态信息,当所述状态信息为第一状态时,通过与该第二对象对应的目标对象进行危险告警。这里,第一状态为第二对象表示其对应的目标对象处于运行状态的状态,例如,可以是第二对象常量、或第二对象处于红色信号灯状态,均表明第二对象对应的目标对象正在运行,此时场景中有人或物进入,则发出危险告警信息,提示进入人或物。
本申请实施例中通过第一识别模型首先判断是否有第一对象进入场景,若有,通过第二模型获取第二对象的属性信息,基于第二对象的属性信息匹配与第二对象对应的目标对象,通过与目标对象对应的第二对象的状态信息反馈目标对象的状态,当第二对象处于第一状态时,通过与之对应的目标对象发出危险告警信息,提示场景进入的第一对象。本实施例通过网络摄像头获取监控,接入人工智能目标检测算法对信号灯进行实时监测,实时反馈信号灯识别的状态,进而识别人员闯入。该方法不仅可以减少人工成本,并且通过几次模型的迭代准确率稳定且达到99%以上。
实施例2 本申请实施例提供一种基于智能视觉的目标对象识别方法,图2为本申请实施例提供的识别方法的流程示意图,参见图2,所述方法包括:
步骤S201:获取图片数据,将所述图片数据输入第一识别模型中,得到第一对象的识别结果。本申请实施例提供的识别方法应用于锂电池行业的静置库场景,在该场景中,使用堆垛机来搬运货物,静置库中存在多个堆垛机,堆垛机在工作时高速移动,通过安装信号灯来反馈堆垛机的使用状态,例如每一堆垛机对应一信号灯,当堆垛机工作时,信号灯常亮,当堆垛机静息时,信号灯灭,如此通过信号灯判断堆垛机的工作情况,在堆垛机工作区域内有人员进入时,通过本实施例提供的识别方法采用相应的堆垛机发出危险告警,避免安全事故的发生。
通过安装于静置库中的摄像头监控静置库场景,可以理解的是,静置库安装多个摄像头,拍摄现场视频或图片,并获取图片数据,将图片数据输入第一识别模型中,第一识别模型用于对图片数据中的第一对象进行识别,得到图片数据中第一对象的识别结果以及第一对象在图片数据中的坐标信息。这里,第一对象可以是进入静置库场景中的人或物体。识别结果为图片数据中存在第一对象,或图片数据中不存在第一对象。
在本申请实施例中,所述第一识别模型的训练过程包括:获取包括第一对象的第一数据集,对所述第一数据集进行第一对象标注;将标注后的第一数据集输入基于YOLO算法的目标检测神经网络模型中进行迭代训练得到能对第一对象进行识别的第一识别模型。这里可以采用人工标注的方法进行第一对象标注。
目标检测神经网络模型使用了YOLOv5的检测框架,通过对其进行训练得到了第一识别模型,YOLOv5是一种目标检测算法,首先将输入的图片数据缩放到统一的大小,再将图片数据分成N×N的网格,如果目标的中心点在某个网格中,则该网格以及该网格附近的网格对该目标进行预测;每个网格会输出目标的分类概率,能够反应目标是否存在的置信度,以及边框的偏移量,对于不同大小的目标框,首先会给每一个网格预定义一组锚框,然后将每个网格输出的边框偏移量与预定义的锚框进行计算得到最终的预测框。YOLOv5的网络结构是一种基于骨干网络和特征金字塔网络的结构。其中,骨干网络用于提取图片数据的特征,而特征金字塔网络则用于在不同尺度上进行目标检测。具体来说,采用CSPNet结构作为图像特征提取器,能够在保持精度的情况下减少模型的参数量以及计算量;包含自底向上与自顶向下结构的多层金字塔网络PANet,融合多尺度特征图的信息,高层高级语义的信息与低层纹理信息的融合,能够适应尺度不一的目标,在网络结构上进行了一些优化,以提高检测性能和速度。YOLOv5使用的是一种基于IoU的多任务损失函数。该损失函数包括三部分:分类损失、边界框损失和置信度损失。其中,分类损失用于衡量分类的准确性,边界框损失用于衡量边界框的准确性,置信度损失用于衡量检测的准确性。YOLOv5使用的是FocalLoss和CIoU Loss来计算损失值,以提高模型的鲁棒性和精度。YOLOv5的训练过程使用的是一种基于自适应热启动和多尺度训练的方法。在自适应热启动中,网络会从小模型逐渐增加到大模型,以加速训练过程。在多尺度训练中,网络会在不同尺度下进行训练,以提高模型的泛化能力和精度。
步骤S202:基于所述第一对象的识别结果,将所述图片数据输入第二识别模型中,得到每一图片数据中多个第二对象的属性信息;其中,所述属性信息包括:第二对象的位置信息、第二对象的状态信息及第二对象的数量信息。
本申请实施例中,当识别结果为图片数据中存在第一对象时,表明此时有人或物体进入了静置库中,此时,将该图片数据输入第二识别模型中,第二识别模型用于识别图片数据中的第二对象,再静置库场景下,第二对象可以是信号灯,通过第二识别模型输出第二对象的属性信息,包括第二对象的位置信息、第二对象的状态信息及第二对象的数量信息。
步骤S203:基于所述第二对象的数量信息N预定义N个ROI区域,基于所述第二对象的位置信息对应生成M个预测位置信息;其中,N、M均为自然数。这里,N与N为不同的自然数,对于第二识别模型而言,基于位置信息生成多个预测位置信息,预测位置信息的范围大于位置信息,以便更精确识别第二对象。
本申请实施例中,设置有多个第二对象,且每一第二对象对应一目标对象,为确定目标对象对应于哪一个第二对象,首先基于第二对象的的数量信息N预定义N个ROI(regionof interest,感兴趣)区域,随后基于第二对象的位置信息对应生成M个预测位置信息,这里,预定义与第二对象数量N相同的ROI区域,第二识别模型基于位置信息会生成多个预测位置信息,通过ROI区域与预测位置信息来确定目标对象对应的第二对象。
本申请实施例中,在步骤S204之前,所述方法还包括:
步骤S231:第二识别模型将每一图片数据划分为多个预测框,通过特征提取器及特征金字塔网络输出每一预测框的置信度及偏移量;这里,将图片数据划分为多个预测框进行预测,并输出每一与曾框包含目标的分类概率、反应目标是否存在的置信度、以及边框的偏移量。如此得到的输出是稠密的,但一般来说图像数据中的目标比较少,所以得到输出之后需要对稠密的预测输出进行筛选,通过置信度和非极大值抑制算法将多于的预测框去除,遍历所有的预测框,最终保留预测框即为上述预测位置信息。
具体的,步骤S232:按照所述预测框的置信度的高低将每一所述预测框依次排序,当置信度低于预设置信度时,删除该预测框。
步骤S233:采用非极大值抑制算法依次计算预测框的偏移量,筛选得到M个预测位置信息。这里,步骤S233包括:依次计算所述预测框两两之间的偏移量的重叠度,当所述重叠度大于预定重叠度时,保留置信度较高的预测框,遍历所有预测框后,得到M个预测位置信息。如此,通过非极大值抑制算法筛选得到的预测位置信息较为准确。
步骤S204:计算每一所述预测位置信息与每一所述ROI区域之间的IOU(Intersection over Union)值,根据所述IOU值确定每一第二对象对应的目标对象。
在本申请实施例中,第二对象的二维坐标表示为(x21,y21,x22,y22)。相应的,预定义的ROI区域的二维坐标为(xr1,yr1,xr2,yr2)。根据第二识别模型输出的第二对象的预测位置信息坐标(x21,y21,x22,y22)与预定义的ROI区域的坐标(xr1,yr1,xr2,yr2),计算IOU值。图3为本申请实施例提供的计算IOU值的示意图,参见图3,步骤S204包括:步骤S241:分别计算预测位置信息301与ROI区域302之间的重叠区域面积、并集区域面积;通过所述重叠区域面积除以所述并集区域面积得到所述IOU值。
步骤S242:基于所述IOU值构建IOU结果矩阵,当所述IOU结果矩阵中的行最大值大于预定值时,确定该ROI区域中存在与该第二对象对应的目标对象。本申请实施例中,计算N个预测位置信息与M个ROI区域之间IOU值,得到由[N,M]组成的IOU结果矩阵,每一行取最大值,当行最大值大于预定值时,将该行代表的目标对象确定为与该第二对象对应的。
确定出第二对象对应的目标对象之后,进行步骤S205或步骤S206:
步骤S205:当所述第二对象的状态信息为第一状态时,通过与该第二对象对应的目标对象进行危险告警。
步骤S206:当所述第二对象的状态信息为第二状态时,采用第三识别模型识别目标区域内的第一对象是否满足预定条件;当所述目标区域内的第一对象不满足预定条件,通过与该第二对象对应的目标对象进行危险告警。
在本申请实施例中,通过第二对象的状态信息来反馈目标对象的工作情况,当目标对象处于工作状态时,第二对象为第一状态,例如第二对象常亮,此时有人员进入静置库场景,直接通过与该第二对象对应的目标对象进行危险告警,提示人员。当目标对象未处于工作状态时,第二对象为第二状态,例如第二对象信号灯灭,此时通过第三识别模型判断第一对象是否满足预定条件,这里的预定条件可以是第一对象是否采取防护措施,例如,第一对象是否佩戴安全帽,或者第一对象是否穿戴防护设备等,当第一对象不满足预定条件,通过第二对象对应的目标对象进行危险告警。
在本申请实施例中,所述第一识别模型、第二识别模型、第三识别模型的训练过程包括:分别获取包括第一对象的第一数据集、包括第二对象的第二数据集、包括第三对象的第三数据集;对所述第一数据集、第二数据集、第三数据集分别进行第一对象、第二对象、第三对象标注;将标注后的第一数据集、第二数据集、第三数据集分别输入基于YOLO算法的目标检测神经网络模型中进行迭代训练得到能对第一对象、第二对象、第三对象进行识别的第一识别模型、第二识别模型、第三识别模型。这里,可以采用人工标注的方式进行第一对象、第二对象、第三对象标注。在训练得到第一识别模型、第二识别模型、第三识别模型之后,可以将测试集输入第一识别模型、第二识别模型、第三识别模型,将误判样本加入测试集迭代完善第一识别模型、第二识别模型、第三识别模型。
实施例3 本申请实施例提供一种基于智能视觉的目标对象识别装置,图4为本申请实施例3提供的检测装置的组成示意图,参考图4,所述装置400包括:
获取模块401,用于获取图片数据;识别模块402,用于将所述图片数据输入第一识别模型中,得到第一对象的识别结果;所述识别模块还用于基于所述第一对象的识别结果,将所述图片数据输入第二识别模型中,得到每一图片数据中多个第二对象的属性信息;其中,所述属性信息包括:第二对象的位置信息、第二对象的状态信息及第二对象的数量信息;生成模块403,用于基于所述第二对象的位置信息对应生成M个预测位置信息,基于所述第二对象的数量信息N预定义N个ROI区域;计算模块404,用于计算每一所述预测位置信息与每一所述ROI区域之间的IOU值,根据所述IOU值确定每一第二对象对应的目标对象;其中,N、M均为自然数;告警模块405,用于当所述第二对象的状态信息为第一状态时,通过与该第二对象对应的目标对象进行危险告警。
在一些实施例中,所述识别模块402还用于当所述第二对象的状态信息为第二状态时,采用第三识别模型识别目标区域内的第一对象是否满足预定条件;所述告警模块405还用于当所述目标区域内的第一对象不满足预定条件,通过与该第二对象对应的目标对象进行危险告警。
实施例4本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于设备执行的程序代码,该程序代码包括用于执行上述任一实施例所述的识别方法。
以上所述仅是本发明的优选实施例而已,并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (10)
1.一种基于智能视觉的目标对象识别方法,其特征在于,所述识别方法包括:
获取图片数据,将所述图片数据输入第一识别模型中,得到第一对象的识别结果;
基于所述第一对象的识别结果,将所述图片数据输入第二识别模型中,得到每一图片数据中多个第二对象的属性信息;其中,所述属性信息包括:第二对象的位置信息、第二对象的状态信息及第二对象的数量信息;
基于所述第二对象的数量信息N预定义N个ROI区域,基于所述第二对象的位置信息对应生成M个预测位置信息;其中,N、M均为自然数;
计算每一所述预测位置信息与每一所述ROI区域之间的IOU值,根据所述IOU值确定每一第二对象对应的目标对象;
当所述第二对象的状态信息为第一状态时,通过与该第二对象对应的目标对象进行危险告警。
2.根据权利要求1所述的识别方法,其特征在于,所述方法还包括:
当所述第二对象的状态信息为第二状态时,采用第三识别模型识别目标区域内的第一对象是否满足预定条件;
当所述目标区域内的第一对象不满足预定条件,通过与该第二对象对应的目标对象进行危险告警。
3.根据权利要求1所述的识别方法,其特征在于,所述第一对象的识别结果包括:第一对象在所述图片数据中的坐标信息。
4.根据权利要求1所述的识别方法,其特征在于,通过以下步骤计算每一所述预测位置信息与每一所述ROI区域之间的IOU值:
分别计算预测位置信息与ROI区域之间的重叠区域面积、并集区域面积;
通过所述重叠区域面积除以所述并集区域面积得到所述IOU值。
5.根据权利要求4所述的识别方法,其特征在于,所述根据所述IOU值确定每一第二对象对应的目标对象包括:
基于所述IOU值构建IOU结果矩阵,当所述IOU结果矩阵中的行最大值大于预定值时,确定该ROI区域中存在与该第二对象对应的目标对象。
6.根据权利要求1所述的识别方法,其特征在于,在计算每一所述预测位置信息与每一所述ROI区域之间的IOU值之前,所述方法还包括:
第二识别模型将每一图片数据划分为多个预测框,通过特征提取器及特征金字塔网络输出每一预测框的置信度及偏移量;
按照所述预测框的置信度的高低将每一所述预测框依次排序,当置信度低于预设置信度时,删除该预测框;
采用非极大值抑制算法依次计算预测框的偏移量,筛选得到M个预测位置信息。
7.根据权利要求6所述的识别方法,其特征在于,所述采用非极大值抑制算法依次计算预测框的偏移量,筛选得到M个预测位置信息,包括:
依次计算所述预测框两两之间的偏移量的重叠度,当所述重叠度大于预定重叠度时,保留置信度高的预测框,遍历所有预测框后,得到M个预测位置信息。
8.根据权利要求2所述的识别方法,其特征在于,所述第一识别模型、第二识别模型、第三识别模型的训练过程包括:
分别获取包括第一对象的第一数据集、包括第二对象的第二数据集、包括第三对象的第三数据集;
对所述第一数据集、第二数据集、第三数据集分别进行第一对象、第二对象、第三对象标注;
将标注后的第一数据集、第二数据集、第三数据集分别输入基于YOLO算法的目标检测神经网络模型中进行迭代训练得到能对第一对象、第二对象、第三对象进行识别的第一识别模型、第二识别模型、第三识别模型。
9.一种基于智能视觉的目标对象识别装置,其特征在于,所述装置包括:
获取模块,用于获取图片数据;
识别模块,用于将所述图片数据输入第一识别模型中,得到第一对象的识别结果;所述识别模块还用于基于所述第一对象的识别结果,将所述图片数据输入第二识别模型中,得到每一图片数据中多个第二对象的属性信息;其中,所述属性信息包括:第二对象的位置信息、第二对象的状态信息及第二对象的数量信息;
生成模块,用于基于所述第二对象的位置信息对应生成M个预测位置信息,基于所述第二对象的数量信息N预定义N个ROI区域;
计算模块,用于计算每一所述预测位置信息与每一所述ROI区域之间的IOU值,根据所述IOU值确定每一第二对象对应的目标对象;其中,N、M均为自然数;
告警模块,用于当所述第二对象的状态信息为第一状态时,通过与该第二对象对应的目标对象进行危险告警。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于设备执行的程序代码,该程序代码包括用于执行如权利要求1-8中任一项所述的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410256915.2A CN117854211B (zh) | 2024-03-07 | 2024-03-07 | 一种基于智能视觉的目标对象识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410256915.2A CN117854211B (zh) | 2024-03-07 | 2024-03-07 | 一种基于智能视觉的目标对象识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117854211A CN117854211A (zh) | 2024-04-09 |
CN117854211B true CN117854211B (zh) | 2024-05-28 |
Family
ID=90532990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410256915.2A Active CN117854211B (zh) | 2024-03-07 | 2024-03-07 | 一种基于智能视觉的目标对象识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117854211B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9424749B1 (en) * | 2014-04-15 | 2016-08-23 | Amanda Reed | Traffic signal system for congested trafficways |
KR101780320B1 (ko) * | 2017-03-17 | 2017-10-10 | 세종신호(주) | 지능형 다기능 영상 감시 시스템 |
CN111368715A (zh) * | 2020-03-02 | 2020-07-03 | 厦门中控智慧信息技术有限公司 | 一种指纹防伪方法、装置和设备 |
CN113287148A (zh) * | 2018-11-22 | 2021-08-20 | 普雷西恩私人有限公司 | 用于识别定义对象并警告用户的系统和方法 |
WO2022088716A1 (zh) * | 2020-10-30 | 2022-05-05 | 北京旷视机器人技术有限公司 | 仓库管理方法、装置、系统及电子设备 |
CN114882435A (zh) * | 2022-05-17 | 2022-08-09 | 新智认知数据服务有限公司 | 仓储场景人车安全距离识别方法、电子设备及存储介质 |
CN115604424A (zh) * | 2022-09-09 | 2023-01-13 | 国网西藏电力有限公司拉萨供电公司(Cn) | 一种物资仓储安防管理系统 |
US11676291B1 (en) * | 2020-04-20 | 2023-06-13 | Everguard, Inc. | Adaptive multimodal safety systems and methods |
KR20230103002A (ko) * | 2021-12-30 | 2023-07-07 | 소프트온넷(주) | 산업 현장의 안전 관리 시스템 |
US11756427B1 (en) * | 2014-04-15 | 2023-09-12 | Amanda Reed | Traffic signal system for congested trafficways |
CN116863434A (zh) * | 2022-03-24 | 2023-10-10 | 中国联合网络通信集团有限公司 | 叉车预警方法、装置、电子设备及计算机可读存储介质 |
CN117079082A (zh) * | 2023-10-16 | 2023-11-17 | 南京奥看信息科技有限公司 | 一种智能视觉图像目标物的检测方法、装置及dmc设备 |
CN117422857A (zh) * | 2023-09-06 | 2024-01-19 | 北京理工大学 | 一种司法证据图像的目标检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109478267B (zh) * | 2016-08-25 | 2022-03-29 | 克朗设备公司 | 基于观察的事件跟踪 |
CN110298298B (zh) * | 2019-06-26 | 2022-03-08 | 北京市商汤科技开发有限公司 | 目标检测及目标检测网络的训练方法、装置及设备 |
CN116958195A (zh) * | 2022-04-13 | 2023-10-27 | 纬创资通股份有限公司 | 物件追踪整合方法及整合装置 |
-
2024
- 2024-03-07 CN CN202410256915.2A patent/CN117854211B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9424749B1 (en) * | 2014-04-15 | 2016-08-23 | Amanda Reed | Traffic signal system for congested trafficways |
US11756427B1 (en) * | 2014-04-15 | 2023-09-12 | Amanda Reed | Traffic signal system for congested trafficways |
KR101780320B1 (ko) * | 2017-03-17 | 2017-10-10 | 세종신호(주) | 지능형 다기능 영상 감시 시스템 |
CN113287148A (zh) * | 2018-11-22 | 2021-08-20 | 普雷西恩私人有限公司 | 用于识别定义对象并警告用户的系统和方法 |
CN111368715A (zh) * | 2020-03-02 | 2020-07-03 | 厦门中控智慧信息技术有限公司 | 一种指纹防伪方法、装置和设备 |
US11676291B1 (en) * | 2020-04-20 | 2023-06-13 | Everguard, Inc. | Adaptive multimodal safety systems and methods |
WO2022088716A1 (zh) * | 2020-10-30 | 2022-05-05 | 北京旷视机器人技术有限公司 | 仓库管理方法、装置、系统及电子设备 |
KR20230103002A (ko) * | 2021-12-30 | 2023-07-07 | 소프트온넷(주) | 산업 현장의 안전 관리 시스템 |
CN116863434A (zh) * | 2022-03-24 | 2023-10-10 | 中国联合网络通信集团有限公司 | 叉车预警方法、装置、电子设备及计算机可读存储介质 |
CN114882435A (zh) * | 2022-05-17 | 2022-08-09 | 新智认知数据服务有限公司 | 仓储场景人车安全距离识别方法、电子设备及存储介质 |
CN115604424A (zh) * | 2022-09-09 | 2023-01-13 | 国网西藏电力有限公司拉萨供电公司(Cn) | 一种物资仓储安防管理系统 |
CN117422857A (zh) * | 2023-09-06 | 2024-01-19 | 北京理工大学 | 一种司法证据图像的目标检测方法 |
CN117079082A (zh) * | 2023-10-16 | 2023-11-17 | 南京奥看信息科技有限公司 | 一种智能视觉图像目标物的检测方法、装置及dmc设备 |
Non-Patent Citations (1)
Title |
---|
Detection of moving objects in multi-complex environments using selective attention networks (SANet);Jaemin Cho等;《Automation in Construction》;20230827;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117854211A (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ukhwah et al. | Asphalt pavement pothole detection using deep learning method based on YOLO neural network | |
US20220084186A1 (en) | Automated inspection system and associated method for assessing the condition of shipping containers | |
CN111310645A (zh) | 货物堆积量的溢仓预警方法、装置、设备及存储介质 | |
CN113822247A (zh) | 基于航拍影像的违章建筑识别方法及系统 | |
CN112184773A (zh) | 一种基于深度学习的安全帽佩戴检测方法及系统 | |
CN116109047A (zh) | 一种基于三维智能检测的智能调度方法 | |
CN114842332A (zh) | 一种库位检测方法和系统 | |
CN117975368A (zh) | 一种路径追踪方法及其仓库信息记录的方法 | |
CN112794274B (zh) | 一种油罐车底部装油口安全监控方法及系统 | |
CN112686162B (zh) | 仓库环境整洁状态的检测方法、装置、设备和存储介质 | |
Shen et al. | An automatic framework for pylon detection by a hierarchical coarse-to-fine segmentation of powerline corridors from UAV LiDAR point clouds | |
CN117854211B (zh) | 一种基于智能视觉的目标对象识别方法及装置 | |
CN117563960A (zh) | 一种自动化外观检测方法和装置 | |
CN115880598B (zh) | 一种基于无人机的地面图像检测方法及相关装置 | |
CN115082832A (zh) | 信息识别方法、装置及存储介质 | |
CN114169404A (zh) | 一种基于图像智能获取边坡病害量化信息方法 | |
Sulistyaningrum et al. | Pavement Distress Classification Using Deep Learning Method Based on Digital Image | |
CN113569954A (zh) | 一种野生动物智能分类识别方法 | |
Carratù et al. | Vision-Based System for Measuring the Diameter of Wood Logs | |
CN115376275B (zh) | 一种基于图像处理的施工安全告警方法及系统 | |
CN115131307B (zh) | 物品缺陷检测方法及相关装置 | |
CN118505613A (zh) | 基于3d激光点云的集装箱空箱夹层判断方法与系统 | |
US20230316760A1 (en) | Methods and apparatuses for early warning of climbing behaviors, electronic devices and storage media | |
Kim et al. | Delivery Invoice Information Classification System for Joint Courier Logistics Infrastructure. | |
CN117011884A (zh) | 基于ai训练的物种鉴定方法、系统、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |