CN116612347A - 基于考场违规的深度学习模型训练方法 - Google Patents
基于考场违规的深度学习模型训练方法 Download PDFInfo
- Publication number
- CN116612347A CN116612347A CN202310487547.8A CN202310487547A CN116612347A CN 116612347 A CN116612347 A CN 116612347A CN 202310487547 A CN202310487547 A CN 202310487547A CN 116612347 A CN116612347 A CN 116612347A
- Authority
- CN
- China
- Prior art keywords
- examination room
- target
- sample
- frame
- monitoring image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 184
- 238000000034 method Methods 0.000 title claims abstract description 98
- 238000013136 deep learning model Methods 0.000 title claims abstract description 50
- 238000012544 monitoring process Methods 0.000 claims abstract description 206
- 238000001514 detection method Methods 0.000 claims abstract description 107
- 238000002372 labelling Methods 0.000 claims description 102
- 238000005520 cutting process Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000012550 audit Methods 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000004378 air conditioning Methods 0.000 claims 1
- 238000010801 machine learning Methods 0.000 abstract description 5
- 238000003860 storage Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 17
- 238000013135 deep learning Methods 0.000 description 12
- 238000005286 illumination Methods 0.000 description 9
- 230000002776 aggregation Effects 0.000 description 6
- 238000004220 aggregation Methods 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241000592183 Eidolon Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及机器学习技术领域,提供了一种基于考场违规的深度学习模型训练方法,方法部分包括:首先获取考场监控图像样本集,其中,考场监控图像样本集包括至少一个考场监控图像样本,然后按照预设数据增强策略对考场监控图像样本进行数据增强,确定目标训练样本集。利用目标训练样本集,对预设检测模型进行训练,得到目标检测模型。通过利用数据增强后得到的目标训练样本对预设检测模型进行训练,得到目标检测模型,能够有效提高目标检测模型的检测效率。
Description
技术领域
本申请涉及机器学习技术领域,尤其涉及一种基于考场违规的深度学习模型训练方法。
背景技术
考试是对学生的一个学习阶段结束后的重要考核途径。目前除了如高考一样的大型国家级考试以外,还有大大小小的线上线下考试。为了规范考场秩序、防范考生作弊,线下考场通常会安排规范的考场环境、全天监考的教职工,以及一整套严密的监考规范系统。随着近年来疫情的发展,部分线下考试也必须按照规定转移到线上监考。这就要求传统监考规范系统亟待做出改变,建立起一套完善的智能监考系统,以适应各种类型的考场进行高效监测,从而减轻监考人员的压力、加强维护考场秩序力度和保障考场公平性。
当前,考场智能监考系统通常采用基于深度学习的目标检测方法来进行功能实现。深度学习是一门由数据驱动的算法学科,它对于真实数据处理的要求极高,但现有的智能监考系统一般是将考场监控图像数据输入至深度学习网络(Deep Neural Network,DNN)模型进行训练,以得到目标检测模型,而由于考场监控图像数据中可能存在小目标物体分辨率低、特征少、同一目标物体的尺度跨度大,多种尺度并存等问题,若直接将考场监控图像数据输入至深度学习网络模型可能导致训练好的目标检测模型的检测效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种基于考场违规的深度学习模型训练方法,以解决现有基于考场违规的深度学习模型训练方案中存在模型训练效率较低的问题。
本申请实施例的第一方面提供了一种基于考场违规的深度学习模型训练方法,所述方法包括:获取考场监控图像样本集,所述考场监控图像样本集包括至少一个考场监控图像样本;按照预设数据增强策略对所述考场监控图像样本进行数据增强,确定目标训练样本集;利用所述目标训练样本集,对预设检测模型进行训练,得到目标检测模型。
本申请实施例的第二方面提供了一种基于考场违规的深度学习模型训练装置,所述装置包括:
获取模块,用于获取考场监控图像样本集,所述考场监控图像样本集包括至少一个考场监控图像样本;数据增强模块,用于按照预设数据增强策略对所述考场监控图像样本进行数据增强,确定目标训练样本集;训练模块,用于利用所述目标训练样本集,对预设检测模型进行训练,得到目标检测模型。
本申请实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述基于考场违规的深度学习模型训练方法。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或多个存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述基于考场违规的深度学习模型训练方法。
在本申请实施例提供的一种基于考场违规的深度学习模型训练方法中,通过在模型训练过程中,按照预设数据增强策略对用于模型训练的考场监控图像样本进行数据增强,以克服考场监控图像样本中可能存在小目标物体分辨率低、特征少、同一物体尺度跨度大,多尺度并存等问题,增强考场监控图像样本的表征能力,如此,利用数据增强后得到的目标训练样本对预设检测模型进行训练,得到目标检测模型,能够有效提高目标检测模型的检测效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的基于考场违规的深度学习模型训练方法的应用环境图;
图2是本申请实施例提供的基于考场违规的深度学习模型训练方法的实现流程图;
图3是本申请实施例提供的数据标注方法的流程示例图;
图4是本申请实施例提供的锚框配置方法的实现流程示例图;
图5是本申请实施例提供的考场监控图像的负样本区域示例图;
图6是本申请实施例提供的考场监控图像示例图;
图7是本申请实施例提供的切图方法的实现流程示例图;
图8是本申请实施例提供的目标预测像素偏移示例图;
图9是本申请实施例提供的数据增强方法的实现流程示例图;
图10是本申请实施例提供的超参搜索流程示例图;
图11是本申请实施例提供的基于考场违规的深度学习模型训练方法的实现流程示例图;
图12是本申请实施例提供的基于考场违规的深度学习模型训练装置的结构示意图;
图13是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1所示,为本申请实施例提供的基于考场违规的深度学习模型训练方法的应用环境图。如图1所示,服务端与终端通信连接。在本申请的一实施例中,服务端向终端发送数据请求,终端接收到数据请求后,将考场监控图像样本集打包成数据包,通过网络协议将数据包返回至服务端。服务端接收到数据包,对其进行解析,提取到考场监控图像样本集。服务端按照预设数据增强策略对考场监控图像样本集中的考场监控图像样本进行数据增强,得到目标训练样本集。然后,服务端利用目标训练样本集对预设检测模型进行训练,得到目标检测模型。其中,服务端可以用独立的服务器或者是多个服务器组成的服务器集群,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备等设备中的一种。
在本申请的其他实施例中,服务端还可以通过爬虫程序从网络下载考场监控图像样本集,或从本地存储设备中读取考场监控图像样本集等,本申请对服务端获取考场监控图像样本集的方式不作限定。
在本申请的一实施例中,还可以由具备存储器、处理器以及存储在存储器中并可在处理器上运行的计算机可读指令的电子设备实现上述模型训练过程。
请参阅图2,图2所示为本申请实施例提供的基于考场违规的深度学习模型训练方法的实现流程图,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
S11:获取考场监控图像样本集,考场监控图像样本集包括至少一个考场监控图像样本。
在本申请的一实施例中,考场监控图像样本可以是原始考场监控图像,也可以是红绿蓝同步信号(Red Green Blue sync-on-green,RGBs)图像。
在本申请的一实施例中,获取训练样本是机器学习与深度学习等人工智能技术的基础之一。获取高质量的训练样本是成功应用机器学习算法的关键。而本申请实施例中目标检测模型为机器学习算法中的深度学习模型,因此为了训练得到目标检测模型,服务端需要获取考场监控图像样本集。在本申请的一实施例中,服务端可以通过爬虫技术,使用开放数据集等方式获取大量高质量的考场监控图像样本,得到考场监控图像样本集,以提高目标检测模型的检测效率。
S12:按照预设数据增强策略对考场监控图像样本进行数据增强,确定目标训练样本集。
在本申请的一实施例中,预设数据增强策略是综合数据增强方法以实现增强考场监控图像样本表征的策略。
在相关的模型训练方案中,可能出现的考场监控图像数据转换到深度学习模型可用数据效率低下,训练数据量少;小目标物体分辨率低,特征少,经不起深度学习模型的下采样处理;同一目标物体尺度跨度大,多种尺度并存,加大了检测方法的学习困难;目标尺度分布不均衡,小目标样本稀缺,导致检测方法的漏检率高等问题。为了解决上述技术问题,服务端在模型训练过程中,按照预设数据增强策略对考场监控图像样本进行数据增强,得到目标训练样本集,利用目标训练样本集训练得到目标检测模型,极大地提高模型检测效率。
在本申请的一实施例中,按照预设数据增强策略对考场监控图像样本进行数据增强,确定目标训练样本集,包括:利用预训练模型对考场监控图像样本进行数据标注,确定出考场监控图像样本的目标标注数据,目标标注数据包括至少一个目标标注框;按照预设锚框进化策略,基于考场监控图像样本中的目标标注框确定考场监控图像样本对应的锚框参数;将考场监控图像样本对应的目标标注框与锚框参数作为第一训练样本集;对考场监控图像样本进行图像增强,确定第二训练样本集;将第一训练样本集与第二训练样本集进行整合,得到目标训练样本集。
在本申请的一实施例中,预训练模型为基于深度学习的数据标注模型。目标标注框是在考场监控图像样本中用矩形框将目标物体圈定的一种标注方式。目标标注框表征目标物体的位置、大小和类别。目标标注数据包括目标标注框及目标标注框标注的目标物体。预设锚框进化策略用于表征考场监控图像样本对应的锚框配置方式,如差分进化算法、K-Means聚类算法等。对于考场复杂多变的情形,既需要考虑细粒度锚框的检索,也要兼顾数据处理的高效性,因此本申请实施例优选利用差分进化算法确定考场监控图像样本对应的锚框参数。锚框是指预定义的边界框,用于在考场监控图像样本中框定可能存在目标物体的区域。锚框参数包括锚框的大小、宽高比等参数中的至少一项。
在本申请的一实施例中,服务端在按照预设数据增强策略对考场监控图像样本进行数据增强的过程中,服务端为了提高数据标注效率,利用预训练模型对考场监控图像样本进行数据标注,确定出考场监控图像样本的目标标注数据。锚框方法能够在训练中使目标损失快速下降,让模型很快接近标注值,但针对不同的训练样本集需要重新调整锚框的尺寸。为了使得锚框适应不同的训练样本集,服务端利用差分进化算法,基于考场监控图像样本中的目标标注框自适应确定考场监控图像样本对应的锚框参数。服务端将考场监控图像样本对应的目标标注框与锚框参数作为第一训练样本集,对考场监控图像样本进行图像增强,确定第二训练样本集,将第一训练样本集与第二训练样本集进行整合,得到目标训练样本集。
在本申请的一实施例中,在利用预训练模型对考场监控图像样本进行数据标注,确定出考场监控图像样本的目标标注数据之前,本申请实施例提供的深度学习模型训练方法还包括:利用预设图像样本集对初始标注模型进行预训练,得到预训练模型。
在本申请的一实施例中,预设训练样本集中的数据来自COCO-2017、Object365-2021、SODA-D、NWPU-Crowd、WiderPerson等数据集,包括大量的不同类别的训练图像,如300个类别,总计400万张训练图像。初始标注模型为参数容量较大的基于深度学习的数据标注模型,如参数容量为500MB。
基于深度学习的目标检测方法的目的是找出图像中感兴趣的区域(Region ofInterest,ROI),并将其进行类别分类。因此,除了需要考场监控图像样本的输入以外,还需要人工对场监控图像样本中的ROI进行标识,从而诱导深层学习网络对ROI区域的特征表示进行学习。当前,常用的人工图像标识工具有(1)国际通用软件:LabelMe,LabelIMG,CVAT;(2)国内通用软件:精灵标注助手等。这些软件为了减少数据标注的人力成本,都做了不少工作,如引入自动化标注框、导入预标注文件等,相关的目标检测模型对应的模型训练方案也采用这些数据标注方案来对考场数据进行数据标注。然而无论是国际软件,还是国内软件,都缺乏对考场物体的标注支持,比如虽然有对移动设备的手机、平板等类别的标注支持,但由于相关数据标注方案中,预标注模型训练来自于COCO(Common Objects inContext)数据,使得模型天生缺乏此类物体的小尺寸特征表示,因而使用它们进行考场标注时,除了“人”以外的类别标注结果都不理想。
基于上述问题,本申请实施例通过采集大规模的混合数据集,及定制较大参数容量的初始标注模型,使得训练得到的预训练模型能够充分拟合大型数据集的特征表示。进一步地,利用利用预训练模型对考场监控图像样本进行数据标注,确定出考场监控图像样本中的目标标注数据,能够极大地提高数据标注的精度。
在本申请的一实施例中,利用预训练模型对考场监控图像样本进行数据标注,确定出考场监控图像样本中的目标标注数据,包括:利用预训练模型对考场监控图像样本进行自动化标注,确定出考场监控图像样本对应的初始标注数据;将各考场监控图像样本及各考场监控图像样本对应的初始标注数据输入至数据标注客户端,并提示用户,使得用户通过数据标注客户端对各初始标注数据进行审核及调整,确定出考场监控图像样本对应的目标标注数据。
在本申请的一实施例中,数据标注客户端包括但不限于COCO Annotator、DLabel等中的一种。
在相关数据标注方案中,服务端一般会捕获海量真实考试数据,但很难将这些海量数据快速转换为深度学习模型可学习的数据。例如,在一些数据标注方案中,服务端将采集到的考场监控视频按秒拆解为帧,然后对帧画面中的感兴趣(Region of Interest,ROI)区域进行画框标注。利用这种数据标注方法,对线下相似度高的规范考场数据或小数据量的考场监控视频进行数据标注尚可,但对于极为复杂的线上考场情况,如大量杂物堆积的房间、画面中过多与考试无关的物品、摄像头随机摆放的位置、灯光昏暗或过亮等问题,都会对深度学习模型的训练带来极大困难。这种情况下通常需要庞大数据量来提高深度学习模型的泛化能力,此时,若采用逐帧手工标注方法进行数据标注将会非常耗费人力和时间。
基于上述问题,本申请实施例提供自动化数据标注方法。在上述方法中,服务端使用大规模的混合数据集及定制较大参数容量的初始标注模型,训练得到的预训练模型。由于利用大规模数据集训练得到的预训练模型能够充分拟合大型数据集的特征表示,因此服务端利用训练好的预训练模型对考场监控图像样本进行自动化标注能够极大地提高数据标注效率,且节省了人力。为了得到更高质量的标注数据,服务端将各考场监控图像样本及各考场监控图像样本对应的初始标注数据输入至数据标注客户端,并提示用户通过数据标注客户端对各初始标注数据进行审核及调整,补充极少量漏标的类别和修改少量错标数据,最终确定出考场监控图像样本对应的目标标注数据,大幅减少了人工对数据的干预。
作为一示例,请参阅图3所示,为本申请实施例提供的数据标注方法的流程示例图,如图3所示,服务端通过大规模混合公开数据对大型初始标注模型进行预训练,得到预训练模型(图中未示出)。服务端利用预训练模型对考场监控图像样本的RGBs图像进行自动化标注,得到初始标注数据。然后,服务端将各考场监控图像样本的RGBs图像与初始标注数据导入至数据标注客户端,进行精修、调整,以补充极少量漏标的类别和修改少量错标数据,确定出考场监控图像样本对应的目标标注数据。
在本申请的一实施例中,按照预设锚框进化策略,基于考场监控图像样本中的目标标注框确定考场监控图像样本对应的锚框参数,包括:对考场监控图像样本进行初始化锚框配置,得到预设锚框集合,预设锚框集合包括至少两个预设锚框;从预设锚框集合中随机选取两个预设锚框,并计算两个预设锚框之间的锚框差向量;将锚框差向量与预设锚框集合中的任一预设锚框进行加权求和,确定出第一试验锚框;将第一试验锚框与任一预设锚框进行参数混合计算,生成第二试验锚框;分别计算第二试验锚框与任一预设锚框相对于目标标注框的重叠度;若第二试验锚框相对于目标标注框的重叠度大于任一预设锚框相对于目标标注框的重叠度,将任一预设锚框替换为第二试验锚框,并计算累计进化次数;若第二试验锚框相对于目标标注框的重叠度小于或等于任一预设锚框相对于目标标注框的重叠度,计算累计进化次数;若累计进化次数小于或等于预设进化次数阈值,返回执行从预设锚框集合中随机选取两个预设锚框,并计算两个预设锚框之间的锚框差向量;若累计进化次数大于预设进化次数阈值,将预设锚框集合中的各锚框对应的参数作为考场监控图像样本的锚框参数。
在本申请的一实施例中,在目标检测任务中,锚框会通过在图像网格上进行平移和缩放来适应不同大小和形状的目标,从而检测到目标并生成边界框。锚框在算法实现中通常被表示为向量或数组的形式。预设锚框集合包括预先定义的不同尺寸、宽高比的锚框,优选地,预设锚框集合包括9种不同尺寸的锚框。参数混合计算的方式,包括但不限于通过加权求和、计算均值等方式。第二试验锚框或预设锚框相对于目标标注框的重叠度可以用第二试验锚框或预设锚框相对于目标标注框的交并比(Inner of Union,IoU)表征。其中,预设锚框相对于目标标注框的交并比是指预设锚框与目标标注框的交集面积与并集面积的比值。同理,第二试验锚框相对于目标标注框的交并比是指第二实验锚框与目标标注框的交集面积与并集面积的比值。预设进化次数阈值为自定义的值,本申请对预设进化次数阈值不作限定。
在考场监控图像样本中目标物体的物体框的宽高比变化剧烈,标注尺度跨度极大,这对于锚框预设尺寸非常不利。更直观表现为,靠近摄像头的物目标体呈现较大的比例,远离摄像头的目标物体呈现较小比例,即使是相同目标物体也会拥有小尺寸、大尺寸的不同特征表示。
针对上述问题,在相关的锚框配置方案中,或采用非锚框的检测法(锚点法)进行处理,然而锚点法对于考场中大面积重叠物体的检测天生处于劣势,因此造成最终检测结果不理想;或采用经典聚类算法K-Means对海量数据中的物体框宽高尺寸进行聚类,将少量几个(通常为9个)最优聚类结果作为锚框法的预设锚框。这种对于常规数据集是公认的优质方法,它具有速度快、简单实现、忽略噪声等优点,但对于考场这种拥有极端宽高比的数据则很难适应,K-Means会将极大和极小,出现频率较少的物体框视为数据噪声,转而关注一些出现频次高、容易简单分类的物体框,这显然是不合理的。因为正是这些频率少又极小的物体框才可能是考生使用的作弊设备。
本申请实施例一种简单、高效、可拓展的差分进化算法来生成面向考场监控图像样本的,它利用种群进化的特点,将对训练更优的锚框进行保留,不断更新锚框比例,优胜劣汰达到最佳组合。
作为一示例,请参阅图4所示,为本申请实施例提供的锚框配置方法的实现流程示例图。其中,服务端利用差分进化算法对锚框进行优化的优化目标为:使得所有目标物体的物体框与匹配的锚框的交并比达到总和最大。具体地,如图4所示,初始化种群是指服务端预先定义不同尺寸的锚框,得到预设锚框集合,其中,以预设锚框集合作为种群,以预设锚框集合中的各个预设锚框作为种群的个体。变异处理是指服务端随机从种群中选取两个个体,并进行作差,得到差向量。然后,服务端再随机从种群中随机选取第三个体,将第三个体与变异处理得到的差向量进行加权求和,得到变异个体。交叉是指服务端将变异处理后确定的变异个体与上述第三个体进行参数混合计算,生成试验个体。其中,参数混合计算的方式包括但不限于加权求和等方式。选择是指服务端通过将变异个体与目标标注框的交并比,与第三个体与目标标注框的交并比进行比较,将较大交并比对应的个体确定为较优个体,仅保留较优个体参与下一轮的进化,直至达到预设进化次数阈值,如此,最终确定的个体均拥有较优的参数。例如,服务端若确定变异个体与目标标注框的交并比大于第三个体与目标标注框的交并比,则服务端保留变异个体,且在下一次进化中,用变异个体取代种群中的该第三个体;服务端若确定变异个体与目标标注框的交并比小于第三个体与目标标注框的交并比,则确定第三个体为较优个体,仍使用第三个体参与下一轮的进化。如此,服务端通过利用种群进化的特点,将对训练更优的锚框进行保留,优胜劣汰达到最佳锚框组合。对比相关技术方案中的锚框聚类法,本申请实施例通过差分进化算法确定考场监控图像样本对应的锚框参数,不会丢弃可能是作弊设备的小锚框,能够显著提高目标检测模型对考场监控图像样本的适应能力。
在本申请的一实施例中,对考场监控图像样本进行图像增强,确定第二训练样本集,包括:判断考场监控图像样本的目标标注数据中是否存在目标尺寸小于预设尺寸阈值的目标标注框;若目标标注数据中存在目标尺寸小于预设尺寸阈值的目标标注框,按照预设切图规则对目标标注数据对应的考场监控图像样本进行分割,得到切图图像样本;对切图图像样本进行图像增强,得到第一图像增强样本;若目标标注数据中不存在目标尺寸小于或等于预设尺寸阈值的目标标注框,对目标标注数据对应的考场监控图像样本进行图像增强,得到第二图像增强样本;将第一图像增强样本与第二图像增强样本作为第二训练样本集。
在本申请的一实施例中,目标尺寸是指目标标注框的尺寸,如60*40像素等。预设尺寸阈值为自定义的目标标注框的尺寸边界值,如10*10像素、20*20像素等,本申请对预设尺寸阈值的大小不做限定。预设切图规则用于表征对考场监控图像样本进行切图的方式,预设切图规则可以是Sniper切图规则等。
在对考场监控图像数据进行目标检测的过程中,应当更加关注可能成为作弊设备的极小目标物体。然而,由于小目标物体在图像画面中的占比小、分辨率低、特征少,从而导致目标检测算法难以对小目标物体进行检测。在相关技术方案中,服务端为了扩大小目标物体的可视度,在训练时加入了常规的切图技术,如来源于航拍图的技术,通常将整个大图进行等比例切分,每个子块将作为单独的图像块进行学习。然而对于考场监控图像数据来说,如果对图像进行等比例切分,可能会产生大量负样本区域,这显然不利于模型学习。
作为一示例,请参阅图5所示,本申请实施例提供的考场监控图像的负样本区域示例图。如图5所示,该考场监控图像中存在大量的负样本区域,服务端利用常规的切图技术,将该考场监控图像进行常规切分块为6×5。虽然每个图像块里面放大了小目标物体,增强了小目标物体的特征可学习性,但是由于切图结果中有18个图像块里面是背景,这将导致纯负样本数量会显著增加。如此,当考场监控图像样本集中有10万量级时,将存在近7万张图像里面是没有目标物体的,此时目标检测模型无需预测(即不需要输出预测目标)即可达到70%的准度,这显然不是研究者想要的结果。
基于上述问题,本申请实施例提供一种预设切图规则以增强模型训练过程中,考场监控图像样本中小目标物体的特征表示。具体地,服务端在确定出考场监控图像样本对应的目标标注数据后,判断考场监控图像样本的目标标注数据中是否存在目标尺寸小于预设尺寸阈值的目标标注框。若目标标注数据中存在目标尺寸小于预设尺寸阈值的目标标注框,服务端则按照预设切图规则对目标标注数据对应的考场监控图像样本进行分割,得到切图图像样本,以增强小目标物体的特征表示。然后,为了进一步增强训练样本的特征,提高模型训练效率,服务端对切图图像样本进行图像增强,得到第一图像增强样本。若目标标注数据中不存在目标尺寸小于或等于预设尺寸阈值的目标标注框,服务端则直接对目标标注数据对应的考场监控图像样本进行图像增强,得到第二图像增强样本。服务端将第一图像增强样本与第二图像增强样本作为第二训练样本集。
在本申请的一实施例中,按照预设切图规则对目标标注数据对应的考场监控图像样本进行切图,得到切图图像样本,包括:基于目标标注数据中的各目标标注框的位置,确定出目标标注数据对应的考场监控图像样本中的正样本区域;对正样本区域进行子块切分,得到正样本切图;及识别考场监控图像样本中的难分负样本,并根据难分负样本确定考场监控图像样本中的难分负样本区域;对难分负样本区域进行子块划分,得到负样本切图;根据正样本切图与负样本切图,确定出考场监控图像样本对应的切图图像样本。
在本申请的一实施例中,考场监控图像样本中目标物体所占的区域往往远小于背景区域,因此需要对物体区域进行单独切块。服务端将考场监控图像样本中,目标物体所在的区域视为正样本区域。在本申请的一实施例中,服务端通过目标标注框明确考场监控图像样本中目标物体的位置,从而根据目标物体的位置确定出考场监控图像样本中的正样本区域,随后对正样本区域进行子块切分,得到正样本切图。如此得到的正样本切图中一定包含目标物体。
在模型训练过程中,仅有正样本切图显然是不够的,基于深度学习的检测模型还需要学习区分考场监控图像样本中的背景。而常规的背景对于深度学习模型来说太容易区分,以至于模型不能学习到真正难分辨的背景特征。如图6所示的考场监控图像示例图。可以很容易发现,在图6中的考场监控图像中,易分负样本的数量远大于难分负样本,这使得在模型训练过程中,负样本的损失更倾向于区分简单背景。
基于上述问题,本申请在负样本中,提高难分负样本的占比,以提高模型区分背景的能力,从而提高模型的检测效率。为了提高难分负样本的数量,电子设备识别考场监控图像样本中的难分负样本,并根据难分负样本确定考场监控图像样本中的难分负样本区域,对难分负样本区域进行子块划分,从而得到负样本切图。在本申请的其他实施例中,电子设备在获取负样本切图的过程中,还可以识别难分负样本与易分负样本,根据难分负样本与易分负样本确定出负样本区域。电子设备通过对负样本区域进行子块划分,确定出负样本切图。
在本申请的一实施例中,基于目标标注数据中的各目标标注框的位置,确定出目标标注数据对应的考场监控图像样本中的正样本区域,包括:基于目标标注数据中的各目标标注框的位置,确定出目标标注数据对应的考场监控图像样本中的物体聚集区域;对物体聚集区域中的任一目标标注框的边框进行扩展,得到扩展标注框;当扩展标注框所围成的区域能够覆盖物体聚集区域时,将扩展标注框所围成的区域作为正样本区域,并扩展标注框的边框作为正样本区域的边框。
在本申请的一实施例中,电子设备在确定考场监控图像样本中的正样本区域的过程中,电子设备根据目标标注框确定考场监控图像样本中目标物体的物体聚集区域,其中,一个考场监控图像样本可能包括一个或多个物体聚集区域。每个物体聚集区域内可能包括一个或多个目标物体。电子设备确定考场监控图像样本中的物体聚集区域后,选取物体聚集区域中任一目标物体对应的目标标注框,对该目标标注框的边框进行扩展,得到扩展标注框。当扩展标注框所围成的区域能够覆盖该物体聚集区域内所有的目标物体,也即扩展标注框了能够覆盖该物体聚集区域时,电子设备将该扩展标注框所围成的区域作为正样本区域,并将扩展标注框的表框作为正样本区域的边框。
在本申请的一实施例中,若物体聚集区域中只有一个目标物体时,电子设备则将该目标物体对应的目标标注框所围成的区域作为一正样本区域,该目标标注框对的边框作为正样本区域的边框。
在本申请的一实施例中,识别考场监控图像样本中的难分负样本,包括:利用物体检测模型对考场监控图像样本进行物体检测,得到至少一个物体检测框;将各物体检测框与考场监控图像样本中对应的各目标标注框进行比对,确定出各物体检测框中的误检框;将误检框作为考场监控图像样本中的难分负样本。
在本申请的一实施例中,为了识别考场监控图像样本中的难分负样本,电子设备可以采用物体检测模型,例如Yolov5n检测模型、RetinaNet-50-8检测模型等,辅助识别难分负样本。具体地,电子设备利用物体检测模型对考场监控图像样本进行物体检测,生成多个物体检测框。该物体检测框用于表征物体检测模型对考场监控图像样本中目标物体的预测。由于目标物体对应的目标标注框能够反映真实目标物体的位置、类别等,因此,电子设备将物体检测模型预测的物体检测框与目标物体对应的目标标注框进行比对,能够确定出物体检测框中的误检框。物体检测模型预测的物体检测框中出现误检框,表明误检框对应的物体具有与目标物体部分类别相似的特征,此时,可以将误检框作为考场监控图像样本中的难分负样本。与确定正样本区域的方法类似,电子设备识别出难分负样本后,确定出难分负样本的聚集区域,然后选该聚集区域中的任一误检框对其进行边框扩张,直至扩展后的误检框能够覆盖该聚集区域,将扩展后的误检框所围成的区域作为难分负样本区域。
请参阅图7所示,为本申请实施例提供的切图方法的实现流程示例图。如图7所示,该实现流程示例图包括正样本的切图流程与负样本的切图流程。电子设备首先获取考场监控图像样本对应的RGBs图像,以便于电子设备对图像进行处理分析。在对考场监控图像样本进行切图过程中,电子设备基于目标标注数据中的各目标标注框的位置,确定出考场监控图像样本中目标物体的物体聚集区域,然后对物体聚集区域中的任一目标物的目标标注框进行尺度变换,直至尺度变换后的目标标注框能够覆盖所有目标物体后,电子设备将尺度变换后的目标标注框所围成的区域作为考场监控图像样本的正样本区域。电子设备对正样本区域进行子块划分,得到该考场监控图像样本的正样本切图。电子设备在获取负样本切图的过程中,利用Yolov5n检测模型对考场监控图像样本进行物体检测,生成多个物体检测框,通过将物体检测框与目标物体对应的目标标注框进行比对,确定出物体检测框中的误检框,从而确定考场监控图样样本的难分负样本,增加了负样本中难分负样本的比例,有利于提高模型学习难分辨的特征,增强区分背景与目标物体的能力。电子设备识别考场监控图样样本的难分负样本后,确定出难分负样本的聚集区域,然后通过对该聚集区域中任一误检框进行尺度变换,确定出难分负样本区域。电子设备对难分负样本区域进行子块划分,得到负样本切图。在其他实施方式中,电子设备获还可以同时获取难分负样本区域与易分负样本区域,通过对难分负样本区域与易分负样本区域进行子块划分,得到负样本切图。最抓,电子设备根据正样本切图与负样本切图确定该考场监控图样样本的考场数据RGBs子块,也即切图图像样本。
在本申请的一实施例中,对切图图像样本进行图像增强,得到第一图像增强样本,包括:按照最佳数据增强策略与数据增强方法对切图图像样本进行图像增强,得到第一图像增强样本。
在本申请的一实施例中,最佳数据增强策略用于在模型训练过程中对数据增强方法进行调整。
在真实考场中的密集小目标物体还通常伴随着不准确定位、遮挡目标检测、信息丢失、噪声特征、光照背景干扰以及对检测算法物体框的低容忍度等问题。具体来说,考场中的疑似作弊设备的小目标物体在画面中的占比小,对图像使用卷积或下采样后,会造成小目标的特征扭曲和丢失、背景噪声干扰、对边界框的扰动容忍度低等情况,常规应对方法可以从模型设计层面增加特征通路,如使用特征金字塔和上下文信息的结合,来使得浅层下采样的小目标与高层的语义信息融合,让模型具有更强的表征能力。固然模型的设计对此问题解决具有不可忽视的作用,但模型的训练数据同样重要。
请参阅图8,为本申请实施例提供的目标预测像素偏移示例图。如图8所示,在大型公开数据集COCO中,有研究统计大尺寸目标平均占图像尺寸比例为0.472,小尺寸目标平均占图像尺寸比例为0.024,也就是大尺寸目标平均比小尺寸目标占据像素面积大20倍。这就迫使深度学习网络在训练时损失函数失衡,让它更侧重于优化大尺寸目标的特征学习。同样,小目标物体的预测难度也是大目标物体不可比拟的。在图8中,A框作为目标标注框,而预测框B、C是深度学习模型得出具有像素偏移的边界框。可以发现,小目标与大目标在对角线上产生3-6格像素偏移的结果显然不同。在训练时,模型进行梯度下降时,显然更加侧重于走大目标优化方向,其原因有两点:1.大目标数量多,造成损失失衡;2.大目标更好优化,从产生的预测框角度来说,大目标的小偏差会使得模型整体倾向性更强。
为了解决这个问题,本申请采用马赛克增强(Mosaic)来强化小目标在数据中的占比,使用混合图像(MixUp)方法增强特征表征学习,使用亮度自适应变换来提高模型对考场亮度变化对检测精度带来的影响。
例如,请参阅图9,为本申请实施例提供的数据增强方法的实现流程示例图。如图9所示的数据增强方法包括随机取样数据;利用自适应光照变化调节采样数据的光照、对比度等;对采样数据进行等比例随机缩放;将采样数据随机融合;对采样数据随机拼接。
其中,随机取样数据:遍历数据集时,服务端确定当前遍历数据对象后,再从数据集中随机抽取数据,随后进行后续操作,其中,数据集可以是切图图像样本的数据集,也可以是考场监控图像样本集。如图9所示,随机抽取数据10、数据88、数据1067、数据2890。
自适应光照变化:由于线上考试时,考生采用的光照可能出现过亮或过暗情况,这会严重影响目标检测模型对特征的获取。为了是的目标检测模型适应光照变换,服务端采用随机使用直方图自适应光照变化的方法进行操作。具体来说,当图像画面像素过多聚集在暗区域时,使用直方图自适应光照变化将其进行一定程度的平衡;相反,当图像画面像素过多聚集在亮区域时,则使用直方图自适应光照变化将其进行暗变换。
等比例随机缩放:模型训练过程中,训练分辨率通常是固定的,而训练得到的目标检测模型的输入分辨率往往不是确定的。在相关技术方案中,服务端每隔多轮训练后,调整输入分辨率大小,使得目标检测模型适应不同输入分辨率。而本申请采用一种适应性更广泛的拼接法,将不同考场监控图像样本随机缩小以便于后续的拼接操作。
随机融合:为了强化对目标物体特征的学习,减少过多易分负样本的数据特性,服务端使用MixUp方法来进行强化物体特征。具体来说,服务端借助于目标标注框将考场监控图像样本中的目标物体抠取出来,然后放置到任意图像没有数据标注的位置,并提高它的透明度。通过随机融合能够大幅提升各尺度目标物体的特征学习机会。
随机拼接:由于小目标物体数据稀缺,在整张图像上占比少等问题严重影响小目标在模型训练的总体损失中的平衡,使得模型侧重优化大目标特征。本申请采用Mosaic方法,对多张随机样本进行缩放拼接,使得小目标占比显著增加,从而诱导模型平衡小目标损失学习。此外,Mosaic方法采用多张图像拼接,还能在一定程度上解决模型训练过程中,批标准化的批次不够大带来的运行均值和运行方差与真实数据的均值、方差偏差过大的问题。
综上可知,数据增强对考场监控图像样本进行变换,会显著提升模型在训练期间的损失收敛速度与预测期间的类别精度。然而盲目使用数据增强会造成严重负面影响,如训练无法收敛、梯度爆炸或快速进入鞍点等。针对此问题可以采用如种群基础架构自动优化(Population Based Augmentation,PBA)等数据增强策略,搜索数据增强组合的最佳配置,规避数据增强使用不当的风险。具体来说,需要在数据增强方法、模型训练参数、梯度优化方法等超参配置上找到一个最佳平衡点,使得深度学习模型在训练中得到最高收益。此外,PBA的研究者发现,在训练的不同阶段采取不同策略,会进一步提高模型训练的结果,这表明不同阶段的深度学习模型所关注的点是不一样的。为了达到这个目的,PBA执行流程中包含多个训练模型,以找出各个阶段超参配置,也即确定数据增强方法的最佳组合。
以最佳数据增强策略为PBA为例,请参阅图10所示,为本申请实施例提供的超参搜索流程示例图。如图10所示,在PBA执行过程中,服务端通过PBA首先确定需要搜索的模型结构,该模型结构应当具有与正式训练的检测模型相同的构造,只是参数量会减少(即宽度减少,深度不变)。然后,服务端通过PBA确定需要迭代的阶段数(如图10所示的阶段1至阶段N),如以10Epochs为一个阶段(Shedule)其中,Epochs指的是模型训练过程中完整地遍历整个考场监控图像样本集的次数。并确定需要搜索的参数空间,也就是参数的上界和下界。在超参空间中随机初始化超参数(Hyperparameter),服务端将其分配给10个初始化的搜索模型(如图10所示的进程0(workers0)至进程9(workers9))。并将10个搜索模型进行并行训练,每隔一个Schedule进行一次进化策略(exploit-and-explore),服务端根据性能表现(performance)确定精度最优的2个搜索模型,并将精度最优的2个搜索模型的参数(如权重Weights)与超参配置直接替换掉精度最差的2个搜索模型的参数和超参,然后将替换掉的搜索模型的超参进行小幅度扰动,得到新的超参配置。即确保每隔一个Schedule就能淘汰掉最差2个个体,并将它们替换为最优的个体。同时考虑到迭代进化,对替换的基因进行变异,再进入下一轮迭代。在所有Schedule结束之后,得到最优模型的每个Schedule超参配置列表。
通过PBA数据增强策略能够探索出模型训练过程中,不同阶段下的最优超参配置。数据增强策略作为模型的一种正则表现,尤其是在模型训练末期,它能够决定模型是否收敛到最优点,因此有必要探索不同阶段的超参配置。值得注意的是,在搜索时,不必使用部署模型来进行PBA操作,而是使用同结构的轻量级模型进行搜索即可,能够进一步有效节省时间。最后将得到的超参配置列表,按阶段对部署模型进行训练。
S13:利用目标训练样本集,对预设检测模型进行训练,得到目标检测模型。
在本申请的一实施例中,预设检测模型与目标检测模型为相同架构、不同参数的深度学习检测模型。
在本申请的一实施例中,服务端确定了第一训练样本集与第二训练样本集之后,将两者进行组合,生成成对的训练数据,得到目标训练样本集。利用目标训练样本集,对预设检测模型进行训练,得到目标检测模型。
请参阅图11,图11为本申请实施例提供的深度学习模型训练方法的实现流程示例图。如图11所示,服务端通过对考场监控图像样本集中各个考场监控图像样本进行自动化标注、专业标注精修,得到目标标注数据(labels),按照锚框自适应算法,基于目标标注数据对应的目标标注框确定出考场监控图像样本对应的锚框参数。同时,服务端利用智能切图,根据目标标注框在考场监控图像样本中正负样本的占比,对考场监控图像样本对应的RGBs图像进行切图,使得小物体样本训练时,不会出现正负失衡的情况。然后,服务端结合Mosaic、MixUp、亮度自适应变化方法及PBA搜索策略对切图后得到的切图图像样本及目标标注数据中不存在目标尺寸小于或等于预设尺寸阈值的目标标注框的考场监控图像样本进行数据增强。服务端确定了目标标注数据及数据增强后的RGBs图像之后,将两者进行组合,生成成对的训练数据,利用成对的训练数据对预设检测模型进行训练,得到目标检测模型。本申请从考场RGBs、Labels两个角度的多个方面进行考虑,由此定制得到的数据增强方法不仅能够提高复杂的线上线下场景各类物品的检测精度,还能进一步优化训练速度,为智能监考系统提供更有力的数据支撑。
在本申请实施例提供的一种深度学习模型训练方法中,通过在模型训练前,按照预设数据增强策略对用于模型训练的考场监控图像样本进行数据增强,以克服考场监控图像样本中可能存在小目标物体分辨率低、特征少、同一物体尺度跨度大,多尺度并存等问题,增强考场监控图像样本的表征能力,如此,利用数据增强后得到的目标训练样本对预设检测模型进行训练,得到目标检测模型,能够有效提高目标检测模型的检测效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在本申请的一个实施例中,提供一种基于考场违规的深度学习模型训练装置300,该深度学习模型训练装置与上述实施例中深度学习模型训练方法一一对应。如图12所示,该深度学习模型训练装置包括获取模块301、数据增强模块302、训练模块303。各功能模块详细说明如下:
获取模块301,用于获取考场监控图像样本集,考场监控图像样本集包括至少一个考场监控图像样本;
数据增强模块302,用于按照预设数据增强策略对考场监控图像样本进行数据增强,确定目标训练样本集;
训练模块303,用于利用目标训练样本集,对预设检测模型进行训练,得到目标检测模型。
关于上述基于考场违规的深度学习模型训练装置的具体限定可以参见上文中对于深度学习模型训练方法的限定,在此不再赘述。上述深度学习模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图13所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括计算机可读存储介质、内存储器。该计算机可读存储介质存储有计算机可读指令。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该电子设备的数据库用于存储深度学习模型训练方法所涉及的数据。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种深度学习模型训练方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一个实施例中,提供了一种电子设备,该电子设备可以是终端,该电子设备包括通过系统总线连接的处理器、存储器、网络接口等。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括计算机可读存储介质、内存储器。该计算机可读存储介质存储有操作系统和计算机可读指令。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该电子设备的网络接口用于与外部服务器通过网络连接通信。该计算机可读指令被处理器执行时以实现一种深度学习模型训练方法。本实施例所提供的计算机可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一个实施例中,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现以下步骤:获取考场监控图像样本集,考场监控图像样本集包括至少一个考场监控图像样本;按照预设数据增强策略对考场监控图像样本进行数据增强,确定目标训练样本集;利用目标训练样本集,对预设检测模型进行训练,得到目标检测模型。
在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读存储介质,本实施例所提供的计算机可读存储介质包括非易失性可读存储介质和易失性可读存储介质。计算机可读存储介质上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时实现以下步骤:获取考场监控图像样本集,考场监控图像样本集包括至少一个考场监控图像样本;按照预设数据增强策略对考场监控图像样本进行数据增强,确定目标训练样本集;利用目标训练样本集,对预设检测模型进行训练,得到目标检测模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于考场违规的深度学习模型训练方法,其特征在于,所述方法包括:
获取考场监控图像样本集,所述考场监控图像样本集包括至少一个考场监控图像样本;
按照预设数据增强策略对所述考场监控图像样本进行数据增强,确定目标训练样本集;
利用所述目标训练样本集,对预设检测模型进行训练,得到目标检测模型。
2.如权利要求1所述的深度学习模型训练方法,其特征在于,所述按照预设数据增强策略对所述考场监控图像样本进行数据增强,确定目标训练样本集,包括:
利用预训练模型对所述考场监控图像样本进行数据标注,确定出所述考场监控图像样本的目标标注数据,所述目标标注数据包括至少一个目标标注框;
按照预设锚框进化策略,基于所述考场监控图像样本中的所述目标标注框确定所述考场监控图像样本对应的锚框参数;
将所述考场监控图像样本对应的所述目标标注框与所述锚框参数作为第一训练样本集;
对所述考场监控图像样本进行图像增强,确定第二训练样本集;
将所述第一训练样本集与所述第二训练样本集进行整合,得到所述目标训练样本集。
3.如权利要求2所述的深度学习模型训练方法,其特征在于,在所述利用预训练模型对所述考场监控图像样本进行数据标注,确定出所述考场监控图像样本的目标标注数据之前,所述方法还包括:
利用预设图像样本集对初始标注模型进行预训练,得到所述预训练模型。
4.如权利要求2所述的深度学习模型训练方法,其特征在于,所述利用预训练模型对所述考场监控图像样本进行数据标注,确定出所述考场监控图像样本的目标标注数据,包括:
利用预训练模型对所述考场监控图像样本进行自动化标注,确定出所述考场监控图像样本对应的初始标注数据;
将各考场监控图像样本及各考场监控图像样本对应的所述初始标注数据输入至数据标注客户端,并提示用户通过所述数据标注客户端对各所述初始标注数据进行审核及调整,确定出所述考场监控图像样本对应的目标标注数据。
5.如权利要求2所述的深度学习模型训练方法,其特征在于,所述按照预设锚框进化策略,基于所述考场监控图像样本中的所述目标标注框确定所述考场监控图像样本对应的锚框参数,包括:
对所述考场监控图像样本进行初始化锚框配置,得到预设锚框集合,所述预设锚框集合包括至少两个预设锚框;
从预设锚框集合中随机选取两个预设锚框,并计算两个所述预设锚框之间的锚框差向量;
将所述锚框差向量与所述预设锚框集合中的任一预设锚框进行加权求和,确定出第一试验锚框;
将所述第一试验锚框与所述任一预设锚框进行参数混合计算,生成第二试验锚框;
分别计算所述第二试验锚框与所述任一预设锚框相对于所述目标标注框的重叠度;
若所述第二试验锚框相对于所述目标标注框的重叠度大于所述任一预设锚框相对于所述目标标注框的重叠度,将所述任一预设锚框替换为所述第二试验锚框,并计算累计进化次数;
若所述第二试验锚框相对于所述目标标注框的重叠度小于或等于所述任一预设锚框相对于所述目标标注框的重叠度,计算累计进化次数;
若所述累计进化次数小于或等于预设进化次数阈值,返回执行从预设锚框集合中随机选取两个预设锚框,并计算两个所述预设锚框之间的锚框差向量;
若所述累计进化次数大于预设进化次数阈值,将所述预设锚框集合中的各锚框对应的参数作为所述考场监控图像样本的锚框参数。
6.如权利要求2所述的深度学习模型训练方法,其特征在于,所述对所述考场监控图像样本进行图像增强,确定第二训练样本集,包括:
判断所述考场监控图像样本的目标标注数据中是否存在目标尺寸小于预设尺寸阈值的目标标注框;
若所述目标标注数据中存在目标尺寸小于预设尺寸阈值的目标标注框,按照预设切图规则对所述目标标注数据对应的考场监控图像样本进行切图,得到切图图像样本;
对所述切图图像样本进行图像增强,得到第一图像增强样本;
若所述目标标注数据中不存在目标尺寸小于或等于预设尺寸阈值的目标标注框,对所述目标标注数据对应的考场监控图像样本进行图像增强,得到第二图像增强样本;
将所述第一图像增强样本与所述第二图像增强样本作为所述第二训练样本集。
7.如权利要求6所述的深度学习模型训练方法,其特征在于,所述按照预设切图规则对所述目标标注数据对应的考场监控图像样本进行切图,得到切图图像样本,包括:
基于所述目标标注数据中的各目标标注框的位置,确定出所述目标标注数据对应的考场监控图像样本中的正样本区域;
对所述正样本区域进行子块切分,得到正样本切图;及
识别所述考场监控图像样本中的难分负样本,并根据所述难分负样本确定所述考场监控图像样本中的难分负样本区域;
对所述难分负样本区域进行子块划分,得到负样本切图;
根据所述正样本切图与所述负样本切图,确定出所述考场监控图像样本对应的所述切图图像样本。
8.如权利要求7所述的深度学习模型训练方法,其特征在于,所述基于所述目标标注数据中的各目标标注框的位置,确定出所述目标标注数据对应的考场监控图像样本中的正样本区域,包括:
基于所述目标标注数据中的各目标标注框的位置,确定出所述目标标注数据对应的考场监控图像样本中的物体聚集区域;
对所述物体聚集区域中的任一目标标注框的边框进行扩展,得到扩展标注框;
当所述扩展标注框所围成的区域能够覆盖所述物体聚集区域时,将所述扩展标注框所围成的区域作为所述正样本区域,并所述扩展标注框的边框作为所述正样本区域的边框。
9.如权利要求7所述的深度学习模型训练方法,其特征在于,所述识别所述考场监控图像样本中的难分负样本,包括:
利用物体检测模型对所述考场监控图像样本进行物体检测,得到至少一个物体检测框;
将各所述物体检测框与所述考场监控图像样本中对应的各目标标注框进行比对,确定出各所述物体检测框中的误检框;
将所述误检框作为所述考场监控图像样本中的难分负样本。
10.如权利要求6所述的深度学习模型训练方法,其特征在于,所述对所述切图图像样本进行图像增强,得到第一图像增强样本,包括:
按照最佳数据增强策略与数据增强方法对所述切图图像样本进行图像增强,得到所述第一图像增强样本,所述最佳数据增强策略用于在模型训练过程中对所述数据增强方法进行调整。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310487547.8A CN116612347A (zh) | 2023-04-28 | 2023-04-28 | 基于考场违规的深度学习模型训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310487547.8A CN116612347A (zh) | 2023-04-28 | 2023-04-28 | 基于考场违规的深度学习模型训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116612347A true CN116612347A (zh) | 2023-08-18 |
Family
ID=87682766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310487547.8A Pending CN116612347A (zh) | 2023-04-28 | 2023-04-28 | 基于考场违规的深度学习模型训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116612347A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117111164A (zh) * | 2023-10-17 | 2023-11-24 | 杭州海康威视数字技术股份有限公司 | 基于毫米波的异物检测方法、装置及电子设备 |
-
2023
- 2023-04-28 CN CN202310487547.8A patent/CN116612347A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117111164A (zh) * | 2023-10-17 | 2023-11-24 | 杭州海康威视数字技术股份有限公司 | 基于毫米波的异物检测方法、装置及电子设备 |
CN117111164B (zh) * | 2023-10-17 | 2024-01-26 | 杭州海康威视数字技术股份有限公司 | 基于毫米波的异物检测方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110428432B (zh) | 结肠腺体图像自动分割的深度神经网络算法 | |
CN109644255B (zh) | 标注包括一组帧的视频流的方法和装置 | |
CN111563557B (zh) | 一种电力电缆隧道内目标检测的方法 | |
CN109145759B (zh) | 车辆属性识别方法、装置、服务器及存储介质 | |
CA3100642A1 (en) | Multi-sample whole slide image processing in digital pathology via multi-resolution registration and machine learning | |
CN111695392B (zh) | 基于级联的深层卷积神经网络的人脸识别方法及系统 | |
CN109389102A (zh) | 基于深度学习的车道线检测方法及其应用的系统 | |
CN111767927A (zh) | 一种基于全卷积网络的轻量级车牌识别方法及系统 | |
CN106339657B (zh) | 基于监控视频的秸秆焚烧监测方法、装置 | |
CN108573499A (zh) | 一种基于尺度自适应和遮挡检测的视觉目标跟踪方法 | |
CN113052170B (zh) | 一种无约束场景下的小目标车牌识别方法 | |
CN111522951A (zh) | 一种基于图像识别的敏感数据识别与分类的技术方法 | |
Li et al. | A review of deep learning methods for pixel-level crack detection | |
CN114548208A (zh) | 一种基于YOLOv5改进的植物种子实时分类检测方法 | |
CN116612347A (zh) | 基于考场违规的深度学习模型训练方法 | |
CN113065568A (zh) | 目标检测、属性识别与跟踪方法及系统 | |
CN114463567A (zh) | 一种基于区块链的智慧教育作业大数据防抄袭方法与系统 | |
CN110942456B (zh) | 篡改图像检测方法、装置、设备及存储介质 | |
CN115359264A (zh) | 一种密集型分布的粘连细胞深度学习识别方法 | |
CN109740527B (zh) | 一种视频帧中图像处理方法 | |
CN115049675A (zh) | 生成区域确定及光斑生成方法、设备、介质及程序产品 | |
CN113936175A (zh) | 一种识别视频中的事件的方法及系统 | |
CN115410240A (zh) | 智能人脸的痘痘和色斑分析方法、装置及存储介质 | |
CN111339950B (zh) | 一种遥感图像目标检测方法 | |
US20230245495A1 (en) | Face recognition systems data collection process |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |