CN116543277A - 模型构建方法及目标检测方法 - Google Patents
模型构建方法及目标检测方法 Download PDFInfo
- Publication number
- CN116543277A CN116543277A CN202310480919.4A CN202310480919A CN116543277A CN 116543277 A CN116543277 A CN 116543277A CN 202310480919 A CN202310480919 A CN 202310480919A CN 116543277 A CN116543277 A CN 116543277A
- Authority
- CN
- China
- Prior art keywords
- model
- target
- detection model
- training sample
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 389
- 238000010276 construction Methods 0.000 title claims description 11
- 238000012549 training Methods 0.000 claims abstract description 236
- 238000000034 method Methods 0.000 claims abstract description 151
- 238000012544 monitoring process Methods 0.000 claims abstract description 71
- 230000004927 fusion Effects 0.000 claims abstract description 35
- 238000012806 monitoring device Methods 0.000 claims description 55
- 230000008569 process Effects 0.000 claims description 48
- 238000013139 quantization Methods 0.000 claims description 48
- 238000013138 pruning Methods 0.000 claims description 25
- 238000005457 optimization Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000010354 integration Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000003860 storage Methods 0.000 description 36
- 238000010586 diagram Methods 0.000 description 26
- 238000004364 calculation method Methods 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 14
- 238000013461 design Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 102100030148 Integrator complex subunit 8 Human genes 0.000 description 7
- 101710092891 Integrator complex subunit 8 Proteins 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000011002 quantification Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 6
- 230000001965 increasing effect Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000011897 real-time detection Methods 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 244000141353 Prunus domestica Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 1
- 241000209202 Bromus secalinus Species 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000013101 initial test Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007847 structural defect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- FEPMHVLSLDOMQC-UHFFFAOYSA-N virginiamycin-S1 Natural products CC1OC(=O)C(C=2C=CC=CC=2)NC(=O)C2CC(=O)CCN2C(=O)C(CC=2C=CC=CC=2)N(C)C(=O)C2CCCN2C(=O)C(CC)NC(=O)C1NC(=O)C1=NC=CC=C1O FEPMHVLSLDOMQC-UHFFFAOYSA-N 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及机器学习技术领域,提供了一种模型构建方法及目标检测方法,其中,模型构建方法包括:通过融合特征金字塔网络、特征尺度融合网络、高速特征超分模块、三叉检测头网络,构建轻量型的初始检测模型。通过利用预设训练样本集对初始检测模型进行稀疏化训练,得到目标检测模型,进一步地简化目标检测模型的参数量,使得目标检测模型适用于低性能的监控设备,能够较轻松地适应多种复杂情形的线上或线下考场环境。
Description
技术领域
本申请涉及机器学习技术领域,尤其涉及一种模型构建方法及目标检测方法。
背景技术
随着深度学习技术的飞速发展与计算机硬件性能的提升,基于深度学习的目标检测模型在监考系统中得到了广泛的研究和应用。然而,现有的目标检测模型存在准确率低、计算量大、无法实时监控等问题,无法满足存在多种复杂情形的线上或线下考场环境(如线上考场杂乱的考试环境、低性能的监控设备无法提供现有的目标检测模型需要的算力、考场过亮或过暗的灯光布置等)的监考要求,从而导致现有的目标检测模型适用范围较小。
发明内容
基于此,有必要针对上述技术问题,提供一种模型构建方法及目标检测方法,以解决现有的目标检测方案中存在适用范围较小的问题。
本申请实施例的第一方面提供了一种模型构建方法,应用于电子设备,所述方法包括:融合特征金字塔网络、特征尺度融合网络、高速特征超分模块、三叉检测头网络,构建初始检测模型;利用预设训练样本集对所述初始检测模型进行稀疏化训练,以令所述初始检测模型对所述预设训练样本集中每一预设训练样本中的目标物体进行预测,得到目标检测模型。
本申请实施例的第二方面提供一种基于第一方面提供的目标检测模型的目标检测方法,应用于监控设备,所述方法包括:采集监控视频,并对所述监控视频进行预处理,得到待检测图像;利用所述目标检测模型对所述待检测图像进行目标检测,确定出所述待检测图像中的目标物体。
本申请实施例的第三方面提供了一种模型构建装置,所述模型构建装置包括:设计模块,用于融合特征金字塔网络、特征尺度融合网络、高速特征超分模块、三叉检测头网络,构建初始检测模型;训练模块,用于利用预设训练样本集对所述初始检测模型进行稀疏化训练,以令所述初始检测模型对所述预设训练样本集中每一预设训练样本中的目标物体进行预测,得到目标检测模型。
本申请实施例的第四方面提供了一种目标检测装置,所述目标检测装置包括:采集模块,用于采集监控视频,并对所述监控视频进行预处理,得到待检测图像;检测模块,用于利用所述目标检测模型对所述待检测图像进行目标检测,确定出所述待检测图像中的目标物体。
本申请实施例的第五方面提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述模型构建方法。
本申请实施例的第六方面提供了一种监控设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述目标检测方法。
本申请实施例的第七方面提供了一种或多种存储有计算机可读指令的计算机可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述模型构建方法或目标检测方法。
在本申请实施例提供的一种模型构建方法中,电子设备通过融合特征金字塔网络、特征尺度融合网络、高速特征超分模块、三叉检测头网络,构建轻量型的初始检测模型,提高对小目标物体的检测精确度。并通过利用预设训练样本集对初始检测模型进行稀疏化训练,得到目标检测模型,进一步地简化目标检测模型的参数量,使得目标检测模型适用于低性能的监控设备,能够较轻松地适应多种复杂情形的线上或线下考场环境。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的模型构建方法或目标检测方法的应用环境图;
图2是本申请实施例提供的模型构建方法的实现流程图;
图3是本申请实施例提供的目标检测模型的结构示例图;
图4是本申请实施例提供的高速特征超分模块的结构示例图;
图5是本申请实施例提供的锚框与锚点的示例图;
图6是本申请实施例提供的锚框配置方法的实现流程示例图;
图7是本申请实施例提供的数据增强方法的实现流程示例图;
图8是本申请实施例提供的样本集制作方法的实现流程示例图;
图9是本申请实施例提供的稀疏化训练中的冗余特征示例图;
图10是本申请实施例提供的模型剪枝方法的实现流程示例图;
图11是本申请实施例提供的模型剪枝结果的示例图;
图12是本申请实施例提供的模型量化的中心点偏移示例图;
图13是本申请实施例提供的模型量化方法的实现流程示例图;
图14是本申请实施例提供的模型量化方法的另一实现流程示例图;
图15是本申请实施例提供的模型量化方法的又一实现流程示例图;
图16是本申请实施例提供的模型量化方法的再一实现流程示例图;
图17是本申请实施例提供的模型构建方法的实现流程示例图;
图18是本申请实施例提供的模型精度的对比图;
图19是本申请实施例提供的目标检测方法的实现流程图;
图20是本申请实施例提供的目标检测方法的实现流程示例图;
图21是本申请实施例提供的模型检测装置的结构示意图;
图22是本申请实施例提供的目标检测装置的结构示意图;
图23是本申请实施例提供的电子设备的结构示意图;
图24是本申请实施例提供的监控设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下列举为本申请实施例涉及的中英文名词解释。
特征金字塔网络(Feature Pyramid Network,FPN),是一种基于特征金字塔的神经网络架构。它通过使用空间金字塔池化技术来构建多层特征金字塔,并且在上采样过程中与下采样过程中生成的较高分辨率特征图进行融合,以便在不同尺度上产生具有不同语义信息的特征图。FPN通过在不同的特征层之间进行信息融合,从而将更多的上下文信息引入到模型中,有效地提升了模型的感受野和语义信息表达能力,使得模型在处理多尺度物体时具有更好的鲁棒性和准确度。
特征尺度融合(Path Aggregation Network,PAN)网络,用于语义分割任务的神经网络模型。它通过建立一个多级特征金字塔和一个可变形卷积模块来有效地解决了物体大小不同的问题。PAN网络首先通过一个骨干网络提取图像的特征,然后使用一系列特征融合模块将这些特征级联起来。在融合过程中,PAN网络采用了一种自适应尺度融合策略,使其可以处理物体大小差异较大的图像。
高速特征超分模块(Fast Feature Super-Resolution Module,FSR),是一种用于图像超分辨率重构的深度学习模型组件,它通过在低分辨率图像上提取出高级的特征表示,并将其映射到对应的高分辨率空间中,从而实现图像的增强和重构。
三叉检测头(Trident Head)网络,是一种用于目标检测任务的深度学习模型,它由三个并行的卷积神经网络组成,分别用于输出目标物体的分类、定位和遮挡情况。该网络结构通常采用多级特征金字塔和锚框机制,可以有效地检测不同尺寸和形状的目标物体,并且在检测精度和速度之间取得了平衡。
批归一化(Batch Normalization,BN),是一种深度学习中常用的技术,通过对一层网络的输出进行标准化,以避免输入数据分布不平衡的问题。这可以使得训练更加稳定和快速,并且有利于避免过拟合。
幽灵卷积块(Ghost Convolutional Block)是一种轻量级的卷积神经网络结构,它在保证高精度的同时具有较低的计算复杂度和参数数量。其中的关键组件是幽灵卷积层,它通过将输入特征图分为两个部分来减少计算量,并且引入了一个超参数控制两部分之间的比例。本申请利用幽灵卷积块作为轻量化的卷积基础块构建Featrinet模型。
训练后量化(Post Training Quantization,PTQ):是一种在训练后对神经网络进行量化优化的技术。它通过将高位精度的模型参数和激活值转换为低位精度来减少模型的内存占用和计算需求,从而提高模型在移动设备等资源受限环境下的运行速度和效率。PTQ技术可以应用于各种类型的神经网络,并且在不降低模型性能的前提下,可以明显减少模型大小并提高推理速度。
Featrinet模型,为结合上下文建模、尺度融合、尺度感知技术,利用特征金字塔、特征融合、针对小目标物体特征的高速特征超分模块设计的面向线上或线下考试场景的实时高效目标检测模型。
锚框,通常是在图像特征图上定义的一组预设的矩形框,用来对输入图像进行分割和区域选择。
锚点:是指在图像坐标系中的一个点,通常被用来定义某个物体的位置。
与常规的目标检测不同,应用于考场监控的目标检测算法需要应对多种复杂的情形,如真实考场监控画面中的物体密集,考生若使用电子设备则在画面中出现的比例过小;或画面中的小目标物体通常伴随着不准确定位、遮挡目标检测、信息丢失、噪声特征以及对目标检测算法的预测框的低容忍度等问题;或线上考试环境存在大量杂物堆积、画面中过多与考试无关的物品、摄像头随机摆放的位置等问题;或监控设备由于无法提供足够的算力运行现有的目标检测算法执行目标检测任务,而依赖于服务器运行现有的目标检测算法,从而无法保证检测实时性的问题;又或者线上或线下考场环境存在灯光设置问题,昏暗的灯光会让目标物体轮廓变得模糊不清,目标物体的表面的亮度显然变得难以识别;而过亮的灯光设置又会使得目标物体周围整体亮度过高,目标物体周围背景呈现“发白”的现状,从而影响目标检测的问题。而采用现有的目标检测算法难以在上述复杂的考场环境中实现高效实时的检测。
基于上述问题,本申请实施例提供一种能够适应多种考场复杂环境的目标检测模型,其采用极轻量化的模型架构。本申请实施例还使用模型剪枝、模型量化等技术进一步加速目标检测模型的模型推理,使得目标检测模型能够应用于低端的监控设备,实现了实时检测,对考生考试期间的情况进行快速反馈,有效提高了考试纪律性和公平性。且本申请实施例提供的目标检测模型不受限于服务器的远程检测,不仅能大幅减弱网络带来的实时衰减以外,还能降低企业对该项目进行的服务器投入和维护成本。
请参阅图1所示,为本申请实施例提供的模型构建方法或目标检测方法的应用环境示意图。如图1所示,电子设备与监控设备通信连接。电子设备通过融合特征金字塔网络、特征尺度融合网络、高速特征超分网络、三叉检测头网络等设计轻量化的模型架构,得到初始检测模型。为了加快模型的推理速度,简化模型结构,电子设备利用预设训练样本集对初始检测模型进行稀疏化训练,以训练初始检测模型对预设训练样本集中的每一预设训练样本中的目标物体进行预测,包括对目标物体进行定位、分类的预测,最终得到目标检测模型。在本申请的一实施例中,电子设备确定目标检测模型后,可以将目标检测模型转换成监控设备支持的格式,将目标检测模型嵌入至应用程序,部署于监控设备,以便于监控设备利用目标检测模型执行目标检测任务。电子设备还可以提供应用程序接口(ApplicationProgramming Interface,API),使得监控设备通过该API建立与电子设备的通信连接,并调用电子设备中的目标检测模型。其中,监控设备包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备及网页浏览器。其中,电子设备可以是独立的服务器或者是多个服务器组成的服务器集群,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,还可以是个人计算机、电脑等终端设备。
请参阅图2,图2所示为本申请实施例提供的模型构建方法的实现流程图,以该方法应用在图2中的电子设备为例进行说明,包括如下步骤:
S11:融合特征金字塔网络、特征尺度融合网络、高速特征超分模块、三叉检测头网络,构建初始检测模型。
在本申请的一实施例中,初始检测模型包括未训练模型参数的FeatriNet模型。
考虑到线上线下考场中存在携带小型通讯设备的情形,即需要对考场监控中的小目标物体进行检测,小目标物体是用于判断考生是否作弊的关键因素。然而,在相关目标检测方案中对小目标物体的检测精度较低,如检测器DyHead在COCO测试集上对于小目标物体的检测精度仅为0.283,对比中目标物体的检测精度0.503和大目标物体的0.575的检测精度来讲,明显偏低。小目标物体的检测精度低可能源于小目标物体特征表现质量不高,从有限和扭曲的小目标物体中学习正确特征表示非常困难;小目标物体的尺度跨度大,多种尺度在训练样本集中并存等方面。而小目标物体特征表现质量不高往往是它们的尺寸有限和通常特征提取模式导致的。目前,特征提取器都会采用下采样的方法,以减少空间冗余和学习更高维特征,但这不可避免会减少小目标物体的特征表示。而且小物体的特征在经过卷积处理后容易被背景示例污染,使得网络很难捕捉到小目标物体对后续任务至关重要的判别信息。
基于上述问题,本申请实施例结合特征金字塔网络、特征尺度融合网络、高速特征超分模块进行尺度感知和特征融合增强。同时,考虑到最终训练得到的FeatriNet模型需要适配低性能的监控设备,因此本申请实施例在模型设计过程中,严格要求FeatriNet模型的块(Block)设计为极轻量级,即每个块的计算量(Floating-Point Operations PerSecond,FLOPS)需要进行压缩设计。
常规卷积块在训练优化时,会产生大量有效但多余的特征,将其命名为幽灵特征。若直接删去这些幽灵特征会对算法模型的结果造成严重打击。而使用极轻量级的计算来负责幽灵特征的生成,可以大幅削减卷积块在提取物体特征时的计算量。基于此,电子设备利用GhostConv块作为轻量化的卷积块来构建FeatriNet模型。
在本申请的一实施例中,融合特征金字塔网络、特征尺度融合网络、高速特征超分模块、三叉检测头网络,构建初始检测模型,包括:以特征金字塔网络、特征尺度融合网络、高速特征超分模块作为特征编码模块,以三叉检测头网络作为特征解码模块构建初始检测模型,特征编码模块用于提取目标特征,特征解码模块用于还原目标特征对应的目标物体。
在本申请的一实施例中,电子设备以特征金字塔网络、特征尺度融合网络、高速特征超分模块作为特征编码模块,提取监控图像或训练样本中的小目标物体、中目标物体、大目标物体的特征。三叉检测头网络作为特征解码模块,将大、中、小目标物体的特征分为三个分支进行检测。如此通过使用不同感受野来获取不同尺度目标物体的特征结构,结合主干特征金字塔网络、特征尺度融合网络等强力的特征上下文建模,使得FeatriNet模型即使面对多尺度目标物体并存的情形也能进行高效的目标检测。
请参阅图3,为本申请实施例提供的目标检测模型的结构示例图。如图3所示,FeatriNet模型的模型架构包括多个基础卷积块(Standard Conv)、全连接层(LinearMapping)、超分辨率重建(Feature Super Resolution)模块、幽灵结构(Ghost Structure)等。FeatriNet模型结合了FPN和PAN网络来作为模型主骨干,它将输入目标检测模型的RGB(Red,Green,Blue)图像自底向上逐渐提取高级语义特征,再将高级语义特征与浅层特征进行自顶向下进行组合。本发明在FPN基础上,加入了PAN网络,将浅层与深层语义进行混合,由此小目标物体的检测不再仅仅依靠浅层特征,它也能汲取到丰富的高级语义信息,从而大大提高FeatriNet模型的语义交互能力,不再局限于小目标物体只能使用小感受野的限制。
同时,考虑到小目标物体难以识别,FeatriNet模型为了应对监考环境中对小目标物体的检测,使用了一种为小目标物体定制化的高速特征超分模块。请参阅图4,为本申请实施例提供的高速特征超分模块的结构示例图。如图4所示,高速特征超分模块分为两个阶段:训练阶段,使用三条分支,不同感受野进行特征吸取的复杂结构;测试阶段,使用单条分支,仅使用基础卷积块的简单结构。本申请实施例在基础卷积块后加入了批归一化(BatchNormalization,BN),有助于加速FeatriNet模型收敛。
在本申请的一实施例中,高速特征超分模块是指对输入图像经过上采样(Upsample)得到的浅层特征图的超分。高速特征模块与FPN和PAN网络组合的模型主骨干共享同一个特征提取结构。由于高速特征超分通常会方法输入图像,如果是对输入图像对应的原始RGB图像进行放大,则会显著增加模型计算量,而FeatriNet模型则是通过高速特征超分模块对多次下采样之后的浅层特征图进行超分训练,极大幅度地缩小高速特征超分模块带来的计算负担。同时,FeatriNet模型的重参数结构在推理部署阶段进一步将高速特征超分模块缩小为简单卷积块(Conv Block)的组合,能够在增加微不足道的计算量情况下,增强小目标物体的特征。
此外,如图3所示,FeatriNet模型还拥有强大的三叉检测头设计,它将大、中、小目标物体分为三个分支进行检测,得到小目标预测、中目标预测及大目标预测。FeatriNet模型能够使用不同感受野来获取不同尺度目标物体的特征结构,结合主骨干强力的特征上下文建模,使得FeatriNet模型即使面对多尺度目标物体并存的情形也能进行高效的目标检测。
此外,图3中的检测结构(Detect Structure)用于对目标物体的定位、分类等操作,生成检测结果。其中,非极大值抑制(Non-Maximum Suppression,NMS)用于去除冗余的检测结果。
在本申请实施例提供的模型构建方法中,电子设备利用特征金字塔融合网络、高速特征超分模块等设计了一种面向线上或线下考试监考的高效检测模型FeatriNet。FeatriNet模型能有针对性地对线上考试的小型作弊通讯设备,如手机、平板、智能手表等进行高精度检测。电子设备并利用上下文建模、尺度融合、尺度感知等技术,使得FeatriNet模型具有强大的特征检测能力,不再局限于浅层语义特征范围。
S12:利用预设训练样本集对初始检测模型进行稀疏化训练,以令初始检测模型对预设训练样本集中每一预设训练样本中的目标物体进行预测,得到目标检测模型。
在本申请的一实施例中,稀疏化训练通过将模型中的某些参数设置为零来减少模型的复杂度和存储需求。目标检测模型包括训练好的FeatriNet模型。
在本申请的一实施例中,考虑到线上考试中,进行目标检测的监控设备性能可能并不突出,为了使得目标检测算法能够在低性能的监控设备上运行,常规模型训练方法并不可行。电子设备通过对初始检测模型进行稀疏化训练,对模型进行进一步压缩,使得目标检测模型能够覆盖到真实监考场景中更多类型的监控设备。
在本申请的一实施例中,利用预设训练样本集对初始检测模型进行稀疏化训练,以令初始检测模型对预设训练样本集中每一预设训练样本中的目标物体进行预测,得到目标检测模型,包括:基于锚框自适应算法与预设训练样本集确定目标检测模型的锚框配置,并对预设训练样本集进行数据增强,得到增强训练样本集;计算利用锚框配置与增强训练样本集对初始检测模型进行稀疏化训练的过程中的小目标损失权重与大目标损失权重;基于小目标损失权重与大目标损失权重对增强训练样本集进行数据优化,得到优化训练样本集;基于锚框配置与优化训练样本集对初始检测模型进行稀疏化训练,以令初始检测模型对预设训练样本集中每一预设训练样本中的目标物体进行预测,得到目标检测模型。
在本申请的一实施例中,锚框自适应算法包括但不限于K-Means聚类、差分进化算法检索锚框形状和尺度组合、Guided Anchors生成稀疏锚框组合特征、AABD使用贝叶斯优化和sub-sampling检索最佳锚框、超参数优化在训练中搜索最佳锚框等。对于考场复杂多变的情形,既需要考虑细粒度锚框的检索,也要兼顾数据处理的高效性,因此本申请实施例优选差分进化算法作为锚框的自适应选择算法。锚框配置是指预设训练样本集对应的锚框参数配置。电子设备在对初始检测模型进行稀疏化训练过程中,将计算小目标损失函数与大目标损失函数,通过模型训练令小目标损失函数收敛,以目标检测模型能够预测小目标物体,通过模型训练令大目标损失函数收敛,以目标检测模型能够预测大目标物体。小目标损失权重是指小目标损失函数的权重,大目标损失权重是指大目标损失函数的权重。
目标检测希望解决的问题是定位图像中感兴趣的所有目标物体,并识别出目标物体的类别。现如今的目标检测通常分为两种,两阶段检测方法和单阶段检测方法。具体来说,两种方法都接收单帧视频画面作为输入,两阶段检测方法先对画面中基础特征进行一轮粗略筛选,将筛选得到的特征再进行一轮精细定位和分类,而单阶段则直接对画面进行特征定位和分类。因此两阶段的方法精度高,但速度慢;单阶段的方法精度低,但速度快。在目标检测技术发展的历程中,单阶段方法由于速度快,广泛被各类行业采用作为监控检测的主要技术,在此基础上进行的大量研究,又诞生了多种衍生方法,如基于锚框和基于锚点的目标检测方法。
请参阅图5,为本申请实时提供的锚框与锚点的示例图。如图5所示,在基于锚框的方法对画面a中的目标物体进行定位和识别过程中,电子设备在画面a对应的特征图的每个像素点上预设不同尺寸的锚框,其能快速、有针对性地对画面a中的不同尺寸、不同比例的目标物体进行定位和识别,从而实现对目标物体的检测。锚框方法能够在训练中使目标损失快速下降,让模型很快接近标注值,但针对不同的数据集需要重新调整锚框的尺寸。由此诞生了另一种基于锚点的目标检测方法,如图5所示,该方法学习画面中最贴近物体的中心点周围像素作为锚点,再由锚点来对物体边界进行预测。锚点方法虽然解决了不同数据集下,锚框尺寸定制的繁琐流程,但也带来了不可避免的问题,如画面b中,两个物体A、B在画面b中重叠时,A、B物体中心点重叠,此时中心点既可作为物体A的锚点,又可作为物体B的锚点。若在复杂情形下,此类重叠数据数量足够多时,基于锚点方法的深度学习模型变得非常难收敛。而在复杂的监考环境下进行目标检测时,由于线上或线下考场都拥有密集物体聚集的情形,因此本申请实施例使用基于锚框的目标检测方法。
在本申请的一实施例中,电子设备基于锚框自适应算法与预设训练样本集确定目标检测模型的锚框配置。请参阅图6,为本申请实施例提供的锚框配置方法的实现流程示例图。如图6所示,其中,电子设备利用差分进化算法对锚框进行优化的优化目标是使得所有目标物体的物体框与匹配的锚框的交并比达到总和最大。
具体地,如图6所示,初始化种群是指电子设备预先定义不同尺寸的锚框,得到预设锚框集合,其中,以预设锚框集合作为种群,以预设锚框集合中的各个预设锚框作为种群的个体。变异处理是指电子设备随机从种群中选取两个个体,并进行作差,得到差向量。然后,电子设备再随机从种群中随机选取第三个体,将第三个体与变异处理后的差向量进行加权求和,得到变异个体。交叉是指电子设备将变异处理后确定的变异个体与上述第三个体进行参数混合,生成试验个体。其中,参数混合包括但不限于加权求和等方式。选择是指电子设备通过将变异个体与预先标注的目标标注框的交并比,与第三个体与目标标注框的交并比进行比较,将较大交并比对应的个体确定为较优个体,仅保留较优个体参与下一轮的进化,直至达到预设进化次数阈值,如此,最终确定的个体均拥有较优的参数。例如,电子设备若确定变异个体与目标标注框的交并比大于第三个体与目标标注框的交并比,则电子设备保留变异个体,且在下一次进化中,用变异个体取代种群中的该第三个体;电子设备若确定变异个体与目标标注框的交并比小于第三个体与目标标注框的交并比,则确定第三个体为较优个体,仍使用第三个体参与下一轮的进化。如此,电子设备通过利用种群进化的特点,将对训练更优的锚框进行保留,优胜劣汰达到最佳锚框组合。对比相关技术方案中的锚框聚类法,本申请实施例通过差分进化算法确定预设训练样本集对应的锚框参数,不会丢弃可能是作弊设备的小锚框,能够显著提高目标检测模型对预设训练样本集的适应能力。
另外地,预设训练样本集中通常小目标物体数量稀缺,对模型总体损失目标贡献小,这会严重影响训练失衡。在一些极端情况,训练过程中会认为小目标物体是数据噪声,从而忽略小目标物体的特征。为此,本申请实施例采用预设数据增强法,如马赛克数据增强法预设训练样本集进行数据增强。
请参阅图7,为申请实施例提供的数据增强方法的实现流程示例图。如图7所示,为了增强学习小目标物体的特征,电子设备利用马赛克增强方法随机选取预设训练样本集中的数据,如数据10、数据98、数据567、数据884等进行等比例随机缩放、随机拼接得到训练分辨率为640*640像素的图像,从而增加了小目标物体的数量,增强了对小目标物体的特征的学习。可见采用数据增强法后,图像中的大、中型目标物体也会随机成为小目标物体,从而在数据层面上大幅扩充了小目标物体的数量。
此外,由于实际考场中可能出现过量或过暗的场景,导致目标物体受到光亮变化背景的污染,从而影响目标检测,因此本申请实施例采用自适应直方图均衡化来快速对图像光照、对比度进行调节,以适应各种场景的变化。具体来说,在进行模型前的图像处理器中加入自适应直方图均衡化方法,使得输入目标检测模型的图像不会出现严重过曝光或欠曝光,从而减少目标物体,尤其是小目标物体遭受光亮变化背景的污染。在利用预设训练样本集对所述初始检测模型进行稀疏化训练过程中,电子设备对预设训练样本集进行数据增强还包括利用自适应直方图均衡化方法对预设训练样本集进行数据增强。
在本申请的一实施例中,电子设备在确定目标检测模型对应的锚框配置与对预设训练样本集进行增强后,利用锚框配置与增强训练样本集对初始检测模型进行稀疏化训练,并基于训练过程中的小目标损失权重与大目标损失权重反向对增强训练样本集进行数据优化,得到优化训练样本集。电子设备基于锚框配置与优化训练样本集对初始检测模型进行稀疏化训练,以令初始检测模型对预设训练样本集中每一预设训练样本中的目标物体进行预测,得到目标检测模型。
在本申请的一实施例中,基于小目标损失权重与大目标损失权重对增强训练样本集进行数据优化,得到优化训练样本集,包括:根据小目标损失权重与大目标损失权重判断初始检测模型在稀疏化训练过程中是否存在损失失衡;若确定初始检测模型在稀疏化训练过程中存在小目标损失失衡,利用预设图像增强法对增强训练样本集进行数据优化,得到优化训练样本集;若确定初始检测模型在稀疏化训练过程中存在大目标损失失衡,对增强训练样本集中的各个增强训练样本进行尺寸调整,得到优化训练样本集;若确定初始检测模型在稀疏化训练过程不存在损失失衡,将增强训练样本集作为优化训练样本集。
在本申请的一实施例中,预设图像增强法包括但不限于马赛克增强法,本申请实施例以马赛克增强法为例进行说明。电子设备若利用马赛克增强法对预设训练样本集进行数据增强,则在数据增强过程中将对预设训练样本集中的随机样本进行缩放拼接,而这将可能导致大目标损失失衡。因此,电子设备还需要对模型训练过程中的目标损失进行平衡以考虑是否使用该马赛克增强法。
基于上述问题,本申请实施例电子设备计算利用锚框配置与增强训练样本集对初始检测模型进行稀疏化训练的过程中的小目标损失权重与大目标损失权重,并根据小目标损失权重与大目标损失权重判断初始检测模型在稀疏化训练过程中是否存在损失失衡。电子设备若确定初始检测模型在稀疏化训练过程中存在小目标损失失衡,则利用预设图像增强法对增强训练样本集进行数据增强。电子设备若确定初始检测模型在稀疏化训练过程中存在大目标损失失衡,则对增强训练样本集中的各个增强训练样本进行尺寸调整,得到优化训练样本集。电子设备若确定初始检测模型在稀疏化训练过程不存在损失失衡,将增强训练样本集作为优化训练样本集。
请参阅图8,为本申请实施例样本集制作方法的实现流程示例图。如图8所示,本申请实施例从目标检测算法的锚框尺寸角度考虑,使用差分进化算法自适应任意的预设训练样本集,确定预设训练样本集对应的锚框配置;从小目标物体的数据不平衡角度,使用马赛克数据增强方法来平滑不同尺寸目标物体的比例;使用自适应直方图变换来适应不同光照的训练样本的输入,减少高亮与低亮训练样本对目标检测的影响。具体地,电子设备在确定目标检测模型的锚框配置过程中,首先初始化锚框配置,然后利用差分进化算法确定出最佳锚框配置。电子设备在对预设训练样本集进行数据增强的过程中,首先利用自适应直方图均衡化对训练样本进行光照、对比度的调节,得到增强训练样本集。电子设备利用锚框配置与增强训练样本集对初始检测模型进行稀疏化训练,并计算训练过程中的小目标损失权重与大目标损失权重,根据小目标损失权重与大目标损失权重判断初始检测模型在稀疏化训练过程中是否存在损失失衡。电子设备若确定初始检测模型在稀疏化训练过程中存在小目标损失失衡,则利用马赛克增强法对增强训练样本集中的增强训练样本等比例随机缩放、随机拼接得到预设训练尺寸的训练样本,如预设训练尺寸为640*640像素的训练样本,得到优化训练样本集。电子设备若确定初始检测模型在稀疏化训练过程中存在大目标损失失衡,则将增强训练样本集中的各个增强训练样本的尺寸调整至预设训练尺寸,得到优化训练样本集。
本申请实施例利用结合马赛克(Mosaic)拼接、锚框自适应差分进化搜索、亮度变换等数据处理技术,解决了当前监控技术不能覆盖线上考试的复杂场景,如杂乱物品堆放、过亮或过暗的灯光设置等问题。并且在复杂场景下,小目标物体,如考生的移动设备等小目标物体的检测框高宽比多变、物品尺寸难以统一、数据稀缺等常见目标检测问题也得到进一步优化。
在本申请的一实施例中,利用预设训练样本集对初始检测模型进行稀疏化训练,以令初始检测模型对预设训练样本集中每一预设训练样本中的目标物体进行预测,得到目标检测模型,包括:利用预设训练样本集对初始检测模型进行稀疏化训练,压缩模型参数,得到训练好的检测模型;检测训练好的检测模型的检测精度;若检测精度大于或等于预设精度阈值,对训练好的检测模型进行模型剪枝,得到剪枝后的检测模型;检测剪枝后的检测模型的模型尺寸;若模型尺寸满足预设模型尺寸要求,对剪枝后的检测模型进行模型量化,得到目标检测模型;若模型尺寸不满足预设模型尺寸要求,返回执行利用预设训练样本集对初始检测模型进行稀疏化训练,压缩模型参数,得到训练好的目标检测模型的步骤;若检测精度小于预设精度阈值,返回执行融合特征金字塔网络、特征尺度融合网络、高速特征超分模块、三叉检测头网络,构建初始检测模型的步骤。
在本申请的一实施例中预设精度阈值与预设模型尺寸要求均为自定义的值,本申请对预设精度阈值与预设模型尺寸要求不做限定。
在本申请的一实施例中,考虑到线上考试中,进行目标检测的监控设备性能可能并不突出,为了使得目标检测算法能够在低性能的监控设备上运行,常规模型训练方法并不可行。本申请通过对初始检测模型进行稀疏化训练,对模型进行进一步压缩,使得目标检测模型覆盖到真实监考场景中更多监控设备。
在本申请的一实施例中初始检测模型在训练过程中通常会产生大量冗余特征,所谓冗余特征就是一些对检测结果表现无效的内容。如图9所示的本申请实施例提供的稀疏化训练中的冗余特征示例图,即便是使用了幽灵卷积块,也会产生大量冗余特征。与Ghost命名的幽灵特征不同,冗余特征是无效且多余的特征,因此从初始检测模型中删去这些特征表示也不会对目标检测结果产生太大影响。一种切实有效且可操作的方法是令模型参数稀疏化,再将不重要的权重进行剪枝去除,得到剪枝后的检测模型再进行微调。此过程反复进行,直到初始检测模型的参数量能够在低性能的监控设备上成功部署为止。如果期间发现剪枝后的检测模型精度明显下降,但模型尺寸还没有满足预设模型尺寸要求,此时说明设计的初始检测模型存在结构上的缺陷,则需要对初始检测模型重新进行模型设计。
作为一示例,请参阅图10,为本申请实施例提供的模型剪枝方法的实现流程示例图。FeatriNet模型在训练时规定了每一个模型参数的前进步幅,统一将其压缩到0的附近。一些表征能力强的模型参数会尽可能脱离0的控制,而表征能力差的则会向0靠近。经过稀疏化训练之后,模型参数矩阵呈现一种多0的形态,也就是成为了稀疏化矩阵。但需要注意,若直接从稀疏矩阵中删去小权重值,这会使得卷积矩阵不再完整,从而破坏现有的卷积计算规则。一种常见的做法是计算稀疏卷积矩阵的均值,如果均值小于设定的阈值,直接将该卷积矩阵删去。其中,剪枝约束的公式表示为:
式中,标注y表示模型参数X前进的方向,R表示实数,正则项β对模型参数X进行正则约束,而ε是正则系数,表示对模型参数X的采取的约束幅度。显然,ε取值越大,对模型参数向0压缩的程度越大。当ε=0时,稀疏训练变为常规训练;而当ε>>1时,正则项将取代目标函数的优化方向,此时所有参数几乎都为0;N表示模型参数的参数量。
因此,既要对参数X进行正则约束,又要保证参数X具有较强的表达能力,如图10所示,可以发现,本申请采用动态调整剪枝方法对初始检测模型进行训练/稀疏化训练,极大幅度减少了手工调整模型参数带来的复杂性,提高了训练效率。需要注意的是,当初始检测模型不满足精度要求时,有以下两种情形:I.模型构造导致的表达能力不够;II.模型受正则约束太大,模型严重稀疏化造成的表达能力不够;
对于模型构造导致的表达能力不够,电子设备重新设计初始检测模型,即通过模型重构方式来解决。而对于模型受正则约束太大,模型严重稀疏化造成的表达能力不够,可以采用动态调整正则项β的方法来重新稀疏化训练。如图10所示,电子设备利用预设训练样本集对初始检测模型进行稀疏化训练,得到训练好的检测模型,检测训练好的检测模型的检测精度;若检测精度满足精度要求,对训练好的检测模型进行稀疏化验证、模型剪枝,得到剪枝后的检测模型。然后电子设备检测剪枝后的检测模型的模型尺寸,若模型尺寸不满足预设模型尺寸要求,则模型受正则约束太大,模型严重稀疏化造成的表达能力不够,此时电子设备增大正则项β,并返回执行利用预设训练样本集对初始检测模型进行稀疏化训练的步骤。电子设备若检测精度小于预设精度阈值,不满足精度要求,则表明正则项β过大,模型表达力不足,电子设备需要进行模型重构,以减小正则项β。
上述两种情形的分歧点动态取决于模型调用II的次数,如果当模型反复调度II方法也不能带来明显的精度提升,这就表示模型本身不具有高精度表达能力,从而需要重新设计模型。因此,对于I而言,仅需得到动态重构提示即可。
此外,当模型正常完成剪枝之后,需要重新判定剪枝后的检测模型是否满足低性能的监控设备的推理要求,如果不满足推理要求,则可能存在剪枝率低或模型本身体积过大两种情况,因此需要进行模型重构或增大正则系数进行更大力度剪枝。需要留意一点,在模型剪枝完成后,模型通常精度会降低比较多,本申请采用稀疏化、剪枝、微调的三段式训练法则,因此在剪枝完成后还需要执行一次模型微调训练。
请参阅图11,为本申请实施例提供的模型剪枝结果的示例图。可以发现,当调整合适的正则约束之后,经过多轮训练,模型大多数参数的权重会被挤压到0附近,此时对参数进行幅度剪枝即可实现较好的模型压缩效果。
本申请实施例提供的FeatriNet模型做到真正意义上的极轻量化,除了模型本身采用少冗余的结构设计,训练结束后还进一步将对模型主体无影响的特征剪枝,做到极简轻便,对低性能的监控设备非常友好。
在本申请的一实施例中,若模型尺寸满足预设模型尺寸要求,为了进一步加速训练得到的目标检测模型能够在低性能的监控设备上实时检测,电子设备还需要对模型进行量化处理。量化是通过一组离散符号或整数值来近似连续信号的过程。然而精度降低的技术并不总能达到预期的加速比。例如,由于量化和反量化的额外操作,INT8推理无法在32位浮点上实现精确的4倍加速比。例如,的TensorFlow Lite和/>的Tensor RT使用INT8推理加速比约为2-3倍。但它会大幅提高数据扭转速度,在移动设备受限的存储设备中,量化能够将模型的存储体积降低4倍。量化技术按照发展史来说,可以分为以下三类:动态量化(Dynamic Quantization,DQ)、训练后量化(Post Training Quantization,PTQ)、量化感知训练(Quantization Aware Training,QAT)。本申请实施例优先采用训练后量化技术来实现对模型量化,主要从两点来考虑:1.应用于考场监考环境的目标检测模型对于回归定位要求不高,而PTQ在分类精度上下降不多;2.PTQ技术实现相对容易,可以很方便整合到整个目标检测模型实现进程当中。下面将简单介绍本申请实施例采用的PTQ逻辑。
无论是任何量化技术都无法避免量化精度下降带来的影响,更直白地说,将一个由Float32位表示的数用Int8来表示,其可表示的动态范围缩减了4倍。并且带来了额外更多的问题,以Int8为例,常用的可表示范围{-128,-127,…,0,…,127},共计256个数值。可以发现由于0的加入,导致+128无法被Int8数制所表示,这就导致用Int8量化时存在一个类似除法中被除数不能是0的基本法则。一种直接暴力方法是将-128也删去,从而达到一种对称表示范围,但该方法会在本来就劣化的动态表示范围上再减少。另一种方法则是采用奇数映射来实现,将256个数平摊到更大动态范围来表示,如{-255,-253,…,253,255},由于0属于偶数因此不在可表示范围内。该项做法好处是简单实现了动态范围扩张,但也带来了不能有0的问题,这表明使用该方法就不能做到恒等映射。而事实上,对于神经网络而言,多数情况下数值的中心点并不是0,因此还需要做中心点偏移,即将可表示的中心范围从0移动到其他位置,如图12所示的模型量化的中心点偏移示例图,其中,min(xf)表示可表示范围的最小数值,max(xf)表示可表示范围的最大数值。
当电子设备使用了中心点偏移后,便可使用奇数映射来表示低比特(Bit)数制。除此之外,本申请同样采用了动态量化中的尺度因子S来扩充低Bit数制的表示范围,如下式(1)进行简单表示:WX≈Sw(Wint-Zw)Sx(Xint-Zx) (1)。
其中,Zw、Zx是数制采用的中心点偏移,w表示模型参数,X表示输入的特征,Wint表示整型模型参数,Xint表示整型输入特征。再将(1)式进行简单展开即可得到式(2)表示如下:SwSx(WintXint)+SwSxZxWint+SwZwSxZx+SwSxZwXint (2)。
可以发现,在模型训练结束之后,Zw、Zx、Sw、Sx、Wmt都是标量,因此它们可以作为离线量化保存在模型中等待计算。无法被离线量化的是输入特征Xint,它随着输入发生改变,因此在量化过程中产生主要的计算量来自于拥有Xinnt的两项。为了简化量化计算,电子设备令Zw=0,可以发现执行此项操作后,(2)式等价于(3)式来表示:WX≈ωXint+β (3)。
其中,ω、β都是离线量化的常量,可以优先计算后保存在模型当中,从而大幅降低推理时量化带来的计算量。
以上述示例为基础,请参阅图13,为本申请实施例提供的模型量化方法的实现流程示例图。从图13中可以发现,每一个卷积乘法(Convolution,Conv)都需要执行量化(Quantize)和反量化(De-Quantize)过程。而在执行量化时,须计算当前输入X的最大值(Max)与最小值(Min),才能正确得到低Bit数制的中心偏移和动态尺度因子。当输入X足够大时,不可避免会造成遍历输入X的开销会非常庞大。此时,可以将输入X的Min和Max也进行离线量化,并将其放在模型当中,但这就需要将Min和Max脱离对输入X的依赖。PTQ的做法是,在执行模型量化前,使用超过100张图像作为测试集的同分布替代,由此计算出数据的Min和Max,将其成功存入模型。但这同样存在一个问题,100张或1000张图像能否替代数万张测试集的分布,如果存在较大偏差,则会导致Min和Max求解出现误差,而导致输入X的量化误差变大,由此导致最终模型的精度大幅度下降。但如本申请之前分析的一样,对于考场监控来说,回归并非如此重要,核心是考场中出现的物品以及其置信度,因此采用PTQ方案是可行的。PTQ的离线量化方案参考图14所示的模型量化方法的另一实现流程示例图。
在图14中,矫正(Calibration)表示使用PTQ的额外数据对输入X进行模型层面的矫正。而量化(Quantize)如图13已展示,此处表明的PTQ将与数据依赖相关的Min和Max进行了离线量化。以更进一步提高量化计算速度。
请参阅图15,为本申请实施例提供的模型量化方法的又一实现流程示例图。如图15所示,将第一卷积层的反量化和第二卷积层的量化操作进行合并,使得两个量化卷积Conv1、Conv2进行直接进行数值计算。若用M、N分别表示Conv1、Conv2的量化,很容易发现这实际上是将两个动态范围、偏移都不一致的低Bit进行运算操作,如{-9,-7,-5,3}与{75,77,79,81}进行数值计算。而计算结果则是要用同一个低Bit量P来进行表示,换句话说,这个计算要求找到一个P,可以完美表示M和N,这显然无法实现,而本申请针对该问题采用扩充动态范围的PTQ解法来实现,具体参考图16所示的模型量化方法的再一实现流程示例图。
如图16所示,将M、N两个动态范围不一致的低Bit计算后,用动态范围更大(如Int32)的P来进行完美表示,再对P进行重新计算动态尺度因子,将P重量化(Requantization)为Int8,由此可以解决PTQ存在PTQ中存在的两个低Bit进行数值计算的问题。
以ImageNet分类模型为例,ImageNet分类模型经过训练后量化的结果如下表1所示,可以发现量化对于模型体积的压缩比例非常高。MNN(Mobile Neural Network)量化工具是一个用于将深度学习模型压缩和优化的工具。TF(TensorFlow)量化工具是一组用于压缩和优化TensorFlow模型的工具,其中包括对权重、激活函数等进行量化(减少精度)以减小模型大小和加速推理过程的量化工具。
表1训练后量化的结果示例
本申请实施例通过采用模型剪枝、模型量化等技术进一步加速FeatriNet模型的推理速度,使得本申请能够应付线上考生的低性能的监控设备,对考生考试期间的情况进行快速反馈,有效提高考试纪律性和公平性。
在本申请实施例提供的一种模型构建方法中,电子设备通过融合特征金字塔网络、特征尺度融合网络、高速特征超分模块、三叉检测头网络,构建轻量型的初始检测模型,提高对小目标物体的检测精确度。并通过利用预设训练样本集对初始检测模型进行稀疏化训练,得到目标检测模型,进一步地简化目标检测模型的参数量,使得目标检测模型适用于低性能的监控设备,能够较轻松地适应多种复杂情形的线上或线下考场环境。
在本申请的一实施例中,在利用预设训练样本集对初始检测模型进行稀疏化训练,以令初始检测模型对预设训练样本集中每一预设训练样本中的目标物体进行预测,得到目标检测模型之后,模型构建方法还包括:将目标检测模型部署至监控设备;监测监控设备利用目标监测模型执行目标检测任务的推理耗时;若推理耗时不满足预设实时性要求,返回执行融合特征金字塔网络、特征尺度融合网络、高速特征超分模块、三叉检测头网络,构建初始检测模型的步骤。
在本申请的一实施例中,电子设备在确定目标检测模型之后,可以将目标检测模型转换成监控设备支持的格式,将目标检测模型嵌入至应用程序,部署于监控设备,以便于监控设备利用目标检测模型执行目标检测任务。电子设备还可以提供API,使得监控设备通过该API建立与电子设备的通信连接,并调用电子设备中的目标检测模型。预设实时性要求可以设置为预设时长,当推理耗时大于预设时长时,则表明推理耗时不满足预设实时性要求;当推理耗时小于或等于预设时长时,则表明推理耗时不满足预设实时性要求。
在本申请的一实施例中,电子设备在验证监控设备利用目标监测模型执行目标检测任务的推理耗时是否满足预设实时性要求时,监控设备可以采用低性能的设备,保证目标检测模型能够实时检测的同时,实现目标检测模型能够应用于低性能的监控设备。
在本申请的一实施例中,电子设备可以设置定时器,定时监测监控设备利用目标监测模型执行目标检测任务的推理耗时,判断推理耗时是否满足预设实时性要求,当推理耗时不满足预设实时性要求时,进行模型重构。
请参阅图17,为本申请实施例提供的模型构建方法的实现流程示例图。如图17所示,问题提出即针对存在多种复杂情形的考场监考环境,如线上或线下考场杂乱的考试环境、采用的低性能的监控设备无法运行现有的目标检测算法、过亮或过暗的灯光布置等,构建一种实时高效的目标检测模型通过对考场的监控视频进行目标检测进行监考,且构建的目标检测模型能够应用于低性能的监控设备。基于提出的问题,本申请实施例按照技术方案选取、数据制作、模型设计、训练与稀疏训练及模型剪枝、模型量化、客户端推理部署的步骤构建目标检测模型。
具体地,本申请实施例采用基于锚框的目标检测算法,并利用差分进化算法生成目标检测模型对应的锚框配置。此外,电子设备利用马赛克增强发、自适应直方图均衡化对预设训练样本集进行数据增强以提高数据适用性,尽可能覆盖到更多线上线下考场的真实场景,提高目标检测模型对复杂场景中物体检测精度。在模型设计过程中,本申请实施例从特征金字塔(Feature Pyramid Network,FPN)、上下文建模、尺度融合、尺度感知、注意力等最先进技术当中选择最佳组合,结合针对考场小目标专属优化的快速特征超分,由此制作极轻量级模型架构,再经过反复地进行效果验证,理论推导得出最适合线上或线下考试场景的目标检测模型,将其命名为FeatriNet。
考虑到存在低性能的监控设备无法运行现有的目标检测算法,电子设备进一步地对设计的FeatriNet模型进行模型稀疏化训练,并检测稀疏化训练后的检测模型的检测精度;若检测精度满足精度要求,对稀疏化训练后的检测模型进行稀疏化验证、模型剪枝,得到剪枝后的检测模型。然后电子设备检测剪枝后的检测模型的模型尺寸,判断该模型尺寸是否满足预设模型尺寸要求。若模型尺寸满足预设模型尺寸要求,对剪枝后的检测模型进行训练后量化;若模型尺寸不满足预设模型尺寸要求,则返回执行对模型进行训练/稀疏化训练的步骤;若检测精度不满足精度要求,电子设备返回执行技术方案选取的步骤,重新进行模型设计。通过对设计的FeatriNet模型进行模型稀疏化训练、剪枝及量化处理,以对模型进行压缩,使得模型的参数量能够在低性能的监控设备上部署。在对模型进行训练后量化后,电子设备将最终生成的FeatriNet模型部署至监控设备,并验证在多种考场情形下,监控设备利用FeatriNet模型进行目标检测的检测结果,并监控设备利用FeatriNet模型进行目标检测的推理耗时进行监测。电子设备当监控到该推理耗时不满足实时性要求时,返回技术方案选取的步骤,重新进行模型设计,直至该推理耗时满足实时性要求,从而提高目标检测模型检测的实时性。
请参阅图18,为本申请实施例提供的模型精度的对比图,及表2所示的FeatriNet模型与主流目标检测算法的精度比较。其中图18及表2所示的目标检测算法或目标检测模型均以腾讯神经网络(Tencent Neural Network,TNN)为推理框架,以ARM骁龙845配置的设备为推理设备,进行目标检测测试。根据图18所示,可以发现无论是在考场数据上的精度(mAP),还是执行速度上,本申请实施例中,电子设备构建的FeatriNet模型相对于现有先进的目标检测算法均更加平衡,更占优势。
表2主流目标检测算法的精度比较
为了方便比较,图18及表2中的mAP采用常规的小数点后移两位进行展示。根据表2所示数据可以发现FeatriNet模型执行INT8量化后,在精度损失仅6%情况下,速度提高了2.4倍。可见,模型量化能够有效加速模型推理。
请参阅图19,图19所示为本申请实施例提供的目标检测方法的实现流程图,以该方法应用于图2中的监控设备为例进行说明,包括如下步骤:
S21:采集监控视频,并对监控视频进行预处理,得到待检测图像。
在本申请的一实施例中,监控视频是指监控设备实时拍摄的考场视频。在其他实施方式中,监控设备还可是监控设备接收到的由其他设备发送的考场视频。其中其他设备包括但不限于摄像设备、监控设备、服务器等设备中的一个。待检测图像是指监控视频对应的考场图像。
在本申请的一实施例中,电子设备将目标检测模型部署至监控设备后,监控设备利用目标检测模型进行监考。具体地,由于监控设备是通过利用目标检测模型对图像进行目标检测,以检测考生在考试期间,考场中是否出现违规物品,从而实现监考,因此监控设备在采集考场的监控视频后,需要对监控视频进行预处理,获得待检测图像。
在本申请的一实施例中,对监控视频进行预处理,得到待检测图像,包括:将监控视频转换为至少一个视频帧图像,并对至少一个视频帧图像进行格式转换,得到至少一个目标帧图像;利用过滤器从至少一个目标帧图像中过滤出有效帧图像,并对有效帧图像进行图像增强,得到待检测图像。
在本申请的一实施例中,监控设备可以利用OpenCV库、FFmpeg等工具将监控视频转换为视频帧图像。为了便于后续执行目标检测任务,监控设备可以进一步对视频帧图像进行格式转换,得到至少一个目标帧图像,监控设备将每一目标帧图像存储为单独的图像文件。由于监控视频中可能存在无效帧图像,如空白帧等,这些无效帧图像对目标检测结果没有贡献,反而影响目标检测效率,因此,监控设备利用过滤器从上述至少一个目标帧图像中过滤出有效帧图像,仅对有效帧图像进行目标检测。监控设备在确定有效帧图像后,为进一步地提高检测精确度,对有效帧图像进行图像增强,得到待检测帧图像。例如采用自适应直方图均衡化来对有效帧图像的亮度进行自适应调节,以减少图像的亮度对目标检测的影响。
S22:利用目标检测模型对待检测图像进行目标检测,确定出待检测图像中的目标物体。
在本申请的一实施例中,目标物体是指待检测图像中具有特定类别的物体,如违规设备:考生、手机、穿戴式设备等。目标检测模型通常将目标物体通过预测框框出来并进行分类,以实现目标检测。目标检测模型即上述Featrinet模型。
在本申请的一实施例中,监控设备利用目标检测模型逐帧对待检测图像进行目标检测,从而确定出每一待检测图像中的目标物体。
在本申请的一实施例中,利用目标检测模型对待检测图像进行目标检测,确定出待检测图像中的目标物体,包括:利用目标检测模型对待检测图像进行目标检测,生成待检测图像中目标物体对应的预测框,预测框用于表征目标物体的位置与类别;根据预测框确定出待检测图像中的目标物体。
在本申请的一实施例中,预测框还可以表征目标物体的形状、大小等。监控设备在利用目标检测模型对待检测图像进行目标检测的过程中,通过FPN网络、PAN网络等对待检测图像进行特征提取,得到高位特征表示的特征图。监控设备在特征图上利用锚框等方法生成后候选区域。之后,监控设备对候选区域进行目标分类,即判断各候选区域所属的类别。对于确定为目标体类别的候选区域通过边界框回归等方法精确定位目标物体的位置。在本申请的一实施例中,监控设备在确定待检测图像中目标物体对应的预测框后还可以对重叠相似的多个预测框进行筛选与合并,以对检测结果进行进一步优化,最终输出优化后的检测结果,确定目标物体对应的预测框,从而确定出待检测图像中的目标物体。
在本实施例提供的目标检测方法中,监控设备通过利用轻量化的Featrinet模型实现了对监控视频的实时高效的目标检测,对考生考试期间的情况进行快速反馈,有效提高了考试纪律性和公平性。
在本申请的一实施例中,在根据预测框确定出待检测图像中的目标物体之后,目标检测方法还包括:基于待检测图像中目标物体的物体尺寸,对待检测图像对应的预测框进行尺度变换,确定出待检测图像对应的预测目标框;根据预测目标框在对应的待检测图像中绘制目标框,得到目标图像;整合所有目标图像,得到目标视频。
在本申请的一实施例中,由于在对待检测图像进行目标检测的过程中,可能对待检测图像进行了裁剪、尺度变换等处理,因此预测框的实际大小,例如宽、高等与待检测图像中对应目标物体的实际尺寸可能不一致。基于此,监控设备还需要基于待检测图像中目标物体的物体尺寸,对待检测图像对应的预测框进行尺度变换确定出待检测图像对应的预测目标框。其中预测目标框与目标物体的尺寸一致。根据预测目标框在对应的待检测图像中绘制目标框,得到标注有目标框的目标图像,其中目标框用于表征目标图像中目标物体的位置、类别、形状及大小等。最终,监控设备整合所有目标图像,得到目标视频。作为一示例,监控设备可以利用OpenCV等工具整合所有目标图像,本申请对整合的方式不做限定。
请参阅图20,为本申请实施例提供的目标检测方法的实现流程示例图。如图20所示,监控设备接收到监控视频后,利用预处理器对监控视频进行预处理,将监控视频转换为目标帧图像。然后监控设备利用过滤器对目标帧图像进行过滤,同时对过滤出的有效帧图像进行图像增强,确定出待检测图像。监控设备在利用目标检测模型对待检测图像进行目标检测的过程中,对待检测图像进行多次下采样,通过FPN网络、PAN网络等对待检测图像进行特征提取、特征融合得到高位特征表示的特征图(如小尺寸特征、中尺寸特征、大尺寸特征)。由于待检测图像中小目标物体的分辨率本身较小,在经过多次下采样后,可能导致一些小目标物体的特征丢失,减少小目标样本的数量,从而影响对小目标物体的检测,因此Featrinet模型中增加高速特征超分模块,通过对小尺寸特征对应的特征图进行高速超分,如此,在增加少量的计算量的情况下,增加了高质量的小目标物体的特征,提高了检测小目标物体的效率。图20中,小尺寸特征是指小尺寸物体对应的特征图,中尺寸特征是指中尺寸物体对应的特征图,大尺寸特征是指大尺寸物体对应的特征图。监控设备确定不同尺寸物体对应的特征图后,对各特征图中的进行目标定位、目标分类,从而确定出待检测图像中目标物体对应的预测框。进一步地,监控设备基于待检测图像中目标物体的物体尺寸,对待检测图像对应的预测框进行尺度变换,确定出待检测图像对应的预测目标框,并根据预测目标框在对应的待检测图像中进行目标绘制,绘制出目标物体对应的目标框,得到目标图像。监控设备通过后处理器整合所有目标图像,得到目标视频,输出目标视频。
在本申请的一实施例中,监控设备在获取目标视频后,还可以将目标视频发送至监考设备,由监考人员对目标视频进行进一步的审核,从而确定出考试过程中的违规行为。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在本申请的一个实施例中,提供一种模型构建装置100,该模型构建装置与上述实施例中模型构建方法一一对应。如图21所示,该模型构建装置包括设计模块101与训练模块102。各功能模块详细说明如下:
设计模块101,用于融合特征金字塔网络、特征尺度融合网络、高速特征超分模块、三叉检测头网络,构建初始检测模型。
训练模块102,用于利用预设训练样本集对初始检测模型进行稀疏化训练,以令初始检测模型对预设训练样本集中每一预设训练样本中的目标物体进行预测,得到目标检测模型。
关于模型构建装置的具体限定可以参见上文中对于模型构建方法的限定,在此不再赘述。上述模型构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在本申请的一个实施例中,提供一种目标检测装置200,该目标检测装置与上述实施例中目标检测方法一一对应。如图22所示,该目标检测装置包括采集模块201与检测模块202。各功能模块详细说明如下:
采集模块201,用于采集监控视频,并对监控视频进行预处理,得到待检测图像。
检测模块202,用于利用目标检测模型对待检测图像进行目标检测,确定出待检测图像中的目标物体。
关于目标检测装置的具体限定可以参见上文中对于目标检测方法的限定,在此不再赘述。上述目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于监控设备中的处理器中,也可以以软件形式存储于监控设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图23所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口等。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括计算机可读存储介质、内存储器。该计算机可读存储介质存储有计算机可读指令。该内存储器为计算机可读存储介质中的计算机可读指令的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种模型构建方法。本实施例所提供的计算机可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一个实施例中,提供了一种电子设备,该电子设备可以是终端设备。该电子设备可以包括通过系统总线连接的处理器、存储器及网络接口等。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括计算机可读存储介质、内存储器。该计算机可读存储介质存储有操作系统和计算机可读指令。该内存储器为计算机可读存储介质中的操作系统和计算机可读指令的运行提供环境。该电子设备的网络接口用于与外部服务器通过网络连接通信。该计算机可读指令被处理器执行时以实现一种模型构建方法。本实施例所提供的计算机可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一个实施例中,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现以下步骤:融合特征金字塔网络、特征尺度融合网络、高速特征超分模块、三叉检测头网络,构建初始检测模型;利用预设训练样本集对初始检测模型进行稀疏化训练,以令初始检测模型对预设训练样本集中每一预设训练样本中的目标物体进行预测,得到目标检测模型。
在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读存储介质,本实施例所提供的计算机可读存储介质包括非易失性可读存储介质和易失性可读存储介质。计算机可读存储介质上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时实现以下步骤:融合特征金字塔网络、特征尺度融合网络、高速特征超分模块、三叉检测头网络,构建初始检测模型;利用预设训练样本集对初始检测模型进行稀疏化训练,以令初始检测模型对预设训练样本集中每一预设训练样本中的目标物体进行预测,得到目标检测模型。
在一个实施例中,提供了一种监控设备,该监控设备可以是终端,其内部结构图可以如图24所示。该监控设备可以包括通过系统总线连接的处理器、存储器及网络接口等。其中,该监控设备的处理器用于提供计算和控制能力。该监控设备的存储器包括计算机可读存储介质、内存储器。该计算机可读存储介质存储有操作系统和计算机可读指令。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该监控设备的网络接口用于与外部服务器通过网络连接通信。该计算机可读指令被处理器执行时以实现一种目标检测方法。本实施例所提供的计算机可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一个实施例中,提供了一种监控设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现以下步骤:采集监控视频,并对监控视频进行预处理,得到待检测图像;利用目标检测模型对待检测图像进行目标检测,确定出待检测图像中的目标物体。
在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读存储介质,本实施例所提供的计算机可读存储介质包括非易失性可读存储介质和易失性可读存储介质。计算机可读存储介质上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时实现以下步骤:采集监控视频,并对监控视频进行预处理,得到待检测图像;利用目标检测模型对待检测图像进行目标检测,确定出待检测图像中的目标物体。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种模型构建方法,应用于电子设备,其特征在于,所述模型构建方法包括:
融合特征金字塔网络、特征尺度融合网络、高速特征超分模块、三叉检测头网络,构建初始检测模型;
利用预设训练样本集对所述初始检测模型进行稀疏化训练,以令所述初始检测模型对所述预设训练样本集中每一预设训练样本中的目标物体进行预测,得到目标检测模型。
2.如权利要求1所述的模型构建方法,其特征在于,在利用预设训练样本集对所述初始检测模型进行稀疏化训练,以令所述初始检测模型对所述预设训练样本集中每一预设训练样本中的目标物体进行预测,得到目标检测模型之后,所述模型构建方法还包括:
将所述目标检测模型部署至监控设备;
监测所述监控设备利用所述目标监测模型执行目标检测任务的推理耗时;
若所述推理耗时不满足预设实时性要求,返回执行融合特征金字塔网络、特征尺度融合网络、高速特征超分模块、三叉检测头网络,构建初始检测模型的步骤。
3.如权利要求1所述的模型构建方法,其特征在于,所述融合特征金字塔网络、特征尺度融合网络、高速特征超分模块、三叉检测头网络,构建初始检测模型,包括:
以特征金字塔网络、特征尺度融合网络、高速特征超分模块作为特征编码模块,以三叉检测头网络作为特征解码模块构建所述初始检测模型,所述特征编码模块用于提取目标特征,所述特征解码模块用于还原所述目标特征对应的目标物体。
4.如权利要求1所述的模型构建方法,其特征在于,所述利用预设训练样本集对所述初始检测模型进行稀疏化训练,以令所述初始检测模型对所述预设训练样本集中每一预设训练样本中的目标物体进行预测,得到目标检测模型,包括:
利用预设训练样本集对所述初始检测模型进行稀疏化训练,压缩模型参数,得到训练好的检测模型;
检测所述训练好的检测模型的检测精度;
若所述检测精度大于或等于预设精度阈值,对所述训练好的检测模型进行模型剪枝,得到剪枝后的检测模型;
检测所述剪枝后的检测模型的模型尺寸;
若所述模型尺寸满足预设模型尺寸要求,对所述剪枝后的检测模型进行模型量化,得到所述目标检测模型;
若所述模型尺寸不满足预设模型尺寸要求,返回执行利用预设训练样本集对所述初始检测模型进行稀疏化训练,压缩模型参数,得到训练好的目标检测模型的步骤;
若所述检测精度小于预设精度阈值,返回执行融合特征金字塔网络、特征尺度融合网络、高速特征超分模块、三叉检测头网络,构建初始检测模型的步骤。
5.如权利要求1所述的模型构建方法,其特征在于,所述利用预设训练样本集对所述初始检测模型进行稀疏化训练,以令所述初始检测模型对所述预设训练样本集中每一预设训练样本中的目标物体进行预测,得到目标检测模型,包括:
基于锚框自适应算法与所述预设训练样本集确定所述目标检测模型的锚框配置,并对所述预设训练样本集进行数据增强,得到增强训练样本集;
计算利用所述锚框配置与所述增强训练样本集对所述初始检测模型进行稀疏化训练的过程中的小目标损失权重与大目标损失权重;
基于所述小目标损失权重与大目标损失权重对所述增强训练样本集进行数据优化,得到优化训练样本集;
基于所述锚框配置与所述优化训练样本集对所述初始检测模型进行稀疏化训练,以令所述初始检测模型对所述预设训练样本集中每一预设训练样本中的目标物体进行预测,得到所述目标检测模型。
6.如权利要求5所述的模型构建方法,其特征在于,所述基于所述小目标损失权重与大目标损失权重对所述增强训练样本集进行数据优化,得到优化训练样本集,包括:
根据所述小目标损失权重与所述大目标损失权重判断所述初始检测模型在稀疏化训练过程中是否存在损失失衡;
若确定所述初始检测模型在稀疏化训练过程中存在小目标损失失衡,利用预设图像增强法对所述增强训练样本集进行数据优化,得到所述优化训练样本集;
若确定所述初始检测模型在稀疏化训练过程中存在大目标损失失衡,对所述增强训练样本集中的各个增强训练样本进行尺寸调整,得到所述优化训练样本集;
若确定所述初始检测模型在稀疏化训练过程不存在损失失衡,将所述增强训练样本集作为所述优化训练样本集。
7.一种基于权利要求1至6任一项所述的目标检测模型的目标检测方法,应用于监控设备,其特征在于,所述目标检测方法包括:
采集监控视频,并对所述监控视频进行预处理,得到待检测图像;
利用所述目标检测模型对所述待检测图像进行目标检测,确定出所述待检测图像中的目标物体。
8.如权利要求7所述的目标检测方法,其特征在于,所述对所述监控视频进行预处理,得到待检测图像,包括:
将所述监控视频转换为至少一个视频帧图像,并对所述至少一个视频帧图像进行格式转换,得到至少一个目标帧图像;
利用过滤器从所述至少一个目标帧图像中过滤出有效帧图像,并对所述有效帧图像进行图像增强,得到所述待检测图像。
9.如权利要求7所述的目标检测方法,其特征在于,所述利用所述目标检测模型对所述待检测图像进行目标检测,确定出所述待检测图像中的目标物体,包括:
利用所述目标检测模型对所述待检测图像进行目标检测,生成所述待检测图像中目标物体对应的预测框,所述预测框用于表征所述目标物体的位置与类别;
根据所述预测框确定出所述待检测图像中的目标物体。
10.如权利要求9所述的目标检测方法,其特征在于,在所述根据所述预测框确定出所述待检测图像中的目标物体之后,所述目标检测方法还包括:
基于所述待检测图像中目标物体的物体尺寸,对所述待检测图像对应的预测框进行尺度变换,确定出所述待检测图像对应的预测目标框;
根据所述预测目标框在对应的待检测图像中绘制目标框,得到目标图像;
整合所有所述目标图像,得到目标视频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310480919.4A CN116543277A (zh) | 2023-04-27 | 2023-04-27 | 模型构建方法及目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310480919.4A CN116543277A (zh) | 2023-04-27 | 2023-04-27 | 模型构建方法及目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116543277A true CN116543277A (zh) | 2023-08-04 |
Family
ID=87451682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310480919.4A Pending CN116543277A (zh) | 2023-04-27 | 2023-04-27 | 模型构建方法及目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116543277A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409014A (zh) * | 2023-10-09 | 2024-01-16 | 齐鲁工业大学(山东省科学院) | 一种基于特征选择的轻量级心脏mri分割方法 |
-
2023
- 2023-04-27 CN CN202310480919.4A patent/CN116543277A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409014A (zh) * | 2023-10-09 | 2024-01-16 | 齐鲁工业大学(山东省科学院) | 一种基于特征选择的轻量级心脏mri分割方法 |
CN117409014B (zh) * | 2023-10-09 | 2024-05-28 | 齐鲁工业大学(山东省科学院) | 一种基于特征选择的轻量级心脏mri分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112651438A (zh) | 多类别图像的分类方法、装置、终端设备和存储介质 | |
CN112446476A (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
CN112288011B (zh) | 一种基于自注意力深度神经网络的图像匹配方法 | |
US20240062530A1 (en) | Deep perceptual image enhancement | |
CN112639828A (zh) | 数据处理的方法、训练神经网络模型的方法及设备 | |
Wang et al. | Blur image identification with ensemble convolution neural networks | |
CN110148088B (zh) | 图像处理方法、图像去雨方法、装置、终端及介质 | |
CN112101359B (zh) | 文本公式的定位方法、模型训练方法及相关装置 | |
CN114511576B (zh) | 尺度自适应特征增强深度神经网络的图像分割方法与系统 | |
CN111833322B (zh) | 一种基于改进YOLOv3的垃圾多目标检测方法 | |
CN112906721B (zh) | 图像处理方法、装置、设备及计算机可读存储介质 | |
CN113420794B (zh) | 一种基于深度学习的二值化Faster R-CNN柑橘病虫害识别方法 | |
CN112598110B (zh) | 神经网络构建方法、装置、设备及介质 | |
CN113129236A (zh) | 基于Retinex和卷积神经网络的单张低光照图像增强方法及系统 | |
CN112132279A (zh) | 卷积神经网络模型压缩方法、装置、设备及存储介质 | |
CN113095470A (zh) | 神经网络的训练方法、图像处理方法及装置、存储介质 | |
CN111488938A (zh) | 一种基于两步可切换归一化深度神经网络的图像匹配方法 | |
CN111898638B (zh) | 融合不同视觉任务的图像处理方法、电子设备及介质 | |
CN116543277A (zh) | 模型构建方法及目标检测方法 | |
US20220301106A1 (en) | Training method and apparatus for image processing model, and image processing method and apparatus | |
CN112132207A (zh) | 基于多分支特征映射目标检测神经网络构建方法 | |
CN115100509B (zh) | 基于多分支块级注意力增强网络的图像识别方法及系统 | |
US20220164934A1 (en) | Image processing method and apparatus, device, video processing method and storage medium | |
CN115457015A (zh) | 一种基于视觉交互感知双流网络的图像无参考质量评估方法及装置 | |
CN115115835A (zh) | 图像的语义分割方法、装置、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |