CN110795976A - 一种训练物体检测模型的方法、装置以及设备 - Google Patents
一种训练物体检测模型的方法、装置以及设备 Download PDFInfo
- Publication number
- CN110795976A CN110795976A CN201810987040.8A CN201810987040A CN110795976A CN 110795976 A CN110795976 A CN 110795976A CN 201810987040 A CN201810987040 A CN 201810987040A CN 110795976 A CN110795976 A CN 110795976A
- Authority
- CN
- China
- Prior art keywords
- convolution
- variable
- training
- networks
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 172
- 238000001514 detection method Methods 0.000 title claims abstract description 115
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000010586 diagram Methods 0.000 claims abstract description 18
- 230000005284 excitation Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 abstract description 16
- 230000003044 adaptive effect Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013403 standard screening design Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种计算设备执行的训练物体检测模型的方法。该方法包括:获取系统参数,例如主干网络的感受野、训练图像的尺寸、训练图像中的待检测物体的尺寸、训练计算能力、待检测物体的复杂度;根据系统参数确定配置参数;根据配置参数和主干网络输出的特征图,建立可变卷积网络。基于可变卷积网络输出的特征识别待检测物体,根据识别结果和先验结果的对比训练主干网络和可变卷积网络。任一可变卷积层使用的卷积核在执行卷积的过程中可以向任意方向偏移。该方法训练出来的物体检测模型对待检测物体的识别准确度更高。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及训练物体检测模型的方法,用于执行该方法的装置和计算设备。
背景技术
物体检测是一项对图像/视频中的物体进行准确定位并进行分类检测的人工智能技术,其包含通用物体检测、人脸检测、行人检测、文字检测等诸多细分领域。近年来,学术界与工业界积极投入,算法不断成熟,当前基于深度学习的物体检测方案被用在市政安防(行人检测、车辆检测、车牌检测等)、金融(物体检测、刷脸登录等)、互联网(身份验证)、智能终端等实际产品中。
目前物体检测已经较广泛应用于多种简单/中等复杂难度场景(比如门禁、卡口场景下检测人脸)。在开放环境下,如何保持训练出的物体检测模型对待检测物体的尺寸变化幅度较大、遮挡、扭曲等多种不利因素的鲁棒性,并提升检测精度,仍是一个待解决的问题。
发明内容
本申请提供了一种训练物体检测模型的方法,该方法提升了训练出的物体检测模型的检测精度。
第一方面,提供了一种计算设备执行的物体检测模型的训练方法,执行该方法的计算设备可以是分布在相同或不同环境中的一台或多台计算设备。该方法包括:
获取系统参数,所述系统参数包括以下至少一个:所述物体检测模型的主干网络的感受野、训练图像的尺寸、训练图像中的待检测物体的尺寸、训练计算能力、所述待检测物体的复杂度。后续确定配置参数的过程中需要用到的系统参数在此步骤中被获取。
根据所述系统参数,确定i个可变卷积网络的配置参数,所述配置参数包括以下至少一个:所述可变卷积网络的个数i、第i个可变卷积网络包括的可变卷积层的数量Li、所述可变卷积网络的卷积核的滑动跨度、最大偏移距离、所述卷积核的尺寸,i和Li均为大于0的整数。
获取训练图像,根据所述训练图像建立所述主干网络,所述主干网络包括K个卷积层。
根据所述主干网络输出的特征图和所述配置参数,建立所述i个可变卷积网络;其中,每个可变卷积网络的卷积核执行卷积时的偏移距离不超过所述最大偏移距离。
将所述i个可变卷积网络输出的特征输入所述物体检测模型的分类器。
对比所述分类器检测出的所述训练图像中的待检测物体和所述训练图像的先验结果,根据所述对比结果对所述主干网络的卷积核的模型参数、所述i个可变卷积网络的卷积核的模型参数、所述最大偏移距离、所述分类器的参数中的至少一个进行激励。
以上提供的方法,根据配置参数建立的i个可变卷积网络更好的适应了训练环境的计算能力或训练图片的状况,提升了训练出的物体检测模型的精度。同时,可变卷积网络的卷积核在卷积运算的过程中可以偏移,提升了训练出的物体检测模型对于形变、阻挡较严重的物体的识别精度。
在一种可能的实现方式中,所述根据所述主干网络输出的特征图和所述配置参数建立所述i个可变卷积网络的过程中,任一可变卷积层的卷积核的卷积片可以发生偏移,具体包括:
将所述i个可变卷积网络中的第一可变卷积层的卷积核的卷积片向任意方向偏移不超过所述最大偏移距离个特征;将所述第一可变卷积层的卷积核的卷积片的模型参数与偏移后的所述第一可变卷积层的卷积核的卷积片相应的所述第一可变卷积层的特征进行卷积,以获取所述i个可变卷积网络的第二可变卷积层中的特征。其中,第一可变卷积层可以属于任一可变卷积网络。第二可变卷积层与第一可变卷积层属于相同的可变卷积网络。
在一种可能的实现方式中,所述根据所述主干网络输出的特征图和所述配置参数建立所述i个可变卷积网络的过程中,任一可变卷积层的卷积核的卷积点可以发生偏移,具体包括:
将所述i个可变卷积网络中的第三可变卷积层的卷积核内的卷积点向任意方向偏移不超过所述最大偏移距离个特征;将所述第三可变卷积层的卷积核的卷积点的模型参数与偏移后的所述第三可变卷积层的卷积核的卷积点相应的所述第三可变卷积层的特征进行卷积,以获取所述i个可变卷积网络的第四可变卷积层中的特征。其中,第三可变卷积层可以属于任一可变卷积网络。第四可变卷积层与第三可变卷积层属于相同的可变卷积网络。
以上介绍的两种偏移方法,偏移对象分别为卷积片和卷积点。这两种偏移方法均使得卷积核在卷积层上的作用域不再是长方体或正方体,而是不规则的形状,而不规则的卷积核的作用域使得卷积核对于复杂度较高的物体更加敏感。采用这样的偏移方法训练出的物体检测模型对于检测复杂度高的待检测物体的识别精度更高。
在一种可能的实现方式中,所述根据所述主干网络输出的特征图和所述配置参数,建立所述i个可变卷积网络包括:将所述主干网络输出的特征图分为i份,分别作为所述i个可变卷积网络的首个可变卷积层。可选的,可以将主干网络输出的特征图平均分成i份。
在一种可能的实现方式中,所述训练计算能力指示所述计算设备的计算能力。
在一种可能的实现方式中,所述待检测物体的复杂度指示所述待检测物体的检测复杂度。
本申请的第二方面提供了一种检测模型训练装置,包括初始化模块、物体检测模型和激励模块。不同的模块可以分布在不同的计算设备上运行,这几个模块的组合提供了检测模型训练装置。其中,
初始化模块,用于获取系统参数,所述系统参数包括以下至少一个:物体检测模型的主干网络的感受野、训练图像的尺寸、训练图像中的待检测物体的尺寸、训练计算能力、所述待检测物体的复杂度;根据所述系统参数,确定i个可变卷积网络的配置参数,所述配置参数包括以下至少一个:所述可变卷积网络的个数i、第i个可变卷积网络包括的可变卷积层的数量Li、所述可变卷积网络的卷积核的滑动跨度、最大偏移距离、所述卷积核的尺寸,i和Li均为大于0的整数。
物体检测模型,用于获取训练图像,根据所述训练图像建立所述主干网络;根据所述主干网络输出的特征图和所述配置参数,建立所述i个可变卷积网络;其中,每个可变卷积网络的卷积核执行卷积时的偏移距离不超过所述最大偏移距离;将所述i个可变卷积网络输出的特征输入所述物体检测模型的分类器。
激励模块,用于对比所述分类器检测出的所述训练图像中的待检测物体和所述训练图像的先验结果,根据所述对比结果对所述主干网络的卷积核的模型参数、所述i个可变卷积网络的卷积核的模型参数、所述最大偏移距离、所述分类器的参数中的至少一个进行激励。
在一种可能的实现方式中,所述物体检测模型,用于将所述i个可变卷积网络中的第一可变卷积层的卷积核的卷积片向任意方向偏移不超过所述最大偏移距离个特征;
将所述第一可变卷积层的卷积核的卷积片的模型参数与偏移后的所述第一可变卷积层的卷积核的卷积片相应的所述第一可变卷积层的特征进行卷积,以获取所述i个可变卷积网络的第二可变卷积层中的特征。
在一种可能的实现方式中,所述物体检测模型,用于将所述i个可变卷积网络中的第三可变卷积层的卷积核内的卷积点向任意方向偏移不超过所述最大偏移距离个特征;
将所述第三可变卷积层的卷积核的卷积点的模型参数与偏移后的所述第三可变卷积层的卷积核的卷积点相应的所述第三可变卷积层的特征进行卷积,以获取所述i个可变卷积网络的第四可变卷积层中的特征。
在一种可能的实现方式中,所述物体检测模型,用于将所述主干网络输出的特征图分为i份,分别作为所述i个可变卷积网络的首个可变卷积层。
本申请的第三方面提供了一种计算设备系统。该计算设备系统包括至少一个计算设备。每个计算设备包括处理器和存储器。至少一个计算设备的处理器用于访问所述存储器中的代码以执行第一方面或第一方面的任意可能的实现方式提供的方法。
本申请的第四方面提供了一种非瞬态的可读存储介质,所述非瞬态的可读存储介质被至少一台计算设备执行时,所述至少一台计算设备执行前述第一方面或第一方面的任意可能的实现方式中提供的方法。该存储介质中存储了程序。该存储介质的类型包括但不限于易失性存储器,例如随机访问存储器,非易失性存储器,例如快闪存储器、硬盘(harddisk drive,HDD)、固态硬盘(solid state drive,SSD)。
本申请的第五方面提供了一种计算设备程序产品,所述计算设备程序产品被至少一台计算设备执行时,所述至少一台计算设备执行前述第一方面或第一方面的任意可能的实现方式中提供的方法。该计算机程序产品可以为一个软件安装包,在需要使用前述第一方面或第一方面的任意可能的实现方式中提供的方法的情况下,可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。
附图说明
为了更清楚地说明本申请实施例的技术方法,下面将对实施例中所需要使用的附图作以简单地介绍。
图1为本申请提供的系统架构示意图;
图2为本申请提供的另一系统架构示意图;
图3为本申请提供的检测模型训练装置在训练态的工作流程图;
图4为本申请提供的物体检测模型训练在推理态的工作流程图;
图5为本申请提供的卷积层和卷积核的结构示意图;
图6为本申请提供的卷积片的结构示意图;
图7为本申请提供的卷积层的感受野的示意图;
图8为本申请提供的另一卷积层的感受野的示意图;
图9为本申请提供的卷积片偏移的示意图;
图10为本申请提供的多个卷积片偏移的示意图;
图11为本申请提供的卷积点的示意图;
图12为本申请提供的多个卷积点偏移的示意图;
图13为本申请提供的方法流程示意图;
图14为本申请提供的检测模型训练装置的结构示意图;
图15为本申请提供的计算设备的结构示意图;
图16为本申请提供的计算设备系统的结构示意图;
图17为本申请提供的另一计算设备系统的结构示意图。
具体实施方式
下面结合本申请实施例中的附图,对本申请实施例中的技术方法进行描述。
本申请中各个“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系。
如图1所示,本申请提供的训练物体检测模型的方法由检测模型训练装置执行。该装置可以运行在云环境中,具体为云环境上的一个或多个计算设备上。该装置也可以运行在边缘环境中,具体为边缘环境中的一个或多个计算设备(边缘计算设备)上。该装置还可以运行在终端环境中,具体为终端环境中的一个或多个终端设备上。终端设备可以为手机、笔记本、服务器、台式电脑等。边缘计算设备可以为服务器。
如图2所示,检测模型训练装置可以由多个部分(模块)组成,因此检测模型训练装置的各个部分也可以分别部署在不同环境中。例如,检测模型训练装置可以在云环境、边缘环境、终端环境中的三个,或其中任意两个环境上部署检测模型训练装置的部分模块。
图3介绍了检测模型训练装置的工作流程示意图。图3中,检测模型训练装置工作于训练态,训练态的目的是利用训练图像以及训练图像的先验结果来训练出一个精度较高的物体检测模型。其中,训练图像的先验结果包括训练图像中的待检测物体的标记。如图3中训练图像为例,该训练图像由包括多个人脸,训练图像的先验结果中将该训练图像的每个人脸用白色的框标记出来(如图3左上角)。训练图像的先验结果一般可以由人工提供。
用训练图像建立K层主干网络(backbone network),该主干网络包括K个卷积层,K为大于0的正整数。主干网络从训练图像中抽取特征图。主干网络提取出的特征图被拆分成i份子特征图,i份子特征图中的每一份被用于建立1个可变卷积网络,因此共计有i个可变卷积网络,i为大于0的正整数。这i个可变卷积网络构成了自适应卷积模块。第i个可变卷积网络包括Li个可变卷积层,Li为大于0的正整数。每个可变卷积网络对1份子特征图进行处理,并输出对该子特征图进行处理后获得的处理后的子特征图。将i份处理后的子特征图输入分类器。分类器包括C个,C为大于0的正整数。C大于1时,每个分类器可以侧重于检测不同尺寸的待检测物体。分类器能够根据输入的特征检测出训练图像中的待检测物体。如图3右侧所示,分类器在训练图像上用白色的框标记出检测出的人脸区域。通过比对训练图像的检测结果和训练图像的先验结果,可以得知本次检测模型训练装置检测出的待检测物体和先验结果的差异。如图3中所示,先验结果中的部分人脸未被该检测模型训练装置检测出来。根据该差异来激励物体检测模型的各个参数,包括以下中的至少一个:主干网络的各个卷积层的卷积核的模型参数,任一可变卷积网络的可变卷积层的卷积核的模型参数,任一可变卷积网络的可变卷积层的卷积片/卷积点的最大偏移距离、所述分类器的参数。每个训练图像的检测结果以及训练图像的先验结果之间的差异均会对物体检测模型的各个参数进行激励,因此通过大量训练图像的激励后,物体检测模型的精度将会提升。
检测模型训练装置通过大量的训练图像以及训练图像的先验结果对物体检测模型进行训练,物体检测模型包括主干网络、i个可变卷积网络(自适应卷积模块)和C个分类器。训练完毕的物体检测模型被用于推理态。训练完毕的物体检测模型可以部署在云环境或者边缘环境或者终端环境。或者可以在云环境、边缘环境、终端环境中的三个或其中任意两个上部署物体检测模型的一部分。
如图4所示,推理态中,待检测图像被输入物体检测模型的主干网络,经过i个可变卷积网络和C个分类器的处理后,物体检测模型输出该待检测图像的检测结果。常见的,检测结果中包括被检测出的待检测物体的位置和数量等信息,例如有多少个人脸,每个人脸出现的位置。
以下,介绍本申请使用的概念。
主干网络
主干网络包括卷积网络,该卷积网络包括K个卷积层。除了卷积网络外,主干网络还可以包括池化模块。可选的,主干网络可以采用业界常用的一些模板,例如Vgg,Resnet,Densenet,Xception,Inception,Mobilenet等。训练图像被提取的特征作为主干网的第1个卷积层。主干网络的第1个卷积层被第1个卷积层对应的卷积核提取出的特征形成了主干网络的第2个卷积层。主干网络的第2个卷积层被主干网络的第2个卷积层对应的卷积核提取出的特征形成了主干网络的第3个卷积层。依此类推,主干网络的第k-1个卷积层被主干网络的第k-1个卷积层对应的卷积核提取出的特征形成了主干网络的第k个卷积层,k大于等于1且小于等于K。主干网络的第K个卷积层被主干网络的第K个卷积层对应的卷积核提取出的特征形成了可变卷积网络的第1个可变卷积层。可变卷积网络包括Li个可变卷积层,与主干网络类似的,可变卷积网络的第k-1个卷积层被可变卷积网络的第k-1个卷积层对应的卷积核提取出的特征形成了可变卷积网络的第k个可变卷积层,k大于等于1且小于或等于Li-1。
卷积层和卷积核
主干网络和每个可变卷积网络均包括至少一个卷积层。如图5所示,卷积层101的尺寸为X*Y*N1,即卷积层101包括X*Y*N1个特征。其中,N1为通道数,一个通道即一个特征维度,X*Y为每一个通道包括的特征数目。X、Y、N1均为大于0的正整数。
卷积核1011为作用于卷积层101使用的卷积核之一。由于卷积层102包括N2个通道,因此卷积层101共使用N2个卷积核,这N2个卷积核的尺寸和模型参数可以相同也可以不同。以卷积核1011为例,卷积核1011的尺寸为X1*X1*N1。即卷积核1011内包括X1*X1*N1个模型参数。卷积核内的初始化模型参数可以采用业界常用的模型参数模板。卷积核1011在卷积层101内滑动,滑动到卷积层101的某一位置时,卷积核1011的模型参数和对应位置的卷积层101的特征相乘。将卷积核1011的各个模型参数和对应位置的卷积层101的特征的乘积结果合并后,获得卷积层102的一个通道上的一个特征。卷积层101的特征和卷积核1011的乘积结果可以直接作为卷积层102的特征。也可以在卷积层101的特征和卷积核1011在卷积层101上滑动完毕,输出全部乘积结果后,对全部乘积结果进行归一化,将归一化后的乘积结果作为卷积层102的特征。
形象的表示,卷积核1011在卷积层101上滑动做卷积,卷积的结果形成了卷积层102的一个通道。卷积层101使用的每一个卷积核对应了卷积层102的一个通道。因此,卷积层102的通道数等于作用于卷积层101的卷积核的数目。每一个卷积核内的模型参数的设计体现了该卷积核希望从卷积层内提取的特征的特点。通过N2个卷积核,卷积层101被提取出N2个通道的特征。
如图6所示,将卷积核1011拆分开。卷积核1011包括N1个卷积片,每个卷积片包括X1*X1个模型参数(P11至Px1x1)。每个模型参数对应一个卷积点。一个卷积点对应的模型参数与该卷积点对应位置内的卷积层内的特征相乘获得该卷积点的卷积结果,一个卷积核的卷积点的卷积结果之和为该卷积核的卷积结果。
卷积核滑动跨度
卷积核的滑动跨度即卷积核在卷积层上每次滑动跨越的特征数。卷积核在当前卷积层的当前位置上做完卷积,形成了下一个卷积层的一个特征后,该卷积核在当前卷积层的当前位置的基础上滑动V个特征,并在滑动后的位置上将卷积核的模型参数和卷积层的特征进行卷积,V即卷积核滑动跨度。
感受野
感受野即卷积层上一个特征在输入图像上的感知域(感知范围),在该感知范围内的像素如果发生变化,该特征的值将会随之发生变化。如图7所示,卷积核在输入图像上滑动,提取出的特征构成了卷积层101。类似的,卷积核在卷积层101上滑动,提取出的特征构成了卷积层102。那么,卷积层101中每一个特征,是由输入图像上滑动的卷积核的卷积片的尺寸内的输入图像的像素提取出来的,该尺寸也即卷积层101的感受野。因此,卷积层101的感受野如图7所示。
相应的,卷积层102中的每一个特征映射到输入图像上的范围(即采用输入图像上多大范围的像素)也即卷积层102的感受野。如图8所示,卷积层102中的每一个特征,是由卷积层101上滑动的卷积核的卷积片的尺寸内的输入图像的像素提取出来的。而卷积层101上的每一特征,由是由输入图像上滑动的卷积核的卷积片的范围内的输入图像的像素提取出来的。因此,卷积核102的感受野比卷积层101的感受野要大。如果一个卷积网络(主干网络或可变卷积网络)包括多层卷积层,这多层卷积层中的最后一层卷积层的感受野即该卷积网络的感受野。
训练计算能力
训练计算能力即检测模型训练装置部署的环境中,可供用于检测模型训练装置使用的计算能力,包括以下至少一个:处理器频率、处理器占用率、内存大小、内存占用率、缓存利用率、缓存大小、图像处理器频率、图像处理器占用率,其他计算资源参数。当检测模型训练装置的各个部分部署在多个环境中时,训练计算能力可以通过综合计算这多个环境中可供用于检测模型训练装置使用的计算能力来获得。由于训练计算能力主要用于计算自适应卷积模块的配置参数,因此当检测模型训练装置的各个部分部署在不同环境中时,训练计算能力可以通过自适应卷积模块部署的环境中可供用于自适应卷积模块使用的计算能力来获得。
最大偏移距离和偏移距离
最大偏移距离包括两种定义。其一,为卷积片的中心相对于卷积核的中轴线的最大偏移距离。由于卷积片的中心是卷积核的中轴线的一部分,最大偏移距离也即偏移后的卷积片的中心相对于该卷积片原始位置的中心的最大偏移距离。其二,为卷积核内每个卷积点相对于该卷积点原始位置的最大偏移距离。相应的,偏移距离也有两种定义。其一,为偏移后的卷积片的中心与卷积核的中轴线的距离,即偏移后的卷积片的中心相对于卷积核的中轴线的偏移距离。如图9所示,卷积核1011的一个卷积片相对于卷积核1011的中轴线的偏移距离为f(f个特征)。其二,为偏移后的卷积点与该卷积点原始位置的距离,即偏移后的卷积点相对于该卷积点原始位置的偏移距离。如图12所示,卷积核1011的一个卷积点相对于该卷积点原始位置的偏移距离为f(f个特征,图12中f等于0或1或2)。
卷积核1011(图9-12中的实线表示)一般为长方体或正方体,卷积核1011在卷积层101上滑动,滑动到卷积层101的某一位置时,卷积核1011的中轴线由卷积核1011的每个原始卷积片(偏移前的卷积片)中心的卷积点构成。然而,实际上与卷积核1011内的模型参数进行卷积的可能并不完全是原始卷积片的范围内的卷积层101的特征。
卷积片偏移的情况下。卷积核1011的每个原始卷积片均可以以中轴线为中心向任何方向偏移最多不超过最大偏移距离个特征,卷积片的模型参数与偏移后卷积片的位置区域内包括的卷积层101的特征进行卷积。这样,如图10所示,卷积核1011的模型参数虽然没有改变,但是其卷积对象不再是卷积层101内的一个长方体或正方体内的特征,而是围绕卷积核1011的中轴线的各个方向偏移的一系列呈波浪形的卷积片的范围内的特征。通过让卷积片围绕卷积核的中轴线偏移,使得卷积核能够更加有效的提取具有扭曲、形变的范围内的特征,使得卷积核对于扭曲、形变的待检测物体的检测精度更加敏感,提升了物体识别模型的训练效果,提升了训练出的物体识别模型识别物体的精度以及物体识别模型对于扭曲、形变的待检测物体的鲁棒性。
卷积点偏移的情况下。卷积核1011的原始卷积片的每个原始卷积点均可以以该卷积点原始位置为中心向任何方向偏移最多不超过最大偏移距离个特征,卷积点的模型参数与偏移后位置对应的卷积层101的特征进行卷积。如图11所示,卷积核1011的尺寸为2*2*N1,即每一个卷积片包括2*2个卷积点。每个卷积点用一个虚线矩形框表示。例如,如图12所示,卷积核1011的第1个卷积片的左上角的卷积点向上偏移了1个特征,右上角的卷积点向右偏移了2个特征,左下角的卷积点未偏移,右下角的卷积点向下偏移了1个特征。卷积点对应的模型参数和卷积层101在偏移后卷积点的位置对应的特征相乘,一个卷积片内各个卷积点对应的乘积完成后,对下一卷积片内的卷积点进行处理。卷积核1011内每个卷积点对应的模型参数均与卷积层101在该卷积点偏移后的位置对应的特征的乘积运算完毕后,这些乘积结果的集合为卷积核1011的卷积结果。如图12所示,卷积核1011内的模型参数虽然没有改变,但是其卷积对象不再是卷积层101内的一个长方体或正方体范围内的特征,而是围绕卷积核1011的各个方向偏移的一系列呈离散分部的卷积点的位置对应的特征。通过让卷积点围绕原始位置随机偏移,使得卷积核能够更加有效的提取具有扭曲、形变的范围内的特征,使得卷积核对于扭曲、形变的待检测物体的检测精度更加敏感,提升了物体识别模型的训练效果,提升了训练出的物体识别模型识别物体的精度以及物体识别模型对于扭曲、形变的待检测物体的鲁棒性。
如图13所示,介绍检测模型训练装置的工作流程。
S201,获取以下系统参数中的至少一个。
主干网络的感受野;训练图像的尺寸;待检测物体的尺寸;训练计算能力;待检测物体的复杂度。
其中,待检测物体的尺寸、待检测物体的复杂度可以人工输入至检测模型训练装置。不同训练图像的尺寸和待检测物体的尺寸可能不同。作为一种可选的方案,此时可以取全体训练图像的尺寸的平均值作为训练图像的尺寸,取全体训练图像内待检测物体的尺寸的平均值作为待检测物体的尺寸。
待检测物体的复杂度表现了待检测物体被识别出来的难度,例如待检测物体的数目(每个待检测图像中待检测物体的平均数量),待检测物体的反光是否均衡等。待检测物体的复杂度还包括待检测物体的形变程度。待检测物体的形变程度表现了待检测物体的形变、扭曲、遮挡程度,待检测图像中的待检测物体的形变、扭曲、遮挡越严重,待检测物体的复杂度越大。
以上系统参数的获取可以分多次获取,不必在同一步骤中执行。以上系统参数也不必全都获取,具体获取的系统参数根据后续确定配置参数的步骤中需要用到的系统参数决定。每个系统参数的获取时间可以在后续用到该系统参数的步骤前。
S202,根据S201中获取的系统参数,确定以下配置参数中的至少一个。该配置参数用于建立图3中i行Li列的可变卷积网络。配置参数包括:i,Li(每个可变卷积网络包括的可变卷积层的数量可以相同也可以不同),卷积核滑动跨度,最大偏移距离,卷积核尺寸。
以上配置参数可以分多次确定,不必在同一步骤中确定。以上配置参数也不必全部都被确定,后续建立自适应卷积模块的过程中被使用的配置参数需要在S202中被确定。后续建立自适应卷积模块的过程中需要的部分配置参数可能已经通过人工设置,这部分通过人工设置的配置参数也无须在S202中被确定。
其中,i可以由训练计算能力、待检测物体的复杂度决定。一般训练计算能力越强代表可以用于训练的计算资源越多,主干网络输出的特征图可以被拆成更多个子特征图,相应的i的取值越大。待检测物体的复杂度越大,待检测物体越难以被检测,需要i的取值更大以保证训练出的模型的检测精度。i越大的情况下,主干网络输出的特征图被拆分成更多可变形卷积网络,能够更好的对特征图内的特征进行重构,提升了自适应卷积模块最终输出的特征的质量。i如果过大,需要的训练计算能力可能无法支持检测模型训练装置的运行。根据以上系统参数获取的i可以兼顾训练计算能力与检测模型训练装置的精确性。
Li可以由主干网络的感受野、训练图像的尺寸、待检测物体的尺寸决定。一般主干网络的感受野和待检测物体的尺寸之比越小,说明主干网络的感受野可能不足以覆盖各种尺寸的待检测物体,因此Li的取值越大,以通过在任一可变卷积网络中设置更多的可变卷积层扩大感受野。反之,主干网络的感受野和待检测物体的尺寸之比越大,说明主干网络的感受野足以覆盖大尺寸的待检测物体,因此Li的取值越小,不必设置太多的可变卷积层。训练图像的尺寸越大,一般图像内的待检测物体的尺寸越大,Li的取值越大。训练图像的尺寸越小,一般图像内的待检测物体的尺寸越小,Li的取值越小。适当的Li的选择,提升了训练出的物体检测模型的精度。
最大偏移距离可以由待检测物体的复杂度决定。一般待检测物体的复杂度越大,卷积片和卷积点需要偏移的长度越大,所需的最大偏移距离越大。一般待检测物体的复杂度越小,所需的最大偏移距离越小。适当的最大偏移距离的选择,提升了训练出的物体检测模型的精度。
卷积核滑动跨度可以由训练计算能力决定。训练计算能力越强,可以用于训练物体检测模块的计算资源越多,确定的卷积核滑动跨度越小,以保证可以更细粒度的从当前可变卷积层中抽取特征构建下一可变卷积层。适当的卷积核滑动跨度的选择,提升了训练出的物体检测模型的精度。
卷积核尺寸可以由训练计算能力、训练图像的尺寸、待检测物体的尺寸决定。训练计算能力越大,卷积核的尺寸越大。训练图像的尺寸、待检测物体的尺寸越大,卷积核的尺寸越大。每一个可变卷积层使用的卷积核的尺寸可以相同也可以不同,不同的情况下S202中获取的卷积核尺寸可以有多个。适当的卷积核尺寸的选择,提升了训练出的物体检测模型的精度。
以上仅为示例性的介绍各个配置参数怎么获得。各个配置参数实际的获得方式可以不限于以上规则,可以采用S201中任意一个或多个系统参数,或引入其他训练图像的系统参数或训练图像内的待检测物体的系统参数或主干网络或运行环境的系统参数来获取任一配置参数。
以上配置参数中的部分或全部可以通过预设获得。检测模型训练装置预先(S201前)获取部分的配置参数,这部分配置参数无须在S202中被确定。这些预先获得的配置参数可以是人工通过经验设置的。预先配置部分配置参数可以减少检测模型训练装置在S201中获取的系统参数的种类以及S202中计算配置参数的运算量,加快了检测模型训练装置的运行效率。
以上系统参数指代训练图像或训练图像中的待检测物体或主干网络或训练环境的参数,这类系统参数在建立物体检测模型前就可以获得。系统参数一般不因模型参数或配置参数的影响。系统参数也称为超级参数。配置参数指代建立自适应卷积模块所需的参数,配置参数根据系统参数获取,不同的系统参数可能导致不同的配置参数。模型参数指代卷积核内各个卷积点对应的参数,模型参数在物体检测模型的训练过程中不断被激励而发生变化。
S203,获取训练图像,根据训练图像建立主干网络,获取主干网络输出的特征图。
S204,根据主干网络输出的特征图和根据S202中确定的(预获取的)配置参数,建立自适应卷积模块中的i个可变卷积网络,第i个可变卷积网络包括Li个可变卷积层。
S204中主干网络输出的特征图可以为主干网的第K个卷积层内的特征,也可以为主干网的其他卷积层内的特征。获取特征图后,将特征图分为i份,分别作为每个可变卷积网络的第1个可变卷积层。例如特征图的尺寸为X*X*512,i=64的情况下,则将特征图分为X*X*8个可变卷积层。以第i个可变卷积网络为例,根据第i个可变卷积网络的第1个可变卷积层的卷积核对第1个可变卷积层的特征进行卷积,以获取第2个可变卷积层。卷积的过程中,每个卷积核的卷积片/卷积点均可以向任意方向偏移不超过最大偏移距离个特征,并与偏移后的位置对应的第1个可变卷积层的特征相乘。第1个可变卷积层与对应的卷积核卷积操作形成了第2个可变卷积层。同理,第2个可变卷积层与对应的卷积核卷积操作形成了第2个可变卷积层。依次类推,获取第Li个可变卷积层。
由于第i个可变卷积网络包括Li个可变卷积层,因此第i个可变卷积网络采用了Li-1个卷积核。每个可变卷积层使用的卷积核的尺寸即S202中确定的卷积核尺寸,卷积核内的模型参数可以在卷积核尺寸确定后预先设置(S203之前)。每个可变卷积层使用的卷积核的滑动跨度即S202中确定的卷积核滑动跨度。每个可变卷积层中卷积片的中心相对于卷积核的中轴的偏移距离不大于S202中确定的最大偏移距离。或者,每个可变卷积层中卷积点相对于该卷积点的原始位置的偏移距离不大于S202中确定的最大偏移距离。
S205,将i个可变卷积网络的最后一层可变卷积层中的特征输入分类器。
将i个可变卷积网络的最后一层中的特征输入至分类器中,分类器可以有多个,分别针对不同尺寸的待检测物体。输入分类器前,i个可变卷积网络的最后一层中的特征可以进行合并、归一化等处理。
S206,分类器根据S205中输入的特征,识别该训练图像中的待检测对象。
分类器中设置有参数,分类器根据参数和输入的特征,识别该训练图像中的待检测对象。
S207,对比S206中识别出的该训练图像中的待检测对象和该训练图像中的先验结果,根据先验结果对以下中的至少一个参数进行激励:主干网络的各个卷积层的卷积核的模型参数,任一可变卷积网络的可变卷积层的卷积核的模型参数,任一可变卷积网络的可变卷积层的卷积片/卷积点的最大偏移距离,所述分类器的参数。
S207后,S203中获取的训练图像对物体检测模型的激励完毕,检测模型训练装置获取下一个训练图像,并根据下一个训练图像以及该下一个训练图像的先验结果对物体检测模型进行训练。
下一训练图像的激励过程与S203中获取的训练图像的激励过程类似,主要区别在于1.下一训练图像被主干网络抽取特征图中使用的主干网络的各个卷积层的卷积核的模型参数,是S207中被激励过的(如果S207中对其进行了激励)。2.下一训练图像被主干网络抽取特征图后,该特征图被i个可变卷积网络抽取分类器的输入特征的过程中使用的各个可变卷积层的卷积核的模型参数,是S207中被激励过的(如果S207中对其进行了激励)。3.下一训练图像被主干网络抽取特征图后,该特征图被i个可变卷积网络抽取分类器的输入特征中使用的卷积片/卷积点的最大偏移距离,是S207中被激励过的(如果S207中对其进行了激励)。4.下一训练图像经历的分类器的特征,是S207中被激励过的(如果S207中对其进行了激励)。
依次类推,每个训练图像会在之前的训练图像对物体检测模型进行的激励的基础上进一步进行激励。全部训练图像依次被用于物体检测模型的训练后,物体检测模型的训练过程结束。如图3所示,该物体检测模型可以被用于推理态。
本申请还提供了一种检测模型训练装置400。如图14所示,检测模型训练装置400包括物体检测模型401,激励模块405,存储模块406和初始化模块407。物体检测模型401进一步包括主干网络403,分类器404,自适应卷积模块402。自适应卷积模块402包括i个可变卷积网络。
以上各个模块可以为软件模块。其中,初始化模块407用于执行S201和S202,确定各个配置参数。物体检测模型401从存储模块406中获取首个训练图像,根据初始化模块407确定出的配置参数,执行S203和S204以建立主干网络403和自适应卷积模块402。自适应卷积模块402执行S205,将i个可变卷积网络的最后一层可变卷积层中的特征输入分类器404。分类器404用于执行S206。激励模块405用于执行S207。
检测模型训练装置400可以作为物体检测模型训练服务向用户提供。例如图1所示检测模型训练装置400(或其部分)部署在云环境上,用户选择主干网络类型、部分配置参数,并将训练图像以及训练图像的先验结果放入存储模块406后,启动检测模型训练装置400对物体检测模型401进行训练。训练完毕的物体检测模型401被提供给用户,用户可以在自己的终端环境上运行该物体检测模型401或者直接出售该物体检测模型401给第三方使用。
本申请还提供了一种计算设备500。如图15所示,计算设备500包括总线501、处理器502、通信接口503和存储器504。处理器502、存储器504和通信接口503之间通过总线501通信。
其中,处理器可以为中央处理器(英文:central processing unit,缩写:CPU)。存储器可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:randomaccess memory,缩写:RAM)。存储器还可以包括非易失性存储器(英文:non-volatilememory),例如只读存储器(英文:read-only memory,缩写:ROM),快闪存储器,HDD或SSD。存储器中存储有可执行代码,处理器执行该可执行代码以执行前述物体检测方法。存储器中还可以包括操作系统等其他运行进程所需的软件模块。操作系统可以为LINUXTM,UNIXTM,WINDOWSTM等。
计算设备500的存储器中存储了检测模型训练装置400的各个模块对应的代码,处理器502执行这些代码实现了检测模型训练装置400的各个模块的功能,即执行了图13所示的方法。计算设备500可以为云环境中的计算设备,或边缘环境中的计算设备,或终端环境中的计算设备。
如图2所示,检测模型训练装置400的各个部分可能在不同环境上的多台计算设备上执行。因此,本申请还提出了一种计算设备系统。如图16所示,该计算设备系统包括多个计算设备600。每个计算设备600的结构与图15中计算设备500的结构相同。计算设备600间通过通信网络建立通信通路。每个计算设备600上运行自适应卷积模块402,主干网络403,分类器404,激励模块405,存储模块406和初始化模块407中的任意一个或多个。任一计算设备600可以为云环境中的计算设备,或边缘环境中的计算设备,或终端环境中的计算设备。
进一步的,如图17所示,由于训练图像和训练图像的先验结果占用的空间很大,计算设备600本身可能无法存储全部的训练图像和训练图像的先验结果,本申请还提出了一种计算设备系统。存储模块406部署在云存储服务中(例如对象存储服务),用户在云存储服务中申请一定容量的存储空间作为存储模块406,并将训练图像和训练图像的先验结果存入存储模块406中。计算设备600运行时,通过通信网络从远端的存储模块406中获取所需的训练图像和训练图像。每个计算设备600上运行自适应卷积模块402,主干网络403,分类器404,激励模块405和初始化模块407中的任意一个或多个。任一计算设备600可以为云环境中的计算设备,或边缘环境中的计算设备,或终端环境中的计算设备。
上述各个附图对应的流程的描述各有侧重,某个流程中没有详述的部分,可以参见其他流程的相关描述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如SSD)等。
Claims (15)
1.一种计算设备执行的训练物体检测模型的方法,其特征在于,所述方法包括:
获取系统参数,所述系统参数包括以下至少一个:所述物体检测模型的主干网络的感受野、训练图像的尺寸、训练图像中的待检测物体的尺寸、训练计算能力、所述待检测物体的复杂度;
根据所述系统参数,确定i个可变卷积网络的配置参数,所述配置参数包括以下至少一个:所述可变卷积网络的个数i、第i个可变卷积网络包括的可变卷积层的数量Li、所述可变卷积网络的卷积核的滑动跨度、最大偏移距离、所述卷积核的尺寸,i和Li均为大于0的整数;
获取训练图像,根据所述训练图像建立所述主干网络;
根据所述主干网络输出的特征图和所述配置参数,建立所述i个可变卷积网络;其中,每个可变卷积网络的卷积核执行卷积时的偏移距离不超过所述最大偏移距离;
将所述i个可变卷积网络输出的特征输入所述物体检测模型的分类器;
对比所述分类器检测出的所述训练图像中的待检测物体和所述训练图像的先验结果,根据所述对比结果对所述主干网络的卷积核的模型参数、所述i个可变卷积网络的卷积核的模型参数、所述最大偏移距离中的至少一个进行激励。
2.如权利要求1所述的方法,其特征在于,所述根据所述主干网络输出的特征图和所述配置参数,建立所述i个可变卷积网络包括:
将所述i个可变卷积网络中的第一可变卷积层的卷积核的卷积片向任意方向偏移不超过所述最大偏移距离个特征;
将所述第一可变卷积层的卷积核的卷积片的模型参数与偏移后的所述第一可变卷积层的卷积核的卷积片相应的所述第一可变卷积层的特征进行卷积,以获取所述i个可变卷积网络的第二可变卷积层中的特征。
3.如权利要求1所述的方法,其特征在于,所述根据所述主干网络输出的特征图和所述配置参数,建立所述i个可变卷积网络包括:
将所述i个可变卷积网络中的第三可变卷积层的卷积核内的卷积点向任意方向偏移不超过所述最大偏移距离个特征;
将所述第三可变卷积层的卷积核的卷积点的模型参数与偏移后的所述第三可变卷积层的卷积核的卷积点相应的所述第三可变卷积层的特征进行卷积,以获取所述i个可变卷积网络的第四可变卷积层中的特征。
4.如权利要求1至3任一所述的方法,其特征在于,所述根据所述主干网络输出的特征图和所述配置参数,建立所述i个可变卷积网络包括:
将所述主干网络输出的特征图分为i份,分别作为所述i个可变卷积网络的首个可变卷积层。
5.如权利要求1至4任一所述的方法,其特征在于,所述训练计算能力指示所述计算设备的计算能力。
6.如权利要求1至5任一所述的方法,其特征在于,所述待检测物体的复杂度指示所述待检测物体的检测复杂度。
7.一种检测模型训练装置,其特征在于,包括:
初始化模块,用于获取系统参数,所述系统参数包括以下至少一个:物体检测模型的主干网络的感受野、训练图像的尺寸、训练图像中待检测物体的尺寸、训练计算能力、所述待检测物体的复杂度;根据所述系统参数,确定i个可变卷积网络的配置参数,所述配置参数包括以下至少一个:所述可变卷积网络的个数i、第i个可变卷积网络包括的可变卷积层的数量Li、所述可变卷积网络的卷积核的滑动跨度、最大偏移距离、所述卷积核的尺寸,i和Li均为大于0的整数;
物体检测模型,用于获取训练图像,根据所述训练图像建立所述主干网络;根据所述主干网络输出的特征图和所述配置参数,建立所述i个可变卷积网络;其中,每个可变卷积网络的卷积核执行卷积时的偏移距离不超过所述最大偏移距离;将所述i个可变卷积网络输出的特征输入所述物体检测模型的分类器;
激励模块,用于对比所述分类器检测出的所述训练图像中的待检测物体和所述训练图像的先验结果,根据所述对比结果对所述主干网络的卷积核的模型参数、所述i个可变卷积网络的卷积核的模型参数、所述最大偏移距离中的至少一个进行激励。
8.如权利要求7所述的装置,其特征在于,所述物体检测模型,用于将所述i个可变卷积网络中的第一可变卷积层的卷积核的卷积片向任意方向偏移不超过所述最大偏移距离个特征;
将所述第一可变卷积层的卷积核的卷积片的模型参数与偏移后的所述第一可变卷积层的卷积核的卷积片相应的所述第一可变卷积层的特征进行卷积,以获取所述i个可变卷积网络的第二可变卷积层中的特征。
9.如权利要求7所述的装置,其特征在于,所述物体检测模型,用于将所述i个可变卷积网络中的第三可变卷积层的卷积核内的卷积点向任意方向偏移不超过所述最大偏移距离个特征;
将所述第三可变卷积层的卷积核的卷积点的模型参数与偏移后的所述第三可变卷积层的卷积核的卷积点相应的所述第三可变卷积层的特征进行卷积,以获取所述i个可变卷积网络的第四可变卷积层中的特征。
10.如权利要求7至9任一所述的装置,其特征在于,所述物体检测模型,用于将所述主干网络输出的特征图分为i份,分别作为所述i个可变卷积网络的首个可变卷积层。
11.如权利要求7至10任一所述的装置,其特征在于,所述训练计算能力指示所述计算设备的计算能力。
12.如权利要求7至11任一所述的装置,其特征在于,所述待检测物体的复杂度指示所述待检测物体的检测复杂度。
13.一种计算设备系统,包括至少一个计算设备;每个计算设备包括处理器和存储器,所述至少一个计算设备的处理器用于执行权利要求1至6任一所述的方法。
14.一种非瞬态的可读存储介质,其特征在于,所述非瞬态的可读存储介质被计算设备系统中的至少一个计算设备执行时,所述至少一个计算设备执行权利要求1至6中任一所述的方法。
15.一种计算设备程序产品,其特征在于,所述计算设备程序产品被计算设备系统中的至少一个计算设备执行时,所述至少一个计算设备执行权利要求1至6中任一所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19808952.6A EP3624007A4 (en) | 2018-08-03 | 2019-03-05 | OBJECT DETECTION MODEL DRIVE METHOD AND APPARATUS, AND DEVICE |
PCT/CN2019/076992 WO2020024585A1 (zh) | 2018-08-03 | 2019-03-05 | 一种训练物体检测模型的方法、装置以及设备 |
US17/036,903 US11605211B2 (en) | 2018-08-03 | 2020-09-29 | Object detection model training method and apparatus, and device |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2018108785569 | 2018-08-03 | ||
CN201810878556 | 2018-08-03 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110795976A true CN110795976A (zh) | 2020-02-14 |
CN110795976B CN110795976B (zh) | 2023-05-05 |
Family
ID=69425670
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810987040.8A Active CN110795976B (zh) | 2018-08-03 | 2018-08-28 | 一种训练物体检测模型的方法、装置以及设备 |
CN201811070244.1A Active CN110796154B (zh) | 2018-08-03 | 2018-09-13 | 一种训练物体检测模型的方法、装置以及设备 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811070244.1A Active CN110796154B (zh) | 2018-08-03 | 2018-09-13 | 一种训练物体检测模型的方法、装置以及设备 |
Country Status (3)
Country | Link |
---|---|
US (2) | US11423634B2 (zh) |
EP (2) | EP3633553A4 (zh) |
CN (2) | CN110795976B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111882035A (zh) * | 2020-07-21 | 2020-11-03 | 北京百度网讯科技有限公司 | 基于卷积核的超网络搜索方法、装置、设备和介质 |
CN112396607A (zh) * | 2020-11-18 | 2021-02-23 | 北京工商大学 | 一种可变形卷积融合增强的街景图像语义分割方法 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018033137A1 (zh) * | 2016-08-19 | 2018-02-22 | 北京市商汤科技开发有限公司 | 在视频图像中展示业务对象的方法、装置和电子设备 |
US11023783B2 (en) * | 2019-09-11 | 2021-06-01 | International Business Machines Corporation | Network architecture search with global optimization |
US10943353B1 (en) | 2019-09-11 | 2021-03-09 | International Business Machines Corporation | Handling untrainable conditions in a network architecture search |
US11080833B2 (en) * | 2019-11-22 | 2021-08-03 | Adobe Inc. | Image manipulation using deep learning techniques in a patch matching operation |
CN111931729B (zh) * | 2020-09-23 | 2021-01-08 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的行人检测方法、装置、设备及介质 |
CN112330619B (zh) * | 2020-10-29 | 2023-10-10 | 浙江大华技术股份有限公司 | 一种检测目标区域的方法、装置、设备及存储介质 |
CN112906611B (zh) * | 2021-03-05 | 2024-04-26 | 新疆爱华盈通信息技术有限公司 | 一种井盖检测方法、装置、电子设备及存储介质 |
CN113111730B (zh) * | 2021-03-23 | 2024-02-02 | 北京海鑫智圣技术有限公司 | 快速高精度的图像模糊检测方法及装置 |
US12067769B2 (en) * | 2021-06-04 | 2024-08-20 | Apple Inc. | Object recognition |
CN113850791B (zh) * | 2021-09-28 | 2022-07-05 | 哈尔滨工业大学 | 一种基于两阶段MobileNet的卫浴陶瓷缺陷检测方法 |
US20240062361A1 (en) * | 2022-08-18 | 2024-02-22 | Onto Innovation Inc. | Substrate defect-detection and comparison |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156807A (zh) * | 2015-04-02 | 2016-11-23 | 华中科技大学 | 卷积神经网络模型的训练方法及装置 |
US20170061246A1 (en) * | 2015-09-02 | 2017-03-02 | Fujitsu Limited | Training method and apparatus for neutral network for image recognition |
US20170083752A1 (en) * | 2015-09-18 | 2017-03-23 | Yahoo! Inc. | Face detection |
CN106599900A (zh) * | 2015-10-20 | 2017-04-26 | 华中科技大学 | 一种识别图像中的字符串的方法和装置 |
CN107609519A (zh) * | 2017-09-15 | 2018-01-19 | 维沃移动通信有限公司 | 一种人脸特征点的定位方法及装置 |
CN107844743A (zh) * | 2017-09-28 | 2018-03-27 | 浙江工商大学 | 一种基于多尺度分层残差网络的图像多字幕自动生成方法 |
CN108038474A (zh) * | 2017-12-28 | 2018-05-15 | 深圳云天励飞技术有限公司 | 人脸检测方法、卷积神经网络参数的训练方法、装置及介质 |
CN108109385A (zh) * | 2018-01-18 | 2018-06-01 | 南京杰迈视讯科技有限公司 | 一种输电线防外破的车辆识别与危险行为判别系统与方法 |
CN108345832A (zh) * | 2017-12-28 | 2018-07-31 | 新智数字科技有限公司 | 一种人脸检测的方法、装置及设备 |
Family Cites Families (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100442835B1 (ko) | 2002-08-13 | 2004-08-02 | 삼성전자주식회사 | 인공 신경망을 이용한 얼굴 인식 방법 및 장치 |
US7508961B2 (en) * | 2003-03-12 | 2009-03-24 | Eastman Kodak Company | Method and system for face detection in digital images |
CN103324938A (zh) | 2012-03-21 | 2013-09-25 | 日电(中国)有限公司 | 训练姿态分类器及物体分类器、物体检测的方法及装置 |
CN103942558A (zh) | 2013-01-22 | 2014-07-23 | 日电(中国)有限公司 | 获取物体检测器的方法及装置 |
CN103150903B (zh) * | 2013-02-07 | 2014-10-29 | 中国科学院自动化研究所 | 一种自适应学习的视频车辆检测方法 |
CN103426008B (zh) * | 2013-08-29 | 2017-04-05 | 北京大学深圳研究生院 | 基于在线机器学习的视觉人手跟踪方法及系统 |
CN104217216B (zh) | 2014-09-01 | 2017-10-17 | 华为技术有限公司 | 生成检测模型的方法和设备、用于检测目标的方法和设备 |
US10417525B2 (en) | 2014-09-22 | 2019-09-17 | Samsung Electronics Co., Ltd. | Object recognition with reduced neural network weight precision |
CN105868797B (zh) | 2015-01-22 | 2019-09-13 | 清华大学 | 识别景物类型的网络参数训练方法、景物类型识别方法及装置 |
US9524450B2 (en) * | 2015-03-04 | 2016-12-20 | Accenture Global Services Limited | Digital image processing using convolutional neural networks |
CN104866810B (zh) | 2015-04-10 | 2018-07-13 | 北京工业大学 | 一种深度卷积神经网络的人脸识别方法 |
CN104794501B (zh) | 2015-05-14 | 2021-01-05 | 清华大学 | 模式识别方法及装置 |
US10438112B2 (en) | 2015-05-26 | 2019-10-08 | Samsung Electronics Co., Ltd. | Method and apparatus of learning neural network via hierarchical ensemble learning |
WO2016207875A1 (en) | 2015-06-22 | 2016-12-29 | Photomyne Ltd. | System and method for detecting objects in an image |
CN105184312B (zh) | 2015-08-24 | 2018-09-25 | 中国科学院自动化研究所 | 一种基于深度学习的文字检测方法及装置 |
CN105678267A (zh) | 2016-01-08 | 2016-06-15 | 浙江宇视科技有限公司 | 一种场景识别方法及装置 |
US9858496B2 (en) * | 2016-01-20 | 2018-01-02 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
CN105760833A (zh) | 2016-02-14 | 2016-07-13 | 北京飞搜科技有限公司 | 一种人脸特征识别方法 |
CN105760859B (zh) | 2016-03-22 | 2018-12-21 | 中国科学院自动化研究所 | 基于多任务卷积神经网络的网纹人脸图像识别方法及装置 |
CN105912990B (zh) | 2016-04-05 | 2019-10-08 | 深圳先进技术研究院 | 人脸检测的方法及装置 |
US9904871B2 (en) | 2016-04-14 | 2018-02-27 | Microsoft Technologies Licensing, LLC | Deep convolutional neural network prediction of image professionalism |
CN105975931B (zh) | 2016-05-04 | 2019-06-14 | 浙江大学 | 一种基于多尺度池化的卷积神经网络人脸识别方法 |
CN105931255A (zh) | 2016-05-18 | 2016-09-07 | 天津工业大学 | 基于显著性和深度卷积神经网络的图像中目标定位方法 |
US10303977B2 (en) | 2016-06-28 | 2019-05-28 | Conduent Business Services, Llc | System and method for expanding and training convolutional neural networks for large size input images |
CN107622272A (zh) | 2016-07-13 | 2018-01-23 | 华为技术有限公司 | 一种图像分类方法及装置 |
CN106295714B (zh) | 2016-08-22 | 2020-01-21 | 中国科学院电子学研究所 | 一种基于深度学习的多源遥感图像融合方法 |
US10223612B2 (en) | 2016-09-01 | 2019-03-05 | Microsoft Technology Licensing, Llc | Frame aggregation network for scalable video face recognition |
CN107871134A (zh) * | 2016-09-23 | 2018-04-03 | 北京眼神科技有限公司 | 一种人脸检测方法及装置 |
CN106570522B (zh) | 2016-10-24 | 2020-01-10 | 中国科学院自动化研究所 | 物体识别模型的建立方法及物体识别方法 |
CN106548159A (zh) | 2016-11-08 | 2017-03-29 | 中国科学院自动化研究所 | 基于全卷积神经网络的网纹人脸图像识别方法与装置 |
CN106778472A (zh) * | 2016-11-17 | 2017-05-31 | 成都通甲优博科技有限责任公司 | 基于深度学习的输电走廊常见侵入物目标检测与识别方法 |
KR101879207B1 (ko) | 2016-11-22 | 2018-07-17 | 주식회사 루닛 | 약한 지도 학습 방식의 객체 인식 방법 및 장치 |
CN106845529B (zh) | 2016-12-30 | 2020-10-27 | 北京柏惠维康科技有限公司 | 基于多视野卷积神经网络的影像特征识别方法 |
US10769532B2 (en) | 2017-04-05 | 2020-09-08 | Accenture Global Solutions Limited | Network rating prediction engine |
CN107273897A (zh) | 2017-07-04 | 2017-10-20 | 华中科技大学 | 一种基于深度学习的文字识别方法 |
CN107437081A (zh) | 2017-08-07 | 2017-12-05 | 北京中星微电子有限公司 | 基于深度卷神经网络的人脸识别方法、装置和存储介质 |
CN107463919A (zh) | 2017-08-18 | 2017-12-12 | 深圳市唯特视科技有限公司 | 一种基于深度3d卷积神经网络进行面部表情识别的方法 |
CN108108676A (zh) | 2017-12-12 | 2018-06-01 | 北京小米移动软件有限公司 | 人脸识别方法、卷积神经网络生成方法及装置 |
CN108121986B (zh) * | 2017-12-29 | 2019-12-17 | 深圳云天励飞技术有限公司 | 目标检测方法及装置、计算机装置和计算机可读存储介质 |
CN108256562B (zh) | 2018-01-09 | 2022-04-15 | 深圳大学 | 基于弱监督时空级联神经网络的显著目标检测方法及系统 |
US10467526B1 (en) | 2018-01-17 | 2019-11-05 | Amaon Technologies, Inc. | Artificial intelligence system for image similarity analysis using optimized image pair selection and multi-scale convolutional neural networks |
CN108073917A (zh) | 2018-01-24 | 2018-05-25 | 燕山大学 | 一种基于卷积神经网络的人脸识别方法 |
CN108304820B (zh) * | 2018-02-12 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 一种人脸检测方法、装置及终端设备 |
CN108399454A (zh) | 2018-03-05 | 2018-08-14 | 山东领能电子科技有限公司 | 一种全新的分段卷积神经网络目标识别方法 |
-
2018
- 2018-08-28 CN CN201810987040.8A patent/CN110795976B/zh active Active
- 2018-09-13 CN CN201811070244.1A patent/CN110796154B/zh active Active
-
2019
- 2019-03-05 EP EP19808951.8A patent/EP3633553A4/en active Pending
- 2019-03-05 EP EP19808952.6A patent/EP3624007A4/en active Pending
-
2020
- 2020-09-18 US US17/025,419 patent/US11423634B2/en active Active
- 2020-09-29 US US17/036,903 patent/US11605211B2/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156807A (zh) * | 2015-04-02 | 2016-11-23 | 华中科技大学 | 卷积神经网络模型的训练方法及装置 |
US20170220904A1 (en) * | 2015-04-02 | 2017-08-03 | Tencent Technology (Shenzhen) Company Limited | Training method and apparatus for convolutional neural network model |
US20170061246A1 (en) * | 2015-09-02 | 2017-03-02 | Fujitsu Limited | Training method and apparatus for neutral network for image recognition |
US20170083752A1 (en) * | 2015-09-18 | 2017-03-23 | Yahoo! Inc. | Face detection |
CN106599900A (zh) * | 2015-10-20 | 2017-04-26 | 华中科技大学 | 一种识别图像中的字符串的方法和装置 |
CN107609519A (zh) * | 2017-09-15 | 2018-01-19 | 维沃移动通信有限公司 | 一种人脸特征点的定位方法及装置 |
CN107844743A (zh) * | 2017-09-28 | 2018-03-27 | 浙江工商大学 | 一种基于多尺度分层残差网络的图像多字幕自动生成方法 |
CN108038474A (zh) * | 2017-12-28 | 2018-05-15 | 深圳云天励飞技术有限公司 | 人脸检测方法、卷积神经网络参数的训练方法、装置及介质 |
CN108345832A (zh) * | 2017-12-28 | 2018-07-31 | 新智数字科技有限公司 | 一种人脸检测的方法、装置及设备 |
CN108109385A (zh) * | 2018-01-18 | 2018-06-01 | 南京杰迈视讯科技有限公司 | 一种输电线防外破的车辆识别与危险行为判别系统与方法 |
Non-Patent Citations (3)
Title |
---|
JIFENG DAI ET AL.: "Deformable Convolutional Networks", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 * |
ZHAOZHUO XU ET AL.: "Deformable ConvNet with Aspect Ratio Constrained NMS for Object Detection in Remote Sensing Imagery", 《REMOTE SENSING》 * |
欧阳针 等: "基于可变形卷积神经网络的图像分类研究", 《软件导刊》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111882035A (zh) * | 2020-07-21 | 2020-11-03 | 北京百度网讯科技有限公司 | 基于卷积核的超网络搜索方法、装置、设备和介质 |
CN112396607A (zh) * | 2020-11-18 | 2021-02-23 | 北京工商大学 | 一种可变形卷积融合增强的街景图像语义分割方法 |
CN112396607B (zh) * | 2020-11-18 | 2023-06-16 | 北京工商大学 | 一种可变形卷积融合增强的街景图像语义分割方法 |
Also Published As
Publication number | Publication date |
---|---|
US11423634B2 (en) | 2022-08-23 |
US20210004625A1 (en) | 2021-01-07 |
EP3624007A4 (en) | 2020-07-01 |
EP3624007A1 (en) | 2020-03-18 |
US11605211B2 (en) | 2023-03-14 |
CN110796154A (zh) | 2020-02-14 |
EP3633553A1 (en) | 2020-04-08 |
CN110795976B (zh) | 2023-05-05 |
EP3633553A4 (en) | 2020-07-22 |
CN110796154B (zh) | 2023-03-24 |
US20210012136A1 (en) | 2021-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795976A (zh) | 一种训练物体检测模型的方法、装置以及设备 | |
WO2020024585A1 (zh) | 一种训练物体检测模型的方法、装置以及设备 | |
CN109325954B (zh) | 图像分割方法、装置及电子设备 | |
EP3333768A1 (en) | Method and apparatus for detecting target | |
Alireza Golestaneh et al. | Spatially-varying blur detection based on multiscale fused and sorted transform coefficients of gradient magnitudes | |
US9053540B2 (en) | Stereo matching by census transform and support weight cost aggregation | |
KR20180065889A (ko) | 타겟의 검측 방법 및 장치 | |
US9367762B2 (en) | Image processing device and method, and computer readable medium | |
CN108961180B (zh) | 红外图像增强方法及系统 | |
WO2020024584A1 (zh) | 一种训练物体检测模型的方法、装置以及设备 | |
JP6997369B2 (ja) | プログラム、測距方法、及び測距装置 | |
CN109426773A (zh) | 一种道路识别方法和装置 | |
CN109165654B (zh) | 一种目标定位模型的训练方法和目标定位方法及装置 | |
CN115937596A (zh) | 目标检测方法及其模型的训练方法、设备以及存储介质 | |
CN112785595B (zh) | 目标属性检测、神经网络训练及智能行驶方法、装置 | |
CN116266387A (zh) | 基于重参数化残差结构和坐标注意力机制的yolov4的图像识别算法及系统 | |
CN109903246B (zh) | 检测图像变化的方法及装置 | |
CN115631112A (zh) | 一种基于深度学习的建筑轮廓矫正方法及装置 | |
CN112488137A (zh) | 样本获取方法、装置、电子设备及机器可读存储介质 | |
WO2020113563A1 (zh) | 人脸图像质量评估方法、装置、设备及存储介质 | |
CN116645719A (zh) | 一种瞳孔和虹膜定位方法、装置、电子设备及存储介质 | |
EP3076370A1 (en) | Method and system for selecting optimum values for parameter set for disparity calculation | |
CN112560834A (zh) | 一种坐标预测模型生成方法、装置及图形识别方法、装置 | |
CN110866431B (zh) | 人脸识别模型的训练方法、人脸识别的方法和装置 | |
CN111160429B (zh) | 图像检测模型的训练方法、图像检测方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220221 Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province Applicant after: Huawei Cloud Computing Technologies Co.,Ltd. Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen Applicant before: HUAWEI TECHNOLOGIES Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |