CN113221929A - 一种图像处理方法以及相关设备 - Google Patents
一种图像处理方法以及相关设备 Download PDFInfo
- Publication number
- CN113221929A CN113221929A CN202010080653.0A CN202010080653A CN113221929A CN 113221929 A CN113221929 A CN 113221929A CN 202010080653 A CN202010080653 A CN 202010080653A CN 113221929 A CN113221929 A CN 113221929A
- Authority
- CN
- China
- Prior art keywords
- frame
- prior
- frame set
- correlation
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 238000000034 method Methods 0.000 claims abstract description 56
- 239000011159 matrix material Substances 0.000 claims description 89
- 238000004422 calculation algorithm Methods 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 230000008878 coupling Effects 0.000 claims 2
- 238000010168 coupling process Methods 0.000 claims 2
- 238000005859 coupling reaction Methods 0.000 claims 2
- 238000001514 detection method Methods 0.000 abstract description 70
- 238000013473 artificial intelligence Methods 0.000 abstract description 11
- 230000009466 transformation Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 19
- 238000013527 convolutional neural network Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 238000012549 training Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000013461 design Methods 0.000 description 10
- 238000013507 mapping Methods 0.000 description 10
- 238000013500 data storage Methods 0.000 description 8
- 241001465754 Metazoa Species 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 241000282326 Felis catus Species 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000013526 transfer learning Methods 0.000 description 4
- 241000272525 Anas platyrhynchos Species 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种图像处理方法以及相关设备,该方法应用于人工智能领域中,执行设备在获取到目标图像的先验框集后,根据先验框集构建边框集,并据此确定先验框集中的每个先验框与各个边框的相关性,最终根据相关性就可确定任意一个先验框包括的目标对象的位置和/或类别。在本申请中,通过对边框集进行一系列的变换操作,将各个边框的特征融入到先验框的特征中来,增加先验框内所包括的物体的区分度,从而创造性地利用了目标图像中物体周围的背景信息来帮助该物体的定位或分类,进而解决了小样本条件下目标图像中的物体类别容易混淆的问题,显著提高了检测的准确性。
Description
技术领域
本申请涉及计算机视觉领域,尤其涉及一种图像处理方法以及相关设备。
背景技术
目标检测,也叫目标提取,是一种基于目标几何和统计特征的图像分割,其关注图像中特定的物体目标,要求同时获得这一特定物体目标的类别信息和位置信息,目标检测在很多场景都有应用,如,无人驾驶的安防系统、智能化交通系统、智能监控系统等。目前,目标检测的性能随着各种深度学习检测框架的发展而不断提高,如,快速生成区域的卷积神经网络(Faster Region-Convolutional Neural Network,Faster R-CNN)、你只需要看一遍(You Only Look Once,YOLO)、单级多框防御(Single Shot MultiBox Defender,SSD)等的检测框架使得目标检测的性能大大提高。然而,这些检测框架依赖于带标注框(Bounding Box,BBox)的大规模数据库作为训练集。由于获取大规模数据通常需要消耗大量的人力、物力和财力,因此在现实生活中应用这些先进的检测框架显得尤为困难。
为解决上述问题,目前普遍采用的方式是在训练阶段运用少量的带有标注框的数据作为训练样本(也可称为小样本目标检测),但是,若直接在少量带标注框的数据上训练一个大型的神经网络必将导致严重的过拟合现象,传统的解决方案是利用迁移学习技术。所谓迁移学习,就是先将检测框架的网络在开源的大规模数据集上进行预训练,然后丢弃最后一层的分类器,替换成维度与目标任务一致的分类器并随机初始化,再在目标域的数据上做微调,从而实现网络从源域任务到目标域任务的迁移。
然而,上述迁移学习适合样本数量不是十分稀少的情况,当样本极度稀缺的情况下,上述迁移学习的处理方式依然会面临过拟合问题,从而使得目标检测的性能不能满足实际需求。
发明内容
本申请实施例提供了一种图像处理方法以及相关设备,用于通过构建边框集,并计算边框集与任意一个先验框的相关性,最终通过相关性来识别该先验框包括的目标对象,相比于直接对先验框进行目标对象检测的方式,提高了准确性。
基于此,本申请实施例提供以下技术方案:
第一方面,本申请适合送礼提供一种图像处理方法,可用于人工智能领域中,该方法包括:执行设备首先获取目标域中的目标图像,并进一步获取到该目标图像的先验框集,执行设备确定了该目标图像的先验框集之后,将根据该先验框集构建边框集,该边框集包括一个或多个边框,并且该边框集中至少存在一个边框内的图像信息,该至少存在的一个边框内的图像信息包括先验框集中的一个先验框内的图像信息,之后,执行设备将会进一步获取先验框集中任意一个先验框与边框集中各个边框的相关性,最后根据该相关性确定上述任意一个先验框包括的目标对象。
在本申请上述实施方式中,执行设备通过构建边框集,并计算边框集与任意一个先验框的相关性,最终通过相关性来识别该先验框包括的目标对象,相比于直接对先验框进行目标对象检测的方式,提高了准确性。
在第一方面的一种可能实现方式中,执行设备如何根据先验框集构建边框集的其中一种实现方式可以是将先验框集中的任意多个先验框合并圈定的区域作为该边框集中的一个边框,即可以是多个先验框合并后构成一个边框,例如,假设执行设备从目标图像确定的先验框集中包括的先验框数量为1000个,那么构建边框集的方式可以是按照预设算法将邻近的n个先验框合并后构成一个边框,如,将邻近的5个先验框合并后构成一个边框,那么构成的边框集就包括200个边框;如,还可以是重叠部分超过预设比例(如,重叠部分超过70%)的几个先验框合并后构成一个边框,具体此处对先验框集中多个先验框合并构成一个边框的具体实现方式不做限定。
在第一方面的一种可能实现方式中,执行设备如何根据先验框集构建边框集的另一种实现方式还可以是将先验框集内的各个先验框圈定的区域向外扩展邻域,从而得到该边框集。
在本申请上述实施方式中,具体阐述了几种根据先验框集构建边框集的方式,便于用户按照需求进行选择,具备灵活性。
在第一方面的一种可能实现方式中,执行设备先验框集中的各个先验框向外扩展领域的方式可以是先验框圈定的区域按照预设比例向外扩大,也可以是先验框的横向或纵向分别按照不同预设比例向外扩大,具体此处不做限定。
在本申请上述实施方式中,具体阐述了几种先验框集中的各个先验框向外扩展领域的方式,便于用户按照需求进行选择,具备灵活性。
在第一方面的一种可能实现方式中,执行设备获取先验框集中的任意一个先验框与边框集中各个边框的相关性的方式可以包括但不限于:1)获取先验框集中任意一个先验框与边框集中各个边框的角度,由于边框所处角度不同(由于边框、先验框均为矩形框,计算角度时均可用矩形框的中心点进行计算),那么对应该边框在所有边框中所占权重值也不同,权重值表示的是该边框在当前这个先验框所占的重要程度,权重值越高,则该边框与当前该先验框的相关性就越大,说明该边框越能增加当前该先验框内所包括的物体的区分度,各个角度与所占权重值具有映射关系,根据该映射关系,就可确定边框集中每个边框在所有边框中所占权重值;2)获取先验框集中任意一个先验框与边框集中各个边框的距离,类似地,边框与当前先验框的距离不同(由于边框、先验框均为矩形框,计算距离时均可用矩形框的中心点进行计算),那么对应该边框在所有边框中所占权重值也不同,各个距离与所占权重值也具有映射关系,根据该映射关系,就可确定边框集中每个边框在所有边框中所占权重值;3)同时获取先验框集中任意一个先验框与边框集中各个边框的角度和距离,获取的方式与上述类似,只是在计算各个边框所占权重值时,要同时兼顾距离和角度。
在本申请上述实施方式中,具体阐述了几种执行设备获取先验框集中的任意一个先验框与边框集中各个边框的相关性的方式,具备可选择性。
在第一方面的一种可能实现方式中,执行设备确定该任意一个先验框包括的目标对象的一种实现方式可以是:首先,确定取值大于预设阈值的相关性(如,上述所述的权重值)为有效相关性,并根据该有效相关性确定该任意一个先验框包括的目标对象。
在本申请上述实施方式中,具体阐述了如何根据相关性确定目标对象的一种实现方式,从而排除一些相关性取值小于阈值的边框,达到减少计算量的目的。
在第一方面的一种可能实现方式中,执行设备确定该任意一个先验框包括的目标对象的另一种实现方式还可以是:对相关性取值降序排列,确定排在预设序号之前的相关性(如,上述所述的权重值)为有效相关性,并根据该有效相关性确定该任意一个先验框包括的目标对象。
在本申请上述实施方式中,具体阐述了如何根据相关性确定目标对象的另一种实现方式,即保留相关性取值排在前面的一些边框,同样达到了减少计算量的目的。
在第一方面的一种可能实现方式中,执行设备根据先验框集构建边框集的方式具体可以是:首先,获取先验框集的第一特征,再根据该第一特征构建边框集的第二特征,该第一特征和第二特征就分别包括了先验框集中各个先验框、边框集中各个边框所圈定的图像块的特征信息。
在本申请上述实施方式中,阐述了执行设备构建的边框集具体包括的信息。
在第一方面的一种可能实现方式中,执行设备获取先验框集的第一特征具体可以是获取先验框集的第一分数矩阵。
在第一方面的一种可能实现方式中,执行设备在获得了先验框集的第一特征(如,上面提到的第一分数矩阵)后,将构建边框集用来与之比较。因此,本申请在目标图像的各尺度的特征图上执行池化操作后,获得一系列边框集的第二分数矩阵。
在第一方面的一种可能实现方式中,为了比较先验框集中任意一个先验框和边框集的相关性,本申请实施例根据第一分数矩阵以及第二分数矩阵进行比较。即根据预设算法对所述第一分数矩阵以及所述第二分数矩阵进行计算,得到所述第一分数矩阵以及所述第二分数矩阵之间的相关性矩阵,并从该相关性矩阵中确定任意一个先验框与边框集中各个边框的相关性系数,在得到先验框集和边框集的相关性矩阵A后,将通过该矩阵A将边框的特征按各自重要性加权融合到对应的先验框中。具体地,可以是对矩阵A的行执行softmax操作以得到边框集中各个边框在所述任意一个先验框中所占据的权重系数。
在本申请上述实施方式中,具体阐述了如何确定先验框集中的任意一个先验框与边框集的相关性,具备可操作性。
在第一方面的一种可能实现方式中,执行设备根据所述相关性确定所述任意一个先验框包括的目标对象就可以是根据上述得到权重系数将边框集中的各个边框进行加权求和,得到第三分数矩阵,或者,也可以通过加权计算将所述权重系数耦合至第一分数矩阵,得到第三分数矩阵,最后,执行设备根据该第三分数矩阵确定上述任意一个先验框的目标对象。
在本申请上述实施方式中,具体阐述了如何根据相关性确定先验框集中的任意一个先验框包括的目标对象,具备可操作性。
在第一方面的一种可能实现方式中,执行设备在根据预设算法对所述第一分数矩阵以及所述第二分数矩阵进行计算以得到所述第一分数矩阵以及所述第二分数矩阵之间的相关性矩阵时,可以选择广泛应用的点积核算法,也可以是其他的预设算法,如,欧式距离算法,具体此处对预设算法不做限定。
在本申请上述实施方式中,给出了几种预设算法的类型,具备灵活性。
在第一方面的一种可能实现方式中,执行设备根据该相关性确定上述任意一个先验框包括的目标对象具体可以是确定目标对象的类别信息和/或位置信息。
本申请实施例第二方面提供一种执行设备,该执行设备具有实现上述第一方面或第一方面任意一种可能实现方式的方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。
本申请实施例第三方面提供一种执行设备,可以包括存储器、处理器以及总线系统,其中,存储器用于存储程序,处理器用于调用该存储器中存储的程序以执行本申请实施例第一方面或第一方面任意一种可能实现方式的方法。
本申请第四方面提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机可以执行上述第一方面或第一方面任意一种可能实现方式的方法。
本申请实施例第五方面提供了一种计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任意一种可能实现方式的方法。
附图说明
图1为本申请实施例提供的人工智能主体框架的一种结构示意图;
图2为对图像中的物体进行检测的过程的一种示意图;
图3为分类器识别目标图像中物体的一种示意图;
图4为分类器识别目标图像中物体的另一示意图;
图5为本申请实施例提供的图像处理系统的一种系统架构图;
图6为本申请实施例提供的图像处理方法的一种示意图;
图7为本申请实施例提供的根据先验框确定边框的一种示意图;
图8为本申请实施例提供的根据先验框确定边框的另一示意图;
图9为本申请实施例提供的确定先验框与各个边框的相关性的一个示意图;
图10为本申请实施例提供的执行设备内检测框架的一种示意图;
图11为本申请实施例提供的执行设备内检测框架的另一示意图;
图12为本申请实施例提供的执行设备的一种结构示意图;
图13为本申请实施例提供的执行设备的另一结构示意图。
具体实施方式
本申请实施例提供了一种图像处理方法以及相关设备,用于通过构建边框集,并计算边框集与任意一个先验框的相关性,最终通过相关性来识别该先验框包括的目标对象,相比于直接对先验框进行目标对象检测的方式,提高了准确性。
下面结合附图,对本申请的实施例进行描述。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
首先对人工智能系统总体工作流程进行描述,请参见图1,图1示出的为人工智能主体框架的一种结构示意图,下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中,“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施
基础设施为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。通过传感器与外部沟通;计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。
(2)数据
基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理
数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用系统,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用
智能产品及行业应用指人工智能系统在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能终端、智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶、平安城市等。
本申请可以应用于人工智能领域的图像处理领域中,具体的,结合图1来讲,本申请实施例中基础设施获取的数据是待检测的图像(每个待检测的图像可称为目标图像),之后再通过本申请实施例提供的图像处理方法所涉及的一系列操作得到该目标图像的先验框集、边框集、任意一个先验框与边框集的相关性,最后根据该相关性识别出任意一个先验框包括的目标对象,相比于直接对先验框进行目标对象检测的方式,提高了准确性。
在介绍本申请实施例之前,先对目前实现目标检测功能的框架进行介绍,该框架可称为检测框架(也可称为检测算法),通过构建的检测框架达到对图像中的目标(也可称为物体)进行检测的目的,基于图像的目标检测的任务是找出该图像中感兴趣物体,同时检测出这些物体的位置和所属的类别,目标检测过程中有很多不确定因素,如图像中物体数量不确定,物体有不同的外观、形状、姿态,加之物体成像时会有光照、遮挡等因素的干扰,导致构建检测框架有一定的难度。进入深度学习时代以来,目前比较主流的基于深度学习的检测框架主要分为两类,一类是基于两阶段(two-stage)的方法,例如R-CNN、Fast R-CNN、Faster R-CNN的检测框架等,将目标检测任务分为回归和分类任务;还有基于一阶段(one-stage)的方法,例如YOLO、SSD等,同时完成检测和回归任务。两者的主要区别在于twostage算法是首先生成一个或多个有可能包含待检物体的先验框(也可称为候选框),然后进行细粒度的物体检测。而one stage算法会直接在网络中提取特征来预测物体的类别和位置。不管是two stage算法的检测框架还是one stage算法的检测框架,其对图像中的物体进行检测的思想是类似的,如图2所示,一般涉及如下步骤:1)输入目标图像;2)在输入的目标图像中确定一定数量的先验框;3)对每个先验框内的图像块,使用深度神经网络提取特征,如,使用卷积神经网络(Convosutionas Neuras Network,CNN)提取特征;4)对每个先验框中提取的特征,使用分类器判别是否属于一个特定类别;5)对于属于某一特征的先验框,进一步调整其位置,如,利用回归器进行调整。经过上述几个步骤,就可检测出图像中各个目标的类别信息和位置信息。
需要注意的是,先验框指的就是锚框,这些框有着不同的长宽比,各个检测框架的分类任务就是建立在这些框的特征的基础上的,针对输入的同一图像,不同的检测框架确定该图像的先验框的方式不一样,因此确定出的先验框数量也不一样,如,对输入的图像,R-CNN确定的先验框约1000-2000个,SSD确定的先验框约9000个,也就是说,当向这些检测框架输入一个图像,检测框架会根据自身的算法自动确定出该图像包括的先验框的数量以及各个先验框的大小和位置,具体此处对检测框架如何确定先验框的具体过程不予赘述。
需要说明的是,检测框架的精度和准确度与步骤“4)”中分类器能区分的类别有关。举例示意:若分类器能识别的物体类别是30类,其中包括动物类的“犬”和“猫”,那么该分类器就可识别出图3中先验框a对应的目标为“犬”,也能识别出图4中先验框b-e中对应的目标为“犬”以及先验框f中对应的目标为“猫”;若分类器能识别的物体类别为60类,其中不仅包括了动物类的“犬”和“猫”,还包括了“鸟”和“鸭”,那么该分类器就还可进一步识别出图3中的先验框g对应的目标为“鸟”,也可以进一步识别出图4中先验框h-i对应的目标为“鸭”。若分类器能识别的物体类别为200类,其中不仅包括了动物类的“犬”、“猫”、“鸟”和“鸭”,还包括了犬类下的“犬1”、“犬2”、“犬3”、……,那么该分类器还将进一步识别出图3以及图4中各个犬的详细类别。也就是说,针对一张输入检测框架的目标图像,其中的物体是否能被检测出,取决于检测框架中分类器能识别的物体类别的种类,不能识别的类别(如,图像中的草地、树木等),即使这些不能被识别的物体一开始也对应有一个或多个先验框,最终在输出结果上也不会被标识出来。
检测框架中的分类器实质上是一个确定了参变量取值的目标模型/规则,目标模型/规则的表达式不同、参变量取值不同,那么分类器的类型、分类器能识别的物体种类等也就不同。在对目标图像进行检测之前,首先将检测框架的网络在开源的大规模数据集(即现有的大规模图像集,可称为源域)上进行预训练,得到该分类器各个参变量的取值,此时该分类器可称为源域分类器。对源域分类器训练好之后,如何对输入的目标图像(该目标图像就不再是现有的大规模图像集,而是用户在真实生活场景下得到的需要进行检测的图像,如,监控系统拍摄到的图像、客户设备拍摄到的图像等,若有一个或多个目标图像待检测,那么这一个或多个目标图像构成的集合可称为目标域)进行检测一般有如下几种方式,方式1:直接将目标图像经过提取先验框、CNN特征提取等步骤之后输入源域分类器,由训练好的源域分类器对目标图像的物体进行检测,这种方式对目标域的目标图像的数量有很高的要求,否则会面临严重的过拟合问题;方式2:将目标图像经过提取先验框、CNN特征提取等步骤之后直接输入另一个维度与目标任务一致的分类器(可称为目标域分类器,即用目标域分类器替换掉原来的源域分类器)并随机初始化,再在目标域分类器上做微调,由目标域分类器对目标图像的物体进行检测,从而实现网络从源域任务到目标域任务的迁移,这种方式也只适合目标域内的目标图像的数量不是十分稀少的情况,当目标域内的目标图像极度稀缺的情况下,上述方式2依然会面临过拟合问题,从而使得目标检测的性能不能满足实际需求。
基于此,为解决上述所述问题,本申请实施例提供了一种图像处理方法,该方法实质上是对已有的检测框架(也可称为检测算法)重新进行构建,以达到即使目标域中只有一张目标图像,也能实现对该目标图像进行准确检测的功能。
请参阅图5,图5为本申请实施例提供的图像处理系统的一种系统架构图,在图5中,图像处理系统200包括执行设备210、训练设备220、数据库230、客户设备240、数据存储系统250和数据采集设备260,执行设备210中包括计算模块211,所述计算模块211实质为本申请实施例提供的检测框架。
其中,数据采集设备260用于获取用户需要的开源的大规模数据集(即源域),并将源域存入数据库230中,训练设备220基于数据库230中的维护的源域对分类器201进行训练。执行设备210可以调用数据存储系统250中的数据、代码等,也可以将数据、指令等存入数据存储系统250中。数据存储系统250可以置于执行设备210中,也可以为数据存储系统250相对执行设备210是外部存储器。
经由训练设备220训练的分类器201可以应用于不同的系统或设备(即执行设备210)中,例如,手机、平板、笔记本电脑、监控系统、安防系统等等。在图5中,执行设备210配置有I/O接口212,与外部设备进行数据交互,“用户”可以通过客户设备240向I/O接口212输入数据。如,客户设备240可以是监控系统的摄像设备,通过该摄像设备拍摄的目标图像作为输入数据输入至执行设备210的计算模块211,由计算模块211对输入的该目标图像进行检测后得出检测结果,再将该检测结果输出至摄像设备或直接在执行设备210的显示界面(若有)进行显示;此外,在本申请的一些实施方式中,客户设备240也可以集成在执行设备210中,如,当执行设备210为手机时,则可以直接通过该手机的摄像头拍摄到目标图像或者接收其他设备(如,另一个手机)发送的目标图像,再由该手机内的计算模块211对该目标图像进行检测后得出检测结果,并直接将该检测结果呈现在手机的显示界面。此处对执行设备210与客户设备240的产品形态不做限定。
需要说明的是,在本申请实施例中计算模块211中了除了包括由训练设备220训练生成的分类器201(即上述所述的源域分类器),还包括构建器202以及分类器203,其中,构建器202用于执行根据目标图像的先验框集构建边框集、计算相关性等一系列操作,分类器203作为目标域分类器用于根据相关性输出目标图像的检测结果,即识别出目标图像中的目标对象。
值得注意的,图5仅是本申请实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在图5中,数据存储系统250相对执行设备210是外部存储器,在其它情况下,也可以将数据存储系统250置于执行设备210中;在图5中,客户设备240相对执行设备210是外部设备,在其他情况下,客户设备240也可以集成在执行设备210中。
还需要说明的是,在本申请一些实施方式中,构建器202还可以拆分成多个子模块/子单元以共同实现本申请实施例所提供的方案,具体此处不做限定。
接下来介绍本申请实施例所提供的图像处理方法,请参阅图6:
601、获取目标图像的先验框集。
执行设备首先获取目标域中的目标图像,并进一步获取到该目标图像的先验框集,由于本申请实施例构建的检测框架是在已有的诸如R-CNN、SSD等检测框架的基础上重新构建的,因此本申请构建的检测框架保留了“各个检测框架如何根据输入的目标图像确定先验框集”的算法,也就是说,当向图5中的计算模块211输入目标图像时,该计算模块根据已有的算法可自动确定出该目标图像包括的先验框的数量以及各个先验框的大小和位置,具体此处不予赘述。
602、根据先验框集构建边框集。
执行设备确定了该目标图像的先验框集之后,将根据该先验框集构建边框集,该边框集包括一个或多个边框,并且该边框集中至少存在一个边框内的图像信息,该至少存在的一个边框内的图像信息包括先验框集中的一个先验框内的图像信息。
需要说明的是,在本申请的一些实施方式中,执行设备如何根据先验框集构建边框集的方式包括但不限于如下方式:
a、多个先验框合并构成一个边框。
执行设备根据先验框集构建边框集可以是多个先验框合并后构成一个边框,即可将先验框集中的任意多个先验框合并圈定的区域作为边框集中的一个边框,例如,假设执行设备从目标图像确定的先验框集中包括的先验框数量为1000个,那么构建边框集的方式可以是按照预设算法将邻近的n个先验框合并后构成一个边框,如,将邻近的5个先验框合并后构成一个边框,那么构成的边框集就包括200个边框;如,还可以是重叠部分超过预设比例(如,重叠部分超过70%)的几个先验框合并后构成一个边框,具体此处对先验框集中多个先验框合并构成一个边框的具体实现方式不做限定。示例性地,请参阅图7,虚线构成的是目标图像内3个邻近的先验框,这3个邻近的先验框合并圈定的区域就构成一个边框,如图7中的实线框所示。
b、各个先验框向外扩展邻域。
执行设备根据先验框集构建边框集还可以是将先验框集内的各个先验框圈定的区域向外扩展邻域得到各个边框。例如,可以是先验框圈定的区域按照预设比例向外扩大,也可以是先验框的横向或纵向分别按照不同预设比例向外扩大,具体此处不做限定。需要注意的是,在本申请的一些实施方式中,若按照预设比例扩大得到的边框会超出目标图像的边界,那么以目标图像的边界作为该边框的其中一个边,总之构建得到的边框集内的各个边框圈定的区域不会超过目标图像的边界。示例性地,请参阅图8,虚线构成的是目标图像内其中一个先验框所圈定的区域,对该先验框按照预设比例(如,先验框尺寸:边框尺寸=1:2)扩大得到的边框如实线框所示。
603、获取先验框集中任意一个先验框与边框集中各个边框的相关性。
执行设备根据先验框集构建好边框集之后,将会进一步获取先验框集中任意一个先验框与边框集中各个边框的相关性。执行设备获取先验框集中的任意一个先验框与边框集中各个边框的相关性可以通过但不限于如下几种方式:
a、获取先验框集中任意一个先验框与边框集中各个边框的角度。
边框所处角度不同(由于边框、先验框均为矩形框,计算角度时均可用矩形框的中心点进行计算),那么对应该边框在所有边框中所占权重值也不同,权重值表示的是该边框在当前这个先验框所占的重要程度,权重值越高,则该边框与当前该先验框的相关性就越大,说明该边框越能增加当前该先验框内所包括的物体的区分度,各个角度与所占权重值具有映射关系,根据该映射关系,就可确定边框集中每个边框在所有边框中所占权重值,以图9为例进行示意,假设图9中构建出的边框集中的边框有5个,分别为边框1、边框2、……、边框5,若要确定先验框集中的先验框A与这5个边框的相关性,就可以分别计算各个边框位于该先验框A的角度,以水平方向为0°为基准,若计算得到边框1-5位于先验框A的角度分别为20°、90°、120°、200°、270°,并进一步根据映射关系得到与20°、90°、120°、200°、270°对应的并且经过了归一化的权重值为0.13、0.25、0.17、0.20、0.25,那么说明与该先验框A相关性最大的是边框2、边框5,其次是边框4,再次是边框3,最后是边框1,即各个边框与该先验框A相关性的大小排序为边框2=边框5>边框4>边框3>边框1。
b、获取先验框集中任意一个先验框与边框集中各个边框的距离。
与上述类似,边框与当前先验框的距离不同(由于边框、先验框均为矩形框,计算距离时均可用矩形框的中心点进行计算),那么对应该边框在所有边框中所占权重值也不同,各个距离与所占权重值也具有映射关系,根据该映射关系,就可确定边框集中每个边框在所有边框中所占权重值,依然以图9为例进行示意,与计算角度类似,边框1-5与先验框A的距离大小也可被计算出来,然后根据映射关系确定各个边框与先验框A对应的并且经过了归一化的权重值,假设计算得到的经过了归一化的权重值分别为0.10、0.27、0.18、0.23、0.22,那么说明各个边框与该先验框A相关性的大小排序为边框2>边框4>边框5>边框3>边框1。
c、获取先验框集中任意一个先验框与边框集中各个边框的角度和距离。
上述a方式与b方式分别是从各个边框与先验框的角度或距离来确定相关性,为了提高相关性确定的精度,在本申请的一些实施方式中,还可以同时获取先验框集的任意一个先验框与各个边框的角度和距离,获取的方式与上述类似,只是在计算各个边框所占权重值时,要同时兼顾距离和角度,例如,可以是距离因素和角度因素占比均为50%,也可以是距离因素占比多些(如,距离因素占比60%、角度因素占比40%),也可以是角度因素占比多些(如,距离因素占比30%、角度因素占比70%),具体此处不做限定。依然以图9为例,假设预先设定距离因素和角度因素占比分别为60%和40%,以边框1为例,那么计算得到的经过了归一化的权重值就为0.13*40%+0.10*60%=0.112,类似的,边框2-5的权重值也是类似计算得到,具体此处不予赘述。
需要注意的是,上述几种方式均是以先验框中的一个先验框(即图9中的先验框A)为例说明如何确定先验框与边框集中所有边框的相关性的步骤,先验框集中的其他任意一个先验框均是按照上述类似的方式确定相关性,如,假设先验框集中有1000个先验框,构建得到的边框集中的边框为500个,那么这1000个先验框中的每一个先验框都可按照上述类似的方式确定与边框集中的500个边框的相关性,从而得到先验框集中每个先验框与500个边框的相关性。
604、根据相关性确定该任意一个先验框包括的目标对象。
执行设备获取到任意一个先验框与边框集中各个边框的相关性后,就可以确定该任意一个先验框包括的目标对象,具体地,可以是确定该目标对象的类别信息和/或在该先验框中的位置信息。执行设备确定该任意一个先验框包括的目标对象可以通过但不限于如下几种方式:
a、确定取值大于预设阈值的相关性(如,上述所述的权重值)为有效相关性,并根据该有效相关性确定该任意一个先验框包括的目标对象。
依然以图9为例进行说明,若只考虑角度因素,则边框1-5经过了归一化的权重值分别为0.13、0.25、0.17、0.20、0.25,若预设阈值为0.2,那么也就是舍弃了边框1和边框3,即说明边框1和边框3对于增加当前该先验框A内所包括的物体的区分度没有贡献,只有边框2、边框4和边框5能增加当前该先验框A内所包括的物体的区分度,那么就只用将边框2、边框4和边框5的特征融合到先验框A中来以确定该先验框A所包括的目标对象。
b、对相关性取值降序排列,确定排在预设序号之前的相关性(如,上述所述的权重值)为有效相关性,并根据该有效相关性确定该任意一个先验框包括的目标对象。
依然以图9为例进行说明,若只考虑距离因素,则边框1-5经过了归一化的权重值分别为0.10、0.27、0.18、0.23、0.22,那么说明各个边框与该先验框A相关性的大小排序为边框2(即序号1)>边框4(即序号2)>边框5(即序号3)>边框3(即序号4)>边框1(即序号5。假设预设序号取值为4,则说明只取排在序号4之前边框2、边框4、边框5对应的相关性为有效相关性,也就是说,只有边框2、边框4和边框5能增加当前该先验框A内所包括的物体的区分度,那么就只用将边框2、边框4和边框5的特征融合到先验框A中来以确定该先验框A所包括的目标对象。需要注意的是,在本申请的一些实施方式中,也可以对相关性取值降序排列,确定排在预设序号之后的相关性为有效相关性,具体此处不与赘述。
需要说明的是,在本申请上述两种方式中,首先剔除掉不能为当前先验框内所包括的物体增加区分度的边框,只采用具有有效相关性的边框来负责确定先验框所包括的目标对象,从而减少了计算量。
在本申请实施例上述实施方式中,执行设备通过构建边框集,并计算边框集与任意一个先验框的相关性,最终通过相关性来识别该先验框包括的目标对象,相比于直接对先验框进行目标对象检测的方式,提高了准确性。
为便于理解,下面以SSD的检测框架为例说明本申请基于原有的SSD的检测框架上所进行的改进,首先详细介绍本申请实施例图5中执行设备210内计算模块211中的构建器202的结构组成,构建器202是一个富含创新性的模块,可以灵活地嵌入到分类器201(即源域分类器)和分类器203(即目标域分类器)之间,其可以自动构建边框集并对边框集进行一系列的变化操作,最终将边框集中的特征信息融入到先验框的特征信息中来,以增加该先验框的特征信息的区分度,具体请参阅图10。
在本申请实施例提供的SSD类型的检测框架中,SSD类型的检测框架是在输入的目标图像上运行一个CNN网络并计算特征映射,其采用了多尺度的特征图用于检测,多尺度的意思是指采用大小不同的特征图,CNN网络一般前面的特征图比较大,后面逐渐采用stride=2的卷积或者池化(pooling)层来降低特征图大小。一个比较大的特征图和比较小的特征图都用来做检测,这样做的好处是比较大的特征图用来检测相对比较小的物体,而小的特征图负责用来检测大的物体,其中,SSD的Conv4_3层作为用于检测的第一个特征图,并从后面新增的卷积层中提取Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2作为检测所用的特征图,加上Conv4_3,即从输入的一个目标图像中共提取了6个特征图(如图10中所示),其大小分别是(38*38)、(19*19)、(10*10)、(5*5)、(3*3)、(1*1),不同特征图设置的先验框数目不同(同一个特征图上每个单元设置的先验框是相同的,这里的数目指的是一个单元的先验框数目),共8732个先验框。先验框的设置包括尺度(或者说大小)和长宽比两个方面。对于先验框的尺度,其遵守一个线性递增规则:随着特征图大小降低,先验框尺度线性增加。
对于一张目标域的目标图像,首先SSD的检测框架会自动根据输入的目标图像提取出如上述所述的6个特征图,并从这6个特征图中确定一定数量和尺寸的先验框集,之后,该目标图像会被送入预先训练好的源域分类器(即图5中的分类器201),提取出该目标图像对应的先验框集的第一特征,并根据该第一特征构建边框集的第二特征。该第一特征和第二特征就分别包括了先验框集中各个先验框、边框集中各个边框所圈定的图像块的特征信息。具体可以是提取所述先验框集的第一分数矩阵:
其中,式中的k指的是SSD的检测框架中的第k个空间尺度(就是指特征图的大小,如38*38,19*19等,在SSD的检测框架中有6个空间尺度,则k的取值有6个),Hk×Wk指的是第k个空间尺度的空间尺度大小,Mk指的是第k个空间尺度下特征视图的每个点对应的先验框的数量,Cs是指源域分类器有多少个分类。
在获得了先验框集的第一特征(如,上面提到的第一分数矩阵)后,本申请构建边框集用来与之比较。因此,本申请在各尺度的特征图上执行池化操作以获得一系列边框集的第二分数矩阵:
Qk=SpatialPool(Pk),k=1,...,K
具体地,在本申请的一些实施方式中,可以只对前四个尺度的特征视图执行池化操作,池化核的大小(kernel size)分别为[3,2,2,2],步长大小(stride)与池化核大小保持一致,即[3,2,2,2]。对于最后两个尺度的特征图,由于其空间尺度较小,所以可以不用执行池化操作。经过池化操作后的边框集的特征图的空间尺度分别为13*13、10*10、5*5、3*3、3*3、1*1。
为了比较先验框集中任意一个先验框和边框集的相关性,本申请实施例根据第一分数矩阵以及第二分数矩阵进行比较。即根据预设算法对所述第一分数矩阵以及所述第二分数矩阵进行计算,得到所述第一分数矩阵以及所述第二分数矩阵之间的相关性矩阵,并从该相关性矩阵中确定任意一个先验框与边框集中各个边框的相关性系数,为了方便计算,此处将P1:K和Q1:K变形成为和P(或Q)的每一行指的是一个先验框(或一个边框)的分数向量。此外,和分别是一张目标域图像中总共的先验框和边框的数量。为便于理解,本申请实施例选择广泛应用的点积核算法(也可以是其他的预设算法,如,欧式距离算法,具体此处对预设算法不做限定)来比较P和Q的相关性。因此根据点积核算法得到了先验框集的第一分数矩阵与边框集的第二分数矩阵之间的相关性矩阵:
其中向量表示第i个先验框与边框集中所有边框的相关性系数。和是先验框集和边框集的特征表征,其中f(或g)是所有先验框(或所有边框)共享的全连接层(如,可以是带有残差连接的全连接层)。这些层可以提高相关性比较的灵活性。总而言之,相关性矩阵的构建使得每一个先验框可以从不同长宽比、不同尺度、不同位置的边框集中自动找到对自身重要的那些边框。这种多样化的相关性为减小物体类别混淆提供了富有鉴别力的依据。
在得到先验框集和边框集的相关性矩阵A后,将通过该矩阵A将边框的特征按各自重要性加权融合到对应的先验框中。具体地,可以是对矩阵A的行执行softmax操作以得到边框集中各个边框在所述任意一个先验框中所占据的权重系数,此时softmax(A(i,:))成为了一个权重向量,表征着每一个边框对第i个先验框的重要性。接着进一步用它来对边框的特征加权融合,得到边框集中各个边框在任意一个先验框中所占据的权重系数:
L(i,:)=softmax(A(i,:))×h(Q)
式中L(i,:)是第i个先验框对应的各个边框所占的权重系数。是边框集的特征表征,其中h是全连接层,用来增加学习灵活性。需要说明的是,在本申请的一些实施方式中,h(Q)也可不需要,即在本申请的一些实方式中,边框集中各个边框在任意一个先验框中所占据的权重系数也可以是L(i,:)=softmax(A(i,:))。
最后,根据上述得到权重系数将边框集中的各个边框进行加权求和,得到第三分数矩阵:
需要说明的是,本申请的一些实施方式中,也可以通过加权计算将所述权重系数耦合至第一分数矩阵,得到第三分数矩阵:
值得注意的是,目标域分类器只有一个参数矩阵该矩阵在不同长宽比、空间尺度上是共享的。其中一个原因是,每一个先验框已经包含了对它来说重要的不同长宽比、空间尺度上的边框,因此不需要再为每一次空间尺度分配独立的参数矩阵。更重要的是,在小样本条件(即目标域的目标图像很少的情况)下,共享目标域分类器可以大大减少过拟合现象的发生。
最后,目标域分类器就可以输出检测结果,如图10中,输出该先验框中的检测结果为“马”。
需要说明的是,本申请上述实施例相较于传统迁移学习,选择保留源域分类器的方式可以更好地从源域继承丰富的先验知识,不仅如此,保留源域分类器可以大大减少所需学习的参数量,从而解决了其过拟合问题。相较于其他分类任务的小样本学习方法,本申请上述实施例提供的构建器更加注重了目标检测与分类任务的本质区别,利用其物体与周围上下文的联系作为依据以帮助解决小样本条件下的物体类别混淆问题。同时构建边框集的过程中采用了池化操作的技巧,不仅减少了计算量,也降低了网络学习的困难。
需要说明的是,上述图10对应的实施方式是基于SSD的检测框架为例说明本申请的改进之处(即增加了一个构建器以及源域分类器),在本申请的其他一些实施方式中,构建器以及源域分类器也可以嵌入到其他检测框架中,如,R-CNN、Fast R-CNN、Faster R-CNN、YOLO的检测框架等,原理都是与图10对应的实施例类似的,此处不予赘述。
还需要说明的是,本申请上述实施例主要关注目标域的检测性能,在实际应用中,许多应用场景也关注源域的检测性能,即所提出的检测框架应该在增加新的目标任务的同时,保持原任务的检测性能。请参阅图11,将构建器202拓展到了增量学习的设定,与图5不同的是,在源域分类器(即分类器201)后添加了带残差连接的全连接层(如图11中虚线框所示部分),通过这种自适应的变换,使得最后经过目标域分类器(即分类器203)得到的目标域分数矩阵与经过源域分类器得到的源域分数矩阵更加兼容,最后,将源域和目标域的分数矩阵连接在一起对目标图像的目标对象进行定位和分类。
在图6所对应的实施例的基础上,为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关设备。具体参阅图12,图12为本申请实施例提供的执行设备的一种结构示意图,执行设备包括:第一获取模块1201、构建模块1202、第二获取模块1203和确定模块1204,其中,第一获取模块1201,用于获取目标图像的先验框集,该先验框集包括目标图像的一个或多个先验框;构建模块1202,用于根据该先验框集构建边框集,该边框集中至少存在一个边框内的图像信息,该至少存在一个边框内的图像信息包括该先验框集中的一个先验框内的图像信息;第二获取模块1203,用于获取该先验框集中任意一个先验框与该边框集中各个边框的相关性;确定模块1204,用于根据该相关性确定该任意一个先验框包括的目标对象。
在本申请上述实施方式中,第一获取模块1201在获取到目标图像的先验框集后,由构建模块1202根据先验框集构建边框集,并据此由第二获取模块1203获取先验框集中的每个先验框与各个边框的相关性,最终由确定模块1204根据相关性确定任意一个先验框包括的目标对象的位置和/或类别。即执行设备内的各个模块通过对边框集进行一系列的变换操作,将各个边框的特征融入到先验框的特征中来,增加先验框内所包括的物体的区分度,从而创造性地利用了目标图像中物体周围的背景信息来帮助该物体的定位或分类,进而解决了小样本条件下目标图像中的物体类别容易混淆的问题,显著提高了检测的准确性。
在一种可能的设计中,构建模块1202具体用于将该先验框集中的任意多个先验框合并圈定的区域作为该边框集中的一个边框。或者,构建模块1203具体还可用于将该先验框集内的各个先验框圈定的区域向外扩展邻域,得到该边框集。更进一步地,该构建模块1203具体可以是将该先验框集内的各个先验框圈定的区域按预设比例扩大,从而得到对应的一个边框。
在本申请上述实施方式中,给出了构建模块1202如何根据先验框集构建边框集的几种具体实现方式,具备灵活性。
在一种可能的设计中,第二获取模块1203具体用于:获取该先验框集中任意一个先验框与该边框集中各个边框的角度;和/或,获取该先验框集中任意一个先验框与该边框集中各个边框的距离。
在本申请上述实施方式中,给出了第二获取模块1203如何确定任意一个先验框与各个边框的相关性的几种实现方式,具备灵活性。
在一种可能的设计中,确定模块1204具体用于:确定取值大于预设阈值的相关性为有效相关性,并根据该有效相关性确定该任意一个先验框包括的目标对象;或者,也可以具体用于:对该相关性取值降序排列,确定排在预设序号之前的相关性为有效相关性,之后根据该有效相关性确定该任意一个先验框包括的目标对象。
在本申请上述实施方式中,具体阐述了确定模块1204如何根据相关性确定目标图像中的目标对象的几种实现方式,舍弃一些对该先验框内所包括的物体的区分度没有贡献的边框,减少了计算量。
在一种可能的设计中,构建模块1202具体还可以用于:获取该先验框集的第一特征,并根据该第一特征构建该边框集的第二特征。
在一种可能的设计中,构建模块1202具体还可以用于:获取该先验框集的第一分数矩阵。
在一种可能的设计中,构建模块1202具体还可以用于:对该第一分数矩阵执行池化操作,得到该边框集的第二分数矩阵。
在本申请上述实施方式中,阐述了构建模块1202具体是如何构建边框集的,具备可操作性。
在一种可能的设计中,第二获取模块1203具体还可以用于:根据预设算法对该第一分数矩阵以及该第二分数矩阵进行计算,得到该第一分数矩阵以及该第二分数矩阵之间的相关性矩阵,并从该相关性矩阵中确定该任意一个先验框与该边框集中各个边框的相关性系数,最后对该相关性系数执行softmax操作,得到该边框集中各个边框在该任意一个先验框中所占据的权重系数。在一种可能的设计中,预设算法可以是点积核算法或欧式距离算法。
在本申请上述实施方式中,阐述了第二获取模块1203具体是如何确定先验框与各个边框的相关性的,具备可操作性。
在一种可能的设计中,确定模块1204具体还可用于:根据该权重系数将该边框集中的各个边框进行加权求和,得到第三分数矩阵;或,通过加权计算将该权重系数耦合至该第一分数矩阵,得到该第三分数矩阵;最后,根据该第三分数矩阵确定该任意一个先验框包括的目标对象。
在本申请上述实施方式中,阐述了确定模块1204具体是如何根据相关性确定目标图像中的目标对象的,具备可操作性。
在一种可能的设计中,确定模块1204具体用于根据该相关性确定上述任意一个先验框包括的目标对象的类别信息和/或位置信息。
需要说明的是,执行设备中各模块/单元之间的信息交互、执行过程等内容,与本申请中图6对应的方法实施例基于同一构思,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
本申请实施例还提供了一种执行设备,请参阅图13,图13是本申请实施例提供的执行设备一种结构示意图,为便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。执行设备1300上可以部署有图12对应实施例中所描述的执行设备的模块,用于实现图12对应实施例中执行设备的功能,具体的,执行设备1300由一个或多个服务器实现,执行设备1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1322(例如,一个或一个以上处理器)和存储器1332,一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中,存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对训练设备中的一系列指令操作。更进一步地,中央处理器1322可以设置为与存储介质1330通信,在执行设备1300上执行存储介质1330中的一系列指令操作。
执行设备1300还可以包括一个或一个以上电源1326,一个或一个以上有线或无线网络接口1350,一个或一个以上输入输出接口1358,和/或,一个或一个以上操作系统1341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
在本申请实施例中,上述图6对应的实施例中由执行设备所执行的步骤可以基于该图13所示的结构实现,具体此处不予赘述。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,训练设备,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
Claims (31)
1.一种图像处理方法,其特征在于,包括:
获取目标图像的先验框集,所述先验框集包括所述目标图像的一个或多个先验框;
根据所述先验框集构建边框集,所述边框集中至少存在一个边框内的图像信息,所述至少存在一个边框内的图像信息包括所述先验框集中的一个先验框内的图像信息;
获取所述先验框集中任意一个先验框与所述边框集中各个边框的相关性;
根据所述相关性确定所述任意一个先验框包括的目标对象。
2.根据权利要求1所述的方法,其特征在于,所述根据所述先验框集构建边框集包括:
将所述先验框集中的任意多个先验框合并圈定的区域作为所述边框集中的一个边框。
3.根据权利要求1所述的方法,其特征在于,所述根据所述先验框集构建边框集包括:
将所述先验框集内的各个先验框圈定的区域向外扩展邻域,得到所述边框集。
4.根据权利要求3所述的方法,其特征在于,所述将所述先验框集内的各个先验框圈定的区域向外扩展邻域包括:
将所述先验框集内的各个先验框圈定的区域按预设比例扩大;
或,
将所述先验框集内的各个先验框的横向和纵向分别按照不同预设比例扩大。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述获取所述先验框集中任意一个先验框与所述边框集中各个边框的相关性包括:
获取所述先验框集中任意一个先验框与所述边框集中各个边框的角度;
和/或,
获取所述先验框集中任意一个先验框与所述边框集中各个边框的距离。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述根据所述相关性确定所述任意一个先验框包括的目标对象包括:
确定取值大于预设阈值的相关性为有效相关性;
根据所述有效相关性确定所述任意一个先验框包括的目标对象。
7.根据权利要求1-5中任一项所述的方法,其特征在于,所述根据所述相关性确定所述任意一个先验框包括的目标对象包括:
对所述相关性取值降序排列,确定排在预设序号之前的相关性为有效相关性;
根据所述有效相关性确定所述任意一个先验框包括的目标对象。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述根据所述先验框集构建边框集包括:
获取所述先验框集的第一特征;
根据所述第一特征构建所述边框集的第二特征。
9.根据权利要求8所述的方法,其特征在于,所述获取所述先验框集的第一特征包括:
获取所述先验框集的第一分数矩阵。
10.根据权利要求9所述的方法,其特征在于,所述根据所述第一特征构建所述边框集的第二特征包括:
对所述第一分数矩阵执行池化操作,得到所述边框集的第二分数矩阵。
11.根据权利要求10所述的方法,其特征在于,所述获取所述先验框集中任意一个先验框与所述边框集中各个边框的相关性包括:
根据预设算法对所述第一分数矩阵以及所述第二分数矩阵进行计算,得到所述第一分数矩阵以及所述第二分数矩阵之间的相关性矩阵;
从所述相关性矩阵中确定所述任意一个先验框与所述边框集中各个边框的相关性系数;
对所述相关性系数执行softmax操作,得到所述边框集中各个边框在所述任意一个先验框中所占据的权重系数。
12.根据权利要求11所述的方法,其特征在于,所述根据所述相关性确定所述任意一个先验框包括的目标对象包括:
根据所述权重系数将所述边框集中的各个边框进行加权求和,得到第三分数矩阵;
或,
通过加权计算将所述权重系数耦合至所述第一分数矩阵,得到所述第三分数矩阵;
根据所述第三分数矩阵确定所述任意一个先验框包括的目标对象。
13.根据权利要求11-12中任一项所述的方法,其特征在于,所述预设算法包括:
点积核算法或欧式距离算法。
14.根据权利要求1-13中任一项所述的方法,其特征在于,所述根据所述相关性确定所述任意一个先验框包括的目标对象包括:
根据所述相关性确定所述任意一个先验框包括的目标对象的类别信息和/或位置信息。
15.一种执行设备,其特征在于,所述设备包括:
第一获取模块,用于获取目标图像的先验框集,所述先验框集包括所述目标图像的一个或多个先验框;
构建模块,用于根据所述先验框集构建边框集,所述边框集中至少存在一个边框内的图像信息,所述至少存在一个边框内的图像信息包括所述先验框集中的一个先验框内的图像信息;
第二获取模块,用于获取所述先验框集中任意一个先验框与所述边框集中各个边框的相关性;
确定模块,用于根据所述相关性确定所述任意一个先验框包括的目标对象。
16.根据权利要求15所述的设备,其特征在于,所述构建模块具体用于:
将所述先验框集中的任意多个先验框合并圈定的区域作为所述边框集中的一个边框。
17.根据权利要求15所述的设备,其特征在于,所述构建模块具体还用于:
将所述先验框集内的各个先验框圈定的区域向外扩展邻域,得到所述边框集。
18.根据权利要求17所述的设备,其特征在于,所述构建模块具体还用于:
将所述先验框集内的各个先验框圈定的区域按预设比例扩大;
或,
将所述先验框集内的各个先验框的横向和纵向分别按照不同预设比例扩大。
19.根据权利要求15-18中任一项所述的设备,其特征在于,所述第二获取模块具体用于:
获取所述先验框集中任意一个先验框与所述边框集中各个边框的角度;
和/或,
获取所述先验框集中任意一个先验框与所述边框集中各个边框的距离。
20.根据权利要求15-19中任一项所述的设备,其特征在于,所述确定模块具体用于:
确定取值大于预设阈值的相关性为有效相关性;
根据所述有效相关性确定所述任意一个先验框包括的目标对象。
21.根据权利要求15-19中任一项所述的设备,其特征在于,所述确定模块具体还用于:
对所述相关性取值降序排列,确定排在预设序号之前的相关性为有效相关性;
根据所述有效相关性确定所述任意一个先验框包括的目标对象。
22.根据权利要求15-21中任一项所述的设备,其特征在于,所述构建模块具体还用于:
获取所述先验框集的第一特征;
根据所述第一特征构建所述边框集的第二特征。
23.根据权利要求22所述的设备,其特征在于,所述构建模块具体还用于:
获取所述先验框集的第一分数矩阵。
24.根据权利要求23所述的设备,其特征在于,所述构建模块具体还用于:
对所述第一分数矩阵执行池化操作,得到所述边框集的第二分数矩阵。
25.根据权利要求24所述的设备,其特征在于,所述第二获取模块具体还用于:
根据预设算法对所述第一分数矩阵以及所述第二分数矩阵进行计算,得到所述第一分数矩阵以及所述第二分数矩阵之间的相关性矩阵;
从所述相关性矩阵中确定所述任意一个先验框与所述边框集中各个边框的相关性系数;
对所述相关性系数执行softmax操作,得到所述边框集中各个边框在所述任意一个先验框中所占据的权重系数。
26.根据权利要求25所述的设备,其特征在于,所述确定模块具体还用于:
根据所述权重系数将所述边框集中的各个边框进行加权求和,得到第三分数矩阵;
或,
通过加权计算将所述权重系数耦合至所述第一分数矩阵,得到所述第三分数矩阵;
根据所述第三分数矩阵确定所述任意一个先验框包括的目标对象。
27.根据权利要求26所述的设备,其特征在于,所述预设算法包括:
点积核算法或欧式距离算法。
28.根据权利要求15-27中任一项所述的设备,其特征在于,所述确定模块具体用于:
根据所述相关性确定所述任意一个先验框包括的目标对象的类别信息和/或位置信息。
29.一种执行设备,包括处理器和存储器,所述处理器与所述存储器耦合,其特征在于,
所述存储器,用于存储程序;
所述处理器,用于执行所述存储器中的程序,使得所述执行设备执行如权利要求1-14中任一项所述的方法。
30.一种计算机可读存储介质,包括程序,当其在计算机上运行时,使得计算机执行如权利要求1-14中任一项所述的方法。
31.一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如权利要求1-14中任一项所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010080653.0A CN113221929A (zh) | 2020-02-05 | 2020-02-05 | 一种图像处理方法以及相关设备 |
PCT/CN2020/114484 WO2021155661A1 (zh) | 2020-02-05 | 2020-09-10 | 一种图像处理方法以及相关设备 |
EP20917552.0A EP4102463A4 (en) | 2020-02-05 | 2020-09-10 | INFORMATION PROCESSING PROCEDURES AND RELATED EQUIPMENT |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010080653.0A CN113221929A (zh) | 2020-02-05 | 2020-02-05 | 一种图像处理方法以及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113221929A true CN113221929A (zh) | 2021-08-06 |
Family
ID=77085531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010080653.0A Pending CN113221929A (zh) | 2020-02-05 | 2020-02-05 | 一种图像处理方法以及相关设备 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP4102463A4 (zh) |
CN (1) | CN113221929A (zh) |
WO (1) | WO2021155661A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113887422A (zh) * | 2021-09-30 | 2022-01-04 | 中国平安人寿保险股份有限公司 | 基于人工智能的表格图片内容提取方法、装置及设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114067102B (zh) * | 2021-11-17 | 2023-04-07 | 中国矿业大学 | 基于目标检测的机械臂倒液任务中液位检测控制方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110702A (zh) * | 2019-05-20 | 2019-08-09 | 哈尔滨理工大学 | 一种基于改进ssd目标检测网络的无人机规避算法 |
CN110363104A (zh) * | 2019-06-24 | 2019-10-22 | 中国科学技术大学 | 一种柴油黑烟车的检测方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109559344B (zh) * | 2017-09-26 | 2023-10-13 | 腾讯科技(上海)有限公司 | 边框检测方法、装置及存储介质 |
CN108009544B (zh) * | 2017-12-13 | 2021-08-31 | 北京小米移动软件有限公司 | 目标检测方法及装置 |
CN108597589B (zh) * | 2018-04-27 | 2022-07-05 | 上海联影医疗科技股份有限公司 | 模型生成方法、目标检测方法及医学成像系统 |
CN108470077B (zh) * | 2018-05-28 | 2023-07-28 | 广东工业大学 | 一种视频关键帧提取方法、系统及设备和存储介质 |
CN110033424A (zh) * | 2019-04-18 | 2019-07-19 | 北京迈格威科技有限公司 | 图像处理的方法、装置、电子设备及计算机可读存储介质 |
CN109977956B (zh) * | 2019-04-29 | 2022-11-18 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、电子设备以及存储介质 |
-
2020
- 2020-02-05 CN CN202010080653.0A patent/CN113221929A/zh active Pending
- 2020-09-10 WO PCT/CN2020/114484 patent/WO2021155661A1/zh unknown
- 2020-09-10 EP EP20917552.0A patent/EP4102463A4/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110702A (zh) * | 2019-05-20 | 2019-08-09 | 哈尔滨理工大学 | 一种基于改进ssd目标检测网络的无人机规避算法 |
CN110363104A (zh) * | 2019-06-24 | 2019-10-22 | 中国科学技术大学 | 一种柴油黑烟车的检测方法 |
Non-Patent Citations (3)
Title |
---|
NAOKI DEGAWA ET AL.: "A performance improvement of Mask R-CNN using region proposal expansion", 《PROCEEDINGS VOLUME 11049, INTERNATIONAL WORKSHOP ON ADVANCED IMAGE TECHNOLOGY (IWAIT) 2019》, pages 1 - 7 * |
YANSONG DUAN ET AL.: "Cascade feature selection and coarse-to-fine mechanism for nighttime multiclass vehicle detection", 《JOURNAL OF ELECTRONIC IMAGING》, pages 1 - 13 * |
张雪芹 等: "基于深度学习的驾驶场景关键目标检测与提取", 《华东理工大学学报(自然科学版)》, pages 1 - 8 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113887422A (zh) * | 2021-09-30 | 2022-01-04 | 中国平安人寿保险股份有限公司 | 基于人工智能的表格图片内容提取方法、装置及设备 |
CN113887422B (zh) * | 2021-09-30 | 2024-05-31 | 中国平安人寿保险股份有限公司 | 基于人工智能的表格图片内容提取方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
EP4102463A4 (en) | 2023-07-05 |
WO2021155661A1 (zh) | 2021-08-12 |
EP4102463A1 (en) | 2022-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6855098B2 (ja) | 顔検出トレーニング方法、装置及び電子機器 | |
CN106897738B (zh) | 一种基于半监督学习的行人检测方法 | |
CN110378297B (zh) | 基于深度学习的遥感图像目标检测方法、装置、及存储介质 | |
CN110096933A (zh) | 目标检测的方法、装置及系统 | |
CN110738101A (zh) | 行为识别方法、装置及计算机可读存储介质 | |
US11468266B2 (en) | Target identification in large image data | |
CN112990211A (zh) | 一种神经网络的训练方法、图像处理方法以及装置 | |
CN113807399A (zh) | 一种神经网络训练方法、检测方法以及装置 | |
CN111931764A (zh) | 一种目标检测方法、目标检测框架及相关设备 | |
CN114821014B (zh) | 基于多模态与对抗学习的多任务目标检测识别方法及装置 | |
CN111340213B (zh) | 神经网络的训练方法、电子设备、存储介质 | |
CN113592060A (zh) | 一种神经网络优化方法以及装置 | |
CN110222718A (zh) | 图像处理的方法及装置 | |
CN108133235A (zh) | 一种基于神经网络多尺度特征图的行人检测方法 | |
CN111738403A (zh) | 一种神经网络的优化方法及相关设备 | |
CN113780145A (zh) | 精子形态检测方法、装置、计算机设备和存储介质 | |
CN112101114B (zh) | 一种视频目标检测方法、装置、设备以及存储介质 | |
CN114091554A (zh) | 一种训练集处理方法和装置 | |
CN113221929A (zh) | 一种图像处理方法以及相关设备 | |
CN114419313A (zh) | 影像辨识方法及影像辨识系统 | |
Kumar et al. | Rice leaf disease detection based on bidirectional feature attention pyramid network with YOLO v5 model | |
CN115546549A (zh) | 点云分类模型构建方法、点云分类方法、装置及设备 | |
Liu et al. | Auto-sharing parameters for transfer learning based on multi-objective optimization | |
CN112699858B (zh) | 无人平台烟尘雾感知方法、系统、计算机设备及存储介质 | |
Singhi et al. | Integrated YOLOv4 deep learning pretrained model for accurate estimation of wheat rust disease severity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210806 |
|
WD01 | Invention patent application deemed withdrawn after publication |