CN109670523A - 用包括跟踪网的卷积神经网络获取与图像中的对象对应的边界框的方法和使用其的计算装置 - Google Patents

用包括跟踪网的卷积神经网络获取与图像中的对象对应的边界框的方法和使用其的计算装置 Download PDF

Info

Publication number
CN109670523A
CN109670523A CN201811191036.7A CN201811191036A CN109670523A CN 109670523 A CN109670523 A CN 109670523A CN 201811191036 A CN201811191036 A CN 201811191036A CN 109670523 A CN109670523 A CN 109670523A
Authority
CN
China
Prior art keywords
box
characteristic pattern
pond
tracking
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811191036.7A
Other languages
English (en)
Other versions
CN109670523B (zh
Inventor
金镕重
南云铉
夫硕焄
成明哲
吕东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chastelard Vision Inc
Original Assignee
Chastelard Vision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chastelard Vision Inc filed Critical Chastelard Vision Inc
Publication of CN109670523A publication Critical patent/CN109670523A/zh
Application granted granted Critical
Publication of CN109670523B publication Critical patent/CN109670523B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/759Region-based matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30236Traffic on road, railway or crossing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

提供了一种获取与对象相对应的边界框的方法。该方法包括以下步骤:(a)获取建议框;(b)通过参考(i)将参考边界框与建议框之间的距离进行比较的结果和/或(ii)将表示建议框是否包括对象的分数进行比较的结果,在建议框中选择特定建议框,然后设置特定建议框作为跟踪框的起始区域;(c)通过使用均值漂移跟踪算法确定当前帧的特定区域作为跟踪框的目标区域;以及(d)允许池化层通过将池化运算应用于对应于特定区域的区域生成池化特征图,然后允许FC层通过对池化特征图应用回归运算来获取边界框。

Description

用包括跟踪网的卷积神经网络获取与图像中的对象对应的边 界框的方法和使用其的计算装置
技术领域
本发明涉及一种利用包括跟踪网的卷积神经网络(CNN)获取与测试图像中的对象相对应的边界框的方法和使用该方法的测试装置;更具体地,涉及通过使用包括跟踪网的CNN获取与测试图像中的至少一个对象相对应的至少一个边界框的方法,以及执行该方法的测试装置,所述方法包括以下步骤:(a)如果通过对作为当前帧的测试图像应用卷积运算而生成特征图,然后输出通过由区域建议网络(RPN)对特征图应用特定操作而得到的关于多个建议框的信息,则测试装置获取或支持另一装置获取多个建议框;(b)测试装置通过参考以下至少一项在多个建议框中选择或支持另一装置在多个建议框中选择至少一个特定建议框:(i)将前一帧中的对象的参考边界框与多个建议框的每一个之间的每个距离进行比较的结果以及(ii)将作为指示建议框的每一个是否包括对象的概率值的每个分数进行比较的结果,然后设置或支持另一装置设置特定建议框作为跟踪框的起始区域,其中,起始区域用于均值漂移跟踪算法;(c)通过使用均值漂移跟踪算法,测试装置确定或支持另一装置确定当前帧的特定区域作为跟踪框的目标区域,该特定区域具有关于和与前一帧中的对象的像素数据对应的概率类似的概率的信息;以及(d)测试装置允许池化层通过对特征图中对应于特定区域的区域应用池化运算生成池化特征图,然后允许FC层通过对池化特征图应用回归运算来获取边界框。
背景技术
在机器学习中,卷积神经网络(CNN或ConvNet)是一类深度前馈人工神经网络,已成功应用于分析视觉意象。
图1是示意性地示出根据现有技术的传统CNN的学习过程的图。
具体地,图1示出了通过将预测边界框与地面真值(GT)边界框进行比较来获取损失的过程。这里,损失代表预测边界框和GT边界框之间的差异,并表示为dxc、dyc、dw、dh,如图1所示。
首先,如图1所示,学习装置可以获取RGB图像作为输入以被馈送到包括在卷积块中的多个卷积层(即卷积滤波器)。当RGB图像通过多个卷积层时,RGB图像的大小(例如,宽度和高度)变小,而通道数增加。
如图1所示,学习装置允许区域建议网络(RPN)从由卷积块输出的最终特征图生成建议框,并允许池化层(例如ROI池化层)通过对特征图上与建议框对应的区域的像素数据应用最大池化运算(或平均池化运算)将特征图上与建议框对应的区域的大小调整到预定大小(例如,大小为2×2)。因此,获取了池化特征图。作为参考,池化特征图也可以称为特征向量。这里,最大池化运算是这样的运算:通过该运算,从特征图上的主题区域划分的子区域的每一个中的每个最大值被选择作为主题区域的代表值的每一个,如图1的右下方所示。
接下来,可以允许池化特征图被馈送到完全连接(FC)层。
然后,学习装置可以允许FC层识别RGB图像中的对象的类别。另外,可以通过FC层获取RGB图像中的预测边界框,并且还可以通过在预测边界框和地面真值(GT)边界框之间进行比较来获取损失。这里,GT边界框表示精确地围绕RGB图像中的对象的边界框,其通常可以由人为准备。
最后,图1中的学习装置可以通过在反向传播过程期间使用损失来调整包括在FC层、RPN或多个卷积层中的参数中的至少一个。
此后,具有包括调整后的参数的CNN的测试装置(未示出)可以稍后获取围绕测试图像中的对象的边界框。然而,即使测试装置具有包括调整后的参数的CNN,也很难获得精确地围绕测试图像中的对象的边界框。
因此,本发明的申请人提出了一种用于以高精度获取与测试图像中的至少一个对象相对应的至少一个边界框的方法。
发明内容
本发明的一个目的是解决上述问题。
本发明的另一个目的是提供一种使用包括在CNN中的跟踪网来获取与图像中的对象相对应的高精度的边界框的方法。
本发明的另一个目的是通过使用均值漂移跟踪算法更精确地跟踪对象。
本发明的另一个目的是通过使跟踪网重用(reuse)包括在CNN中的检测网络中的分类器和回归器来增加跟踪结果的可靠性以及验证结果。
根据本发明的一个方面,提供了一种通过使用包括跟踪网的CNN获取与测试图像中的至少一个对象相对应的至少一个边界框的方法,包括以下步骤:(a)如果通过对作为当前帧的测试图像应用卷积运算而生成特征图,然后输出通过由区域建议网络(RPN)对特征图应用特定操作而得到的关于多个建议框的信息,则测试装置获取或支持另一装置获取多个建议框;(b)通过参考(i)将前一帧中的对象的参考边界框与多个建议框的每一个之间的每个距离进行比较的结果以及(ii)将作为指示建议框的每一个是否包括对象的概率值的每个分数进行比较的结果中的至少一者,测试装置在多个建议框中选择或支持另一装置在多个建议框中选择至少一个特定建议框,然后设置或支持另一装置设置特定建议框作为跟踪框的起始区域,其中,起始区域用于均值漂移跟踪算法;(c)通过使用均值漂移跟踪算法,测试装置确定或支持另一装置确定当前帧的特定区域作为跟踪框的目标区域,该特定区域具有关于和与前一帧中的对象的像素数据对应的概率类似的概率的信息;以及(d)测试装置允许池化层通过对特征图中对应于特定区域的区域应用池化运算生成池化特征图,然后允许FC层通过对池化特征图应用回归运算来获取边界框。
根据本发明的另一方面,提供了一种通过使用包括跟踪网和检测网络的CNN获取与测试图像中的对象相对应的边界框的方法,包括以下步骤:(a)如果通过对作为当前帧的测试图像应用卷积运算而生成特征图,然后输出通过由区域建议网络(RPN)对特征图应用特定操作而得到的关于多个建议框的信息,则测试装置获取或支持另一装置获取多个建议框;(b)(b-1)通过参考(i)将前一帧中的对象的参考边界框与多个建议框的每一个之间的每个距离进行比较的结果以及(ii)将作为指示建议框的每一个是否包括对象的概率值的每个分数进行比较的结果中的至少一者,测试装置在多个建议框中选择或支持另一装置在多个建议框中选择至少一个特定建议框,然后设置或支持另一装置设置特定建议框作为跟踪框的起始区域,其中,起始区域用于均值漂移跟踪算法;(b-2)测试装置设置或支持另一装置设置多个建议框中尚未设置为跟踪框的至少一些建议框作为多个未跟踪框;以及(c)(c-1)在步骤(b-1)之后,通过使用均值漂移跟踪算法,测试装置确定或支持另一装置确定当前帧的特定区域作为跟踪框的目标区域,该特定区域具有关于和与前一帧中的对象的像素数据对应的概率类似的概率的信息;并且允许第一池化层通过将池化运算应用于特征图中对应于特定区域的区域来生成第一池化特征图,然后允许FC层通过将回归运算应用于第一池化特征图来获取第一边界框;(c-2)在步骤(b-2)之后,测试装置允许第二池化层通过对特征图上与多个未跟踪框的至少一个对应的区域应用池化运算来生成第二池化特征图;并且,如果FC层通过对第二池化特征图应用分类操作来检测新对象,则所述测试装置允许FC层通过对第二池化特征图应用回归运算来获取第二边界框。
根据本发明的另一方面,提供了一种通过使用包括跟踪网的CNN获取与测试图像中的至少一个对象相对应的至少一个边界框的测试装置,包括:通信部,用于获取测试图像或从其转换的特征图;以及处理器,用于执行以下处理:(I)如果通过对作为当前帧的测试图像应用卷积运算而获取特征图,然后输出通过由区域建议网络(RPN)对特征图应用特定操作而得到的关于多个建议框的信息,则获取或支持另一装置获取多个建议框;(II)通过参考(i)将前一帧中的对象的参考边界框与多个建议框的每一个之间的每个距离进行比较的结果以及(ii)将作为指示建议框的每一个是否包括对象的概率值的每个分数进行比较的结果中的至少一者,在多个建议框中选择或支持另一装置在多个建议框中选择至少一个特定建议框,然后设置或支持另一装置设置特定建议框作为跟踪框的起始区域,其中,起始区域用于均值漂移跟踪算法;(III)通过使用均值漂移跟踪算法,确定或支持另一装置确定当前帧的特定区域作为跟踪框的目标区域,该特定区域具有关于和与前一帧中的对象的像素数据对应的概率类似的概率的信息;以及(IV)允许池化层通过对特征图中对应于特定区域的区域应用池化运算生成池化特征图,然后允许FC层通过对池化特征图应用回归运算来获取边界框。
根据本发明的又一方面,提供了一种通过使用包括跟踪网和检测网络的CNN来获取与测试图像中的对象相对应的边界框的测试装置,包括:通信部,用于获取测试图像或从其转换的特征图;以及处理器,用于执行以下处理:(I)如果通过对作为当前帧的测试图像应用卷积运算而生成特征图,然后输出通过由区域建议网络(RPN)对特征图应用特定操作而得到的关于多个建议框的信息,则获取或支持另一装置获取多个建议框;(II)(II-1)通过参考(i)将前一帧中的对象的参考边界框与多个建议框的每一个之间的每个距离进行比较的结果以及(ii)将作为指示建议框的每一个是否包括对象的概率值的每个分数进行比较的结果中的至少一者,在多个建议框中选择或支持另一装置在多个建议框中选择至少一个特定建议框,然后设置或支持另一装置设置特定建议框作为跟踪框的起始区域,其中,起始区域用于均值漂移跟踪算法;(II-2)设置或支持另一装置设置多个建议框中尚未设置为跟踪框的至少一些建议框作为多个未跟踪框;以及(III)(III-1)在(II-1)的处理之后,通过使用均值漂移跟踪算法,确定或支持另一装置确定当前帧的特定区域作为跟踪框的目标区域,该特定区域具有关于和与前一帧中的对象的像素数据对应的概率类似的概率的信息;并且允许第一池化层通过将池化运算应用于特征图中对应于特定区域的区域来生成第一池化特征图,然后允许FC层通过将回归运算应用于第一池化特征图来获取第一边界框;(III-2)在(II-2)的处理之后,测试装置允许第二池化层通过对特征图上与多个未跟踪框的至少一个对应的区域应用池化运算来生成第二池化特征图;并且,如果FC层通过对第二池化特征图应用分类操作来检测新对象,则允许FC层通过对第二池化特征图应用回归运算来获取第二边界框。
附图说明
以下附图用于解释本发明的示例实施例,并且仅是本发明的优选实施例的一部分。可以基于本文的附图获得其他附图,而无需本领域技术人员的创造性工作。从以下结合附图给出的优选实施例的描述中,本发明的上述和其他目的和特征将变得明显,其中:
图1是示例性地示出根据现有技术的传统CNN的学习过程的图;
图2是示意性地示出根据本发明的一个示例实施例的测试装置的框图;
图3A是示例性地示出根据本发明的一个示例实施例的能够获取边界框的CNN的配置的框图;
图3B是示出根据本发明的一个示例实施例的通过使用包括跟踪网的CNN获取边界框的过程的流程图;
图4A是示例性地示出根据本发明另一示例实施例的能够获取边界框的CNN的配置的框图;
图4B是示出根据本发明另一示例实施例的通过使用包括跟踪网和检测网络的CNN获取边界框的过程的流程图;
图5是示出在本发明中使用的均值漂移跟踪算法的图。
具体实施方式
为了使本发明的目的、技术方案和优点清楚,参考附图,附图通过图示的方式示出了可以实践本发明的更详细的示例实施例。足够详细地描述了这些优选实施例,以使本领域技术人员能够实践本发明。
应该理解,本发明的各种实施例虽然不同,但不一定是相互排斥的。例如,在不脱离本发明的精神和范围的情况下,可以在其他实施例中实现本文中结合一个实施例描述的特定特征、结构或特性。另外,应该理解,在不脱离本发明的精神和范围的情况下,可以修改每个公开的实施例中的各个元件的位置或布置。因此,以下详细描述不应被视为具有限制意义,并且本发明的范围仅由所附权利要求限定,并由权利要求以及权利要求所赋予的等同物的全部范围适当地解释。在附图中,相同的附图标记在若干视图中指代相同或相似的功能。
在下文中,将参考附图详细描述本发明的优选实施例,以便本领域技术人员可以容易地实现本发明。
图2是示意性地示出根据本发明的一个示例实施例的测试装置的框图。
如图2所示,测试装置200可以包括通信部210和处理器220。并且,测试装置200还可以包括数据库230。视情况而定,测试装置200可以不包括数据库,如图2所示。这里,可以采用具有至少一个处理器来执行操作的任何数字计算装置作为本发明的测试装置200。
通信部210可以被配置为获取测试图像或从其获得的至少一个特征图。
处理器220可以被配置为执行以下过程:(i)在具有一定标准的RPN生成的所有建议框中选择建议框中的至少一个,即,至少一个特定建议框,(ii)设置特定建议框作为跟踪框的起始区域,其中起始区域用于跟踪算法,例如,均值漂移跟踪算法,(iii)通过使用均值漂移跟踪算法,确定特定区域作为跟踪框的目标区域,以及(iv)允许池化层通过将池化运算应用于特征图中与特定区域对应的区域来生成池化特征图,然后允许FC层通过对池化特征图应用回归运算来获取边界框。关于上述处理的更多细节将在下面描述。
同时,数据库230可以由测试装置200的通信部210访问,并且关于建议框的分数的信息、关于前一帧中的对象的参考边界框的信息以及关于CNN的参数的信息等可以存储在其中。
图3A是示例性地示出根据本发明的一个示例实施例的能够获取边界框的CNN的配置的框图,并且图3B示出了根据本发明的一个示例实施例的通过使用包括跟踪网的CNN来获取边界框的过程。
作为参考,测试装置200可以包括若干其他数字计算装置以执行本文中公开的功能或处理的每一个。尽管如此,为了便于描述和说明,在本发明的公开内容中做出了由单个数字计算装置实现测试装置200的假设。
参考图3A,如果输入图像301被发送到卷积块310,则通过将至少一个卷积运算应用于输入图像301来生成至少一个特征图。然后,将特征图转发到RPN 320以便生成建议框。
在将建议框发送到跟踪模块330之后,通过以下方式从跟踪模块330获取至少一个跟踪框:(i)在具有一定标准的建议框中选择特定建议框,以及(ii)将其设置为跟踪框的起始区域(即,初始窗口),其中起始区域用于均值漂移跟踪算法。关于标准的详细说明将在稍后进行。
接下来,池化层340可以接收(i)来自卷积块310的特征图和(ii)来自跟踪模块330的关于跟踪框的信息,从而通过将池化运算应用于特征图中对应于跟踪框(即ROI)的区域来生成池化特征图。此后,完全连接(FC)层350可以经由分类器351识别对象类302,并且可以通过使用关于池化特征图的信息经由回归器352生成边界框303。
与包括图3A所示的包括卷积块310、RPN 320、跟踪模块330、池化层340和FC层350的CNN的测试装置200不同,根据具体情况,测试装置200中的CNN可以仅包括卷积块310、RPN320、跟踪模块330、池化层340和FC层360的一部分。
参考图3B,其具有图3A所示的配置,在步骤S311中,输入图像301(例如,具有1280×720的大小和3个通道的测试图像)被发送到卷积块310,并且作为结果,在步骤S312中,通过将卷积运算应用于输入图像301可以生成具有40×23的大小和256个通道的特征图304。这里,输入图像301可以被视为当前帧。
作为参考,卷积块310包括一个或多个卷积层。每当应用卷积运算时,输入的宽度和高度可以减小特定比率,并且通道数可以增加特定比率,但是不限于此。这里,可以基于卷积块310中包括的卷积层的参数(即,权重)来确定特定比率。
此外,在步骤S321中,RPN 320可以从特征图304生成关于建议框305的信息。作为参考,建议框305是其中的每一个具有包括输入图像301中的对象的概率的框。
进一步,在步骤S331中,测试装置200的处理器220通过参考(i)将前一帧中的对象的参考边界框307与建议框305的每一个之间的每个距离进行比较的结果以及(ii)将作为指示建议框305的每一个包括对象的概率的概率值的每个分数进行比较的结果中的至少一者,在多个建议框305中选择特定建议框306,然后测试装置200的处理器220设置特定建议框306作为跟踪框的起始区域。起始区域可以用于均值漂移跟踪算法。这里,尽管对象的参考边界框307是位于前一帧中的边界框,但是为了便于说明,图3B示出了当前帧上的参考框307。
例如,在步骤S331中,测试装置200的处理器220可以将特定建议框306确定为具有最小距离(例如,L2距离),和/或在建议框305的各个分数中具有最高分数的建议框。
作为另一示例,测试装置200的处理器220可以将特定建议框306确定为具有L2距离/分数的最小比率的建议框。
这里,分数可以由(i)与GT边界框的区域的交叉点和建议框305的每一个的交叉点对应的区域与(ii)与GT边界框的区域的并集和建议框305的每一个的并集对应的区域的比率来表示。因此,分数可以是介于0和1之间的值。因此,在建议框305中选择的特定建议框306的概率值可以接近1。
同时,建议框305可以专用于仅同一个对象。作为另一示例,建议框305可以专用于多个对象。例如,如果生成100个建议框,则可以为对象A生成70个建议框,并且可以为对象B生成30个建议框。
然后,在步骤S341中,通过使用均值漂移跟踪算法,测试装置200的处理器220可以确定当前帧中的特定区域308作为跟踪框的目标区域,特定区域308具有关于和与前一帧中的对象的像素数据对应的概率类似的概率的信息。
这里,跟踪模块330可以使用均值漂移跟踪算法,但是对于本领域技术人员而言明显的是,跟踪算法不应限于此。
在步骤S351中,在获取跟踪框的目标区域308之后,通过将池化运算应用于特征图304中对应于目标区域308的区域来生成池化特征图(未示出),即特征向量,然后,通过由FC层350中的回归器352对特征向量应用回归运算来生成边界框,并且可以通过由FC层350中的分类器351对特征向量应用操作来识别对象类(例如,车辆、行人、道路、建筑物等)。因此,可以经由包括跟踪网的CNN获取具有高精度的边界框。
作为参考,测试装置200可以允许跟踪模块330在当前帧中精确地找到跟踪框308的位置,并且可以指示FC层350细化跟踪框的大小,从而获得最接近GT边界框的边界框。
最后,测试装置200可以确定边界框作为参考边界框,以用于位于下一帧中的对象的跟踪框。
作为参考,图3A的配置可以称为跟踪网。
根据本发明的另一示例实施例,本发明的CNN还可以包括检测网络。关于另一示例实施例的细节可以在下面通过图4A和图4B的图示来描述。
图4A是示例性地示出根据本发明另一示例实施例的能够获取边界框的CNN的配置的框图。
参考图4A,包括在测试装置200中的CNN的配置可以包括跟踪网和检测网络。跟踪网和检测网络可以彼此共享卷积块310、RPN 320和FC层460。
视情况而定,与图4A不同,CNN可以对于每个网络包括单独的FC层。也就是说,CNN可能不共享单独的FC层之间的调整后的参数。这种CNN可以具有用于跟踪网的第一FC层和用于检测网络的第二FC层。
作为参考,在本发明的权利要求中,使用词语“FC层”而没有分离第一FC层和第二FC层,但这并不意味着在本发明的权利要求中使用的词语“FC层”不包括分离第一FC层和第二FC层的情况。
参考图4A,CNN可以接收输入图像并将其发送到卷积块310以获取特征图。然后,可以将特征图中继到RPN 320以生成建议框。例如,由RPN 320生成的建议框的数量可以是三百个,但是不限于此。
接下来,跟踪网的跟踪模块430可以接收关于建议框的信息,并且可以允许跟踪模块430内的跟踪器通过参考L2距离和/或如上所述的各个建议框的分数在建议框中选择至少一个特定建议框。例如,如果基于距前一帧的参考框的距离选择的特定建议框的数量是十个,则可以将关于其余未选择的建议框(即,未跟踪框)的信息转发到检测网络。也就是说,关于二百九十个未跟踪框的信息被转发到检测网络。
同时,根据跟踪网,通过由第一池化层440对特征图上与特定建议框对应的区域应用池化运算生成第一池化特征图;并且通过由FC层460对第一池化特征图应用回归运算来生成第一边界框。
另一方面,根据检测网络,通过由第二池化层450对特征图上与未跟踪框对应的区域应用池化运算生成第二池化特征图;并且通过由FC层460对第二池化特征图应用回归运算来获取第二边界框。
图4B是示出根据本发明另一示例实施例的通过使用包括跟踪网和检测网络的CNN获取边界框的过程的流程图。
作为参考,由于图3A和图4A中的CNN的实施例对于卷积块310和RPN320可以具有相同配置的事实,在图4B中的在步骤S410中发送输入图像、在步骤S420中生成特征图以及在步骤S430中生成建议框的过程与在图3B中描述的S311、S312和S321的过程相同。
然而,图4B中的过程与图3B中的过程的不同之处在于,不仅对跟踪框而且对未跟踪框执行处理。这里,在建议框中未被设置为跟踪框的多个建议框中的一些被设置为未跟踪框,但是不限于此。作为另一示例,可以根据一个或多个特定条件在建议框中选择未跟踪框。
作为参考,由于上面已经说明了通过使用均值漂移跟踪算法确定跟踪框的处理,因此将省略其详细说明。
在步骤S440中,测试装置200可以确定建议框的每一个是跟踪框还是未跟踪框。
如果在步骤S450中确定建议框为跟踪框,则在步骤S460中,测试装置200可以通过使用均值漂移跟踪算法来调整跟踪框的位置。详细地,在步骤S460中,通过使用均值漂移跟踪算法,测试装置200确定当前帧的特定区域作为跟踪框的目标区域,该特定区域具有关于与和前一帧中的对象的像素数据相对应的概率类似的概率的信息。此后,在步骤S470中,测试装置200通过由第一池化层440将特定区域池化来生成第一池化特征图,然后通过由FC层460对第一池化特征图应用回归运算来获取第一边界框。
否则,如果在步骤S450中确定建议框为未跟踪框,则在步骤S490中,测试装置200可以允许第二池化层450通过对特征图上与多个未跟踪框中的至少一个对应的区域应用池化运算来生成第二池化特征图;并且,如果FC层460通过对第二池化特征图应用分类操作来检测新对象,则允许FC层460通过对第二池化特征图应用回归运算来获取第二边界框。
再例如,在步骤S490之前,在步骤S480中,测试装置200可以通过参考(i)从前一帧获取的参考边界框与多个未跟踪框的每一个之间的L2距离中的每一个以及(ii)作为指示多个未跟踪框的每一个包括对象的概率的概率值的每个分数中的至少一者,在多个未跟踪框中选择至少一个特定未跟踪框。如果执行步骤S480,则在步骤S490中,测试装置200可以允许第二池化层450通过对特征图上与特定未跟踪框相对应的区域应用池化运算来生成第二池化特征图;并且,如果FC层460通过对第二池化特征图应用分类操作来检测新对象,则允许FC层460通过对第二池化特征图应用回归运算来获取第二边界框。
这里,测试装置200可以将与新对象相对应的第二边界框确定为参考边界框NEW_REF以用于包括在下一帧中的新对象的跟踪框,然后参考参考边界框NEW_REF与下一帧中的多个建议框中的每一个之间的每个距离在下一帧中设置跟踪框。
作为参考,分类操作的结果提供关于作为各种身份的对象的概率的信息。分类操作可以表示对象是车辆、乘客、背景以及道路等的概率。
图5是用于说明在本发明中使用的均值漂移跟踪算法的图。
通过参考图5,可以从特定区域510获得要跟踪的对象(例如,车辆)的直方图520。直方图是关于通过针对每种颜色对包括在对象的区域中的每个像素数进行计数并用每个像素数除总像素数而获取的概率数据的信息。
在获取直方图520的条件下,输入图像530被反投影以获取反投影图像540。这里,反投影是数字化输入图像530中的像素的多少颜色值包括在要跟踪的对象中的过程。如果将模型的直方图称为Hm并且如果输入图像I 530的每个像素x的颜色值被称为I(x),则可以如公式w(x)=Hm(I(x))所示获得反投影的值。
均值漂移跟踪算法可以应用于反投影的值。更具体地,由于均值漂移跟踪算法通过使用能够找到要从当前位置移动的数据分布的中心的均值漂移来跟踪图像中的对象,因此在本发明中,它用于查找当前帧中的从跟踪框的起始区域移动的特定区域,该特定区域具有关于和与前一帧中的对象的像素数据对应的概率类似的概率的信息。
作为参考,关于与前一帧中的对象的像素数据相对应的概率数据的信息可以是与前一帧中的第一边界框的像素数据和/或其中的第二边界框的像素数据相对应的直方图。
同时,在执行测试装置200的处理之前,可以通过学习装置(未示出)来调整包括在测试装置200中的CNN的至少一个参数。
详细地,在学习装置已经完成以下处理的条件下测试装置200可以执行上述步骤:(i)允许卷积层从包括用于训练的对象的训练图像获取用于训练的特征图,(ii)允许RPN获取与训练图像中与用于训练的对象相对应的用于训练的一个或多个建议框,(iii)允许池化层通过应用池化运算生成与用于训练的建议框对应的用于训练的池化特征图,(iv)允许FC层通过将回归运算应用于用于训练的池化特征图获取关于用于训练的边界框的像素数据的信息,以及(v)允许损失层通过比较关于训练图像中的边界框的像素数据的信息与GT图像中的所述边界框的像素数据的信息来获取比较数据,从而在反向传播过程中通过使用比较数据调整CNN的至少一个参数。
作为参考,可以通过第一FC层和第二FC层两者获取关于用于训练的边界框的像素数据的信息,视情况而定。如上所述,如果包括第一FC层的跟踪网和包括第二FC层的检测网络被配置为一个网络,则不必分别对第一FC层和第二FC层执行学习过程。在这种情况下,第一FC层的参数可以具有与第二FC层的参数相同的值。
根据本发明,具有获取与图像中的对象相对应的高精度边界框的效果。
根据本发明,通过使用均值漂移跟踪算法,具有更精确地跟踪对象的效果。
根据本发明,通过使跟踪网重用包括在CNN中的检测网络中的分类器和回归器,具有增加跟踪结果以及验证结果的可靠性的效果。
如上所述的本发明的实施例可以通过可记录到计算机可读介质的各种计算机装置以可执行程序命令的形式实现。计算机可读介质可以单独地或组合地包括程序命令、数据文件和数据结构。记录到介质的程序命令可以是为本发明专门设计的组件,或者对于相关领域的技术人员可用。计算机可读记录介质包括:诸如硬盘、软盘和磁带的磁介质;诸如CD-ROM和DVD的光学介质;诸如光盘的磁光介质;诸如ROM、RAM的硬件装置;以及专门用于存储和执行程序的闪存。程序命令不仅包括由编译器产生的机器语言代码,还包括可由通过计算装置执行的解释器等使用的高级代码。上述硬件装置可以不止作为软件模块工作来执行本发明的技术特征,并且它们在相反的情况下可以做同样的工作。
如上所述,已经通过诸如详细组件、有限实施例和附图的具体事项解释了本发明。虽然已经关于优选实施例示出和描述了本发明,但是,本领域技术人员将理解,在不脱离如在以下权利要求中限定的本发明的精神和范围的情况下,可以进行各种改变和修改。
因此,本发明的思想不应局限于所解释的实施例,并且以下专利权利要求以及包括与专利权利要求等同或等同的变化的所有内容都属于本发明的思想范畴。

Claims (20)

1.一种通过使用包括跟踪网的CNN获取与测试图像中的至少一个对象相对应的至少一个边界框的方法,包括以下步骤:
(a)如果通过对作为当前帧的所述测试图像应用卷积运算而生成特征图,然后输出通过由区域建议网络(RPN)对所述特征图应用特定操作而得到的关于多个建议框的信息,则测试装置获取或支持另一装置获取所述多个建议框;
(b)所述测试装置通过参考以下至少一项在所述多个建议框中选择或支持另一装置在所述多个建议框中选择至少一个特定建议框:(i)将前一帧中的所述对象的参考边界框与所述多个建议框的每一个之间的每个距离进行比较的结果以及(ii)将作为指示所述建议框的每一个是否包括所述对象的概率值的每个分数进行比较的结果,然后设置或支持另一装置设置所述特定建议框作为跟踪框的起始区域,其中,所述起始区域用于均值漂移跟踪算法;
(c)通过使用所述均值漂移跟踪算法,所述测试装置确定或支持另一装置确定所述当前帧的特定区域作为所述跟踪框的目标区域,所述特定区域具有关于和与所述前一帧中的所述对象的像素数据对应的概率类似的概率的信息;以及
(d)所述测试装置允许池化层通过对所述特征图中对应于所述特定区域的区域应用池化运算生成池化特征图,然后允许FC层通过对所述池化特征图应用回归运算来获取边界框。
2.根据权利要求1所述的方法,其中,在所述步骤(c)中,关于与所述前一帧中的所述对象的像素数据对应的概率的所述信息是与所述前一帧中的所述边界框的像素数据相对应的直方图。
3.根据权利要求1所述的方法,还包括步骤:
(e)所述测试装置将所述边界框确定为参考边界框,以用于位于下一帧中的所述对象的跟踪框。
4.根据权利要求1所述的方法,其中,在所述步骤(b)中,如果所述对象的数量是多个,则所述测试装置通过参考以下至少一项在所述多个建议框中选择或支持另一装置在所述多个建议框中选择所述特定建议框:(i)将所述前一帧中的所述对象的所述参考边界框与所述多个建议框的每一个之间的距离的每一个进行比较的结果以及(ii)将作为指示所述建议框的每一个是否包括所述对象的概率值的每个分数进行比较的结果,然后设置或支持另一装置设置所述特定建议框的每一个作为所述跟踪框的每一个的每个起始区域。
5.根据权利要求1所述的方法,其中,在所述步骤(b)中,位于所述前一帧中的所述对象的所述参考边界框与所述多个建议框中的每一个之间的距离是所述参考边界框的中心坐标与所述多个建议框中的每一个的中心坐标之间的L2距离。
6.根据权利要求1所述的方法,其中,在学习装置已经完成以下处理的条件下所述测试装置执行所述步骤(a)至所述(d):(i)允许卷积层从包括用于训练的对象的训练图像获取用于训练的特征图,(ii)允许所述RPN获取与所述训练图像中与用于训练的所述对象相对应的用于训练的一个或多个建议框,(iii)允许所述池化层通过应用池化运算生成与用于训练的建议框对应的用于训练的池化特征图,(iv)允许所述FC层通过将回归运算应用于用于训练的所述池化特征图获取关于用于训练的边界框的像素数据的信息,以及(v)允许损失层通过比较所述训练图像中的所述边界框的像素数据的信息与GT图像中的所述边界框的像素数据的信息来获取比较数据,从而在反向传播过程中通过使用所述比较数据调整所述CNN的至少一个参数。
7.根据权利要求1所述的方法,其中,在所述步骤(d)中,通过生成所述池化特征图然后通过所述FC层应用所述回归运算的处理,所述测试装置获取或支持另一装置获取所述边界框,所述边界框的大小被调整为对应于所述测试图像中的所述对象。
8.一种通过使用包括跟踪网和检测网络的CNN获取与测试图像中的对象相对应的边界框的方法,包括以下步骤:
(a)如果通过对作为当前帧的所述测试图像应用卷积运算而生成特征图,然后输出通过由区域建议网络(RPN)对所述特征图应用特定操作而得到的关于多个建议框的信息,则测试装置获取或支持另一装置获取所述多个建议框;
(b)(b-1)所述测试装置通过参考以下至少一项在所述多个建议框中选择或支持另一装置在所述多个建议框中选择至少一个特定建议框:(i)将前一帧中的所述对象的参考边界框与所述多个建议框的每一个之间的每个距离进行比较的结果以及(ii)将作为指示建议框的每一个是否包括所述对象的概率值的每个分数进行比较的结果,然后设置或支持另一装置设置所述特定建议框作为跟踪框的起始区域,其中,所述起始区域用于均值漂移跟踪算法;(b-2)所述测试装置设置或支持另一装置设置所述多个建议框中尚未设置为跟踪框的至少一些建议框作为多个未跟踪框;以及
(c)(c-1)在所述步骤(b-1)之后,通过使用所述均值漂移跟踪算法,所述测试装置确定或支持另一装置确定所述当前帧的特定区域作为所述跟踪框的目标区域,所述特定区域具有关于和与所述前一帧中的所述对象的像素数据对应的概率类似的概率的信息;并且允许第一池化层通过将池化运算应用于所述特征图中对应于所述特定区域的区域来生成第一池化特征图,然后允许FC层通过将回归运算应用于所述第一池化特征图来获取第一边界框;(c-2)在所述步骤(b-2)之后,所述测试装置允许第二池化层通过对所述特征图上与所述多个未跟踪框的至少一个对应的区域应用池化运算来生成第二池化特征图;并且,如果所述FC层通过对所述第二池化特征图应用分类操作来检测新对象,则所述测试装置允许所述FC层通过对所述第二池化特征图应用回归运算来获取第二边界框。
9.根据权利要求8所述的方法,其中,在所述步骤(c-2)中,所述测试装置将与所述新对象相对应的所述第二边界框确定为参考边界框,以用于包括在下一帧中的所述新对象的跟踪框。
10.根据权利要求8所述的方法,其中,在所述步骤(b-2)中,通过参考以下至少一项在所述多个未跟踪框中选择至少一个特定未跟踪框:(i)从所述前一帧获取的所述参考边界框与所述多个未跟踪框中的每一个之间的L2距离的每一个以及(ii)作为指示所述多个未跟踪框的每一个是否包括所述对象的概率值的每个分数,并且其中,在所述步骤(c-2)中,所述测试装置允许所述第二池化层通过对所述特征图上与所述特定未跟踪框相对应的区域应用池化运算来生成所述第二池化特征图;并且,如果所述FC层通过对所述第二池化特征图应用分类操作来检测所述新对象,则允许所述FC层通过对所述第二池化特征图应用回归运算来获取所述第二边界框。
11.一种通过使用包括跟踪网的CNN获取与测试图像中的至少一个对象相对应的至少一个边界框的测试装置,包括:
通信部,用于获取所述测试图像或从所述测试图像转换的特征图;以及
处理器,用于执行以下处理:(I)如果通过对作为当前帧的所述测试图像应用卷积运算而获取所述特征图,然后输出通过由区域建议网络(RPN)对所述特征图应用特定操作而得到的关于多个建议框的信息,则获取或支持另一装置获取所述多个建议框;(II)通过参考以下至少一项在所述多个建议框中选择或支持另一装置在所述多个建议框中选择至少一个特定建议框:(i)将前一帧中的所述对象的参考边界框与所述多个建议框的每一个之间的每个距离进行比较的结果以及(ii)将作为指示所述建议框的每一个是否包括所述对象的概率值的每个分数进行比较的结果,然后设置或支持另一装置设置所述特定建议框作为跟踪框的起始区域,其中,所述起始区域用于均值漂移跟踪算法;(III)通过使用所述均值漂移跟踪算法,确定或支持另一装置确定所述当前帧的特定区域作为所述跟踪框的目标区域,所述特定区域具有关于和与所述前一帧中的所述对象的像素数据对应的概率类似的概率的信息;以及(IV)允许池化层通过对所述特征图中对应于所述特定区域的区域应用池化运算生成池化特征图,然后允许FC层通过对所述池化特征图应用回归运算来获取边界框。
12.根据权利要求11所述的测试装置,其中,在所述处理(III)中,关于与所述前一帧中的所述对象的像素数据对应的概率的所述信息是与所述前一帧中的所述边界框的像素数据相对应的直方图。
13.根据权利要求11所述的测试装置,其中,所述处理器还执行以下处理:(V)将所述边界框确定为参考边界框,以用于位于下一帧中的所述对象的跟踪框。
14.根据权利要求11所述的测试装置,其中,在所述处理(II)中,如果所述对象的数量是多个,则所述处理器通过参考以下至少一项在所述多个建议框中选择或支持另一装置在所述多个建议框中选择所述特定建议框:(i)将所述前一帧中的所述对象的所述参考边界框与所述多个建议框的每一个之间的距离的每一个进行比较的结果以及(ii)将作为指示所述建议框的每一个是否包括所述对象的概率值的每个分数进行比较的结果,然后设置或支持另一装置设置所述特定建议框的每一个作为所述跟踪框的每一个的每个起始区域。
15.根据权利要求11所述的测试装置,其中,在所述处理(II)中,位于所述前一帧中的所述对象的所述参考边界框与所述多个建议框中的每一个之间的距离是所述参考边界框的中心坐标与所述多个建议框中的每一个的中心坐标之间的L2距离。
16.根据权利要求11所述的测试装置,其中,在学习装置已经完成以下处理的条件下所述测试装置的所述处理器执行所述处理(I)至所述(IV):(i)允许卷积层从包括用于训练的对象的训练图像获取用于训练的特征图,(ii)允许所述RPN获取与所述训练图像中与用于训练的所述对象相对应的用于训练的一个或多个建议框,(iii)允许所述池化层通过应用池化运算生成与用于训练的建议框对应的用于训练的池化特征图,(iv)允许所述FC层通过将所述回归运算应用于用于训练的所述池化特征图获取关于用于训练的边界框的像素数据的信息,以及(v)允许损失层通过比较所述训练图像中的所述边界框的像素数据的信息与GT图像中的所述边界框的像素数据的信息来获取比较数据,从而在反向传播过程中通过使用所述比较数据调整所述CNN的至少一个参数。
17.根据权利要求11所述的测试装置,其中,在所述处理(IV)中,通过生成所述池化特征图然后通过所述FC层应用所述回归运算的处理,所述处理器获取或支持另一装置获取所述边界框,所述边界框的大小被调整为对应于所述测试图像中的所述对象。
18.一种通过使用包括跟踪网和检测网络的CNN来获取与测试图像中的对象相对应的边界框的测试装置,包括:
通信部,用于获取所述测试图像或从所述测试图像转换的特征图;以及
处理器,用于执行以下处理:(I)如果通过对作为当前帧的所述测试图像应用卷积运算而生成所述特征图,然后输出通过由区域建议网络(RPN)对所述特征图应用特定操作而得到的关于多个建议框的信息,则获取或支持另一装置获取所述多个建议框;(II)(II-1)通过参考以下至少一项在所述多个建议框中选择或支持另一装置在所述多个建议框中选择至少一个特定建议框(i)将前一帧中的所述对象的参考边界框与所述多个建议框的每一个之间的每个距离进行比较的结果以及(ii)将作为指示所述建议框的每一个是否包括所述对象的概率值的每个分数进行比较的结果,然后设置或支持另一装置设置所述特定建议框作为跟踪框的起始区域,其中,所述起始区域用于均值漂移跟踪算法;(II-2)设置或支持另一装置设置所述多个建议框中尚未设置为跟踪框的至少一些建议框作为多个未跟踪框;以及(III)(III-1)在所述处理(II-1)之后,通过使用所述均值漂移跟踪算法,确定或支持另一装置确定所述当前帧的特定区域作为所述跟踪框的目标区域,所述特定区域具有关于和与所述前一帧中的所述对象的像素数据对应的概率类似的概率的信息;并且允许第一池化层通过将池化运算应用于所述特征图中对应于所述特定区域的区域来生成第一池化特征图,然后允许FC层通过将回归运算应用于所述第一池化特征图来获取第一边界框;(III-2)在所述处理(II-2)之后,所述测试装置允许第二池化层通过对所述特征图上与所述多个未跟踪框的至少一个对应的区域应用池化运算来生成第二池化特征图;并且,如果所述FC层通过对所述第二池化特征图应用分类操作来检测新对象,则允许所述FC层通过对所述第二池化特征图应用回归运算来获取第二边界框。
19.根据权利要求18所述的测试装置,其中,在所述处理(III-2)中,所述处理器将与所述新对象相对应的所述第二边界框确定为参考边界框,以用于包括在下一帧中的所述新对象的跟踪框。
20.根据权利要求18所述的测试装置,其中,在所述处理(II-2)中,通过参考以下至少一项在所述多个未跟踪框中选择至少一个特定未跟踪框:(i)从所述前一帧获取的所述参考边界框与所述多个未跟踪框中的每一个之间的L2距离的每一个以及(ii)作为指示所述多个未跟踪框的每一个是否包括所述对象的概率值的每个分数,并且其中,在所述处理(III-2)中,所述处理器允许所述第二池化层通过对所述特征图上与所述特定未跟踪框相对应的区域应用池化运算来生成所述第二池化特征图;并且,如果所述FC层通过对所述第二池化特征图应用分类操作来检测所述新对象,则允许所述FC层通过对所述第二池化特征图应用回归运算来获取所述第二边界框。
CN201811191036.7A 2017-10-13 2018-10-12 用包括跟踪网的卷积神经网络获取与图像中的对象对应的边界框的方法和使用其的计算装置 Active CN109670523B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/783,442 US9946960B1 (en) 2017-10-13 2017-10-13 Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same
US15/783,442 2017-10-13

Publications (2)

Publication Number Publication Date
CN109670523A true CN109670523A (zh) 2019-04-23
CN109670523B CN109670523B (zh) 2024-01-09

Family

ID=61872587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811191036.7A Active CN109670523B (zh) 2017-10-13 2018-10-12 用包括跟踪网的卷积神经网络获取与图像中的对象对应的边界框的方法和使用其的计算装置

Country Status (5)

Country Link
US (1) US9946960B1 (zh)
EP (1) EP3471026B1 (zh)
JP (1) JP6646124B2 (zh)
KR (1) KR102192830B1 (zh)
CN (1) CN109670523B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401143A (zh) * 2020-02-26 2020-07-10 沈阳大学 一种行人跟踪系统及方法
CN111428566A (zh) * 2020-02-26 2020-07-17 沈阳大学 一种形变目标跟踪系统及方法
CN111460926A (zh) * 2020-03-16 2020-07-28 华中科技大学 一种融合多目标跟踪线索的视频行人检测方法
CN111696136A (zh) * 2020-06-09 2020-09-22 电子科技大学 一种基于编解码结构的目标跟踪方法

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017095948A1 (en) * 2015-11-30 2017-06-08 Pilot Ai Labs, Inc. Improved general object detection using neural networks
DE102018206110A1 (de) * 2018-04-20 2019-10-24 Zf Friedrichshafen Ag Trainingsverfahren
US10269125B1 (en) * 2018-10-05 2019-04-23 StradVision, Inc. Method for tracking object by using convolutional neural network including tracking network and computing device using the same
CN109635842A (zh) * 2018-11-14 2019-04-16 平安科技(深圳)有限公司 一种图像分类方法、装置及计算机可读存储介质
CN109492697B (zh) * 2018-11-15 2021-02-02 厦门美图之家科技有限公司 图片检测网络训练方法及图片检测网络训练装置
US11087170B2 (en) * 2018-12-03 2021-08-10 Advanced Micro Devices, Inc. Deliberate conditional poison training for generative models
US10423860B1 (en) * 2019-01-22 2019-09-24 StradVision, Inc. Learning method and learning device for object detector based on CNN to be used for multi-camera or surround view monitoring using image concatenation and target object merging network, and testing method and testing device using the same
US10509987B1 (en) 2019-01-22 2019-12-17 StradVision, Inc. Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
US10387753B1 (en) * 2019-01-23 2019-08-20 StradVision, Inc. Learning method and learning device for convolutional neural network using 1×1 convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same
US10402978B1 (en) * 2019-01-25 2019-09-03 StradVision, Inc. Method for detecting pseudo-3D bounding box based on CNN capable of converting modes according to poses of objects using instance segmentation and device using the same
US10445611B1 (en) * 2019-01-25 2019-10-15 StradVision, Inc. Method for detecting pseudo-3D bounding box to be used for military purpose, smart phone or virtual driving based-on CNN capable of converting modes according to conditions of objects and device using the same
US10402686B1 (en) * 2019-01-25 2019-09-03 StradVision, Inc. Learning method and learning device for object detector to be used for surveillance based on convolutional neural network capable of converting modes according to scales of objects, and testing method and testing device using the same
US10372573B1 (en) * 2019-01-28 2019-08-06 StradVision, Inc. Method and device for generating test patterns and selecting optimized test patterns among the test patterns in order to verify integrity of convolution operations to enhance fault tolerance and fluctuation robustness in extreme situations
US10803333B2 (en) * 2019-01-30 2020-10-13 StradVision, Inc. Method and device for ego-vehicle localization to update HD map by using V2X information fusion
US10817777B2 (en) * 2019-01-31 2020-10-27 StradVision, Inc. Learning method and learning device for integrating object detection information acquired through V2V communication from other autonomous vehicle with object detection information generated by present autonomous vehicle, and testing method and testing device using the same
US11010668B2 (en) * 2019-01-31 2021-05-18 StradVision, Inc. Method and device for attention-driven resource allocation by using reinforcement learning and V2X communication to thereby achieve safety of autonomous driving
US10796206B2 (en) * 2019-01-31 2020-10-06 StradVision, Inc. Method for integrating driving images acquired from vehicles performing cooperative driving and driving image integrating device using same
CN112307826A (zh) * 2019-07-30 2021-02-02 华为技术有限公司 行人检测方法、装置、计算机可读存储介质和芯片
US11288835B2 (en) 2019-09-20 2022-03-29 Beijing Jingdong Shangke Information Technology Co., Ltd. Lighttrack: system and method for online top-down human pose tracking
CN112581495A (zh) * 2019-09-27 2021-03-30 北京迈格威科技有限公司 图像处理方法、装置、设备及存储介质
KR20210061839A (ko) * 2019-11-20 2021-05-28 삼성전자주식회사 전자 장치 및 그 제어 방법
CN114641799A (zh) * 2019-11-20 2022-06-17 Oppo广东移动通信有限公司 对象检测设备、方法和系统
CN111223125B (zh) * 2020-01-06 2023-05-09 江苏大学 一种基于Python环境下的目标运动视频跟踪方法
CN111428567B (zh) * 2020-02-26 2024-02-02 沈阳大学 一种基于仿射多任务回归的行人跟踪系统及方法
KR20210114728A (ko) * 2020-03-11 2021-09-24 연세대학교 산학협력단 박스 레벨의 객체 위치 정보를 사용한 픽셀 레벨의 동영상 객체 추적 장치
CN111539991B (zh) * 2020-04-28 2023-10-20 北京市商汤科技开发有限公司 目标跟踪方法及装置、存储介质
KR102436197B1 (ko) 2020-06-10 2022-08-25 한국기술교육대학교 산학협력단 이미지 객체 검출 방법
KR20220052620A (ko) * 2020-10-21 2022-04-28 삼성전자주식회사 객체 추적 방법 및 이를 수행하는 장치
CN112257810B (zh) * 2020-11-03 2023-11-28 大连理工大学人工智能大连研究院 一种基于改进FasterR-CNN的海底生物目标检测方法
CN113011331B (zh) * 2021-03-19 2021-11-09 吉林大学 机动车是否礼让行人的检测方法、装置、电子设备及介质
KR102695527B1 (ko) * 2021-03-25 2024-08-14 삼성전자주식회사 객체 추적 방법 및 장치
CN113420919B (zh) * 2021-06-21 2023-05-05 郑州航空工业管理学院 基于无人机视觉感知的工程异常管控方法
US20230115371A1 (en) * 2021-10-05 2023-04-13 Qualcomm Incorporated Efficient vision perception
CN115331050A (zh) * 2021-10-11 2022-11-11 深圳硅基智能科技有限公司 基于紧框标的眼底图像的测量方法、装置及网络训练

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124415A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Subcategory-aware convolutional neural networks for object detection
CN106815579A (zh) * 2017-01-22 2017-06-09 深圳市唯特视科技有限公司 一种基于多区域双流卷积神经网络模型的动作检测方法
CN106845430A (zh) * 2017-02-06 2017-06-13 东华大学 基于加速区域卷积神经网络的行人检测与跟踪方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5216902B2 (ja) 2011-09-05 2013-06-19 日本電信電話株式会社 対象物追跡装置及び対象物追跡方法
US9858496B2 (en) 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124415A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Subcategory-aware convolutional neural networks for object detection
CN106815579A (zh) * 2017-01-22 2017-06-09 深圳市唯特视科技有限公司 一种基于多区域双流卷积神经网络模型的动作检测方法
CN106845430A (zh) * 2017-02-06 2017-06-13 东华大学 基于加速区域卷积神经网络的行人检测与跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIAN YANG: "An object detection and tracking system for unmanned", 《TARGET AND BACKGROUND SIGNATURES III》 *
SHAQING REN: "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks", 《ARXIV:1506.01497V3》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401143A (zh) * 2020-02-26 2020-07-10 沈阳大学 一种行人跟踪系统及方法
CN111428566A (zh) * 2020-02-26 2020-07-17 沈阳大学 一种形变目标跟踪系统及方法
CN111428566B (zh) * 2020-02-26 2023-09-01 沈阳大学 一种形变目标跟踪系统及方法
CN111460926A (zh) * 2020-03-16 2020-07-28 华中科技大学 一种融合多目标跟踪线索的视频行人检测方法
CN111460926B (zh) * 2020-03-16 2022-10-14 华中科技大学 一种融合多目标跟踪线索的视频行人检测方法
CN111696136A (zh) * 2020-06-09 2020-09-22 电子科技大学 一种基于编解码结构的目标跟踪方法

Also Published As

Publication number Publication date
EP3471026C0 (en) 2023-11-01
EP3471026B1 (en) 2023-11-01
US9946960B1 (en) 2018-04-17
JP2019075116A (ja) 2019-05-16
JP6646124B2 (ja) 2020-02-14
KR102192830B1 (ko) 2020-12-18
KR20190041923A (ko) 2019-04-23
EP3471026A1 (en) 2019-04-17
CN109670523B (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
CN109670523A (zh) 用包括跟踪网的卷积神经网络获取与图像中的对象对应的边界框的方法和使用其的计算装置
CN113196296B (zh) 使用几何上下文检测人群中的对象
US9786036B2 (en) Reducing image resolution in deep convolutional networks
CN109886998A (zh) 多目标跟踪方法、装置、计算机装置及计算机存储介质
CN109670512A (zh) 使用多尺度特征图调整cnn参数的学习方法和学习装置及使用其的测试方法和测试装置
CN109903310A (zh) 目标跟踪方法、装置、计算机装置及计算机存储介质
CN110390248A (zh) 用于操作技术系统的方法、设备、产品和计算机程序
KR102585216B1 (ko) 영상 인식 방법 및 그 장치
CN110533695A (zh) 一种基于ds证据理论的轨迹预测装置及方法
JP7263216B2 (ja) ワッサースタイン距離を使用する物体形状回帰
CN109598781A (zh) 通过回归分析从2d边界框获取伪3d框的方法以及使用该方法的学习装置和测试装置
CN106570490B (zh) 一种基于快速聚类的行人实时跟踪方法
Narayanan et al. Perch: Perception via search for multi-object recognition and localization
Wang et al. Point linking network for object detection
CN109858547A (zh) 一种基于bssd的目标检测方法与装置
CN111311702B (zh) 一种基于BlockGAN的图像生成和识别模块及方法
CN112733581B (zh) 车辆属性识别方法及系统
CN109196556A (zh) 避障方法、装置及可移动平台
CN110263731B (zh) 一种单步人脸检测系统
CN111353377A (zh) 一种基于深度学习的电梯乘客数检测方法
CN115115908A (zh) 跨域目标检测模型训练方法、目标检测方法及存储介质
CN109643363A (zh) 特征提取和对象检测的方法、系统和装置
CN110738123B (zh) 识别密集陈列商品的方法及其装置
CN109215074A (zh) 基于分层码标的无人机降落方法、装置、设备以及可读存储介质
KR102575224B1 (ko) 가변 합성곱 신경망을 이용한 객체 검출 시스템 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant