CN108701210B - 用于cnn网络适配和对象在线追踪的方法和系统 - Google Patents

用于cnn网络适配和对象在线追踪的方法和系统 Download PDF

Info

Publication number
CN108701210B
CN108701210B CN201680080165.1A CN201680080165A CN108701210B CN 108701210 B CN108701210 B CN 108701210B CN 201680080165 A CN201680080165 A CN 201680080165A CN 108701210 B CN108701210 B CN 108701210B
Authority
CN
China
Prior art keywords
neural network
frame
convolutional neural
trained
target video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680080165.1A
Other languages
English (en)
Other versions
CN108701210A (zh
Inventor
王晓刚
王立君
欧阳万里
卢湖川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of CN108701210A publication Critical patent/CN108701210A/zh
Application granted granted Critical
Publication of CN108701210B publication Critical patent/CN108701210B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

公开用于CNN网络适配和对象在线追踪的方法、设备及系统。所述CNN网络适配方法包括:将第一特征图转换为多个子特征图,其中所述第一特征图由所述预训练的CNN根据所述目标视频的帧而生成;将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积,以输出具有改善的适配性的多个第二特征图;逐帧训练所述多个适配卷积核。

Description

用于CNN网络适配和对象在线追踪的方法和系统
技术领域
本公开涉及用于卷积神经网络(CNN)网络适配和对象在线追踪的方法、设备和系统。
背景技术
视觉追踪是计算机视觉中的基础性问题,已受到越来越多的关注。对于不依赖于模型的对象追踪问题,第一帧中的边界框指示类别不明的目标,且追踪器用于在每一后续帧中定位目标。由于由突然运动、变形、遮挡和光照变化引起的目标外观的显著改变,视觉追踪仍然是具有挑战性的问题。先前的方法依赖于人工编辑的特征来描述目标,且在一定程度上解决了上述具有挑战性的问题。
最近,在大规模图像分类数据集上训练的深度CNN已经取得了巨大成功。由学习过程发现的这些语义表示被证明对区分各种类别的对象非常有效。然而,对具有数百万参数的深度CNN进行有监督的训练需要大量的带注释的训练样本。为了利用有限数量的训练样本将深度CNN应用于各项任务,先前方法采用迁移学习方法,即首先在具有大规模训练数据集的源任务上预训练深度CNN,然后在目标任务上对学习得到的特征进行微调。由于CNN特征在不同数据集上具有良好的泛化能力,因此这种迁移学习方法是有效的,且已在许多应用中显示出与当前科技水平匹配的性能。
然而,对于在线视觉追踪,由于仅在第一帧中提供了具有真值(ground truth)标记的训练样本,且用于更新追踪器的追踪结果也是以顺序方式获得,所以缺乏训练样本的问题变得更加严重。因此,直接在线微调预训练的深度CNN容易过拟合,这会使追踪器性能下降并逐渐导致追踪漂移。
发明内容
下文呈现本公开的简要概述,以便提供对本公开的一些方面的基本理解。此概述并非本公开的详尽综述。该概述既不旨在确定本公开的重要或关键要素,也不希望划定本公开的特定实施例的任何范围或权利要求书的任何范围。其唯一目的是以简化形式呈现本公开的一些概念作为稍后呈现的更详细描述的序文。
为了至少部分地解决以上一个问题,在本申请的一个方面中,提出一种用于使预训练的CNN适配目标视频的CNN网络适配方法。所述方法包括:将第一特征图转换为多个子特征图,其中所述第一特征图由所述预训练的CNN根据所述目标视频的帧而生成;将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积,以输出具有改善的适配性的多个第二特征图;以及逐帧训练所述多个适配卷积核。
在本申请的一个实施例中,所述转换和所述卷积在适配CNN中实施,所述适配CNN包括:第一卷积层,链接到所述预训练的CNN且用于将所述第一特征图转换为所述多个子特征图;以及第二卷积层,链接到所述第一卷积层且用于将每个所述子特征图分别与所述多个适配卷积核中的一个适配卷积核进行卷积。
在本申请的一个实施例中,所述训练包括:将第一训练样本正向馈送经过所述预训练的CNN和所述适配CNN以生成第一输出图像,其中所述第一训练样本根据所述目标视频的第一帧而获得;将所生成的第一输出图像与从所述第一帧推导出的第一真值进行比较以获得分别用于所述多个适配卷积核的多个第一训练误差;将所述多个第一训练误差反复地反向传播经过所述预训练的CNN和所述适配CNN以训练所述多个适配卷积核,直到所述多个第一训练误差收敛,其中,获得分别用于经训练的多个适配卷积核的多个参数;将所获得的多个参数中具有最小第一训练误差的参数与所获得的多个参数中的其余参数分别分组到集成集和候选集中;以及根据所述目标视频的后续帧优化被分组到所述候选集中的参数。
在本申请的一个实施例中,所述优化包括:将第二训练样本正向馈送经过所述预训练的CNN和所述适配CNN以生成第二输出图像,其中所述第二训练样本根据所述目标视频的第二帧而获得,且所述第二帧在所述第一帧之后;将所述第二输出图像与从所述第二帧推导出的第二真值进行比较以获得用于所述多个适配卷积核的多个第二训练误差;以及如果任一第二训练误差高于阈值,则将所述第二训练误差反向传播经过所述预训练的CNN和所述适配CNN以进一步优化所述候选集中的参数并且将被进一步优化的参数中的至少一个参数传送到所述集成集中。
在本申请的一个实施例中,每个所述适配卷积核在不同损失准则下训练。
在本申请的一个实施例中,所述方法还包括通过掩码层进一步降低所述多个子特征图之间的关联性,其中所述掩码层链接到所述适配CNN的所述第二卷积层。
在本申请的一个实施例中,所述掩码层包括多个二进制掩码,每个二进制掩码与一个子特征图进行卷积且与被卷积的子特征图具有相同的空间尺寸。
在另一方面中,提出一种用于对象在线追踪的方法,包括:确定目标视频的第一帧中的关注区域(ROI);将所确定的ROI正向馈送经过预训练的CNN以提取其初始特征图;利用所述初始特征图初始化用于检测所述对象的位置的适配CNN和用于限定所述对象的比例的比例估计网络;利用经初始化的适配CNN预测所述对象在所述目标视频的第二帧中的第二位置,其中所述第二帧在所述第一帧之后;利用经初始化的比例估计网络估计所述对象在所述目标视频的所述第二帧中的第二比例;利用在所述预测和所述估计中获取的经优化的网络参数分别更新所述适配CNN和所述比例估计网络;利用经更新的适配CNN预测所述对象在所述目标视频的第三帧中的第三位置,其中所述第三帧在所述第二帧之后;以及利用经更新的比例估计网络估计所述对象在所述目标视频的所述第三帧中的第三比例。
在本申请的一个实施例中,所述适配CNN包括:第一卷积层,链接到所述预训练的CNN且用于将第一特征图转换为多个子特征图,其中所述第一特征图通过所述预训练的CNN根据所述目标视频的任一帧而生成;以及第二卷积层,链接到所述第一卷积层且用于将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积,以输出具有改善的适配性的多个第二特征图。
在本申请的一个实施例中,所述适配CNN通过以下操作来初始化:将第一训练样本正向馈送经过所述预训练的CNN和所述适配CNN以生成第一输出图像,其中所述第一训练样本根据所述目标视频的第一帧而获得;将所生成的第一输出图像与从所述第一帧推导出的第一真值进行比较以获得分别用于所述多个适配卷积核的多个第一训练误差;将所述多个第一训练误差反复地反向传播经过所述预训练的CNN和所述适配CNN 以训练所述多个适配卷积核,直到所述多个第一训练误差收敛,其中,获得分别用于经训练的多个适配卷积核的多个参数;将所获得的多个参数中具有最小第一训练误差的参数与所获得的多个参数中的其余参数分别分组到集成集和候选集中。
在本申请的一个实施例中,所述适配CNN通过以下操作来更新:将第二训练样本正向馈送经过所述预训练的CNN和所述适配CNN以生成第二输出图像,其中所述第二训练样本根据所述目标视频的第二帧而获得,且所述第二帧在所述第一帧之后;将所述第二输出图像与从所述第二帧推导出的第二真值进行比较以获得分别用于所述多个适配卷积核的多个第二训练误差;以及如果任一第二训练误差高于阈值,则将所述第二训练误差反向传播经过所述预训练的CNN和所述适配CNN以进一步优化所述候选集中的参数且将被进一步优化的参数中的至少一个参数传送到所述集成集中。
在本申请的一个实施例中,每个所述适配卷积核在不同损失准则下训练。
在本申请的一个实施例中,所述适配CNN还包括掩码层,所述掩码层链接到所述第二卷积层以进一步降低所述多个子特征图之间的关联性。
在本申请的一个实施例中,所述掩码层包括多个二进制掩码,每个二进制掩码与一个子特征图进行卷积且与被卷积的子特征图具有相同的空间尺寸。
在本申请的一个实施例中,所述对象的位置通过由所述适配CNN生成的热图来预测,其中,具有最大值的位置被预测为所述对象的位置,且所述最大值被采样为置信度。
在本申请的一个实施例中,仅当所述置信度高于预定阈值时才执行所述更新。
在本申请的一个实施例中,待追踪的对象处于所述ROI的中心。
在另一方面中,提出用于使预训练的CNN适配目标视频的系统,包括:存储器,存储可执行组件;以及处理器,电联接到所述存储器以执行所述可执行组件。所述可执行组件经运行以执行以下操作:将第一特征图转换为多个子特征图,其中所述第一特征图由所述预训练的CNN根据所述目标视频的帧而生成;将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积,以输出具有改善的适配性的多个第二特征图;逐帧训练所述多个适配卷积核。
在另一方面中,提出一种用于对象在线追踪的系统,包括:存储器,存储可执行组件;以及处理器,电联接到所述存储器以执行所述可执行组件。所述可执行组件经运行以执行以下操作:确定目标视频的第一帧中的关注区域(ROI);将所确定的ROI正向馈送经过预训练的CNN以提取其初始特征图;利用所述初始特征图初始化用于检测所述对象的位置的适配CNN和用于限定所述对象的比例的比例估计网络;利用经初始化的适配CNN预测所述对象在所述目标视频的第二帧中的第二位置,其中所述第二帧在所述第一帧之后;利用经初始化的比例估计网络估计所述对象在所述目标视频的所述第二帧中的第二比例;利用在所述预测和所述估计中获取的经优化的网络参数分别更新所述适配CNN和所述比例估计网络;利用经更新的适配CNN预测所述对象在所述目标视频的第三帧中的第三位置,其中所述第三帧在所述第二帧之后;以及利用经更新的比例估计网络估计所述对象在所述目标视频的所述第三帧中的第三比例。
在另一方面中,提出一种用于使预训练的CNN适配目标视频的设备,包括:用于将第一特征图转换为多个子特征图的装置,其中所述第一特征图由预训练的CNN根据目标视频的帧而生成;用于将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积,以输出具有改善的适配性的多个第二特征图的装置;以及用于逐帧训练所述多个适配卷积核的装置。
在另一方面中,提出一种用于对象在线追踪的设备。所述设备包括特征提取单元,所述特征提取单元用于确定目标视频的第一帧中的关注区域(ROI)以及将所确定的ROI 正向馈送经过预训练的CNN以提取其初始特征图。所述设备还包括:初始化和更新单元,利用所述初始特征图初始化用于检测所述对象的位置的适配CNN和用于限定所述对象的比例的比例估计网络;位置预测单元,利用经初始化的适配CNN预测所述对象在所述目标视频的第二帧中的第二位置,其中所述第二帧在所述第一帧之后;以及比例估计单元,利用经初始化的比例估计网络估计所述对象在所述目标视频的所述第二帧中的第二比例。此外,所述初始化和更新单元还用于利用在所述预测和所述估计中获取的经优化的网络参数分别更新所述适配CNN和所述比例估计网络;所述位置预测单元还用于利用经更新的适配CNN预测所述对象在所述目标视频的第三帧中的第三位置,其中所述第三帧在所述第二帧之后;且所述比例估计单元还用于利用经更新的比例估计网络估计所述对象在所述目标视频的所述第三帧中的第三比例。
在另一方面中,提出一种计算机可读存储介质,所述计算机可读存储介质存储有可由处理器运行以执行以下操作的计算机可读指令,所述操作包括:将第一特征图转换为多个子特征图,其中所述第一特征图由所述预训练的CNN根据所述目标视频的帧而生成;将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积,以输出具有改善的适配性的多个第二特征图;以及逐帧训练所述多个适配卷积核。
在另一方面中,提出一种计算机可读存储介质,所述计算机可读存储介质存储有可由处理器运行以执行以下操作的计算机可读指令,所述操作包括:确定目标视频的第一帧中的关注区域(ROI);将所确定的ROI正向馈送经过预训练的CNN以提取其初始特征图;利用所述初始特征图初始化用于检测所述对象的位置的适配CNN和用于限定所述对象的比例的比例估计网络;利用经初始化的适配CNN预测所述对象在所述目标视频的第二帧中的第二位置,其中所述第二帧在所述第一帧之后;利用经初始化的比例估计网络估计所述对象在所述目标视频的所述第二帧中的第二比例;利用在所述预测和所述估计中获取的经优化的网络参数分别更新所述适配CNN和所述比例估计网络;利用经更新的适配CNN预测所述对象在所述目标视频的第三帧中的第三位置,其中所述第三帧在所述第二帧之后;以及利用经更新的比例估计网络估计所述对象在所述目标视频的所述第三帧中的第三比例。
基于所提出的CNN适配方法及系统,预训练的深度特征可以按减小的过拟合有效地转移到在线应用。所提出的对象在线追踪方法、设备及系统是基于所提出的CNN适配方法、设备及系统加以构造。由于过拟合现象得以减少,所提出的对象在线追踪方法及系统执行的对象在线追踪可得以改善。
附图说明
在下文参考附图描述本申请的示范性非限制性实施例。附图是说明性的且通常未按确切比例绘制。在不同附图中用相同的附图标记标注相同或相似的元件。
图1示出了用于使预训练的CNN适配目标图像的常规方法。
图2a到图2c示出了根据本申请的实施例的用于使预训练的CNN适配目标视频的适配CNN。
图3是示出了根据本申请的实施例的初始化适配CNN的流程图。
图4是示出了根据本申请的实施例的对象在线追踪过程的流程图。
图5是示出了根据本申请的实施例的用于对象在线追踪的系统架构的示意图。
具体实施方式
现将详细参考本发明的一些特定实施例,包含发明人预期用于实现本发明的最佳实施例。在附图中示出了这些特定实施例的实例。尽管结合了这些特定实施例描述本发明,但所属领域的技术人员将了解,其并不意欲将本发明限于所描述的实施例。相反,希望涵盖可包含在如所附权利要求书限定的本发明的精神和范围内的替代方案、修改方案和等同方案。在以下描述中,阐述了众多特定细节以便提供对本申请的透彻理解。可在没有这些特定细节中的一些细节或全部细节的情况下实施本申请。在一些情况下,并未详细描述公知的过程操作以防使本申请被不必要地混淆。
本文中所使用的术语仅用于描述特定实施例的目的,而不旨在限制本发明。除非上下文另外清楚地指示,否则如本文所使用的单数形式“一”和“所述”旨在还包括复数形式。还应理解,术语“包括(comprises和/或comprising)”在用于本说明书中时指定所陈述的特征、整体、步骤、操作、元件和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组的存在或添加。
对于在线应用,迁移离线预训练的CNN特征的一种简单方法是向预训练的CNN模型串行添加一个或多个随机初始化的CNN层,即适配CNN。接着,使预训练的CNN 的参数(即卷积核和偏置)保持不变,而仅在线训练适配CNN的参数以匹配当前任务,例如目标视频或目标图像。图1示出了用于使预训练的CNN 1100适配目标图像的此类常规方法1000。如从图1中可以看出,适配CNN 1200被串接到预训练的CNN 1100,并且用于将预训练的特征优化到用于监督的最终适配特征1300。然而,由于适配CNN 1200的参数在训练过程中被联合地学习,所以此迁移学习方法对于仅在第一帧中提供具有真值标记的训练样本的在线应用存在严重的过拟合。在线学习的参数主要集中在最近的训练样本,且不太可能很好地泛化到历史样本和未来样本。此现象对于在线视觉追踪可能是致命的,在在线视觉追踪中,目标常常发生显著的外观改变或明显的遮挡。
为了解决上述问题,如图2a到图2c所示,为了更好地迁移预训练的深度特征,提出适配CNN 2200。预训练的CNN 2100表示为CNN-E,RGB图像被作为输入且卷积特征图X被输出。表示为CNN-A的在线适配CNN 2200被随机初始化,且包括与作为非线性激活单元的ReLU层交错的两个卷积层。第一卷积层链接到预训练的CNN 2100,且用于将第一特征图转换为多个子特征图。第二卷积层链接到第一卷积层,且用于分别将子特征图中的每一个与适配卷积核中的一个卷积核进行卷积。在线适配CNN 2200将特征图X用作输入并生成由下式表示的最终特征图2300:
Figure GDA0001743894310000071
其中
Figure GDA0001743894310000075
表示由空间尺寸为m×n的第二卷积层生成的子特征图的第c通道。第二层中的子特征图通过将内核与第一层中的子特征图进行卷积而获得:
Figure GDA0001743894310000072
其中C1表示由第一卷积层输出的子特征图的通道的数目;
Figure GDA0001743894310000076
表示连接第一卷积层子特征图的第k通道与第二卷积层子特征图的第c通道的卷积核;bc为偏置,且符号“*”表示卷积操作。在所有通道上进行求和。
为了将随机性引入到参数学习过程中,输出的子特征图被视为一组基础学习器,由下式表示:
Figure GDA0001743894310000073
其中每一基础学习器被定义为:
Figure GDA0001743894310000074
且参数
Figure GDA0001743894310000077
指示CNN-A的第一卷积层和第二卷积层中的对应内核权重和偏置。
CNN-A网络的在线训练由此等效于在线训练每一基础学习器以及将针对每一基础学习器训练完备的参数依次采样为集成集(ensemble set)。因为所提出的在线训练方法在所输出的子特征图的每一通道中独立进行,因此在以下论述中,将仅论述一个输出通道作为实例来描述训练方法。为便于标注,省略了上标通道号,且用标注
Figure GDA0001743894310000078
来表示任一输出子特征图通道的基础学习器的参数。
图3示出如何初始化在线训练过程。在在线训练过程开始时,在步骤S301处根据目标视频的第一帧准备第一训练样本。从给定图像准备训练样本的策略(例如随机梯度下降(SGD))对于所属领域的技术人员是公知的,因此在下文中将不详细地论述。接着在步骤S302处将第一训练样本正向馈送经过预训练的CNN和适配CNN以生成第一输出图像。接着在步骤S303处,将第一输出图像与从第一帧推导出的第一真值进行比较,以获得分别用于多个适配卷积核的多个第一训练误差。反向传播第一训练误差经过预训练的CNN和适配CNN,以迭代方式训练适配卷积核,直到第一训练误差收敛,如在步骤S304处所示。
在一个实施例中,在初始化之后,分别为适配卷积核中的每一卷积核训练多个参数。选择具有最小训练误差的参数
Figure GDA0001743894310000082
且将其分组为集成集ε,且将经训练参数中的其余参数分组为候选集
Figure GDA0001743894310000083
。将在目标视频的后续帧中优化候选集中的参数。然而,在替代实施方案中,可将两个或更多个具有最小训练误差的参数选择为集成集。
在后续训练过程(即优化过程)中,以类似方式依次将候选集中的参数添加到集成集。因为优化过程类似于初始化过程,例如准备、馈送、比较和反向传播,因此在下文中将仅论述差异之处。
在优化过程中,使用集成集中的所有参数来形成集成(ensemble),其中输出
Figure GDA0001743894310000081
用于在线测试。在第t步骤处,获得具有目标输出Yt的新训练样本Xt。集成集ε中的参数被联合地优化,例如通过利用损失函数 Lε=L(Yt,F(Xt;ε))的SGD过程。同时,每一参数
Figure GDA0001743894310000084
被独立地优化,例如通过SGD 使用以下损失函数:
Figure GDA0001743894310000085
其中F(Xt;ε)是固定的,且参数η用来平衡集成对候选参数的影响,使得参数
Figure GDA0001743894310000086
的优化考虑到目标输出Yt和集成F(Xt;ε)的输出。如果训练误差Lε高于预定阈值且候选集C不为空,则例如根据以下采样概率密度来从候选集C采样优化参数
Figure GDA0001743894310000087
其中q(·)为单调递减函数。因此,从候选集C移除采样的参数且将其添加到集成集ε中。以上在线训练方法依次按每一时间步长进行。在所有参数被从候选集采样到集成集时,集成F(X;ε)演变为训练完备的CNN模型。在替代实施例中,并入在训练完备的 CNN模型中的参数仍然将在后续帧的周期期间利用另一训练过程联合地更新。因为所提出的适配CNN的参数是独立地训练,尤其是通过使用不同损失标准来训练,所以所提出的适配CNN表现出适度的多样性。
在一个实施例中,适配CNN可包含掩码层,且掩码层链接到第二卷积层以进一步降低子特征图之间的关联性。具体地说,从第二卷积层输出的子特征图的每一通道和与所述子特征图具有相同空间尺寸的各个二进制掩码相关联。所有掩码以随机方式初始化,且接着在整个在线训练过程中固定。然后根据下式进行在训练阶段卷积层的正向传播:
Figure GDA0001743894310000091
其中Xk指示子特征图的第k通道;Mc表示与输出特征图Fc的第c通道相关联的二进制掩码;且符号“⊙”表示哈达玛(Hadamard)乘积。因此,还通过考虑二进制掩码进行反向传播。以此方式训练后,学习的卷积核被迫经过二进制掩码而关注输入特征图的不同部分。
在另一方面中,提出一种用于对象在线追踪的方法。图4示意性地示出了用于对象在线追踪的一般流程图。在追踪过程开始时,如步骤S401处所示,用视频的第一帧中的目标边界框手动选择目标对象,且因此确定关注区域(ROI)。在一个实施例中,ROI 处于目标对象的中心。在另一实施方案中,作为一实例,ROI可能是目标边界框大小的两倍。在步骤S402处,将ROI正向馈送到预训练的CNN以提取用于初始化的初始特征图。初始特征图包括第一帧中的目标对象的位置和比例的信息。在步骤S403处,利用初始特征图对适配CNN和比例估计网络进行初始化,其中利用适配CNN来预测目标对象的位置,且利用比例估计网络来估计目标对象的比例。将在以下段落中进一步描述比例估计过程。如步骤S404和S405所示,利用经初始化的适配CNN和比例估计网络,预测和估计目标对象在下一帧(例如目标视频的第二帧)中的位置和比例。此外,位置预测和比例估计过程也是训练过程,其分别为适配CNN和比例估计网络提供了多个优化参数。利用经优化参数,在步骤S406中联合地更新适配CNN和比例估计网络。在更新过程之后,适配CNN和比例估计网络对于相关帧都具有更好的适配性。将基于经更新的适配CNN来预测和估计目标对象在目标视频的后续帧中的位置和比例(步骤S407 和S408)。预测和估计的结果反过来又进一步更新适配CNN和比例估计网络。
上述对象在线追踪过程可在图5中示出的系统中实施。包括预训练的CNN(即 CNN-E)的特征提取单元501用于确定ROI并提取任一帧的特征。被提取的特征被发送到包括适配CNN的位置预测单元502和包括比例估计网络的比例估计单元503。此外,被提取的特征还发送到初始化和更新单元504用于在目标视频的第一帧处初始化。在后续帧中,当前帧的被提取的特征图以及来自位置预测单元502和比例估计单元503的输出被发送到初始化和更新单元504以更新适配CNN和比例估计网络。
在前文已经论述了适配CNN的结构、初始化和优化,在下文中将不对其进一步详述。在对象在线追踪的情况下,适配CNN具体用来通过执行热图回归来将从预训练的 CNN提取的特征图转换为目标热图。接着通过热图上具有最大值的位置来确定目标对象的位置,且对应最大热图值用作此预测的置信度。在一个实施例中,仅当置信度高于预定阈值时才进行适配CNN和比例估计网络的更新,以避免使用不良的训练样本进行更新。
比例估计网络具有常规深度学习网络结构,例如CNN或全连接网络,因此在本文中将不详细地描述。在对象在线追踪的情况下,比例预测单元接收从预训练的网络提取的特征图,且应用一组预定比例转换以获得对应的经比例转换的特征图。经比例转换的特征图正向馈送经过比例估计网络,所述比例估计网络为每一比例转换分配一个分数。然后将具有最高分数的比例预测为目标的当前比例。利用由追踪系统产生的位置和比例,可以以更高的精度追踪目标对象。
在本申请的一个方面中,提出一种用于使预训练的CNN适配目标视频的CNN网络适配方法。所述方法包括:将第一特征图转换为多个子特征图,其中所述第一特征图由所述预训练的CNN根据所述目标视频的帧而生成;将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积,以输出具有改善的适配性的多个第二特征图;以及逐帧训练所述多个适配卷积核。
在本申请的一个实施例中,所述转换和所述卷积在适配CNN中实施,所述适配CNN包括:第一卷积层,链接到所述预训练的CNN且用于将所述第一特征图转换为所述多个子特征图;以及第二卷积层,链接到所述第一卷积层且用于将每个所述子特征图分别与所述多个适配卷积核中的一个适配卷积核进行卷积。
在本申请的一个实施例中,所述训练包括:将第一训练样本正向馈送经过所述预训练的CNN和所述适配CNN以生成第一输出图像,其中所述第一训练样本根据所述目标视频的第一帧而获得;将所生成的第一输出图像与从所述第一帧推导出的第一真值进行比较以获得分别用于所述多个适配卷积核的多个第一训练误差;将所述多个第一训练误差反复地反向传播经过所述预训练的CNN和所述适配CNN以训练所述多个适配卷积核,直到所述多个第一训练误差收敛,其中,获得分别用于经训练的多个适配卷积核的多个参数;将所获得的多个参数中具有最小第一训练误差的参数与所获得的多个参数中的其余参数分别分组到集成集和候选集中;以及根据所述目标视频的后续帧优化被分组到所述候选集中的参数。
在本申请的一个实施例中,所述优化包括:将第二训练样本正向馈送经过所述预训练的CNN和所述适配CNN以生成第二输出图像,其中所述第二训练样本根据所述目标视频的第二帧而获得,且所述第二帧在所述第一帧之后;将所述第二输出图像与从所述第二帧推导出的第二真值进行比较以获得用于所述多个适配卷积核的多个第二训练误差;以及如果任一第二训练误差高于阈值,则将所述第二训练误差反向传播经过所述预训练的CNN和所述适配CNN以进一步优化所述候选集中的参数并且将被进一步优化的参数中的至少一个参数传送到所述集成集中。
在本申请的一个实施例中,每个所述适配卷积核在不同损失准则下训练。
在本申请的一个实施例中,所述方法还包括通过掩码层进一步降低所述多个子特征图之间的关联性,其中所述掩码层链接到所述适配CNN的所述第二卷积层。
在本申请的一个实施例中,所述掩码层包括多个二进制掩码,每个二进制掩码与一个子特征图进行卷积且与被卷积的子特征图具有相同的空间尺寸。
在另一方面中,提出一种用于对象在线追踪的方法,包括:确定目标视频的第一帧中的关注区域(ROI);将所确定的ROI正向馈送经过预训练的CNN以提取其初始特征图;利用所述初始特征图初始化用于检测所述对象的位置的适配CNN和用于限定所述对象的比例的比例估计网络;利用经初始化的适配CNN预测所述对象在所述目标视频的第二帧中的第二位置,其中所述第二帧在所述第一帧之后;利用经初始化的比例估计网络估计所述对象在所述目标视频的所述第二帧中的第二比例;利用在所述预测和所述估计中获取的经优化的网络参数分别更新所述适配CNN和所述比例估计网络;利用经更新的适配CNN预测所述对象在所述目标视频的第三帧中的第三位置,其中所述第三帧在所述第二帧之后;以及利用经更新的比例估计网络估计所述对象在所述目标视频的所述第三帧中的第三比例。
在本申请的一个实施例中,所述适配CNN包括:第一卷积层,链接到所述预训练的CNN且用于将第一特征图转换为多个子特征图,其中所述第一特征图通过所述预训练的CNN根据所述目标视频的任一帧而生成;以及第二卷积层,链接到所述第一卷积层且用于将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积,以输出具有改善的适配性的多个第二特征图。
在本申请的一个实施例中,所述适配CNN通过以下操作来初始化:将第一训练样本正向馈送经过所述预训练的CNN和所述适配CNN以生成第一输出图像,其中所述第一训练样本根据所述目标视频的第一帧而获得;将所生成的第一输出图像与从所述第一帧推导出的第一真值进行比较以获得分别用于所述多个适配卷积核的多个第一训练误差;将所述多个第一训练误差反复地反向传播经过所述预训练的CNN和所述适配CNN 以训练所述多个适配卷积核,直到所述多个第一训练误差收敛,其中,获得分别用于经训练的多个适配卷积核的多个参数;将所获得的多个参数中具有最小第一训练误差的参数与所获得的多个参数中的其余参数分别分组到集成集和候选集中。
在本申请的一个实施例中,所述适配CNN通过以下操作来更新:将第二训练样本正向馈送经过所述预训练的CNN和所述适配CNN以生成第二输出图像,其中所述第二训练样本根据所述目标视频的第二帧而获得,且所述第二帧在所述第一帧之后;将所述第二输出图像与从所述第二帧推导出的第二真值进行比较以获得分别用于所述多个适配卷积核的多个第二训练误差;以及如果任一第二训练误差高于阈值,则将所述第二训练误差反向传播经过所述预训练的CNN和所述适配CNN以进一步优化所述候选集中的参数且将被进一步优化的参数中的至少一个参数传送到所述集成集中。
在本申请的一个实施例中,每个所述适配卷积核在不同损失准则下训练。
在本申请的一个实施例中,所述适配CNN还包括掩码层,所述掩码层链接到所述第二卷积层以进一步降低所述多个子特征图之间的关联性。
在本申请的一个实施例中,所述掩码层包括多个二进制掩码,每个二进制掩码与一个子特征图进行卷积且与被卷积的子特征图具有相同的空间尺寸。
在本申请的一个实施例中,所述对象的位置通过由所述适配CNN生成的热图来预测,其中,具有最大值的位置被预测为所述对象的位置,且所述最大值被采样为置信度。
在本申请的一个实施例中,仅当所述置信度高于预定阈值时才执行所述更新。
在本申请的一个实施例中,待追踪的对象处于所述ROI的中心。
在另一方面中,提出用于使预训练的CNN适配目标视频的系统,包括:存储器,存储可执行组件;以及处理器,电联接到所述存储器以执行所述可执行组件。所述可执行组件经运行以执行以下操作:将第一特征图转换为多个子特征图,其中所述第一特征图由所述预训练的CNN根据所述目标视频的帧而生成;将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积,以输出具有改善的适配性的多个第二特征图;逐帧训练所述多个适配卷积核。
在另一方面中,提出一种用于对象在线追踪的系统,包括:存储器,存储可执行组件;以及处理器,电联接到所述存储器以执行所述可执行组件。所述可执行组件经运行以执行以下操作:确定目标视频的第一帧中的关注区域(ROI);将所确定的ROI正向馈送经过预训练的CNN以提取其初始特征图;利用所述初始特征图初始化用于检测所述对象的位置的适配CNN和用于限定所述对象的比例的比例估计网络;利用经初始化的适配CNN预测所述对象在所述目标视频的第二帧中的第二位置,其中所述第二帧在所述第一帧之后;利用经初始化的比例估计网络估计所述对象在所述目标视频的所述第二帧中的第二比例;利用在所述预测和所述估计中获取的经优化的网络参数分别更新所述适配CNN和所述比例估计网络;利用经更新的适配CNN预测所述对象在所述目标视频的第三帧中的第三位置,其中所述第三帧在所述第二帧之后;以及利用经更新的比例估计网络估计所述对象在所述目标视频的所述第三帧中的第三比例。
在另一方面中,提出一种用于使预训练的CNN适配目标视频的设备,包括:用于将第一特征图转换为多个子特征图的装置,其中所述第一特征图由预训练的CNN根据目标视频的帧而生成;用于将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积,以输出具有改善的适配性的多个第二特征图的装置;以及用于逐帧训练所述多个适配卷积核的装置。
在另一方面中,提出一种用于对象在线追踪的设备。所述设备包括特征提取单元,所述特征提取单元用于确定目标视频的第一帧中的关注区域(ROI)以及将所确定的ROI 正向馈送经过预训练的CNN以提取其初始特征图。所述设备还包括:初始化和更新单元,利用所述初始特征图初始化用于检测所述对象的位置的适配CNN和用于限定所述对象的比例的比例估计网络;位置预测单元,利用经初始化的适配CNN预测所述对象在所述目标视频的第二帧中的第二位置,其中所述第二帧在所述第一帧之后;以及比例估计单元,利用经初始化的比例估计网络估计所述对象在所述目标视频的所述第二帧中的第二比例。此外,所述初始化和更新单元还用于利用在所述预测和所述估计中获取的经优化的网络参数分别更新所述适配CNN和所述比例估计网络;所述位置预测单元还用于利用经更新的适配CNN预测所述对象在所述目标视频的第三帧中的第三位置,其中所述第三帧在所述第二帧之后;且所述比例估计单元还用于利用经更新的比例估计网络估计所述对象在所述目标视频的所述第三帧中的第三比例。
在另一方面中,提出一种计算机可读存储介质,所述计算机可读存储介质存储有可由处理器运行以执行以下操作的计算机可读指令,所述操作包括:将第一特征图转换为多个子特征图,其中所述第一特征图由所述预训练的CNN根据所述目标视频的帧而生成;将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积,以输出具有改善的适配性的多个第二特征图;以及逐帧训练所述多个适配卷积核。
在另一方面中,提出一种计算机可读存储介质,所述计算机可读存储介质存储有可由处理器运行以执行以下操作的计算机可读指令,所述操作包括:确定目标视频的第一帧中的关注区域(ROI);将所确定的ROI正向馈送经过预训练的CNN以提取其初始特征图;利用所述初始特征图初始化用于检测所述对象的位置的适配CNN和用于限定所述对象的比例的比例估计网络;利用经初始化的适配CNN预测所述对象在所述目标视频的第二帧中的第二位置,其中所述第二帧在所述第一帧之后;利用经初始化的比例估计网络估计所述对象在所述目标视频的所述第二帧中的第二比例;利用在所述预测和所述估计中获取的经优化的网络参数分别更新所述适配CNN和所述比例估计网络;利用经更新的适配CNN预测所述对象在所述目标视频的第三帧中的第三位置,其中所述第三帧在所述第二帧之后;以及利用经更新的比例估计网络估计所述对象在所述目标视频的所述第三帧中的第三比例。
如所属领域的技术人员将了解的,本申请可实现为系统、方法或计算机程序产品。因此,本申请可采用完全由硬件实现的实施例的形式以及可采用在本文中可都大致称作“单元”、“电路”、“模块”或“系统”的硬件形式。在实施时,本发明的功能和本发明的原理中的一部分得到集成电路(IC)的良好支持,集成电路例如是数字信号处理器和软件、或专用IC。可以预期的是,本领域普通技术人员根据本文公开的概念和原理的教导能够通过最少的实验容易地生成IC,而不必考虑例如由时间、当前技术和经济考量等驱使的可能的繁重工作量和许多其它设计选项。因此,为了简化和最小化对根据本申请的原理概念进行混淆的任何风险,对此类软件和IC(如果存在的话)的进一步论述将被限制为对于由优选实施例使用的原理和概念而言必要的部分。另外,本发明可采用完全为软件的实施例(包括固件、驻留软件、微码等)或可采用组合了软件的实施例的形式。例如,系统可包括存储可执行组件的存储器以及处理器,所述处理器电联接到存储器以执行可执行组件来执行系统的如参考图1到5所论述的操作。另外,本发明可采用计算机程序产品的形式,该计算机程序产品可实施为任意有形的、在其中具有计算机可用程序代码的介质的形式。
虽然已经描述本申请的优选实例,但是所属领域的技术人员可在知晓基本发明概念后对这些实例作出变化或修改。所附权利要求书可被理解为包括落在本申请的范围内的优选实例及其所有变化或修改。
显然,所属领域的技术人员可在不脱离本申请的精神和范围的情况下对本申请作出变化或修改。因而,如果这些变化或修改属于权利要求书和等同技术的范围,那么其也可落在本申请的范围内。

Claims (53)

1.一种用于使预训练的卷积神经网络适配目标视频的方法,包括:
将第一特征图转换为多个子特征图,其中所述第一特征图由所述预训练的卷积神经网络根据所述目标视频的帧而生成;
将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积,以输出具有改善的适配性的多个第二特征图;以及
逐帧训练所述多个适配卷积核。
2.根据权利要求1所述的方法,其中所述转换和所述卷积在适配卷积神经网络中实施,所述适配卷积神经网络包括:
第一卷积层,链接到所述预训练的卷积神经网络且用于将所述第一特征图转换为所述多个子特征图;以及
第二卷积层,链接到所述第一卷积层且用于将每个所述子特征图分别与所述多个适配卷积核中的一个适配卷积核进行卷积。
3.根据权利要求2所述的方法,其中所述训练包括:
将第一训练样本正向馈送经过所述预训练的卷积神经网络和所述适配卷积神经网络以生成第一输出图像,其中所述第一训练样本根据所述目标视频的第一帧而获得;
将所生成的第一输出图像与从所述第一帧推导出的第一真值进行比较以获得分别用于所述多个适配卷积核的多个第一训练误差;
将所述多个第一训练误差反复地反向传播经过所述预训练的卷积神经网络和所述适配卷积神经网络以训练所述多个适配卷积核,直到所述多个第一训练误差收敛,其中,获得分别用于经训练的多个适配卷积核的多个参数;
将所获得的多个参数中具有最小第一训练误差的参数与所获得的多个参数中的其余参数分别分组到集成集和候选集中;以及
根据所述目标视频的后续帧优化被分组到所述候选集中的参数。
4.根据权利要求3所述的方法,其中所述优化包括:
将第二训练样本正向馈送经过所述预训练的卷积神经网络和所述适配卷积神经网络以生成第二输出图像,其中所述第二训练样本根据所述目标视频的第二帧而获得,且所述第二帧在所述第一帧之后;
将所述第二输出图像与从所述第二帧推导出的第二真值进行比较以获得用于所述多个适配卷积核的多个第二训练误差;以及
如果任一第二训练误差高于阈值,则执行以下操作:
将所述第二训练误差反向传播经过所述预训练的卷积神经网络和所述适配卷积神经网络以进一步优化所述候选集中的参数;以及
将被进一步优化的参数中的至少一个参数传送到所述集成集中。
5.根据权利要求1所述的方法,其中每个所述适配卷积核在不同损失准则下训练。
6.根据权利要求2所述的方法,其中所述方法还包括:
通过掩码层降低所述多个子特征图之间的关联性,其中所述掩码层链接到所述适配卷积神经网络的所述第二卷积层。
7.根据权利要求6所述的方法,其中所述掩码层包括多个二进制掩码,每个二进制掩码与一个子特征图进行卷积且与被卷积的子特征图具有相同的空间尺寸。
8.一种用于对象在线追踪的方法,包括:
确定目标视频的第一帧中的关注区域;
将所确定的关注区域正向馈送经过预训练的卷积神经网络以提取其初始特征图;
利用所述初始特征图初始化用于检测所述对象的位置的适配卷积神经网络和用于限定所述对象的比例的比例估计网络;
利用经初始化的适配卷积神经网络预测所述对象在所述目标视频的第二帧中的第二位置,其中所述第二帧在所述第一帧之后;
利用经初始化的比例估计网络估计所述对象在所述目标视频的所述第二帧中的第二比例;
利用在所述预测和所述估计中获取的经优化的网络参数分别更新所述适配卷积神经网络和所述比例估计网络;
利用经更新的适配卷积神经网络预测所述对象在所述目标视频的第三帧中的第三位置,其中所述第三帧在所述第二帧之后;以及
利用经更新的比例估计网络估计所述对象在所述目标视频的所述第三帧中的第三比例。
9.根据权利要求8所述的方法,其中所述适配卷积神经网络包括:
第一卷积层,链接到所述预训练的卷积神经网络且用于将第一特征图转换为多个子特征图,其中所述第一特征图通过所述预训练的卷积神经网络根据所述目标视频的任一帧而生成;以及
第二卷积层,链接到所述第一卷积层且用于将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积,以输出具有改善的适配性的多个第二特征图。
10.根据权利要求9所述的方法,其中所述适配卷积神经网络通过以下操作来初始化:
将第一训练样本正向馈送经过所述预训练的卷积神经网络和所述适配卷积神经网络以生成第一输出图像,其中所述第一训练样本根据所述目标视频的第一帧而获得;
将所生成的第一输出图像与从所述第一帧推导出的第一真值进行比较以获得分别用于所述多个适配卷积核的多个第一训练误差;
将所述多个第一训练误差反复地反向传播经过所述预训练的卷积神经网络和所述适配卷积神经网络以训练所述多个适配卷积核,直到所述多个第一训练误差收敛,其中,获得分别用于经训练的多个适配卷积核的多个参数;
将所获得的多个参数中具有最小第一训练误差的参数与所获得的多个参数中的其余参数分别分组到集成集和候选集中。
11.根据权利要求10所述的方法,其中所述适配卷积神经网络通过以下操作来更新:
将第二训练样本正向馈送经过所述预训练的卷积神经网络和所述适配卷积神经网络以生成第二输出图像,其中所述第二训练样本根据所述目标视频的第二帧而获得,且所述第二帧在所述第一帧之后;
将所述第二输出图像与从所述第二帧推导出的第二真值进行比较以获得分别用于所述多个适配卷积核的多个第二训练误差;以及
如果任一第二训练误差高于阈值,则执行以下操作:
将所述第二训练误差反向传播经过所述预训练的卷积神经网络和所述适配卷积神经网络以进一步优化所述候选集中的参数;以及
将被进一步优化的参数中的至少一个参数传送到所述集成集中。
12.根据权利要求9所述的方法,其中每个所述适配卷积核在不同损失准则下训练。
13.根据权利要求9所述的方法,其中所述适配卷积神经网络还包括掩码层,所述掩码层链接到所述第二卷积层以进一步降低所述多个子特征图之间的关联性。
14.根据权利要求13所述的方法,其中所述掩码层包括多个二进制掩码,每个二进制掩码与一个子特征图进行卷积且与被卷积的子特征图具有相同的空间尺寸。
15.根据权利要求9所述的方法,其中所述对象的位置通过由所述适配卷积神经网络生成的热图来预测,其中,具有最大值的位置被预测为所述对象的位置,且所述最大值被采样为置信度。
16.根据权利要求15所述的方法,其中仅当所述置信度高于预定阈值时才执行所述更新。
17.根据权利要求8所述的方法,其中待追踪的对象处于所述关注区域的中心。
18.一种用于使预训练的卷积神经网络适配目标视频的系统,包括:
存储器,存储可执行组件;以及
处理器,电联接到所述存储器以运行所述可执行组件,从而执行以下操作:
将第一特征图转换为多个子特征图,其中所述第一特征图由所述预训练的卷积神经网络根据所述目标视频的帧而生成;
将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积,以输出具有改善的适配性的多个第二特征图;以及
逐帧训练所述多个适配卷积核。
19.根据权利要求18所述的系统,其中所述可执行组件包括适配卷积神经网络,所述适配卷积神经网络包括:
第一卷积层,链接到所述预训练的卷积神经网络且用于将所述第一特征图转换为所述多个子特征图;以及
第二卷积层,链接到所述第一卷积层且用于将每个所述子特征图分别与所述多个适配卷积核中的一个适配卷积核进行卷积。
20.根据权利要求19所述的系统,其中所述训练包括:
将第一训练样本正向馈送经过所述预训练的卷积神经网络和所述适配卷积神经网络以生成第一输出图像,其中所述第一训练样本根据所述目标视频的第一帧而获得;
将所生成的第一输出图像与从所述第一帧推导出的第一真值进行比较以获得分别用于所述多个适配卷积核的多个第一训练误差;
将所述多个第一训练误差反复地反向传播经过所述预训练的卷积神经网络和所述适配卷积神经网络以训练所述多个适配卷积核,直到所述多个第一训练误差收敛,其中,获得分别用于经训练的多个适配卷积核的多个参数;
将所获得的多个参数中具有最小第一训练误差的参数与所获得的多个参数中的其余参数分别分组到集成集和候选集中;以及
根据所述目标视频的后续帧优化被分组到所述候选集中的参数。
21.根据权利要求20所述的系统,其中所述优化包括:
将第二训练样本正向馈送经过所述预训练的卷积神经网络和所述适配卷积神经网络以生成第二输出图像,其中所述第二训练样本根据所述目标视频的第二帧而获得,且所述第二帧在所述第一帧之后;
将所述第二输出图像与从所述第二帧推导出的第二真值进行比较以获得用于所述多个适配卷积核的多个第二训练误差;以及
如果任一第二训练误差高于阈值,则执行以下操作:
将所述第二训练误差反向传播经过所述预训练的卷积神经网络和所述适配卷积神经网络以进一步优化所述候选集中的参数;以及
将被进一步优化的参数中的至少一个参数传送到所述集成集中。
22.根据权利要求18所述的系统,其中每个所述适配卷积核在不同损失准则下训练。
23.根据权利要求19所述的系统,其中所述适配卷积神经网络还包括掩码层,所述掩码层链接到所述第二卷积层以进一步降低所述多个子特征图之间的关联性。
24.根据权利要求23所述的系统,其中所述掩码层包括多个二进制掩码,每个二进制掩码与一个子特征图进行卷积且与被卷积的子特征图具有相同的空间尺寸。
25.一种用于对象在线追踪的系统,包括:
存储器,存储可执行组件;以及
处理器,电联接到所述存储器以运行所述可执行组件,从而执行以下操作:
确定目标视频的第一帧中的关注区域;
将所确定的关注区域正向馈送经过预训练的卷积神经网络以提取其初始特征图;
利用所述初始特征图初始化用于检测所述对象的位置的适配卷积神经网络和用于限定所述对象的比例的比例估计网络;
利用经初始化的适配卷积神经网络预测所述对象在所述目标视频的第二帧中的第二位置,其中所述第二帧在所述第一帧之后;
利用经初始化的比例估计网络估计所述对象在所述目标视频的所述第二帧中的第二比例;
利用在所述预测和所述估计中获取的经优化的网络参数分别更新所述适配卷积神经网络和所述比例估计网络;
利用经更新的适配卷积神经网络预测所述对象在所述目标视频的第三帧中的第三位置,其中所述第三帧在所述第二帧之后;以及
利用经更新的比例估计网络估计所述对象在所述目标视频的所述第三帧中的第三比例。
26.根据权利要求25所述的系统,其中所述适配卷积神经网络包括:
第一卷积层,链接到所述预训练的卷积神经网络且用于将第一特征图转换为多个子特征图,其中所述第一特征图通过所述预训练的卷积神经网络根据所述目标视频的任一帧而生成;以及
第二卷积层,链接到所述第一卷积层且用于将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积,以输出具有改善的适配性的多个第二特征图。
27.根据权利要求26所述的系统,其中所述适配卷积神经网络通过以下操作来初始化:
将第一训练样本正向馈送经过所述预训练的卷积神经网络和所述适配卷积神经网络以生成第一输出图像,其中所述第一训练样本根据所述目标视频的第一帧而获得;
将所述第一输出图像与从所述第一帧导出的第一真值进行比较以获得分别用于所述多个适配卷积核的多个第一训练误差;
将所述多个第一训练误差反复地反向传播经过所述预训练的卷积神经网络和所述适配卷积神经网络以训练所述多个适配卷积核,直到所述多个第一训练误差收敛,其中,获得分别用于经训练的多个适配卷积核的多个参数;
将所获得的多个参数中具有最小第一训练误差的参数与所获得的多个参数中的其余参数分别分组到集成集和候选集中。
28.根据权利要求27所述的系统,其中所述适配卷积神经网络通过以下操作来更新:
将第二训练样本正向馈送经过所述预训练的卷积神经网络和所述适配卷积神经网络以生成第二输出图像,其中所述第二训练样本根据所述目标视频的第二帧而获得,且所述第二帧在所述第一帧之后;
将所述第二输出图像与从所述第二帧推导出的第二真值进行比较以获得分别用于所述多个适配卷积核的多个第二训练误差;以及
如果任一第二训练误差高于阈值,则执行以下操作:
将所述第二训练误差反向传播经过所述预训练的卷积神经网络和所述适配卷积神经网络以进一步优化所述候选集中的参数;以及
将被进一步优化的参数中的至少一个参数传送到所述集成集中。
29.根据权利要求26所述的系统,其中每个所述适配卷积核在不同损失准则下训练。
30.根据权利要求26所述的系统,其中所述适配卷积神经网络还包括掩码层,所述掩码层链接到所述第二卷积层以进一步降低所述多个子特征图之间的关联性。
31.根据权利要求30所述的系统,其中所述掩码层包括多个二进制掩码,每个二进制掩码与一个子特征图进行卷积且与被卷积的子特征图具有相同的空间尺寸。
32.根据权利要求26所述的系统,其中所述对象的位置通过由所述适配卷积神经网络生成的热图来预测,其中,具有最大值的位置被预测为所述对象的位置,且所述最大值被采样为置信度。
33.根据权利要求32所述的系统,其中仅当所述置信度高于预定阈值时才执行所述更新。
34.根据权利要求25所述的系统,其中待追踪的对象处于所述关注区域的中心。
35.一种用于使预训练的卷积神经网络适配目标视频的设备,包括:
用于将第一特征图转换为多个子特征图的装置,其中所述第一特征图由预训练的卷积神经网络根据目标视频的帧而生成;
用于将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积,以输出具有改善的适配性的多个第二特征图的装置;以及
用于逐帧训练所述多个适配卷积核的装置。
36.根据权利要求35所述的设备,其中所述用于转换的装置和所述用于卷积的装置是以适配卷积神经网络的形式组织的,所述适配卷积神经网络包括:
第一卷积层,链接到所述预训练的卷积神经网络且用于将所述第一特征图转换为所述多个子特征图;以及
第二卷积层,链接到所述第一卷积层且用于将每个所述子特征图分别与所述多个适配卷积核中的一个适配卷积核进行卷积。
37.根据权利要求36所述的设备,其中所述训练包括:
将第一训练样本正向馈送经过所述预训练的卷积神经网络和所述适配卷积神经网络以生成第一输出图像,其中所述第一训练样本根据所述目标视频的第一帧而获得;
将所生成的第一输出图像与从所述第一帧推导出的第一真值进行比较以获得分别用于所述多个适配卷积核的多个第一训练误差;
将所述多个第一训练误差反复地反向传播经过所述预训练的卷积神经网络和所述适配卷积神经网络以训练所述多个适配卷积核,直到所述多个第一训练误差收敛,其中,获得分别用于经训练的多个适配卷积核的多个参数;
将所获得的多个参数中具有最小第一训练误差的参数与所获得的多个参数中的其余参数分别分组到集成集和候选集中;以及
根据所述目标视频的后续帧优化被分组到所述候选集中的参数。
38.根据权利要求37所述的设备,其中所述优化包括:
将第二训练样本正向馈送经过所述预训练的卷积神经网络和所述适配卷积神经网络以生成第二输出图像,其中所述第二训练样本根据所述目标视频的第二帧而获得,且所述第二帧在所述第一帧之后;
将所述第二输出图像与从所述第二帧推导出的第二真值进行比较以获得用于所述多个适配卷积核的多个第二训练误差;以及
如果任一第二训练误差高于阈值,则执行以下操作:
将所述第二训练误差反向传播经过所述预训练的卷积神经网络和所述适配卷积神经网络以进一步优化所述候选集中的参数;以及
将被进一步优化的参数中的至少一个参数传送到所述集成集中。
39.根据权利要求35所述的设备,其中每个所述适配卷积核在不同损失准则下训练。
40.根据权利要求36所述的设备,其中所述适配卷积神经网络还包括掩码层,所述掩码层链接到所述第二卷积层以进一步降低所述多个子特征图之间的关联性。
41.根据权利要求40所述的设备,其中所述掩码层包括多个二进制掩码,每个二进制掩码与一个子特征图进行卷积且与被卷积的子特征图具有相同的空间尺寸。
42.一种用于对象在线追踪的设备,包括:
特征提取单元,用于确定目标视频的第一帧中的关注区域以及将所确定的关注区域正向馈送经过预训练的卷积神经网络以提取其初始特征图;
初始化和更新单元,用于利用所述初始特征图初始化用于检测所述对象的位置的适配卷积神经网络和用于限定所述对象的比例的比例估计网络;
位置预测单元,利用经初始化的适配卷积神经网络预测所述对象在所述目标视频的第二帧中的第二位置,其中所述第二帧在所述第一帧之后;以及
比例估计单元,利用经初始化的比例估计网络估计所述对象在所述目标视频的所述第二帧中的第二比例;
其中,所述初始化和更新单元还用于利用在所述预测和所述估计中获取的经优化的网络参数分别更新所述适配卷积神经网络和所述比例估计网络;
所述位置预测单元还用于利用经更新的适配卷积神经网络预测所述对象在所述目标视频的第三帧中的第三位置,其中所述第三帧在所述第二帧之后;以及
所述比例估计单元还用于利用经更新的比例估计网络估计所述对象在所述目标视频的所述第三帧中的第三比例。
43.根据权利要求42所述的设备,其中所述适配卷积神经网络包括:
第一卷积层,链接到所述预训练的卷积神经网络且用于将第一特征图转换为多个子特征图,其中所述第一特征图通过所述预训练的卷积神经网络根据所述目标视频的任一帧而生成;以及
第二卷积层,链接到所述第一卷积层且用于将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积,以输出具有改善的适配性的多个第二特征图。
44.根据权利要求43所述的设备,其中所述适配卷积神经网络通过以下操作来初始化:
将第一训练样本正向馈送经过所述预训练的卷积神经网络和所述适配卷积神经网络以生成第一输出图像,其中所述第一训练样本根据所述目标视频的第一帧而获得;
将所生成的第一输出图像与从所述第一帧推导出的第一真值进行比较以获得分别用于所述多个适配卷积核的多个第一训练误差;
将所述多个第一训练误差反复地反向传播经过所述预训练的卷积神经网络和所述适配卷积神经网络以训练所述多个适配卷积核,直到所述多个第一训练误差收敛,其中,获得分别用于经训练的多个适配卷积核的多个参数;
将所获得的多个参数中具有最小第一训练误差的参数与所获得的多个参数中的其余参数分别分组到集成集和候选集中。
45.根据权利要求44所述的设备,其中所述适配卷积神经网络通过以下操作来更新:
将第二训练样本正向馈送经过所述预训练的卷积神经网络和所述适配卷积神经网络以生成第二输出图像,其中所述第二训练样本根据所述目标视频的第二帧而获得,且所述第二帧在所述第一帧之后;
将所述第二输出图像与从所述第二帧推导出的第二真值进行比较以获得分别用于所述多个适配卷积核的多个第二训练误差;以及
如果任一第二训练误差高于阈值,则执行以下操作:
将所述第二训练误差反向传播经过所述预训练的卷积神经网络和所述适配卷积神经网络以进一步优化所述候选集中的参数;以及
将被进一步优化的参数中的至少一个参数传送到所述集成集中。
46.根据权利要求42所述的设备,其中每个所述适配卷积核在不同损失准则下训练。
47.根据权利要求43所述的设备,其中所述适配卷积神经网络还包括掩码层,所述掩码层链接到所述第二卷积层以进一步降低所述多个子特征图之间的关联性。
48.根据权利要求47所述的设备,其中所述掩码层包括多个二进制掩码,每个二进制掩码与一个子特征图进行卷积且与被卷积的子特征图具有相同的空间尺寸。
49.根据权利要求43所述的设备,其中所述对象的位置通过由所述适配卷积神经网络生成的热图来预测,其中,具有最大值的位置被预测为所述对象的位置,且所述最大值被采样为置信度。
50.根据权利要求49所述的设备,其中仅当所述置信度高于预定阈值时才执行所述更新。
51.根据权利要求42所述的设备,其中待追踪的对象处于所述关注区域的中心。
52.一种计算机可读存储介质,所述计算机可读存储介质存储有可由处理器运行以执行以下操作的计算机可读指令,所述操作包括:
将第一特征图转换为多个子特征图,其中所述第一特征图由预训练的卷积神经网络根据目标视频的帧而生成;
将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积,以输出具有改善的适配性的多个第二特征图;以及
逐帧训练所述多个适配卷积核。
53.一种计算机可读存储介质,所述计算机可读存储介质存储有可由处理器运行以执行以下操作的计算机可读指令,所述操作包括:
确定目标视频的第一帧中的关注区域;
将所确定的关注区域正向馈送经过预训练的卷积神经网络以提取其初始特征图;
利用所述初始特征图初始化用于检测对象的位置的适配卷积神经网络和用于限定所述对象的比例的比例估计网络;
利用经初始化的适配卷积神经网络预测所述对象在所述目标视频的第二帧中的第二位置,其中所述第二帧在所述第一帧之后;
利用经初始化的比例估计网络估计所述对象在所述目标视频的所述第二帧中的第二比例;
利用在所述预测和所述估计中获取的经优化的网络参数分别更新所述适配卷积神经网络和所述比例估计网络;
利用经更新的适配卷积神经网络预测所述对象在所述目标视频的第三帧中的第三位置,其中所述第三帧在所述第二帧之后;以及
利用经更新的比例估计网络估计所述对象在所述目标视频的所述第三帧中的第三比例。
CN201680080165.1A 2016-02-02 2016-02-02 用于cnn网络适配和对象在线追踪的方法和系统 Active CN108701210B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/073184 WO2017132830A1 (en) 2016-02-02 2016-02-02 Methods and systems for cnn network adaption and object online tracking

Publications (2)

Publication Number Publication Date
CN108701210A CN108701210A (zh) 2018-10-23
CN108701210B true CN108701210B (zh) 2021-08-17

Family

ID=59499227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680080165.1A Active CN108701210B (zh) 2016-02-02 2016-02-02 用于cnn网络适配和对象在线追踪的方法和系统

Country Status (3)

Country Link
US (1) US11521095B2 (zh)
CN (1) CN108701210B (zh)
WO (1) WO2017132830A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12022805B2 (en) 2023-02-21 2024-07-02 Plainsight Technologies Inc. System and method of counting livestock

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769453B2 (en) * 2017-05-16 2020-09-08 Samsung Electronics Co., Ltd. Electronic device and method of controlling operation of vehicle
EP3311364B1 (en) 2015-09-30 2018-12-26 FotoNation Limited A method and system for tracking an object
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
KR20180027887A (ko) * 2016-09-07 2018-03-15 삼성전자주식회사 뉴럴 네트워크에 기초한 인식 장치 및 뉴럴 네트워크의 트레이닝 방법
US10699184B2 (en) * 2016-12-29 2020-06-30 Facebook, Inc. Updating predictions for a deep-learning model
US10147019B2 (en) * 2017-03-20 2018-12-04 Sap Se Small object detection
US11164071B2 (en) * 2017-04-18 2021-11-02 Samsung Electronics Co., Ltd. Method and apparatus for reducing computational complexity of convolutional neural networks
WO2018212538A1 (en) * 2017-05-16 2018-11-22 Samsung Electronics Co., Ltd. Electronic device and method of detecting driving event of vehicle
US10783393B2 (en) 2017-06-20 2020-09-22 Nvidia Corporation Semi-supervised learning for landmark localization
CN109754412B (zh) * 2017-11-07 2021-10-01 北京京东乾石科技有限公司 目标跟踪方法、目标跟踪装置及计算机可读存储介质
US10977755B2 (en) * 2017-11-21 2021-04-13 International Business Machines Corporation Cognitive screening for prohibited items across multiple checkpoints by using context aware spatio-temporal analysis
US10740659B2 (en) * 2017-12-14 2020-08-11 International Business Machines Corporation Fusing sparse kernels to approximate a full kernel of a convolutional neural network
CN108288282B (zh) * 2017-12-26 2022-04-08 浙江工业大学 一种基于卷积神经网络的自适应特征选择目标跟踪方法
US11119915B2 (en) * 2018-02-08 2021-09-14 Samsung Electronics Co., Ltd. Dynamic memory mapping for neural networks
US10762662B2 (en) * 2018-03-14 2020-09-01 Tata Consultancy Services Limited Context based position estimation of target of interest in videos
US11019355B2 (en) * 2018-04-03 2021-05-25 Electronics And Telecommunications Research Institute Inter-prediction method and apparatus using reference frame generated based on deep learning
US10565475B2 (en) * 2018-04-24 2020-02-18 Accenture Global Solutions Limited Generating a machine learning model for objects based on augmenting the objects with physical properties
CN111819580A (zh) * 2018-05-29 2020-10-23 谷歌有限责任公司 用于密集图像预测任务的神经架构搜索
US10769485B2 (en) * 2018-06-19 2020-09-08 Himax Technologies Limited Framebuffer-less system and method of convolutional neural network
CN108898086B (zh) * 2018-06-20 2023-05-26 腾讯科技(深圳)有限公司 视频图像处理方法及装置、计算机可读介质和电子设备
KR20200003444A (ko) * 2018-07-02 2020-01-10 삼성전자주식회사 영상 모델 구축 장치 및 방법
US11055854B2 (en) * 2018-08-23 2021-07-06 Seoul National University R&Db Foundation Method and system for real-time target tracking based on deep learning
WO2020078252A1 (en) * 2018-10-16 2020-04-23 The Chinese University Of Hong Kong Method, apparatus and system for automatic diagnosis
KR20200066952A (ko) 2018-12-03 2020-06-11 삼성전자주식회사 확장 컨벌루션 연산을 수행하는 장치 및 방법
CN109816689B (zh) * 2018-12-18 2022-07-19 昆明理工大学 一种多层卷积特征自适应融合的运动目标跟踪方法
KR20200084395A (ko) * 2018-12-20 2020-07-13 삼성전자주식회사 영상에서 오브젝트를 인식하는 전자 장치 및 그 동작 방법
US10346693B1 (en) * 2019-01-22 2019-07-09 StradVision, Inc. Method and device for attention-based lane detection without post-processing by using lane mask and testing method and testing device using the same
CN109961034B (zh) * 2019-03-18 2022-12-06 西安电子科技大学 基于卷积门控循环神经单元的视频目标检测方法
CN109993775B (zh) * 2019-04-01 2023-03-21 云南大学 基于特征补偿的单目标跟踪方法
CN110110599B (zh) * 2019-04-03 2023-05-09 天津大学 一种基于多尺度特征融合的遥感图像目标检测方法
CN110163188B (zh) * 2019-06-10 2023-08-08 腾讯科技(深圳)有限公司 视频处理以及在视频中嵌入目标对象的方法、装置和设备
US20210150345A1 (en) * 2019-11-14 2021-05-20 Qualcomm Incorporated Conditional Computation For Continual Learning
CN111294512A (zh) * 2020-02-10 2020-06-16 深圳市铂岩科技有限公司 图像处理方法、装置、存储介质及摄像装置
US11551445B2 (en) 2020-08-14 2023-01-10 Sony Corporation Heatmap visualization of object detections
CN112053386B (zh) * 2020-08-31 2023-04-18 西安电子科技大学 基于深度卷积特征自适应集成的目标跟踪方法
CN112084952B (zh) * 2020-09-10 2023-08-15 湖南大学 一种基于自监督训练的视频点位跟踪方法
CN112085779B (zh) * 2020-09-21 2024-03-22 上海海事大学 一种波浪参数估算方法及装置
US20220092407A1 (en) * 2020-09-23 2022-03-24 International Business Machines Corporation Transfer learning with machine learning systems
CN112966811B (zh) * 2021-02-04 2023-04-14 北京邮电大学 在mtl卷积神经网络中任务冲突的解决方法及网络
US11568543B2 (en) 2021-03-10 2023-01-31 Western Digital Technologies, Inc. Attention masks in neural network video processing
CN113674844A (zh) * 2021-08-19 2021-11-19 浙江远图互联科技股份有限公司 基于多头cnn网络的医院门诊人流量预测及分诊系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101253493A (zh) * 2005-08-31 2008-08-27 微软公司 在图形处理单元上训练卷积神经网络
CN102054170A (zh) * 2011-01-19 2011-05-11 中国科学院自动化研究所 基于极小化上界误差的视觉跟踪方法
CN104200224A (zh) * 2014-08-28 2014-12-10 西北工业大学 基于深度卷积神经网络的无价值图像去除方法
CN104574445A (zh) * 2015-01-23 2015-04-29 北京航空航天大学 一种目标跟踪方法及装置
CN104969240A (zh) * 2013-02-27 2015-10-07 索尼公司 用于图像处理的方法和系统
CN105160310A (zh) * 2015-08-25 2015-12-16 西安电子科技大学 基于3d卷积神经网络的人体行为识别方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8582807B2 (en) * 2010-03-15 2013-11-12 Nec Laboratories America, Inc. Systems and methods for determining personal characteristics
US9400925B2 (en) * 2013-11-15 2016-07-26 Facebook, Inc. Pose-aligned networks for deep attribute modeling
US9430829B2 (en) * 2014-01-30 2016-08-30 Case Western Reserve University Automatic detection of mitosis using handcrafted and convolutional neural network features
WO2017015390A1 (en) * 2015-07-20 2017-01-26 University Of Maryland, College Park Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition
US10019631B2 (en) * 2015-11-05 2018-07-10 Qualcomm Incorporated Adapting to appearance variations when tracking a target object in video sequence
US10181195B2 (en) * 2015-12-28 2019-01-15 Facebook, Inc. Systems and methods for determining optical flow
US10049279B2 (en) * 2016-03-11 2018-08-14 Qualcomm Incorporated Recurrent networks with motion-based attention for video understanding
US9836853B1 (en) * 2016-09-06 2017-12-05 Gopro, Inc. Three-dimensional convolutional neural networks for video highlight detection
CN108229455B (zh) * 2017-02-23 2020-10-16 北京市商汤科技开发有限公司 物体检测方法、神经网络的训练方法、装置和电子设备
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
US10402978B1 (en) * 2019-01-25 2019-09-03 StradVision, Inc. Method for detecting pseudo-3D bounding box based on CNN capable of converting modes according to poses of objects using instance segmentation and device using the same
CN111967305B (zh) * 2020-07-01 2022-03-18 华南理工大学 一种基于轻量级卷积神经网络的实时多尺度目标检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101253493A (zh) * 2005-08-31 2008-08-27 微软公司 在图形处理单元上训练卷积神经网络
CN102054170A (zh) * 2011-01-19 2011-05-11 中国科学院自动化研究所 基于极小化上界误差的视觉跟踪方法
CN104969240A (zh) * 2013-02-27 2015-10-07 索尼公司 用于图像处理的方法和系统
CN104200224A (zh) * 2014-08-28 2014-12-10 西北工业大学 基于深度卷积神经网络的无价值图像去除方法
CN104574445A (zh) * 2015-01-23 2015-04-29 北京航空航天大学 一种目标跟踪方法及装置
CN105160310A (zh) * 2015-08-25 2015-12-16 西安电子科技大学 基于3d卷积神经网络的人体行为识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12022805B2 (en) 2023-02-21 2024-07-02 Plainsight Technologies Inc. System and method of counting livestock

Also Published As

Publication number Publication date
CN108701210A (zh) 2018-10-23
US20180341872A1 (en) 2018-11-29
WO2017132830A1 (en) 2017-08-10
US11521095B2 (en) 2022-12-06

Similar Documents

Publication Publication Date Title
CN108701210B (zh) 用于cnn网络适配和对象在线追踪的方法和系统
US10991074B2 (en) Transforming source domain images into target domain images
US11748619B2 (en) Image feature learning device, image feature learning method, image feature extraction device, image feature extraction method, and program
US11776236B2 (en) Unsupervised representation learning with contrastive prototypes
CN108229290B (zh) 视频物体分割方法和装置、电子设备、存储介质
US10984272B1 (en) Defense against adversarial attacks on neural networks
WO2016197381A1 (en) Methods and apparatus for recognizing text in an image
TWI832679B (zh) 用於知識保存類神經網絡剪除之電腦系統及電腦實施方法,以及其非暫時性電腦可讀儲存媒體
EP3493106B1 (en) Optimizations for dynamic object instance detection, segmentation, and structure mapping
Kim et al. CDT: Cooperative detection and tracking for tracing multiple objects in video sequences
CN111259812B (zh) 基于迁移学习的内河船舶重识别方法、设备及存储介质
CN116670687A (zh) 用于调整训练后的物体检测模型以适应域偏移的方法和系统
CN112927209A (zh) 一种基于cnn的显著性检测系统和方法
US20220277430A1 (en) Spatially adaptive image filtering
US20210365719A1 (en) System and method for few-shot learning
CN108810319B (zh) 图像处理装置和图像处理方法
CN115641584B (zh) 一种雾天图像识别方法及装置
CN112396123A (zh) 基于卷积神经网络的图像识别方法、系统、终端和介质
CN111325210B (zh) 用于输出信息的方法和装置
US11651501B2 (en) Synergistic object tracking and pattern recognition for event representation
CN117197249B (zh) 目标位置确定方法、装置、电子设备及存储介质
US20220414476A1 (en) Modular adaptation for cross-domain few-shot learning
US20240037922A1 (en) Adapting generative neural networks using a cross domain translation network
WO2021142741A1 (zh) 目标跟踪方法、装置及终端设备
EP4392900A1 (en) Self-attention based neural networks for processing network inputs from multiple modalities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant