CN110494890A - 卷积神经网络从可见颜色(rbg)到红外(ir)域的迁移学习 - Google Patents
卷积神经网络从可见颜色(rbg)到红外(ir)域的迁移学习 Download PDFInfo
- Publication number
- CN110494890A CN110494890A CN201880023966.3A CN201880023966A CN110494890A CN 110494890 A CN110494890 A CN 110494890A CN 201880023966 A CN201880023966 A CN 201880023966A CN 110494890 A CN110494890 A CN 110494890A
- Authority
- CN
- China
- Prior art keywords
- cnn
- kernel
- convolutional layer
- training
- converting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/40—Picture signal circuits
- H04N1/40012—Conversion of colour to monochrome
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
描述了用于将针对彩色(RGB)图像设计和训练的卷积神经网络(CNN)转换成关于红外(IR)图像或灰阶图像工作的CNN。转换后的CNN包括一系列神经元卷积层,这些神经元卷积层被布置在具有对应深度切片的一组内核中。使用转换后的CNN来执行对象检测。基于对象检测来控制自主装置的机械组件。
Description
政府许可权利
本发明是在美国政府合同号N00014-15-C-0091的政府支持下作出的。政府可以拥有本发明的某些权利。
相关申请的交叉引用
本发明是2017年5月24日在美国提交的题为“Transfer Learning ofConvolutional Neural Networks from Visible Color(RBG)to Infrared(IR)Domain”的美国临时申请No.62/510,741的非临时专利申请,其全部内容通过引用并入本文中。
发明背景
(1)技术领域
本发明涉及用于迁移学习的系统,并且更具体地,涉及将针对彩色图像设计和训练的卷积神经网络(CNN)转换成对红外(IR)图像或灰阶图像起作用的CNN的用于迁移学习的系统。
(2)相关技术的描述
卷积神经网络(CNN)(深度)学习是多个计算机视觉任务的当前水平,计算机视觉任务包括对象检测、对象识别、场景分类和图像标注(captioning)。在公共和学术领域中的绝大多数CNN工作都是关于可见光谱中的彩色图像的。这包括CNN训练所需的可用大图像数据集以及经训练网络的所得到权重文件。这些数据集和经训练网络几乎不能用于处理红外(IR)图像。
从头开始训练IR CNN是可能的,但是由于缺少大IR图像数据集而受到限制。收集图像、标记类和策划数据集需要大量努力,在IR中甚至比RGB(红、绿、蓝)需要更多努力。
因此,持续需要用于将RGB CNN直接转换到IR域的方法。
发明内容
本发明涉及用于迁移学习的系统,并且更具体地,涉及将针对彩色图像设计和训练的卷积神经网络(CNN)转换成对红外(IR)或灰阶图像起作用的CNN的用于迁移学习的系统。该系统包括一个或更多个处理器以及非暂时性计算机可读介质,该非暂时性计算机可读介质具有在其上编码的可执行指令,使得当执行该指令时,该一个或更多个处理器执行多个操作。将针对彩色RGB输入的预训练CNN转换成可以应用至红外(IR)输入图像和灰度输入图像的CNN,得到转换后的CNN。该转换后的CNN包括一系列神经元卷积层,其中,各个卷积层处的神经元被布置在具有对应深度切片的一组内核中。使用该转换后的CNN来执行对象检测。基于对象检测来控制自主装置的机械组件。
在另一方面,该系统将第一卷积层的内核从RGB转换到灰阶。
在另一方面,各个内核被视为RGB 3-通道图像并被转换成单通道灰阶图像。
在另一方面,该系统识别并移除具有低于预定阈值的方差(variance)的第一卷积层内核,并从第二卷积层中的被识别内核移除对应深度切片。
在另一方面,该系统识别具有低于预定阈值的方差的第一卷积层内核并将该第一卷积层内核合并成单个内核,并且合并来自第二卷积层中的所述被识别内核的对应深度切片。
在另一方面,该系统从转换后的CNN中提取高维特征,并使用所提取的高维特征来训练分类器。
在另一方面,自主装置是自主交通工具。
在另一方面,自主装置是机器人。
最后,本发明还包括计算机程序产品和计算机实现方法。该计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可读指令,该计算机可读指令可以由具有一个或更多个处理器的计算机执行,使得在执行该指令时,一个或更多个处理器执行本文列出的操作。另选地,计算机实现方法包括使计算机执行这些指令并执行所得到的操作的动作。
附图说明
本专利或专利申请公开的文件包含以彩色执行的至少一个附图。具有彩色附图的本专利或专利申请公开的副本将在请求和支付必要费用后由专利局提供。
结合参照以下附图,本发明的目的、特征和优点从对本发明各方面的以下详细描述将容易理解,其中:
图1是示出根据本公开的一些实施方式的用于卷积神经网络(CNN)的迁移学习的系统的组件的框图。
图2是根据本公开的一些实施方式的计算机程序产品的示图;
图3A是根据本公开的一些实施方式的来自RGB(红、绿、蓝)CNN以马赛克形式布置的7×7内核的示图;
图3B是根据本公开的一些实施方式的被转换成用于红外CNN的单通道内核之后的图3A的7×7内核的示图;
图4A是根据本公开的一些实施方式的RGB内核的示图;
图4B是根据本公开的一些实施方式的转换之后的图4A的内核的示图;
图5是根据本公开的一些实施方式的转换并且减少对应输出特征图之后移除无信息“扁平”内核的示图;
图6是示出根据本公开的一些实施方式的用于迁移学习的系统的流程图,该系统将针对彩色图像设计和训练的CNN转换成对红外(IR)图像或灰阶图像起作用的CNN;以及
图7是示出了根据本公开的一些实施方式的使用转换后的CNN控制装置的流程图。
具体实施方式
本发明涉及用于迁移学习的系统,并且更具体地,涉及将针对彩色图像设计和训练的卷积神经网络(CNN)转换成对红外(IR)图像或灰阶图像起作用的CNN的用于迁移学习的系统。给出以下描述以使得本领域普通技术人员能够作出和使用本发明并将其结合到具体应用的背景中。对于本领域技术人员来说,将容易理解各种修改以及在不同应用中的各种用途,并且本文中限定的一般原理可以应用至广泛方面。因此,本发明不限于所给出的方面,而是与符合本文公开的原理和新颖特征的最宽范围相一致。
在以下详细描述中,阐述了许多具体细节以便提供对本发明的更透彻理解。然而,对于本领域技术人员来说显而易见的是,可以在不必限于这些具体细节的情况下实施本发明。在其它情况下,以框图形式(而不是详细地)示出众所周知的结构和装置,以避免模糊本发明。
读者应注意与本说明书同时提交并且公开以对本说明书公开检查的所有论文和文献,并且所有这些论文和文献的内容通过引用并入本文。除非另有明确说明,否则本说明书中公开的所有特征(包括任何所附权利要求、摘要和附图)可以由用于相同、等效或类似目的的另选特征代替。因此,除非另有明确说明,否则所公开的各个特征仅是一系列等效或类似特征的一个示例。
此外,权利要求中的未明确陈述“用于执行指定功能的装置”或“用于执行特定功能的步骤”的任何元素不应被解释成如在35U.S.C.第112条第6款下指定的“装置”或“步骤”条款。尤其是,在本文权利要求中使用“……的步骤”或“……的动作”并非旨在援引35U.S.C.第112条第6款的规定。
(1)主要方面
本发明的多种实施方式包括三个“主要”方面。第一主要方面是用于卷积神经网络(CNN)的迁移学习的系统。该系统通常是计算机系统操作软件的形式或“硬编码”指令集的形式。该系统可以结合到提供不同功能的多种装置中。第二主要方面是通常为软件形式的使用数据处理系统(计算机)操作的方法。第三主要方面是计算机程序产品。计算机程序产品通常代表存储在诸如光学储存装置(例如光盘(CD)或数字通用光盘(DVD)、或诸如软盘或磁带的磁性储存装置)的非暂时性计算机可读介质上的计算机可读指令。另外,计算机可读介质的非限制性示例包括硬盘、只读存储器(ROM)和闪存型存储器。下面将更详细地描述这些方面。
图1中提供了示出本发明的系统(即,计算机系统100)的示例的框图。计算机系统100被配置成执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面,本文论述的特定处理和步骤被实现为驻留在计算机可读存储器单元内并由计算机系统100的一个或更多个处理器执行的一系列指令(例如,软件程序)。当被执行时,指令使计算机系统100执行特定动作并呈现特定行为,如本文所描述的。
计算机系统100可以包括地址/数据总线102,其被配置成传输信息。另外,一个或更多个数据处理单元(诸如处理器104(或多个处理器))与地址/数据总线102联接。处理器104被配置成处理信息和指令。在一个方面,处理器104是微处理器。另选地,处理器104可以是不同类型的处理器,诸如并行处理器、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、复杂可编程逻辑器件(CPLD)或现场可编程门阵列(FPGA)。
计算机系统100被配置成利用一个或更多个数据储存单元。计算机系统100可以包括与地址/数据总线102联接的易失性存储器单元106(例如,随机存取存储器(“RAM”)、静态RAM、动态RAM等),其中,易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102联接的非易失性存储器单元108(例如,只读存储器(“ROM”)、可编程ROM(“PROM”)、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM(“EEPROM”)、闪存等),其中,非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选地,计算机系统100可以诸如在“云”计算中执行从在线数据存储单元得到的指令。在一个方面,计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接口,诸如接口110。该一个或更多个接口被配置成使得计算机系统100能够与其它电子装置和计算机系统对接。由一个或更多个接口实现的通信接口可以包括有线(例如,串行电缆、调制解调器、网络适配器等)和/或无线(例如,无线调制解调器、无线网络适配器等)通信技术。
在一个方面,计算机系统100可以包括与地址/数据总线102联接的输入装置112,其中,输入装置112被配置成向处理器100传输信息和命令选择。根据一个方面,输入装置112是诸如键盘的字母数字输入装置,其可以包括字母数字和/或功能键。另选地,输入装置112可以是除字母数字输入装置之外的输入装置。在一个方面,计算机系统100可以包括与地址/数据总线102联接的光标控制装置114,其中,光标控制装置114被配置成向处理器100传输用户输入信息和/或命令选择。在一个方面,使用诸如鼠标、跟踪球、跟踪板、光学跟踪装置或触摸屏之类的装置来实现光标控制装置114。尽管如上所述,但是在一个方面,诸如响应于特殊键的使用和与输入装置112关联的键序列命令,经由来自输入装置112的输入来引导和/或激活光标控制装置114。在另选方面,光标控制装置114被配置成通过语音命令导向或引导。
在一个方面,计算机系统100还可以包括与地址/数据总线102联接的一个或更多个可选计算机可用数据储存装置,诸如储存装置116。储存装置116被配置成存储信息和/或计算机可执行指令。在一个方面,储存装置116是诸如磁盘或光盘驱动器(例如,硬盘驱动器(“HDD”)、软盘、光盘只读存储器(“CD-ROM”)、数字通用光盘(“DVD”)的储存装置。依据一个方面,显示装置118与地址/数据总线102联接,其中,显示装置118被配置成显示视频和/或图形。在一个方面,显示装置118可以包括阴极射线管(“CRT”)、液晶显示器(“LCD”)、场发射显示器(“FED”)、等离子显示器或适合用于显示视频和/或图形图像以及用户可识别的字母数字字符的任何其它显示装置。
本文给出的计算机系统100是根据一个方面的示例计算环境。然而,计算机系统100的非限制性示例并不严格限于计算机系统。例如,一方面规定,计算机系统100代表可以根据本文描述的各个方面使用的一类数据处理分析。此外,还可以实现其它计算系统。实际上,本技术的精神和范围不限于任何单个数据处理环境。因此,在一个方面,使用由计算机执行的计算机可执行指令(诸如程序模块)来控制或实现本技术的多个方面的一个或更多个操作。在一个实现方式中,这种程序模块包括被配置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和/或数据结构。另外,一方面规定,通过利用一个或更多个分布式计算环境(例如,由通过通信网络链接的远程处理设备执行任务,或者诸如多种程序模块位于包括存储器-储存装置的本地和远程计算机存储介质)来实现本技术的一个或更多个方面。
图2中示出了具体实现本发明的计算机程序产品(即,储存装置)的示意图。计算机程序产品被描绘成软盘200或光盘202,诸如CD或DVD。然而,如前所述,计算机程序产品通常代表存储在任何兼容非暂时性计算机可读介质上的计算机可读指令。关于本发明使用的术语“指令”通常表示要在计算机上执行的一组操作,并且可以代表整个程序段或单个、可分离软件模块。“指令”的非限制性示例包括计算机程序代码(源代码或目标代码)和“硬编码”电子器件(即,编码到计算机芯片中的计算机操作)。“指令”存储在任何非暂时性计算机可读介质上,诸如存储在计算机的存储器中或软盘、CD-ROM和闪存驱动器上。在任一情况下,指令被编码在非暂时性计算机可读介质上。
(2)介绍
利用深度卷积神经网络进行学习是多个计算机视觉任务的当前水平,计算机视觉任务包括对象检测、对象识别、场景分类和图像标注。用于图像处理的CNN由一系列神经元层组成,该神经元层具有来自前一层的输入以及到下一层的输出。第一层包含输入图像,并且最后一层包含输出,根据应用,输出可能是类概率分布、对象边界框集等。特别是在“卷积”神经网络中,各个卷积层处的神经元被布置在各自具有宽度、高度和深度(即,三维(3D)形状)的一组权重内核中。这些3D内核对前一层的宽度/高度尺寸进行卷积,以生成输出数据。在第N层的内核的深度需要与第N-1层中的通道数相匹配,并且在第N层的内核数将是其输出中的通道数,并且从输入层到输出层依此类推。
在公共和学术领域中的绝大多数CNN工作是关于可见光谱中的彩色图像的。这包括CNN训练所需的可用大图像数据集以及经训练网络的所得到的权重文件。这些数据集和经训练网络几乎不能用于处理IR图像。本文描述的该发明通过从RGB域中的训练获得结果并调整它们使得它们可以在IR域中使用或改进来解决该问题。这将实现IR CNN的更快、更容易的应用特有训练,并且得到用于多种视觉处理应用的关于IR图像的更准确计算机视觉,其非限制性示例包括对象识别、场景理解、行为识别和标注。以下提供进一步的细节。
(3)多种实施方式的具体细节
描述了用于将针对彩色(RGB)图像设计和训练的卷积神经网络(CNN)转换成关于红外(IR)图像或灰阶图像工作的系统和方法。
(3.1)步骤1:RGB到IR/灰度转换
在典型RGB CNN网络中,接受彩色图像的输入层将具有3个通道(例如,用于227×227像素图像的227×227×3),并且第一卷积层中的内核将具有为3的深度(例如,11×11×3×96,其中,96是内核的数量,也等于第二卷积层的通道数)。在IR CNN网络中,接受IR图像的输入层将具有1个通道(例如,用于227×227像素图像的227×227×1),并且第一卷积层中的内核将具有为1的深度(例如,11×11×1×96)。
首先,将第一卷积层的内核从RGB转换到灰阶。各个内核都被视为小RGB 3-通道图像,并通过在各个像素处应用以下公式将各个内核转换成相同大小的单通道灰阶图像:
跨内核宽度和高度,
其中,r、g、b代表各个内核的3个通道,而gray(i,j)是所得到的单通道内核。在上面的示例中,内核宽度和高度都是11。图3示出了以马赛克方式布置的来自RGB CNN(元素300)的初始第一层内核的96个11×11内核以及使用根据本公开的实施方式的方法转换的用于IR CNN或灰阶输入(元素302)的单通道内核的示例。
(3.2)步骤2:移除无信息内核
如图3所示,许多内核在转换之前和之后几乎相同(分别比较元素300和302),诸如检测沿对象边界或边缘的强度变化的那些内核。然而,当自然地从3个通道转换成1个通道时,一些信息会丢失。结果,转换之后的一些内核不再代表有用判别滤波器。例如,响应于特定颜色的一些RGB内核变成恒定灰色色块,如图4中的红色轮廓色块所示。
根据本公开的实施方式的方法的第二步骤是从具有低于特定阈值的方差(variance)的转换识别并移除那些第一卷积层内核。移除某些内核将减少输出特征层的数量(例如,从96到96-K,其中,K是被移除的这种内核的数量)。这需要从第二卷积层中的内核移除对应深度切片。因此,第二层卷积内核中的各个将具有深度为(96-K)的少K个的切片。
图5示例示了在转换(由正方形500表示)并且减少对应输出特征图(粗线502)之后移除无信息“扁平”内核,这必须进行第二卷积层的内核深度减小。
(3.3)步骤2:合并无信息内核
在另选实施方式中,代替如上所述在转换之后完全消除无信息(扁平)内核,而是可以将这些内核合并到单个内核中以减小转换可能导致的干扰:
跨内核宽度和高度,以及
其中,grayk是如上所述被识别成无信息的(或“扁平的”)灰阶内核,并且bk是那些内核的对应偏差。
在合并之后,利用由graym和bm表示的单个合并内核替换无信息(扁平)内核,并且将对应于被合并的K个内核的输出特征图合并(collapse)到一个通道。这要求我们以类似方式合并针对第二卷积层的内核的相应切片:
跨第二卷积内核宽度和高度,
其中,kernk是第二卷积层内核的第k个切片,而kernm是内核的合并切片。
(3.4)实验研究
(3.4.1)第一实施方式:彩色CNN作为初始化
在第一实施方式中,作为初始化,关于彩色图像使用先前训练的CNN,并且执行一些域特有IR训练。如下实现和测试上述方法。首先,从关于来自UCF-101彩色活动数据集的图像帧预训练的CNN开始。然后,将来自经训练CNN的第一层内核权重从7×7×3维度转换成7×7×1。这种初始化的基本原理是:关于RGB数据学习的许多特征检测器在处理IR数据(例如,水平边缘检测器)时也将是有用的。寻找颜色对比的其它特征变成了在IR中不那么有用的扁平灰色色块。了解如何在学习IR特有的特征的同时利用大型现有RGB数据集将是非常有用的。
现在关于长波红外(LWIR)数据重新训练该改进CNN,其中,LWIR数据包括来自静态和移动地面交通工具的视频、以及涉及人类参与者执行涉及携带对象(例如,携带模拟RPG、手提箱、铲)的13种类型活动的场景。训练和测试数据是基于地面实况边界框从IR视频中提取的图像片(chip)。16位IR片被转换成8位,在每个片的基础上重新调整范围。使用来自静止和移动平台的大约80%的序列(训练时)并且使用20%的序列(测试时)对数据进行分区。在训练或测试中均未考虑高度小于50像素的片。
基于所携带对象的大小,将13种活动类型分成三个主要类别(SMALL、LARGE、CASE)。CASE类是一个单独类,其包括携带行李箱的人(因为“CASE”类的机会数远远小于其它两个类的机会数)。对于3-类问题,测试分类准确度约为65%正确。
混淆矩阵是:
全局正确%:65.314685
(3.4.2)第二实施方式:转换后的彩色CNN特征提取器
将先前关于彩色图像训练的CNN作为初始化并转换成准备处理IR图像的CNN。在该实施方式中不需要额外CNN训练;作为最后一步,仅需要传统机器学习分类器训练。开源CNN(例如,OverFeat、AlexNet)关于由数百万个彩色图像构成的ImageNet的大数据集被训练。如前所述,将第一层彩色RGB内核转换成灰阶。另选地,如上所述,移除了来自转换的任何扁平内核和第二层卷积内核的对应切片。
此时,用于彩色RGB输入的初始CNN已转换成完全准备好接受IR或灰阶图像的CNN。然而,代替使用该转换后的CNN作为如实施方式1中所进行的那样进行域特有训练的起点(例如,IR视频中的活动识别),去掉CNN的最后一层(即,分类器层),并且使用输入到该层的高维特征向量。在AlexNet和OverFeat的情况下,这是4096-D特征向量。然后,使用这些特征训练域特有传统机器学习分类器(例如,支持向量机)。该方法的优点是,特别是在训练数据很稀缺的IR域中,在不存在从零开始时需要的大量训练数据的情况下,现在可以具有域特有系统(预训练的CNN+SVM分类器)。例如,如果想要训练分类器以识别IR中的不同类型的坦克,但是仅有各个坦克类型的少量(例如,20-100个)图像,这通常不足以训练数据以调整CNN的许多参数。然而,可以更容易地调整关于数百万辆汽车图像训练的RGB CNN,并且还将学习应用至坦克的特征。本文描述的系统可以将CNN转换到IR,将其用作特征提取器,关于有限IR数据训练SVM最后一层,并且然后具有有效IR坦克分类器。
图6是概述根据本公开的实施方式的系统的流程图。在一个实施方式中,从关于RGB图像预训练的CNN(元素600),识别并移除第一卷积层的无信息内核(元素602)。在第二卷积层中移除来自被识别内核的对应深度切片(元素604)。在另一实施方式中,识别并合并关于RGB图像(元素600)预训练的CNN的第一卷积层的无信息内核(元素610)。在第二卷积层中合并来自被识别内核的对应深度切片(元素612)。在两个实施方式中,结果是可以应用至IR图像和灰阶图像的转换后的CNN(元素606)。转换后的CNN可以用于应用特有训练(要素608)。
根据本公开的实施方式的方法利用关于容易获得的RGB图像的大数据集训练(或定制训练)的许多开源CNN。转换后的CNN可以用于具有IR图像或灰阶图像的应用(诸如,对象检测、对象识别、场景分类和图像标注),从而显着减少训练和开发工作。本发明涉及使用或需要IR相机传感器的任何应用。
图7是示出了使用处理器104来控制使用转换后的CNN的装置700的流程图。可以经由处理器104控制的装置700的非限制性示例包括机动交通工具或机动交通工具组件(电气、非电气、机械),诸如制动器、转向机构、悬架或安全装置(例如,安全气囊、安全带、张紧器等)。此外,交通工具可以是无人机(UAV)、自主驾驶地面交通工具、或由驾驶员或远程操作员控制的人工操作交通工具。例如,在对象检测和识别时,该系统可以致使自主交通工具根据被识别对象依据驾驶参数执行驾驶操作/操纵(诸如转向或其它命令)。例如,如果系统识别骑自行车者或其它交通工具,则本文描述的系统可以使执行交通工具操纵/操作以避免与骑自行车者或交通工具(或者在驾驶时应该避免的任何其它对象)的碰撞。该系统可以使自主交通工具应用功能性运动响应,诸如制动操作,然后是转向操作,以重定向交通工具远离对象,从而避免碰撞。
其它适当响应可以包括以下中的一个或更多个:转向操作、加速或减速的节流操作、或者在不改变的情况下保持路线和速度的决定。响应可能适用于避免碰撞、提高行驶速度或提高效率。如本领域技术人员可以理解的,也可以控制其它装置类型。因此,在检测到的特定对象和实现系统的环境的情况下,存在可由自主交通工具启动的多个自动化动作。例如,该方法可以应用于边境安全(例如,在夜间检测走私者)、情报、监视和侦察(ISR)、无人驾驶飞机、自主驾驶交通工具以及自主系统中的感知和安全(例如,在制造环境中检测人与机器人的交互)。
例如,在制造环境中,装置700可以是诸如机器人的自主装置,需要IR相机来进行其工作(例如,检测钢厂中的热表面与冷表面)并且机器人与人类一起工作,该系统可以处理来自IR相机的图像,以基于从人类发出的红外辐射来检测人类的安全位置。具体地,该系统可以使机器人避免与人类进行物理接触。在该示例中,该系统将使执行回避操作,其将包括控制机器人的机械组件的操作/操纵,从而根据情况使机器人停止、转弯、加速、减速或进行不移动动作。在这种情况下,使用IR传感器的能力比向机器人添加额外RGB传感器有所改进且节省成本。
最后,虽然已经根据多个实施方式描述了本发明,但是本领域普通技术人员将容易认识到,本发明可以在其它环境中具有其它应用。应当注意的是,许多实施方式和实现方式都是可能的。此外,权利要求绝不旨在将本发明的范围限制于上述具体实施方式。另外,对“用于……的装置”的任何叙述旨在唤起元素和权利要求的装置加功能阅读,而不具体使用“用于……的装置”的叙述的任何元素不旨在被读取为装置加功能元素,即使权利要求以其它方式包括词语“装置”。此外,虽然已经以特定顺序列举了特定方法步骤,但是方法步骤可以以任何期望顺序发生并且落入本发明的范围内。
Claims (20)
1.一种用于卷积神经网络CNN的迁移学习的系统,所述系统包括:
一个或更多个处理器和非暂时性计算机可读介质,所述非暂时性计算机可读介质上编码有可执行指令,使得当执行所述可执行指令时,所述一个或更多个处理器执行以下操作:
将针对彩色RGB输入的预训练CNN转换成能够应用至红外IR输入图像和灰阶输入图像的CNN,得到转换后的CNN,
其中,所述转换后的CNN包括一系列神经元卷积层,其中,各个卷积层处的神经元被布置在具有对应深度切片的一组内核中;
使用所述转换后的CNN来执行对象检测;以及
基于所述对象检测来控制自主装置的机械组件。
2.根据权利要求1所述的系统,其中,转换所述预训练CCN还包括将第一卷积层的内核从RGB转换到灰阶的操作。
3.根据权利要求2所述的系统,其中,各个内核被视为RGB 3-通道图像并且被转换成单通道灰阶图像。
4.根据权利要求2所述的系统,其中,转换所述预训练CNN还包括以下操作:
识别并移除具有低于预定阈值的方差的第一卷积层内核;以及
从第二卷积层中的被识别内核移除对应深度切片。
5.根据权利要求2所述的系统,其中,转换所述预训练CNN还包括以下操作:
识别具有低于预定阈值的方差的第一卷积层内核并且将所述第一卷积层内核合并成单个内核;以及
合并来自第二卷积层中的被识别内核的对应深度切片。
6.根据权利要求1所述的系统,其中,转换所述预训练CNN还包括以下操作:
从所述转换后的CNN中提取高维特征;以及
使用所提取的高维特征来训练分类器。
7.一种用于卷积神经网络CNN的迁移学习的计算机实现方法,所述方法包括以下动作:
使一个或更多个处理器执行编码在非暂时性计算机可读介质上的指令,使得在执行所述指令时,所述一个或更多个处理器执行以下操作:
将针对彩色RGB输入的预训练CNN转换成能够应用至红外IR输入图像和灰阶输入图像的CNN,得到转换后的CNN,
其中,所述转换后的CNN包括一系列神经元卷积层,其中,各个卷积层处的神经元被布置在具有对应深度切片的一组内核中;以及
使用所述转换后的CNN来执行对象检测;以及
基于所述对象检测来控制自主装置的机械组件。
8.根据权利要求7所述的方法,其中,转换所述预训练CNN还包括将第一卷积层的内核从RGB转换到灰阶的操作。
9.根据权利要求8所述的方法,其中,各个内核被视为RGB 3-通道图像并被转换成单通道灰阶图像。
10.根据权利要求8所述的方法,其中,转换所述预训练CNN还包括以下操作:
识别并移除具有低于预定阈值的方差的第一卷积层内核;以及
从第二卷积层中的被识别内核移除对应深度切片。
11.根据权利要求8所述的方法,其中,转换所述预训练CNN还包括以下操作:
识别具有低于预定阈值的方差的第一卷积层内核并将所述第一卷积层内核合并成单个内核;以及
合并来自第二卷积层中的被识别内核的对应深度切片。
12.根据权利要求7所述的方法,其中,转换所述预训练CNN还包括以下操作:
从所述转换后的CNN中提取高维特征;以及
使用所提取的高维特征来训练分类器。
13.一种用于卷积神经网络CNN的迁移学习的计算机程序产品,所述计算机程序产品包括:
存储在非暂时性计算机可读介质上的计算机可读指令,所述计算机可读指令能够由具有一个或更多个处理器的计算机执行,以使所述处理器执行以下操作:
将针对彩色RGB输入的预训练CNN转换成能够应用至红外IR输入图像和灰阶输入图像的CNN,得到转换后的CNN,
其中,所述转换后的CNN包括一系列神经元卷积层,其中,各个卷积层处的神经元被布置在具有对应深度切片的一组内核中;以及
使用所述转换后的CNN来执行对象检测;以及
基于所述对象检测来控制自主装置的机械组件。
14.根据权利要求13所述的计算机程序产品,其中,转换所述预训练CNN还包括将第一卷积层的内核从RGB转换到灰阶的操作。
15.根据权利要求14所述的计算机程序产品,其中,各个内核被视为RGB 3-通道图像并被转换成单通道灰阶图像。
16.根据权利要求14所述的计算机程序产品,其中,转换所述预训练CNN还包括以下操作:
识别和移除具有低于预定阈值的方差的第一卷积层内核;以及
从第二卷积层中的被识别内核移除对应深度切片。
17.根据权利要求14所述的计算机程序产品,其中,转换所述预训练CNN还包括以下操作:
识别具有低于预定阈值的方差的第一卷积层内核并将所述第一卷积层内核合并成单个内核;以及
合并来自第二卷积层中的被识别内核的对应深度切片。
18.根据权利要求13所述的计算机程序产品,其中,转换所述预训练CNN还包括以下操作:
从所述转换后的CNN中提取高维特征;以及
使用所提取的高维特征来训练分类器。
19.根据权利要求1所述的系统,其中,所述自主装置是自主交通工具。
20.根据权利要求1所述的系统,其中,所述自主装置是机器人。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762510741P | 2017-05-24 | 2017-05-24 | |
US62/510,741 | 2017-05-24 | ||
PCT/US2018/024168 WO2018236446A2 (en) | 2017-05-24 | 2018-03-23 | TRANSFER LEARNING OF CONVOLUTIONAL NEURAL NETWORKS FROM THE VISIBLE COLOR DOMAIN (RGB) TO THE INFRARED (IR) DOMAIN |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110494890A true CN110494890A (zh) | 2019-11-22 |
CN110494890B CN110494890B (zh) | 2023-03-10 |
Family
ID=64401641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880023966.3A Active CN110494890B (zh) | 2017-05-24 | 2018-03-23 | 卷积神经网络的迁移学习的系统、计算机实现方法、介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10909407B2 (zh) |
EP (1) | EP3631751A4 (zh) |
CN (1) | CN110494890B (zh) |
WO (1) | WO2018236446A2 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127360A (zh) * | 2019-12-20 | 2020-05-08 | 东南大学 | 一种基于自动编码器的灰度图像迁移学习方法 |
CN111652352A (zh) * | 2020-05-13 | 2020-09-11 | 北京航天自动控制研究所 | 一种针对迁移学习的神经网络模型输入通道整合方法 |
CN112287839A (zh) * | 2020-10-29 | 2021-01-29 | 广西科技大学 | 一种基于迁移学习的ssd红外图像行人检测方法 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11270168B1 (en) * | 2018-03-02 | 2022-03-08 | Autodata Solutions, Inc. | Method and system for vehicle image classification |
US10984503B1 (en) | 2018-03-02 | 2021-04-20 | Autodata Solutions, Inc. | Method and system for vehicle image repositioning using machine learning |
US20180215377A1 (en) * | 2018-03-29 | 2018-08-02 | GM Global Technology Operations LLC | Bicycle and motorcycle protection behaviors |
US10984245B1 (en) * | 2018-06-11 | 2021-04-20 | Facebook, Inc. | Convolutional neural network based on groupwise convolution for efficient video analysis |
CN109948642B (zh) * | 2019-01-18 | 2023-03-28 | 中山大学 | 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法 |
CN109948524B (zh) * | 2019-03-18 | 2020-04-14 | 北京航空航天大学 | 一种基于空基监视的交通车辆密度估计方法 |
CN112243117B (zh) * | 2019-07-17 | 2022-09-16 | 杭州海康威视数字技术股份有限公司 | 图像处理装置、方法及摄像机 |
CN110427875B (zh) * | 2019-07-31 | 2022-11-11 | 天津大学 | 基于深度迁移学习和极限学习机的红外图像目标检测方法 |
CN110490831B (zh) * | 2019-08-23 | 2023-03-24 | 中航华东光电有限公司 | 图像生成方法及系统 |
CN113030001B (zh) * | 2021-03-19 | 2022-08-23 | 北京农业智能装备技术研究中心 | 一种水果糖度检测方法及系统 |
CN113408624A (zh) * | 2021-06-22 | 2021-09-17 | 福州大学 | 基于迁移学习的任务导向的图像质量测评方法 |
CN113723189B (zh) * | 2021-07-28 | 2023-08-01 | 广西大学 | 一种基于单阶红外图像目标检测的电力设备故障智能诊断方法 |
US20230156169A1 (en) * | 2021-11-18 | 2023-05-18 | Capital One Services, Llc | Reduced bandwidth image transfer |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354572A (zh) * | 2015-12-10 | 2016-02-24 | 苏州大学 | 一种基于简化卷积神经网络的车牌自动识别系统 |
CN105825511A (zh) * | 2016-03-18 | 2016-08-03 | 南京邮电大学 | 一种基于深度学习的图片背景清晰度检测方法 |
US20170032222A1 (en) * | 2015-07-30 | 2017-02-02 | Xerox Corporation | Cross-trained convolutional neural networks using multimodal images |
US9646243B1 (en) * | 2016-09-12 | 2017-05-09 | International Business Machines Corporation | Convolutional neural networks using resistive processing unit array |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8209172B2 (en) * | 2003-12-16 | 2012-06-26 | Canon Kabushiki Kaisha | Pattern identification method, apparatus, and program |
US9542626B2 (en) * | 2013-09-06 | 2017-01-10 | Toyota Jidosha Kabushiki Kaisha | Augmenting layer-based object detection with deep convolutional neural networks |
CA2995850A1 (en) | 2015-08-31 | 2017-03-09 | Ryan Kottenstette | Systems and methods for analyzing remote sensing imagery |
US10755428B2 (en) * | 2017-04-17 | 2020-08-25 | The United States Of America, As Represented By The Secretary Of The Navy | Apparatuses and methods for machine vision system including creation of a point cloud model and/or three dimensional model |
-
2018
- 2018-03-23 CN CN201880023966.3A patent/CN110494890B/zh active Active
- 2018-03-23 EP EP18819924.4A patent/EP3631751A4/en active Pending
- 2018-03-23 US US15/934,767 patent/US10909407B2/en active Active
- 2018-03-23 WO PCT/US2018/024168 patent/WO2018236446A2/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170032222A1 (en) * | 2015-07-30 | 2017-02-02 | Xerox Corporation | Cross-trained convolutional neural networks using multimodal images |
CN105354572A (zh) * | 2015-12-10 | 2016-02-24 | 苏州大学 | 一种基于简化卷积神经网络的车牌自动识别系统 |
CN105825511A (zh) * | 2016-03-18 | 2016-08-03 | 南京邮电大学 | 一种基于深度学习的图片背景清晰度检测方法 |
US9646243B1 (en) * | 2016-09-12 | 2017-05-09 | International Business Machines Corporation | Convolutional neural networks using resistive processing unit array |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127360A (zh) * | 2019-12-20 | 2020-05-08 | 东南大学 | 一种基于自动编码器的灰度图像迁移学习方法 |
CN111127360B (zh) * | 2019-12-20 | 2023-08-29 | 东南大学 | 一种基于自动编码器的灰度图像迁移学习方法 |
CN111652352A (zh) * | 2020-05-13 | 2020-09-11 | 北京航天自动控制研究所 | 一种针对迁移学习的神经网络模型输入通道整合方法 |
CN111652352B (zh) * | 2020-05-13 | 2023-08-04 | 北京航天自动控制研究所 | 一种针对迁移学习的神经网络模型输入通道整合方法 |
CN112287839A (zh) * | 2020-10-29 | 2021-01-29 | 广西科技大学 | 一种基于迁移学习的ssd红外图像行人检测方法 |
CN112287839B (zh) * | 2020-10-29 | 2022-12-09 | 广西科技大学 | 一种基于迁移学习的ssd红外图像行人检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110494890B (zh) | 2023-03-10 |
US20180341832A1 (en) | 2018-11-29 |
EP3631751A2 (en) | 2020-04-08 |
EP3631751A4 (en) | 2021-02-24 |
WO2018236446A3 (en) | 2019-05-16 |
US10909407B2 (en) | 2021-02-02 |
WO2018236446A2 (en) | 2018-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110494890A (zh) | 卷积神经网络从可见颜色(rbg)到红外(ir)域的迁移学习 | |
CN111465945B (zh) | 应用于神经形态硬件的用于模式识别的系统、方法与介质 | |
CN106599939A (zh) | 一种基于区域卷积神经网络的实时目标检测方法 | |
CN107527068A (zh) | 基于cnn和域自适应学习的车型识别方法 | |
CN110235146A (zh) | 用于检测图像中的感兴趣对象的方法和装置 | |
US20210166085A1 (en) | Object Classification Method, Object Classification Circuit, Motor Vehicle | |
US10691972B2 (en) | Machine-vision system for discriminant localization of objects | |
Liu et al. | Visualization of driving behavior using deep sparse autoencoder | |
WO2020240808A1 (ja) | 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム | |
CN109388135A (zh) | 使用深度时空学习的自主操作 | |
Calderón et al. | Visual-based real-time detection using neural networks and micro-uavs for military operations | |
CN113673709A (zh) | 具有内容和位置敏感分类器的对象分类 | |
Dogar et al. | From primitive behaviors to goal-directed behavior using affordances | |
CN111401122B (zh) | 一种基于知识分类的复杂目标渐近识别方法及装置 | |
Cultrera et al. | Explaining autonomous driving with visual attention and end-to-end trainable region proposals | |
Chatzistamatis et al. | Image recoloring of art paintings for the color blind guided by semantic segmentation | |
Mechal et al. | CNN-based obstacle avoidance using RGB-Depth image fusion | |
Reddy et al. | Image Classification Using Machine Learning Techniques for Traffic Signal | |
Mebtouche et al. | Improving thermal object detection for optimized deep neural networks on embedded devices | |
Bellam et al. | A Practical Approach of Recognizing and Detecting Traffic Signs using Deep Neural Network Model | |
Potla | Traffic sign detection and recognition for autonomous vehicles using transfer learning | |
Schulz | Human-Assisted Self-Supervised Labeling of Large Data Sets | |
Atallah | Artificial intelligence and computer vision | |
Martinez-Barba et al. | Front-to-Bird’s-Eye-View Transformation for Autonomous Vehicles: A Class Imbalance-Based Approach | |
Hasan et al. | BS Electrical Engineering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |