CN101171598A - 采用神经网络定位对象图像中的感兴趣点的系统和方法 - Google Patents

采用神经网络定位对象图像中的感兴趣点的系统和方法 Download PDF

Info

Publication number
CN101171598A
CN101171598A CNA2006800149363A CN200680014936A CN101171598A CN 101171598 A CN101171598 A CN 101171598A CN A2006800149363 A CNA2006800149363 A CN A2006800149363A CN 200680014936 A CN200680014936 A CN 200680014936A CN 101171598 A CN101171598 A CN 101171598A
Authority
CN
China
Prior art keywords
layer
image
conspicuousness
point
object images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006800149363A
Other languages
English (en)
Inventor
克里斯托弗·加西亚
斯特凡·多弗内尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of CN101171598A publication Critical patent/CN101171598A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种用于定位对象图像中的至少两个感兴趣点的系统。根据本发明,一种这样的系统使用人工神经网络并具有分层的体系结构,包括:接收所述对象图像的输入层(E);至少一个中间层(N4),被称为第一中间层,包括多个神经元(N41),这些神经元可被用于生成至少两个显著性图(R5m),每个显著性图与所述对象图像中一个不同的预定义的感兴趣点相关联;和至少一个包含上述显著性图(R5m)的输出层(R5),所述图包括多个神经元,每个神经元与第一中间层的所有神经元相连。根据本发明,借助于在每个显著性图上的唯一全局最大值的位置(171,172,173,174),在对象图像中定位所述感兴趣点。

Description

采用神经网络定位对象图像中的感兴趣点的系统和方法
技术领域
本发明涉及静止或运动图像的数字处理领域。更具体地,本发明涉及在用数字图像表示的对象中定位一个或多个感兴趣点的技术。
本发明特别适用于但不一定专用于以下领域:检测在数字或数字化图像中的面部的物理特征,例如瞳孔、眼角、鼻尖、嘴部、眉毛等。实际上,面部图像的感兴趣点的自动检测是面部分析的主要方面。
背景技术
在本领域中有几种已知的技术,它们大多包括利用专用的、专门化的过滤器独立地搜寻和检测每个特定的面部特征。
所使用的大多数检测器依赖于对面部的色度的分析:面部的像素根据它们的颜色被标记为属于皮肤或者面部元素。
其它检测器使用对比度变化。至此,依赖于对光梯度的分析,完成了轮廓检测。然后尝试根据检测出的不同轮廓来识别面部元素。
其它方法利用每个元素的统计模型实施相关性搜索。这些模型是使用所要搜寻的每个元素的图像(或者本征特征)由主要成份分析(PCA)构建的。
某些现有技术实施第二阶段,其中对在每个元素的独立检测的第一阶段中确定的所有候选位置应用几何面部模型。在初始阶段检测到的元素构成了候选位置的合成体,可变形的几何模型被用于选择最佳合成体。
近来一种方法可被用来超越传统的两步骤方案(包括对面部元素的独立搜索,接着是应用几何规则)。该方法依赖于活动表情模型(AAM)的使用,在D.Cristinacce和T.Cootes的文章“A comparisonof shape constrained facial feature detectors”(2004年韩国首尔的第六届面部和姿势自动识别国际会议的论文集,pp 375-380,2004)中有专门的描述。它由以下步骤组成:通过调整包含形状和纹理的线性模型的参数,尝试使一个活动面部模型对应于图像中的面部,借此来预测面部元素的位置。该面部模型是从利用对向量的主要成份分析(PCA)来标注感兴趣点的多个面部中学习得到的,所述向量编码感兴趣点的位置和相关面部的光纹理。
现有技术的缺点
这些现有技术的主要缺点是在含有影响面部图像,特别是对象图像的噪声的面部中鲁棒性较低。
事实上,专门设计用来检测面部元素的检测器不能抵抗图像照明的极端条件,例如过度照明、照明不足、侧光、从底部照明。它们对于图像质量的变化也几乎没有什么鲁棒性,特别是在从(例如利用网络摄像头采集的)视频流获得的低分辨率图像或者前面已受到压缩的低分辨率图像的情况下。
依赖于色度分析(其应用肤色过滤器)的方法对于照明条件也很敏感。此外,它们不能应用于灰度级图像。
这些依赖于对不同感兴趣点的独立检测的现有技术的另一个缺点是:当这些感兴趣点被隐藏时,这些技术完全没有办法,例如在戴墨镜时眼睛就被隐藏起来,当有胡子或者被手遮挡时嘴部就被隐藏起来,更常见的情形是图像出现局部严重退化时。
检测几个元素甚至只是一个元素的失败通常不会由于后面使用几何面部模型而被修正。该模型只是当不得不在几个原本应在前一阶段检测出的候选位置中做出选择时才被使用。
这些不同的缺点在依赖于活动面部的方法中得到部分补偿,这些方法通过形状和纹理信息的联合使用实现对元素的大致搜索。然而,这些方法有另一项缺点,即它们依赖于缓慢的、不稳定的最优化过程,该过程有赖于必须在搜索期间反复确定的成百上千的参数,这是一个特别漫长又痛苦的过程。
此外,由于所使用的统计模型是线性的,由PCA创建的,所以它们对于图像的整体变化,特别是照明变化表现出低的鲁棒性。它们对于面部的部分隐藏具有低的鲁棒性。
发明内容
本发明的目标
本发明的目的就是为了克服现有技术的这些缺点。
更具体地,本发明的目标是提供一种用于在表示一个对象的图像中定位几个感兴趣点的技术,它不需要专用于必须能被定位的每个感兴趣点以及专用于每一类对象的过滤器的漫长又痛苦的开发过程。
本发明的另一个目标是提出这样一种定位技术,它对于可能影响图像的所有噪声,例如照明条件、色度变化、部分隐藏等都有很强的鲁棒性。
本发明的另一个目标是提供这样一种技术,它考虑了部分影响图像的隐藏问题,并允许对隐藏点的位置进行推断。
本发明还有一个目标是提供这样一种技术,它应用简单,实施成本低。
本发明还有一个目标是提供这样一种技术,它特别适于面部图像中的面部元素的检测。
这些目标以及在下面将会表现出的其它目标是通过一种用于定位对象图像中的至少两个感兴趣点的系统实现的,该系统采用人工神经网络并呈现分层的体系结构,该系统包括:
-接收所述对象图像的输入层;
-至少一个中间层,被称为第一中间层,包括多个神经元,这些神经元使得能够生成至少两个显著性图,每个显著性图与所述对象图像的一个预定义的不同的感兴趣点相关联;
-至少一个包括所述显著性图的输出层,所述显著性图包括多个神经元,每个神经元与所述第一中间层的所有神经元相连,
借助于在每个所述显著性图上的唯一总体最大值的位置,在对象图像中定位所述感兴趣点。
可见,由于本发明提出了神经分层体系结构的使用,使得可在输出上生成几个显著性图,使得通过对最大值的简单搜索可以直接检测待定位的感兴趣点,因此本发明是基于完成新颖和创新的方法来检测在表示对象的图像中的几个感兴趣点。
本发明因此提出了一种借助于神经网络在整个对象图像中全面搜索不同的感兴趣点的技术,使得有可能特别考虑这些点的相对位置,还可以克服与这些点的全部或部分隐藏有关的问题。
输出层包括至少两个显著性图,每个显著性图与预定义的一个不同的感兴趣点有关。因而可以通过使每个显著性图专用于一个特定的感兴趣点:该点然后通过对每个图上的唯一最大值的搜索而被定位,借此对几个感兴趣点同时进行搜索。这与在一个总显著性图上与所有感兴趣点相关联地对几个局部最大值同时进行搜索相比,要容易一些。
此外,不再需要设计和开发专用于不同感兴趣点的检测的过滤器。在完成初步的学习阶段后利用神经网络自动找到这些过滤器。
此外,这种神经体系结构证明在对象图像照明等可能的问题方面要比现有技术更具鲁棒性。
必须指出,这里的术语“预定义的感兴趣点”被理解为代表对象的一个显著的元素,例如在面部图像的情况下,它会是眼睛、鼻子、嘴部等。
本发明因此不是对图像中的任何轮廓都进行搜索,而是对预定义的标识的元素进行搜索。
根据一个有利的特点,所述对象图像是面部图像。于是,所搜寻的感兴趣点是永久实体特征,例如眼睛、鼻子、眉毛等。
有利地,这种定位系统还包括至少一个包括多个神经元的第二中间卷积层。这样一层可以专用于检测对象图像中的低级元素,例如对比度线(contrast line)。
优选地,这种定位系统还包括至少一个包括多个神经元的第三亚抽样中间层。因此减小了在上面完成工作的图像的尺度。
在本发明的优选实施方式中,这样的定位系统在所述输入层和所述第一中间层之间包括:
-包括多个神经元的第二中间卷积层,该层使得能够在所述对象图像中检测至少一个基本线型形状,所述第二中间层送出卷积对象图像;
-包括多个神经元的第三中间亚抽样层,该层使得能够减小所述卷积对象图像的大小,所述第三中间层送出减小的卷积对象图像;
-包括多个神经元的第四中间卷积层,该层使得能够在所述减小的卷积对象图像中检测至少一个角型复杂形状。
本发明还涉及如上所述的用于定位对象图像中的至少两个感兴趣点的系统的神经网络的学习方法。每个所述神经元具有至少一个用突触权重(synaptic weight)加权的输入以及偏置(bias)。这种类型的学习方法包括以下步骤:
-构建一个学习库,该学习库包括多个被标注为所述待定位的感兴趣点的函数的对象图像;
-初始化所述突触权重和/或所述偏置;
-对于所述学习库的所述标注图像中的每一个:
-在输出上由在所述图像上所述至少两个标注的、预定义的感兴趣点中的每一个准备所述至少两个期望的显著性图;
-在所述系统的输入上呈现所述图像,用于定位和确定在所述输出上送出的所述至少两个显著性图;
-在所述学习库的所述标注图像的集合上,最小化在输出上送出的所述期望的显著性图之间的差,以便确定所述突触权重和/或所述最优偏置。
可见,根据由用户手工标注的例子,神经网络学习识别对象图像中的某些感兴趣点。然后它就能够在网络的输入上给出的任何图像中定位感兴趣点。
有利地,所述最小化是在输出上送出的所述期望的显著性图之间的均方差的最小化,并且应用迭代梯度反向传播算法。该算法被详细描述在本文件的附录2中,使得可以快速收敛到网络的不同偏置和突触权重的最优值。
本发明还涉及用于定位对象图像中的至少两个感兴趣点的方法,该方法包括以下步骤:
-在采用人工神经网络的分层体系结构的输入上呈现所述对象图像;
-连续地激活至少一个中间层和至少一个输出层,所述至少一个中间层被称为第一中间层,包括多个神经元,使得能够生成至少两个显著性图,每个显著性图与所述对象图像的一个预定义的不同感兴趣点相关联,所述至少一个输出层包括所述显著性图,所述显著性图包括多个神经元,这些神经元中的每一个都连接到所述第一中间层的所有神经元;
-通过在所述显著性图中搜索在每一个所述图上的唯一总体最大值的位置,定位所述对象图像中的所述感兴趣点。
根据本发明的有利特点,这种类型的定位方法包括以下预备步骤:
-在无论任何图像中检测围绕所述对象并且组成所述对象图像的区域;
-重定所述对象图像的大小。
该检测可以用本领域的技术人员公知的传统检测器完成,例如可用于在一个复杂图像中确定围绕面部的方框的面部检测器。重定大小可以由检测器自动完成,或者由专用装置独立完成:它使得在神经网络的输入上可以给出大小全都相同的图像。
本发明还涉及一种包括以下程序代码指令的计算机程序,所述程序在由处理器执行时执行用于上述神经网络的学习方法,本发明还涉及包括以下程序代码指令的计算机程序,所述程序在由处理器执行时执行上述用于定位对象图像中的至少两个感兴趣点的方法。
这样的程序可以从通信网络(例如国际互联网)下载和/或被存储在计算机可读数据载体上。
附图说明
参考附图,结合以下利用说明性的而非限制性的例子给出的对优选实施方式的描述将更加清楚本发明的其它特征和优点,在附图中:
图1是本发明的用于定位对象图像中的感兴趣点的系统的神经体系结构的框图;
图2提供了在图1的神经体系结构中的卷积图以及后面的亚抽样图的更精确的图示;
图3a和3b给出了学习库的面部图像一些例子;
图4描述了根据本发明用于在面部图像中定位面部元素的方法的主要步骤;
图5是本发明的定位系统的简化框图;
图6是多层感知器类型的人工神经网络的一个例子;
图7提供了人工神经元的结构的更精确图示;
图8给出了用作S形神经元的转移函数的双曲正切函数的特性。
具体实施方式
本发明的基本原理依赖于神经体系结构的使用,该神经体系结构使得可自动检测在对象图像(更具体地是半刚性对象)中,特别是在面部图像中的几个感兴趣点(检测永久特征,例如眼睛、鼻子或嘴部)。更具体地,本发明的原理包括构建一个神经网络,借助于该神经网络可以学习在一次操作中将对象图像转换成几个显著性图,对于这些显著性图而言,最大值的位置对应于在输入上给出的对象图像中由用户选择的感兴趣点的位置。
该神经体系结构由几个异质层组成,这些层使得能够自动开发鲁棒的低级检测器,同时允许学习用于支配所检测的元素的看似可行的相对布局的规则,并使任何可用的信息都被考虑进来用于定位可能存在的隐藏的元素。
在学习阶段,根据一组预先分割的对象图像并且根据在这些图像中的感兴趣点的位置来设置神经元的所有连接权重。
神经体系结构此后象级联的过滤器一样工作,使得在更大尺寸的图像中或者在视频序列中预先检测出的、包含对象的图像区域可被转换成一组具有输入图像大小的数字图,其元素在-1和1之间分布。每个图对应于一个特定的感兴趣点,通过对数值为最大值的元素的位置的简单搜索就可以确定该感兴趣点的位置。
在本申请文件的后续部分将试图在检测一个面部图像上的几个面部元素的上下文中更具体地描述本发明的典型实施方式。然而,本发明当然也可以适用于检测在表示对象的图像中的任意感兴趣点,例如检测汽车的车体的元素或者检测一组建筑物的结构特性。
在检测面部图像的物理特性的上下文中,本发明的方法使得能够对处于不同面部表情的不同姿态(方向、半正向视图)的面部中的面部元素进行鲁棒检测,这些不同姿态的面部可能含有隐藏的元素,出现在图像中时可能在分辨率、对比度和照明方面具有很高的可变性。
1.神经体系结构
参考图1,图中给出了本发明用于定位感兴趣点的系统的人工神经网络的体系结构。这样的人工神经元以及它们的结构的工作原理被记载在附录1中,附录1构成本说明书的整体的一部分。这种类型的神经网络例如是多层感知器类型网络,它也被描述在附录1中。
诸如此类的神经网络由六个互连的异质层组成,它们被标注为E、C1、S2、C3、N4和R5,它们包含从一连串卷积和亚抽样操作而来的一系列图。借助它们连续的、联合的动作,这些不同的层提取出在输入上呈现的图像中的图元,导致输出图R5m的产生,从输出图R5m可以容易地确定感兴趣点的位置。
更具体地,所提出的体系结构包括:
-输入层E:这是一个视网膜,它是一个大小为H×L的图像矩阵,H是行数,L是列数。输入层E接收同样大小的图像区域H×L的元素。对于在神经网络的输入上呈现的图像中灰度级为Pi,j(Pi,j从0到255变化)的每个像素,矩阵E中的对应元素是Eij=(Pi,j-128)/128,其数值分布在-1和1之间。选择H=56以及L=46。H×L因此也是用于参数化神经网络的学习库的面部图像以及想要在其中检测一个或多个面部元素的面部图像的大小。该大小可以是在从更大尺寸的图像或者视频序列的面部图像执行提取的面部检测器的输出上直接获得的。它也可以是在面部检测器进行提取后面部图像被重定大小时的尺寸。优选地,这种类型的重定大小保持面部的原始比例。
-由被标为C1i的NC1个图组成的第一卷积层C1。每个图C1i通过10j被连接到输入图E,并且包括多个线性神经元(如附录1中所述)。这些神经元的每一个通过突触连接到在图E中的一组M1×M1个相邻元素(接受域),下面在图2中将更详细地描述。此外,这些神经元的每一个都接收偏置。这些M1×M1个突触加上偏置由C1j的神经元集合共享。因此,每个图C1i对应于在输入图E中按偏置递增的M1×M1核11的卷积结果。该卷积专用为在输入图中某些低级形状的检测器,例如图像的有向对比度线。每个图C1i的大小因此被定为H1×L1,其中H1=(H-M1+1),L1=(L-M1+1),以避免卷积的边缘效应。例如层C1包含NC1=4个大小为50×41的图,卷积核大小为NN1×NN1=7×7;
-由NS2个图S2j组成的亚抽样层S2。每个图S2j通过12j连接到对应的图C1i。图S2j的每个神经元接收在图C1i中的M2×M2个相邻元素13的平均值(接受域),下面在图2中将更详细地描述。每个神经元将该平均值乘以突触权重再加上偏置。突触权重和偏置的最优值是在学习阶段确定的,它们由每个图S2j的神经元集合共享。在通过S形函数后获得每个神经元的输出。每个图S2j的大小被定为H2×L2,其中H2=H1/M2,L2=L1/M2。例如,层S2包含NS2=4个大小为25×20的图,NN2×NN2=2×2的亚抽样1;
-卷积层C3,由NC3个图C3k组成。每个图C3k通过14k连接到亚抽样层S2的图S2j。图C3k的神经元是线性的,并且每个神经元通过突触连接到在每个图S2j中的一组M3×M3个相邻元素15。此外,它还接收偏置。每个图的M3×M3个突触加上偏置I是由图C3k的神经元集合共享的。图C3k对应于按偏置递增的、核为M3×M3 15的NC3次卷积的求和结果。在输入处的贡献图C1i上加入提取,这些卷积使得能够提取最高级特征,例如角。每个图C3k的大小被定为H3×L3,其中H3=(H2-M3+1),L3=(L2-M3+1)。例如,层C3包含NC3=4个大小为21×16的图,卷积核大小为NN3×NN3=5×5;
-由NN4个S形神经元N4l组成的层N4。层N4的每个神经元通过161连接到层C3的所有神经元,并接收偏置。这些神经元N4l被用于学习生成输出图R5m,考虑图C3的总数,最大化在这些图的每一个上的感兴趣点的位置上的响应,从而可以检测一个特定的感兴趣点,同时考虑其它点的检测。所选择的数值例如是NN4=100个神经元,选择双曲正切函数(此后称为th或tanh)用于S形函数的转移函数。
-由NR5个图R5m组成的图层R5,一个图R5m对应于用户所选择的每个感兴趣点(右眼、左眼、鼻子、嘴部等)。每个图R5m被连接到层N4的所有神经元。图R5m的神经元是S形的,每个神经元连接到层N4的所有神经元。每个图R5m的大小为H×L,这是输入层E的大小。所选择的数值例如是NR5=4个大小为56×46的图。在激活神经网络后,在每个图R5m中具有最大输出的神经元171、172、173、174的位置对应于在网络的输入上呈现的图像中的相应面部元素的位置。应当注意,在本发明的实施方式的一个变型中,层R5只有一个显著性图,其中在图像中待定位的所有感兴趣点都被给出。
图2图示了5×5卷积11的图C1i,后面跟着2×2亚抽样13的图S2j。可以注意到,所执行的卷积没有考虑位于图C1i的边缘的像素,以避免边缘效应。
为了能够检测面部图像中的感兴趣点,需要在下面描述的学习阶段对图1的神经网络进行参数化。
2.从图像库学习
在构建上述分层的神经体系结构后,因此建立了由标注图像组成的学习库,以便通过学习调节该体系结构的所有神经元的突触的权重。
为此执行下述过程:
首先,从大尺寸的身体图像中手动提取面部图像的集合T。每个面部图像被重定大小为神经体系结构的输入层E的大小H×L,优选地保持面部的自然比例。可以看出,提取出的是表情变化的面部图像。
在一个集中检测面部中的四个感兴趣点(主要是右眼、左眼、鼻子和嘴部)的具体实施方式中,眼睛、鼻子和嘴部中心的位置被手动标识,如图3a所示:因此,获得了被标注为神经网络将要学习定位的感兴趣点的函数的一组图像。这些在图像中要定位的感兴趣点可以由用户自由选择。
为了自动生成更多变化的例子,对于这些图像以及所标注的位置施加一组变换,例如列方向和行方向上的平移(例如向左、向右、向上、向下平移多达6个像素)相对于图像中心旋转-25°到25°之间的角度,将面部大小缩放0.8到1.2倍。因而由给定的图像获得了多个转换后的图像,如图3b所示。应用于面部图像的变化可被用于在学习阶段不仅考虑面部的可能表情,而且考虑在面部的自动检测过程中可能的集中差错。
集合T被称为学习集合。
例如,可以使用由大约2500个面部图像组成的学习库,这些面部图像被手动标注为左眼、右眼、鼻子和嘴部的中心的位置的函数。在对这些标注的图像进行几何修改(平移、旋转、缩放等)后,获得所标注的面部的大约32000个例子,显示了很高的可变性。
然后,自动学习神经体系结构的突触权重和偏置的集合。为此,首先,神经元集合的所有偏置和突触权重被随机地初始化为小数值。然后,集合T的NT个图像I以任意未指定的顺序被呈现在神经网络的输入层E中。对于所呈现的每个图像I,准备神经网络在其操作最优的情况下必须在层R5送出的输出图D5m:这些图D5m被称为期望图。
在每一个图D5m中,除了位置对应于图D5m必须渲染的、可能定位的面部元素的点(其期望值为1)之外,点集合的数值被固定在-1。这些图D5m被显示在图3a中,其中每个点对应于具有值+1的点,它的位置对应于所要定位的面部元素(右眼、左眼、鼻子或嘴部中心)的位置。
一旦已经准备好图D5m,神经网络的输入层E和层C1、S2、C3、N4和R5就一个接一个地被激活。
在层R5中,我们于是获得了神经网络对于图像I的响应。目标是获得与期望图D5m相同的图R5m。因此我们定义一个目标函数,它应被最小化以实现这一目标:
O = 1 N T × NR 5 × H × L Σ k = 1 N T Σ m = 1 NR 5 Σ ( i , j ) ∈ H × L ( R 5 m ( i , j ) - D 5 m ( i , j ) ) 2 ,
其中(i,j)对应于每个图R5m的第i行第j列。因此所做的就是在学习集合T的标注图集合上最小化在产生的图R5m和期望图D5m之间的均方差。
为了最小化目标函数O,使用迭代梯度反向传播算法。该算法的原理记载在附录2中,该附录2是本说明书的组成部分。这种类型的梯度反向传播算法因而可被用来确定网络的神经元集合的所有突触权重和最优偏置。
例如,以下参数可被用于梯度反向传播算法中:
-对于层C1、S2、C3的神经元,0.005的学习步阶;
-对于层N4的神经元,0.001的学习步阶;
-对于层R5的神经元,0.0005的学习步阶;
-对于体系结构的神经元,动量为0.2。
如果梯度反向传播算法的一次迭代被视为对应于学习集合T的所有图像的呈现,那么该算法在25次迭代后收敛到一个稳定解。
一旦已经确定了偏置和突触权重的最优值,则图1的神经网络就准备好处理任何非指定的数字面部图像,以便从中提取在学习集合T的图像中标注的感兴趣点。
3.搜索图像中的感兴趣点
此后可以使用在学习阶段中设置的图1的神经网络来搜索面部图像中的面部元素。在图4中给出了用于实现这种定位的方法。
我们使用面部检测器检测40在图像46中呈现的面部44和45。该面部检测器定位围绕每个面部44、45内部的方框。包含在每个围绕方框中的图像区域被提取41并构成其中必须对面部元素进行搜索的面部图像47、48。
每个提取出的面部图像47、48被重定大小为H×L,并被放在图1的神经体系结构的输入E处。输入层E、中间层C1、S2、C3、N4和输出层R5一个接一个地被激活,以使神经体系结构对图像47、48进行过滤42。
在层R5中,以对于每个图像47、48四个显著性图R5m的形式获得神经网络对图像47、48的响应。
然后,通过搜索每个显著性图R5m中的最大值,在面部像47、48中定位感兴趣点。更具体地,在每个图R5m中,搜索位置(immax,jmmax),使得对于m∈NR5 ( i m max , j m max ) = arg max ( i , j ) ∈ H × L R 5 m ( i , j ) . 该位置对应于与该图相对应的感兴趣点(例如右眼)的搜寻位置。
在本发明的优选实施方式中,利用面部检测器CFF在图像46中检测40面部,上述面部检测器CFF是由C.Garcia和M.Delakis在“Convolution Face Finder:a Neural Architecture for Fast and RobustFace Detection,”IEEE Transaction on Pattern Analysis and MachineIntelligence,26(11):1408-1422,November 2004中给出的。
这种类型的面部寻找器实际上可被用于在复杂的背景下,在可变的照明条件下,对最小尺寸为20×20,倾斜多达±25度以及旋转多达±60度的面部进行鲁棒的检测。CFF寻找器确定40围绕所检测的面部47、48的方框,并且方框的内部被提取,然后被重定大小41为H=56,L=46。然后,每个图像被呈现在图1的神经网络的输入上。
图1的定位方法对于出现在图像中的面部的高度可变性具有特别高的鲁棒性。
参考图5,现在给出用于定位对象图像中的感兴趣点的系统或设备的简化框图。这样的系统包括存储器M51和配备有处理器μP的处理单元50,该处理单元受计算机程序Pg52的驱动。
在第一级的学习阶段,处理单元50在输入上接收学习用的面部图像集合T,这些学习用的面部图像根据系统应当能够在图像中定位的感兴趣点而被标注。从这个集合出发,微处理器μP根据程序Pg52的指令应用梯度反向传播算法以优化神经网络的偏置和突触权重的值。
然后,这些最优值54被存储在存储器M51中。
在搜索感兴趣点的第二阶段,从存储器M51中取出偏置和突触权重的最优值。处理单元50在输入上接收对象图像I。根据该图像,根据程序Pg52的指令工作的微处理器μP利用神经网络执行过滤并搜索在输出上获得的显著性图中的最大值。在处理单元50的输出上,获得在图像I中搜寻的每个感兴趣点的坐标值53。
基于通过本发明检测到的感兴趣点的位置,很多应用都是可能的,例如利用模型对面部进行编码,通过局部变形而固定的面部图像的合成动画,基于特征部分(眼睛、鼻子、嘴部)的外形识别和情感识别的方法,以及更一般地,使用人工视觉的人机交互(跟随用户正在观看、嘴唇阅读等的方向)。
附录1:人工神经元和多层感知器神经网络
1.概述
多层感知器是由分层组织的人工神经元组成的有向网络,其中信息仅在从输入层到输出层的一个方向上穿行。图6示出了包含输入层60、两个隐藏层61和62以及输出层63的网络例子。输入层C总是代表与系统的输入相关的虚拟层。它不包含神经元。下面的层61到63是神经层。作为一个规则,多层感知器可以具有任意多层并且每层具有任意多的神经元(或输入)。
在图6所示的例子中,神经网络具有3个输入、在第一隐藏层61上的4个神经元、在第二层62上的3个神经元以及在输出层63上的4个神经元。最后一层63的神经元的输出对应于系统的输出。
人工神经元是一个计算单元,它接收输入信号(X,实值向量),穿过带有权重(实值wj)的突触连接,并且送出实值y的输出。图7示出了这种类型的人工神经元的结构,在下面第2部分中将描述该神经元的工作。
图6的网络的神经元借助于加权的突触连接,在层与层之间彼此相连。正是这些连接的权重支配着网络的运转并且通过非线性转换对从输入空间到输出空间的应用进行“编程”。因此,为解决问题而创建多层感知器需要对可能的最佳应用的推断,这是通过由多对期望输入和输出向量组成的学习数据集合来定义的。
2.人工神经元
如上所述,人工神经元是一个计算单元,它接收由n个实值[x1,...,xi,...,xn]组成的向量X以及等于x0=+1的一个固定值。
每个输入xi激发用wi加权的突触。求和函数70计算势能V,该势能V在送入一个激活函数Ф后给出实值y的输出。
势能V被表示为:
V = Σ i = 0 n w i x i
数量w0x0被称为偏置,它对应于神经元的阈值。
输出y可以表示为以下形式:
y = Φ ( V ) = Φ ( Σ i = 0 n w i x i )
函数Ф根据所面对的应用可以采取不同的形式。
在本发明的用于定位感兴趣点的上下文中,使用两种类型的激活函数:
-对于线性激活函数下的神经元,我们有Ф(x)=x。这例如是图1的网络中的层C1和C3的神经元的情形;
-对于S形的非线性激活函数下的神经元,我们选择例如双曲正切函数,它的特性曲线显示在图8中: Φ ( x ) = tanh ( x ) = ( e x - e - x ) ( e x + e - x ) , 实值在-1和1之间。这例如是图1的网络中的层S2、N4和R5的神经元的情形。
附录2:梯度反向传播算法
如本申请文件前面所述,神经网络学习过程包括确定突触条件的所有权重,以便获得期望输出D的向量,它是输入向量X的函数。至此,构成了一个学习库,它由一列K个对应的输入/输出对(Xk,Dk)组成。
令Yk代表对于输入Xk在时刻t获得的网络输出,因此力图使输出层上的均方差最小化: E = 1 K Σ k = 1 K E k , 其中Ek=||Dk-Yk||2(1)。
为了实现这一目标,利用迭代算法实现梯度下降:E(t)=E(t-1)-ρE(t-1),其中 &dtri; E ( t - 1 ) = < &PartialD; E ( t - 1 ) &PartialD; w 0 , . . . . . , &PartialD; E ( t - 1 ) &PartialD; w j , . . . . , &PartialD; E ( t - 1 ) &PartialD; w P > 是均方差在时刻(t-1)相对于网络的P个突触连接权重的集合的梯度,并且其中ρ是学习步阶。
在神经网络中实施该梯度下降步骤需要梯度反向传播算法。
让我们假设一个神经网络,其中:
-c=0是输入层的下标;
-c=1...C-1是中间层的下标;
-c=C是输出层的下标;
-i=1到nc是下标为c的层的神经元;
-Si,c是下标为c-1的层中与下标为c的层的神经元i的输入相连的神经元的集合;
-Wj,i是从神经元j延伸到神经元i的突触连接的权重。
梯度反向传播算法采用两个连续的步骤,它们是前向传播和反向传播步骤。
-在前向传播步骤中,输入信号Xk穿过神经网络并激发输出响应Yk
-在反向传播中,误差信号Ek在网络中反向传播,使得突触权重可被修改,以最小化误差Ek
更具体地,这样的算法包括以下步骤:
将学习步阶ρ固定在足够小的正值(0.001的量级)
将动量α固定在0和1之间的正值(0.2的量级)
将网络的突触权重随机地重设为小值
重复
选择偶数奇偶性例子(Xk,Dk):
传播:按层的顺序计算神经元的输出:
将例子Xk载入输入层:Y0=Xk并且赋值
对于从1到C的层c
对于层c的每个神经元i(i从1到nc)
-计算势能: V i , c = &Sigma; j &Element; S i , c w j , i y j , c - 1 和输出,
其中,
反向传播:按层的逆序计算:
对于从C到1的层c
对于层c的每个神经元i(i从1到nc)
-计算:
Figure S2006800149363D00184
其中,Φ′(x)=1-tanh2(x)
-更新到达神经元i的突触的权重:
&Delta; w j , i new = &rho; &delta; i , c y j , c - 1 + &alpha;&Delta; w j , i old ,j∈Si,c
其中ρ是学习步阶,α是动量
( &Delta; w j , i old = 0 ,在第一次迭代期间)
w j , i new = w j , i + &Delta; w j , i new j∈Si,c
&Delta; w j , i old = &Delta; w j , i new j∈Si,c
w j , i = w j , i new j∈Si,c
-计算均方差E(cf.方程1)
一直到E<ε或者如果已经达到迭代的最大次数。

Claims (11)

1.一种用于定位对象图像中的至少两个感兴趣点的系统,其特征在于该系统应用人工神经网络并呈现分层的体系结构,该系统包括:
接收所述对象图像的输入层(E);
至少一个中间层(N4),被称为第一中间层,包括多个神经元(N41),这些神经元使得能够生成至少两个显著性图(R5m),每个显著性图与所述对象图像的一个预定义的不同的感兴趣点相关联;
至少一个包括所述显著性图(R5m)的输出层(R5),
所述显著性图包括多个神经元,每个神经元与所述第一中间层的所有神经元相连,
借助于在每个所述显著性图上的唯一总体最大值的位置(171,172,173,174),在对象图像中定位所述感兴趣点。
2.根据权利要求1的定位系统,其特征在于所述对象图像是面部图像。
3.根据权利要求1和2之一的定位系统,其特征在于还包括至少一个包括多个神经元(C1i,C3k)的第二中间卷积层(C1,C3)。
4.根据权利要求1到3之一的定位系统,其特征在于还包括至少一个包括多个神经元(S2j)的第三亚抽样中间层(S2)。
5.根据权利要求1和2之一的定位系统,其特征在于该定位系统在所述输入层(E)和所述第一中间层(N4)之间包括:
第二中间卷积层(C1),该层包括多个神经元(C1i),并使得能够在所述对象图像中检测至少一个基本线型形状,所述第二中间层送出卷积对象图像;
第三中间亚抽样层(S2),该层包括多个神经元(S2j),并使得能够减小所述卷积对象图像的大小,所述第三中间层送出减小的卷积对象图像;
第四中间卷积层(C3),该层包括多个神经元(C3k),并使得能够在所述减小的卷积对象图像中检测至少一个角型复杂形状。
6.一种用于根据权利要求1所述的用于定位对象图像中的至少两个感兴趣点的系统的神经网络的学习方法,每个所述神经元具有至少一个用突触权重(w1-wn)加权的输入以及偏置(x0,w0),
其特征在于该学习方法包括以下步骤:
构建学习库,该学习库包括多个被标注为待定位的所述感兴趣点的函数的对象图像;
初始化所述突触权重和/或所述偏置;
对于所述学习库的所述标注图像中的每一个:
-由在所述图像上所述至少两个标注的、预定义的感兴趣点中的每一个在输出上准备所述至少两个期望的显著性图(D5m);
-在所述系统的输入上呈现所述图像,用于定位和确定在输出上送出的所述至少两个显著性图(R5m);
在所述学习库的所述标注图像的集合上,最小化在输出上送出的(R5m)所述期望的显著性图(D5m)之间的差,以便确定所述突触权重(w1-wn)和/或所述最优偏置(w0)。
7.根据权利要求6的学习方法,其特征在于:所述最小化是在输出上送出的(R5m)所述期望的显著性图(D5m)之间的均方差的最小化,并且应用迭代梯度反向传播算法。
8.一种用于定位对象图像中的至少两个感兴趣点的方法,该方法包括以下步骤:
在采用人工神经网络的分层体系结构的输入上呈现所述对象图像;
连续地激活至少一个中间层(N4)和至少一个输出层(R5),所述至少一个中间层(N4)被称为第一中间层,包括多个神经元(N4l),使得能够生成至少两个显著性图(R5m),每个显著性图与所述对象图像的一个预定义的不同的感兴趣点相关联,所述至少一个输出层(R5)包括所述显著性图(R5m),所述显著性图包括每一个都连接到所述第一中间层(N4)的所有神经元的多个神经元;
通过在所述显著性图(R5m)中搜索在每一个所述图上的唯一总体最大值的位置(171-174),定位所述对象图像中的所述感兴趣点。
9.根据权利要求8的方法,其特征在于该方法包括以下预备步骤:
在无论任何图像(46)中检测(40)围绕所述对象并且构成所述对象图像(44,45)的区域;
重定(41)所述对象图像的大小。
10.一种包括程序代码指令的计算机程序,当所述程序被处理器执行时,该程序用于执行根据权利要求6和7之一所述的用于神经网络的学习方法。
11.一种包括程序代码指令的计算机程序,当所述程序被处理器执行时,该程序用于执行根据权利要求8和9之一所述的用于定位对象图像中的至少两个感兴趣点的方法。
CNA2006800149363A 2005-03-31 2006-03-28 采用神经网络定位对象图像中的感兴趣点的系统和方法 Pending CN101171598A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0503177 2005-03-31
FR0503177A FR2884008A1 (fr) 2005-03-31 2005-03-31 Systeme et procede de localisation de points d'interet dans une image d'objet mettant en oeuvre un reseau de neurones

Publications (1)

Publication Number Publication Date
CN101171598A true CN101171598A (zh) 2008-04-30

Family

ID=35748862

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006800149363A Pending CN101171598A (zh) 2005-03-31 2006-03-28 采用神经网络定位对象图像中的感兴趣点的系统和方法

Country Status (6)

Country Link
US (1) US20080201282A1 (zh)
EP (1) EP1866834A2 (zh)
JP (1) JP2008536211A (zh)
CN (1) CN101171598A (zh)
FR (1) FR2884008A1 (zh)
WO (1) WO2006103241A2 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639937B (zh) * 2009-09-03 2011-12-14 复旦大学 一种基于人工神经网络的超分辨率方法
CN102567397A (zh) * 2010-12-30 2012-07-11 高德软件有限公司 兴趣点、连锁店分店兴趣点关联标记的方法与装置
CN105981041A (zh) * 2014-05-29 2016-09-28 北京旷视科技有限公司 使用粗到细级联神经网络的面部关键点定位
CN106033594A (zh) * 2015-03-11 2016-10-19 日本电气株式会社 基于卷积神经网络所获得特征的空间信息恢复方法及装置
CN107220581A (zh) * 2016-03-21 2017-09-29 福特全球技术公司 通过后置摄像机的行人检测和运动预测
CN107315571A (zh) * 2016-04-27 2017-11-03 北京中科寒武纪科技有限公司 一种用于执行全连接层神经网络正向运算的装置和方法
CN108027896A (zh) * 2015-03-18 2018-05-11 赫尔实验室有限公司 用于解码具有连续突触可塑性的脉冲储层的系统和方法
CN109002891A (zh) * 2018-03-15 2018-12-14 小蚁科技(香港)有限公司 神经网络的基于特征的选择性控制
CN109491704A (zh) * 2018-11-08 2019-03-19 北京字节跳动网络技术有限公司 用于处理信息的方法和装置
CN109744996A (zh) * 2019-01-11 2019-05-14 中南大学 Oct图像的bmo位置定位方法

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009155415A2 (en) * 2008-06-20 2009-12-23 Research Triangle Institute Training and rehabilitation system, and associated method and computer program product
US8374436B2 (en) * 2008-06-30 2013-02-12 Thomson Licensing Method for detecting layout areas in a video image and method for generating an image of reduced size using the detection method
US8229209B2 (en) * 2008-12-26 2012-07-24 Five Apes, Inc. Neural network based pattern recognizer
US8160354B2 (en) * 2008-12-26 2012-04-17 Five Apes, Inc. Multi-stage image pattern recognizer
US8290250B2 (en) 2008-12-26 2012-10-16 Five Apes, Inc. Method and apparatus for creating a pattern recognizer
KR101558553B1 (ko) * 2009-02-18 2015-10-08 삼성전자 주식회사 아바타 얼굴 표정 제어장치
US9405975B2 (en) 2010-03-26 2016-08-02 Brain Corporation Apparatus and methods for pulse-code invariant object recognition
US9906838B2 (en) 2010-07-12 2018-02-27 Time Warner Cable Enterprises Llc Apparatus and methods for content delivery and message exchange across multiple content delivery networks
US8532390B2 (en) 2010-07-28 2013-09-10 International Business Machines Corporation Semantic parsing of objects in video
US9134399B2 (en) 2010-07-28 2015-09-15 International Business Machines Corporation Attribute-based person tracking across multiple cameras
US8515127B2 (en) 2010-07-28 2013-08-20 International Business Machines Corporation Multispectral detection of personal attributes for video surveillance
US10424342B2 (en) 2010-07-28 2019-09-24 International Business Machines Corporation Facilitating people search in video surveillance
US9224090B2 (en) 2012-05-07 2015-12-29 Brain Corporation Sensory input processing apparatus in a spiking neural network
US9412041B1 (en) 2012-06-29 2016-08-09 Brain Corporation Retinal apparatus and methods
US9186793B1 (en) 2012-08-31 2015-11-17 Brain Corporation Apparatus and methods for controlling attention of a robot
US9311594B1 (en) 2012-09-20 2016-04-12 Brain Corporation Spiking neuron network apparatus and methods for encoding of sensory data
US9111226B2 (en) 2012-10-25 2015-08-18 Brain Corporation Modulated plasticity apparatus and methods for spiking neuron network
US9218563B2 (en) * 2012-10-25 2015-12-22 Brain Corporation Spiking neuron sensory processing apparatus and methods for saliency detection
US9183493B2 (en) 2012-10-25 2015-11-10 Brain Corporation Adaptive plasticity apparatus and methods for spiking neuron network
US9275326B2 (en) 2012-11-30 2016-03-01 Brain Corporation Rate stabilization through plasticity in spiking neuron network
US9239985B2 (en) 2013-06-19 2016-01-19 Brain Corporation Apparatus and methods for processing inputs in an artificial neuron network
US9436909B2 (en) 2013-06-19 2016-09-06 Brain Corporation Increased dynamic range artificial neuron network apparatus and methods
US9552546B1 (en) 2013-07-30 2017-01-24 Brain Corporation Apparatus and methods for efficacy balancing in a spiking neuron network
CN103489107B (zh) * 2013-08-16 2015-11-25 北京京东尚科信息技术有限公司 一种制作虚拟试衣模特图像的方法和装置
US10198689B2 (en) 2014-01-30 2019-02-05 Hrl Laboratories, Llc Method for object detection in digital image and video using spiking neural networks
US9984326B1 (en) * 2015-04-06 2018-05-29 Hrl Laboratories, Llc Spiking neural network simulator for image and video processing
US9533413B2 (en) 2014-03-13 2017-01-03 Brain Corporation Trainable modular robotic apparatus and methods
US9987743B2 (en) 2014-03-13 2018-06-05 Brain Corporation Trainable modular robotic apparatus and methods
US9195903B2 (en) 2014-04-29 2015-11-24 International Business Machines Corporation Extracting salient features from video using a neurosynaptic system
CN103955718A (zh) * 2014-05-15 2014-07-30 厦门美图之家科技有限公司 一种图像主体对象的识别方法
KR101563569B1 (ko) * 2014-05-28 2015-10-28 한국과학기술원 학습형 다이내믹 시각 이미지 패턴 인식 시스템 및 방법
US9373058B2 (en) 2014-05-29 2016-06-21 International Business Machines Corporation Scene understanding using a neurosynaptic system
US10115054B2 (en) 2014-07-02 2018-10-30 International Business Machines Corporation Classifying features using a neurosynaptic system
US9798972B2 (en) 2014-07-02 2017-10-24 International Business Machines Corporation Feature extraction using a neurosynaptic system for object classification
US9881349B1 (en) 2014-10-24 2018-01-30 Gopro, Inc. Apparatus and methods for computerized object identification
KR102288280B1 (ko) 2014-11-05 2021-08-10 삼성전자주식회사 영상 학습 모델을 이용한 영상 생성 방법 및 장치
US10650508B2 (en) 2014-12-03 2020-05-12 Kla-Tencor Corporation Automatic defect classification without sampling and feature selection
US9934437B1 (en) 2015-04-06 2018-04-03 Hrl Laboratories, Llc System and method for real-time collision detection
US9933264B2 (en) 2015-04-06 2018-04-03 Hrl Laboratories, Llc System and method for achieving fast and reliable time-to-contact estimation using vision and range sensor data for autonomous navigation
US9840003B2 (en) 2015-06-24 2017-12-12 Brain Corporation Apparatus and methods for safe navigation of robotic devices
WO2017015887A1 (en) * 2015-07-29 2017-02-02 Nokia Technologies Oy Object detection with neural network
CN105260776B (zh) * 2015-09-10 2018-03-27 华为技术有限公司 神经网络处理器和卷积神经网络处理器
JP2017059207A (ja) * 2015-09-18 2017-03-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像認識方法
CN105205504B (zh) * 2015-10-04 2018-09-18 北京航空航天大学 一种基于数据驱动的图像关注区域质量评价指标学习方法
US20170124409A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Cascaded neural network with scale dependent pooling for object detection
US10860887B2 (en) * 2015-11-16 2020-12-08 Samsung Electronics Co., Ltd. Method and apparatus for recognizing object, and method and apparatus for training recognition model
KR102554149B1 (ko) * 2015-11-16 2023-07-12 삼성전자주식회사 오브젝트 인식 방법 및 장치, 인식 모델 학습 방법 및 장치
WO2018052587A1 (en) * 2016-09-14 2018-03-22 Konica Minolta Laboratory U.S.A., Inc. Method and system for cell image segmentation using multi-stage convolutional neural networks
KR101804840B1 (ko) 2016-09-29 2017-12-05 연세대학교 산학협력단 컨벌루션 신경망 기반의 표면 영상 처리 방법 및 장치
KR101944536B1 (ko) * 2016-12-11 2019-02-01 주식회사 딥바이오 뉴럴 네트워크를 이용한 질병의 진단 시스템 및 그 방법
CN106778751B (zh) * 2017-02-20 2020-08-21 迈吉客科技(北京)有限公司 一种非面部roi识别方法及装置
JP6214073B2 (ja) * 2017-03-16 2017-10-18 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
CN108259496B (zh) 2018-01-19 2021-06-04 北京市商汤科技开发有限公司 特效程序文件包的生成及特效生成方法与装置、电子设备
CN112860168B (zh) 2018-02-08 2022-08-02 北京市商汤科技开发有限公司 特效程序文件包的生成及特效生成方法与装置、电子设备
JP6757349B2 (ja) 2018-03-12 2020-09-16 株式会社東芝 固定小数点を用いて認識処理を行う多層の畳み込みニューラルネットワーク回路を実現する演算処理装置
JP6996455B2 (ja) * 2018-08-31 2022-01-17 オムロン株式会社 検出器生成装置、モニタリング装置、検出器生成方法及び検出器生成プログラム
JP7035912B2 (ja) * 2018-08-31 2022-03-15 オムロン株式会社 検出器生成装置、モニタリング装置、検出器生成方法及び検出器生成プログラム
US11430084B2 (en) 2018-09-05 2022-08-30 Toyota Research Institute, Inc. Systems and methods for saliency-based sampling layer for neural networks
US11080884B2 (en) * 2019-05-15 2021-08-03 Matterport, Inc. Point tracking using a trained network
CN112825115A (zh) * 2019-11-20 2021-05-21 北京眼神智能科技有限公司 基于单目图像的眼镜检测方法、装置、存储介质及设备
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
EP4170678A4 (en) * 2020-07-23 2024-03-13 Deep Bio Inc METHOD FOR ANNOTATION OF DISEASE PATHOGEN SITE BY MEANS OF SEMI-SUPERVISED LEARNING, AND DIAGNOSTIC SYSTEM FOR ITS IMPLEMENTATION
US11532147B2 (en) * 2020-09-25 2022-12-20 Microsoft Technology Licensing, Llc Diagnostic tool for deep learning similarity models
KR20240056112A (ko) * 2022-10-21 2024-04-30 삼성전자주식회사 이미지에서 관심 영역을 식별하기 위한 전자 장치 및 그 제어 방법

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639937B (zh) * 2009-09-03 2011-12-14 复旦大学 一种基于人工神经网络的超分辨率方法
CN102567397A (zh) * 2010-12-30 2012-07-11 高德软件有限公司 兴趣点、连锁店分店兴趣点关联标记的方法与装置
CN102567397B (zh) * 2010-12-30 2014-08-06 高德软件有限公司 兴趣点、连锁店分店兴趣点关联标记的方法与装置
CN105981041A (zh) * 2014-05-29 2016-09-28 北京旷视科技有限公司 使用粗到细级联神经网络的面部关键点定位
CN106033594A (zh) * 2015-03-11 2016-10-19 日本电气株式会社 基于卷积神经网络所获得特征的空间信息恢复方法及装置
CN106033594B (zh) * 2015-03-11 2018-11-13 日本电气株式会社 基于卷积神经网络所获得特征的空间信息恢复方法及装置
CN108027896A (zh) * 2015-03-18 2018-05-11 赫尔实验室有限公司 用于解码具有连续突触可塑性的脉冲储层的系统和方法
CN107220581B (zh) * 2016-03-21 2022-04-29 福特全球技术公司 通过后置摄像机的行人检测和运动预测
CN107220581A (zh) * 2016-03-21 2017-09-29 福特全球技术公司 通过后置摄像机的行人检测和运动预测
CN107315571A (zh) * 2016-04-27 2017-11-03 北京中科寒武纪科技有限公司 一种用于执行全连接层神经网络正向运算的装置和方法
CN107315571B (zh) * 2016-04-27 2020-07-31 中科寒武纪科技股份有限公司 一种用于执行全连接层神经网络正向运算的装置和方法
CN109002891A (zh) * 2018-03-15 2018-12-14 小蚁科技(香港)有限公司 神经网络的基于特征的选择性控制
CN109491704A (zh) * 2018-11-08 2019-03-19 北京字节跳动网络技术有限公司 用于处理信息的方法和装置
CN109744996A (zh) * 2019-01-11 2019-05-14 中南大学 Oct图像的bmo位置定位方法

Also Published As

Publication number Publication date
FR2884008A1 (fr) 2006-10-06
JP2008536211A (ja) 2008-09-04
EP1866834A2 (fr) 2007-12-19
WO2006103241A3 (fr) 2007-01-11
WO2006103241A2 (fr) 2006-10-05
US20080201282A1 (en) 2008-08-21

Similar Documents

Publication Publication Date Title
CN101171598A (zh) 采用神经网络定位对象图像中的感兴趣点的系统和方法
Minetto et al. Hydra: An ensemble of convolutional neural networks for geospatial land classification
CN113065558B (zh) 一种结合注意力机制的轻量级小目标检测方法
Bergado et al. Recurrent multiresolution convolutional networks for VHR image classification
US20220358770A1 (en) Scene reconstruction in three-dimensions from two-dimensional images
CN105913025B (zh) 一种基于多特征融合的深度学习人脸识别方法
CN105678284B (zh) 一种固定位人体行为分析方法
US7711157B2 (en) Artificial intelligence systems for identifying objects
Ozcan et al. Lip reading using convolutional neural networks with and without pre-trained models
CN103996056A (zh) 一种基于深度学习的纹身图像分类方法
Ro et al. Backbone cannot be trained at once: Rolling back to pre-trained network for person re-identification
CN110490915A (zh) 一种基于卷积受限玻尔兹曼机的点云配准方法
Ge et al. Adaptive hash attention and lower triangular network for hyperspectral image classification
Maximili et al. Hybrid salient object extraction approach with automatic estimation of visual attention scale
CN115205903A (zh) 一种基于身份迁移生成对抗网络的行人重识别方法
Sayed et al. Thermal face authentication with convolutional neural network
CN108416325B (zh) 一种结合视角转换模型与隐马尔可夫模型的步态识别方法
Ehinger et al. Local depth edge detection in humans and deep neural networks
Rahimi et al. Uav sensor fusion with latent-dynamic conditional random fields in coronal plane estimation
Jia et al. A Center-masked Transformer for Hyperspectral Image Classification
CN115346091A (zh) 一种Mura缺陷图像数据集的生成方法和生成装置
CN110210574A (zh) 合成孔径雷达图像解译方法、目标识别装置及设备
Pinz et al. Neuromorphic methods for recognition of compact image objects
Hussain et al. Intra-class recognition of fruits using dcnn for commercial trace back-system
Salah et al. Improved approach for Semantic Segmentation of MBRSC aerial Imagery based on Transfer Learning and modified UNet

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20080430

C20 Patent right or utility model deemed to be abandoned or is abandoned