CN103890781B - 用于机器视觉的视网膜编码器 - Google Patents

用于机器视觉的视网膜编码器 Download PDF

Info

Publication number
CN103890781B
CN103890781B CN201280052177.5A CN201280052177A CN103890781B CN 103890781 B CN103890781 B CN 103890781B CN 201280052177 A CN201280052177 A CN 201280052177A CN 103890781 B CN103890781 B CN 103890781B
Authority
CN
China
Prior art keywords
algorithm
machine vision
image
retina
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280052177.5A
Other languages
English (en)
Other versions
CN103890781A (zh
Inventor
塞拉·尼伦伯格
伊利亚·鲍马斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cornell University
Original Assignee
Cornell University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cornell University filed Critical Cornell University
Publication of CN103890781A publication Critical patent/CN103890781A/zh
Application granted granted Critical
Publication of CN103890781B publication Critical patent/CN103890781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/007Transform coding, e.g. discrete cosine transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/62Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding by frequency transforming in three dimensions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30041Eye; Retina; Ophthalmic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)

Abstract

公开了一种方法,该方法包括:接收与一系列原始图像对应的原始图像数据;用编码器处理原始图像数据以生成编码数据,其中所述编码器的特征在于输入/输出转换,所述输入/输出转换本质上模拟脊椎动物视网膜的一个或多个视网膜细胞的输入/输出转换;以及将第一机器视觉算法用于至少一部分基于所述编码数据而产生的数据。

Description

用于机器视觉的视网膜编码器
相关申请的交叉引用
本申请要求序列号为61/527,493(2011年4月25日申请)和61/657,406(2012年6月8日申请)的美国临时申请的优先权。前述各申请的内容通过引用而整体并入本文。
本申请还与序列号为61/308,681(2010年2月26日申请)、61/359,188(2010年6月28日申请)、61/378,793(2010年8月31日申请)、61/382,280(2010年9月13日申请)的美国临时申请;序列号为13/230,488(2011年9月12日申请)的美国专利申请;以及序列号为PCT/US2011/026526(2011年2月28日申请)和PCT/US2011/049188(2011年8月25日申请)的国际专利申请有关。前述各申请的内容通过引用而整体并入本文。
关于联邦政府资助研究或开发的声明
本发明在美国政府的支持下进行,其获得了由美国国立卫生研究院(NIH)的美国国家眼睛研究所授予的R01EY12978号基金的资助。美国政府对本发明享有一定的权利。
技术领域
本发明涉及用于机器视觉的方法和设备。本发明特别涉及通过模拟动物视网膜性能的编码器处理图像,以及将所述处理的图像应用于机器视觉中的方法和设备。
背景技术
机器视觉(或计算机视觉)是指允许计算机使用可视化信息的技术,例如,从图像中提取信息,解决某些任务,或者是在广义或狭义上“理解”场景。通常,机器视觉关注的是从图像数据中提取信息。所述图像数据可以是多种形式,例如单个图像、视频序列、来自多个摄像机的视图,或更高维度的数据(例如,由医学扫描仪得到的三维图像)。
机器视觉有许多应用,可以是相对简单的任务,例如用于对生产线上经过的物体进行计数的工业系统,也可以是更复杂的任务,例如面部识别,以及感知任务(例如,允许机器人在复杂的环境中导航)。机器视觉的应用的非限制性例子包括用于控制过程(例如,工业机器人或无人驾驶车辆)、检测事件(例如,用于视觉监控或人数统计)、组织信息(例如,索引图像和图像序列数据库)、为物体或环境建模(例如,工业检查、医学图像分析或地形建模),以及交互(例如,作为用于人机交互装置的输入)的系统。
在许多应用中,机器视觉涉及高运算量的昂贵任务。单色数字图像可以由数百万或更多的像素组成,每个像素具有准值,例如定义颜色空间(例如,熟悉的RGB颜色空间、YCbCr空间、HSV空间,等)中像素的坐标的多个(例如,8或24)比特值。视频流可包括这些图像的序列,所述图像序列的帧频是,例如,每秒数十帧,相当于每秒数百兆比特的比特率或更多。许多机器视觉应用需要对这类图像或视频流进行快速处理(例如,追踪和应对物体的运动、识别或分类沿装配流水线移动的物体,以使机器人能够对它的环境作出实时反应,等)。
在这样的时间限制内处理这么大的数据量是非常具有挑战性的。因此,人们希望找到用于处理图像数据的技术,所述技术可以减少信息的原始数量,同时保持(甚至提高)对于手头的机器视觉任务而言最突出的图像数据的性质。所述预处理的图像数据,而不是原始数据,随后可被输入到机器视觉系统,同时能降低系统的处理负担,并允许足够迅速的反应和潜在的改进性能。
已认识到脊椎动物眼睛的视网膜提供的就是这种性质的图像处理,接受视觉刺激,并将所述刺激转换成大脑可以理解的形式。所述系统(进化了数百万年的进化过程)是非常高效和有效的,正如哺乳动物高水平的复合视觉感知(尤其是猴子和人类)所证明的。
已提出了多种方法来开发图像数据预处理方案,所述方案用于基于视网膜运作的抽象模型的机器视觉。然而,这些模型都基于大致近似于视网膜的实际表现。
背景技术部分的一部分改编自维基百科上提供的关于机器视觉的文章,该文章可从http://en.wikipedia.org/wiki/Computer_vision获得,并根据知识共享署名-相同方式共享许可来使用。
发明内容
本发明描述的实施方式使用了能近乎完整地复制视网膜执行的操作的编码器。如上文通过引用并入的国际专利申请(文下简称“假体应用”)中所详细描述的,所述编码器可用于开发高效视网膜假体。在本发明中,所述编码器被应用于机器视觉。
当被用作预处理步骤(具体而言,降维步骤),所述编码器本质上提高了机器视觉算法的性能。在某些实施方式中,编码器允许机器视觉算法在范围广阔的环境和照明条件中非常有效地提取信息,包括无法通过其他方法来提取的信息。在现有的机器视觉算法部分有效的情况下,这种降维可具有强有力的增强作用。所述编码器能够更有效地,以及更快、更高效地进行提取(性能更高)。
如在假体应用中所详细描述的,申请人已开发了一种假体装置,所述假体装置能接收刺激,并通过一组编码器将所述刺激转换成一组代码,通过接口将所述代码转换为信号,随后通过高分辨率传感器激活多个视网膜细胞,所述高分辨率传感器由来自所述接口的信号驱动。激活多个视网膜细胞使得视网膜神经节细胞对宽范围的刺激产生应答,其与来自正常视网膜的视网膜神经节细胞对相同刺激产生的时间依赖性应答本质上类似。申请人已认识到,在这类装置中使用的编码器可以适于处理图像数据,以用于机器视觉的应用。
在假体应用中所描述的视网膜假体像正常视网膜那样也是图像处理器-它从所接收到的刺激中提取必要的信息,并将信息重新格式化为大脑可以理解的动作电位的形式。由正常视网膜产生的动作电位的模式被称为视网膜代码或神经节细胞代码。视网膜假体将视觉刺激转换成相同的代码,或相近的代替模式,从而使被损坏或退化的视网膜可以产生正常或接近正常的输出。因为视网膜假体使用与正常视网膜相同的代码或其相近的代替模式,被损伤或退化的视网膜的神经节细胞的放电模式,即它们的动作电位与那些通过正常神经节细胞所产生的模式是相同的或本质上类似的。因此,所述假体允许视网膜将与正常视网膜相同的关于视觉世界的信号传送到大脑。
如在假体应用中所详细描述,编码器使用用于视网膜细胞的输入/输出模式,该模式通过来自真实视网膜细胞对各种刺激,例如,白噪声(WN)和自然场景(NS)影片的输入/输出的响应数据而产生。在某些实施方式中,编码器基于线性非线性级联模式,该模式包括特征在于具有若干参数的时空转换。这些参数根据从真实视网膜实验获得的数据进行优化,从而产生能近似模拟真实细胞对较宽范围的刺激进行响应的转换。结果得到能捕捉自然图像(静态或随时空改变)的输入/输出关系的模式,如人脸、风景、正在走路的人、孩子在玩耍等,而不只是针对白噪声刺激或具有高斯统计的刺激。在假体应用中,以及在下文将具体讨论的图18A-18F中显示了对较宽范围刺激的有效性。
由于这种方法利用通过实验获得的数据,生成的编码器可以准确地模拟视网膜的处理,而不需要详细的对视网膜潜在处理方案的抽象理解。例如,可以认为,灵长类和人类视网膜的处理突出的是视觉刺激中对模式识别的任务(例如,面部识别)有用的特征,而不强调或消除其它特征(例如,冗余信息或噪声),以便大脑可以高效地进行处理。然而,尚未对作为亿万年自然选择过程结果的所述处理方案细节有完整的抽象理解。然而,尽管缺乏所述抽象理解,通过准确地模拟视网膜响应,本文所述的装置和技术可以获得所述处理的优点。
换句话说,在本文所述不同的实施方式中,方法是数据驱动的-也就是说,它采用视网膜输入/输出关系的数据驱动模式,从而能提供逼真的图像预处理。这使下游机器视觉算法具有能完成与生物视网膜相同种类和相同数量级降维的预处理步骤,并因此提供与生物视网膜相同的一系列优势。
需要注意的是,在一般情况下,先前的预处理器使用,例如高斯差型过滤器,来过滤图像数据,本文所描述的方法与先前的预处理器不同,因为本文的预处理器可以对视网膜进行完整或接近完整的模拟。同样的,它不同于其他线性非线性级联模式,差别在于它对较宽范围的刺激有效,而不只是对白噪声刺激或具有高斯统计的刺激有效。因此,过滤更彻底,而且大大提高了现有机器视觉算法的能力。最重要的是,它可以让现有的机器视觉算法来概括,即,在一项设置中(一种环境或照明条件)被培训,并能推广到其他环境中,而这一直以来是长期存在的挑战(参见例如,下文中具体描述的图10、图11和图15)。
此外,在一些实施方式中,由于视网膜的处理为较宽范围的刺激(例如,同时使用WN产生的数据和NS产生的数据优化得到的结果)准确地建模,机器视觉系统的预处理能在很宽范围的条件(类似于视网膜在很宽范围的条件下工作的方式)下良好运行。有利的是,这使得视网膜预处理技术能被用于根据各种条件(例如,光照变化、复杂的、变化的视觉场景、许多不同的环境等)需要强健性能的机器视觉应用中。
一方面,公开了一种方法,所述方法包括:接收原始图像数据,所述原始图像数据与一系列原始图像对应;用编码器处理所述原始图像数据,以生成编码数据,其中所述编码器的特征在于输入/输出转换,该输入/输出转换本质上模拟脊椎动物视网膜的一个或多个视网膜细胞的输入/输出转换;以及将第一机器视觉算法用于至少部分基于所述编码数据而产生的数据。
一些实施方式包括根据编码数据产生一系列视网膜图像。一些实施方式包括根据编码数据确定所述视网膜图像中的像素值。在一些实施方式中,根据编码数据确定所述视网膜图像中的像素值的步骤包括,根据指示视网膜细胞响应的编码数据来确定像素强度或颜色。
在一些实施方式中,指示视网膜细胞响应的数据指示下述各项中的至少一项:视网膜细胞的放电频率、视网膜细胞输出脉冲串,以及发生器电势。
一些实施方式包括将第一机器视觉算法用于所述一系列视网膜图像。
在一些实施方式中,机器视觉算法包括下述各项中的至少一项:对象识别算法、图像分类算法、面部识别算法、光学字符识别算法、基于内容的图像检索算法、姿态估计算法、运动分析算法、自我运动判定算法、运动追踪算法、光流确定算法、场景重建算法、三维体积识别算法,以及导航算法。
在一些实施方式中,当用于一系列视网膜图像时,所述机器视觉算法表现出比用于相应的一组未经编码器处理的原始图像时更好的性能。
在一些实施方式中,当用于一系列包括自然场景的视网膜图像时,所述机器视觉算法表现出比用于相应的一系列未经所述编码器处理的原始图像时更好的性能。
在一些实施方式中,所述机器视觉算法包括在一系列图像中检测或识别人的算法;并且其中当用于各种包括人在内的一系列视网膜图像时,所述机器视觉算法表现出比用于相应的一组未经所述编码器处理的原始图像时更好的检测或识别准确度。
在一些实施方式中,所述包括人的一系列图像包括位于自然场景中的人的图像。
在一些实施方式中,所述包括人的一系列图像包括位于自然场景中的人的图像,所述位于自然场景中的人的图像不同于用于训练机器视觉算法的自然场景的图像。
在一些实施方式中,所述机器视觉算法包括通过真实或虚拟的环境导航的算法,并且其中当用于一系列包括自然场景的视网膜图像时,该机器视觉算法表现出比用于对应的一组未经所述编码器处理的原始图像时更好的导航性能。
在一些实施方式中,当用于一系列包括自然场景的视网膜图像时,所述机器视觉算法在导航中表现出比用于对应的一组未经所述编码器处理的原始图像时更少的不希望的碰撞事件。
在一些实施方式中,所述一系列视网膜图像与未被用于训练所述机器视觉算法的环境对应。
一些实施方式包括将机器成像算法用于一系列视网膜图像,以识别一个或多个目标视网膜图像;并且识别与所述目标视网膜图像对应的一个或多个目标原始图像。一些实施方式包括处理所述目标原始图像。在一些实施方式中,处理所述目标原始图像包括将第二机器视觉算法用于所述目标原始图像。在一些实施方式中,所述第一机器视觉算法包括已经在一组视网膜图像上训练过的算法;并且所述第二机器视觉算法包括已经在一组原始图像上训练过的算法。
在一些实施方式中,应用所述第一机器视觉算法包括应用导航算法。在一些实施方式中,应用所述导航算法包括:处理所述一系列视网膜图像,以确定指示所述一系列图像中多个图像位置的运动的运动信息;根据所述运动信息对所述一系列图像的空间区域进行分类;以及根据所述空间区域的分类生成导航决定。在一些实施方式中,所述运动信息指示所述一系列图像中的光流。一些实施方式包括使用卷积神经网络对所述空间区域进行分类。
一些实施方式包括根据导航算法得到的结果来控制机器人装置的运动。
一些实施方式包括根据导航算法得到的结果来控制虚拟空间中虚拟对象的运动。
一些实施方式包括根据所述视网膜图像训练机器视觉算法。在一些实施方式中,训练所述机器视觉算法包括:(i)将所述机器视觉算法用于一组视网膜图像,以产生输出;(ii)根据所述输出,确定指示所述机器视觉算法性能的性能信息;以及(iii)根据所述性能信息,调整所述机器视觉算法的一个或多个特性。一些实施方式包括迭代地重复步骤(i)至(iii),直至达到选定的性能标准为止。
在一些实施方式中,所述经过训练的机器视觉算法的特征在于一组参数,并且其中所述参数不同于通过用与所述视网膜图像对应的原始图像对机器视觉算法进行同等训练所获得的对应参数。
在一些实施方式中,用编码器处理所述原始图像数据以生成编码数据,包括生成编码数据,相对于相应的原始图像数据,该编码数据包含的信息量减少;在一些实施方式中,当用于一系列视网膜图像时,所述机器视觉算法表现出比用于相应的一组未经所述编码器处理的原始图像时更好的性能。
在一些实施方式中,所述编码数据所包含的信息量相对于相应的原始图像数据被压缩至少约1.5、2、3、4、5、6、7、8、9、10,或更多倍,例如在1.1-1,000或其任何子范围的范围内。
在一些实施方式中,脊椎动物包括下述各项中的至少一项:鼠和猴。
在一些实施方式中,所述视网膜细胞包括神经节细胞。在一些实施方式中,所述视网膜细胞包括至少两种类型的细胞。在一些实施方式中,所述至少两种类型的细胞包括ON细胞和OFF细胞。
在一些实施方式中,所述编码器的特征在于输入/输出转换,该输入/输出转换本质上模拟脊椎动物视网膜的一种或多种视网膜细胞的输入/输出转换,所述脊椎动物视网膜覆盖一定范围的输入,该输入包括自然场景图像,该自然场景图像包括随时空变化的图像。
在一些实施方式,用编码器处理所述原始图像数据以生成编码数据的步骤包括:处理所述原始图像数据以生成多个值X,将所述多个X值转换成多个响应值λm,λm指示视网膜中视网膜细胞m的相应响应,并根据所述响应值生成编码数据。在一些实施方式中,所述响应值与视网膜细胞放电频率对应。在一些实施方式中,所述响应值与所述视网膜细胞放电频率的功能对应。在一些实施方式中,所述响应值与视网膜细胞输出脉冲对应。在一些实施方式中,所述响应值与视网膜细胞发生器电势对应,即,用时空滤波器卷积所述图像的输出。
在一些实施方式中,用编码器处理原始图像数据以生成编码数据包括:从所述原始图像数据接收图像,对于每个图像,重新调节亮度或对比度以生成重缩放的图像流;从所述重缩放的图像流接收一组N个重缩放图像,并将时空转换用于所述一组N个图像,以生成一组视网膜响应值,所述一组值中的每个值与所述视网膜细胞中的每一个对应;根据视网膜响应值生成所述编码数据。
在一些实施方式中,所述响应值包括视网膜细胞放电频率。在一些实施方式中,N是至少5、至少约20、至少约100或更多,例如,在1-1,000的范围或其任何子范围内。
在一些实施方式中,应用时空转换包括:用时空核函数卷积所述N个重缩放图像,以生成一个或多个空间-时间上转换的图像;并且将非线性函数用于所述空间-时间上转换的图像,以生成一组响应值。
在一些实施方式,应用时空变换包括:用空间核函数卷积所述N个重缩放图像,以生成N个空间转换的图像;用时间核函数卷积N个空间转换的图像以生成时间转换的输出;并且将非线性函数用于所述时间转换的输出以生成所述一组响应值。
在一些实施方式中,所述编码器的特征在于一组参数,并且其中当脊椎动物视网膜暴露于白噪声和自然场景刺激时,使用从所述视网膜通过实验获得的响应数据来确定所述参数的值。
在一些实施方式中,设置所述编码器,从而使得测试输入刺激和从所述编码数据重构的相应刺激之间的皮尔森相关系数为至少约0.35、0.65,至少约0.95,或更多,例如,在0.35-1.0的范围或其任何子范围内,所述编码数据在响应所述测试输入刺激时由编码器产生。在一些实施方式中,所述测试输入刺激包括一系列自然场景。
另一方面,公开了一种装置,所述装置包括:至少一个存储装置,该存储装置被配置为存储原始图像数据;至少一个处理器,该处理器可操作地与所述存储器耦合,并且该处理器被编程以执行如本文所述的一种或多种方法。
在一些实施方式中,公开了具有计算机可执行的指令、用于执行如本文所述的一种或多种方法的步骤的非临时性计算机可读介质。
另一方面,公开了一种系统,所述系统包括:至少一个存储装置,存储与一系列图像对应的编码数据,其中所述编码数据的生成是通过:接收与一系列原始图像对应的原始图像数据,并且用编码器处理所述原始图像数据以生成编码数据,其中所述编码器的特征在于输入/输出转换,该输入/输出转换本质上模拟脊椎动物视网膜的一个或多个视网膜细胞的输入/输出转换。在一些实施方式中,所述至少一个存储装置存储指示所述编码数据和所述原始图像数据之间对应关系的数据库信息。
一些实施方式包括处理器,所述处理器被配置成:接收与一系列查询图像对应的查询图像数据;用编码器处理所述查询图像数据,以生成编码数据,其中所述编码器的特征在于输入/输出转换,所述输入/输出转换本质上模拟脊椎动物视网膜的一个或多个视网膜细胞的输入/输出转换;比较所述编码查询图像数据与存储装置上的编码数据;并且基于(a)所述编码查询数据与所述存储装置上的编码数据的比较,以及(b)指示所述编码数据和所述原始图像数据之间对应关系的数据库信息,确定所述查询图像数据和所述原始图像数据之间的对应关系。
另一方面,公开了一种方法,所述方法包括:接收与一系列原始图像对应的原始图像数据;用编码器处理所述原始图像数据的至少第一部分,以生成第一编码数据,其中所述编码器的特征在于输入/输出转换,该输入/输出转换本质上模拟第一种脊椎动物类型的第一脊椎动物视网膜的一个或多个视网膜细胞的输入/输出转换;以及用编码器处理所述原始图像数据的至少第二部分,以生成编码数据,其中所述编码器的特征在于输入/输出转换,该输入/输出转换本质上模拟与第一种脊椎动物类型不同的第二种脊椎动物类型的第二脊椎动物视网膜的一个或多个视网膜细胞的输入/输出转换。
一些实施方式包括,根据所述第一编码数据,选择所述原始图像数据的第二部分用于处理。
在各种实施方式中,所述原始图像数据本质上从图像检测器,或从存储所述原始图像数据的存储器,或从所述图像检测器和存储器的组合中实时接收。
另一方面,公开了一种装置,所述装置包括:至少一个存储装置,该存储装置被配置为存储原始图像数据;至少一个处理器,该处理器可操作地与所述存储器耦合,并且该处理器被编程以执行如本文所述的一种或多种方法。
另一方面,公开了具有计算机可执行的指令、用于执行如本文所述的一种或多种方法的步骤的非临时性计算机可读介质。
另一方面,公开了一种系统,所述系统包括:至少一个存储装置,存储与一系列图像对应的编码数据,其中所述编码数据的生成是通过:接收与一系列原始图像对应的原始图像数据;并且用编码器处理所述原始图像数据,以生成编码数据,其中所述编码器的特征在于输入/输出转换,该输入/输出转换本质上模拟脊椎动物视网膜的一个或多个视网膜细胞的输入/输出转换。在一些实施方式中,所述至少一个存储装置存储指示所述编码数据和所述原始图像数据之间对应关系的数据库信息。
各种实施方式可以单独地或以任何合适的组合方式包括任何上文所述的元素。
附图说明
图1是显示了示例性机器视觉系统的框图。
图2是举例说明了编码器模块运行的流程图。
图3A举例说明了原始图像流(人穿过复杂的环境)转换成视网膜图像流。板A显示了由摄像头获得的原始图像流的若干帧。板B显示了相应的视网膜图像流的若干帧。显示了四个不同的视网膜图像流,每个视网膜图像流使用不同的阵列单元(OFF侏儒细胞、ON侏儒细胞、OFF伞状细胞(parasol cells),和ON伞状细胞,如图中所示)。
图3B-3F显示了原始图像(图3B)和视网膜图像的放大图。图3C-3F与图3A最后一栏对应。
图4是显示了用于训练图1所示机器视觉系统的机器视觉模块的训练系统的框图。
图5是举例说明图4的训练系统的操作的流程图。
图6举例说明了用于控制机器人通过迷宫的导航的机器视觉系统。机器人行进的路径以虚线表示。
图7是用于控制导航任务的机器视觉系统的一个实施方式的流程图。
图8显示了用于训练导航仪的原始图像流(影片)的若干帧。所述图像流是在使用如正文中所述的田园环境的虚拟环境中生成。顶部面板显示了图像流中的前5帧。底部面板显示了从图像流剩余部分选择的帧;显示了每30帧中的一个(即,每秒1帧)。
图9显示了用于测试所述导航仪的原始图像流(影片)的若干帧。显示了下述三组:A,田园环境(与用于训练导航仪的环境不同)的若干帧;B,郊区环境;以及C,广场环境(轮胎障碍训练场)。如图9所示,在虚拟环境中产生的图像流,各组的顶部面板显示了前四帧,并且底部面板显示了从影片其余部分选择的若干帧(在这种情况下,每15帧中的一个(即,每半秒1帧)。
图10举例说明了显示导航仪性能的轨迹,及其推广到不同环境的能力。如本文中以及图7的流程图所描述,用于学习导航任务的主要算法、以两种方法训练卷积神经网络(CNN):1)标准方法,即,使用原始视觉环境(原始图像流),以及2)使用其降维后的环境,即在它被编码器处理后。(使用的训练环境是田园环境,如图8所示)。随后在3个新的环境中测试所述导航仪的性能:与用于训练所述导航仪不同的田园环境、郊区环境和广场环境(每个环境的样品如图9所示)A.当导航仪从原始图像流获知环境时它的性能。值得注意的是杂乱无章的轨迹和碰撞。B.当导航仪从视网膜图像(编码器所产生的图像流)流获知环境时它的性能。值得注意的是直线路径和避开了障碍。
图11显示导航仪高性能的进一步证明;具体而言,它显示了高性能不仅推广到不同的环境(从田园环境到郊区环境到广场),而且它也可以推广到环境中不同的照明条件。A到F与太阳的不同位置对应,因此对应广场环境中不同的阴影条件;跨越日出到日落的光线条件,即,环境左侧地平线上30度至右侧地平线上30度。浅灰色,当用原始图像流训练导航仪时导航仪的性能(使用一个照明条件的田园环境,如图8所示)。如本图所示,导航仪被放置在新环境中时,导航仪的性能较低,并且该结论在各种光照条件下仍然保持正确。每条柱的高度与试验分数对应,在所述试验中导航仪成功留在轮胎路线中并不与轮胎中的任何一个碰撞。误差线表示平均数标准误差(SEM)。深灰色,当用视网膜图像流训练时的导航仪性能(使用同一个光照条件的相同的田园环境,但这次通过编码器处理)。如图所示,导航仪的性能较高,并在各种光照条件下保持这种高性能。因此,用视网膜图像流(即,用编码器产生的降维图像)训练导致高性能,这能同时推广到新环境以及多种照明条件(日出到日落,见上文)。
图12是用于控制面部识别任务的机器视觉系统的一个实施方式的流程图。
图13显示的是用于训练面部识别算法(如本文所述的维奥拉-琼斯-斯诺
(Viola-Jones-Snow)算法)的原始图像流(影片)的若干帧。以每秒24帧的速率记录所述图像流;本图中,显示了每12帧(每半秒1帧)。
图14显示了用于测试面部识别算法性能的原始图像流(影片)的若干帧。值得注意的是,这与图13中的是同一个人,但是在不同的环境中并具有不同的发型,等。如本文所述,面部识别算法的目的是要识别到属于目标人物的新的图像流,即使该算法是用此人的其他图像流进行训练)。如图13所示,以每秒24帧的速率记录所述图像流;本图中,显示了每12帧(每半秒1帧)。
图15显示了,当以下述两种方法训练时,所述面部识别算法的性能:1)使用标准方法,即,用原始图像数据流进行训练,以及2)用本申请中所描述的方法(即,使用编码器处理过的原始图像流)。在这两种情况下,用许多图像流进行面部识别算法训练(来自目标面部的4-5个视频的250-800两帧图像流和来自其他面部的>100个视频的2000个两帧图像流)。随后用来自之前没见过的视频,也就是没有在训练组中使用的视频,中的50-800个两帧图像流测定性能(来自训练和测试组的样本帧,参见图13和图14)。显示了两组任务的性能,其中一组中标准方法表现非常弱,另一组中表现较好。柱的高度表示试验分数,在所述试验中面部识别仪成功识别了目标面部。误差线表示平均数标准误差(SEM)。如图所示,当任务具有挑战性时(A),本申请所描述的方法比标准方法改进巨大(4倍)。当任务是不那么具有挑战性时,即当标准方法表现较好时,本申请所描述的方法仍然有改进(1.5倍)。
图16显示了将视网膜编码器方法和传统方法用于图像处理时的示例性混合图像处理方法的处理流程。
图17是使用视网膜编码数据的数字指纹的系统的框图。
图18A-18F举例说明了用自然场景影片测试时视网膜编码器模型的性能。在各图中,左侧显示的是常规的线性-非线性(LN)模型的性能,并且右侧显示了本申请中所描述的类型的线性-非线性(LN)模型的性能。通过光栅图和直方图(PSTHs)显示性能。
具体实施方式
图1显示了示例性的机器视觉系统100,所述系统配有摄像头102、编码器模块104、机器视觉模块106,以及由所述机器视觉模块控制的系统108。摄像头102接收视觉刺激并将视觉刺激转换为数字图像数据,例如数字图像流。所述数字图像数据在本文中可被称为“原始”图像数据。但是应当理解的是,所述原始图像数据可包括在用视网膜编码器处理之前的任何图像数据。
编码器模块104接收图像数据,并使用一种或多种本文所述类型的视网膜编码器和/或假体应用处理所述数据。被称为“视网膜图像数据”的编码器模块输出,被传送到处理所述视网膜图像数据的机器视觉模块,该机器视觉模块例如通过一项或多项本领域已知和/或本文所描述的机器视觉技术处理视网膜图像数据。根据所述机器视觉处理,机器视觉模块106产生输出,所述输出可被用于任何合适的目的。如图所示,所述输出控制一个或多个系统108,例如,机器人系统。在一些实施方式中,可实时或接近实时地进行图像处理和/或控制。
应当理解的是,图1所示的系统是示例性的,并且可以使用各种其它类型的机器视觉系统。例如,在一些实施方式中,所述控制系统108可以不存在,例如,当所述机器视觉模块的输出被存储时,输出是用于进一步的处理等,而不是用于控制。在一些实施方式中,摄像头102可以被替换为,例如存储的图像数据源。在一些实施方式中,可包括附加的元件,例如,不同的处理器或控制器、用户控件、输入或输出装置等。
在各种实施方式中,摄像头102可以是能够将视觉刺激转换为数字形式,例如,数字图像流的任何设备。各种实施方式可包括基于电荷耦合器件(CCD)的设备;有源像素传感器(APS),例如互补式金属氧化物半导体(CMOS)传感器、薄膜晶体管(TFT)、光电二极管阵列,以及上述各项的组合。
由摄像头102所产生的数字图像中的每一个可包括至少0.01百万像素、至少0.1百万像素、至少100万像素、至少2百万像素,或更多,例如,在0.01-1000百万像素或其任何子范围的范围内。所述数字图像流的特征可以是帧速率(即,每秒的图像帧数)为至少10Hz、至少50Hz、至少100Hz或更多,例如,在范围为1-1000Hz或其任何子范围的范围内。所述数字图像可以是彩色、灰度、黑白的,或者其它合适类型的图像。
在一些实施方式中,摄像头基于电荷耦合器件(CCD)。在一个实施方式中,摄像头100是Point Grey Firefly MV装置(具有752x480像素,8位/像素,每秒60帧)(Point GreyResearch,里士满,不列颠哥伦比亚省,加拿大)。在另一个实施方式中,摄像头100是E-consystems eCAM50_OMAP_GSTIX,它集成了OmniVisionOV5642的摄像头模块,具有1280x720像素,8位/像素,每秒30帧)。
在一些实施方式中,图像由摄像头102获取并以足够的速度传送到编码器模块104,以允许设备100无滞后地进行操作。要做到这一点,在一些实施方式中,摄像头102和编码器模块104之间设置有高带宽连接。例如,可以使用摄像头和处理设备之间的USB2.0接口来实现大于20百万字节/秒的数据传输。在其它实施方式中,在摄像头和处理设备之间使用并行接口,如集成在OMAP3530处理器的摄像头图像信号处理器(Texas Instruments,达拉斯,德克萨斯州)中的并行接口。在各种实施方式中,可以使用其他合适的连接,包括有线或无线连接。摄像头102与编码器模块104的接口可通过能高速传输数据的任何连接实现,包括但不限于,串行接口,例如IEEE1394或USB2.0;并行接口;模拟接口,例如NTSC或PAL;无线接口。在一些实施方式中,摄像头可以与编码器模块集成到同一块板上。
通过本文所述的技术,编码器模块104实施图像流的处理,例如包括实施编码器将图像转换为代码,模拟视网膜电路的操作。由编码器确定的转换被应用到系列输入图像,产生编码输出。例如,编码后的输出可以是指示视网膜细胞放电频率的值的形式,所述放电频率为如果图像由视网膜接收时,由视网膜细胞所产生。所述输出也可以是,例如,指示视网膜细胞“发生器电势”的信息,即,视网膜模型的线性部分的输出(具有线性滤波器的图像卷积输出)。编码后的输出可以指示由视网膜细胞所产生的“尖峰”脉冲串。
在一些实施方式中,由于存在不同类型的视网膜输出细胞,不同编码器的集合可被用于更好地模拟正常视网膜的处理。差异可与特定细胞类型(例如,ON细胞或OFF细胞)对应,或与视网膜上的细胞位置(例如,在视网膜中央的细胞对周边的细胞)对应。当编码器模块104具有不止一个编码器时,所述编码器可以并行操作,这可以独立地或通过至少一个或多个连接机构来实现。
图2是举例说明编码器模块104的示例性实施方式的操作流程图。在步骤201中,编码器模块104接收来自摄像头102(或一些其它合适的来源)的一系列图像。在可选的步骤202中,这些原始图像经过预处理,例如,重新调整图像的对比度/亮度,将噪声滤波器用于图像,裁剪图像等。
在步骤203中,对原始图像进行处理,以确定指示视网膜细胞响应于所述图像的信息。例如,在一个实施方式中,在图像区域中的各位置,编码器处理所述图像流并输出随时间变化的值,所述值与将所述图像流投射到视网膜上时,由视网膜细胞(或细胞群)所产生的放电频率对应。在一个实施方式中,放电频率输出的格式如下:对于给定的时间t,输出为比特矩阵,其中在位置(x,y)处的元素,与在位置(x,y)处的视网膜细胞的放电频率对应。
值得注意的是,在一些实施方式中,编码器可以产生使用度量值而不是放电频率指示的视网膜细胞响应的信息。例如,编码器的输出可以与如上文所述的细胞的激活状态、细胞内电势、发生器电势等对应。
在步骤204中,来自步骤203的编码信息被用于生成适于被机器视觉模块106处理的图像(在本文中被称为“视网膜图像”或当用来指代随时间变化的图像时所用的“视网膜图像流”或“视网膜图像数据流”)。例如,当所述编码信息作为放电频率矩阵被输出时,如上文所述,可以产生放电频率视网膜图像,其中“视网膜图像”中每个像素的强度由矩阵中对应元素的放电频率值确定(例如参见图3)。可以使用放电频率和像素强度之间的任何合适的关系,包括线性关系、非线性关系、多项式关系、对数关系,等。放电频率和像素强度之间的转换可以使用任何合适的技术,包括使用查表来实现。在一些实施方式中,视网膜图像中放电频率可以用图像特征而不是强度来表示。例如,在视网膜图像是彩色图像的实施方式中,每个像素的颜色空间坐标可以与放电频率对应。
在可选的步骤205中,视网膜图像被后期处理。可以使用任何合适的处理技术,包括,例如,重新调整、滤波、剪切、平滑处理等。在步骤206中,视网膜图像被输出到机器视觉模块106。
值得注意的是,在一些实施方式中,可以省略步骤204和步骤205。在这种情况下,编码器的输出可以直接传送到机器视觉算法进行处理。对本领域技术人员而言,如下文中将更加显而易见的是,在某些情况下这可能需要改进已知的机器视觉算法,以接收未格式化为传统图像数据的输入数据。然而,在许多实施方式中,可以通过简单的方式实现,而不需要改进特定算法的核心概念。
在一些实施方式中,每个编码器执行预处理步骤,随后为时空转换步骤。所述预处理步骤是重新调整的步骤,这可以在处理设备的预处理器模块中执行,所述预处理步骤将真实世界的图像I,映射成量X,X在时空转换的工作范围内。值得注意的是,I和X是随时间变化的量,即I(j,t)代表真实图像中每个位置j和时间t的强度,并且X(j,t)代表预处理步骤的相应输出。预处理步骤可以进行如下映射:通过X(j,t)=a+b I(j,t)将I(j,t)映射到X(j,t),其中a和b是选定的常数,所述常数用于将真实世界图像强度的范围映射为时空转换的工作范围。
还可以使用变量史(variable history)进行重新调整,以确定a和b的量,并且可以使用开关设置这些量在不同条件下(例如,不同光照或不同常数)的值。
对于灰度图像而言,针对各位置j和时间t,I(j,t)和X(j,t)均只有一个值。
对于有色图像而言,采用相同的策略,但是其被分别用于红、绿和蓝各颜色通道。在一个实施方式中,针对各位置j和时间t,强度I(j,t)有三个值(I1,I2,I3),其中这三个值I1,I2,I3分别表示红、绿、和蓝的强度。然后利用上述转换将各强度值重新调整为其对应的X值(X1,X2,X3)。
在一个实施方式中,采用线性-非线性级联(在Chichilnisky EJ2001;Simoncelliet al2004中有综述)实现时空转换步骤,其中各神经节细胞m的放电频率λm由下式给出:
λm(t;X)=Nm((X*Lm)(j,t) (1)
其中*表示时空卷积,Lm是线性滤波器,Lm对应于第m个细胞的时空核,并且Nm是描述第m个细胞非线性的函数,如之前章节所述,X是预处理步骤的输出,j是像素位置,t是时间。随后可使用放电频率λm来生成如上文所述的放电频率视网膜图像。
采用空间函数和时间函数的乘积对Lm参数化。例如,在一个实施方式中,空间函数由网格中各像素的权重组成(例如,照相机中的数字化图像),但还可以使用其它替代方案,如网格上正交基函数之和。在一个实施方式中,网格由10×10的像素阵列组成,整个视觉空间为26×26度(其中在视觉空间中每个像素为2.6×2.6度),但是也可以使用其它替代方案。例如,由于对应于视网膜神经节细胞的视觉空间面积随视网膜上空间位置和物种的不同而不同,因而总阵列尺寸可能不同(例如,从为或约为0.1×0.1度至30×30度,其对应于在10×10的像素阵列中,各像素的视觉空间为或约为0.01×0.01度至3×3度)。可以理解,像素阵列的角度范围和尺寸仅用于解释某个特定的实施方式,在本发明还包括其它的像素阵列角度范围或尺寸。对于任意选定的阵列尺寸,阵列中的像素数还可以依据细胞代表的视觉空间中区域的形状而不同(例如,从为或约为1×1至25×25像素的阵列)。类似地,时间函数由若干时间块的权重之和组成,其在其它时间块的对数时间为升余弦函数(Nirenberg等2010;Pillow JW等2008)。也可以使用其它替代方案,如正交基函数之和。
在所述实施方式中,时间样本跨距为18个时间块,均为67毫秒,总持续时间为1.2秒,但也可以使用其它替代方案。例如,由于不同神经节细胞具有不同的时相性质,因而以块计的持续时间跨距和表示细胞动力学所需的块数均可以不同(例如,持续时间为或约为从0.5至2.0秒,块数为或约为从5至20)。时相性质还可以因物种不同而不同,但是此改变仍包括在上述范围之内。
还可以对公式1进行修改,以包括修改编码器输出的项,其依据既往史(即,细胞m已经产生的峰电位序列)和其它神经节细胞输出的既往史(Nirenberg等2010;Pillow JW等2008)。
在另一个实施方式中,线性滤波器Lm被参数化为Q项之和,其中各项为空间函数和时间函数的乘积。
其中表示外积,SkTk分别为kth空间和时间函数(k的范围为1至Q)。
在本实施方式中,如前文所描述的,可以对各空间函数进行参数化,例如作为网格上各像素的权重,或作为网格上正交基函数之和。如前所述,也可以对各时间函数进行参数化,例如在若干时间块作为权重之和,以及在其他时间块作为对数时间的升余弦函数。也可以使用其他替代方案,如正交基函数之和。
在一个实施方式中,Q为2,和Lm可以表示为
其中表示外积,S1和T1表示第一对空间和时间函数,以及S2和T2表示第二对空间和时间函数。
对于L的两组参数(空间和时间),可通过两个因素确定分辨率(像素尺寸,块尺寸)和跨距(像素数,时间块数)的选择:需要获得视网膜代码的合理近似的替代,并且需要保持参数的数量足够少,以使其能够通过实际最优化程序确定(例如,在假体应用中详述)。例如,如果参数数量太少或分辨率过低,则替代将不够准确。如果参数数量过多,则最优化程序将出现过度拟合,将无法获得转化结果(公式1)使用适宜的基函数集合是一种能够减少参数数量并因此避免过度拟合的策略,即“降维”策略。例如,可以通过10个权重之和与基函数对时间函数(覆盖18个时间块,各为67毫秒)进行参数化;参见假体应用的“实施例1,构建编码器的方法”部分和(Nirenberg等,2010;Pillow JW等2008)。
采用三次样条函数对非线性Nm进行参数化,但是也可以采用其它参数化方法,如分段线性函数、高阶样条函数、泰勒级数和泰勒级数的商数。在一个实施方式中,用带有7个结点的三次样条函数对非线性Nm进行参数化。对结点数量进行选择以准确捕获非线性形状,同时避免过度拟合(参见上述关于过度拟合的讨论)。需要有至少两个结点以控制终点,因此结点数的范围可以从约2到至少约12。结点的间距要覆盖模型的线性滤波器输出给出的数值范围。
对于时空转换步骤而言,除了上述线性-非线性(LN)级联以外,替代映射也包括在本发明的范围内。替代映射包括,但不限于,人工神经网络和其它滤波器的组合,如线性-非线性-线性(LNL)级联。此外,时空转换可以加入来自峰电位产生阶段的反馈(见下文)以提供历史相关性和神经元间的相互关系,如(Pillow JW等2008;Nichols等,2010)中描述。例如,可以通过将附加滤波器函数与峰电位产生器的输出进行卷积运算,并将这些卷积的结果通过公式1中非线性的验证而实现。
时空转换步骤还可以使用其它模型。模型的非限制性例子包括以下模型:PillowJW等2008中所描述的模型;动态增益控制;神经网络;表示为接近离散时间步长的积分、微分和普通代数公式的模型,其形式和系数通过实验数据确定;表示为由线性投射(输入与时空核的卷积)和非线性失真(通过参数化的非线性函数对得到的标量信号进行转换)所组成的顺序步骤结果的模型,通过实验数据确定其形式和系数;时空核为少量项之和的模型,所述各项为空间变量函数与空间变量函数与时间变量函数的乘积,其通过实验数据确定;所述空间和/或时间函数以一组基函数的线性组合表示的模型,基函数集合的大小小于空间或时间样本的数量,通过实验数据确定其权重;非线性函数由一个或数段组成的模型,其均为多项式,其截点和/或系数通过实验数据确定,且模型为上述模型输出的组合,其可能递归地通过如加、减、乘、除、开方、乘方以及超级函数(例如,求幂、正弦和余弦)等计算步骤组合。
如在假体应用中所描述,上文所述类型的编码器可以非常近似地模拟真实视网膜细胞的输入/输出功能。如本文所详述,在某些情况下,其特征可能在于,确定在每个像素处的重构视网膜图像的值与对应原始图像的值之间的标准皮尔森相关系数。因此,相关系数为1表明原始图像的所有信息被完全保留,而相关系数为0则表明重建与真实图像间相似的可能性很小。
例如,在一些实施方式中,设置编码器从而使得测试输入刺激和从编码器数据重构的相应刺激之间的皮尔森相关系数为至少约0.35、0.65,至少约0.95,或更高,例如,在0.35-1.0或其任何子范围的范围内,所述编码数据由编码器响应所述测试输入刺激时产生。在一些实施方式中,所述测试输入刺激包括一系列自然场景(例如,时空转变的场景)。
在一些实施方式中,对于较宽范围的输入,本文所述类型的视网膜编码器模拟真实视网膜细胞的输入/输出功能,例如,空间-时间变化的自然场景。在典型的实施方式中,该性能本质上比传统的编码器更好。
图18A-F举例说明了,当用自然场景的影片,包括风景、人步行等进行测试时,各细胞(分别为细胞1-6)的视网膜编码器模型的性能。在每幅图中,左侧显示的是常规的线性-非线性(LN)模型的性能,并且右侧显示的是在本申请中所述类型的线性-非线性(LN)模型的性能。通过光栅图和直方图(PSTHs)显示性能。常规的线性-非线性(LN)模型的开发仅基于视网膜细胞对白噪声刺激的实验响应。与此相反,本申请中所述类型的线性-非线性(LN)模型的开发是基于所记录的细胞对于白噪声和自然场景刺激的响应。
对于所示的例子,两种类型的模型的输入测试刺激都是在纽约中央公园拍摄的自然场景的影片。如图所示,标准LN模型对自然场景的刺激不是非常有效:也就是说,用白噪声构建的这个模型不会产生与真实细胞的尖峰模式近似匹配的尖峰模式。与此相反,本申请中所述的LN模型利用白噪声和自然场景的刺激所构建,它是非常有效的。它产生的尖峰模式与真实细胞所产生的近似匹配。(值得注意的是,用于测试模型的自然场景的影片与用于训练模型的不同,因为后者为验证任何模型所需。在每幅图中,值得注意的是,使用相同的真实细胞作为两种类型的模型的基准。最后,值得注意的是,本文所述类型的编码器模型的性能已经通过许多其他的刺激得到证实,包括面部、人行走、孩子们玩耍、山水、树木、小动物等的影片,如假体应用中的图,以及Nirenberg等.Retinal prosthetic strategywith the capacity to restore normal vision,PNAS2012,以及可从
www.pnas.org/lookup/suppl/doi:10.1073/pnas.1207035109/-/DCSupplemental获得的随附的补充信息部分中所示)。
可以从PSTHs得出关于性能的相同结论。浅灰色的踪迹显示的是真实细胞的平均放电频率;深灰色的踪迹显示的是模型细胞的平均放电频率。标准LN模型缺少放电频率的许多特征;图18A-18F中的每幅图均显示了标准模型所缺少区别特征的例子。但是本申请中所描述的模型,可靠地捕获了放电频率的特征,并且对于不同细胞的阵列也是如此(在假体应用中也显示了许多其他的例子)。
图3A举例说明了原始图像被转换成视网膜图像。板A显示了由摄像头102获取的原始图像流的若干帧。如图所示,原始图像流包括人步行穿过复杂的环境。板B显示了相应的视网膜图像的若干帧,其中所述视网膜图像的像素强度与由编码器模块104的编码器生成的放电频率对应。显示了四个不同的视网膜图像流,其中每个使用不同的细胞阵列(OFF侏儒细胞、ON侏儒细胞、OFF伞状细胞和ON伞状细胞,如图中所示)。需要注意的是,显示的视网膜图像的若干帧由编码器模块104在短暂的时滞后产生,其与天然视网膜的处理时滞时间对应(如所示,约80毫秒)。
需要注意的是,很明显,视网膜图像中所包含的信息总量小于原始图像中的信息总量。信息量的减少可以有利地减少机器视觉的处理负荷。此外,由于编码器模拟视网膜的行为,对于一些机器视觉的应用,保留在视网膜图像中的信息将包括现有机器视觉任务所需的显著特征,从而允许机器视觉模块106高效和有效地运行。
图3B-3F显示了与图3A最后一栏对应的原始图像(图3B)和视网膜图像(图3C-3F)的放大图。在原始图像中,一个人像正在一个相对静态、但是复杂的环境中从右向左移动。需要注意的是,在所有的视网膜图像(图3C-3F)中,静态环境已经不再强调改变程度,
而一直强调移动的人的模式。此外,在这两个图像中,“移动阴影”型效应明显地尾随人物影像,这指示了运动的方向。因此,虽然图像中包含的信息总量已经减少,但仍然强调特征,重要特征,即移动的人形。
需要注意的是,这些效果都不是任何有意设计的编程的结果。也就是说,编码器没有被有意地编程来确定移动的特征。相反,强调这些特征是编码器模拟发生在视网膜上的自然过程这一事实的结果。尽管某些种类的强调特征在本实例中是显而易见的(在静态背景中的人形移动),可以理解的是,对于其他类型的输入图像,视网膜可能强调其他类型的特征。核心概念是,对于任何给定的图像,强调的特征通常是那些基于数百万年视网膜进化而被确定为显著的特征。因此,如下文所详细描述,当所述视网膜图像用于已知生物视觉系统表现良好的机器视觉应用中时,所述视网膜图像会特别有优势(例如,某些类型的图形识别任务,例如,面部识别、识别相对于复杂环境的人或其它生命形式、复杂环境中的导航、对移动物体的快速跟踪和反应等)。
在一些实施方式中,编码器编码图像数据的时间与由正常或接近正常的视网膜进行的编码的时间大致相同。在不同的实施方式中,编码器以可接受的处理迟滞时间运行。如本文所使用的,处理迟滞时间是指由摄像头102接收到视觉刺激中事件发生到相应的输出代码(例如,相应的视网膜图像)递送至机器视觉模块106之间的时间量。在一些实施方式中,编码模块的迟滞时间小于约50毫秒、小于约20毫秒、小于约10毫秒、小于约5毫秒等,例如,在5-50毫秒或其任何子范围的范围内。
再次参考图1,机器视觉模块106从编码器模块104接收视网膜图像,并用任何合适的机器视觉技术处理所述图像。尽管本文提到了许多这样的技术,应当理解的是,这些实施例并非限制性的,也可使用其它技术。例如,在不同的实施方式中,可以使用在D.A.Forsyth,J.Ponce Computer Vision:A Modern Approach,普伦蒂斯·霍尔出版社(Prentice Hall),第二版,2011和/或D.H.Ballard,C.M.Brown;Computer Vision,普伦蒂斯·霍尔出版社,新泽西,1982(可于http://homepages.inf.ed.ac.uk/rbf/BOOKS/BANDB/bandb.htm获得),R.Szeliski,Computer Vision:Algorithms and Applications,Springer2010,可于
http://szeliski.org/Book/drafts/SzeliskiBook_20100903_draft.pdf获得);以及E.R.Davies,Computer and Machine Vision,第四版:Theory,Algorithms,Practicalities,Elsevier2012,中所描述的一种或多种技术。
在各种实施方式中,机器视觉模块106可以实施一项或多项可用的计算机视觉算法或软件工具,例如,OpenCV软件包中包括的任何一项,可在
http://opencv.willowgarage.com/wiki/获得,或甘道夫(Gandalf)计算机视觉软件包,可在http://gandalf-library.sourceforge.net/获得。
机器视觉模块106可以使用视网膜图像以进行任何合适的任务,包括识别任务(例如,对象识别、图像分类、面部识别、光学字符识别、基于内容的图像检索、姿态估计等)、运动分析任务(例如,自我运动判定、运动追踪、光流测定等)、建模任务(例如,场景重建、三维体积识别等)。
在一些实施方式中,机器视觉模块106可将视场划分为若干域,其尺寸可以是均等或不均等的。所述域可以重叠或不重叠。所述域可以覆盖视场的频带(例如,水平轴上的整个视野和垂直轴上的有限跨度),或者可以覆盖整个视场。
在一些实施方式中,机器视觉模块106可以将边界边缘检测技术用于视网膜图像,包括,例如,一阶边缘检测技术,如Canny边缘检测;二阶边缘检测技术;或者基于相位一致的边缘检测技术。边缘检测可能涉及对视网膜图像应用一项或多项转换,例如,霍夫(Hough)转换。
在一些实施方式中,机器视觉模块106可根据视网膜图像流计算光流。光流可指示视场中由观察者(眼睛或摄像头)与场景之间的相对运动引起的对象、表面和边缘的明显运动的模式。光流可用于任何数量的应用中,包括运动检测、目标分割、碰撞时间和扩展计算焦点等。用于计算光流的方法可以包括,相位相关法、基于块的方法、差分方法(如Lucas-Kanade、Horn-Schunck、Buxton-Buxton和Black-Jepson方法)、变分法、离散优化方法等。
在一些实施方式中,机器视觉模块106可以将一项或多项图像分割技术用于分割视网膜图像(例如,为了识别目标区域)。示例性的分割技术包括阈值化、聚类方法、基于压缩的方法、基于直方图的方法、边缘检测(例如,使用上文所述的边缘检测技术)、区域生长法分割与合并方法、基于偏微分方程的方法(例如,水平集方法)、图划分方法、基于分水线变换的方法、基于模型的分割方法、多尺度分割、半自动分割、基于神经网络的分割等。
在各种实施方式中,机器视觉模块106可以使用本领域中已知的任何计算机学习技术进行培训。计算机学习技术包括监督学习(例如,包括统计分类技术)、无监督学习、强化学习等。在一些实施方式中,机器视觉模块106可包括可以经训练后用于执行各种任务的一种或多种的人工神经网络。
图4举例说明了用于机器视觉系统100的训练机器视觉模块106的示例性的训练系统400。所述训练系统包括原始训练图像源402(例如,存储图像的数据库)、编码器模块404机器视觉模块108,以及控制器406,所述编码器模块404根据原始训练图像采用本文所述的技术产生视网膜图像,机器视觉模块108从编码器接收视网膜图像,控制器406监测并根据所监测到的性能改变机器视觉模块的操作。
图5是举例说明训练系统400的操作的流程图。在步骤501中,编码器404从源402接收训练图像。例如,训练图像可以是一系列的肿瘤医学图像,其中图像的第一部分已知与恶性肿瘤对应,而训练图像的第二部分与良性肿瘤对应。
在步骤502中,编码器将原始训练图像转换为视网膜图像。在步骤503中,所述视网膜图像被输出到机器视觉模块106。
在步骤504中,控制器406监测机器视觉模块106在处理视网膜图像以执行任务时的性能。在医学图像的例子中,机器视觉模块106可应用图像识别技术,从良性肿瘤图像中区分出恶性肿瘤的图像。控制器监测机器视觉模块106在执行任务(例如,计算区分恶性肿瘤的错误率)时的性能。如果性能是可以接受的,则过程在步骤505结束。如果性能是不能接受的(例如,如果出错率超过阈值电平),在步骤506中,控制器406调节机器视觉模块106(例如,通过修改一个或多个参数、通过改变人工神经网络中的连接等),并且该过程返回到步骤503。因此,控制器406反复调节机器视觉模块106,直到其性能达到可接受的水平(例如,出错率低于阈值电平)。
值得注意的是,在各种实施方式中,可以使用其它合适类型的训练。例如,除了或可供选择地将性能与固定阈值比较,训练还可实施收敛准则(例如,其中迭代训练持续直至每次迭代中性能递增低于阈值电平)。
在各种实施方式中,机器视觉模块106可以包括任何合适的控制技术,包括使用复杂的基于人工智能的系统。然而,对于许多应用而言,机器视觉模块106可以实施比较简单的控制方案。在一些这样的实施方式中,根据对编码器模块接收到的视网膜图像进行相对简单的即时分类,机器视觉106控制一个或多个系统操作的一部分或全部(例如,机器人的移动轨迹)。也就是说,控制不依赖于复杂的计划,但仅依赖于暂时的局部分类。有利的是,本领域中已知的学习算法已知适合于这些类型的相对简单的分类任务的性能。
例如,参考图6,在一个实施方式中,机器视觉系统100被用来控制机器人600来通过设有障碍物的环境,例如,如图所示的迷宫。机器视觉系统的摄像头102设置在机器人600上,并且具有能捕获机器人面前场景的视场。
来自摄像头102的视频流由编码器模块104处理,以产生视网膜图像流。在一个例子中,编码器模块可以模拟鼠视网膜神经节细胞的性能(例如,使用特征在于如假体应用中题为“小鼠神经节细胞编码器参数示例性集合”部分所述的编码器参数的编码器)。在另一种情况下,编码器模块可以模拟猴视网膜神经节细胞的性能(例如,使用特征在于如假体应用中题为“猴神经节细胞编码器参数示例性集合”部分所述的编码器参数的编码器)。
处理视网膜图像流,例如,使用光流技术,以确定图像中不同位置的移动速度。通常,图像中速度较慢的位置或域将与远离机器人600的物体对应,而速度更快的位置将与接近机器人的对象对应。为了避免撞上障碍,机器视觉模块106控制机器人朝一定方向移动,所述方向与图像中运动速度较慢的位置对应。
例如,在一个实施方式(如图7所示)中,视场(即,视网膜图像数据流)被图像分割步骤702分成N=7的大小相同的区域。在这个实施方式中,各区域不重叠,并且它们对摄像头的水平视场(即40°)从左至右进行划分,从而使得每个区域水平跨越5.7°;在垂直方向上,它们被限制在导航仪视场下半部分(即27°),从而使得这些地区垂直跨越13.5°)。以规律的间隔(例如,每2秒)从视网膜图像序列获取两个连续的视网膜图像,并传送到机器视觉模块106进行分类。由于每个视网膜图像被划分成N个区域,机器视觉模块接收N对区域。每一对区域通过卷积神经网络(CNN)704传送,所述卷积神经网络对所述区域的光流速度进行分类。所述分类的输出可以是每个区域i的速度标签Li,其中Li是介于1和M之间的数,1代表在所述区域中非常缓慢的平均速度,并且M代表非常快的平均速度。例如,M可以是8,因此有8种不同的速度等级。
结果是N分类的阵列706;基于此,由转向决定模块708作出转向决定。选择速度分类最慢的区域为“目标区域”(所朝向的区域),也就是数Li最小。如果有多个区域都为最慢的速度分类,转向决定模块708可选择最接近中心的区域(从而使转向量最小),或根据系统所需要的用途选择其他一些区域。一旦选定目标区域,机器视觉模块106(具体而言,机器视觉模块106中的转向决定模块708)启动转向使导航仪面对目标区域的中心。
上文所述的例子是指机器人的导航。应当理解的是,在各种实施方式中,上文所述技术可以被用于其它类型的导航系统,包括导航穿过虚拟世界,如下文的例子将所描述。
例如,通过将视网膜图像流的图像场分成几个区域或域,并将各区域分类为各速度类别,并控制机器人600朝与最低速度的类别的图像区域对应的方向移动,机器视觉模块106可识别并避免障碍物。可以通过相对简单的训练算法,如上文所述的CNN以及在下文实施例所述的算法,或推进算法(例如,AdaBoost算法,参见Yoav Freund,Robert E.Schapire“A Decision-Theoretic Generalization of on-Line Learning and Application toBoosting”,1995),训练机器视觉模块106来执行上述分类任务。
通常,所述装置和技术可被用于任何适当的应用,包括医学图像处理(例如,自动或计算机辅助医疗诊断)、机器人控制或导航、工业过程监测和控制、自动分拣应用、基于运动追踪的接口(例如,与计算机游戏系统一起使用)等。本文所述的装置和技术可实时或接近实时地操作,例如,允许上述的应用程序的实际自动化。
实施例—虚拟世界导航
在评价一种方法对机器视觉的有效性的一个实施例中,使用导航任务,因为这是特别具有挑战性的(需要同时处理时间和空间)。这种方法应用通常用于导航的多种学习算法的不同方面,例如,LeCun,Y.等所著(2010)Convolutional Networks and Applicationsin Vision.Proc.International Symposium on Circuits and Systems(ISCAS'10),pp.253-256.IEEE;Szarvas,M.等所著(2005)Pedestrian detection with convolutionalneural networks.Proc.Intelligent Vehicles Symposium,pp.224-229.IEEE;Jackel,L.D.等所著(2006)The DARPA LAGR program:Goals,challenges,methodology,and phaseI results.Journal of Field Robotics,23,945–973,这些文献通过整体引用并入本文。使用这些技术,导航仪被构造成通过卷积神经网络(CNN)(一种学习算法)来学习它的环境。使用名为Theano(公众可从http://deeplearning.net/software/theano/获得)的开源数值处理和自动微分包构建CNN。
设计导航仪以学习其所在的训练环境中物体的速度。给予导航仪一个训练环境,并使用它在每一时刻将训练环境划分成n个域。随后导航仪学习域中的速度。速度提供对导航有用的信息。如果某些物体以非常快的速度移动,这意味着它非常接近在导航环境(它快速移动经过视网膜)中的虚拟对象。如果它接近,虚拟对象很可能会碰撞。所以导航仪评价环境中的域,然后移向速度最慢(速度最慢的物体是最远和最安全的)的域。在这个实施例中,导航仪不被定向成朝向特定的终点,而是向前移动并且不与任何物体发生碰撞。
更具体地说,在本实施例中,使用图7所示的方法,当导航仪穿过一个环境,通过图像分割步骤702,它的视场被分成7个大小相等的区域。在本实施方式中,各区域不重叠,并且它们对摄像头的水平视场(即40°)从左至右进行划分,从而使得每个区域水平跨越5.7°;在垂直方向上,它们被限制在导航仪视场下半部分(即27°),从而使得这些地区垂直跨越13.5°)。
在每个决定时间点,基于卷积神经网络(CNN)的算法对各区域中的光流速度进行分类(步骤704)。所述分类的输出是每个域i的速度标签Li,其中Li是介于1和8间的数,1代表在所述域中非常缓慢的平均速度,并且8代表非常快的平均速度
如上文所述,根据这些分类,7个域每个一类,由转向决定模块(708)作出导航决定。选择具有最慢速度分类的域作为“目标域”(所朝向的域)。如果有多个域都为速度最慢的分类,导航仪选择最接近中心的域(从而使转向量最小);如果速度分类仍然相同,导航仪将选择其左边的域。一旦选定目标区域,机器视觉模块(106)启动转向使导航仪面对所选定区域的中心。
构建虚拟环境以用于培训和使用名为Panda3D的开源3D绘制架构(公众可从http://www.panda3d.org/获得)进行测试。来自训练集合的若干帧的数据流如图8所示,来自三个测试组的帧的数据流如图9A、9B、9C所示。如图中所示,训练集合是田园环境。三个测试组如下:与训练集合中田园环境不同的田园环境、郊区环境和广场。
在下述两种条件下比较导航仪的性能:1)当用标准方法训练时,即使用原始图像流作为输入,以及2)当使用“视网膜图像流”作为输入进行训练,也就是说,当它使用由本文所述的编码器处理过的图像。在这种情况下,使用猴侏儒和伞状细胞,按照Nirenberg,S.和Pandarinath所著的C.(2012)A retinal prosthetic with the capacity to restorenormal vision.Proc.Natl.Acad.,in press;以及Nirenberg,S.等所著的(2011)Retinaprosthesis and the Prosthesis Applications中所描述的方法来生成所使用的编码器,所述参考文献中的每一个通过引用而整体并入本文。
如图10A所示,当导航仪通过原始图像流了解到它的环境时,其性能较低,发生许多碰撞;从训练集合学到的并不能推广到新的环境。如图10B所示,当导航仪通过视网膜图像流了解到它的环境时,表现显著提高:值得注意的是直线路径和无碰撞。这明显显示能推广到新的环境(田园、郊区、广场)-这对于人工导航系统和一般的机器学习算法一直是悬而未解的。
图11显示了当使用视网膜图像流作为输入时,导航仪的高性能进一步得到证实。具体而言,它表明了高性能不仅能推广到不同的环境(从田园到郊区到广场),它也可以推广到环境中不同的光线条件下。A到F与太阳的不同位置对应,因此广场环境中有不同的阴影条件;跨越日出到日落的光线条件,即,环境左侧地平线上30度至右侧地平线上30度。如图中所示,当用原始图像流训练导航仪时(使用一种照明条件下的田园环境,如图8所示),导航仪的性能并不能推广:它在广场中的性能较低,并且这在各种光照条件下仍然如此。图中每条柱的高度与试验分数对应,在所述试验中导航仪成功留在广场的轮胎路线中而并不与轮胎中的任何一个碰撞。误差线表示平均数标准误差(SEM)。相反,当用视网膜图像流训练导航仪时(使用同一种光照条件的相同的田园环境,但不同的是通过编码器处理),导航仪的性能较高,并在各种光照条件下保持这种高性能。因此,用视网膜图像流训练(即,用编码器处理过的图像进行训练)导致高性能,这能同时推广到新环境以及多种照明条件(日出到日落,见上文)。
需要注意的是,编码器实时操作,这表明处理技术也可以容易地应用到非虚拟环境,例如,为了控制机器人在真实世界环境中的运动。
实施例-面部识别
本实施例评价本申请所述方法对另一个在机器视觉中长期未解决的问题,即在视频中识别面部的有效性。使用通常用于脸部识别和行人检测的学习算法[参见Viola和Jones2001;Viola和Snow2005],构建系统以识别视频中的人脸,也就是说,能够将一个前所未见的作为“目标面部”的图像流与另一个面部或“非目标”面部区分开的系统。可以将同样的方法用于许多其它目的,例如,但不限于,行人检测、对象识别、对象追踪、全人识别、虹膜检测等。通过Python编程语言和NumPy数值计算软件包实施所述系统。
所述方法的实施方式如图12所描述。输入视频(原始图像流)通过视网膜编码器104,产生视网膜图像流。由于任务重点在于面部,随后剪裁所述视网膜图像流以定位包含面部的区域1202。(编码器处理原始数据流后完成剪裁,从而可以避免进行编码时的边缘效应)在这个实施例中,手动选择包含面部的区域,从而构造已知面部例子的训练和测试集合。在其他实施方式中,通过Viola-Jones算法[Viola和Jones,2001],可在原始图像流中或处理后的图像数据流中,检测到包含面部的区域。随后剪裁后的视频送至分类器1206(例如,基于Haar过滤器的级联增加的分类器,如Viola和Jones和Snow,2005所述)。分类器1206指定其为“目标面部”(这意味着它是目标个体的面部)或“非目标面部”(这意味着它是不同个体的面部)。
图15显示了本申请所述方法的有效性的实施例。对于此分析,使用来自http://www.cs.tau.ac.il/?wolf/ytfaces/视频中的面部的数据组。参考Lior Wolf,Tal Hassner和ItayMaoz所著的Face Recognition in Unconstrained Videos with MatchedBackground Similarity.IEEE Conf.on Computer Vision and Pattern Recognition(CVPR),2011。
使用这个数据集进行多个面部识别任务。通常的方法是用“目标面部”训练面部识别算法。向所述算法呈现显示人脸(即目标面部)的视频阵列。通过将之前未曾见过的相同人脸视频与其他面部(即“非目标面部”)的视频一起呈现,测试所述算法识别面部的能力。所述算法的工作是对测试视频中目标面部或非目标面部进行正确区分。
图13和14显示了来自实施例视频的视频。图13显示来自用于训练面部识别算法的视频的若干帧,并且图14显示来自用于测试所述算法的视频的若干帧。如图所示,在测试视频中的人(图14)与训练视频中的人(图13)是相同的,但出现在不同的环境中并具有不同的发型等。
在下述两种条件下测试所述算法的性能:当用标准方法训练时(即,使用面部的原始图像数据流时),以及用所述面部的视网膜图像流(即,用本申请所述的编码器处理后的原始图像流)训练时。在这两种情况下,都使用了短的(两帧)影片进行培训。训练中使用的两帧影片的数量为,对于目标面部为250-800(取自4-5个不同的视频),对于非目标面部为2000(取自>100视频)。随后使用50-800个两帧影片测试性能,所述两帧影片取自之前未曾见过的视频,即未用于培训的视频。
如图15所示,编码器的使用对性能有明显的影响。显示了两种任务的结果:第一种由非常具有挑战性的任务组成,其定义为标准方法的表现非常差的任务;第二种由更容易的任务组成,其中标准方法的表现适度良好。如图所示,当任务比较困难时(图15A),采用编码器的方法比标准方法有很大(4倍)的改进。当任务不是那么具有挑战性时,即当标准方法的表现适度良好时,采用编码器的方法仍然提供了本质上的改进(与标准方法相比提高1.5倍)。
在一个可选的实施方式中,任务被略加修改,从而绕开面部检测步骤,作为替代,对分类器1206而言剪裁为适当大小的视频从输入视频中自动生成,其中无论面部是否呈现在视频的特定部分。随后,对这些新剪裁的视频进行如前所述的分类,或进行修改的分类,其中输出类别是“目标面部”和“非目标面部”或“非面部”。
在一个可选的实施方式中,可以使用N帧进行分析,其中N可以是1、3或更多帧,帧数可多达处理器能够处理的程度,而不是图15中用于分析的两帧视频。
此外,可以由它们自己进行分类,例如警告用户视频中出现了个体,或者它们可以以某种方式进行组合,例如在发出信号前等待在特定的时间窗内发生多个阳性检测(“目标面部”分类)。
需要注意的是,虽然已经描述了向机器视觉提供的许多视网膜应用的例子,可使用涉及许多其它应用的实施方式。
通常,对于动物(脊椎动物)表现良好的视觉任务,编码器方法可能是有利的,特别是对于已知动物视觉系统比现有机器技术更好的那些任务。如上文所述,在减少来自原始图像流的信息总量(例如,允许处理或更快速度的处理)的同时保持数据的显著特征有利的情况下,编码器方法可能特别有效。例如,如上文所指出的,在一些实施方式中,例如,当用于某些类型的识别任务,例如,面部识别、识别处于复杂背景中的人或其他生物形式、导航穿过复杂的环境、对移动物体的快速追踪和反应等,编码器方法通常是特别有利的。
值得注意的是,对于生物系统通常表现不太好的某些应用,编码器方法可能有局限性。这在需要高度细化的信息或精密测量的情况下可能特别明显。例如,再次参考图3B-F所示的视网膜图像,需要注意的是,虽然这些图像有利地强调人像的存在和运动,但是视网膜图像并没提供所述人像的清晰轮廓,对于例如确定精确的生物辨识信息,如人的绝对身高或其他的绝对身体尺寸而言,清晰的轮廓是有用的。为了确定这些类型的信息,将机器视觉算法应用于原始图像可能是更好的。
在一些实施方式中,可以使用混合方法以同时获得基于编码器的方法以及传统方法的优点。所述基于编码器的方法用于机器视觉,所述传统方法用于原始图像数据。
例如,在一些实施方式中,可以使用任何本文所述的基于视网膜编码器的技术处理原始图像流。可以处理所得到的视网膜图像数据(例如,使用机器视觉算法,如用视网膜图像训练的机器视觉算法),并将结果用于报告随后的相应原始图像分析(例如,使用机器视觉算法,如用原始图像训练的机器视觉算法)。
图16显示了这种类型的示例性的过程。在步骤1701和1702中,通过本文所述的任何技术获得原始图像,并用于产生视网膜图像流。在步骤1703中,分析所述视网膜图像,例如通过机器视觉算法实现。
在步骤1704中,视网膜图像的分析结果被用来识别目标视网膜图像(或其片段)。例如,在识别人的任务中,以正常视网膜产生视网膜图像的方式执行图像降维的编码器方法,可允许快速识别身体类型--通过步态、特征鲜明的姿势等。它的一个优势在于,它迅速抽出运动信息,这对于此目的特别有用。因此,编码器方法可作为预筛选方法,来减少与目标个体可能匹配的空间(通过排除具有错误体型、步态、姿势等的候选人)。
在步骤1705中,可以分析与识别的视网膜图像对应的原始图像(或其片段)。例如,在识别人的任务中,可以将使用原始图像(其中很少或没有使用降维)的算法应用于图像集,从而通过更详细的特征分析(例如,通过提取详细的生物特征信息,如人的准确高度或其它身体尺寸),更可靠对人进行识别。
在各种实施方式中,上述方法可以反过来,即先对原始图像进行预筛选,然后是使用视网膜编码器方法的后续分析。在一些实施方式中,迭代技术可以与多轮交替的基于原始和编码器的分析一起应用。在其它实施方式中,可以平行进行不同类型的处理,并综合各结果。一般来说,可以使用传统方法和基于编码器的方法的任何合适的组合。
如上所述,在各种实施方式中,进行视网膜处理以减少来自原始图像数据的信息总量(以实现效率,在某种程度上类似于视网膜的方式),同时对于给定的应用保持显著特征。例如,在一些实施方式,即使减少视网膜编码数据中的信息总量,当用于编码数据时,机器视觉算法表现出比用于相应的原始图像数据时更好的性能。在上文所述的两个实施例中都可以观察到这个结果,其中用于“压缩的”视网膜图像的导航和面部识别算法本质上优于应用于原始图像的相同算法。
在各种实施方式中,视网膜编码数据可被压缩至少1.5、至少2、至少3、至少4、至少5,或更多倍,例如,在1-100或其任何子范围的范围内。在一些实施方式中,这种压缩与由编码器产生的降维相对应。例如,在一些实施方式中,视网膜编码器的比特率可被量化,并可以与被编码器用作刺激的原始图像数据的熵(可检测为每单位时间内的比特)进行比较,并且将比值用于确定压缩比。例如,在假体应用中描述的一些情况下,描述了与4.9比特/秒的输入原始数据比特率相比,比特率为2.13比特/秒的编码器。因此,在本实施例中,由编码器产生的数据压缩几乎是7倍。
在一些实施方式中,本文所描述的处理技术可以用于信息存储和上下文检索。参照图17,系统1800包括存储装置1801(例如,硬盘驱动器或其他计算存储器),所述存储装置1801可操作地与处理器1802耦合。存储装置1801存储视网膜图像数据,用本文所描述的技术从原始图像数据生成所述视网膜图像数据。如上文所详述,在一些实施方式中,相对于原始数据,视网膜图像数据可以被压缩,同时保持一定的显著特征。因此,在某些实施方式中,所存储的视网膜数据可以用作相应的原始数据的代表,或者“指纹”。在一些实施方式中,存储装置存储指示编码数据和原始图像数据之间对应关系的数据库信息。例如,一个特定的视频剪辑可以被用来产生相应的视网膜图像流,并且在设备1801上存储的视网膜图像流具有可以与原始视频剪辑区分开的标记。
在一些实施方式中,可以用处理器1802将输入数据与存储在存储装置1801上的数据相匹配。在一些实施方式中,处理器1802可以接收与一系列查询图像对应的查询图像数据(例如,原始视频剪辑)。然后,处理器1802可以用视网膜编码器处理查询图像数据,以生成视网膜编码的查询数据。然后,处理器可以将视网膜编码的查询数据与存储在存储装置1801上的视网膜编码数据进行比较。如果发现匹配,该处理器可以读取所存储数据的标记,并输出与查询数据视频剪辑关联的信息,其中视频剪辑被用于生成匹配的存储视网膜图像。在一些实施方式,因为视网膜编码数据被压缩和/或已具有增强的显著特征,与试图和相应的原始图像剪辑直接匹配相比,编码存储和查询数据间的匹配可以更快和/或更精确。
在本申请和假体应用中所示的实施例使用从小鼠和猴视网膜得到的数据构建的编码器。然而,可以理解的是,不同的实施方式还可以使用从其他物种构建的编码器,其他物种,例如,但不限于鸟、猫、蛇、兔,可以使用假体应用中完整详细地描述的方法来构造。
在各种实施方式中,本文所述技术的整体功能使用由视觉系统(特别是视网膜)进行预处理,以增强机器视觉(特别是降维)。对于一些应用,可以应用由其他物种的视网膜进行的预处理;例如,从鸟视网膜构造的编码器可能对飞行导航仪特别有效;同样,从快速移动的动物(例如虎)构建的编码器,可能对需要在高速下工作的导航特别有效。在一些实施方式中,可以使用基于多个物种的编码器,并将结果结合,以提供有利的协同作用(例如,使用基于鸟的编码器用于基本飞行导航任务,同时,当飞行过程中遇到目标物体时,使用基于猴的编码器来完成物体识别任务)。
同样,该方法可以推广到从更高视觉区域构建的编码器,更高视觉区域例如外侧膝状体核、上丘,或视觉皮层。假体应用描述了对视网膜细胞的编码器的构建;可以使用包括数学形式体系的相同方法(同样有完整详细的描述)来获得对于更高视觉区域的编码器,这样的编码器可以作为机器视觉算法的预处理步骤。
由于以与视网膜相类似的方式工作,对于基本上任何机器视觉算法,本文所描述的发明技术可以用来作为前端处理(或过滤)。正如视网膜预处理视觉信息以供大脑使用--以允许它执行大量视觉引导的活动,例如导航、对象和人脸识别、图形-背景辨别、捕食检测、食品与非食品检测,及其他许多功能--一起形成“虚拟视网膜”的编码器可以对视觉信息进行预处理以供大量机器算法使用。
视网膜的功能本质上是从视觉世界中提取数量惊人的信息,并将其减少至为点,所述要点大脑所必需以用于生物生存。因为编码器非常精确地模拟视网膜的输入/输出关系(并为基本上任何视觉输入进行模拟,如假体应用中所示),这意味着编码器以相同的方式减少了视觉世界的信息。因此,在各种实施方式中,本文所述的技术可以为机器视觉算法提供与视网膜提供给大脑相同或接近相同的前端处理,也就是说,它具有相同的速度,效率以及定性和定量过滤。
这样做的必然结果是,编码器也影响了机器视觉算法是什么样的,或者,可以被怎样构建。目前算法的构建是使用原始图像作为输入,或其他方式的图像预处理(例如,使用高斯滤波器的差异)。当通过如本文所述的视网膜编码处理图像,其结果是对于机器视觉算法的新型输入,即,之前从未有过的输入。在一些实施方式,这种新的输入可以允许特定类别的算法来以新的方式进行调整或优化。例如,通过一组参数对各种机器视觉算法进行分类,所述参数可以通过图像的训练集合和/或在完成给定任务时由算法处理的图像至少部分地被确定。当视网膜图像数据代替原始图像使用时,所得到的该算法的参数将不同于使用相应的原始图像数据所获得的那些参数。在某些情况下,这将导致该算法显示出对于给定任务更高的性能。
在某些情况下,由于机器视觉算法一直使用模拟脊椎动物视觉系统的图像来训练,该算法可以有利地适应于获取系统的一些性能品质。例如,由于视网膜处理突出了图像某些方面的显著性,在视网膜编码数据上训练的机器视觉算法可“学会”对这些图像方面更敏感。
上文的实施例显示了机器视觉算法的两个实例--导航仪和面部识别器,在这两种情况下,当用于视网膜处理的输入时,所述算法改变其结构。这两种算法都是学习算法,其特征在于一组权重参数,并且发现,当所述算法用于视网膜图像数据时,与图像被用于原始图像数据时相比,这些参数是不同的。在视网膜处理的情况下算法性能的提高(相对于原始图像的情况)大部分或全部是由于权重参数的改变。值得注意的是,所述性能提高能推广到与训练中使用的条件不同的环境中或条件下的导航和识别任务中。这证明了,在某些实施方式中,用视网膜图像数据训练的机器视觉算法的结构,可以以在某种程度上有益并能推广到训练以外的环境和条件的方式发生根本改变。类似地,可以开发新的算法结构以使用所述新的输入数据,也就是说,不仅是当前算法的新权重或参数,而且是能更直接地匹配或者使用本文所述的新的输入数据的新算法。
本发明的方法和装置可以处理任何类型的图像数据。例如,响应于可见光可生成图像数据,但也可以通过其他类型的电磁辐射,例如红外、紫外或跨越电磁波谱的其它波长来生成。在一些实施方式中,图像数据可以是人工的或虚拟的图像数据(例如,根据虚拟环境的模型而生成)。在一些实施方式中,人工图像数据可以与任何类型的合适的数据的可视化有关,例如包括医学成像数据(磁共振成像数据、计算机辅助断层扫描数据、地震成像数据等等)。
图像数据可以是单个图像或多个图像;此外,图像可以是静态的,或者以时空方式变化。可以使用简单的形状(如图表),或者相对复杂的刺激(如自然场景)。此外,所述图像可能是灰度或彩色,或者灰度和彩色的组合。在一个实施方式中,刺激可以包括白噪声(“WN”)和/或天然刺激(“NS”),例如自然场景的影片,或者是白噪声和天然刺激的组合。
本发明的范围并不限于上文所具体显示和描述的内容。本领域技术人员将认识到,所描述的材料、配置、结构和尺寸的例子具有合适的替代方案。在本发明的说明书和本发明的参考文献列表中引用和讨论了多种参考文献,包括专利和多种出版物。对这些参考文献的引用和讨论仅仅是为了使本发明的描述更清楚,而不是承认任何引用是本文所描述的本发明的现有技术。在本说明书中引用和讨论的所有参考文献均通过引用而整体并入本文。
尽管在本文中描述和说明了发明的多种实施方式,但是本领域技术人员将容易想到用于执行本文所描述的功能和/或获得结果和/或一种或多种益处的多种其他方法和/或结构,每个这样的变化和/或改变均视为在本文所描述的发明实施方式的范围内。更概括地说,本领域技术人员将容易理解本文所描述的所有参数、尺寸、材料和配置均是示例性的,实际参数、尺寸、材料和/或配置将依赖于发明教导使用的特定应用。本领域技术人员将认识到,或者能够使用不超过常规实验所能确定的本文所述发明的具体实施方式的多种等效替换。因此,应当理解,前述实施方式仅以示例的方式存在,在本发明的权利要求和等效替换的范围内,可以以不同于具体描述和要求的方式来实施本发明的实施例。本文的发明实施方式针对本文所述的各个单独的特征、系统、物品、材料、试剂盒和/或方法。此外,两种或多种此类特征、系统、物品、材料、试剂盒和/或方法的组合包含在本公开的发明范围内,只要此类特征、系统、物品、材料、试剂盒和/或方法之间不相互矛盾即可。可以多种方式中的任意一种来实施上文所述的实施方式。例如,可以使用硬件、软件或其组合来实施所述的实施方式。当在软件中实施时,可以在任意合适的处理器或处理器集合中执行软件代码,无论该代码在单一计算机中,还是分布在多台计算机中。
而且,应当理解,计算机可能包括多种形式中的任意一种,如安装在机架上的计算机、台式计算机、膝上型计算机或平板计算机。此外,还可以将计算机嵌入一般不被当做计算机但具有适宜处理能力的设备,包括个人数字助理(PDA)、智能电话或任意其他适宜的便携式或固定式电子设备。
此外,计算机可以具有一个或多个输入和输出设备。此外,可以使用这些设备以显示用户接口。能够用来提供用户接口的输出设备的例子包括用于输出视觉显示的打印机或显示屏和用于输出可收听展示的扬声器或其他声音生成设备。能够用作用户接口的输入设备的例子包括键盘和点击设备,如鼠标、触摸板和数字化输入板。作为另一个例子,计算机可以通过语音识别或其他音响设备接收输入信息。
此类计算机可以通过一种或多种任意形式的网络相互连接,包括局域网或广域网,如企业网络,以及智能网(IN)或因特网。此类网络可以基于任意适宜的技术,可以根据任意适宜的协议操作,并且可能包括无线网络、有线网络或光线网络。
用于实现本文所描述功能的至少一部分的计算机可以包括存储器、一个或多个处理单元(在本文中也简称为“处理器”)、一个或多个通信接口、一个或多个显示单元、和一个或多个用户输入设备。存储器可以包括任意计算机可读的介质,并且可以存储用于执行本文所描述的各种功能的计算机指令(在本文中也称为“处理器可执行指令”)。可以使用处理单元执行指令。可以将通信接口连接到有线或无线网络、总线或其他通信装置,并可以因此允许计算机发送信息和/或接受来自其他设备的信息。可以提供显示器单元,例如,以允许用户查看与指令执行相关的各种信息。可以提供用户输入设备,例如,以允许用户进行手动调整、进行选择、输入数据或多种其他信息,和/或在指令执行过程中以多种方式中的任意一种与处理器交互作用。
本文列出的各种方法或过程可以被编码为软件,其可以在采用多种操作系统或平台的任意一种的一个或多个处理器上执行。此外,此类软件可以使用多种合适的编程语言,和/或编程或脚本工具中的任意一种编写,并且也可以被编译成可执行的机器语言代码或在框架或虚拟机上执行的中间代码。
在这方面,各种发明的概念可以被实施为被一个或多个程序编码的计算机可读存储介质(或多个计算机可读存储介质)(例如,计算机存储器、一个或多个软盘、压缩盘、光盘、磁带、闪存、现场可编程门阵列或其他半导体设备中的电路配置、或其他非临时性介质或有形计算机存储介质),当在一个或多个计算机或其他处理器上执行时,执行实施本发明上文中讨论的多种实施方式。计算机可读介质或媒体可以是可传输的,这样存储在其上的程序可以被加载至一个或多个不同的计算机或其他处理器上,以实施本发明上文中讨论的各个方面。
本文所使用的术语“程序”或“软件”在一般意义上指任意类型的计算机代码或计算机可执行指令集,可以将其引入编程计算机或其他处理器以实施上文中讨论的实施方式的各个方面。此外,应当认识到,根据一个方面,一个或多个计算机程序当执行本发明的方法时不需要驻留在一台计算机或处理器上,也可以以模块化的方式分布在多台不同计算机或处理器上,以实施本发明的各个方面。
计算机可执行指令可以是多种形式,如程序模块,由一个或多个计算机或其他设备执行。通常地,程序模块包括例程、程序、对象、组件、数据结构等,其执行特定任务或实施特定的抽象数据类型。典型地,可以根据不同实施方式的需要对程序模块的功能进行组合或分布。
此外,可以将数据结构存储在任意适当形式的计算机可读介质中。为了简化说明,可以将数据结构显示为具有字段,其由于在数据结构中的位置关联。类似地,这些关系可以通过为在计算机可读介质中具有位置的字段分配存储来实现,其传达了字段间的关系。然而,可以使用任意合适的机制来建立数据结构字段信息之间的关系,包括通过使用在数据元素之间建立关系的指针、标签或其他机制。
此外,各种发明构思可以被实施为一种或多种方法,已提供了这样的例子。作为所述方法的一部分,执行的动作可以以任意适当的方式排序。因此,可以构建实施方式,其中行为的执行顺序与已说明的不同,在示例性实施方式中可以包括同时执行某些行为,甚至通过示例性实施例中所述的顺序行为实施。
如本文所用的,自然场景应当被理解为是指自然的环境,例如在Geisler WS所著的Visual perception and the statistical of properties of naturalscenes.Annu.Rev.Psychol.
59:167-92(2008)中所述。在一些实施方式中,自然场景可以被替换为任何合适的复杂图像,例如,特征在于基本上符合频率的平方反比定律的空间和/或时间频率功率谱的图像。在一些实施方式中,例如,其中使用视频短片的实施方式,复杂图像的光谱可以在某种程度上偏离平方反比定律。例如,在一些实施方式中,复杂的图像可能具有1/f^x形式的空间或时间功率谱,其中f是频率,x在,例如1-3,或其任何其子范围(例如1.5-2.5、1.75-2.25、1.9-2.1等)的范围内。
白噪声图像指空间频率功率谱基本上平坦的噪声图像。
如本文所使用的,术语“光”以及相关术语(例如,“光学”、“视觉”)应当被理解为包括可见光谱以内和以外的电磁辐射,包括,例如紫外和红外辐射。
除非明确指出相反,如本文的说明书和权利要求书中所使用的,不定冠词“一”(a)和“一”(an),应该理解为是指“至少一个”。
如在本说明书和权利要求中使用的短语“或”,应当理解为是指如此结合的元素的“任一个或两者”,即在某些情况下联合存在并且在其它情况下分开出现。用“或”列出的多个元素应当以相同的方式理解,即“一个或多个”如此结合的要素。除了由“或”的从句明确指出的元素,可任选地存在其它元素,无论是否与那些明确指出的元素相关或不相关。因此,作为非限制性实例,当用开放式语言如“包括”(including)联合使用时,提及“A或B”可以指的是,在一个实施例中,只有A(任选地包括除B之外的元素);在另一个实施方式中,只有B(任选地包括除A之外的元素);在又一个实施方式中,同时指A和B(任选地包括其它元素)等。
如在本说明书和权利要求中所使用的,术语“或”应当被理解为与上文所定义的“或”具有相同的含义。例如,当将列表中的项目分开时,“或”或“或者”应当被解释为包括的,即包括至少一项,但也包括多个或一系列元素,并且任选地,其他未列出的项目中的至少一项。只有当术语明确指示相反含义时,如“只有…中的一项”或“正好…中的一项”,或者在权利要求中使用时,“由......组成”是指正好包括多个或一系列元素中的一项。通常,当冠以排他性的项目,如“任一”、“其中之一”、“中的仅一项”或“正好一项”,本文所用的术语“或”应当仅被解释为,表示排他性替代方案(即“一个或另一个但不包括两者”)。权利要求书中使用的“基本由......组成”应具有如在专利法领域中所用的普通含义。
在权利要求书中,以及在上文的说明书中,所有过渡词语如“包括”、“包含”、“带有”、“具有”、“含有”、“涉及”、“持有”、“由…组成”等,应当将被理解为开放式的,即意指包括但不限于。只有过渡性短语“由......组成”和“基本上由......组成”应当是封闭式或半封闭式的过渡性短语,如同专利审查程序的美国专利局手册中2111.03部分所述。
如本文所定义和使用的,所有定义均应被理解为字典中的定义、通过引用并入的文件中的定义和/或所定义术语的通常含义。
在不违背本发明的主旨和范围的情况下,本领域的普通技术人员可对本发明的描述进行变更、修改或者其它的补充说明。尽管已描述和说明了本发明的某些实施方式,但是在不违背本发明的主旨和范围的情况下,本领域技术人员可以很清楚地知道可以对其进行各种改变和修改。在上述说明书及附图中提到的客体只是说明性,而不是限制性的。
参考文献
Ahuja A,Dorn J,Caspi A,McMahon M,Dagnelie G,Dacruz L,Stanga P,HumayunM,Greenberg R(2010)Blind subjects implanted with the Argus II retinalprosthesis are able to improve performance in a spatial-motor task.Br JOphthalmol.
Arenkiel et al.,In vivo light-induced activation of neural circuitryin transgenic mice expressing channelrhodopsin-2.Neuron(2007)54(2):205-18.
Ausubel et al.,Current Protocols in Molecular Biology,John Wiley&Sons,New York,1989Bach,M et al(2008)Visual evoked potential-based acuityassessment in normal vision,
artificially degraded vision,and in patients.Br J Ophthalmol92:396-403
Barnstable et al.,Thy-1antigen:a ganglion cell specific marker inrodent retina.Neuroscience(1984)11(4):847-55.
Bi A,Cui J,Ma Y-P,Olshevskaya E,Pu M,Dizhoor AM,Pan Z-H(2006)Ectopicexpression of a microbial-type rhodopsin restores visual responses in micewith photoreceptor degeneration.Neuron50:23-33.
Bomash I,Roudi Y,Nirenberg S.(2010)A virtual retina that works on abroad array of stimuli including natural scenes:A tool to simplify theproblem of population coding.Society for Neuroscience.Program No.891.5.
Bookstein R et al(1990)Promoter deletion and loss of retinoblastomagene expression in human prostate carcinoma.Proc.Nati.Acad.Sci.USA87(19):7762-7766
Busskamp V,et al(2010)Genetic reactivation of cone photoreceptorsrestores visual responses in retinitis pigmentosa.Science329:413-417.
Cai et al.(2010)Gene delivery to mitotic and postmitoticphotoreceptors via compacted DNA nanoparticles results in improved phenotypein a mouse model of retinitis pigmentosa.FASEB J.24:1178-1191.
Campagnola L,Wang H,Zylka MJ.(2008)Fiber-coupled light-emitting diodefor localized photostimulation of neurons expressing channelrhodopsin-2.Journal of Neuroscience Methods.169:27-33.
Cardin JA,et al(2010)Targeted optogenetic stimulation and recordingof neurons in vivo using cell-type-specific expression of Channelrhodopsin-2.Nat Protoc5(2):247-54.
Chader GJ,Weiland J,Humayun MS(2009)Artificial vision:needs,functioning,and testing of a retinal electronic prosthesis.Prog Brain Res175:317-332.
Chiappa,K.(1997)Evoked Responses in Clinical Medicine,Third Edition,Lippincott-Raven
Chichilnisky EJ.(2001)A simple white noise analysis of neuronal lightresponses.Network12(2):199-213
Chopdar A,Chakravarthy U,Verma D(2003)Age related maculardegeneration.BMJ326:485-488.
Cover T and Thomas J.(2006)Elements of Information Theory,2ndEdition.Hoboken,NJ:Wiley
Dann JF,Buhl EH.(1987)Retinal ganglion cells projecting to theaccessory optic system in the rat.J Comp Neurol262(1):141-58.
Dedek K,et al(2008)Ganglion cell adaptability:does the coupling ofhorizontal cells play a role?PLoS One.3(3):e1714.
Douglas RM et al(2005)Independent visual threshold measurements inthe two eyes of freely moving rats and mice using a virtual-realityoptokinetic system.Vis Neurosci.22(5):677-84.
Duda RO,Hart PE(2001)Pattern Classification(2nd Edition)Wiley,NY,
Enroth-Cugell et al.,(1966)The contrast sensitivity of retinalganglion cells of the cat.J Physiol187(3):517--52.
European Patent Application No.19891976
Famulare M,Fairhall A.(2010)Feature selection in simple neurons:howcoding depends on spiking dynamics.Neural Comput22(3):581-98
Field et al.,(2007)Information processing in the primate retina:circuitry and coding.Annu Rev Neurosci30:1--30.
Fitzgerald et al.(1994)Retinal signal transmission in Duchennemuscular dystrophy.J Clin Invest 93:2425-30.
Foley JM,Legge GE(1981)Contrast detection and near-thresholddiscrimination in human vision.Vision Res.21(7):1041-53.
Fried S,Werblin F,McMahon MJ(2006)US Pat.2006/0129207Mimicking neuralcoding in retinal ganglion cells with short pulse electrical stimulation.In:(US,ed).
Friedman DS,O'Colmain BJ, B,Tomany SC,McCarty C,de Jong PTVM,Nemesure B,Mitchell P,Kempen J,Eye Diseases Prevalence Research Group(2004)Prevalence of age-related macular degeneration in the United States.ArchOphthalmol122:564-572.
Geisler WS(200).Visual perception and the statistical properties ofnatural scenes.Annu.Rev.Psychol.59:167-92(2008)
Gerding H,Benner FP,Taneri S(2007)Experimental implantation ofepiretinal retina implants(EPI-RET)with an IOL-type receiver unit.J NeuralEng4:S38-49.
Giolli RA,Blanks RHI,Lui F.(2005)The accessory optic system:basicorganization with an update on connectivity,neurochemistry,and function.ProgBrain Res151:407-40.
Golan L,Reutsky I,Farah N&Shoham S.(2009)Design and characteristicsof holographic neural photo-stimulation systems,Journal of NeuralEngineering6066004,(2009)
Graham-Rowe D(2009)A Brighter Future for Retinal Implants.In:Technology Review,http://www.technologyreview.com/biomedicine/23539/.Boston,MA:MIT.
Greenberg KP,et al.(2011).Differential Targeting of OpticalNeuromodulators
to Ganglion Cell Soma and Dendrites Allows Dynamic Control of Center-Surround Antagonism.Neuron69,713–720.
Grinstead CM and Snell JL(1997)Introduction to Probability.AmericanMathematical Society;2nd Revised edition
Grossman N,Poher V,Grubb MS,Kennedy GT,Nikolic K,McGovern B,PalminiRB,Gong Z,Drakakis EM,Neil,MAA,Dawson MD,Burrone J,Degenaar P.(2010)Multi-site optical excitation using ChR2and micro-LED array.J.Neural Eng,7(1):1-13.
Han et al,(2009),Millisecond-Timescale Optical Control of NeuralDynamics in the Nonhuman Primate Brain,Neuron62,191-198.
Hand DJ.(1981)Discrimination and classification.Wiley Series inProbability and Mathematical Statistics.
Huberman AD,Manu M,Koch SM,Susman MW,Lutz AB,Ullian EM,Baccus SA,Barres BA(2008)Architecture and activity-mediated refinement of axonalprojections from a mosaic of genetically identified retinal ganglioncells.Neuron.2008Aug14;59(3):425-38.
Huberman AD,Wei W,Elstrott J,Stafford BK,Feller MB,Barres BA(2009)Genetic Identification of an On-Off Direction-Selective Retinal Ganglion CellSubtype Reveals a Layer-Specific Subcortical Map of PosteriorMotion.Neuron.62(3):327-334.
Ivanova E,Pan Z-H(2009)Evaluation of the adeno-associated virusmediated long-term expression of channelrhodopsin-2in the mouseretina.Molecular Vision15:1680-1689
Izhikevich EM(2007)Dynamical systems in neuroscience:the geometry ofexcitability and bursting.Cambridge,MA:MIT Press
Izhikevich EM(2010)Hybrid spiking models.Review.Phil.Trans.R.Soc.A(2010)368,5061–5070
Jacobs AL et al(2009),Ruling out and ruling in neural codes.Proc NatlAcad Sci U S A.106(14):5936-41.
Jeffreys,Harold(1961).The Theory of Probability.The Oxford UniversityPress.
Kass RE,Ventura V,Brown EN.(2005)Statistical issues in the analysisof neuronal data.JNeurophysiol94(1):8-25.
Kawasaki et al.,Variability of the relative afferent pupillarydefect.Am J Ophthalmol(1995).120:622–633.
Kay MA,Glorioso JC,Naldini L.(2001)Viral vectors for gene therapy:theart of turning infectious agents into vehicles of therapeutics.Nat Med.7(1):33-40.Review.
Kelly S,Shire D,Chen J,Doyle P,Gingerich M,Drohan W,Theogarajan L,Cogan S,Wyatt J,Rizzo JI(2009)Realization of a15-channel,hermetically-encasedwireless subretinal prosthesis for the blind.In,pp200--203.
Kibbel S,Harscher A,Wrobel W-G,Zrenner E,Rothermel A(2009)Design andPerformance of an improved active subretinal chip.In:World Congress onMedical Physics and Biomedical Engineering,September7-12,2009,Munich,Germany(Kim SI,Suh TS, O,Schlegel WC,eds),pp192-195:Springer BerlinHeidelberg.
Koilkonda RD,Hauswirth WW,Guy J.(2009)Efficient expression of self-complementary AAV in ganglion cells of the ex vivo primate retina.Mol Vis.15:2796-802.
Kuffler SW.(1953)Discharge patterns and functional organization ofmammalian retina.J Neurophysiol16(1):37-68.
Lagali PS,Balya D,Awatramani GB,Münch TA,Kim DS,Busskamp V,Cepko CL,Roska B (2008)Light-activated channels targeted to ON bipolar cells restorevisual function in retinal degeneration.Nat Neurosci11:667-675.
Lesica NA et al.(2007)Adaptation to stimulus contrast and
correlations during natural visual stimulation.Neuron55(3):479-491.
Lettvin et al.,(1959)What the frog's eye tells the frog'sbrain.Proceedings of the Institute of Radio Engineers47(11):1940-51.
Liao et al.(2007)In vivo gene delivery in the retina usingpolyethylenimine.BioTechniques2007,42:285-288.
Loewenstein JI,Montezuma SR,Rizzo JF,III(2004)Outer RetinalDegeneration:An Electronic Retinal Prosthesis as a Treatment Strategy.ArchOphthalmol122:587-596.
Maguire et al.Safety and efficacy of gene transfer for Leber'scongenital amaurosis.N Engl J Med(2008)358:2240–2248.
Mancuso et al.,(2009)Gene therapy for red-green colour blindness inadult primates.Nature461(7265):784-7.
Martin et al.2002.Gene delivery to the eye using adeno-associatedviral vectors.Methods28:267-275.
McGowan MH et al(1998)Characterization of the Mouse Aldose ReductaseGene and Promoter in a Lens Epithelial Cell Line.Mol Vis1998;4:2
McLaughlin SK,Collis P,Hermonat PL,Muzyczka N.(1988)Adeno-associatedvirus general transduction vectors:analysis of proviral structures.J Virol.62(6):1963-73.
Meytlis M,Bomash I,Pillow JW,Nirenberg S.(2009)Assessing theimportance of correlated firing using large populations of neurons.Societyfor Neuroscience.Program No.165.3.
Morgans CW,et al(2009)TRPM1is required for the depolarizing lightresponse in retinal ON-bipolar cells.Proc Natl Acad Sci U S A106(45):19174-8.
Nanduri D,Humayun M,Greenberg R,McMahon M,Weiland J(2008)Retinalprosthesis phosphene shape analysis.In:30th Annual International Conferenceof the IEEE Engineering in Medicine and Biology Society,pp1785--1788.Vancouver,BC.
Nichols Z,Meytlis M,Nirenberg S.(2010)Correlations play a negligiblerole in coding white noise and natural scene stimuli in complete retinalpopulations.Submitted.
Nirenberg S(2000)Photoablation of cells expressing beta-galactosidase.Methods Mol Biol.135:475-80
Nirenberg S and Cepko,C(1993).Targeted ablation of diverse cellclasses in the nervous system in vivo.J Neurosci.13(8):3238-51.
Nirenberg S and Latham PE.(1998)Population coding in theretina.Curr.Opin.Neurobiol.8(4):488-493
Nirenberg S and Meister M.(1997).The light response of retinalganglion cells is truncated by a displaced amacrine circuit.Neuron18:637-650
Nirenberg S et al(2001)Retinal ganglion cells act largely asindependent encoders.Nature 411(6838):698-701.
Nirenberg S et al.(2010)Heterogeneous response dynamics in retinalganglion cells:the interplay of predictive coding and adaptation.J Neurophysiol103(6):3184-94
Norcia,AM,and Tyler,CW(1985)Spatial frequency sweep VEP:visual acuityduring the first year of life.Vision Res.25(10):1399-408
Norcia,AM,et al(1989).Measurement of spatial contrast sensitivitywith the swept contrast VEP.Vision Res.1989;29(5):627-37.
Okuyama et al.(1993).Binocular infrared optometer for measuringaccommodation in both eyes simultaneously in natural-viewing conditionsApplied Optics,Vol.32.No22,p.4147
Pandarinath et al(2010a)A novel mechanism for switching a neuralsystem from one state to another.Front Comput Neurosci.31;4:2.
Pandarinath et al(2010b)Symmetry breakdown in the ON and OFF pathwaysof the retina at night:functional implications.J Neurosci30(30):10006-14.
Paninski L,Pillow J,Lewi J.(2007)Statistical models for neuralencoding,decoding,and optimal stimulus design.Prog Brain Res.165:493-507.
Paninski L.(2004)Maximum likelihood estimation of cascade point-process neural encoding models.Network15(4):243-62
Panzeri S,et al(2007)Correcting for the sampling bias problem inspike train information measures.J Neurophysiol.98(3):1064-72.Review.
Pelli DG,Robson JG,&Wilkins AJ(1988)The design of a new letter chartfor measuring contrast sensitivity.Clinical Vision Sciences2,187-199
Perry VH,Silveira LC.(1988)Functional lamination in the ganglion celllayer of the macaque's retina.Neuroscience.25(1):217-23.
Petrs-Silva et al.,(2009)High-efficiency transduction of the mouseretina by tyrosine-mutant AAV serotype vectors.Mol Ther17(3):463-71.
Petersen-Jones et al.,(2009)AAV retinal transduction in a largeanimal model species:comparison of a self-complementary AAV2/5with a single-stranded AAV2/5vector.Mol Vis15:1835-42.
Pillow JW,Shlens J,Paninski L,Sher A,Litke AM,Chichilnisky EJ,Simoncelli EP.(2008)Spatio-temporal correlations and visual signalling in acomplete neuronal population.Nature454(7207):995-9
Prusky GT,et al(2004)Rapid quantification of adult and developingmouse spatial vision using a virtual optomotor system.Invest Ophthalmol VisSci.45(12):4611-6.
Published PCT Application WO1996013598
Published PCT application WO1998048027
Published PCT Application WO2000015822
Published PCT application WO2001094605
Published PCT application WO2002082904
Published PCT application WO2003047525
Published PCT application WO2003080648
Published PCT application WO2003093479
Published PCT application WO2003104413
Published PCT application WO2005080573
Published PCT application WO2007127428
Published PCT application WO2010011404
Pun L(1969),Introduction to Optimization Practice,ISBN471-70233-1
Purpura K,Tranchina D,Kaplan E,Shapley RM.(1990)Light adaptation inthe primate retina:analysis of changes in gain and dynamics of monkey retinalganglion cells.Vis Neurosci4(1):75--93.
Rolls ET,Baylis GC,Leonard CM.Role of low and high spatialfrequencies in the face-selective responses of neurons in the cortex in thesuperior temporal sulcus in the monkey.Vision Res.1985;25(8):1021-35.
Sambrook et al,“Molecular Cloning.A Laboratory Manual”,2d ed.,ColdSpring Harbor Laboratory,New York(1989)
Sauer B.(1987)Functional expression of the cre-lox site-specificrecombination system in the yeast Saccharomyces cerevisiae.Mol Cell Biol.7(6):2087-96.
Shapley RM,Victor JD.(1981)How the contrast gain control modifies thefrequency responses of cat retinal ganglion cells.J Physiol.318:161-79.
Sharpee TO et al.(2008)On the Importance of Static Nonlinearity inEstimating Spatiotemporal Neural Filters With Natural Stimuli.JNeurophysiol99(5):2496-509
Sheridan C(2011)Gene Therapy finds its niche Nature Biotechnology29(2):121-128
Siegert S,Scherf BG,Punta KD,Didkovsky N,Heintz N,Roska B(2009).Genetic address book for retinal cell types.Nature Neuroscience.12:1197-1204.
Simoncelli et al.(2004)Characterization of neural responses withstochastic stimuli.The cognitive neurosciences:327—38
Simonelli et al.(2010)Gene Therapy for Leber's Congenital Amaurosisis Safe and Effective Through1.5Years After Vector Administration,Molecular Therapy183,643–650.
Sinclair JR,et al(2004).Selective ablation of a class of amacrinecells alters spatial processing in the retina.J Neurosci.24(6):1459-67.
Sjostrand et al.(1999).Morphometric study of the displacement ofretinal ganglion cells subserving cones within the human fovea.Graefe’s ArchClin Exp Ophthalmol 237:1014–1023.
Soucy ER et al.(1998)A novel signaling pathway from rodphotoreceptors to ganglion cells in mammalian retina.Neuron21:481-493
Stone et al.,(1993)Response properties of ganglion cells in theisolated mouse retina.Vis Neurosci10(1):31-9.
Strong SP,et al(1998)On the application of information theory toneural spike trains.Pac Symp Biocomput.621-32.
Thyagarajan S,van Wyk M,Lehmann K, S,Feng G, H(2010)Visualfunction in mice with photoreceptor degeneration and transgenic expression ofchannelrhodopsin2in ganglion cells.J Neurosci30:8745-8758.
Tomita H,Sugano E,Isago H,Hiroi T,Wang Z,Ohta E,Tamai M(2010)Channelrhodopsin-2gene transduced into retinal ganglion cells restoresfunctional vision in genetically blind rats.Exp Eye Res90:429-436.
Troy JB,Bohnsack DL,Chen J,Guo X,Passaglia CL.(2005)Spatiotemporalintegration of light by the cat X-cell center under photopic and scotopicconditions.Vis Neurosci22(4):493--500.
Troy JB,Bohnsack DL,Diller LC.(1999)Spatial properties of the cat X-cell receptive field as a function of mean light level.Vis Neurosci16(6):1089--104.
Turchinovich et al.(2010)Non-viral siRNA delivery into the mouseretina in vivo.BMC Ophthalmology10:25.
U.S.Patent7149586
U.S.Patent5,856,152
U.S.Patent5,871,982
U.S.Patent6533798
U.S.Patent Publication20080221653
U.S.Patent Publication20080249588
U.S.Patent Publication20090088399
U.S.Patent Publication20090326623,
U.S.Patent Publication20100272688
U.S.Patent Publication Nos.20070261127
Ueda et al,(1997)The mGluR65'upstream transgene sequence directs acell-specific and developmentally regulated expression in retinal rod and ON-type cone bipolar cells.J Neurosci.17(9):3014-23.
van Adel et al.(2003)Delivery of ciliary neurotrophic factor vialentiviral-mediated transfer protects axotomized retinal ganglion cells foran extended period of time.Hum.Gene Ther.14:103-115.
Victor JD,Shapley RM.(1979)The nonlinear pathway of Y ganglion cellsin the cat retina.J Gen Physiol.74(6):671-89.
Victor JD.(1987)The dynamics of the cat retinal X cell centre.The Journal of Physiology386(1):219.
Volgyi B,Deans MR,Paul DL,Bloomfield SA(2004)Convergence andSegregation of the Multiple Rod Pathways in Mammalian Retina.J Neurosci24(49):11182–11192.
Walther W,Stein U.(2000)Viral vectors for gene transfer:a review oftheir use in the treatment of human diseases.Drugs.60(2):249-71.Review.
Wassle H.(2004)Parallel processing in the mammalian retina.Nat RevNeurosci5(10):747-57.Wells et al.(2005)Optical stimulation of neural tissuein vivo.Optics Letters30(5):504-506,Winter JO,Cogan SF,Rizzo JFI(2007)Retinalprostheses:current challenges and future outlook.
J Biomater Sci Polym Ed18:1031-1055.
Wright AF.(1997)Gene therapy for the eye.Br J Ophthalmol81(8):620-623Review.
Yonehara K,Ishikane H,Sakuta H,Shintani T,Nakamura-Yonehara K,et al.(2009)Identification of Retinal Ganglion Cells and Their Projections Involvedin Central Transmission of Information about Upward and Downward ImageMotion.PLoS ONE4(1):e4320.
Yonehara K,Shintani T,Suzuki R,Sakuta H,Takeuchi Y,et al.(2008)Expression of SPIG1 Reveals Development of a Retinal Ganglion Cell SubtypeProjecting to the Medial Terminal Nucleus in the Mouse.PLoS ONE3(2):e1533.
Zhang Y,Ivanova E,Bi A,Pan Z-H(2009)Ectopic expression of multiplemicrobial rhodopsins restores ON and OFF light responses in retinas withphotoreceptor degeneration.J Neurosci29:9186-9196.
Zrenner E,et al(2009)Subretinal Microelectrode Arrays Allow BlindRetinitis Pigmentosa Patients to Recognize Letters and Combine them toWords.BMEI'09.2nd International Conference on Biomedical Engineering andInformatics.Issue Date:17-19Oct.2009.ISBN:978-1-4244-4132-7.Pages1-4.
Ballard DH et al.(1982)Computer Vision,Prentice-Hall Inc New Jersey,1982
Chichilnisky EJ.(2001)A simple white noise analysis of neuronal lightresponses.Network12(2):199-213
Forsyth DA et al.(2003)Computer Vision:A Modern Approach,PrenticeHall,Nirenberg S et al.(2010)Heterogeneous response dynamics in retinalganglion cells:the interplay of predictive coding and adaptation.J Neurophysiol103(6):3184-94.
Freund Y et al.(1995)A Decision-Theoretic Generalization of on-LineLearning and an Application to Boosting Journal of Computer and SystemSciences55,119-139
Pillow JW,Shlens J,Paninski L,Sher A,Litke AM,Chichilnisky EJ,Simoncelli EP.(2008)Spatio-temporal correlations and visual signalling in acomplete neuronal population.Nature454(7207):995-9
Simonelli et al.(2010)Gene Therapy for Leber's Congenital Amaurosisis Safe and Effective Through1.5Years After Vector Administration,Molecular Therapy183,643–650
Nichols Z,Meytlis M,Nirenberg S.(2010)Correlations play a negligiblerole in coding white noise and natural scene stimuli in complete retinalpopulations.Submitted.
Nirenberg S et al.(2010)Heterogeneous response dynamics in retinalganglion cells:the interplay of predictive coding and adaptation.J Neurophysiol103(6):3184-94.

Claims (17)

1.一种方法,该方法包括:
接收原始图像数据,所述原始图像数据与一系列原始图像对应;
用编码器处理所述原始图像数据,以生成编码数据,其中所述编码器的特征在于输入/输出转换,该输入/输出转换本质上模拟脊椎动物视网膜的输入/输出转换;其中处理原始图像数据包括:
将时空转换施加于所述原始图像数据,以生成视网膜输出细胞响应值;和
根据所述视网膜输出细胞响应值生成所述编码数据;
其中施加时空转换包括施加单阶时空转换,所述单阶时空转换包括直接由试验数据确定的一系列权重,其中使用包括自然场景的刺激来生成所述试验数据;以及
将第一机器视觉算法用于至少一部分基于所述编码数据而产生的数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括根据所述编码数据产生一系列视网膜图像。
3.根据权利要求2所述的方法,其特征在于,该方法包括根据所述编码数据确定所述视网膜图像中的像素值,其中,根据所述编码数据确定所述视网膜图像中的像素值包括:根据指示视网膜细胞响应的编码数据来确定像素强度或颜色,所述指示视网膜细胞响应的数据指示下述各项中的至少一项:视网膜细胞的放电频率、视网膜细胞输出脉冲串,以及发生器电势。
4.根据权利要求2所述的方法,其特征在于,该方法还包括:
将所述第一机器视觉算法用于所述一系列视网膜图像,其中所述机器视觉算法包括下述各项中的至少一项:对象识别算法、图像分类算法、面部识别算法、光学字符识别算法、基于内容的图像检索算法、姿态估计算法、运动分析算法、自我运动判定算法、运动追踪算法、光流确定算法、场景重建算法、三维体积识别算法,以及导航算法。
5.根据权利要求1所述的方法,其特征在于,其中当用于所述一系列视网膜图像时,所述机器视觉算法表现出比用于相应的一组未经所述编码器处理的原始图像时更好的性能。
6.根据权利要求5所述的方法,其特征在于,其中当用于一系列包括自然场景的视网膜图像时,所述机器视觉算法表现出比用于相应的一系列未经所述编码器处理的原始图像时更好的性能。
7.根据权利要求5所述的方法,其特征在于,其中所述机器视觉算法包括在一系列图像中检测或识别人的算法;当用于各种包括人的一系列视网膜图像时,所述机器视觉算法表现出比用于相应的一组未经所述编码器处理的原始图像时更好的检测或识别准确度,其中所述包括人的一系列图像包括位于自然场景中的人的图像,所述包括人的一系列图像所包括的所述位于自然场景中的人的图像不同于用于训练所述机器视觉算法的自然场景的图像。
8.根据权利要求5所述的方法,其特征在于,其中所述机器视觉算法包括用于通过真实或虚拟的环境导航的算法,当用于一系列包括自然场景的视网膜图像时,该机器视觉算法表现出比用于对应的一组未经所述编码器处理的原始图像时更好的导航性能,其中当用于一系列包括自然场景的视网膜图像时,所述机器视觉算法在导航中表现出比用于对应的一组未经所述编码器处理的原始图像时更少的不希望的碰撞事件,其中所述一系列视网膜图像与未被用于训练所述机器视觉算法的环境对应。
9.根据权利要求2所述的方法,其特征在于,该方法还包括:
将机器成像算法用于所述一系列视网膜图像,以识别一个或多个目标视网膜图像;以及
识别与所述目标视网膜图像对应的一个或多个目标原始图像,处理所述目标原始图像,其中处理所述目标原始图像包括将第二机器视觉算法用于所述目标原始图像。
10.根据权利要求9所述的方法,其特征在于,其中:
所述第一机器视觉算法包括已经在一组视网膜图像上训练过的算法;
所述第二机器视觉算法包括已经在一组原始图像上训练过的算法。
11.根据权利要求2所述的方法,其特征在于,其中应用所述第一机器视觉算法包括应用导航算法,其中应用导航算法包括:
处理所述一系列视网膜图像,以确定运动信息,所述运动信息指示一系列图像中多个图像位置的运动;
根据所述运动信息对所述一系列图像的空间区域进行分类;以及
根据所述空间区域的分类生成导航决定。
12.根据权利要求11所述的方法,其特征在于,其中运动信息指示所述一系列图像中的光流,该方法包括:
使用卷积神经网络对所述空间区域进行分类,根据导航算法得到的结果来控制机器人装置的运动。
13.根据权利要求11所述的方法,其特征在于,该方法还包括根据导航算法得到的结果来控制虚拟空间中虚拟对象的运动,其中所述导航算法是用根据代表虚拟空间的图像数据训练过的算法。
14.根据权利要求2所述的方法,其特征在于,该方法还包括:根据所述视网膜图像训练机器视觉算法,其中训练机器视觉算法包括:
(i)将所述机器视觉算法用于一组视网膜图像,以产生输出;
(ii)根据所述输出,确定指示所述机器视觉算法性能的性能信息;
(iii)根据所述性能信息,调整所述机器视觉算法的一个或多个特性;
(iv)迭代地重复步骤(i)至(iii),直至达到选定的性能标准为止。
15.根据权利要求14所述的方法,其特征在于,其中所述经过训练的机器视觉算法的特征在于一组参数,并且其中所述参数不同于通过用与所述视网膜图像对应的原始图像对机器视觉算法进行同等训练所获得的对应参数。
16.根据权利要求2所述的方法,其特征在于,其中:
用编码器处理所述原始图像数据以生成编码数据包括生成编码数据,相对于相应的原始图像数据,该编码数据包含的信息量减少;
其中当用于一系列视网膜图像时,所述机器视觉算法表现出比用于相应的一组未经所述编码器处理的原始图像时更好的性能,其中所述编码数据所包含的信息量相对于相应的原始图像数据被压缩至少约2倍。
17.一种装置,其特征在于,该装置包括:
至少一个存储装置,该存储装置被配置为存储原始图像数据;以及
至少一个处理器,该处理器可操作地与所述存储装置耦合,并且该处理器被编程以执行以下操作:
接收原始图像数据,所述原始图像数据与一系列原始图像对应;
用编码器处理所述原始图像数据,以生成编码数据,其中所述编码器的特征在于输入/输出转换,该输入/输出转换本质上模拟脊椎动物视网膜的输入/输出转换;其中处理所述原始图像数据包括:
将时空转换施加于所述原始图像数据,以生成视网膜输出细胞响应值;和
基于所述视网膜输出细胞响应值生成所述编码数据;
其中施加时空转换包括施加单阶时空转换,所述单阶时空转换包括一系列权重,所述权重直接由试验数据确定,其中所述试验数据使用包括自然场景的刺激生成;以及
将第一机器视觉算法用于至少一部分基于所述编码数据而产生的数据。
CN201280052177.5A 2011-08-25 2012-08-24 用于机器视觉的视网膜编码器 Active CN103890781B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161527493P 2011-08-25 2011-08-25
US61/527,493 2011-08-25
US201261657406P 2012-06-08 2012-06-08
US61/657,406 2012-06-08
PCT/US2012/052348 WO2013029008A1 (en) 2011-08-25 2012-08-24 Retinal encoder for machine vision

Publications (2)

Publication Number Publication Date
CN103890781A CN103890781A (zh) 2014-06-25
CN103890781B true CN103890781B (zh) 2017-11-21

Family

ID=47746908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280052177.5A Active CN103890781B (zh) 2011-08-25 2012-08-24 用于机器视觉的视网膜编码器

Country Status (9)

Country Link
US (4) US9547804B2 (zh)
EP (1) EP2748765B1 (zh)
JP (1) JP6117206B2 (zh)
KR (2) KR102111000B1 (zh)
CN (1) CN103890781B (zh)
CA (1) CA2883091C (zh)
HK (1) HK1199768A1 (zh)
IL (1) IL231063A (zh)
WO (1) WO2013029008A1 (zh)

Families Citing this family (92)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3669933B1 (en) 2010-02-26 2022-08-31 Cornell University Retina prosthesis
US9302103B1 (en) 2010-09-10 2016-04-05 Cornell University Neurological prosthesis
WO2012078636A1 (en) 2010-12-07 2012-06-14 University Of Iowa Research Foundation Optimal, user-friendly, object background separation
EP2748765B1 (en) 2011-08-25 2022-12-14 Cornell University Retinal encoder for machine vision
US9832510B2 (en) 2011-11-30 2017-11-28 Elwha, Llc Deceptive indicia profile generation from communications interactions
US20130139259A1 (en) 2011-11-30 2013-05-30 Elwha Llc Deceptive indicia profile generation from communications interactions
US10250939B2 (en) * 2011-11-30 2019-04-02 Elwha Llc Masking of deceptive indicia in a communications interaction
US20130139254A1 (en) 2011-11-30 2013-05-30 Elwha LLC, a limited liability corporation of the State of Delaware Deceptive indicia notification in a communications interaction
WO2013152453A1 (en) 2012-04-09 2013-10-17 Intel Corporation Communication using interactive avatars
US9195903B2 (en) * 2014-04-29 2015-11-24 International Business Machines Corporation Extracting salient features from video using a neurosynaptic system
KR101549178B1 (ko) * 2014-07-31 2015-09-02 고려대학교 산학협력단 홀로그램 생성 장치 및 방법
FR3025344B1 (fr) * 2014-08-28 2017-11-24 Commissariat Energie Atomique Reseau de neurones convolutionnels
US10147024B2 (en) * 2014-09-16 2018-12-04 Qualcomm Incorporated Interfacing an event based system with a frame based processing system
WO2016073958A2 (en) * 2014-11-07 2016-05-12 Lamina Systems, Inc. Hyperacuity system and methods for real time and analog detection and kinematic state tracking
US10275688B2 (en) * 2014-12-17 2019-04-30 Nokia Technologies Oy Object detection with neural network
WO2016101131A1 (en) 2014-12-23 2016-06-30 Intel Corporation Augmented facial animation
US9864430B2 (en) 2015-01-09 2018-01-09 Microsoft Technology Licensing, Llc Gaze tracking via eye gaze model
US10048749B2 (en) 2015-01-09 2018-08-14 Microsoft Technology Licensing, Llc Gaze detection offset for gaze tracking models
US9524450B2 (en) * 2015-03-04 2016-12-20 Accenture Global Services Limited Digital image processing using convolutional neural networks
US10115194B2 (en) * 2015-04-06 2018-10-30 IDx, LLC Systems and methods for feature detection in retinal images
KR102489987B1 (ko) * 2015-04-20 2023-01-17 코넬 유니버시티 차원 데이터 축소를 이용하는 머신 비전
CN104811627A (zh) * 2015-05-21 2015-07-29 广东欧珀移动通信有限公司 拍摄预览方法及装置
NL2015087B1 (en) 2015-06-05 2016-09-09 Univ Amsterdam Deep receptive field networks.
US9844881B2 (en) * 2015-06-22 2017-12-19 GM Global Technology Operations LLC Robotic device including machine vision
BE1023147B1 (nl) * 2015-07-03 2016-12-01 Cnh Industrial Belgium Nv Controller voor een werkvoertuig
CN105227828B (zh) * 2015-08-25 2017-03-15 努比亚技术有限公司 拍摄装置和方法
US9904874B2 (en) * 2015-11-05 2018-02-27 Microsoft Technology Licensing, Llc Hardware-efficient deep convolutional neural networks
US10475225B2 (en) * 2015-12-18 2019-11-12 Intel Corporation Avatar animation system
US9846808B2 (en) * 2015-12-31 2017-12-19 Adaptive Computation, Llc Image integration search based on human visual pathway model
KR102444604B1 (ko) * 2016-02-02 2022-09-21 에스케이하이닉스 주식회사 데이터 저장 장치 및 그것의 동작 방법
JP6609505B2 (ja) * 2016-04-06 2019-11-20 Kddi株式会社 画像合成装置及びプログラム
CN107305635A (zh) * 2016-04-15 2017-10-31 株式会社理光 对象识别方法、对象识别装置和分类器训练方法
US9984314B2 (en) * 2016-05-06 2018-05-29 Microsoft Technology Licensing, Llc Dynamic classifier selection based on class skew
RU2665273C2 (ru) * 2016-06-03 2018-08-28 Автономная некоммерческая образовательная организация высшего образования "Сколковский институт науки и технологий" Обучаемые визуальные маркеры и способ их продуцирования
KR102631381B1 (ko) 2016-11-07 2024-01-31 삼성전자주식회사 컨볼루션 신경망 처리 방법 및 장치
WO2018128741A1 (en) 2017-01-06 2018-07-12 Board Of Regents, The University Of Texas System Segmenting generic foreground objects in images and videos
US20180247161A1 (en) * 2017-01-23 2018-08-30 Intaimate LLC System, method and apparatus for machine learning-assisted image screening for disallowed content
US10191539B2 (en) * 2017-03-20 2019-01-29 Intel Corporation User aware odometry correction technology
WO2018176000A1 (en) 2017-03-23 2018-09-27 DeepScale, Inc. Data synthesis for autonomous control systems
CN107067407B (zh) * 2017-04-11 2020-01-31 广西科技大学 基于非经典感受野和线性非线性调制的轮廓检测方法
CN110692066B (zh) * 2017-06-05 2023-06-02 渊慧科技有限公司 使用多模态输入选择动作
US10726307B2 (en) 2017-06-30 2020-07-28 Ai Systems Co., Ltd. Real-time identification of moving objects in video images
CN107609463B (zh) * 2017-07-20 2021-11-23 百度在线网络技术(北京)有限公司 活体检测方法、装置、设备及存储介质
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US10384346B2 (en) * 2017-09-08 2019-08-20 Niantic, Inc. Collision detection, estimation, and avoidance
GB2570433A (en) * 2017-09-25 2019-07-31 Nissan Motor Mfg Uk Ltd Machine vision system
US10482572B2 (en) * 2017-10-06 2019-11-19 Ford Global Technologies, Llc Fusion of motion and appearance features for object detection and trajectory prediction
US11126914B2 (en) * 2017-10-11 2021-09-21 General Electric Company Image generation using machine learning
EP3718084A4 (en) 2017-11-28 2021-07-21 Hewlett-Packard Development Company, L.P. DIGITAL IMAGE ANALYSIS AND PROCESSING FOR DISPLAY BY A DALTONIAN
US11335106B2 (en) 2017-11-29 2022-05-17 Intel Corporation Methods and apparatus to convert images for computer-vision systems
JP6985121B2 (ja) 2017-12-06 2021-12-22 国立大学法人 東京大学 物体間関係認識装置、学習済みモデル、認識方法及びプログラム
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
CN108520532B (zh) * 2018-04-03 2020-12-22 北京京东尚科信息技术有限公司 识别视频中物体运动方向的方法及装置
US11823376B2 (en) 2018-05-16 2023-11-21 Benevis Informatics, Llc Systems and methods for review of computer-aided detection of pathology in images
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
CN109118460B (zh) * 2018-06-27 2020-08-11 河海大学 一种分光偏振光谱信息同步处理方法及系统
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
US10579924B1 (en) * 2018-09-17 2020-03-03 StradVision, Inc. Learning method, learning device with multi-feeding layers and testing method, testing device using the same
CN109299689B (zh) * 2018-09-21 2024-03-08 石家庄铁道大学 基于机器视觉的环形生产线模台自动化识别装置及其识别方法
WO2020072427A1 (en) * 2018-10-01 2020-04-09 Cornell University Kits and methods for performing optical dynamic clamp on excitable cells
EP3864573A1 (en) 2018-10-11 2021-08-18 Tesla, Inc. Systems and methods for training machine models with augmented data
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11601644B2 (en) * 2018-12-11 2023-03-07 Google Llc Image and video coding using machine learning prediction coding models
CN109660297B (zh) * 2018-12-19 2020-04-28 中国矿业大学 一种基于机器学习的物理层可见光通信方法
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US11150664B2 (en) 2019-02-01 2021-10-19 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US11062460B2 (en) * 2019-02-13 2021-07-13 Adobe Inc. Representation learning using joint semantic vectors
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
US11631266B2 (en) 2019-04-02 2023-04-18 Wilco Source Inc Automated document intake and processing system
CN110119785B (zh) * 2019-05-17 2020-12-01 电子科技大学 一种基于多层spiking卷积神经网络的图像分类方法
US11417096B2 (en) * 2019-05-21 2022-08-16 Vimeo.Com, Inc. Video format classification and metadata injection using machine learning
CN110598698B (zh) * 2019-08-29 2022-02-15 华中科技大学 基于自适应区域建议网络的自然场景文本检测方法和系统
CN111008550A (zh) * 2019-09-06 2020-04-14 上海芯灵科技有限公司 基于Multiple loss损失函数的指静脉验证身份的识别方法
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
US11301977B2 (en) * 2020-04-10 2022-04-12 General Electric Company Systems and methods for automatic defect recognition
TWI791979B (zh) * 2020-04-28 2023-02-11 長庚醫療財團法人林口長庚紀念醫院 三維醫學影像的建立方法
CN111844025B (zh) * 2020-07-02 2024-04-16 上海发那科机器人有限公司 一种涂胶机器人视觉数据的记录装置及记录方法
EP4228266A1 (en) 2020-10-08 2023-08-16 Riken Image processing device, image processing method, and non-transitory computer readable medium whereon image processing program is stored
CN112451857A (zh) * 2020-12-10 2021-03-09 深圳先进技术研究院 视网膜神经节细胞激活状态的判别方法、存储介质和设备
CN113269235B (zh) * 2021-05-10 2022-12-27 青岛理工大学 一种基于无监督学习的装配体变化检测方法及设备
CN114257817B (zh) * 2022-03-01 2022-09-02 浙江智慧视频安防创新中心有限公司 一种多任务数字视网膜特征流的编码方法及解码方法
CN114449280B (zh) * 2022-03-30 2022-10-04 浙江智慧视频安防创新中心有限公司 一种视频编解码方法、装置及设备
WO2024097128A1 (en) * 2022-10-31 2024-05-10 University Of Pittsburgh - Of The Commonwealth System Of Higher Education Neuromorphic programmable multiple pathways event-based sensors

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101239008A (zh) * 2008-03-06 2008-08-13 上海交通大学 视觉假体图像处理装置及方法

Family Cites Families (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0357212B1 (en) * 1988-08-23 1998-04-29 John G. Sutherland Artificial neural device and corresponding method
US5103306A (en) * 1990-03-28 1992-04-07 Transitions Research Corporation Digital image compression employing a resolution gradient
JP2809954B2 (ja) 1992-03-25 1998-10-15 三菱電機株式会社 画像感知および処理のための装置および方法
ES2167378T3 (es) * 1993-08-26 2002-05-16 Univ California Organos sensoriales topograficos de red neuronal y procedimiento.
US5856152A (en) 1994-10-28 1999-01-05 The Trustees Of The University Of Pennsylvania Hybrid adenovirus-AAV vector and methods of use therefor
US5974159A (en) * 1996-03-29 1999-10-26 Sarnoff Corporation Method and apparatus for assessing the visibility of differences between two image sequences
US5836996A (en) 1996-12-30 1998-11-17 Doorish; John F. Artificial retina
BR9807260A (pt) 1997-02-21 2000-05-02 Rolf Eckmiller Codificador sensório-motor adaptativo para neuroprósteses
DE19707046A1 (de) * 1997-02-21 1998-08-27 Rolf Prof Dr Ing Eckmiller Lernfähiger "Active Vision" Implant Encoder
WO1998048027A2 (en) 1997-04-21 1998-10-29 University Of Florida Materials and methods for treatment of retinal diseases
US6458157B1 (en) * 1997-08-04 2002-10-01 Suaning Gregg Joergen Retinal stimulator
US6971066B2 (en) * 1997-08-18 2005-11-29 National Instruments Corporation System and method for deploying a graphical program on an image acquisition device
CA2346262A1 (en) 1998-09-17 2000-03-23 University Of Florida Methods for treatment of degenerative retinal diseases
US6165192A (en) 1999-01-05 2000-12-26 Second Sight, Llc Method and apparatus for intraocular retinal tack inserter
JP5021119B2 (ja) 1999-03-24 2012-09-05 セカンド サイト メディカル プロダクツ インコーポレイテッド 色覚回復用の網膜の人工色補装具
EP1864690A3 (en) 1999-03-24 2008-01-02 Second Sight Medical Products, Inc. Logarithmic light intensifier for use with photoreceptorbased implanted retinal prosthetics and those prosthetics
US7186560B2 (en) 1999-09-21 2007-03-06 Rutgers, The State University Of New Jersey High level expression of immunogenic proteins in the plastids of higher plants
US8019428B2 (en) 2000-05-26 2011-09-13 Second Sight Medical Products, Inc. Video processing methods for improving visual acuity and/or perceived image resolution
EP1290206A2 (en) 2000-06-09 2003-03-12 University of Florida Recombinant aav vectors for gene therapy of obesity
US6647297B2 (en) 2000-08-09 2003-11-11 The United States Of America As Represented By The Secretary Of The Navy Permanent retinal implant device
US6970745B2 (en) 2000-08-09 2005-11-29 The United States Of America As Represented By The Secretary Of The Navy Microelectronic stimulator array for stimulating nerve tissue
US7149586B2 (en) 2002-03-28 2006-12-12 Second Sight Medical Products, Inc. Variable pitch electrode array
WO2002082904A2 (en) 2001-04-13 2002-10-24 The Trustees Of The University Of Pennsylvania Method of treating or retarding the development of blindness
EP1381425A1 (en) 2001-04-24 2004-01-21 Neurodan A/S Functional electrical therapy system (fets)
EP1383577A2 (en) 2001-05-03 2004-01-28 Universite Catholique De Louvain Vision rehabilitation method and device
US6801655B2 (en) * 2001-05-10 2004-10-05 The United States Of America As Represented By The Secretary Of The Navy Spatial image processor
US9143706B2 (en) 2001-06-06 2015-09-22 Andrew Zador Imaging system utilizing spatial image oscillation
US6675164B2 (en) 2001-06-08 2004-01-06 The Regents Of The University Of California Parallel object-oriented data mining system
US7209788B2 (en) 2001-10-29 2007-04-24 Duke University Closed loop brain machine interface
US20030105409A1 (en) 2001-11-14 2003-06-05 Donoghue John Philip Neurological signal decoding
WO2003047525A2 (en) 2001-12-03 2003-06-12 The Regents Of The University Of California Expression of glial-derived neurotrophic factor for treatment of diseases of the eye
NZ535100A (en) 2002-03-20 2008-04-30 Univ Florida RAAV vector compositions and methods for the treatment of choroidal neovascularization
US7203356B2 (en) 2002-04-11 2007-04-10 Canesta, Inc. Subject segmentation and tracking using 3D sensing technology for video compression in multimedia applications
US20060127358A1 (en) 2002-05-01 2006-06-15 Nicholas Muzyczka Raav expression systems and methods for enhancing transduction of mammalian neural cells
US20070015238A1 (en) 2002-06-05 2007-01-18 Snyder Richard O Production of pseudotyped recombinant AAV virions
WO2004028635A1 (en) 2002-09-27 2004-04-08 Novartis Ag Ocular gene therapy
KR100506533B1 (ko) * 2003-01-11 2005-08-05 삼성전자주식회사 이동로봇 및 그에 따른 자율주행 시스템 및 방법
US7311723B2 (en) 2003-07-11 2007-12-25 University Of Washington Scanning laser device and methods of use
ITMI20031449A1 (it) 2003-07-15 2005-01-16 St Microelectronics Srl Metodo per classificare una immagine digitale
DE602005014215D1 (de) 2004-02-05 2009-06-10 Motorika Ltd Neuromuskuläre stimulation
WO2005080573A1 (en) 2004-02-20 2005-09-01 Universite De Montreal Recombinant viral vectors to promote neuronal cell survival and uses thereof
CN1770177A (zh) 2004-06-28 2006-05-10 微软公司 编码高密度几何符号集的系统和方法
US7751585B2 (en) 2004-06-28 2010-07-06 Microsoft Corporation System and method for encoding high density geometric symbol set
ATE431677T1 (de) 2004-07-13 2009-05-15 Koninkl Philips Electronics Nv Verfahren zur räumlichen und snr- bildkomprimierung
US8103352B2 (en) 2004-12-03 2012-01-24 Second Sight Medical Products, Inc. Mimicking neural coding in retinal ganglion cells with short pulse electrical stimulation
US8520944B2 (en) * 2004-12-24 2013-08-27 Mario Cimbalista, JR. Method for improving visualization of infrared images
AU2006214142B2 (en) 2005-02-16 2011-03-03 Second Sight Medical Products, Inc. Fitting of brightness in a visual prosthesis
WO2007024391A2 (en) 2005-07-22 2007-03-01 The Board Of Trustees Of The Leland Stanford Junior University Light-activated cation channel and uses thereof
US20070050046A1 (en) 2005-07-25 2007-03-01 Georgopoulos Apostolos P Methods for generating a signal indicative of an intended movement
US8956396B1 (en) 2005-10-24 2015-02-17 Lockheed Martin Corporation Eye-tracking visual prosthetic and method
US20070198066A1 (en) 2005-11-03 2007-08-23 Greenberg Robert J Method and apparatus for visual neural stimulation
JP4572175B2 (ja) 2006-04-25 2010-10-27 日本電信電話株式会社 非定常映像検出装置,非定常映像検出方法及びその方法を実装したプログラム
US8298818B2 (en) 2006-04-28 2012-10-30 University Of Florida Research Foundation, Inc. Self-complementary adeno-associated virus having a truncated CMV-chicken β-actin promoter
AU2007247929A1 (en) 2006-05-04 2007-11-15 Pennsylvania College Of Optometry Restoration of visual responses by In Vivo delivery of rhodopsin nucleic acids
US8197539B2 (en) 2006-05-05 2012-06-12 University Of Southern California Intraocular camera for retinal prostheses
US8311634B2 (en) 2006-06-16 2012-11-13 Second Sight Medical Products Inc. Apparatus and method for electrical stimulation of human retina
GB0612242D0 (en) 2006-06-21 2006-08-02 Imp Innovations Ltd Retinal prosthetic devices
EP1891976A1 (en) 2006-08-23 2008-02-27 Novartis Forschungsstiftung, Zweigniederlassung Friedrich Miescher Institute for Biomedical Research Use of light sensitive genes
WO2008109862A2 (en) 2007-03-08 2008-09-12 Second Sight Medical Products, Inc. Flexible circuit electrode array
CN100481123C (zh) 2007-03-08 2009-04-22 上海交通大学 采用时空滤波器的视网膜编码器实现方法
WO2008133951A2 (en) * 2007-04-24 2008-11-06 Massachusetts Institute Of Technology Method and apparatus for image processing
EP1995685A3 (en) 2007-05-21 2012-08-01 Biotronik CRM Patent AG Medical device for monitoring biological signal
US20090105786A1 (en) 2007-10-22 2009-04-23 University Of Washington Method and device for strengthening synaptic connections
US8195303B2 (en) 2007-11-07 2012-06-05 Second Sight Medical Products, Inc. Video processing unit for a visual prosthetic apparatus
US8195302B2 (en) 2007-11-07 2012-06-05 Second Sight Medical Products, Inc. Video processing unit for a visual prosthetic apparatus
EP2222372A2 (en) 2007-12-06 2010-09-01 Technion Research & Development Foundation Ltd. Method and system for optical stimulation of neurons
WO2009126112A1 (en) 2008-04-08 2009-10-15 National University Of Singapore Retinal image analysis systems and methods
MX2010012592A (es) 2008-05-20 2011-05-05 Eos Neuroscience Inc Vectores para la administracion de proteinas sensibles a la luz y metodos de uso de las mismas.
US20100016732A1 (en) 2008-07-17 2010-01-21 Lockheed Martin Corporation Apparatus and method for neural-signal capture to drive neuroprostheses or control bodily function
US8700166B2 (en) * 2008-08-07 2014-04-15 Massachusetts Institute Of Technology Coding for visual prostheses
CN101336856B (zh) 2008-08-08 2010-06-02 西安电子科技大学 辅助视觉系统的信息获取与传递方法
CN101393789A (zh) 2008-11-04 2009-03-25 江苏圣安电缆有限公司 交联聚乙烯绝缘电力电缆内气体的排除方法
US8179452B2 (en) 2008-12-31 2012-05-15 Lg Electronics Inc. Method and apparatus for generating compressed file, and terminal comprising the apparatus
US8108147B1 (en) * 2009-02-06 2012-01-31 The United States Of America As Represented By The Secretary Of The Navy Apparatus and method for automatic omni-directional visual motion-based collision avoidance
US8744588B2 (en) 2009-05-07 2014-06-03 Hani Midani Method and system for connecting an impaired nervous system to a muscle or a group of muscles based on template matching and intelligent end points
EP3669933B1 (en) 2010-02-26 2022-08-31 Cornell University Retina prosthesis
US20110213266A1 (en) 2010-03-01 2011-09-01 Williams Justin C Closed Loop Neural Activity Triggered Rehabilitation Device And Method
US9311593B2 (en) * 2010-03-26 2016-04-12 Brain Corporation Apparatus and methods for polychronous encoding and multiplexing in neuronal prosthetic devices
US8315305B2 (en) * 2010-03-26 2012-11-20 Brain Corporation Systems and methods for invariant pulse latency coding
US20110307079A1 (en) 2010-04-29 2011-12-15 Board Of Trustees Of Michigan State University, The Multiscale intra-cortical neural interface system
US8527056B2 (en) 2010-04-30 2013-09-03 Second Sight Medical Products, Inc. Encoding of size and brightness of percepts in a visual prosthesis
EP2611401A4 (en) 2010-08-31 2014-03-19 Univ Cornell RETINAL PROSTHESIS
US9302103B1 (en) 2010-09-10 2016-04-05 Cornell University Neurological prosthesis
CA2854258A1 (en) 2010-11-11 2012-05-18 IINN, Inc. Motor nerve root stimulation
EP2748765B1 (en) * 2011-08-25 2022-12-14 Cornell University Retinal encoder for machine vision
WO2013096574A1 (en) * 2011-12-20 2013-06-27 The Johns Hopkins University Artifact control and miniaturization of the safe direct current stimulator for neural prostheses
CZ304893B6 (cs) 2012-06-20 2015-01-07 Miloslav Hering Kolečková brusle
US9773155B2 (en) 2014-10-14 2017-09-26 Microsoft Technology Licensing, Llc Depth from time of flight camera

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101239008A (zh) * 2008-03-06 2008-08-13 上海交通大学 视觉假体图像处理装置及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Virtual Retinal:A biological retina model and simulator with contrast gain control;Adrien Wohrer.Pierre Kornprobst;《J Comput neurosci》;20090430;第26卷;第219–249页 *
农林环境机器视觉导航路径生成算法及应用;杨庆华 等;《农业机械学报》;20090331;第40卷(第3期);第147-151页 *
基于视觉认知的自然图像目标识别研究;李作进;《中国博士学位论文全文数据库(电子期刊)》;20101215;全文 *

Also Published As

Publication number Publication date
IL231063A (en) 2016-10-31
US20190279021A1 (en) 2019-09-12
US20140355861A1 (en) 2014-12-04
US20170255837A1 (en) 2017-09-07
CN103890781A (zh) 2014-06-25
US10769483B2 (en) 2020-09-08
US11640681B2 (en) 2023-05-02
JP6117206B2 (ja) 2017-04-19
HK1199768A1 (zh) 2015-07-17
US20200401837A1 (en) 2020-12-24
WO2013029008A1 (en) 2013-02-28
KR20140050741A (ko) 2014-04-29
KR102111000B1 (ko) 2020-05-14
CA2883091A1 (en) 2013-02-28
KR101976048B1 (ko) 2019-05-09
EP2748765A1 (en) 2014-07-02
KR20190051076A (ko) 2019-05-14
CA2883091C (en) 2020-02-25
IL231063A0 (en) 2014-03-31
EP2748765B1 (en) 2022-12-14
US10303970B2 (en) 2019-05-28
EP2748765A4 (en) 2016-06-22
US9547804B2 (en) 2017-01-17
JP2014524630A (ja) 2014-09-22

Similar Documents

Publication Publication Date Title
CN103890781B (zh) 用于机器视觉的视网膜编码器
Shaheen et al. Impact of automatic feature extraction in deep learning architecture
CN107624061B (zh) 具有维度数据缩减的机器视觉
CN108764316A (zh) 基于深度卷积神经网络和多核学习的遥感图像场景分类方法
CN106951858A (zh) 一种基于深度卷积网络的人物亲缘关系识别方法与装置
CN106295591A (zh) 基于人脸图像的性别识别方法及装置
CN109817276A (zh) 一种基于深度神经网络的蛋白质二级结构预测方法
CN106909938A (zh) 基于深度学习网络的视角无关性行为识别方法
CN108596256B (zh) 一种基于rgb-d物体识别分类器构造方法
CN106980830A (zh) 一种基于深度卷积网络自亲缘关系识别方法与装置
CN106980831A (zh) 基于自编码器的自亲缘关系识别方法
Yang et al. A Face Detection Method Based on Skin Color Model and Improved AdaBoost Algorithm.
Zheng et al. Fruit tree disease recognition based on convolutional neural networks
CN114548239A (zh) 一种基于类哺乳动物视网膜结构人工神经网络的图像识别与分类方法
CN111639550A (zh) 基于多尺度融合lbp和改进深度置信网络的指静脉识别方法
Banerjee Study on Biologically-Inspired Recognition Using Multi-Platform and Multi-Modal Data
Khan et al. A Framework for Segmentation and Classification of Blood Cells Using Generative Adversarial Networks
Lin et al. Bio-inspired multi-level interactive contour detection network
Xu et al. Recognition effects of deep convolutional neural network on smudged handwritten digits
Zhang et al. LVP-net: A deep network of learning visual pathway for edge detection
Khan Contour Integration in Artifical Neural Networks
CN114743134A (zh) 一种基于多线索融合的动物行为识别方法
Khan et al. Surrogate Gradient-Based Medical Image Classification Using Spike Neural Network
Yu et al. Construction and application of biological visual nerve computing model in robot
Pereira Deep learning techniques for grapevine variety classification using natural images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1199768

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1199768

Country of ref document: HK