JP2014524630A - 機械視覚のための網膜符号化器 - Google Patents

機械視覚のための網膜符号化器 Download PDF

Info

Publication number
JP2014524630A
JP2014524630A JP2014527338A JP2014527338A JP2014524630A JP 2014524630 A JP2014524630 A JP 2014524630A JP 2014527338 A JP2014527338 A JP 2014527338A JP 2014527338 A JP2014527338 A JP 2014527338A JP 2014524630 A JP2014524630 A JP 2014524630A
Authority
JP
Japan
Prior art keywords
retinal
algorithm
machine vision
images
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014527338A
Other languages
English (en)
Other versions
JP6117206B2 (ja
JP2014524630A5 (ja
Inventor
シーラ ニーレンバーグ
イリヤ ボマッシュ
Original Assignee
コーネル ユニヴァーシティー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コーネル ユニヴァーシティー filed Critical コーネル ユニヴァーシティー
Publication of JP2014524630A publication Critical patent/JP2014524630A/ja
Publication of JP2014524630A5 publication Critical patent/JP2014524630A5/ja
Application granted granted Critical
Publication of JP6117206B2 publication Critical patent/JP6117206B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/007Transform coding, e.g. discrete cosine transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/62Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding by frequency transforming in three dimensions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30041Eye; Retina; Ophthalmic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)

Abstract

一連の生画像に対応する生画像データを受け入れる段階と、脊椎動物網膜の1つ又はそれよりも多くの網膜細胞の入力/出力変換を実質的に模倣する入力/出力変換によって特徴付けられる符号化器を用いて符号化されたデータを生成するように生画像データを処理する段階と、符号化されたデータに少なくとも部分的に基づいて生成されたデータに第1の機械視覚アルゴリズムを適用する段階とを含む方法を開示する。
【選択図】図3A

Description

〔関連出願への相互参照〕
本出願は、米国特許仮出願第61/527493号(2011年8月25日出願)及び第61/657406号(2012年6月8日出願)の利益を主張するものである。上述の出願の各々の内容は、その全体が引用によって組み込まれている。
本発明はまた、米国特許仮出願第61/308,681号(2010年2月26日出願)、第61/359,188号(2010年6月28日出願)、第61/378,793号(2010年8月31日出願)、及び第61/382,280号(2010年9月13日出願)に関し、米国特許出願第13/230,488号(2011年9月12日出願)に関し、かつ国際特許出願番号PCT/US2011/026526(2011年2月28日出願)及びPCT/US2011/049188号(2011年8月25日出願)に関する。上述の出願の各々の内容は、その全体が引用によって組み込まれている。
〔連邦政府支援研究又は開発の記載〕
本発明は、米国国立衛生研究所(NIH)の国立眼学研究所によって委託された「R01 EY12978」の下に米国政府の支援によって行われたものである。米国政府は、本発明にある一定の権利を有する。
本発明の開示は、機械視覚に使用するための方法及びデバイスに関する。特に、本発明の開示は、動物の網膜の性能を模倣する符号化器を用いて画像を処理し、処理された画像を機械視覚用途に使用する方法及びデバイスに関する。
機械視覚(又はコンピュータ視覚)は、コンピュータが視覚情報を使用して例えば画像から情報を抽出し、何らかのタスクを解決し、又は広義又は狭義のいずれかの意味で光景を恐らく「理解」することを可能にする技術を指す。一般的に、機械視覚は、画像データからの情報の抽出に関わる。画像データは、単一画像、映像シーケンス、複数のカメラからの視野像、又はより高い次元のデータ(例えば、医療スキャナからの3次元画像)のような多くの形態を取る可能性がある。
機械視覚は、生産ライン上を通過する物体を計数するのに使用される産業システムのような比較的単純なタスクから顔認識及び知覚タスク(例えば、ロボットが複雑な環境の中を進むことを可能にする)のようなより複雑なタスクにわたる多くの用途を有する。機械視覚の用途例の非限定的リストは、工程を制御するためのシステム(例えば、産業ロボット又は自律走行車両)、イベントを検出するための(例えば、画像モニタ又は人数計数のための)システム、情報を編集するための(例えば、画像及び画像シーケンスのデータベースを索引付けするための)システム、物体又は環境をモデル化するためのシステム(例えば、工業検査、医療画像分析、又はトポグラフィモデル化)、並びに対話(例えば、コンピュータ−人間対話のためのデバイスへの入力としての)のためのシステムを含む。
多くの用途において、機械視覚は、計算上非常に高価なタスクを伴う。単一カラーデジタル画像は、数百万ピクセル又はそれよりも多くから構成される場合があり、その各々は、色空間(例えば、馴染み深いRGB色空間、YCbCr空間、HSV空間等)のピクセル座標を定める複数(例えば、8又は24)ビット値のような関連付けられた値を有する。映像ストリームは、例えば、数百メガビット毎秒又はそれよりも多いビットレートに対応する数十フレーム毎秒のフレームレートにおけるそのような画像のシーケンスを含む場合がある。多くの機械視覚用途は、そのような画像又は映像ストリームの高速処理を必要とする(例えば、物体の運動を追跡して反応し、組み立てラインに沿って移動中の物体を識別又は分類し、ロボットがその環境に実時間で反応することを可能にするなどのために)。
そのような大量のデータをそのような時間拘束条件の下で処理するのは極めて困難である可能性がある。従って、既存の機械視覚タスクにおいて際立った画像データの特徴を保持しながら(又は強調さえもしながら)生の情報量を低減するように画像データを処理するための技術を見出すことが望ましいことになる。生データではなく、この予備処理された画像データが、次に、機械視覚システムに入力され、システムに対する処理負荷を軽減し、かつ十分に高速な応答及び潜在的に改善された性能を可能にすることができると考えられる。
脊椎動物の目の網膜は、視覚刺激を取得し、この刺激を脳が理解することができる形態に変換するまさにこの性質の画像処理を可能にすることが認識されている。このシステム(数百万年の進化の途上で発達した)は、哺乳動物(特にサル及びヒト)における高レベルの複雑な視覚認識によって証明されるように、際立って効率的かつ有効である。
米国特許仮出願第61/527493号 米国特許仮出願第61/657406号 米国特許仮出願第61/308,681号明細書 米国特許仮出願第61/359,188号明細書 米国特許仮出願第61/378,793号明細書 米国特許仮出願第61/382,280号明細書 米国特許出願第13/230,488号明細書 国際特許出願PCT/US2011/026526号明細書 国際特許出願PCT/US2011/049188号明細書 欧州特許出願第19891976号明細書 国際特許出願WO1996013598号明細書 国際特許出願WO1998048027号明細書 国際特許出願WO2000015822号明細書 国際特許出願WO2001094605号明細書 国際特許出願WO2002082904号明細書 国際特許出願WO2003047525号明細書 国際特許出願WO2003080648号明細書 国際特許出願WO2003093479号明細書 国際特許出願WO2003104413号明細書 国際特許出願WO2005080573号明細書 国際特許出願WO2007127428号明細書 国際特許出願WO2010011404号明細書 米国特許第7149586号明細書 米国特許第5,856,152号明細書 米国特許第5,871,982号明細書 米国特許第6533798号明細書 米国特許出願第20080221653号明細書 米国特許出願第20080249588号明細書 米国特許出願第20090088399号明細書 米国特許出願第20090326623号明細書 米国特許出願第20100272688号明細書 米国特許出願第20070261127号明細書
Ahuja A,Dorn J,Caspi A,McMahon M,Dagnelie G,Dacruz L,Stanga P,Humayun M,Greenberg R (2010) Blind subjects implanted with the Argus II retinal prosthesis are able to improve performance in a spatial−motor task.Br J Ophthalmol Arenkiel et al.,In vivo light−induced activation of neural circuitry in transgenic mice expressing channelrhodopsin−2.Neuron (2007) 54(2):205−18. Ausubel et al.,Current Protocols in Molecular Biology ,John Wiley & Sons,New York,1989 Bach,M et al (2008) Visual evoked potential−based acuity assessment in normal vision,artificially degraded vision,and in patients.Br J Ophthalmol 92:396−403 Barnstable et al.,Thy−1 antigen:a ganglion cell specific marker in rodent retina.Neuroscience (1984) 11(4):847−55 Bi A,Cui J,Ma Y−P,Olshevskaya E,Pu M,Dizhoor AM,Pan Z−H (2006) Ectopic expression of a microbial−type rhodopsin restores visual responses in mice with photoreceptor degeneration.Neuron 50:23−33 Bomash I,Roudi Y,Nirenberg S.(2010) A virtual retina that works on a broad array of stimuli including natural scenes:A tool to simplify the problem of population coding.Society for Neuroscience.Program No.891.5 Bookstein R et al (1990) Promoter deletion and loss of retinoblastoma gene expression in human prostate carcinoma.Proc.Nati.Acad.Sci.USA 87 (19):7762−7766 Busskamp V,et al (2010) Genetic reactivation of cone photoreceptors restores visual responses in retinitis pigmentosa.Science 329:413−417 Cai et al.(2010) Gene delivery to mitotic and postmitotic photoreceptors バイア compacted DNA nanoparticles results in improved phenotype in a mouse model of retinitis pigmentosa.FASEB J.24:1178−1191 Campagnola L,Wang H,Zylka MJ.(2008) Fiber−coupled light−emitting diode for localized photostimulation of neurons expressing channelrhodopsin−2.Journal of Neuroscience Methods.169:27−33 Cardin JA,et al (2010) Targeted optogenetic stimulation and recording of neurons in vivo using cell−type−specific expression of Channelrhodopsin−2.Nat Protoc 5(2):247−54 Chader GJ,Weiland J,Humayun MS (2009) Artificial vision:needs,functioning,and testing of a retinal electronic prosthesis.Prog Brain Res 175:317−332 Chiappa,K.(1997) Evoked Responses in Clinical Medicine,Third Edition,Lippincott−Raven Chichilnisky EJ.(2001) A simple white noise analysis of neuronal light responses.Network 12(2):199−213 Chopdar A,Chakravarthy U,Verma D (2003) Age related macular degeneration.BMJ 326:485−488 Cover T and Thomas J. (2006) Elements of Information Theory,2nd Edition.Hoboken,NJ:Wiley Dann JF,Buhl EH.(1987) Retinal ganglion cells projecting to the accessory optic system in the rat.J Comp Neurol 262(1):141−58 Dedek K,et al (2008) Ganglion cell adaptability:does the coupling of horizontal cells play a role? PLoS One.3(3):e1714 Douglas RM et al (2005) Independent visual threshold measurements in the two eyes of freely moving rats and mice using a virtual−reality optokinetic system. Vis Neurosci.22(5):677−84 Duda RO,Hart PE (2001) Pattern Classification (2nd Edition) Wiley,NY Enroth−Cugell et al.,(1966) The contrast sensitivity of retinal ganglion cells of the cat.J Physiol 187(3):517−−52. Famulare M,Fairhall A.(2010) Feature selection in simple neurons:how coding depends on spiking dynamics.Neural Comput 22(3):581−98 Field et al.,(2007) Information processing in the primate retina:circuitry and coding.Annu Rev Neurosci 30:1−−30 Fitzgerald et al.(1994) Retinal signal transmission in Duchenne muscular dystrophy.J Clin Invest 93:2425−30 Foley JM,Legge GE (1981) Contrast detection and near−threshold discrimination in human vision. Vision Res.21(7):1041−53 Fried S,Werblin F,McMahon MJ (2006) US Pat.2006/0129207 Mimicking neural coding in retinal ganglion cells with short pulse electrical stimulation.In:(US,ed) Friedman DS,O’Colmain BJ,Munoz B,Tomany SC,McCarty C,de Jong PTVM,Nemesure B,Mitchell P,Kempen J,Eye Diseases Prevalence Research Group (2004) Prevalence of age−related macular degeneration in the United States.Arch Ophthalmol 122:564−572 Geisler WS (200).Visual perception and the statistical properties of natural scenes. Annu.Rev.Psychol.59:167−92 (2008) Gerding H,Benner FP,Taneri S (2007) Experimental implantation of epiretinal retina implants (EPI−RET) with an IOL−type receiver unit.J Neural Eng 4:S38−49 Giolli RA,Blanks RHI,Lui F.(2005) The accessory optic system:basic organization with an update on connectivity,neurochemistry,and function.Prog Brain Res 151:407−40 Golan L,Reutsky I,Farah N & Shoham S. (2009) Design and characteristics of holographic neural photo−stimulation systems,Journal of Neural Engineering 6 066004,(2009) Graham−Rowe D (2009) A Brighter Future for Retinal Implants.In:Technology Review,http://www.technologyreview.com/biomedicine/23539/.Boston,MA:MIT Greenberg KP,et al.(2011). Differential Targeting of Optical Neuromodulators to Ganglion Cell Soma and Dendrites Allows Dynamic Control of Center−Surround Antagonism. Neuron 69,713−720 Grinstead CM and Snell JL (1997) Introduction to Probability. American Mathematical Society; 2nd Revised edition Grossman N,Poher V,Grubb MS,Kennedy GT,Nikolic K,McGovern B,Palmini RB,Gong Z,Drakakis EM,Neil,MAA,Dawson MD,Burrone J,Degenaar P.(2010) Multi−site optical excitation using ChR2 and micro−LED array.J.Neural Eng,7(1):1−13 Han et al,(2009),Millisecond−Timescale Optical Control of Neural Dynamics in the Nonhuman Primate Brain,Neuron 62,191−198 Hand DJ.(1981) Discrimination and classification.Wiley Series in Probability and Mathematical Statistics Huberman AD,Manu M,Koch SM,Susman MW,Lutz AB,Ullian EM,Baccus SA,Barres BA (2008) Architecture and activity−mediated refinement of axonal projections from a mosaic of genetically identified retinal ganglion cells.Neuron.2008 Aug 14;59(3):425−38 Huberman AD,Wei W,Elstrott J,Stafford BK,Feller MB,Barres BA (2009) Genetic Identification of an On−Off Direction−Selective Retinal Ganglion Cell Subtype Reveals a Layer−Specific Subcortical Map of Posterior Motion.Neuron.62(3):327−334 Ivanova E,Pan Z−H (2009) Evaluation of the adeno−associated virus mediated long−term expression of channelrhodopsin−2 in the mouse retina.Molecular Vision 15:1680−1689 Izhikevich EM (2007) Dynamical systems in neuroscience:the geometry of excitability and bursting.Cambridge,MA:MIT Press Izhikevich EM (2010) Hybrid spiking models.Review. Phil.Trans.R.Soc.A (2010) 368,5061−5070 Jacobs AL et al (2009) ,Ruling out and ruling in neural codes.Proc Natl Acad Sci U S A.106(14):5936−41 Jeffreys,Harold (1961).The Theory of Probability.The Oxford University Press Kass RE,Ventura V,Brown EN.(2005) Statistical issues in the analysis of neuronal data.J Neurophysiol 94(1):8−25 Kawasaki et al.,Variability of the relative afferent pupillary defect.Am J Ophthalmol(1995).120:622−633 Kay MA,Glorioso JC,Naldini L.(2001) Viral vectors for gene therapy:the art of turning infectious agents into vehicles of therapeutics.Nat Med.7(1):33−40.Review Kelly S,Shire D,Chen J,Doyle P,Gingerich M,Drohan W,Theogarajan L,Cogan S,Wyatt J,Rizzo JI (2009) Realization of a 15−channel,hermetically−encased wireless subretinal prosthesis for the blind.In,pp 200−−203 Kibbel S,Harscher A,Wrobel W−G,Zrenner E,Rothermel A (2009) Design and Performance of an improved active subretinal chip.In:World Congress on Medical Physics and Biomedical Engineering,September 7 − 12,2009,Munich,Germany (Kim SI,Suh TS,Dossel O,Schlegel WC,eds),pp 192−195:Springer Berlin Heidelberg Koilkonda RD,Hauswirth WW,Guy J.(2009) Efficient expression of self−complementary AAV in ganglion cells of the ex vivo primate retina.Mol Vis.15:2796−802 Kuffler SW.(1953) Discharge patterns and functional organization of mammalian retina.J Neurophysiol 16(1):37−68 Lagali PS,Balya D,Awatramani GB,Munch TA,Kim DS,Busskamp V,Cepko CL,Roska B (2008) Light−activated channels targeted to ON bipolar cells restore visual function in retinal degeneration.Nat Neurosci 11:667−675 Lesica NA et al.(2007) Adaptation to stimulus contrast and correlations during natural visual stimulation.Neuron 55(3):479−491 Lettvin et al.,(1959) What the frog’s eye tells the frog’s brain.Proceedings of the Institute of Radio Engineers 47(11):1940−51 Liao et al.(2007) In vivo gene delivery in the retina using polyethylenimine.BioTechniques 2007,42:285−288 Loewenstein JI,Montezuma SR,Rizzo JF,III (2004) Outer Retinal Degeneration:An Electronic Retinal Prosthesis as a Treatment Strategy.Arch Ophthalmol 122:587−596 Maguire et al.Safety and efficacy of gene transfer for Leber’s congenital amaurosis.N Engl J Med(2008) 358:2240−2248 Mancuso et al.,(2009) Gene therapy for red−green colour blindness in adult primates.Nature 461(7265):784−7 Martin et al.2002.Gene delivery to the eye using adeno−associated viral vectors.Methods 28:267−275 McGowan MH et al (1998) Characterization of the Mouse Aldose Reductase Gene and Promoter in a Lens Epithelial Cell Line.Mol Vis 1998; 4:2 McLaughlin SK,Collis P,Hermonat PL,Muzyczka N.(1988) Adeno−associated virus general transduction vectors:analysis of proviral structures.J Virol.62(6):1963−73 Meytlis M,Bomash I,Pillow JW,Nirenberg S.(2009) Assessing the importance of correlated firing using large populations of neurons.Society for Neuroscience.Program No.165.3 Morgans CW,et al (2009) TRPM1 is required for the depolarizing light response in retinal ON−bipolar cells.Proc Natl Acad Sci U S A 106(45):19174−8 Nanduri D,Humayun M,Greenberg R,McMahon M,Weiland J (2008) Retinal prosthesis phosphene shape analysis.In:30th Annual International Conference of the IEEE Engineering in Medicine and Biology Society,pp 1785−−1788.Vancouver,BC Nichols Z,Meytlis M,Nirenberg S.(2010) Correlations play a negligible role in coding white noise and natural scene stimuli in complete retinal populations.Submitted Nirenberg S (2000) Photoablation of cells expressing beta−galactosidase.Methods Mol Biol.135:475−80 Nirenberg S and Cepko,C (1993).Targeted ablation of diverse cell classes in the nervous system in vivo.J Neurosci.13(8):3238−51 Nirenberg S and Latham PE.(1998) Population coding in the retina. Curr.Opin.Neurobiol.8(4):488−493 Nirenberg S and Meister M. (1997).The light response of retinal ganglion cells is truncated by a displaced amacrine circuit. Neuron 18:637−650 Nirenberg S et al (2001) Retinal ganglion cells act largely as independent encoders.Nature 411(6838):698−701 Nirenberg S et al.(2010) Heterogeneous response dynamics in retinal ganglion cells:the interplay of predictive coding and adaptation.J Neurophysiol 103(6):3184−94 Norcia,AM,and Tyler,CW (1985) Spatial frequency sweep VEP:visual acuity during the first year of life.Vision Res.25(10):1399−408 Norcia,AM,et al (1989). Measurement of spatial contrast sensitivity with the swept contrast VEP.Vision Res.1989;29(5):627−37 Okuyama et al.(1993). Binocular infrared optometer for measuring accommodation in both eyes simultaneously in natural−viewing conditions Applied Optics,Vol.32.No 22,p.4147 Pandarinath et al (2010a) A novel mechanism for switching a neural system from one state to another. Front Comput Neurosci.31;4:2 Pandarinath et al (2010b) Symmetry breakdown in the ON and OFF pathways of the retina at night:functional implications.J Neurosci 30(30):10006−14 Paninski L,Pillow J,Lewi J.(2007) Statistical models for neural encoding,decoding,and optimal stimulus design. Prog Brain Res.165:493−507 Paninski L.(2004) Maximum likelihood estimation of cascade point−process neural encoding models.Network 15(4):243−62 Panzeri S,et al (2007) Correcting for the sampling bias problem in spike train information measures. J Neurophysiol.98(3):1064−72.Review Pelli DG,Robson JG,& Wilkins AJ (1988) The design of a new letter chart for measuring contrast sensitivity.Clinical Vision Sciences 2,187−199 Perry VH,Silveira LC.(1988) Functional lamination in the ganglion cell layer of the macaque’s retina.Neuroscience.25(1):217−23 Petrs−Silva et al.,(2009) High−efficiency transduction of the mouse retina by tyrosine−mutant AAV serotype vectors.Mol Ther 17(3):463−71 Petersen−Jones et al.,(2009) AAV retinal transduction in a large animal model species:comparison of a self−complementary AAV2/5 with a single−stranded AAV2/5 vector.Mol Vis 15:1835−42 Pillow JW,Shlens J,Paninski L,Sher A,Litke AM,Chichilnisky EJ,Simoncelli EP.(2008) Spatio−temporal correlations and visual signalling in a complete neuronal population.Nature 454(7207):995−9 Prusky GT,et al (2004) Rapid quantification of adult and developing mouse spatial vision using a virtual optomotor system.Invest Ophthalmol Vis Sci.45(12):4611−6 Pun L (1969),Introduction to Optimization Practice,ISBN 471−70233−1 Purpura K,Tranchina D,Kaplan E,Shapley RM.(1990) Light adaptation in the primate retina:analysis of changes in gain and dynamics of monkey retinal ganglion cells.Vis Neurosci 4(1):75−−93 Rolls ET,Baylis GC,Leonard CM.Role of low and high spatial frequencies in the face−selective responses of neurons in the cortex in the superior temporal sulcus in the monkey.Vision Res.1985;25(8):1021−35 Sambrook et al,"Molecular Cloning.A Laboratory Manual",2d ed.,Cold Spring Harbor Laboratory,New York (1989) Sauer B.(1987) Functional expression of the cre−lox site−specific recombination system in the yeast Saccharomyces cerevisiae.Mol Cell Biol.7(6):2087−96 Shapley RM,Victor JD.(1981) How the contrast gain control modifies the frequency responses of cat retinal ganglion cells.J Physiol.318:161−79 Sharpee TO et al.(2008) On the Importance of Static Nonlinearity in Estimating Spatiotemporal Neural Filters With Natural Stimuli.J Neurophysiol 99(5):2496−509 Sheridan C (2011) Gene Therapy finds its niche Nature Biotechnology 29(2):121−128 Siegert S,Scherf BG,Punta KD,Didkovsky N,Heintz N,Roska B (2009).Genetic address book for retinal cell types.Nature Neuroscience.12:1197−1204 Simoncelli et al.(2004) Characterization of neural responses with stochastic stimuli.The cognitive neurosciences:327−38 Simonelli et al.(2010) Gene Therapy for Leber’s Congenital Amaurosis is Safe and Effective Through 1.5 Years After Vector Administration,Molecular Therapy 18 3,643−650 Sinclair JR,et al (2004) .Selective ablation of a class of amacrine cells alters spatial processing in the retina. J Neurosci.24(6):1459−67 Sjostrand et al.(1999). Morphometric study of the displacement of retinal ganglion cells subserving cones within the human fovea.Graefes Arch Clin Exp Ophthalmol 237:1014−1023 Soucy ER et al.(1998) A novel signaling pathway from rod photoreceptors to ganglion cells in mammalian retina. Neuron 21:481−493 Stone et al.,(1993) Response properties of ganglion cells in the isolated mouse retina.Vis Neurosci 10(1):31−9 Strong SP,et al (1998) On the application of information theory to neural spike trains.Pac Symp Biocomput.621−32 Thyagarajan S,van Wyk M,Lehmann K,Lowel S,Feng G,Wassle H (2010) Visual function in mice with photoreceptor degeneration and transgenic expression of channelrhodopsin 2 in ganglion cells.J Neurosci 30:8745−8758 Tomita H,Sugano E,Isago H,Hiroi T,Wang Z,Ohta E,Tamai M (2010) Channelrhodopsin−2 gene transduced into retinal ganglion cells restores functional vision in genetically blind rats.Exp Eye Res 90:429−436 Troy JB,Bohnsack DL,Chen J,Guo X,Passaglia CL.(2005) Spatiotemporal integration of light by the cat X−cell center under photopic and scotopic conditions.Vis Neurosci 22(4):493−−500 Troy JB,Bohnsack DL,Diller LC.(1999) Spatial properties of the cat X−cell receptive field as a function of mean light level.Vis Neurosci 16(6):1089−−104 Turchinovich et al.(2010) Non−viral siRNA delivery into the mouse retina in vivo.BMC Ophthalmology 10:25 Ueda et al,(1997) The mGluR6 5’ upstream transgene sequence directs a cell−specific and developmentally regulated expression in retinal rod and ON−type cone bipolar cells.J Neurosci.17(9):3014−23 van Adel et al.(2003) Delivery of ciliary neurotrophic factor バイア lentiviral−mediated transfer protects axotomized retinal ganglion cells for an extended period of time.Hum.Gene Ther.14:103−115 Victor JD,Shapley RM.(1979) The nonlinear pathway of Y ganglion cells in the cat retina.J Gen Physiol.74(6):671−89 Victor JD.(1987) The dynamics of the cat retinal X cell centre.The Journal of Physiology 386(1):219 Volgyi B,Deans MR,Paul DL,Bloomfield SA (2004) Convergence and Segregation of the Multiple Rod Pathways in Mammalian Retina.J Neurosci 24(49):11182−11192 Walther W,Stein U. (2000) Viral vectors for gene transfer:a review of their use in the treatment of human diseases.Drugs.60(2):249−71.Review Wassle H.(2004) Parallel processing in the mammalian retina.Nat Rev Neurosci 5(10):747−57 Wells et al.(2005) Optical stimulation of neural tissue in vivo.Optics Letters 30(5):504−506 Winter JO,Cogan SF,Rizzo JFI (2007) Retinal prostheses:current challenges and future outlook.J Biomater Sci Polym Ed 18:1031−1055 Wright AF.(1997) Gene therapy for the eye.Br J Ophthalmol 81(8):620−623 Review Yonehara K,Ishikane H,Sakuta H,Shintani T,Nakamura−Yonehara K,et al.(2009) Identification of Retinal Ganglion Cells and Their Projections Involved in Central Transmission of Information about Upward and Downward Image Motion.PLoS ONE 4(1):e4320 Yonehara K,Shintani T,Suzuki R,Sakuta H,Takeuchi Y,et al.(2008) Expression of SPIG1 Reveals Development of a Retinal Ganglion Cell Subtype Projecting to the Medial Terminal Nucleus in the Mouse.PLoS ONE 3(2):e1533 Zhang Y,Ivanova E,Bi A,Pan Z−H (2009) Ectopic expression of multiple microbial rhodopsins restores ON and OFF light responses in retinas with photoreceptor degeneration.J Neurosci 29:9186−9196 Zrenner E,et al (2009) Subretinal Microelectrode Arrays Allow Blind Retinitis Pigmentosa Patients to Recognize Letters and Combine them to Words.BMEI ’09.2nd International Conference on Biomedical Engineering and Informatics.Issue Date:17−19 Oct.2009. ISBN:978−1−4244−4132−7. Pages 1 − 4 Ballard DH et al.(1982) Computer Vision,Prentice−Hall Inc New Jersey,1982 Chichilnisky EJ.(2001) A simple white noise analysis of neuronal light responses.Network 12(2):199−213 Forsyth DA et al.(2003) Computer Vision:A Modern Approach ,Prentice Hall,Nirenberg S et al.(2010) Heterogeneous response dynamics in retinal ganglion cells:the interplay of predictive coding and adaptation.J Neurophysiol 103(6):3184−94 Freund Y et al.(1995) A Decision−Theoretic Generalization of on−Line Learning and an Application to Boosting Journal of Computer and System Sciences 55,119−139 Pillow JW,Shlens J,Paninski L,Sher A,Litke AM,Chichilnisky EJ,Simoncelli EP.(2008) Spatio−temporal correlations and visual signalling in a complete neuronal population.Nature 454(7207):995−9 Simonelli et al.(2010) Gene Therapy for Leber’s Congenital Amaurosis is Safe and Effective Through 1.5 Years After Vector Administration,Molecular Therapy 18 3,643−650 Nichols Z,Meytlis M,Nirenberg S.(2010) Correlations play a negligible role in coding white noise and natural scene stimuli in complete retinal populations.Submitted Nirenberg S et al.(2010) Heterogeneous response dynamics in retinal ganglion cells:the interplay of predictive coding and adaptation.J Neurophysiol 103(6):3184−94
網膜の作動の抽象モデルに基づいて、機械視覚のための画像データ予備処理手法を開発するためのいくつかの手法が提案されている。しかし、これらのモデルは、網膜の実際の性能への大まかな近似に基づくものであった。
「背景技術」節の一部分は、http://en.wikipedia.org/wiki/Computer_visionで入手可能かつ「Creative Commons Attribution−ShareAlike License」に従って用いられるコンピュータ視覚に関するWikipedia文献から書き換えたものである。
本発明の開示に説明する実施形態は、網膜によって実施される作動のほぼ完全な再現を可能にする符号化器を利用する。上記に引用によって組み込んだ国際特許出願(以降「補綴出願」)に詳細に記載されているように、この符号化器は、非常に有効な人工網膜を開発するのに使用することができる。本発明の開示では、符号化器は機械視覚に適用される。
符号化器は、予備処理段階(特に次元低減段階)として使用されると、機械視覚アルゴリズムの性能を実質的に改善する。一部の実施形態において、符号化器は、機械視覚アルゴリズムが、広範囲にわたる環境及び照明条件下で、他の方法に基づいて抽出することができない情報を含む情報を非常に有効に抽出することを可能にする。既存の機械視覚アルゴリズムが部分的にしか有効ではない場合に、この次元低減は、強力な改善策として機能することができる。符号化器は、抽出をより有効(より高い性能)に実施するだけでなく、より高速にかつより効率的に実施することを可能にすることができる。
補綴出願に詳細に記載しているように、本出願人は、刺激を受け入れ、符号化器セットを用いて刺激をコードセットに変換し、インタフェースを用いてコードを信号に変換し、次に、これらの信号が、インタフェースからのこれらの信号によって駆動される高分解能変換器を用いて複数の網膜細胞を活性化する補綴デバイスを開発した。複数の網膜細胞の活性化は、同じ刺激に対する正常網膜からの網膜神経節細胞の時間依存応答と実質的に類似の広範囲にわたる刺激に対する網膜神経節細胞応答をもたらす。本出願人は、そのようなデバイスに使用される符号化器を機械視覚用途における使用に向けて画像データを処理するように適応させることができることを認めた。
補綴出願において記載されている人工網膜は、正常網膜と同じく画像処理プロセッサであり、受け入れる刺激から極めて重要な情報を抽出し、この情報を脳が理解することができる活動電位パターンにフォーマット設定し直す。正常網膜によって生成される活動電位パターンは、網膜コード又は神経節細胞コードと呼ばれるものである。人工網膜は、視覚刺激を損傷又は劣化した網膜が正常又はほぼ正常な出力を生成することができるようにそれと同じコード又はそれに近い代用コードに変換する。人工網膜は、正常網膜と同じコード又はそれに近い代用コードを使用するので、損傷又は劣化した網膜内の神経節細胞の発火パターン、すなわち、その活動電位パターンは、正常神経節細胞によって生成されるものと同じか又は実質的に類似である。従って、この補綴は、網膜が、視覚世界に対して正常網膜と同じ信号を脳に送ることを可能にする。
補綴出願に詳述されているように、符号化器は、様々な刺激、例えば、白色ノイズ(WN)と自然光景(NS)の両方の動画に対する実際の網膜細胞の入力/出力応答の研究から得られたデータを用いて生成された網膜細胞に対する入力/出力モデルを使用する。一部の実施形態において、符号化器は、いくつかのパラメータによって特徴付けられる時空変換を含む線形非線形カスケードモデルに基づいている。これらのパラメータは、実網膜における実験を通過して得られたデータに基づいて最適化され、広範囲にわたる刺激に対する実際の細胞の応答を厳密に模倣する変換がもたらされる。結果は、白色ノイズ刺激又はガウシアン統計を有する刺激に対してだけではなく、顔、風景、歩いている人々、遊んでいる子供のような自然画像(静的な又は時空的に変化する)に関する入力/出力関係を取り込むモデルである。広範囲にわたる刺激に対する有効性は補綴出願、及び以下に詳細に解説する図18A〜図18Fに示されている。
この手法は、実験を通して得られたデータを利用するので、生成される符号化器は、根底にある網膜の処理手法の詳細な概念的理解を必要とすることなく、網膜処理を正確に模擬することができる。例えば、霊長類及びヒトにおける網膜処理は、脳内での効率的な処理を可能にするために、視覚刺激内でパターン認識タスク(例えば、顔認識)に有利な特徴を強調し、一方、他の特徴(例えば、冗長情報又はノイズ)を弱調又は排除する。計り知れないほど長い年月を経ての自然淘汰の結果として発達したこの処理手法の詳細の完全な概念的理解は、未だなお存在しない。しかし、この概念的理解の欠如にも関わらず、本明細書に説明するデバイス及び技術は、網膜応答を正確に模倣することにより、この処理の利点を取り込むことができる。
言い換えれば、本明細書に説明する様々な実施形態において、この手法はデータ駆動手法であり、すなわち、網膜入力/出力関係のデータ駆動モデルを用い、従って、現実的な画像予備処理をもたらす。それによって下流の機械視覚アルゴリズムに、生物網膜と同じ種類で同じ大きさの次元低減を提供する予備処理段階が与えられ、従って、生物網膜と同じ数々の利点がもたらされる。
一般的に、本明細書に説明する手法は、網膜の完全又はほぼ完全な模倣を与えることができるので、例えば、ガウシアンの差タイプフィルタを用いて画像データをフィルタリングする従来の予備処理プロセッサとは異なることに注意されたい。同じくこの手法は、白色ノイズ刺激又はガウシアン統計を有する刺激だけではなく、広範囲にわたる刺激に対して有効である点で他の線形−非線形カスケードモデルとは異なる。従って、フィルタリングはより一層完全であり、現在の機械視覚アルゴリズムのパワーを大幅に改善する。最も重要な点として、この手法は、現在の機械視覚アルゴリズムを一般化させ、すなわち、積年の難題であった1つの設定(1つの環境又は照明条件)においてトレーニングされて他の環境に対して一般化することを可能にする(例えば、以下に詳細に説明する図10、図11、及び図15を参照されたい)。
更に、一部の実施形態において、広範囲にわたる刺激に対して網膜処理がモデル化されるので(例えば、WNとNSの両方によって生成されたデータを用いた最適化の結果として)、機械視覚システムのための予備処理は、広範囲にわたる条件にわたって良好に機能する(網膜が広範囲にわたる条件にわたって機能するのと同じく)。有利な態様においては、この手法は、様々な条件(例えば、照明変化、複雑で変化する視覚光景、多くの異なる環境等)の下でロバストな性能を必要とする機械視覚用途において網膜予備処理技術を使用することを可能にする。
一態様において、一連の生画像に対応する生画像データを受け入れる段階と、脊椎動物網膜の1つ又はそれよりも多くの網膜細胞の入力/出力変換を実質的に模倣する入力/出力変換によって特徴付けられる符号化器を用いて符号化されたデータを生成するように生画像データを処理する段階と、符号化されたデータに少なくとも部分的に基づいて生成されたデータに第1の機械視覚アルゴリズムを適用する段階とを含む方法を開示する。
一部の実施形態は、符号化されたデータに基づいて一連の網膜画像を生成する段階を含む。一部の実施形態は、符号化されたデータに基づいて網膜画像内のピクセル値を決定する段階を含む。一部の実施形態において、符号化されたデータに基づいて網膜画像内のピクセル値を決定する段階は、網膜細胞応答を示す符号化されたデータに基づいてピクセル強度又は色を決定する段階を含む。
一部の実施形態において、網膜細胞応答を示すデータは、網膜細胞発火率、網膜細胞出力パルス列、及び起動電位から構成されるリストからの少なくとも1つを示す。
一部の実施形態は、一連の網膜画像に第1の機械視覚アルゴリズムを適用する段階を含む。
一部の実施形態において、機械視覚アルゴリズムは、物体認識アルゴリズム、画像分類アルゴリズム、顔認識アルゴリズム、光学文字認識アルゴリズム、コンテンツベースの画像取り出しアルゴリズム、姿勢推定アルゴリズム、運動解析アルゴリズム、自己運動決定アルゴリズム、移動追跡アルゴリズム、オプティカルフロー決定アルゴリズム、光景再現アルゴリズム、3D容積認識アルゴリズム、及びナビゲーションアルゴリズムから構成されるリストから選択された少なくとも1つを含む。
一部の実施形態において、機械視覚アルゴリズムは、一連の網膜画像に適用された時に、符号化器を用いて処理されていない対応する生画像セットに適用された時よりも良好な性能を示す。
一部の実施形態において、機械視覚アルゴリズムは、自然光景を含む一連の網膜画像に適用された時に、符号化器を用いて処理されていない対応する一連の生画像に適用された時よりも良好な性能を示す。
一部の実施形態において、機械視覚アルゴリズムは、一連の画像内での人間の検出又は識別のためのアルゴリズムを含み、この人間を含む様々な網膜画像に適用された時に、符号化器を用いて処理されていない対応する生画像セットに適用された時よりも良好な検出精度又は識別精度を示す。
一部の実施形態において、人間を含む一連の画像は、自然光景に位置する人間の画像を含む。
一部の実施形態において、人間を含む一連の画像は、機械視覚アルゴリズムをトレーニングするのに使用された自然光景とは異なる自然光景に位置する人間の画像を含む。
一部の実施形態において、機械視覚アルゴリズムは、実環境又は仮想環境を通じたナビゲーションのためのアルゴリズムを含み、自然光景を含む一連の網膜画像に適用された時に、符号化器を用いて処理されていない対応する生画像セットに適用された時よりも良好なナビゲーション性能を示す。
一部の実施形態において、機械視覚アルゴリズムは、自然光景を含む一連の網膜画像に適用された時に、符号化器を用いて処理されていない対応する生画像セットに適用された時よりも少ないナビゲーション中の望まない衝突イベントを示す。
一部の実施形態において、一連の網膜画像は、機械視覚アルゴリズムをトレーニングするのに使用されなかった環境に対応する。
一部の実施形態は、1つ又はそれよりも多くの着目する網膜画像を識別するために、一連の網膜画像に機械画像処理アルゴリズムを適用する段階と、着目する網膜画像に対応する1つ又はそれよりも多くの着目する生画像を識別する段階とを含む。一部の実施形態は、着目する生画像を処理する段階を含む。一部の実施形態において、着目する生画像を処理する段階は、着目する生画像に第2の機械視覚アルゴリズムを適用する段階を含む。一部の実施形態において、第1の機械視覚アルゴリズムは、網膜画像セットに対してトレーニングされたアルゴリズムを含み、第2の機械視覚アルゴリズムは、生画像セットに対してトレーニングされたアルゴリズムを含む。
一部の実施形態において、第1の機械視覚アルゴリズムを適用する段階は、ナビゲーションアルゴリズムを適用する段階を含む。一部の実施形態において、ナビゲーションアルゴリズムを適用する段階は、一連の網膜画像内の複数の画像位置での運動を示す運動情報を決定するように一連の画像を処理する段階と、運動情報に基づいて一連の画像内で空間領域を分類する段階と、空間領域の分類に基づいてナビゲーション決定を生成する段階とを含む。一部の実施形態において、運動情報は、一連の画像内のオプティカルフローを示す。一部の実施形態は、空間領域を分類するのに畳み込みニューラルネットワークを使用する段階を含む。
一部の実施形態は、ナビゲーションアルゴリズムからの結果に基づいてロボット装置の運動を制御する段階を含む。
一部の実施形態は、ナビゲーションアルゴリズムからの結果に基づいて仮想空間内の仮想物体の運動を制御する段階を含む。
一部の実施形態は、網膜画像に基づいて機械視覚アルゴリズムをトレーニングする段階を含む。一部の実施形態において、機械視覚アルゴリズムをトレーニングする段階は、(i)機械視覚アルゴリズムを網膜画像セットに適用して出力を生成する段階と、(ii)出力に基づいて機械視覚アルゴリズムの性能を示す性能情報を決定する段階と、(iii)性能情報に基づいて機械視覚アルゴリズムの1つ又はそれよりも多くの特性を修正する段階とを含む。一部の実施形態は、選択された性能基準に達するまで段階(i)から段階(iii)までを反復的に繰り返す段階を含む。
一部の実施形態において、トレーニングされた機械視覚アルゴリズムは、パラメータセットによって特徴付けられ、パラメータは、網膜画像に対応する生画像を用いた機械視覚アルゴリズムの同等のトレーニングによって得られることになる対応するパラメータとは異なる。
一部の実施形態において、符号化器を用いて符号化されたデータを生成するように生画像データを処理する段階は、対応する生画像データと比較して低減された情報量を含む符号化されたデータを生成する段階を含む。いくつかのそのような実施形態において、機械視覚アルゴリズムは、一連の網膜画像に適用された時に、符号化器を用いて処理されていない対応する生画像セットに適用された時よりも良好な性能を示す。
一部の実施形態において、符号化されたデータ内に含まれる情報量は、対応する生画像データと比較して1.1倍〜1,000倍の範囲又はそのいずれかの部分的範囲、例えば、少なくとも約1.5倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、又はそれよりも多くだけ圧縮される。
一部の実施形態において、脊椎動物は、ネズミ及びサルから構成されるリストから選択された少なくとも1つを含む。
一部の実施形態において、網膜細胞は、神経節細胞を含む。一部の実施形態において、網膜細胞は、少なくとも2つの部類の細胞を含む。一部の実施形態において、少なくとも2つの部類の細胞は、ON細胞とOFF細胞とを含む。
一部の実施形態において、符号化器は、時空的に変化する画像を含む自然光景画像を含む様々な入力にわたって脊椎動物網膜の1つ又はそれよりも多くの網膜細胞の入力/出力変換を実質的に模倣する入力/出力変換によって特徴付けられる。
一部の実施形態において、符号化器を用いて符号化されたデータを生成するように生画像データを処理する段階は、複数の値Xを生成するように生画像データを処理する段階と、複数のX値を網膜m内の網膜細胞の対応する応答を示す複数の応答値λmに変換する段階と、応答値に基づいて符号化されたデータを生成する段階とを含む。一部の実施形態において、応答値は、網膜細胞発火率に対応する。一部の実施形態において、応答値は、網膜細胞発火率の関数に対応する。一部の実施形態において、応答値は、網膜細胞出力パルスに対応する。一部の実施形態において、応答値は、網膜細胞起動電位、すなわち、時空フィルタを用いた画像の畳み込みの出力に対応する。
一部の実施形態において、符号化器を用いて符号化されたデータを生成するように生画像データを処理する段階は、生画像データからの画像を受け入れて、各画像に対して輝度又はコントラストを再スケーリングし、再スケーリングされた画像ストリームを生成する段階と、再スケーリングされた画像ストリームからN枚の再スケーリングされた画像のセットを受け入れ、N枚の画像のセットに対して時空変換を適用し、網膜細胞のそれぞれの1つに各々が対応する網膜応答値のセットを生成する段階と、網膜応答値に基づいて符号化されたデータを生成する段階とを含む。
一部の実施形態において、応答値は、網膜細胞発火率を含む。一部の実施形態において、Nは、1〜1,000の範囲又はそのいずれかの部分的範囲、例えば、少なくとも5、少なくとも約20、少なくとも約100、又はそれよりも多くである。
一部の実施形態において、時空変換を適用する段階は、N枚の再スケーリングされた画像を時空カーネルを用いて畳み込み、1つ又はそれよりも多くの時空変換された画像を生成する段階と、時空変換された画像に非線形関数を適用して応答値セットを生成する段階とを含む。
一部の実施形態において、時空変換を適用する段階は、N枚の再スケーリングされた画像を空間カーネルを用いて畳み込み、N枚の空間変換された画像を生成する段階と、N枚の空間変換された画像を時間カーネルを用いて畳み込み、時間変換出力を生成する段階と、時間変換出力に非線形関数を適用して応答値セットを生成する段階とを含む。
一部の実施形態において、符号化器は、パラメータセットによって特徴付けられ、パラメータの値は、脊椎動物網膜からこの網膜が白色ノイズ刺激と自然光景刺激とに露出される間に実験的に得られる応答データを用いて決定される。
一部の実施形態において、符号化器は、試験入力刺激と、試験入力刺激に応答して符号化器によって生成されることになる符号化されたデータから再現された対応する刺激との間のピアソン相関係数が、0.35〜1.0の範囲又はそのいずれかの部分的範囲、例えば、少なくとも約0.35、0.65、少なくとも約0.95、又はそれよりも多くであるように構成される。一部の実施形態において、試験入力刺激は、一連の自然光景を含む。
別の態様において、生画像データを格納するように構成された少なくとも1つのメモリストレージデバイスと、メモリと作動可能に結合され、本明細書に説明する方法のうちの1つ又はそれよりも多くを実行するようにプログラムされた少なくとも1つのプロセッサとを含む装置を開示する。
一部の実施形態において、持続性コンピュータ可読媒体は、本明細書に説明する方法のうちの1つ又はそれよりも多くが有する段階を実施するためのコンピュータ実行可能命令を有する。
別の態様において、一連の生画像に対応する生画像データを受け入れる段階と、脊椎動物網膜の1つ又はそれよりも多くの網膜細胞の入力/出力変換を実質的に模倣する入力/出力変換によって特徴付けられる符号化器を用いて符号化されたデータを生成するように生画像データを処理する段階とによって生成された一連の画像に対応する符号化されたデータを格納する少なくとも1つのメモリストレージデバイスを含むシステムを開示する。一部の実施形態において、少なくとも1つのストレージデバイスは、符号化されたデータと生画像データの間の対応を示すデータベース情報を格納する。
一部の実施形態は、一連のクエリ画像に対応するクエリ画像データを受け入れ、脊椎動物網膜の1つ又はそれよりも多くの網膜細胞の入力/出力変換を実質的に模倣する入力/出力変換によって特徴付けられる符号化器を用いて符号化されたデータを生成するようにクエリ画像データを処理し、符号化されたクエリ画像データをメモリストレージデバイス上の符号化されたデータと比較し、(a)メモリストレージデバイス上の符号化されたデータに対する符号化されたクエリデータの比較と、(b)符号化されたデータと生画像データの間の対応を示すデータベース情報とに基づいて、クエリ画像データと生画像データの間の対応を決定するように構成されたプロセッサを含む。
別の態様において、一連の生画像に対応する生画像データを受け入れる段階と、第1の脊椎動物類からの第1の脊椎動物網膜の1つ又はそれよりも多くの網膜細胞の入力/出力変換を実質的に模倣する入力/出力変換によって特徴付けられる符号化器を用いて第1の符号化されたデータを生成するように生画像データの少なくとも第1の部分を処理する段階と、第1の脊椎動物類とは異なる第2の脊椎動物類からの第2の脊椎動物網膜の1つ又はそれよりも多くの網膜細胞の入力/出力変換を実質的に模倣する入力/出力変換によって特徴付けられる符号化器を用いて符号化されたデータを生成するように生画像データの少なくとも第2の部分を処理する段階とを含む方法を開示する。
一部の実施形態は、第1の符号化されたデータに基づいて、処理に向けて生画像データの第2の部分を選択する段階を含む。
様々な実施形態において、生画像データは、画像検出器、又は生画像データを格納するメモリ、又はその組合せから実質的に実時間で受け取られる。
別の態様において、生画像データを格納するように構成された少なくとも1つのメモリストレージデバイスと、メモリと作動可能に結合され、本明細書に説明する方法のうちの1つ又はそれよりも多くを実行するようにプログラムされた少なくとも1つのプロセッサとを含む装置を開示する。
別の態様において、持続性コンピュータ可読媒体は、本明細書に説明する方法のうちの1つ又はそれよりも多くが有する段階を実施するためのコンピュータ実行可能命令を有する。
別の態様において、一連の生画像に対応する生画像データを受け入れる段階と、脊椎動物網膜の1つ又はそれよりも多くの網膜細胞の入力/出力変換を実質的に模倣する入力/出力変換によって特徴付けられる符号化器を用いて符号化されたデータを生成するように生画像データを処理する段階とによって生成された一連の画像に対応する符号化されたデータを格納する少なくとも1つのメモリストレージデバイスを含むシステムを開示する。一部の実施形態において、少なくとも1つのストレージデバイスは、符号化されたデータと生画像データの間の対応を示すデータベース情報を格納する。
様々な実施形態は、上述の要素のうちのいずれかを単独で又はあらゆる適切な組合せで含むことができる。
例示的な機械視覚システムを示すブロック図である。 符号化器モジュールの作動を示す流れ図である。 パネルAが、カメラによって得られた生画像ストリームからのいくつかのフレームを示し、パネルBが、それに対応する網膜画像ストリームからのいくつかのフレームを示し、各々が異なる細胞アレイ(図に示すように、OFFミジェット細胞、ONミジェット細胞、OFFパラソル細胞、及びONパラソル細胞)を用いた4つの異なる網膜画像ストリームを示す生画像ストリーム(複雑な環境を通って歩く人物)の網膜画像ストリームへの変換を示す図である。 生画像の拡大図である。 図3Aの最終列に対応する網膜画像の拡大図である。 図3Aの最終列に対応する網膜画像の拡大図である。 図3Aの最終列に対応する網膜画像の拡大図である。 図3Aの最終列に対応する網膜画像の拡大図である。 図1の機械視覚システムの機械視覚モジュールをトレーニングするためのトレーニングシステムを示すブロック図である。 図4のトレーニングシステムの作動を示す流れ図である。 ロボットが進む経路を破線に示し、迷路を通じたロボットのナビゲーションを制御するのに使用される機械視覚システムを示す図である。 ナビゲーションタスクを制御するのに使用される機械視覚システムの一実施形態に関する流れ図である。 画像ストリームが、本文に示すように田園環境を用いた仮想環境内で生成したものであり、上部のパネルが、画像ストリーム内の最初の5つのフレームを示し、下部のパネルが、画像ストリームの残りの部分から選択したフレームを示し、30フレーム毎に1枚(すなわち、30秒毎に1フレーム)を示すナビゲータをトレーニングするのに用いた生画像ストリーム(動画)からのフレームを示す図である。 田園環境(ナビゲータをトレーニングするのに用いたものとは異なるもの)を示し、図9の場合と同様に、これらの画像ストリームが、仮想環境内で生成したものであり、各セットの上部パネルが、最初の4つのフレームを示し、下部パネルが、動画の残りの部分から選択したフレーム(この場合に、15フレーム毎に1枚(すなわち、2分の1秒毎に1フレーム))を示すナビゲータを試験するのに用いた生画像ストリーム(動画)からのフレームを示す図である。 郊外環境を示し、図9の場合と同様に、これらの画像ストリームが、仮想環境内で生成したものであり、各セットの上部パネルが、最初の4つのフレームを示し、下部パネルが、動画の残りの部分から選択したフレーム(この場合に、15フレーム毎に1枚(すなわち、2分の1秒毎に1フレーム))を示すナビゲータを試験するのに用いた生画像ストリーム(動画)からのフレームを示す図である。 遊び場環境(タイヤ障害物コース)を示し、図9の場合と同様に、これらの画像ストリームが、仮想環境内で生成したものであり、各セットの上部パネルが、最初の4つのフレームを示し、下部パネルが、動画の残りの部分から選択したフレーム(この場合に、15フレーム毎に1枚(すなわち、2分の1秒毎に1フレーム))を示すナビゲータを試験するのに用いた生画像ストリーム(動画)からのフレームを示す図である。 本文及び図7の流れ図で説明するように、ナビゲーションタスクを学習するのに用いた主アルゴリズムである畳み込みニューラルネットワーク(CNN)を1)標準手法、すなわち、生視覚環境(生画像ストリーム)を使用する方法、及び2)生視覚環境の次元を低減した後、すなわち、生視覚環境を符号化器を通過して処理した後の環境を使用する手法という2つの手法でトレーニングしたものであり(用いたトレーニング環境は、図8に示す田園環境である)、次に、ナビゲータの性能をナビゲータをトレーニングするのに用いたものとは異なる田園環境、郊外環境、及び遊び場環境という3つの新しい環境内で試験し(各環境からのサンプルを図9に示す)、A.ナビゲータが生画像ストリームから環境を学習した場合のナビゲータの性能であり、乱れた軌道及び衝突に注意しなければならず、B.ナビゲータが網膜画像ストリーム(符号化器によって生成された画像ストリーム)から環境を学習した場合のナビゲータの性能であり、真っ直ぐな経路及び障害物の回避に注意しなければならないナビゲータの性能及び異なる環境に対して一般化する機能を示す軌道を示す図である。 AからFが、太陽の異なる位置、従って、遊び場環境内の異なる影条件に対応し、光条件が、日の出から日の入まで、すなわち、環境の左側の水平線の上方30度から右側の水平線の上方30度にわたり、明るい灰色が、ナビゲータを生画像ストリーム(図8に示す1つの照明条件を用いた田園環境からの)上でトレーニングした場合のナビゲータの性能であり、この図に示すように、ナビゲータの性能が、新しい環境に配置された場合に低く、この低い性能が、光条件にわたって同じく適用され、各棒グラフの高さが、ナビゲータが遊び場のタイヤコース内でタイヤのうちの1つと衝突することもなく首尾良く留まった試行分率に対応し、誤差棒グラフが、平均の標準誤差(SEM)を示し、暗い灰色が、ナビゲータを網膜画像ストリーム(同じ単一の照明条件を使用するが、今回は符号化器を通過して処理した同じ田園環境)上でトレーニングした場合のナビゲータの性能であり、図示のように、ナビゲータの性能が高く、高い性能が光条件にわたって成り立ち、従って、網膜画像ストリーム上でのトレーニング(すなわち、符号化器を通過して処理された低次元画像上でのトレーニング)が、新しい環境及び複数の照明条件(日の出から日の入まで、上記を参照されたい)に対して一般化された高い性能をもたらし、具体的に高い性能が異なる環境(田園環境から郊外環境、更に遊び場まで)だけでなく、環境内の異なる照明条件に対しても一般化されることを示すナビゲータの高い性能を更に明らかにする図である。 顔認識タスクを制御するのに使用される機械視覚システムの一実施形態に関する流れ図である。 画像ストリームが、24フレーム毎秒のレートで記録したものであり、この図では12フレーム毎に1枚を示す(2分の1秒毎に1フレーム)顔認識アルゴリズム(本文で言及しているViola−Jones−Snowアルゴリズム)をトレーニングするのに用いた生画像ストリーム(動画)からのフレームを示す図である。 人物が、図13に示すものと同じであるが、例えば、異なる環境内で異なる髪型を有する人物であることに注意しなければならず、本文に示すように、顔認識アルゴリズムの目的が、このアルゴリズムがターゲット人物の他の画像ストリームに対してのみトレーニングされている場合であっても、新しい画像ストリームをこの人物に属するものとして認識することであり、図13の場合と同様に、画像ストリームが、24フレーム毎秒のレートで記録したものであり、この図では12フレーム毎に1枚を示す(2分の1秒毎に1フレーム)顔認識アルゴリズムの性能を試験するのに用いた生画像ストリーム(動画)からのフレームを示す図である。 1)標準手法を使用し、すなわち、生画像ストリームを用いて顔認識アルゴリズムをトレーニングする方法、及び2)本出願に説明する手法を使用する(すなわち、生画像ストリームを符号化器によって処理したものを使用する)方法という2つの方法で顔認識アルゴリズムがトレーニングされた場合のその性能を示す図であり、両方の場合に、顔認識アルゴリズムを多くの画像ストリーム(ターゲット顔の4〜5本の映像からの250〜800本の2フレーム画像ストリーム及び他の顔の>100本の映像からの2000本の2フレーム画像ストリーム)に対してトレーニングし、次に、過去に見せていない映像、すなわち、トレーニングセットに対して用いなかった映像からの50〜800本の2フレーム画像ストリームを用いて性能を測定し(トレーニングセットと試験セットの両方からのサンプルフレームに対しては図13と図14とを参照されたい)、標準手法が非常に非力に機能したのみであったものと、ほどほど良好に機能したものという2つのタスクセットに対して性能を示し、棒グラフの高さが、顔認識器がターゲット顔を首尾良く認識した試行分率を示し、誤差棒グラフが、平均の標準誤差(SEM)を示し、図示のように、タスクが困難であった場合に(A)、本出願に説明する手法が、標準手法に優る大きな(4倍の)改善をもたらし、タスクがそれ程困難ではなかった場合に、すなわち、標準手法がほどほど良好に機能する場合にも、本出願に説明する手法が、依然として改善をもたらす(1.5倍の)ことを示す図である。 画像処理に網膜符号化器手法と従来手法の両方を使用する例示的な混成画像処理法に関する処理流れ図である。 網膜符号化されたデータを用いたデジタル指紋処理のためのシステムのブロック図である。 従来の線形−非線形(LN)モデルの性能を左に、本出願に説明するタイプの線形−非線形(LN)モデルの性能を右に示し、ラスタープロット及び刺激前後時間ヒストグラム(PSTH)によって性能を示す自然光景の動画を用いて試験した場合の網膜符号化器モデルの性能を示す図である。 従来の線形−非線形(LN)モデルの性能を左に、本出願に説明するタイプの線形−非線形(LN)モデルの性能を右に示し、ラスタープロット及び刺激前後時間ヒストグラム(PSTH)によって性能を示す自然光景の動画を用いて試験した場合の網膜符号化器モデルの性能を示す図である。 従来の線形−非線形(LN)モデルの性能を左に、本出願に説明するタイプの線形−非線形(LN)モデルの性能を右に示し、ラスタープロット及び刺激前後時間ヒストグラム(PSTH)によって性能を示す自然光景の動画を用いて試験した場合の網膜符号化器モデルの性能を示す図である。 従来の線形−非線形(LN)モデルの性能を左に、本出願に説明するタイプの線形−非線形(LN)モデルの性能を右に示し、ラスタープロット及び刺激前後時間ヒストグラム(PSTH)によって性能を示す自然光景の動画を用いて試験した場合の網膜符号化器モデルの性能を示す図である。 従来の線形−非線形(LN)モデルの性能を左に、本出願に説明するタイプの線形−非線形(LN)モデルの性能を右に示し、ラスタープロット及び刺激前後時間ヒストグラム(PSTH)によって性能を示す自然光景の動画を用いて試験した場合の網膜符号化器モデルの性能を示す図である。 従来の線形−非線形(LN)モデルの性能を左に、本出願に説明するタイプの線形−非線形(LN)モデルの性能を右に示し、ラスタープロット及び刺激前後時間ヒストグラム(PSTH)によって性能を示す自然光景の動画を用いて試験した場合の網膜符号化器モデルの性能を示す図である。
図1は、カメラ102と、符号化器モジュール104と、機械視覚モジュール106と、機械視覚モジュールによって制御されるシステム108とを特徴として含む例示的な機械視覚システム100を示す。カメラ102は、視覚刺激を受け入れ、それをデジタル画像データ、例えば、デジタル画像ストリームに変換する。本明細書ではこのデジタル画像データを「生」画像データと呼ぶ場合がある。生画像データは、網膜符号化器による処理の前のあらゆる画像データを含むことができることは理解されるものとする。
符号化器モジュール104は、画像データを受け入れて、これらのデータを本明細書及び/又は補綴出願に記載されているタイプの1つ又はそれよりも多くの網膜符号化器を用いて処理する。「網膜画像データ」と呼ぶ符号化器モジュールの出力は、機械視覚モジュールに渡され、機械視覚モジュールは、網膜画像データを例えば当業技術で公知であり及び/又は本明細書で説明する1つ又はそれよりも多くの機械視覚技術を用いて処理する。機械視覚処理に基づいて、機械視覚モジュール106は、あらゆる適切な目的に使用することができる出力を生成する。図示のように、出力は、1つ又はそれよりも多くのシステム108、例えば、ロボットシステムを制御する。一部の実施形態において、画像の処理及び/又は制御は、実時間又はほぼ実時間に実施することができる。
図1に示すシステムは単に例示的であり、様々な他のタイプの機械視覚システムを使用することができることは理解されるものとする。例えば、一部の実施形態において、制御式システム108を例えば省くことができ、この場合に、機械視覚モジュールの出力は、制御に使用されるのではなく、更に別の処理等のための出力として格納される。一部の実施形態において、カメラ102は、例えば、格納画像データの供給源によって置換することができる。一部の実施形態において、付加的な要素、例えば、様々なプロセッサ又はコントローラ、ユーザ制御器、入力又は出力デバイスなどを含めることができる。
様々な実施形態において、カメラ102は、視覚刺激をデジタル形態、例えば、デジタル画像ストリームに変換することができるあらゆるデバイスとすることができる。様々な実施形態は、電荷結合デバイス(CCD)、相補的金属酸化物半導体(CMOS)センサのような能動ピクセルセンサ(APS)、薄膜トランジスタ(TFT)、フォトダイオードアレイ、及びこれらの組合せに基づくデバイスを含むことができる。
カメラ102によって生成されるデジタル画像の各々は、0.01〜1000メガピクセルの範囲又はそのいずれかの部分的範囲、例えば、少なくとも0.01メガピクセル、少なくとも2メガピクセル、又はそれよりも多くを含むことができる。デジタル画像ストリームは、1〜1000Hzの範囲又はそのいずれかの部分的範囲、例えば、少なくとも10Hz、少なくとも50Hz、少なくとも100Hz、又はそれよりも多いフレームレート(すなわち、1秒当たりの画像フレーム数)によって特徴付けることができる。デジタル画像は、有色、グレースケール、白黒、又は他の適切なタイプの画像とすることができる。
一部の実施形態において、カメラは、電荷結合デバイス(CCD)に基づいている。一実施形態において、カメラ100は、Point Grey Firefly MVデバイス(60フレーム毎秒において752×480ピクセル、8ビット/ピクセルの機能を有する)(Point Grey Research、リッチモンド、BC、カナダ)である。別の実施形態において、カメラ100は、Omnivision OV5642カメラモジュール(30フレーム毎秒において1280×720ピクセル、8ビット/ピクセルの機能を有する)を組み込んだE−consystems e−CAM50_OMAP_GSTIXである。
一部の実施形態において、カメラ102によって画像が得られ、これらの画像は、望ましくない遅延時間なしにデバイス100が作動することを可能にする十分な速度で符号化器モジュール104に送信される。この送信を提供するために、一部の実施形態において、カメラ102と符号化器モジュール104の間に高帯域幅接続が設けられる。例えば、カメラと処理デバイスの間でUSB2.0インタフェースを用いて20MB/秒よりも優れたデータ転送を提供することができる。他の実施形態において、カメラと処理デバイスの間で、OMAP 3530(Texas Instruments、ダラス、TX、米国)上のCamera Image Signal Processor内に組み込まれたパラレルインタフェースのようなパラレルインタフェースが使用される。様々な実施形態において、有線接続又は無線接続を含む他の適切な接続を使用することができる。カメラ102は、以下に限定されるものではないが、IEEE 1394又はUSB 2.0のようなシリアルインタフェース、パラレルインタフェース、NTSC又はPALのようなアナログインタフェース、無線インタフェースを含む高速データ転送の機能を有するいずれかの接続を用いて符号化器モジュール104とインタフェース接続することができる。一部の実施形態において、カメラは、符号化器モジュールと同じ基板上に組み込むことができる。
符号化器モジュール104は、例えば、実施する符号化器が、網膜回路の作動を模倣して画像からコードへの変換を実施することを含む本明細書に説明する技術を用いて画像ストリームの処理を実施する。符号化器によって指定された変換が一連の入力画像に適用され、符号化された出力が生成される。例えば、符号化された出力は、画像が網膜によって感受された場合に生成されたであろう網膜細胞の発火率を示す値の形態にあるとすることができる。出力は、例えば、網膜細胞の「起動電位」を示す情報、すなわち、網膜モデルの線形成分の出力(線形フィルタを用いた画像の畳み込みの出力)とすることができる。符号化された出力は、網膜細胞によって生成される「スパイク」のパルス列を示すとすることができる。
一部の実施形態において、異なるタイプの網膜出力細胞が存在するので、正常網膜の処理をより良好に模倣するために異なる符号化器の組を使用することができる。相違点は、特定の細胞タイプ(例えば、ON細胞又はOFF細胞)又は網膜上の細胞位置(中央の網膜内のON細胞に対して周囲のON細胞)に対応する可能性がある。符号化器モジュール104が1つよりも多い符号化器を有する場合には、符号化器は、独立して、又は少なくとも1つ又はそれよりも多くの結合機構を通じたいずれかで並列作動させることができる。
図2は、符号化器モジュール104の例示的な実施形態の作動を示す流れ図である。段階201において、符号化器モジュール104は、カメラ102(又はあらゆる他の適切な供給源)から一連の画像を受け入れる。任意的な段階202では、画像のコントラスト/強度を再スケーリングし、画像にノイズフィルタを適用し、かつ画像を整えるなどのためにこれらの生画像が予備処理を受ける。
段階203では、画像に対する網膜細胞応答を示す情報を決定するように、生画像が処理される。例えば、一実施形態において、画像視野内の様々な位置に対して、符号化器は、画像ストリームを処理して、画像ストリームが網膜上に入射した場合に網膜細胞(又は細胞群)によって生成されると考えられる発火率に対応する時間依存の値を出力する。一実施形態において、発火率出力は、所定の時間tで位置(x,y)における要素が位置(x,y)おける網膜細胞の発火率に対応するビット行列であるようにフォーマット設定される。
一部の実施形態において、符号化器は、発火率とは別の測定基準を用いて網膜細胞の応答を示す情報を生成することができることに注意されたい。例えば、符号化器の出力は、細胞の活性化状態、細胞内電位、上述の起動電位等に対応することができると考えられる。
段階204では、段階203からの符号化された情報を用いて、機械視覚モジュール106による処理に適する画像(本明細書では「網膜画像」、又は時変画像を指す場合は「網膜画像ストリーム」又は「網膜画像データストリーム」と呼ぶ)が生成される。例えば、上述したように、符号化された情報が発火率の行列として出力される場合には、「網膜画像」内の各ピクセルの強度が、行列内の対応する要素の発火率値によって決定される発火率網膜画像を生成することができる(例えば、図3を参照されたい)。発火率とピクセル強度の間の線形関係、非線形関係、多項式関係、対数関係などを含むあらゆる適切な関係を使用することができる。発火率とピクセル強度の間の変換は、ルックアップテーブルの使用を含むあらゆる適切な技術を用いて実施することができる。一部の実施形態において、発火率は、網膜画像内で強度とは別の画像特性を用いて表すことができる。例えば、網膜画像が有色画像である実施形態において、各ピクセルの色空間座標は、発火率に対応することができると考えられる。
任意的な段階205では、網膜画像が後処理を受ける。例えば、再スケーリング、フィルタリング、トリミング、スムージングなどを含むあらゆる適切な処理技術を使用することができる。段階206では、網膜画像が、機械視覚モジュール106に出力される。
一部の実施形態において、段階204及び段階205を割愛することができることに注意されたい。この場合に、処理に向けて符号化器の出力を機械視覚アルゴリズムに直接に送信ことができる。当業者には明らかであろうが、一部の場合には、この直接送信は、従来の画像データとしてフォーマット設定されていない入力データを受け入れるような公知の機械視覚アルゴリズムの修正を必要とする可能性がある。しかし、多くの実施形態において、この直接送信は、特定のアルゴリズムの基本概念の修正の必要なく直接的にもたらすことができる。
一部の実施形態において、各符号化器は、時空変換段階が続く予備処理段階を実施する。予備処理段階は、実世界画像Iを時空変換の作動範囲にある量Xに写像する処理デバイスの予備処理プロセッサモジュール内に実施することができる再スケーリング段階である。I及びXは時変量であり、すなわち、I(j,t)が、各場所j及び時間tにおける実画像の強度を表し、X(j,t)が、対応する予備処理段階出力を表すことに注意されたい。a及びbが、実世界画像強度の範囲を時空変換の作動範囲に写像するように選択された定数である時に、予備処理段階は、I(j,t)がX(j,t)にX(j,t)=a+bI(j,t)によって写像されるように写像を行うことができる。
再スケーリングは、変数履歴を用いて、量a及びbを決定するために行うことができ、異なる条件(例えば、異なる照明又は異なるコントラスト)の下でこれらの量の値を設定するためにスイッチを使用することができる。
グレースケール画像では、I(j,t)及びX(j,t)は、各場所j及び時間tに対して1つの値を有する。
有色画像では、同じ手法が使用されるが、赤色、緑色、及び青色という各色チャンネルに別々に適用される。一実施形態において、強度I(j,t)は、各場所j及び時間tに対して3つの値(I1,I2,I3)を有し、これらの3つの値I1、I2、I3は、それぞれ赤色、緑色、及び青色の強度を表している。次に、各強度値は、それに対応するX値(X1,X2,X3)に上述の変換によって再スケーリングされる。
一実施形態において、時空変換段階は、線形−非線形カスケード(Chichilnisky EJ 2001年、Simoncelli他 2004年において吟味されている)を用いて実施され、この場合に、各神経節細胞mにおける発火率λmは、次式によって与えられる(1)。
ここで、*は、時空畳み込みを表し、Lmは、m番目の細胞の時空カーネルに対応する線形フィルタであり、Nmは、m番目の細胞の非線形性を説明する関数であり、前節と同じくXは、予備処理段階の出力であり、jは、ピクセルの場所であり、tは、時間である。この場合に、上述したように、発火率網膜画像を生成するために発火率λmを使用することができる。
mは、空間関数と時間関数との積としてパラメータ化される。例えば、一実施形態において、空間関数は、格子(例えば、カメラ内のデジタル化された画像)上の各ピクセルにおける重みから構成されるが、他の変形では、格子上の直交基底関数の和を使用することができる。一実施形態において、格子は、10×10のピクセルアレイからなり、合計で26度×26度の視覚空間を助けるが(この場合に、各ピクセルは視空間内で2.6度×2.6度である)、他の変形を使用することもできる。例えば、網膜神経節細胞に対応する視空間区域は、網膜上の空間位置と共にかつ種属毎に変化するので、合計アレイサイズは変化する可能性がある(例えば、10×10のピクセルアレイ内の各ピクセルにおいて0.01度×0.01度から3度×3度又はその前後に対応する0.1度×0.1度から30度×30度又はその前後で)。これらの角度範囲及びピクセルアレイサイズは、1つの特定の実施形態の例示のために提供したものに過ぎず、他の度数範囲又はピクセルアレイサイズが本発明によって含まれることは理解されるものとする。選択されたいずれかのアレイサイズでは、細胞が表す視空間内の区域の形状に基づいて、アレイ内のピクセル数も変化する可能性がある(例えば、1×1から25×25のピクセル又はその付近のアレイ)。同様に、時間関数は、いくつかの時間ビンにおける重みと、他の時間ビンにおける対数時間の二乗余弦関数との和から構成される(Nirenberg他 2010年、Pillow JW他 2008年)。直交基底関数の和のような他の変形を使用することもできる。
この実施形態において、時間サンプルは、1.2秒の合計持続時間において各々が67msの18個の時間ビンにわたるが、他の変形を使用することもできる。例えば、異なる神経節細胞は異なる時間特性を有するので、ビンによって埋められる持続時間、及び細胞の動特性を表すのに必要とされるビン数は変化する可能性がある(例えば、0.5秒から2.0秒又はその付近の持続時間、及び5から20又はその付近のビン数)。時間特性は、種属にわたって変化する可能性もあるが、この変化は、上述の範囲によって含まれることになる。
式1は、符号化器の出力の過去の履歴(すなわち、細胞mによって既に生成されたスパイク列)及び他の神経節細胞の出力の過去の履歴に基づいて、符号化器の出力を修正する項を含むように修正することができる(Nirenberg他 2010年、Pillow JW他 2008年)。
別の実施形態において、線形フィルタLmは、各々が空間関数と時間関数の積であるQ個の項の和としてパラメータ化される。
ここで、
は、外積を表し、Sk及びTkは、k番目の空間関数及び時間関数それぞれである(kは1からQの範囲にわたる)。
この実施形態において、個々の空間関数は、上述したように、例えば、格子上の各ピクセルにおける重みとして、又は格子上の直交基底関数の和としてパラメータ化することができる。個々の時間関数は、ここでもまた、例えば、いくつかの時間ビンにおける重みと、他の時間ビンにおける対数時間の二乗余弦関数との和としてパラメータ化することができる。直交基底関数の和のような他の変形を使用することもできる。
一実施形態において、Qは2であり、Lmは次式のように書くことができる。
ここで、
は、外積を表し、S1とT1とは、空間関数と時間関数とで構成される第1の対であり、S2とT2とは、空間関数と時間関数とで構成される第2の対である。
Lに関するパラメータの両方の組(空間と時間との)において、分解能(ピクセルサイズ、ビンサイズ)及びスパン(ピクセル数、時間ビン数)の選択は、網膜の符号に対してある程度近い代用符号を取得する必要性、及びパラメータを実用的な最適化手順(例えば、補綴出願に詳述されている)によって決定することができるようにパラメータ数を十分に小さく保つ必要性という2つのファクタによって決定することができる。例えば、パラメータ数が過度に小さいか又は分解能が過度に低い場合には、代用符号は、十分には正確にならない。パラメータ数が過度に大きい場合には、最適化手順は過剰適合に悩まされることになり、変換(式1)は一般化されないことになる。基底関数の適切な組の使用は、パラメータ数を低減し、従って、過剰適合を回避するという手法、すなわち、「次元低減」方法である。例えば、時間関数(各々が67msである18個の時間ビンをカバーする)は、10個の重みと基底関数との和によってパラメータ化することができ、補綴出願の「Example 1,Method of building the encoder(例1、符号化器を構成する方法)」という節及び(Nirenberg他 2010年、Pillow JW他 2008年)を参照されたい。
非線形性Nmは、3次スプラインとしてパラメータ化されるが、区画的線形関数、高次スプライン、テイラー級数、及びテイラー級数の商のような他のパラメータ化を使用することができる。一実施形態において、非線形性Nmは、7つのノットを有する3次スプライン関数としてパラメータ化される。ノット数は、非線形性の形状が正確に捕捉され、同時に過剰適合(上述の過剰適合の解説を参照されたい)が回避されるように選択される。端点を制御するのに少なくとも2つのノットが必要とされ、この場合に、ノット数は、約2から少なくとも約12の範囲にわたるとすることができる。ノットは、モデルの線形フィルタ出力によって与えられる値の範囲をカバーするように離間される。
時空変換段階では、上述の線形−非線形(LN)カスケードに加えて、別の写像も本発明の範囲にある。別の写像は、人工神経網、及び線形−非線形−線形(LNL)カスケードのような他のフィルタ組合せを含むが、これらに限定されない。更に、時空変換は、履歴依存性を与えるためにスパイク発生器段(下記を参照されたい)からのフィードバックを組み込み、(Pillow JW他 2008年、Nichols他 2010年)にあるように神経細胞の間の相関を含むことができる。例えば、これは、付加的なフィルタ関数をスパイク発生器の出力を用いて畳み込み、これらの畳み込みの結果を式1における非線形性の引数に加算することによって実施することができる。
時空変換段階に他のモデルを使用することができる。これらのモデルの非限定的な例は、Pillow JW他 2008年に記載されているモデルと、動的利得制御と、ニューラルネットワークと、形式及び係数が実験データによって決定される離散した時間ステップで近似された積分、微分、及び通常の連立代数方程式の解として表されたモデルと、線形投影(時空カーネルを用いた入力の畳み込み)、並びに形式及び係数が実験データによって決定される非線形歪曲(パラメータ化された非線形関数による得られるスカラー信号の変換)から構成されるステップシーケンスの結果として表されたモデルと、時空カーネルが少数の項の和であり、これらの項の各々が、実験データによって決定された空間変数の関数と空間変数の関数と時間変数の関数との積であるモデルと、これらの空間関数及び/又は時間関数が、空間サンプル又は時間サンプルの個数よりも小さいサイズと、実験データによって決定された重みとを有する1組の基底関数の線形結合として表されるモデルと、非線形関数が1つ又は複数の分割区画で構成され、これらの分割区画の各々が、実験データによって決定された切点及び/又は係数を有する多項式であるモデルと、上述のモデルの出力を加算、減算、乗算、割算、累乗根、累乗、及び超越関数(例えば、指数、正弦、及び余弦)のような計算段階を経て時に再帰的に組み合わせるモデルとを含む。
補綴出願に記載されているように、上述のタイプの符号化器は、実網膜細胞の入力/出力機能を非常に厳密に模倣することができる。本出願に詳述されているように、一部の場合には、この模倣は、各ピクセルにおいて再現される網膜画像の値とそれに対応する生画像の値との間の標準のピアソン相関係数を決定することによって特徴付けることができる。この場合に、1という相関係数は、元の画像の情報の全てが完全に保持されていたことを示し、それに対して0という相関係数は、実画像への再現画像の類似性がゼロであったことを示す。
例えば、一部の実施形態において、符号化器は、試験入力刺激と、試験入力刺激に応答して符号化器によって生成されることになる符号化されたデータから再現される対応する刺激との間のピアソン相関係数が、0.35〜1.0の範囲又はその部分的範囲、例えば、少なくとも約0.35、0.65、少なくとも約0.95、又はそれよりも多くであるように構成される。一部の実施形態において、試験入力刺激は、一連の自然の光景(例えば、時空的に変化する光景)を含む。
一部の実施形態において、本明細書に説明するタイプの網膜符号化器は、広範な入力、例えば、時空的に変化する自然光景に対する実網膜細胞の入力/出力機能を模倣する。一般的な実施形態において、この性能は、従来の符号化器よりも実質的に良好である。
図18A〜図18Fは、風景、歩いている人々などを含む自然光景の動画を用いて試験した場合の様々な細胞(細胞1〜6それぞれ)の網膜符号化器モデルの性能を示す。各図には、従来の線形−非線形(LN)モデルの性能を左に、本出願に説明するタイプの線形−非線形(LN)モデルの性能を右に示している。ラスタープロット及び刺激前後時間ヒストグラム(PSTH)によって性能を示している。従来の(LN)モデルは、白色ノイズ刺激に対する網膜細胞の実験応答だけに基づいて開発したものである。それとは対照的に、本出願に説明するタイプの線形−非線形(LN)モデルは、白色ノイズ刺激と自然光景刺激の両方に対する記録細胞応答に基づいて開発される。
図示の例では、両方のタイプのモデルに対する入力試験刺激は、ニューヨーク市内のセントラルパークにおいて撮影された自然光景の動画である。図示のように、標準のLNモデルは、自然光景刺激に対してそれ程有効ではなく、すなわち、白色ノイズ刺激を用いて構成されたこのモデルは、実細胞のものに厳密に一致するスパイクパターンを生成しない。それとは対照的に、本出願で説明する白色ノイズ刺激と自然光景刺激とを用いて構成されたLNモデルは非常に有効である。このモデルが生成するスパイクパターンは、実細胞のものに厳密に一致する。(これらのモデルを試験するのに用いた自然光景動画は、あらゆるモデルを検証するのに必要とされるモデルをトレーニングする段階に使用されるものとは異なることに注意されたい。各図では、両方のタイプのモデルに対する土台として、同じ実細胞が使用されていることにも注意しなければならない。最後に、本明細書に説明するタイプの符号化器モデルの性能は、補綴出願、並びにNirenberg他の「Retinal prosthetic strategy with the capacity to restore normal vision(正常視覚を回復する機能を有する人工網膜補綴法)」、PNAS 2012年、及びwww.pnas.org/lookup/suppl/doi:10.1073/pnas.1207035109/−DCSupplementalにおいて入手可能な関連する補足情報の欄に示すように、顔、歩いている人々、遊んでいる子供、風景、木々、小動物のような動画を含む多くの他の刺激を用いて明らかにされていることに注意されたい。)
性能に関する同じ結論をPSTHから引き出すことができる。明灰色の軌跡は、実細胞の平均発火率を示しており、暗灰色の軌跡は、モデル細胞の平均発火率を示す。標準のLNモデルは、発火率の多くの特徴を捕捉し損ねており、異なる図18A〜図18Fの各々が、標準モデルが捕捉し損ねた異なる特徴の例を示す。しかし、本出願に説明するモデルは、発火率の特徴を確実に捕捉し、様々な異なる細胞においても同じく捕捉する(多くの他の例は、補綴出願に示されている)。
図3Aは、生画像の網膜画像への変換を示す。パネルAは、カメラ102によって得られた生画像ストリームのいくつかのフレームを示す。図示のように、生画像ストリームは、複雑な環境を通って歩く人物を含む。パネルBは、網膜画像ピクセル強度が、符号化器モジュール104の符号化器によって生成される発火率に対応する上述のフレームに対応する網膜画像フレームを示す。各々が異なる細胞アレイ(図示のように、OFFミジェット細胞、ONミジェット細胞、OFFパラソル細胞、及びONパラソル細胞)を用いた4つの異なる網膜画像ストリームを示す。図示の網膜画像フレームは、自然の網膜内での処理遅延時間(図示のものでは約80ms)に対応する短い時間遅延の後に符号化器モジュール104によって生成されたものであることに注意されたい。
網膜画像内に含まれる全情報量が、生画像のものよりも少ないことが明らかであることに注意されたい。この情報の減少は、機械視覚に対する処理負荷を有利に軽減することができる。更に、符号化器は網膜の挙動を模倣するので、いくつかの機械視覚用途では、網膜画像内に保持される情報は、既存の機械視覚のタスクに必要とされる際立った特徴を含むことになり、機械視覚モジュール106の効率的かつ有効な作動を可能にする。
図3B〜図3Fは、図3Aの最終列に対応する生画像(図3B)及び網膜画像(図3C〜図3F)の拡大図を示す。生画像では、比較的静的であるが複雑な環境内で人影が右から左に移動している。網膜画像の全て(図3C〜図3F)において、静的環境を様々な度合で弱調しており、それに対して移動する人影を強調していることに注意されたい。更に、両方の画像において、人影に追従して運動方向の示唆を与える「モーションシャドウ」型の効果が明らかである。それに応じて画像内に含まれる全体の情報量は低減されているが、残っているものは、重要な特徴、すなわち、移動する人影を強調している。
これらの効果は、いずれかの意図的に設計されたプログラミングの結果であることに注意されたい。すなわち、符号化器は、移動特徴を識別するように意図的にプログラムされたものではない。そうではなく、これらの特徴の強調は、符号化器が、網膜内で発生する自然な処理を模倣することの結果である。この例では、ある一定のタイプの強調された特徴が明らかであるが(静的背景に対して移動する人影)、他のタイプの入力画像では、網膜は、他のタイプの特徴を強調する可能性があることは理解されるものとする。重要な概念は、一般的に、画像のいずれか所定の組において強調される特徴が、何百万年にもわたる網膜の進化に基づいて際立っていると決定されるものになるということである。それに応じて、以下に詳細に説明するように、網膜画像は、生物学的視覚システムが良好に機能することは公知の機械視覚用途(例えば、顔認識のようなある一定のタイプのパターン認識タスク、複雑な背景に対する人影又は他の生物の影の識別、複雑な環境を通じたナビゲーション、移動物体の迅速な追跡及びそれに対する反応等)に使用される場合に特に有利になる。
一部の実施形態において、符号化器は、正常又はほぼ正常な網膜によって実施される符号化とほぼ同じ時間スケールで画像データを符号化する。様々な実施形態において、符号化器は、許容範囲での処理遅延時間を伴って作動する。本明細書に使用する処理遅延時間は、カメラ102によって感受される視覚刺激におけるイベントの発生と機械視覚モジュール106への対応する出力符号(例えば、対応する網膜画像)の供給の間の時間量を意味する。一部の実施形態において、符号化モジュールは、5〜50msの範囲又はその部分的範囲、例えば、約50msよりも短い、約20msよりも短い、約10msよりも短い、約5msよりも短い遅延時間、及び類似の遅延時間を有する。
再度図1を参照すると、機械視覚モジュール106は、符号化器モジュール104から網膜画像を受け入れ、あらゆる適切な機械視覚技術を用いて画像を処理する。本明細書ではいくつかのそのような技術に言及するが、これらの例は限定的ではなく、他の技術を使用することができることは理解されるものとする。例えば、様々な実施形態において、D.A.Forsyth、J.Ponceによる「Computer Vision:A Modern Approach(コンピュータ視覚:最新手法)第2バージョン」、Prentice Hall、2011年、及び/又はD.H.Ballard、C.M.Brownによる「Computer Vision(コンピュータ視覚)」、Prentice−Hall Inc、New Jersey、1982年(http://homepages.inf.ed.ac.uk/rbf/BOOKS/BANDB/bandb.htmにおいてオンライン入手可能)、R.Szeliskiによる「Computer Vision:Algorithms and Applications(コンピュータ視覚:アルゴリズム及びアプリケーション)」、Springer、2010年(http://szeliski.org/Book/drafts/SzeliskiBook_20100903_draft.pdfにおいてオンライン入手可能)、並びにE.R.Daviesによる「Computer and Machine Vision,Fourth Edition:Theory,Algorithms,Practicalities(コンピュータ及び機械視覚第4バージョン、理論、アルゴリズム、実用性)」、Elsevier、2012年に記載されている技術のうちの1つ又はそれよりも多くを使用することができる。
様々な実施形態において、機械視覚モジュール106は、1つ又はそれよりも多くの利用可能なコンピュータ視覚アルゴリズム又はソフトウエアツール、例えば、http://opencv.willowgarage.com/wiki/ or the Gandalf computer vision software package,available at http://gandalf−library.sourceforge.net/において入手可能なOpenCVソフトウエアパッケージ内に含まれているものうちのいずれかを実施することができる。
機械視覚モジュール106は、認識タスク(例えば、物体認識、画像分類、顔認識、光学文字認識、コンテンツに基づく画像取得、姿勢推定等)、運動解析タスク(例えば、自己運動決定、移動追跡、オプティカルフロー決定等)、モデル化タスク(例えば、光景再現、3Dボリューム認識等)を含むあらゆる適切なタスクを実施するのに網膜画像を使用することができる。
一部の実施形態において、機械視覚モジュール106は、視野を均等又は不均等にサイズが決定されたドメインに分割することができる。ドメインは、重なっても、そうでなくてもよい。ドメインは、視野のうちのある帯域を(例えば、水平軸上で全体の視野を垂直軸上で限られた範囲を)カバーするか又は視野全体をカバーすることができる。
一部の実施形態において、機械視覚モジュール106は、例えば、Cannyエッジ検出のような1次エッジ検出技術、2次エッジ検出技術、又は位相合同に基づくエッジ検出技術を含む境界エッジ検出技術を網膜画像に適用することができる。エッジ検出は、1つ又はそれよりも多くの変換、例えば、ハフ変換の網膜画像への適用を含むことができる。
一部の実施形態において、機械視覚モジュール106は、網膜画像ストリームに基づいてオプティカルフローを計算することができる。オプティカルフローは、閲覧体(目又はカメラ)と光景の間の相対運動によってもたらされる視覚光景内の物体、面、及びエッジの見かけ上の運動のパターンを示すことができる。オプティカルフローは、運動検出、物体領域分割、衝突余裕時間計算、及び拡大フォーカス計算を含む幾つもの用途に使用することができる。オプティカルフローを計算する方法は、位相相関法、ブロック単位の方法、差法(ルーカス−カナデ法、ホーン−シャンク法、バクストン−バクストン法、及びブラック−ジェプソン法のような)、変分法、離散最適化方法などを含むことができる。
一部の実施形態において、機械視覚モジュール106は、網膜画像を領域分割する(例えば、着目区域を識別するために)1つ又はそれよりも多くの画像領域分割技術を適用することができる。例示的な領域分割技術は、閾値処理、クラスター化方法、圧縮利用方法、ヒストグラム利用方法、エッジ検出(例えば、上述のエッジ検出技術を用いた)、領域成長法、分割統合法、偏微分方程式利用方法(例えば、レベルセット法)、グラフ分割法、分水界変換利用方法、モデル利用領域分割法、マルチスケール領域分割、半自動領域分割、ニューラルネットワーク利用領域分割などを含む。
様々な実施形態において、機械視覚モジュール106は、当業技術で公知のいずれかのコンピュータ学習技術を用いてトレーニングすることができる。コンピュータ学習技術は、教師あり学習(例えば、統計分類技術を含む)、教師なし学習、強化学習などを含む。一部の実施形態において、機械視覚モジュール106は、様々なタスクを実施するようにトレーニングすることができる1つ又はそれよりも多くの人工ニューラルネットワークを含むことができる。
図4は、機械視覚システム100の機械視覚モジュール106をトレーニングするための例示的なトレーニングシステム400を示す。トレーニングシステムは、生トレーニング画像の供給源402(例えば、格納画像データベース)と、生トレーニング画像に基づいて本明細書に説明する技術を用いて網膜画像を生成する符号化器モジュール404と、符号化器から網膜画像を受け入れる機械視覚モジュール108と、機械視覚モジュールの作動をモニタして、モニタする性能に基づいてこの作動を修正するコントローラ406とを含む。
図5は、トレーニングシステム400の作動を示す流れ図である。段階501において、符号化器404は、供給源402からトレーニング画像を受け入れる。例えば、トレーニング画像は、第1の部分が悪性腫瘍に対応することが既知であり、それに対して第2の部分が良性腫瘍に対応する一連の腫瘍の医療画像とすることができる。
段階502では、符号化器が、生トレーニング画像を網膜画像に変換する。段階503では、網膜画像が、機械視覚モジュール106に出力される。
段階504では、コントローラ406が、タスクを実施するために網膜画像を処理している機械視覚モジュール106の性能をモニタする。医療画像の場合には、機械視覚モジュール106は、悪性腫瘍画像を良性腫瘍画像から区別する画像認識技術を適用することができる。コントローラは、このタスクを実行している(例えば、悪性腫瘍を識別するために誤差率を計算している)機械視覚モジュール106の性能をモニタする。性能が許容範囲にある場合には、処理は、段階505において終了する。性能が許容範囲外にある場合(例えば、誤差率が閾値レベルよりも大きい場合)には、段階506において、コントローラ406は、機械視覚モジュール106を調節し(例えば、1つ又はそれよりも多くのパラメータを修正すること、人工ニューラルネットワークにおける接続を変更することなどにより)、処理は、段階503に戻る。それに応じてコントローラ406は、機械視覚モジュール106が許容範囲レベルに達する(例えば、誤差率が閾値レベルよりも小さくなる)まで、それを反復的に調節する。
様々な実施形態において、他の適切なタイプのトレーニングを使用することができることに注意されたい。例えば、固定の閾値に対して性能を比較することに加えて又はその代わりに、トレーニングは、収束基準(例えば、反復毎の性能の増分がある閾値レベルよりも小さくなるまでトレーニングを続行する)を別途実施することができる。
様々な実施形態において、機械視覚モジュール106は、複雑な人工知能利用システムの使用を含むあらゆる適切な制御技術を含むことができる。しかし、一部の用途では、機械視覚モジュール106は、比較的単純な制御手法を実施することができる。いくつかのそのような実施形態において、機械視覚106は、符号化器モジュールから受け入れる網膜画像の比較的単純なその時々の分類に基づいて1つ又はそれよりも多くのシステムの作動の一部又は全て(例えば、ロボットの移動軌道)を制御する。すなわち、制御は、複雑な計画に依存するのではなく、時間的に局在化された分類に依存する。有利な態様においては、当業技術で公知の学習アルゴリズムが、これらのタイプの比較的単純な分類タスクの実施に適することは公知である。
例えば、図6を参照すると、一実施形態において、機械視覚システム100は、障害物、例えば、図示のように迷路を特徴として含む環境の中を通って進むようにロボット600を制御するのに使用される。機械視覚システムのカメラ102は、ロボット600上に装着され、ロボットの前にある光景を取り込む視野を有する。
カメラ102からの映像ストリームは、網膜画像ストリームを生成するように符号化器モジュール104によって処理される。1つの場合には、符号化器モジュールは、ネズミの網膜神経節細胞の作動を模倣することができる(例えば、「Example set of encoder parameters for a mouse ganglion cell(ネズミの神経節細胞に対する符号化器パラメータセット例)」という名称の補綴出願の部分節に示されている符号化器パラメータによって特徴付けられる符号化器を用いて)。別の場合には、符号化器モジュールは、サルの網膜神経節細胞の作動を模倣することができる(「サルの神経節細胞に対する符号化器パラメータセット例」という名称の補綴出願の部分節に示されている符号化器パラメータによって特徴付けられる符号化器を用いて)。
網膜画像ストリームは、例えば、オプティカルフロー技術を用いて、画像内の様々な場所における運動速度を決定するように処理される。一般的に、画像内で遅い速度を有する場所又はドメインは、ロボット600から遠距離にある物体に対応することになり、それに対して速い速度を有する場所は、ロボット600に近い物体に対応することになる。障害物に衝突するのを回避するために、機械視覚モジュール106は、画像内でより遅い移動箇所に対応する方向に移動するようにロボットを制御する。
例えば、一実施形態では(図7に示す)、視野(すなわち、網膜画像データストリーム)は、画像領域分割段階702によってN=7の均等にサイズが決定された領域に分割される。この実施形態では領域は重なり合わず、これらの領域は、各領域が、水平に5.7°にわたるようにカメラの水平視野(40°である)を左右に分割し、垂直方向には、垂直に13.5°にわたるようにナビゲータの視野(27°である)の下半域に制限される。規則的な期間で(例えば、2秒毎に)、2つの連続する網膜画像が網膜画像シーケンスから得られ、分類に向けて機械視覚モジュール106に送られる。各網膜画像はN個の領域に分割されるので、機械視覚モジュールは、N個の領域対を受け入れる。各対は、この領域内のオプティカルフロー速度を分類する畳み込みニューラルネットワーク(CNN)704を通過する。この分類の出力は、各領域iに対する速度ラベルLiとすることができ、この場合に、Liは1とMの間の数であり、1は領域内の非常に遅い平均速度を表し、Mは非常に速い平均速度を表している。例えば、8つの異なる速度分類が存在するように、Mを8とすることができる。
結果は、N分類のアレイ706であり、これらに基づいて、ターン決定モジュール708によってターン決定が行われる。「ターゲット領域」(目指す領域)は、最も遅い速度分類、すなわち、最小数Liを有する領域であるように選択される。最も遅い速度分類を有することに関して対等な複数の領域が存在する場合には、ターン決定モジュール708は、システムの望ましい使用に基づいて中心に最も近い領域を選択する(ターン量を最小にするために)、又はあらゆる他の領域を選択することができる。ターゲット領域が選択されると、機械視覚モジュール106(具体的には機械視覚モジュール106内のターン決定モジュール708)は、ナビゲータが、ターゲット領域の中心に向くことになるようにターンを開始する。
上述の例は、ロボットのナビゲーションに対して言及したものである。様々な実施形態において、上述の技術は、下記の例で説明するように、仮想世界を通じたナビゲーションを含む他のタイプのナビゲーションに使用することができることは理解されるものとする。
例えば、機械視覚モジュール106は、網膜画像ストリームの画像視野をいくつかの領域又はドメインに分割し、領域を速度カテゴリに分類し、かつ最低速度カテゴリ内の画像領域に対応する方向に移動するようにロボット600を制御することによって障害物を識別して回避することができる。機械視覚モジュール106は、上記に記載し、下記の例にあるCNN又はブースティングアルゴリズム(例えば、アダブーストアルゴリズム、Yoav Freund,Robert E.Schapireによる「A Decision−Theoretic Generalization of on−Line Learning and an Application to Boosting(オンライン学習の決定理論的一般化及びブースティングへの適用)」、1995年を参照されたい)のような比較的単純なトレーニングアルゴリズムを用いてこの分類タスクを実施するようにトレーニングすることができる。
一般的に、これらのデバイス及び技術は、医療画像処理(例えば、自動又はコンピュータ支援の医療診断)、ロボットの制御又はナビゲーション、産業工程のモニタリング及び制御、自動仕分け用途、運動追跡に基づくインタフェース(例えば、コンピュータゲームシステムと共に使用される)などを含むあらゆる適切な用途に使用することができる。本明細書に説明するデバイス及び技術は、実時間又はほぼ実時間で作動させることができ、例えば、上述の用途の実用的な自動化を可能にする。
実施例−仮想世界ナビゲーション
機械視覚に対する1つの手法の有効性を評価する一実施例において、それが特に困難であるので(空間と時間の両方で処理することを必要とするので)、ナビゲーションタスクを用いた。この手法は、例えば、各々がその全体が引用によって本明細書に組み込まれているLeCun,Y.他(2010年)「Convolutional Networks and Applications in Vision(畳み込みネットワーク及びビジョンにおける適用)」、Proc.International Symposium on Circuits and Systems(回路及びシステムに関する国際シンポジウム会報)(ISCAS’10)、253〜256ページ、IEEE、Szarvas,M.他(2005年)「Pedestrian detection with convolutional neural networks(畳み込みニューラルネットワークを用いた歩行者検出)」、Proc.Intelligent Vehicles Symposium(インテリジェント車両シンポジウム会報)、224〜229ページ、IEEE、Jackel,L.D.他(2006年)「The DARPA LAGR program:Goals,challenges,methodology,and phase I results(DARPA LAGRプログラム:ターゲット、タスク、方法、及び段階Iの結果)」、Journal of Field Robotics,23(フィールドロボティクスジャーナル第23号)、945〜973ページに記載されている、ナビゲーションにおいて一般的に使用されるいくつかの学習アルゴリズムの態様を適用した。これらの技術を用いて、畳み込みニューラルネットワークという学習アルゴリズムを用いて自体の環境を学習するナビゲータを構成した。CNNは、Theanoと呼ばれるオープンソース数値処理及び自動微分パッケージ(http://deeplearning.net/software/theano/において一般的に公開されている)を用いて構成した。
ナビゲータは、そのトレーニング環境内の物の速度を学習するように設計した。ナビゲータにはトレーニング環境を与え、トレーニング環境を各時点においてn個のドメインに分割するのにこのナビゲータを用いた。次に、ナビゲータは、ドメイン内の速度を学習する。速度は、ナビゲーションに対して有利な情報を提供する。何かが非常に高速に移動している場合には、それが、環境の中を進む仮想物体に非常に近いことを意味する(この何かは、網膜を横断して高速に移動している)。それが近い場合には、仮想物体は、それに衝突することになる可能性が高い。従って、ナビゲータは、環境内のドメインを評価し、次に、最も遅い速度を有するドメインに向けて移動する(最も遅い速度を有するものは最も遠く、最も安全である)。この例では、ナビゲータは、特定の終点を目指すように誘導されるのではなく、いかなるものとも衝突しないように誘導される。
より具体的には、この例では、図7に示す方法を用いて、ナビゲータが環境を移動している間に、その視野が、画像領域分割段階702によって7つの均等にサイズが決定められた領域に分割される。この実施形態では領域は重なり合わず、これらの領域は、各領域が、水平に5.7°にわたるようにカメラの水平視野(40°である)を左右に分割し、垂直方向には、垂直に13.5°にわたるようにナビゲータの視野(27°である)の下半域に制限される。
各決定時点において、畳み込みニューラルネットワーク(CNN)に基づくアルゴリズムが、ドメインの各々の内部のオプティカルフロー速度を分類する(段階704)。この分類の出力は、各ドメインiに対する速度ラベルLiであり(段階706)、この場合に、Liは1と8の間の数であり、1はドメイン内の非常に遅い平均速度を表し、8は非常に速い平均速度を表している。
上述したように、これらの分類に基づいて、7つのドメインの各々に対して1回ずつ、ターン決定モジュールによってナビゲーション決定が行われる(708)。「ターゲットドメイン」(目指すドメイン)は、最も遅い速度分類を有するドメインであるように選択される。最も遅い速度分類を有することに関して対等な複数のドメインが存在する場合には、ナビゲータは、中心に最も近いものを選択し(ターン量を最小にするために)、依然として対等性が存在する場合には、左にあるドメインを選択することによってこの対等性を破る。ターゲット領域が選択された状態で、機械視覚モジュール(106)は、ナビゲータが、選択された領域の中心に向くことになるようにターンを開始する。
トレーニング及び試験に向けて、Panda3Dと呼ばれるオープンソース3Dレンダリングフレームワーク(http://www.panda3d.org/において一般的に公開されている)を用いて仮想環境を生成した。トレーニングセットからのフレームストリームを図8に示しており、3つの試験セットからのフレームストリームを図9A、図9B、図9Cに示している。図示のように、トレーニングセットは田園環境である。3つの試験セットは、トレーニングセットに対して用いたものとは異なる田園環境、郊外環境、及び遊び場である。
ナビゲータの性能は、1)ナビゲータを標準手法で、すなわち、生画像ストリームを入力として用いてトレーニングした場合に、及び2)「網膜画像ストリーム」を入力として用いた場合に、すなわち、ナビゲータが、本出願人の符号化器を用いて処理された画像を用いた場合という2つの条件の下で比較された。この場合に、用いた符号化器は、各々がその全体が引用によって本明細書に組み込まれているNirenberg,S.及びPandarinath,C.(2012年)「A retinal prosthetic with the capacity to restore normal vision(正常な視覚を回復する機能を有する人工網膜)」、Proc.Natl.Acad.(科学アカデミー会報)近刊、及びNirenberg,S.他(2011年)「Retina prosthesis and the Prosthesis Applications(人工網膜及び補綴用途)」に記載されている方法に従ってサルのミジェット細胞及びパラソル細胞を用いて生成した。
図10Aに示すように、ナビゲータが生画像ストリームからその環境を学習した時には、その性能は低く、多くの衝突が発生し、トレーニングセットから学習されたものは、新しい環境に対して一般化されない。図10Bに示すように、ナビゲータが網膜画像ストリームから環境を学習した場合には、性能は劇的に良く、真っ直ぐな経路及び衝突の欠如に注意されたい。人工ナビゲーションシステム、一般的に機械学習アルゴリズムに対して難題であった問題である新しい環境(田園、郊外、遊び場)に対する明確な一般化が存在する。
図11は、ナビゲータが入力として網膜画像ストリームを使用する場合のナビゲータの高い性能を更に明らかにするものである。具体的にこの図は、高い性能が異なる環境に対して一般化される(田園から郊外、更に、遊び場まで)だけでなく、環境内の異なる照明条件に対しても一般化されることを示す。AからFは、遊び場環境における異なる太陽の位置、従って、異なる影条件に対応し、光条件は、日の出から日の入まで、すなわち、環境の左側の水平線の上方30度から右側の水平線の上方30度にわたる。図に示すように、ナビゲータを生画像ストリームに対してトレーニングした場合(田園環境から1つの照明条件を用いて)、ナビゲータの性能は一般化されず、遊び場における性能は低く、これは光条件にわたって適用される。図内の各棒グラフの高さは、ナビゲータが、遊び場のタイヤコース内でタイヤのうちの1つと衝突することもなく首尾良く留まった試行分率に対応する。誤差棒グラフは、平均の標準誤差(SEM)を示す。それとは対照的に、ナビゲータを網膜画像ストリーム(同じ単一の照明条件を使用するが、今回は符号化器を通過して処理した同じ田園環境)に対してトレーニングした場合には、ナビゲータの性能は高く、高性能は光条件にわたって成り立つ。従って、網膜画像ストリームに対するトレーニング(すなわち、符号化器を通過して処理された画像に対するトレーニング)は、新しい環境及び複数の照明条件(日の出から日の入まで、上記を参照されたい)に対して一般化される高い性能をもたらす。
符号化器は、実時間で作動し、この処理技術を例えば実世界環境内でロボットの運動を制御するために非仮想環境に即座に適用することができることを示すことに注意されたい。
実施例−顔認識
この実施例は、機械視覚における別の積年の問題である映像内の顔の認識に対する本出願に説明する手法の有効性を評価する。顔認識及び歩行者検出において一般的に使用される学習アルゴリズム[Viola及びJones 2001年、Viola、Jones、及びSnow 2005年を参照されたい]を用いて、映像内の個人の顔を認識するためのシステム、すなわち、過去に見たことがない画像ストリームを「ターゲット顔」対別の顔又は「非ターゲット」顔として分類することができるものを構成した。同じ手法は、歩行者検出、物体認識、物体追跡、全身認識、虹彩検出等であるが、これらに限定されない多くの他の目的に使用することができる。このシステムは、Pythonプログラミング言語及びNumPy数値計算パッケージを用いて実行したものである。
この手法の実施形態を図12で説明する。入力映像(生画像ストリーム)が網膜符号化器104を通され、網膜画像ストリームが生成される。このタスクは、顔に着目するので、網膜画像ストリームは、次に、顔を含む領域1202を位置付けるように整えられる。(トリミングは、符号化が実施される時のエッジ効果を回避するために符号化器が生ストリームを処理した後に行われる。)この例では、既知の顔例のトレーニング及び試験セットを構成するために、顔を含む領域を手動で選択した。他の実施形態において、顔を含む領域は、生画像ストリーム内又は処理された画像ストリーム内でViola−Jonesアルゴリズム[Viola及びJones 2001年]を用いて検出することができる。整えられた映像は、次に、分類器1206(例えば、Viola、Jones、及びSnow 2005年にあるもののようなハールフィルタの強化カスケードに基づくもの)を通過して供給される。分類器1206は、この映像を「ターゲット顔」(映像がターゲット個人の顔であることを意味する)又は「非ターゲット顔」(映像が異なる個人の顔であることを意味する)のいずれかとして指定する。
図15は、本出願人の手法の有効性の例を示す。この解析のために、http://www.cs.tau.ac.il/〜wolf/ytfaces/からの映像内の顔データセットを用いた。参考文献は、Lior Wolf、Tal Hassner及びItay Maozによる「Face Recognition in Unconstrained Videos with Matched Background Similarity(適合する背景類似性を有する非拘束映像における顔認識)」である。
このデータセットを用いて、いくつかの顔認識タスクを実行した。一般的な手順は、「ターゲット顔」に対して顔認識アルゴリズムをトレーニングすることであった。アルゴリズムには、ターゲット顔である人物の顔を示す数々の映像を提供した。顔を認識するアルゴリズムの機能は、アルゴリズムに同じ人物の顔の過去に見せていない映像を「非ターゲット顔」である他人の顔と共に提供することによって試験した。アルゴリズムのジョブは、試験映像をターゲット顔又は非ターゲット顔のいずれかとして正しく分類することであった。
図13及び図14は、映像例からの画像を示す。図13は、顔認識アルゴリズムをトレーニングするのに用いた映像からのフレームを示しており、図14は、このアルゴリズムを試験するのに用いた映像からのフレームを示す。図示のように、試験映像(図14)内の人物は、トレーニング映像(図13)内の人物と同じであるが、例えば、異なる環境内で異なる髪型を有するように示している。
このアルゴリズムの性能は、アルゴリズムを標準手法で、すなわち、顔の生画像ストリームを用いてトレーニングした場合と、顔の網膜画像ストリーム(すなわち、生画像ストリームを本出願人の符号化器によって処理した後の)を用いてトレーニングした場合との2つの条件の下で試験した。両方の場合に、短い(2フレーム)動画を用いてトレーニングを実行した。トレーニングに対して用いた2フレーム動画の本数は、ターゲット顔では250〜800本にわたり(4〜5本の異なる映像から取得した)、非ターゲット顔では2000本にわたった(>100本の映像から取得した)。その後に、過去に見せていない映像、すなわち、トレーニングに用いていない映像から取得した50〜800本の2フレーム動画を測定した。
図15に示すように、符号化器の使用は、性能に対して明確な影響を有する。最初のものが、標準手法が非常に非力に機能するだけのものとして定められる非常に困難なタスクからなり、第2のものが、標準手法がほどほど良好に機能するより容易なタスクから構成される2タイプのタスクにおける結果を示す。図示のように、タスクが困難であった場合(図15A)には、符号化器を組み込んだ手法は、標準手法に優る大きな(4倍の)改善をもたらしている。タスクがそれ程困難ではなかった場合に、すなわち、標準手法がほどほど良好に機能する場合にも、符号化器を組み込んだ手法は、依然として実質的な改善をもたらす(標準の方法に1.5倍優る)。
別の実施形態において、顔検出段階が回避され、代替的に、映像の特定の部分の内部に顔が存在するか否かに関わらず、分類器1206に向けて適切なサイズに整えられた映像が、入力映像から自動的に生成されるようにタスクが若干修正される。その後に、ここでもまた、これらの新しいトリミングされた映像に分類が適用されるか、又は出力分類が「ターゲット顔」及び「非ターゲット顔」又は「顔なし」である修正された分類が実施される。
別の実施形態において、解析は、図15における解析に対して用いた2フレーム映像とは対照的に、Nを1枚、3枚、又はそれよりも多いプロセッサが処理することができる限り多くのフレーム数とすることができるN枚のフレームを用いて実施することができる。
更に、これらの分類は、それ自体で、例えば、映像内の個人の存在をユーザに警告するために使用することができ、又はこれらの分類は、いずれかの手法で、例えば、信号を発する前に、指定した時間窓の範囲で何回かの明確な検出(「ターゲット顔」の分類)が発生するまで待つことによって組み合わせることができる。
機械視覚の対する網膜処理のいくつかの例示的な適用を記載したが、多くの他の適用のための実施形態を使用することができることに注意されたい。
一般的に、符号化器手法は、動物(脊椎動物)が良好に実施する視覚タスク、特に動物の視覚システムが既存の機械技術よりも良好に実施することは公知のものにおいて有利である可能性が高い。上述したように、符号化器手法は、データ内の際立った特徴を維持しながら、生画像ストリームから全情報量を低減する(例えば、より高速な処理を可能にするために)ことが有利になる場合に特に有効とすることができる。例えば、上述したように、一部の実施形態において、一般的に符号化器手法は、例えば、顔認識、複雑な背景に対する人影又は他の生物の影の識別、複雑な環境を通じたナビゲーション、移動物体の迅速な追跡及びそれに対する反応のようなある一定のタイプのパターン認識タスクに使用される場合に特に有利である。
一般的に、生物システムが良好に機能しないある一定の用途では、符号化器手法は制限を有する可能性があることに注意されたい。この場合には、特に、高レベルの詳細情報又は精度測定を必要とする用途における場合とすることができる。例えば、図3B〜図3Fに示す網膜画像を参照し直すと、これらの画像は、人影の存在及び運動を有利に強調するが、網膜画像は、例えば、絶対身長又は他の絶対身体寸法のような正確な生体測定情報を決定するのに有利になる人影の鮮明な外形を提供しないことに注意されたい。このタイプの情報を決定するためには、機械視覚アルゴリズムを生画像に適用する方が的確であろう。
一部の実施形態において、機械視覚への符号化器利用手法と、生画像データに適用される従来手法の両方の利点を与えるために、混成手法を使用することができる。
例えば、一部の実施形態において、本明細書に説明する網膜符号化器利用技術のうちのいずれかを用いて生画像ストリームを処理することができる。得られる網膜画像データは処理することができ(例えば、網膜画像を用いてトレーニングされた機械視覚アルゴリズムのような機械視覚アルゴリズムを用いて)、その結果をその後の解析(例えば、生画像を用いてトレーニングされた機械視覚アルゴリズムのような機械視覚アルゴリズムを使用する)に、対応する生画像を知らせるために使用することができる。
図16は、このタイプの例示的な処理を示す。段階1701及び1702において、生画像が得られ、本明細書に説明する技術のうちのいずれかを用いて網膜画像ストリームを生成するのに使用される。段階1703では、網膜画像が、例えば、機械視覚アルゴリズムを用いて解析される。
段階1704では、網膜画像の解析結果が、着目する網膜画像(又はその分割領域)を識別するのに使用される。例えば、人物認識タスクでは、正常な網膜が網膜画像を生成するために行う手法で画像に対して次元低減を実施する符号化器手法は、歩き振り、特徴的な身振り等による体格の迅速な識別を可能にすることができる。この符号化器の長所のうちの1つは、符号化器が、この目的に特に有利な運動情報を迅速に取り出すことである。すなわち、符号化器手法は、ターゲット個人に対する可能な適合の空間を縮小する予備選別手法として機能することができる(間違った体格、歩き振り、身振りなどを有する候補を除外することにより)。
段階1705では、識別された網膜画像に対応する生画像(又はその分割領域)を解析することができる。例えば、人物認識タスクの場合には、より詳細な特徴解析を用いて人物をより明確に識別するために(例えば、人物の正確な高さ又は他の身体寸法のような詳細な生体測定情報を抽出することにより)、生画像(次元低減が殆ど又は全く使用されない)を使用するアルゴリズムを画像の部分集合に適用することができる。
様々な実施形態において、生画像に対して予備選別を行い、網膜符号化器手法を使用するその後の解析を続けることにより、上述の方法を逆転させることができる。一部の実施形態において、複数回の代替的な生及び符号化器利用解析を使用する反復技術を適用することができる。他の実施形態において、異なるタイプの処理を並行して行うことができ、これらの結果は合成される。一般的に、従来手法と符号化器利用手法とのあらゆる適切な組合せを使用することができる。
上述したように、様々な実施形態において、網膜処理は、生画像データからの全情報量を低減するように作動し(網膜が行う手法と類似した手法で効率を得るために)、その一方、所定の用途に向けて際立った特徴を保持する。例えば、一部の実施形態において、網膜符号化されたデータ内の全情報量が低減されたとしても、機械視覚アルゴリズムは、符号化されたデータに適用された時に、対応する生画像データに適用された時よりも良好な性能を示すことができる。この結果は、「圧縮」網膜画像に適用されたナビゲーション及び顔認識のアルゴリズムが、生画像に適用された同じアルゴリズムよりも実質的に優れた性能を示す上記に提供した実施例の両方において見られたものである。
様々な実施形態において、網膜符号化されたデータは、1〜100倍の範囲又はそのいずれかの部分的範囲、例えば、少なくとも1.5倍、少なくとも2倍、少なくとも3倍、少なくとも4倍、少なくとも5倍、又はそれよりも多くだけ圧縮することができる。一部の実施形態において、この圧縮は、符号化器によってもたらされる次元低減に対応する。例えば、一部の実施形態において、網膜符号化器のビットレートを定量化することができ、圧縮比を決定するために、符号化器によって刺激として使用される生画像データのエントロピー(同じく単位時間当たりのビット数で測定される)と比較して比を取ることができる。例えば、補綴出願において記載されている一部の場合には、符号化器は、4.9ビット/sの入力生データビットレートと比較しての2.13ビット/2のビットレートを用いて記載されている。従って、符号化器によってもたらされるデータ圧縮は、この例ではほぼ7倍であった。
一部の実施形態において、本明細書に説明する処理技術は、情報の格納及び取得の関連で適用することができる。図17を参照すると、システム1800は、プロセッサ1802と作動可能に結合されたメモリストレージデバイス1801(例えば、ハードドライブ又は他のコンピュータメモリ)を含む。ストレージデバイス1801は、生画像データから本明細書に説明する技術を用いて生成された網膜画像データを格納する。上記に詳述したように、一部の実施形態において、網膜画像データをある一定の際立った特徴を維持しながら、生データと比較して圧縮することができる。それに応じて、一部の実施形態において、格納網膜データを対応する生データの代理物又は「指紋」として使用することができる。一部の実施形態において、ストレージデバイスは、符号化されたデータと生画像データの間の対応を示すデータベース情報を格納する。例えば、特定の映像クリップを対応する網膜画像ストリームを生成するのに使用することができ、デバイス1801上に格納される網膜画像ストリームは、それ自体をこの生映像クリップと共に識別するタグを有する。
一部の実施形態において、到着データをストレージデバイス1801上に格納されたデータと照合するのに、プロセッサ1802を使用することができる。一部の実施形態において、プロセッサ1802は、一連のクエリ画像に対応するクエリ画像データ(例えば、生映像クリップ)を受け入れることができる。次に、プロセッサ1802は、網膜符号化されたクエリデータを生成するようにクエリ画像データを処理することができる。その後にプロセッサは、網膜符号化されたクエリデータをストレージデバイス1801上に格納された網膜符号化されたデータと比較することができる。照合が見つかった場合には、プロセッサは、次に、格納データ上のタグを読み取って、クエリデータ映像クリップと、照合する格納網膜画像を生成するのに使用された映像クリップとを関連付ける情報を出力することができる。一部の実施形態において、網膜符号化されたデータは圧縮され、及び/又は際立った特徴が強調されているので、符号化された格納データとクエリデータとの照合は、対応する生画像クリップを直接に照合しようと試みる場合よりも高速及び/又は正確とすることができる。
本出願に示す実施例及び補綴出願に示されている実施例は、ネズミ及びサルの網膜から得られたデータから構成される符号化器を用いている。しかし、様々な実施形態は、以下に限定されるものではないが、鳥類、ネコ、ヘビ、及びウサギ等である他の種属から同じく構成され、補綴出願に細部まで詳細に記載されている手順を用いて構成することができる符号化器を使用することができることは理解されるものとする。
様々な実施形態において、本明細書に説明する技術の全体的な機能は、機械視覚を進歩させるために、視覚システム(特に網膜)によって実施される予備処理(特に次元低減)を利用することである。一部の用途では、他の種属の網膜によって実施される予備処理を適用することができ、例えば、鳥の網膜から構成される符号化器は、飛行ナビゲータにおいて特に有効である場合があり、同じくトラのような高速移動動物から構成される符号化器は、高速で作動する必要があるナビゲータにおいて特に有効である可能性がある。一部の実施形態において、有利な共同作用をもたらすために、複数の種属に基づく符号化器を用いて、結果を組み合わせることができる(例えば、基本的な飛行ナビゲーションタスクにおいて鳥に基づく符号化器を用い、一方、飛行中に、着目物体と遭遇した時には、物体認識タスクにおいてサルに基づく符号化器を使用する)。
同じくこの手法は、外側膝状体、上丘、又は視覚皮質のような高次視覚野から構成される符号化器に対して一般化される。補綴出願は、網膜細胞のための符号化器の構成を記載しており、ここでもまた数学表現を含む細部まで詳細に記載されている同じ方法は、機械視覚アルゴリズムのための予備処理段階としての役割を同じくもたらすことができる高次視覚野のための符号化器を得るために使用することができる。
本明細書に説明する本発明の技術は、網膜に類似する手法で機能するので、実質的にあらゆる機械視覚アルゴリズムに向けてフロントエンド処理(又はフィルタリング)として使用することができる。脳が、数多くある中でも取りわけナビゲーション、物体及び顔の認識、姿−地面の区別、捕食者の検出、食物対非食物の検出のような多くの視覚誘導性行動を実施することを可能にするために、網膜が脳による使用に向けて視覚情報を予備処理するのとまさしく同様に、合わさって「仮想網膜」を形成する符号化器は、多くの機械アルゴリズムに向けて視覚情報を予備処理することができる。
本質的に網膜が行うことは、視覚世界における膨大な量の情報を取得して、それを生き物の生存に必要とされる本質的要素まで低減することである。これらの符号化器は、網膜の入力/出力関係を非常に正確に模倣するので(この模倣を補綴出願に示すように実質的にあらゆる視覚入力に対して行う)、これは、符号化器が、視覚世界における情報を同じ手法で低減することを意味する。従って、様々な実施形態において、本明細書に説明する技術は、機械視覚アルゴリズムに向けて網膜が脳に提供するものと同じか又はほぼ同じ、すなわち、同じ速度、効率、並びに質的及び量的なフィルタリングを有するフロントエンド処理を提供することができる。
これから必然的に引き出される結果は、機械視覚アルゴリズムが構成されるか、又はそれを構成することができる方法にも符号化器が影響を及ぼすということである。現在のアルゴリズムは、生画像、又は他の手法で予備処理された(例えば、ガウシアン差フィルタを用いて)画像をその入力として使用するように構成される。画像が、本明細書に説明する網膜符号化器を通過して処理されると、その結果は、機械視覚アルゴリズムに対する新しいタイプの入力、すなわち、過去には決して利用可能ではなかった入力である。一部の実施形態において、この新しい入力は、特定の分類のアルゴリズムを新しい手法で適応させるか又は最適化することを可能にすることができる。例えば、様々な機械視覚アルゴリズムが、トレーニング画像セット、及び/又は所定のタスクを完了する間にアルゴリズムによって処理される画像によって少なくとも部分的に決定することができるパラメータセットによって分類される。生画像の代わりに網膜画像データが使用される場合には、得られるアルゴリズムのパラメータは、対応する生画像データを用いた場合に得られたであろうものとは異なることになる。一部の場合には、それに起因して、アルゴリズムは、所定のタスクに対して改善された性能を示すことになる。
一部の場合には、機械視覚アルゴリズムが、脊椎動物の視覚システムを模倣する画像を用いてトレーニングされるので、アルゴリズムは、このシステムの性能品質のうちの一部を取得するように有利に適応させることができる。例えば、網膜処理は、画像のある一定の態様の際立った特徴を強調するので、網膜符号化されたデータに対してトレーニングされた機械視覚アルゴリズムは、これらの画像態様に対してより高感度になるように「学習」することができる。
上述の例は、ナビゲータと顔認識器という機械視覚アルゴリズムの2つのインスタンスを示しており、両方の場合には、これらのアルゴリズムは、網膜処理された入力に適用された時に構造を変化させた。両方のアルゴリズムが、重みパラメータセットによって特徴付けられる学習アルゴリズムであり、これらのパラメータは、アルゴリズムが、網膜画像データに適用された場合と、それに対して画像が生画像データに適用された場合とで異なっていたことが明らかになった。網膜処理された場合のアルゴリズムの改善された性能(生画像の場合と比較して)は、殆ど又は完全に重みパラメータ変化に起因するものであった。この改善された性能が、トレーニングに対して用いた環境及び条件とは異なる環境及び条件下のナビゲーション及び認識のタスクに対して一般化されたことに注意されたい。これは、一部の実施形態において、網膜画像データを用いてトレーニングされた機械視覚アルゴリズムが、有利な方法で根本的に変えることができ、トレーニングの環境及び条件を超えて一般化されることの証拠である。同様に、新しいアルゴリズムの構造は、この新しい入力データ、すなわち、現在のアルゴリズムに関する新しい重み又はパラメータだけでなく、本明細書に説明する新しい入力データをより直接的に照合するか又は利用する新しいアルゴリズムを利用するように発展させることができる。
本発明の方法及びデバイスは、あらゆるタイプの画像データを処理することができる。例えば、画像データは、可視光に応答して生成することができるが、赤外線、紫外線、又は電磁スペクトルにわたる他の波長のような他のタイプの電磁放射線によって生成することができる。一部の実施形態において、画像データは、人工又は仮想の画像データ(例えば、仮想環境のモデルに基づいて生成された)とすることができる。一部の実施形態において、人工画像データは、例えば、医療撮像データを含むいずれかのタイプの適切なデータ(磁気共鳴撮像データ、コンピュータ支援断層写真データ、地震学的描像データのような)の可視化に関することができる。
画像データは、1つ又は複数の画像とすることができ、更に、静的なものとすることができ、又は時空的に変化することができる。図表のような単純な形状又は自然光景のような比較的複雑な刺激を使用することができる。更に、画像は、グレースケール、又は有色、又はグレーと有色との組合せとすることができる。一実施形態において、刺激は、白色ノイズ(「WN」)及び/又は自然光景の動画のような自然刺激(「NS」)又は両方の組合せを含むことができる。
本発明の範囲は、上記に具体的に図示して記載したものによって限定されない。当業者は、図示した材料、構成、構造、及び寸法の例に対する適切な変形が存在することを認識するであろう。本発明の説明において特許及び様々な論文を含む多くの参考文献を引用して解説し、「従来技術文献」リストに添付した。そのような参考文献の引用及び解説は、本発明の説明を明確にするために提供したものに過ぎず、いずれかの参考文献が、本明細書に記載した本発明に対する従来技術であることを認めたことではない。本明細書に引用して解説した全ての参考文献は、その全部が引用によって本明細書に組み込まれている。
本明細書において様々な発明実施形態を記載して図示したが、当業者は、本明細書に記載した機能を実行し、及び/又は結果及び/又は利点のうちの1つ又はそれ以上を取得するための様々な他の手段及び/又は構造を即座に想起すると考えられ、そのような変更及び/又は修正の各々は、本明細書に記載した本発明の実施形態の範囲にあると見なされる。より一般的には、当業者は、本明細書に記載した全てのパラメータ、寸法、材料、及び構成が、例示的であるように意図したものであり、実際のパラメータ、寸法、材料、及び/又は構成が、本発明の教示が使用される1つ又は複数の特定の用途に依存することになることを即座に理解すべきであろう。当業者は、慣例的な実験方法のみを用いて本明細書に記載した特定の本発明の実施形態に対する多くの均等物を認識することになり、又は確認することができるであろう。従って、上述の実施形態は、単なる例として提供したものであり、特許請求の範囲及びそれに対する均等物の範囲で発明実施形態は、具体的に記載し、主張するものとは別途に実施することができることを理解すべきであろう。本発明の開示の発明実施形態は、本明細書に記載した各個々の特徴、システム、物品、材料、キット、及び/又は方法に関するものである。更に、2つ又はそれよりも多くのそのような特徴、システム、物品、材料、キット、及び/又は方法のいずれの組合せも、そのような特徴、システム、物品、材料、キット、及び/又は方法が互いに矛盾しない場合には、本発明の開示の発明の範囲に含まれる。上述の実施形態は、多くの手法のうちのいずれかに実施することができる。例えば、実施形態は、ハードウエア、ソフトウエア、又はその組合せを用いて実施することができる。ソフトウエアに実施された場合には、単一のコンピュータ内に供給されるか又は複数のコンピュータの間で分散されるかに関わらず、ソフトウエア符号をあらゆる適切なプロセッサ又はプロセッサ集合上で実行することができる。
更に、コンピュータは、ラックマウントコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、又はタブレットコンピュータのようないくつかの形態のうちのいずれかに実施することができることは理解されるものとする。更に、コンピュータは、携帯情報端末(PDA)、スマート電話、又はあらゆる他の適切な携帯又は固定の電子デバイスを含む一般的にはコンピュータとして見なされないが適切な処理機能を有するデバイス内に埋め込むことができる。
更に、コンピュータは、1つ又はそれよりも多くの入力及び出力デバイスを有することができる。これらのデバイスは、取りわけユーザインタフェースを与えるために使用することができる。ユーザインタフェースを与えるために使用することができる出力デバイスの例は、出力の視覚呈示のためのプリンタ又は表示画面、及び出力の可聴呈示のためのスピーカ又は他の音生成デバイスを含む。ユーザインタフェースに使用することができる入力デバイスの例は、キーボード、並びにマウス、タッチパッド、及びデジタル化タブレットのようなポインティングデバイスを含む。別の例として、コンピュータは、入力情報を音声認識を通じて、又は他の可聴フォーマットで受け入れることができる。
そのようなコンピュータは、企業ネットワーク及びインテリジェントネットワーク(IN)又はインターネットのようなローカルエリアネットワーク又は広域ネットワークを含むあらゆる適切な形態にある1つ又はそれよりも多くのネットワークによって相互接続することができる。そのようなネットワークは、あらゆる適切な技術に基づくとすることができ、あらゆる適切なプロトコルに従って作動させることができ、無線ネットワーク、有線ネットワーク、又は光ファイバネットワークを含むことができる。
本明細書に記載した機能の少なくとも一部分を実施するのに使用されるコンピュータは、メモリと、1つ又はそれよりも多くの処理ユニット(本明細書では単純に「プロセッサ」とも呼ぶ)と、1つ又はそれよりも多くの通信インタフェースと、1つ又はそれよりも多くの表示ユニットと、1つ又はそれよりも多くのユーザ入力デバイスとを含むことができる。メモリは、いずれかのコンピュータ可読媒体を含むことができ、本明細書に記載した様々な機能を実施するためのコンピュータ命令(本明細書では「プロセッサ実行可能命令」とも呼ぶ)を格納することができる。処理ユニットは、命令を実行するために使用することができる。通信インタフェースは、有線又は無線のネットワーク、バス、又は他の通信手段に結合することができ、従って、コンピュータが通信を送信し、及び/又は他のデバイスからの通信を受信することを可能にすることができる。表示ユニットは、例えば、ユーザが命令の実行に関する様々な情報を見ることを可能にするために設けることができる。ユーザ入力デバイスは、例えば、命令の実行中にユーザが手動調節を行う、選択を行う、データ又は様々な他の情報を入力し、及び/又は様々な手法のうちのいずれかでプロセッサと対話を行うことを可能にするために設けることができる。
本明細書に概説した様々な方法又は処理は、様々なオペレーティングシステム又はプラットフォームのうちのいずれかの1つを使用する1つ又はそれよりも多くのプロセッサ上で実行可能なソフトウエアとして符号化することができる。更に、そのようなソフトウエアは、いくつかの適切なプログラミング言語、及び/又はプログラミングツール又はスクリプト生成ツールのうちのいずれかを用いて書くことができ、実行可能機械言語コード又はフレームワーク又は仮想機械上で実行される中間コードとしてコンパイルすることができる。
この点に関して、様々な発明の概念は、1つ又はそれよりも多くのコンピュータ又は他のプロセッサ上で実行された場合に上記に解説した本発明の様々な実施形態を実施する方法を実施する1つ又はそれよりも多くのプログラムを用いて符号化されたコンピュータ可読ストレージ媒体(又は複数のコンピュータ可読ストレージ媒体)(例えば、コンピュータメモリ、1つ又はそれよりも多くのフロッピー(登録商標)ディスク、コンパクトディスク、光ディスク、磁気テープ、フラッシュメモリ、フィールドプログラマブルゲートアレイ又は他の半導体素子における回路構成、又は他の持続性媒体又は有形コンピュータストレージ媒体)として具現化することができる。1つ又は複数のコンピュータ可読媒体は、上記に解説した本発明の様々な態様を実施するために、これらのコンピュータ可読媒体上に格納された1つ又は複数のプログラムを1つ又はそれよりも多くの異なるコンピュータ又は他のプロセッサ上にロードすることができるようにトランスポート可能にすることができる。
本明細書では、「プログラム」又は「ソフトウエア」という用語は、一般的な意味で上記に解説した実施形態の様々な態様を実施するようにコンピュータ又は他のプロセッサをプログラムするのに使用することができるいずれかのタイプのコンピュータコード又はコンピュータ実行可能命令セットを指すために使用する。更に、一態様により、本発明の様々な態様を実施するのに、実行された場合に本発明の方法を実施する1つ又はそれよりも多くのコンピュータプログラムは、単一のコンピュータ又はプロセッサ上に存在する必要はなく、いくつかの異なるコンピュータ又はプロセッサの間でモジュール式に分散させることができることは理解されるものとする。
コンピュータ実行可能命令は、1つ又はそれよりも多くのコンピュータ又は他のデバイスによって実行されるプログラムモジュールのような多くの形態にあるとすることができる。一般的にプログラムモジュールは、特定のタスクを実施するか又は特定の抽象データ型を実施するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。一般的にプログラムモジュールの機能は、様々な実施形態において必要に応じて組み合わせるか又は分散させることができる。
また、データ構造は、コンピュータ可読媒体内にあらゆる適切な形態で格納することができる。例示の簡略化のために、データ構造をデータ構造内の場所を通じて関連付けられたフィールドを有するように示す場合がある。そのような関係は、フィールドに対する格納領域にフィールド間の関係を送信するコンピュータ可読媒体内の場所を割り当てることによっても同じく得ることができる。しかし、データ構造のフィールド内の情報の間の関係を確立するのに、ポインタ、タグ、又はデータ要素の間の関係を確立する他の機構の使用によるものを含むあらゆる適切な機構を使用することができる。
また、様々な発明の概念は、その実施例を提供した1つ又はそれよりも多くの方法として具現化することができる。方法の一部として実行される実施過程は、あらゆる適切な手法で順序付けすることができる。それに応じて、例示的な実施形態では順次的な実施過程として示すが、いくつかの実施過程を同時に実施する段階を含むことができる図示のものとは異なる順序に実施過程が実施される実施形態を構成することができる。
本明細書に使用する自然光景は、例えば、Geisler WSによる「Visual perception and the statistical of properties of natural scenes(自然光景の特性の視覚認識及び統計)」、Annu.Rev.Psychol.59:167−92 (2008年)に記載されている自然環境の画像を指すと理解しなければならない。一部の実施形態において、自然光景は、いずれかの適切で複雑な画像、例えば、一般的に周波数逆二乗の法則に従う空間及び/又は時間の周波数パワースペクトルによって特徴付けられる画像によって置換することができる。例えば、短い映像クリップが使用される一部の実施形態において、複雑な画像のスペクトルは、逆二乗の法則から幾分ずれる可能性がある。例えば、一部の実施形態において、複雑な画像は、形式1/f^xの空間又は時間のパワースペクトルを有することができ、ここで、fは周波数であり、xは、例えば、1〜3の範囲又はそのいずれかの部分的範囲(例えば、1.5〜2.5、1.75〜2.25、1.9〜2.1等)内にある。
白色ノイズ画像は、実質的に平坦な空間周波数パワースペクトルを有するノイズ画像を指す。
本明細書に使用する「光」という用語及びそれに関する用語(例えば、「オプティカル」、「視覚」)は、可視スペクトルの内側と外側の両方にある例えば紫外放射線及び赤外線放射線を含む電磁放射線を含むと理解しなければならない。
本明細書及び特許請求の範囲に使用する不定冠詞「a」及び「an」は、別途指定しない限り「少なくとも1つ」のものを意味すると理解しなければならない。
本明細書及び特許請求の範囲に使用する「又は」という表現は、「いずれか又は両方」という言葉通りに等位結合された要素、すなわち、一部の場合は接続的に存在し、他の場合は離接的に存在する要素のうちの「いずれか又は両方」を意味すると理解しなければならない。「又は」を用いて列記した複数の要素も同じく解釈され、すなわち、要素のうちの「1つ又はそれよりも多く」がそのように等位結合されるものとする。具体的に示す要素に関するか又は関連しないかに関わらず、「又は」節によって具体的に示す要素以外に、他の要素を任意的に存在させることができる。従って、非限定的な例として「A又はB」という説明は、「含む」のような非限定的な用語と共に用いた場合に、一実施形態ではAのみ(任意的にB以外の要素を含む)、別の実施形態ではBのみ(任意的にA以外の要素を含む)、更に別の実施形態ではAとBの両方(任意的に他の要素を含む)などを意味する。
本明細書及び特許請求の範囲に使用する「又は」は、上記に定めた「又は」と同じ意味を有すると理解しなければならない。例えば、列記部分内の項目を分離する場合には、「又は」又は「又は」は包含的であり、すなわち、いくつかの要素又は列記した要素のうちの少なくとも1つの包含だけでなく、1つよりも多いものも含み、任意的に、列記されていない付加的な項目を含むと解釈しなければならない。「〜のうちの1つのみ」又は「のうちの厳密に1つ」又は特許請求の範囲内に使用する場合の「〜から構成される」のような別途指定する用語のみが、いくつかの要素又は列記した要素のうちの厳密に1つの要素の包含を意味することになる。一般的に、本明細書に使用する「又は」という用語は、「〜のいずれか」、「〜のうちの1つ」、「〜のうちの1つのみ」、又は「〜のうちの厳密に1つ」のような排他性用語が続く場合にのみ、排他的な択一性(すなわち、「一方又は他方であるが両方ではない」)を示すと解釈しなければならない。「基本的に〜から構成される」は、特許請求の範囲に使用される場合には、特許法の分野に使用される通常の意味を有するものとする。
特許請求の範囲、並びに上述の明細書では、「含む」、「担持する」、「有する」、「収容する」、「に関わる」、「保持する」、及び「から構成される」などのような全ての移行句は非限定的であり、すなわち、「〜を含むが、それらに限定されない」を意味すると理解しなければならない。「United States Patent Office Manual of Patent Examining Procedures(米国特許局審査手順マニュアル)第2111.03節」に示すように、「〜から構成される」及び「基本的に〜から構成される」という移行句だけが、それぞれ限定的又は半限定的な移行句であるものとする。
本明細書において定めて使用する全ての定義は、辞書の定義、引用によって組み込まれている文献における定義、及び/又は定めた用語の通常の意味を無効にすると理解しなければならない。
当業者は、本発明の精神及び範囲から逸脱することなく、本明細書に記載したものの変形、修正、及び他の実施を想起されるであろう。本発明のある一定の実施形態を図示して記載したが、当業者には、本発明の精神及び範囲から逸脱することなく変形及び修正を加えることができることが明らかであろう。以上の説明及び添付図面において示したものは、例示目的で提供したものであり、限定として提供したものではない。
参考文献











A 生画像ストリーム
B 網膜画像ストリーム

Claims (41)

  1. 一連の生画像に対応する生画像データを受け入れる段階と、
    脊椎動物網膜の1つ又はそれよりも多くの網膜細胞の入力/出力変換を実質的に模倣する入力/出力変換によって特徴付けられる符号化器を用いて符号化されたデータを生成するために前記生画像データを処理する段階と、
    前記符号化されたデータに少なくとも部分的に基づいて生成されたデータに第1の機械視覚アルゴリズムを適用する段階と、
    を含むことを特徴とする方法。
  2. 前記符号化されたデータに基づいて一連の網膜画像を生成する段階を更に含むことを特徴とする請求項1に記載の方法。
  3. 前記符号化されたデータに基づいて前記網膜画像内のピクセル値を決定する段階を含むことを特徴とする請求項2に記載の方法。
  4. 前記符号化されたデータに基づいて前記網膜画像内のピクセル値を決定する段階は、網膜細胞応答を示す符号化されたデータに基づいてピクセル強度又は色を決定する段階を含むことを特徴とする請求項3に記載の方法。
  5. 網膜細胞応答を示す前記データは、網膜細胞発火率、網膜細胞出力パルス列、及び起動電位から構成されるリストからの少なくとも1つを示すことを特徴とする請求項4に記載の方法。
  6. 前記一連の網膜画像に前記第1の機械視覚アルゴリズムを適用する段階、
    を更に含むことを特徴とする請求項2から請求項6のいずれか1項に記載の方法。
  7. 前記機械視覚アルゴリズムは、物体認識アルゴリズム、画像分類アルゴリズム、顔認識アルゴリズム、光学文字認識アルゴリズム、コンテンツベースの画像取り出しアルゴリズム、姿勢推定アルゴリズム、運動解析アルゴリズム、自己運動決定アルゴリズム、移動追跡アルゴリズム、オプティカルフロー決定アルゴリズム、光景再現アルゴリズム、3D容積認識アルゴリズム、及びナビゲーションアルゴリズムから構成されるリストから選択された少なくとも1つを含むことを特徴とする請求項6に記載の方法。
  8. 前記機械視覚アルゴリズムは、前記一連の網膜画像に適用された時に、前記符号化器を用いて処理されていない対応する生画像セットに適用された時よりも良好な性能を示すことを特徴とする請求項1から請求項7のいずれか1項に記載の方法。
  9. 前記機械視覚アルゴリズムは、自然光景を含む一連の網膜画像に適用された時に、前記符号化器を用いて処理されていない対応する一連の生画像に適用された時よりも良好な性能を示すことを特徴とする請求項8に記載の方法。
  10. 前記機械視覚アルゴリズムは、一連の画像内での人間の検出又は識別のためのアルゴリズムを含み、
    前記機械視覚アルゴリズムは、前記人間を含む様々な網膜画像に適用された時に、前記符号化器を用いて処理されていない対応する生画像セットに適用された時よりも良好な検出精度又は識別精度を示す、
    ことを特徴とする請求項8又は請求項9に記載の方法。
  11. 前記人間を含む前記一連の画像は、自然光景に位置する該人間の画像を含むことを特徴とする請求項10に記載の方法。
  12. 前記人間を含む前記一連の画像は、前記機械視覚アルゴリズムをトレーニングするのに使用された自然光景とは異なる自然光景に位置する該人間の画像を含むことを特徴とする請求項11に記載の方法。
  13. 前記機械視覚アルゴリズムは、実環境又は仮想環境を通じたナビゲーションのためのアルゴリズムを含み、
    前記機械視覚アルゴリズムは、自然光景を含む一連の網膜画像に適用された時に、前記符号化器を用いて処理されていない対応する生画像セットに適用された時よりも良好なナビゲーション性能を示す、
    ことを特徴とする請求項8又は請求項9に記載の方法。
  14. 前記機械視覚アルゴリズムは、自然光景を含む一連の網膜画像に適用された時に、前記符号化器を用いて処理されていない対応する生画像セットに適用された時よりも少ないナビゲーション中の望まない衝突イベントを示すことを特徴とする請求項13に記載の方法。
  15. 前記一連の網膜画像は、前記機械視覚アルゴリズムをトレーニングするのに使用されなかった環境に対応することを特徴とする請求項14に記載の方法。
  16. 前記一連の網膜画像に機械画像処理アルゴリズムを適用して1つ又はそれよりも多くの着目する網膜画像を識別する段階と、
    前記着目する網膜画像に対応する1つ又はそれよりも多くの着目する生画像を識別する段階と、
    を更に含むことを特徴とする請求項1から請求項15のいずれか1項に記載の方法。
  17. 前記着目する生画像を処理する段階を更に含むことを特徴とする請求項16に記載の方法。
  18. 前記着目する生画像を処理する前記段階は、該着目する生画像に第2の機械視覚アルゴリズムを適用する段階を含むことを特徴とする請求項17に記載の方法。
  19. 前記第1の機械視覚アルゴリズムは、網膜画像セットに対してトレーニングされたアルゴリズムを含み、
    前記第2の機械視覚アルゴリズムは、生画像セットに対してトレーニングされたアルゴリズムを含む、
    ことを特徴とする請求項18に記載の方法。
  20. 前記第1の機械視覚アルゴリズムを適用する段階は、ナビゲーションアルゴリズムを適用する段階を含むことを特徴とする請求項1から請求項19のいずれか1項に記載の方法。
  21. 前記ナビゲーションアルゴリズムを適用する段階は、
    前記一連の網膜画像を処理して、該一連の画像内の複数の画像位置での運動を示す運動情報を決定する段階と、
    前記運動情報に基づいて前記一連の画像内の空間領域を分類する段階と、
    前記空間領域の前記分類に基づいてナビゲーション決定を生成する段階と、
    を含む、
    ことを特徴とする請求項20に記載の方法。
  22. 運動情報が、前記一連の画像内のオプティカルフローを示すことを特徴とする請求項21に記載の方法。
  23. 畳み込みニューラルネットワークを使用して前記空間領域を分類する段階、
    を含むことを特徴とする請求項21又は請求項22に記載の方法。
  24. ナビゲーションアルゴリズムからの結果に基づいてロボット装置の運動を制御する段階を更に含むことを特徴とする請求項21から請求項23のいずれか1項に記載の方法。
  25. ナビゲーションアルゴリズムからの結果に基づいて仮想空間内の仮想物体の運動を制御する段階を更に含むことを特徴とする請求項18から請求項24のいずれか1項に記載の方法。
  26. 前記ナビゲーションアルゴリズムは、仮想空間を表す画像データに基づいてトレーニングされたものであることを特徴とする請求項24又は請求項25に記載の方法。
  27. 前記網膜画像に基づいて機械視覚アルゴリズムをトレーニングする段階を更に含むことを特徴とする請求項1から請求項26のいずれか1項に記載の方法。
  28. 前記機械視覚アルゴリズムをトレーニングする段階は、
    (i)前記機械視覚アルゴリズムを網膜画像セットに適用して出力を生成する段階と、
    (ii)前記出力に基づいて前記機械視覚アルゴリズムの性能を示す性能情報を決定する段階と、
    (iii)前記性能情報に基づいて前記機械視覚アルゴリズムの1つ又はそれよりも多くの特性を修正する段階と、
    を含む、
    ことを特徴とする請求項27に記載の方法。
  29. 選択された性能基準に達するまで段階(i)から段階(iii)までを反復的に繰り返す段階、
    を更に含むことを特徴とする請求項28に記載の方法。
  30. 前記トレーニングされた機械視覚アルゴリズムは、パラメータセットによって特徴付けられ、
    前記パラメータは、前記網膜画像に対応する生画像を用いた前記機械視覚アルゴリズムの同等のトレーニングによって得られると考えられる対応するパラメータとは異なる、
    ことを特徴とする請求項27から請求項29のいずれか1項に記載の方法。
  31. 符号化されたデータを生成するために符号化器を用いて前記生画像データを処理する段階は、対応する該生画像データと比較して低減された情報量を含む符号化されたデータを生成する段階を含み、
    前記機械視覚アルゴリズムは、前記一連の網膜画像に適用された時に、前記符号化器を用いて処理されていない対応する生画像セットに適用された時よりも良好な性能を示す、
    ことを特徴とする請求項6から請求項30のいずれか1項に記載の方法。
  32. 前記符号化されたデータに含まれる前記情報量は、対応する前記生画像データと比較して少なくとも約2倍だけ圧縮されることを特徴とする請求項31に記載の方法。
  33. 前記符号化されたデータに含まれる前記情報量は、対応する前記生画像データと比較して少なくとも約5倍だけ圧縮されることを特徴とする請求項31に記載の方法。
  34. 前記符号化されたデータに含まれる前記情報量は、対応する前記生画像データと比較して少なくとも約10倍だけ圧縮されることを特徴とする請求項31に記載の方法。
  35. 前記脊椎動物は、ネズミ及びサルから構成されるリストから選択された少なくとも1つを含むことを特徴とする請求項1から請求項34のいずれか1項に記載の方法。
  36. 前記網膜細胞は、神経節細胞を含むことを特徴とする請求項1から請求項35のいずれか1項に記載の方法。
  37. 前記網膜細胞は、少なくとも2つの部類の細胞を含むことを特徴とする請求項1から請求項36のいずれか1項に記載の方法。
  38. 前記少なくとも2つの部類の細胞は、ON細胞とOFF細胞を含むことを特徴とする請求項1から請求項37のいずれか1項に記載の方法。
  39. 前記符号化器は、時空的に変化する画像を含む自然光景画像を含む様々な入力にわたって脊椎動物網膜の1つ又はそれよりも多くの網膜細胞の入力/出力変換を実質的に模倣する入力/出力変換によって特徴付けられることを特徴とする請求項1から請求項38のいずれか1項に記載の方法。
  40. 生画像データを格納するように構成された少なくとも1つのメモリストレージデバイスと、
    前記メモリと作動可能に結合され、かつ請求項1から請求項38のいずれか1項に記載の方法を実行するようにプログラムされた少なくとも1つのプロセッサと、
    を含むことを特徴とする装置。
  41. 請求項1から請求項38のいずれか1項に記載の方法の段階を実施するためのコンピュータ実行可能命令を有する持続性コンピュータ可読媒体。
JP2014527338A 2011-08-25 2012-08-24 機械視覚のための網膜符号化器 Active JP6117206B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161527493P 2011-08-25 2011-08-25
US61/527,493 2011-08-25
US201261657406P 2012-06-08 2012-06-08
US61/657,406 2012-06-08
PCT/US2012/052348 WO2013029008A1 (en) 2011-08-25 2012-08-24 Retinal encoder for machine vision

Publications (3)

Publication Number Publication Date
JP2014524630A true JP2014524630A (ja) 2014-09-22
JP2014524630A5 JP2014524630A5 (ja) 2015-10-08
JP6117206B2 JP6117206B2 (ja) 2017-04-19

Family

ID=47746908

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014527338A Active JP6117206B2 (ja) 2011-08-25 2012-08-24 機械視覚のための網膜符号化器

Country Status (9)

Country Link
US (4) US9547804B2 (ja)
EP (1) EP2748765B1 (ja)
JP (1) JP6117206B2 (ja)
KR (2) KR102111000B1 (ja)
CN (1) CN103890781B (ja)
CA (1) CA2883091C (ja)
HK (1) HK1199768A1 (ja)
IL (1) IL231063A (ja)
WO (1) WO2013029008A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017187954A (ja) * 2016-04-06 2017-10-12 Kddi株式会社 画像合成装置、プログラム及びデータ構造
JP2017191608A (ja) * 2016-04-15 2017-10-19 株式会社リコー 対象識別方法、対象識別装置、及び分類器訓練方法
JP2018514036A (ja) * 2015-04-20 2018-05-31 コーネル ユニヴァーシティー 次元データ低減を有するマシンビジョン
US10762329B2 (en) 2017-12-06 2020-09-01 Toyota Jidosha Kabushiki Kaisha Inter-object relation recognition apparatus, learned model, recognition method and non-transitory computer readable medium
JP2020529088A (ja) * 2017-09-08 2020-10-01 ナイアンティック, インコーポレイテッドNiantic,Inc. 衝突の検出、推定、および回避
US11640681B2 (en) 2011-08-25 2023-05-02 Cornell University Retinal encoder for machine vision

Families Citing this family (84)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5852969B2 (ja) 2010-02-26 2016-02-03 コーネル ユニヴァーシティー 人工網膜
US9302103B1 (en) 2010-09-10 2016-04-05 Cornell University Neurological prosthesis
WO2012078636A1 (en) 2010-12-07 2012-06-14 University Of Iowa Research Foundation Optimal, user-friendly, object background separation
US20130139259A1 (en) 2011-11-30 2013-05-30 Elwha Llc Deceptive indicia profile generation from communications interactions
US9832510B2 (en) 2011-11-30 2017-11-28 Elwha, Llc Deceptive indicia profile generation from communications interactions
US20130139254A1 (en) 2011-11-30 2013-05-30 Elwha LLC, a limited liability corporation of the State of Delaware Deceptive indicia notification in a communications interaction
US10250939B2 (en) * 2011-11-30 2019-04-02 Elwha Llc Masking of deceptive indicia in a communications interaction
US9386268B2 (en) 2012-04-09 2016-07-05 Intel Corporation Communication using interactive avatars
US9195903B2 (en) * 2014-04-29 2015-11-24 International Business Machines Corporation Extracting salient features from video using a neurosynaptic system
KR101549178B1 (ko) * 2014-07-31 2015-09-02 고려대학교 산학협력단 홀로그램 생성 장치 및 방법
FR3025344B1 (fr) * 2014-08-28 2017-11-24 Commissariat Energie Atomique Reseau de neurones convolutionnels
US10147024B2 (en) * 2014-09-16 2018-12-04 Qualcomm Incorporated Interfacing an event based system with a frame based processing system
US10366506B2 (en) * 2014-11-07 2019-07-30 Lamina Systems, Inc. Hyperacuity system and methods for real time and analog detection and kinematic state tracking
WO2016095117A1 (en) * 2014-12-17 2016-06-23 Nokia Technologies Oy Object detection with neural network
US9830728B2 (en) 2014-12-23 2017-11-28 Intel Corporation Augmented facial animation
US9864430B2 (en) 2015-01-09 2018-01-09 Microsoft Technology Licensing, Llc Gaze tracking via eye gaze model
US10048749B2 (en) 2015-01-09 2018-08-14 Microsoft Technology Licensing, Llc Gaze detection offset for gaze tracking models
US9524450B2 (en) * 2015-03-04 2016-12-20 Accenture Global Services Limited Digital image processing using convolutional neural networks
US10115194B2 (en) * 2015-04-06 2018-10-30 IDx, LLC Systems and methods for feature detection in retinal images
CN104811627A (zh) * 2015-05-21 2015-07-29 广东欧珀移动通信有限公司 拍摄预览方法及装置
NL2015087B1 (en) * 2015-06-05 2016-09-09 Univ Amsterdam Deep receptive field networks.
US9844881B2 (en) * 2015-06-22 2017-12-19 GM Global Technology Operations LLC Robotic device including machine vision
BE1023147B1 (nl) * 2015-07-03 2016-12-01 Cnh Industrial Belgium Nv Controller voor een werkvoertuig
CN105227828B (zh) * 2015-08-25 2017-03-15 努比亚技术有限公司 拍摄装置和方法
US9904874B2 (en) * 2015-11-05 2018-02-27 Microsoft Technology Licensing, Llc Hardware-efficient deep convolutional neural networks
US10475225B2 (en) 2015-12-18 2019-11-12 Intel Corporation Avatar animation system
US9846808B2 (en) * 2015-12-31 2017-12-19 Adaptive Computation, Llc Image integration search based on human visual pathway model
KR102444604B1 (ko) * 2016-02-02 2022-09-21 에스케이하이닉스 주식회사 데이터 저장 장치 및 그것의 동작 방법
US9984314B2 (en) * 2016-05-06 2018-05-29 Microsoft Technology Licensing, Llc Dynamic classifier selection based on class skew
RU2665273C2 (ru) * 2016-06-03 2018-08-28 Автономная некоммерческая образовательная организация высшего образования "Сколковский институт науки и технологий" Обучаемые визуальные маркеры и способ их продуцирования
KR102631381B1 (ko) * 2016-11-07 2024-01-31 삼성전자주식회사 컨볼루션 신경망 처리 방법 및 장치
US11423548B2 (en) 2017-01-06 2022-08-23 Board Of Regents, The University Of Texas System Segmenting generic foreground objects in images and videos
US20180247161A1 (en) * 2017-01-23 2018-08-30 Intaimate LLC System, method and apparatus for machine learning-assisted image screening for disallowed content
US10191539B2 (en) * 2017-03-20 2019-01-29 Intel Corporation User aware odometry correction technology
WO2018176000A1 (en) 2017-03-23 2018-09-27 DeepScale, Inc. Data synthesis for autonomous control systems
CN107067407B (zh) * 2017-04-11 2020-01-31 广西科技大学 基于非经典感受野和线性非线性调制的轮廓检测方法
US10726307B2 (en) 2017-06-30 2020-07-28 Ai Systems Co., Ltd. Real-time identification of moving objects in video images
CN107609463B (zh) * 2017-07-20 2021-11-23 百度在线网络技术(北京)有限公司 活体检测方法、装置、设备及存储介质
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
GB2570433A (en) * 2017-09-25 2019-07-31 Nissan Motor Mfg Uk Ltd Machine vision system
US10482572B2 (en) * 2017-10-06 2019-11-19 Ford Global Technologies, Llc Fusion of motion and appearance features for object detection and trajectory prediction
US11126914B2 (en) * 2017-10-11 2021-09-21 General Electric Company Image generation using machine learning
EP3718084A4 (en) 2017-11-28 2021-07-21 Hewlett-Packard Development Company, L.P. DIGITAL IMAGE ANALYSIS AND PROCESSING FOR DISPLAY BY A DALTONIAN
US11335106B2 (en) 2017-11-29 2022-05-17 Intel Corporation Methods and apparatus to convert images for computer-vision systems
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
CN108520532B (zh) * 2018-04-03 2020-12-22 北京京东尚科信息技术有限公司 识别视频中物体运动方向的方法及装置
WO2019222135A1 (en) 2018-05-16 2019-11-21 Benevis Informatics, Llc Systems and methods for review of computer-aided detection of pathology in images
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
CN109118460B (zh) * 2018-06-27 2020-08-11 河海大学 一种分光偏振光谱信息同步处理方法及系统
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
US10579924B1 (en) * 2018-09-17 2020-03-03 StradVision, Inc. Learning method, learning device with multi-feeding layers and testing method, testing device using the same
CN109299689B (zh) * 2018-09-21 2024-03-08 石家庄铁道大学 基于机器视觉的环形生产线模台自动化识别装置及其识别方法
EP3860337A4 (en) * 2018-10-01 2022-07-13 Cornell University KITS AND METHODS FOR ACHIEVING OPTICAL DYNAMIC ATTACHMENT ON EXCITABLE CELLS
KR20210072048A (ko) 2018-10-11 2021-06-16 테슬라, 인크. 증강 데이터로 기계 모델을 훈련하기 위한 시스템 및 방법
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11601644B2 (en) * 2018-12-11 2023-03-07 Google Llc Image and video coding using machine learning prediction coding models
CN109660297B (zh) * 2018-12-19 2020-04-28 中国矿业大学 一种基于机器学习的物理层可见光通信方法
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US11062460B2 (en) * 2019-02-13 2021-07-13 Adobe Inc. Representation learning using joint semantic vectors
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
US11631266B2 (en) 2019-04-02 2023-04-18 Wilco Source Inc Automated document intake and processing system
CN110119785B (zh) * 2019-05-17 2020-12-01 电子科技大学 一种基于多层spiking卷积神经网络的图像分类方法
US11417096B2 (en) * 2019-05-21 2022-08-16 Vimeo.Com, Inc. Video format classification and metadata injection using machine learning
CN110598698B (zh) * 2019-08-29 2022-02-15 华中科技大学 基于自适应区域建议网络的自然场景文本检测方法和系统
CN111008550A (zh) * 2019-09-06 2020-04-14 上海芯灵科技有限公司 基于Multiple loss损失函数的指静脉验证身份的识别方法
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
US11301977B2 (en) * 2020-04-10 2022-04-12 General Electric Company Systems and methods for automatic defect recognition
TWI791979B (zh) * 2020-04-28 2023-02-11 長庚醫療財團法人林口長庚紀念醫院 三維醫學影像的建立方法
CN111844025B (zh) * 2020-07-02 2024-04-16 上海发那科机器人有限公司 一种涂胶机器人视觉数据的记录装置及记录方法
WO2022075349A1 (ja) 2020-10-08 2022-04-14 国立研究開発法人理化学研究所 画像処理装置、画像処理方法、及び画像処理プログラムを格納した非一時的なコンピュータ可読媒体
CN112451857A (zh) * 2020-12-10 2021-03-09 深圳先进技术研究院 视网膜神经节细胞激活状态的判别方法、存储介质和设备
CN113269235B (zh) * 2021-05-10 2022-12-27 青岛理工大学 一种基于无监督学习的装配体变化检测方法及设备
CN114257817B (zh) * 2022-03-01 2022-09-02 浙江智慧视频安防创新中心有限公司 一种多任务数字视网膜特征流的编码方法及解码方法
CN114449280B (zh) * 2022-03-30 2022-10-04 浙江智慧视频安防创新中心有限公司 一种视频编解码方法、装置及设备
WO2024097128A1 (en) * 2022-10-31 2024-05-10 University Of Pittsburgh - Of The Commonwealth System Of Higher Education Neuromorphic programmable multiple pathways event-based sensors

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02236768A (ja) * 1988-08-23 1990-09-19 John G Sutherland 人工神経装置
JPH06139361A (ja) * 1992-03-25 1994-05-20 Mitsubishi Electric Corp 画像感知および処理のための装置および方法
JP2002503360A (ja) * 1996-03-29 2002-01-29 サーノフ コーポレイション 2つの画像系列の差の可視性を評価する方法および装置

Family Cites Families (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5103306A (en) * 1990-03-28 1992-04-07 Transitions Research Corporation Digital image compression employing a resolution gradient
EP1104911A3 (en) * 1993-08-26 2006-04-12 The Regents Of The University Of California CNN bionic eye or other topographic sensory organs or combinations of the same
US5856152A (en) 1994-10-28 1999-01-05 The Trustees Of The University Of Pennsylvania Hybrid adenovirus-AAV vector and methods of use therefor
US5836996A (en) 1996-12-30 1998-11-17 Doorish; John F. Artificial retina
DE19707046A1 (de) * 1997-02-21 1998-08-27 Rolf Prof Dr Ing Eckmiller Lernfähiger "Active Vision" Implant Encoder
NZ337392A (en) 1997-02-21 2002-06-28 Intelligent Implants Gmbh Neuroprostheses with stimulation and feedback functions
WO1998048027A2 (en) 1997-04-21 1998-10-29 University Of Florida Materials and methods for treatment of retinal diseases
US6458157B1 (en) * 1997-08-04 2002-10-01 Suaning Gregg Joergen Retinal stimulator
US6971066B2 (en) * 1997-08-18 2005-11-29 National Instruments Corporation System and method for deploying a graphical program on an image acquisition device
AU775245B2 (en) 1998-09-17 2004-07-22 Catholic University Nijmegen Methods for treatment of degenerative retinal diseases
US6165192A (en) 1999-01-05 2000-12-26 Second Sight, Llc Method and apparatus for intraocular retinal tack inserter
EP1864690A3 (en) 1999-03-24 2008-01-02 Second Sight Medical Products, Inc. Logarithmic light intensifier for use with photoreceptorbased implanted retinal prosthetics and those prosthetics
ATE430596T1 (de) 1999-03-24 2009-05-15 Second Sight Medical Prod Inc Retinale farbprothese zur wiederherstellung des farbsehens
US7186560B2 (en) 1999-09-21 2007-03-06 Rutgers, The State University Of New Jersey High level expression of immunogenic proteins in the plastids of higher plants
US7925354B2 (en) 2000-05-26 2011-04-12 Second Sight Medical Products, Inc. Video processing methods for improving visual acuity and/or perceived image resolution
EP1290206A2 (en) 2000-06-09 2003-03-12 University of Florida Recombinant aav vectors for gene therapy of obesity
US6970745B2 (en) 2000-08-09 2005-11-29 The United States Of America As Represented By The Secretary Of The Navy Microelectronic stimulator array for stimulating nerve tissue
US6647297B2 (en) 2000-08-09 2003-11-11 The United States Of America As Represented By The Secretary Of The Navy Permanent retinal implant device
US7149586B2 (en) 2002-03-28 2006-12-12 Second Sight Medical Products, Inc. Variable pitch electrode array
WO2002082904A2 (en) 2001-04-13 2002-10-24 The Trustees Of The University Of Pennsylvania Method of treating or retarding the development of blindness
US20040147975A1 (en) 2001-04-24 2004-07-29 Popovic Dejan P. Functional electrical therapy system (fets)
EP1383577A2 (en) 2001-05-03 2004-01-28 Universite Catholique De Louvain Vision rehabilitation method and device
US6801655B2 (en) * 2001-05-10 2004-10-05 The United States Of America As Represented By The Secretary Of The Navy Spatial image processor
US9143706B2 (en) 2001-06-06 2015-09-22 Andrew Zador Imaging system utilizing spatial image oscillation
US6675164B2 (en) 2001-06-08 2004-01-06 The Regents Of The University Of California Parallel object-oriented data mining system
US7209788B2 (en) 2001-10-29 2007-04-24 Duke University Closed loop brain machine interface
US20030105409A1 (en) 2001-11-14 2003-06-05 Donoghue John Philip Neurological signal decoding
WO2003047525A2 (en) 2001-12-03 2003-06-12 The Regents Of The University Of California Expression of glial-derived neurotrophic factor for treatment of diseases of the eye
AU2003225910A1 (en) 2002-03-20 2003-10-08 Johns Hopkins University Raav vector compositions and methods for the treatment of choroidal neovascularization
US7203356B2 (en) 2002-04-11 2007-04-10 Canesta, Inc. Subject segmentation and tracking using 3D sensing technology for video compression in multimedia applications
US20060127358A1 (en) 2002-05-01 2006-06-15 Nicholas Muzyczka Raav expression systems and methods for enhancing transduction of mammalian neural cells
US20070015238A1 (en) 2002-06-05 2007-01-18 Snyder Richard O Production of pseudotyped recombinant AAV virions
US20060251621A1 (en) 2002-09-27 2006-11-09 Campochiaro Peter A Ocular gene therapy
KR100506533B1 (ko) * 2003-01-11 2005-08-05 삼성전자주식회사 이동로봇 및 그에 따른 자율주행 시스템 및 방법
US7311723B2 (en) 2003-07-11 2007-12-25 University Of Washington Scanning laser device and methods of use
ITMI20031449A1 (it) 2003-07-15 2005-01-16 St Microelectronics Srl Metodo per classificare una immagine digitale
EP1727591B1 (en) 2004-02-05 2009-04-29 Motorika Ltd. Neuromuscular stimulation
WO2005080573A1 (en) 2004-02-20 2005-09-01 Universite De Montreal Recombinant viral vectors to promote neuronal cell survival and uses thereof
CN1770177A (zh) 2004-06-28 2006-05-10 微软公司 编码高密度几何符号集的系统和方法
US7751585B2 (en) 2004-06-28 2010-07-06 Microsoft Corporation System and method for encoding high density geometric symbol set
WO2006008681A1 (en) 2004-07-13 2006-01-26 Koninklijke Philips Electronics N.V. Method of spatial and snr picture compression
US8103352B2 (en) 2004-12-03 2012-01-24 Second Sight Medical Products, Inc. Mimicking neural coding in retinal ganglion cells with short pulse electrical stimulation
US8520944B2 (en) * 2004-12-24 2013-08-27 Mario Cimbalista, JR. Method for improving visualization of infrared images
WO2006089155A2 (en) 2005-02-16 2006-08-24 Second Sight Medical Products, Inc. Fitting of brightness in a visual prosthesis
US8906360B2 (en) 2005-07-22 2014-12-09 The Board Of Trustees Of The Leland Stanford Junior University Light-activated cation channel and uses thereof
US20070050046A1 (en) 2005-07-25 2007-03-01 Georgopoulos Apostolos P Methods for generating a signal indicative of an intended movement
US8956396B1 (en) 2005-10-24 2015-02-17 Lockheed Martin Corporation Eye-tracking visual prosthetic and method
US20070198066A1 (en) 2005-11-03 2007-08-23 Greenberg Robert J Method and apparatus for visual neural stimulation
JP4572175B2 (ja) 2006-04-25 2010-10-27 日本電信電話株式会社 非定常映像検出装置,非定常映像検出方法及びその方法を実装したプログラム
WO2007127428A2 (en) 2006-04-28 2007-11-08 University Of Florida Research Foundation, Inc. Double-stranded/self-complementary vectors with a truncated cba promoter and methods of gene delivery
CN101484005A (zh) 2006-05-04 2009-07-15 韦恩州立大学 通过向体内递送视紫红质核酸恢复视觉响应
US8197539B2 (en) 2006-05-05 2012-06-12 University Of Southern California Intraocular camera for retinal prostheses
US8311634B2 (en) 2006-06-16 2012-11-13 Second Sight Medical Products Inc. Apparatus and method for electrical stimulation of human retina
GB0612242D0 (en) 2006-06-21 2006-08-02 Imp Innovations Ltd Retinal prosthetic devices
EP1891976A1 (en) 2006-08-23 2008-02-27 Novartis Forschungsstiftung, Zweigniederlassung Friedrich Miescher Institute for Biomedical Research Use of light sensitive genes
CN100481123C (zh) 2007-03-08 2009-04-22 上海交通大学 采用时空滤波器的视网膜编码器实现方法
WO2008109862A2 (en) 2007-03-08 2008-09-12 Second Sight Medical Products, Inc. Flexible circuit electrode array
WO2008133951A2 (en) * 2007-04-24 2008-11-06 Massachusetts Institute Of Technology Method and apparatus for image processing
EP1995685A3 (en) 2007-05-21 2012-08-01 Biotronik CRM Patent AG Medical device for monitoring biological signal
US20090105786A1 (en) 2007-10-22 2009-04-23 University Of Washington Method and device for strengthening synaptic connections
US8195302B2 (en) 2007-11-07 2012-06-05 Second Sight Medical Products, Inc. Video processing unit for a visual prosthetic apparatus
US8195303B2 (en) 2007-11-07 2012-06-05 Second Sight Medical Products, Inc. Video processing unit for a visual prosthetic apparatus
EP2222372A2 (en) 2007-12-06 2010-09-01 Technion Research & Development Foundation Ltd. Method and system for optical stimulation of neurons
CN100586403C (zh) 2008-03-06 2010-02-03 上海交通大学 视觉假体图像处理装置及方法
WO2009126112A1 (en) 2008-04-08 2009-10-15 National University Of Singapore Retinal image analysis systems and methods
ES2538468T3 (es) 2008-05-20 2015-06-22 Eos Neuroscience, Inc. Vectores para la administración de proteínas sensibles a la luz y métodos para su utilización
US20100016732A1 (en) 2008-07-17 2010-01-21 Lockheed Martin Corporation Apparatus and method for neural-signal capture to drive neuroprostheses or control bodily function
WO2010017448A1 (en) * 2008-08-07 2010-02-11 Massachusetts Institute Of Technology Coding for visual prostheses
CN101336856B (zh) 2008-08-08 2010-06-02 西安电子科技大学 辅助视觉系统的信息获取与传递方法
CN101393789A (zh) 2008-11-04 2009-03-25 江苏圣安电缆有限公司 交联聚乙烯绝缘电力电缆内气体的排除方法
US8179452B2 (en) 2008-12-31 2012-05-15 Lg Electronics Inc. Method and apparatus for generating compressed file, and terminal comprising the apparatus
US8108147B1 (en) * 2009-02-06 2012-01-31 The United States Of America As Represented By The Secretary Of The Navy Apparatus and method for automatic omni-directional visual motion-based collision avoidance
US8744588B2 (en) 2009-05-07 2014-06-03 Hani Midani Method and system for connecting an impaired nervous system to a muscle or a group of muscles based on template matching and intelligent end points
JP5852969B2 (ja) 2010-02-26 2016-02-03 コーネル ユニヴァーシティー 人工網膜
US20110213266A1 (en) 2010-03-01 2011-09-01 Williams Justin C Closed Loop Neural Activity Triggered Rehabilitation Device And Method
US8315305B2 (en) * 2010-03-26 2012-11-20 Brain Corporation Systems and methods for invariant pulse latency coding
US9311593B2 (en) * 2010-03-26 2016-04-12 Brain Corporation Apparatus and methods for polychronous encoding and multiplexing in neuronal prosthetic devices
US20110307079A1 (en) 2010-04-29 2011-12-15 Board Of Trustees Of Michigan State University, The Multiscale intra-cortical neural interface system
US8527056B2 (en) 2010-04-30 2013-09-03 Second Sight Medical Products, Inc. Encoding of size and brightness of percepts in a visual prosthesis
EP2611401A4 (en) 2010-08-31 2014-03-19 Univ Cornell RETINAL PROSTHESIS
US9302103B1 (en) 2010-09-10 2016-04-05 Cornell University Neurological prosthesis
WO2012064968A1 (en) 2010-11-11 2012-05-18 IINN, Inc. Motor nerve root stimulation
KR102111000B1 (ko) * 2011-08-25 2020-05-14 코넬 유니버시티 머신 비전용 망막 인코더
CN104168950A (zh) * 2011-12-20 2014-11-26 约翰霍普金斯大学 用于神经假体的安全的直流激励器的人工控制和微型化
CZ304893B6 (cs) 2012-06-20 2015-01-07 Miloslav Hering Kolečková brusle
US9773155B2 (en) 2014-10-14 2017-09-26 Microsoft Technology Licensing, Llc Depth from time of flight camera

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02236768A (ja) * 1988-08-23 1990-09-19 John G Sutherland 人工神経装置
JPH06139361A (ja) * 1992-03-25 1994-05-20 Mitsubishi Electric Corp 画像感知および処理のための装置および方法
JP2002503360A (ja) * 1996-03-29 2002-01-29 サーノフ コーポレイション 2つの画像系列の差の可視性を評価する方法および装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11640681B2 (en) 2011-08-25 2023-05-02 Cornell University Retinal encoder for machine vision
JP2018514036A (ja) * 2015-04-20 2018-05-31 コーネル ユニヴァーシティー 次元データ低減を有するマシンビジョン
JP2021073627A (ja) * 2015-04-20 2021-05-13 コーネル ユニヴァーシティー 次元データ低減を有するマシンビジョン
JP7016522B2 (ja) 2015-04-20 2022-02-07 コーネル ユニヴァーシティー 次元データ低減を有するマシンビジョン
US11430263B2 (en) 2015-04-20 2022-08-30 Cornell University Machine vision with dimensional data reduction
JP2017187954A (ja) * 2016-04-06 2017-10-12 Kddi株式会社 画像合成装置、プログラム及びデータ構造
JP2017191608A (ja) * 2016-04-15 2017-10-19 株式会社リコー 対象識別方法、対象識別装置、及び分類器訓練方法
JP2020529088A (ja) * 2017-09-08 2020-10-01 ナイアンティック, インコーポレイテッドNiantic,Inc. 衝突の検出、推定、および回避
JP7025532B2 (ja) 2017-09-08 2022-02-24 ナイアンティック, インコーポレイテッド 衝突の検出、推定、および回避
US10762329B2 (en) 2017-12-06 2020-09-01 Toyota Jidosha Kabushiki Kaisha Inter-object relation recognition apparatus, learned model, recognition method and non-transitory computer readable medium

Also Published As

Publication number Publication date
EP2748765B1 (en) 2022-12-14
KR102111000B1 (ko) 2020-05-14
CA2883091A1 (en) 2013-02-28
US20170255837A1 (en) 2017-09-07
IL231063A0 (en) 2014-03-31
CN103890781A (zh) 2014-06-25
US20140355861A1 (en) 2014-12-04
HK1199768A1 (en) 2015-07-17
US20200401837A1 (en) 2020-12-24
US10303970B2 (en) 2019-05-28
KR20140050741A (ko) 2014-04-29
US20190279021A1 (en) 2019-09-12
EP2748765A1 (en) 2014-07-02
JP6117206B2 (ja) 2017-04-19
IL231063A (en) 2016-10-31
CA2883091C (en) 2020-02-25
KR20190051076A (ko) 2019-05-14
WO2013029008A1 (en) 2013-02-28
EP2748765A4 (en) 2016-06-22
US11640681B2 (en) 2023-05-02
US9547804B2 (en) 2017-01-17
KR101976048B1 (ko) 2019-05-09
US10769483B2 (en) 2020-09-08
CN103890781B (zh) 2017-11-21

Similar Documents

Publication Publication Date Title
JP6117206B2 (ja) 機械視覚のための網膜符号化器
CN107624061B (zh) 具有维度数据缩减的机器视觉
Sinha et al. Optimization of convolutional neural network parameters for image classification
CN112464930A (zh) 目标检测网络构建方法、目标检测方法、装置和存储介质
Jain et al. An automated hyperparameter tuned deep learning model enabled facial emotion recognition for autonomous vehicle drivers
Gao et al. Image Segmentation of Retinal Blood Vessels Based on Dual‐Attention Multiscale Feature Fusion
Putro et al. Fast person detector with efficient multi-level contextual block for supporting assistive robot
CN111553202B (zh) 进行活体检测的神经网络的训练方法、检测方法及装置
Hassan et al. Optimising deep learning by hyper-heuristic approach for classifying good quality images
Kinattukara et al. Clustering based neural network approach for classification of road images
Nejatian et al. Implementation real-time gender recognition based on facial features using a hybrid neural network Imperialist Competitive Algorithm
Huang et al. Hierarchical Learning-Guided human motion quality assessment in big data environment
Xu Deep Learning for Image Classification and Segmentation with Scarce Labelled Data
Khan et al. Surrogate Gradient-Based Medical Image Classification Using Spike Neural Network
Bondalapati et al. Intelligent Video Surveillance Systems Using Deep Learning Methods
Garbade Semantic Segmentation and Completion of 2D and 3D Scenes
Xu et al. Bionic visual navigation model for enhanced template matching and loop closing in challenging lighting environments
Malalur Interpretable neural networks via alignment and dpstribution Propagation
Keil From neuronal models to neuronal dynamics and image processing
Vats Understanding the hand-gestures using Convolutional Neural Networks and Generative Adversial Networks
CN114743134A (zh) 一种基于多线索融合的动物行为识别方法
Rueckauer et al. Optimization of Neuroprosthetic Vision via End-to-end Deep Reinforcement Learning
Kim et al. Mimicking Ensemble Learning with Deep Branched Networks
Petkov et al. Generalized Net Model of Face Recognition using ART2 Neural Network and Sobel Filter

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150821

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150821

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161031

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170322

R150 Certificate of patent or registration of utility model

Ref document number: 6117206

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250