CN116502681A - 模型训练方法、视觉感知方法、电子设备和存储介质 - Google Patents
模型训练方法、视觉感知方法、电子设备和存储介质 Download PDFInfo
- Publication number
- CN116502681A CN116502681A CN202310486675.0A CN202310486675A CN116502681A CN 116502681 A CN116502681 A CN 116502681A CN 202310486675 A CN202310486675 A CN 202310486675A CN 116502681 A CN116502681 A CN 116502681A
- Authority
- CN
- China
- Prior art keywords
- pulse
- model
- preset
- ganglion cell
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000012549 training Methods 0.000 title claims abstract description 59
- 230000016776 visual perception Effects 0.000 title claims abstract description 25
- 208000003098 Ganglion Cysts Diseases 0.000 claims abstract description 93
- 208000005400 Synovial Cyst Diseases 0.000 claims abstract description 93
- 210000004027 cell Anatomy 0.000 claims abstract description 82
- 230000004044 response Effects 0.000 claims abstract description 56
- 230000006870 function Effects 0.000 claims abstract description 47
- 210000001525 retina Anatomy 0.000 claims abstract description 22
- 230000036755 cellular response Effects 0.000 claims abstract description 17
- 230000002207 retinal effect Effects 0.000 claims description 28
- 210000002569 neuron Anatomy 0.000 claims description 27
- 239000012528 membrane Substances 0.000 claims description 15
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 claims description 15
- 125000004122 cyclic group Chemical group 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 230000000638 stimulation Effects 0.000 claims description 5
- 210000003994 retinal ganglion cell Anatomy 0.000 abstract description 9
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 206010064930 age-related macular degeneration Diseases 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000007667 floating Methods 0.000 description 6
- 208000002780 macular degeneration Diseases 0.000 description 6
- 230000004438 eyesight Effects 0.000 description 5
- 230000036982 action potential Effects 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 102100032202 Cornulin Human genes 0.000 description 3
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 210000003986 cell retinal photoreceptor Anatomy 0.000 description 3
- 208000007014 Retinitis pigmentosa Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000010304 firing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000269333 Caudata Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000003710 cerebral cortex Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 208000015122 neurodegenerative disease Diseases 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 210000000857 visual cortex Anatomy 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61F—FILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
- A61F2/00—Filters implantable into blood vessels; Prostheses, i.e. artificial substitutes or replacements for parts of the body; Appliances for connecting them with the body; Devices providing patency to, or preventing collapsing of, tubular structures of the body, e.g. stents
- A61F2/02—Prostheses implantable into the body
- A61F2/14—Eye parts, e.g. lenses, corneal implants; Implanting instruments specially adapted therefor; Artificial eyes
- A61F2/16—Intraocular lenses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Ophthalmology & Optometry (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Veterinary Medicine (AREA)
- Cardiology (AREA)
- Public Health (AREA)
- Vascular Medicine (AREA)
- Transplantation (AREA)
- Animal Behavior & Ethology (AREA)
- Heart & Thoracic Surgery (AREA)
- Prostheses (AREA)
Abstract
本申请实施例涉及深度学习技术领域,公开了一种模型训练方法、视觉感知方法、电子设备和存储介质,该模型训练方法适用于视网膜假体中的脉冲循环模型,该模型训练方法包括:基于预设的神经节细胞响应数据集,确定各神经节细胞各自对应的标签;获取若干个脉冲信号作为训练样本;将脉冲信号输入至脉冲循环模型,获取脉冲循环模型输出的各神经节细胞的脉冲响应,并根据各神经节细胞的脉冲响应、对应的各标签、以及预设的泊松损失函数,计算损失值;根据损失值和预设的时间反向传播函数,更新脉冲循环模型中各层的权重,直至更新后的脉冲循环模型收敛,从而科学、快速地训练出用于预测视网膜神经节细胞响应的脉冲循环模型。
Description
技术领域
本申请实施例涉及深度学习技术领域,特别涉及一种模型训练方法、视觉感知方法、电子设备和存储介质。
背景技术
基于光遗传学的视网膜假体用于解决AMD(Age-related Macular Degeneration,老年性黄斑变性)和RP(Retinitis Pigmentosa,视网膜色素变性)这两种视觉疾病。全世界有超过1亿人患有这两种视力退行性疾病,如图1所示,AMD患者和RP患者由于损失了大量视网膜的视锥和视杆细胞,导致其看不清楚视野中物体。两者的区别仅在于损失的视锥和视杆细胞的位置不同,以及细胞凋亡的次序不同。目前,现有的药物和基因等治疗方法对于重度的AMD和RP患者而言效果十分有限,随着光遗传学的发展,基于光遗传学的视网膜假体成为治疗这两种疾病的重要手段。
正常功能的视网膜上的视锥和视杆细胞能够有效地感知外部图像,然后产生神经电信号去编码这些图像。双极性细胞和其他细胞层会处理相应的神经电信号,然后向大脑皮层传递处理后的神经编码。视网膜假体则是利用模型来代替视网膜的信号处理能力去感知并处理图像,然后将处理好的信号通过光刺激的方式传递给视网膜最后一层细胞神经节细胞,进而在视觉皮层形成视觉感知。
然而,本申请的发明人发现,目前的视网膜假体要么只能做到简化图像的作用,无法代替视锥和视杆细胞的功能,要么利用卷积神经网络预测视网膜神经节细胞的响应,从而代替视锥和视杆细胞的功能,但卷积神经网络在处理过程中采用浮点乘法,计算量庞大,需要消耗很大的能量,还缺乏生物相似性,用在视网膜假体中并不合适。
发明内容
本申请的实施例的目的在于提供一种模型训练方法、视觉感知方法、电子设备和存储介质,科学、快速地训练出用于预测视网膜神经节细胞响应的脉冲循环模型,训练出的脉冲循环模型工作时功耗很低,预测准确性较高,生物相似性较高,有效提升了视网膜假体的视觉感知能力。
为解决上述技术问题,本申请的实施例提供了一种模型训练方法,适用于视网膜假体中的脉冲循环模型,所述脉冲循环模型用于预测神经节细胞的脉冲响应,所述模型训练包括以下步骤:基于预设的神经节细胞响应数据集,确定各所述神经节细胞各自对应的标签;获取若干个脉冲信号作为训练样本;将所述脉冲信号输入至所述脉冲循环模型,获取所述脉冲循环模型输出的各所述神经节细胞的脉冲响应,并根据各所述神经节细胞的脉冲响应、对应的各所述标签、以及预设的泊松损失函数,计算损失值;根据所述损失值和预设的时间反向传播函数,更新所述脉冲循环模型中各层的权重,直至更新后的所述脉冲循环模型收敛。
本申请的实施例还提供了一种视觉感知方法,适用于视网膜假体,所述视网膜假体中设置有如上述所述的脉冲循环模型,所述脉冲循环模型用于预测神经节细胞的脉冲响应,所述视觉感知方法包括以下步骤:捕获目标视频,并将所述目标视频记录为真实脉冲信号;将所述真实脉冲信号输入至所述脉冲循环模型,获取所述脉冲循环模型输出的各所述神经节细胞的脉冲响应;将各所述神经节细胞的脉冲响应以光刺激的方式,传递给所述视网膜假体的植入者的视网膜最后一层的神经节细胞,供所述植入者的视网膜最后一层的神经节细胞进行视觉感知。
本申请的实施例还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的模型训练方法,或者能够执行上述的视觉感知方法。
本申请的实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的模型训练方法,或者实现上述的视觉感知方法。
本申请的实施例提供的模型训练方法、视觉感知方法、电子设备和存储介质,视网膜假体使用脉冲循环模型来预测神经节细胞的脉冲响应,对视网膜假体中的脉冲循环模型进行训练时,先基于预设的神经节细胞响应数据集,确定各神经节细胞各自对应的标签,再获取若干个脉冲信号作为训练样本,随即将脉冲信号逐一输入至脉冲循环模型,获取脉冲循环模型输出的各神经节细胞的脉冲响应,并根据各神经节细胞的脉冲响应、各神经节细胞对应的标签、以及预设的泊松损失函数,计算损失值,最后根据计算出的损失值和预设的时间反向传播函数,更新脉冲循环模型中各层的权重,直至更新后的脉冲循环模型收敛。考虑到目前的视网膜假体中大多使用卷积神经网络预测视网膜神经节细胞的响应,但卷积神经网络在处理过程中采用浮点乘法,计算量庞大,需要消耗很大的能量,还缺乏生物相似性,而本申请将样本视频转换成脉冲信号,基于泊松损失、时间反向传播函数来迭代训练脉冲循环模型,模型训练过程科学严谨、效率高,训练出的脉冲循环模型工作时功耗很低,预测准确性较高,生物相似性较高,有效提升了视网膜假体的视觉感知能力。
另外,所述脉冲循环模型包括若干个脉冲层和若干个循环块,所述根据所述损失值和预设的时间反向传播函数,更新所述脉冲循环模型中各层的权重,包括:分别根据各循环块的输出值、所述损失值和预设的时间反向传播函数,更新所述各循环块的权重;分别根据各脉冲层的输出值、所述损失值、预设的时间反向传播函数、以及预设的梯度代理函数,更新各所述脉冲层的权重。脉冲层和循环块的设置,避免了使用浮点乘法运算,有效减少了功耗,各脉冲层均为低脉冲发射率,这也为降低功耗做出了很大贡献,但对于脉冲层中的神经元来说,各脉冲层的输出值不可微分,无法直接进行时间反向传播,因此需要利用代理梯度的方法来处理,即使用预设的梯度代理函数替换脉冲层中的神经元的赫维赛德函数。
另外,所述获取若干个脉冲信号作为训练样本,包括:遍历获取到的若干个样本视频,在预设的显示装置的显示屏上播放当前样本视频;将预设的事件相机对准所述显示屏,通过所述事件相机获取所述当前样本视频中场景的变化特征;在所述当前样本视频播放完成后,通过记录装置根据所述当前样本视频中场景的变化特征,生成所述当前样本视频对应的脉冲信号并保存;等待预设暂停时长后,在所述显示装置的显示屏上播放下一个样本视频。为了提升脉冲循环模型的训练效果,使用的训练样本必须贴近真实人眼的工作情况,也就是必须保证播放样本视频与收集脉冲信号之间的同步,基于这样的脉冲信号训练出的脉冲循环模型可以更准确地预测视网膜神经节细胞的响应,体现在视网膜假体上就是视觉感知的延迟更低。
另外,所述显示装置与所述记录装置之间通过TCP协议或IP协议保持通信。TCP协议或IP协议能够保证显示装置和记录装置之间的高效通信,进一步提升播放样本视频与收集脉冲信号之间的同步性。
另外,所述神经节细胞响应数据集通过以下步骤获得:重复播放若干次含有第一目标对象的标定视频;通过多电极阵列记录观看所述标定视频的第二目标对象的各神经节细胞的响应;基于每次播放所述标定视频时对应的所述各神经节细胞的响应,生成所述神经节细胞响应数据集;所述确定各所述神经节细胞各自对应的标签,包括:对于每一个所述神经节细胞,将若干次播放所述标定视频时对应的响应的平均值,作为所述神经节细胞对应的标签。
另外,在所述获取若干个脉冲信号作为训练样本之前,还包括:将所述事件相机的空间分辨率降低至预设的空间分辨率;在所述获取若干个脉冲信号作为训练样本之后,所述将所述脉冲信号输入至所述脉冲循环模型之前,还包括:基于预设的滤波算法对所述脉冲信号进行滤波,得到滤波后的脉冲信号;根据预设的划分标准将所述脉冲信号分解成若干个脉冲序列;所述将所述脉冲信号输入至所述脉冲循环模型,具体为:将所述脉冲序列输入至所述脉冲循环模型。为了提升脉冲循环模型的训练效果和训练效率,本申请对脉冲信号进行了一系列预处理,降低事件相机的空间分辨率可以避免去降低每个样本视频的分辨率,滤波可以有效去除环境噪声,将脉冲信号分解成脉冲序列可以提供更有效的特征,这些预处理均可以提升训练样本的质量。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定。
图1是一种AMD患者和RP患者的视力退行示意图;
图2是本申请的一个实施例中提供的模型训练方法的流程图;
图3是本申请的一个实施例中提供的一种脉冲循环模型的模型架构示意图;
图4是本申请的一个实施例中提供的另一种脉冲循环模型的模型架构示意图;
图5是本申请的一个实施例中提供的一种获取若干个脉冲信号作为训练样本的流程图;
图6是本申请的一个实施例中提供的一种显示装置和记录装置配合工作的示意图;
图7是本申请的另一个实施例中提供的视觉感知方法的流程图;
图8是本申请的另一个实施例提供的电子设备的结构示意图;
图9是本申请的另一个实施例中提供的一种正常的视网膜神经节神经元对于动态视频的动作电位响应的记录值与脉冲循环模型的预测值之间的脉冲序列和脉冲数量对比图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的各实施例进行详细的阐述。然而,本领域的普通技术人员可以理解,在本申请各实施例中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施例的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本申请的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
视网膜假体是帮助AMD患者和RP患者进行视觉感知的工具,其核心需求就是代替视锥和视杆细胞的功能。业内已实现的一种视网膜假体的原理是,利用相机来收集外部图像的信号,然后对该图像进行灰度化,对比增强,边缘提取,像素合并,然后得到最后的处理好的图片,以光刺激的方式传递给视网膜假体的植入者的视网膜最后一层的神经节细胞,供植入者的视网膜最后一层的神经节细胞进行视觉感知。但是这种视网膜假体实际上只起到了较好的简化图像的作用,并不能很好地代替视锥和视杆细胞的功能。
业内已实现的另一种视网膜假体的原理是,采用CMOS(Complementary MetalOxide Semiconductor,互补金属氧化物半导体)图像传感器来获取外部场景,并利用卷积神经网络来预测视网膜神经节细胞的响应,从而代替受损的视锥和视杆细胞的作用。然而,卷积神经网络的处理框架使用CMOS图像传感器记录外部场景,生成一系列图片帧,这一技术容易导致数据冗余。此外,卷积神经网络在处理过程中采用浮点乘法,这导致在处理过程中有很大的计算量,这需要消耗极大的能量,实际上并不完美适用于视网膜假体。同时,卷积神经网络的结构和浮点乘法运算缺乏生物相似性。
为了解决上述视网膜假体需要消耗很大的能量、缺乏生物相似性的技术问题,本申请的一个实施例提出了一种模型训练方法,适用于视网膜假体中的脉冲循环模型,所述脉冲循环模型用于预测神经节细胞的脉冲响应,可应用于电子设备,其中,电子设备可以为终端或服务器,本实施例以及以下各个实施例中电子设备以服务器为例进行说明。下面对本实施例的模型训练方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。
本实施例的模型训练方法的具体流程可以如图2所示,包括:
步骤101,基于预设的神经节细胞响应数据集,确定各神经节细胞各自对应的标签。
具体而言,由于视网膜假体中的脉冲循环模型用于预测神经节细胞的脉冲响应,因此在对脉冲循环模型进行训练时,首先要为各神经节细胞标注作为训练基准的标签,标注的标签用于表征各神经节细胞的真实响应。服务器可以基于预设的神经节细胞响应数据集,确定各神经节细胞各自对应的标签,其中,预设的神经节细胞响应数据集记录了各神经节细胞在对预设的视频下产生的响应。
在一个例子中,神经节细胞响应数据集可以是从互联网下载取用的公共数据集。
在一个例子中,服务器也可以先制作神经节细胞响应数据集,即重复播放若干次含有第一目标对象的标定视频,通过多电极阵列记录观看标定视频的第二目标对象的各神经节细胞的响应,基于每次播放标定视频时对应的各神经节细胞的响应,生成用于确定标签的神经节细胞响应数据集。在确定标签时,对于每一个神经节细胞,服务器将若干次播放标定视频时对应的所述神经节细胞的响应的平均值,作为所述神经节细胞对应的标签。
比如,标定视频的时长可以为1分钟,空间分辨率可以为360px×360px,标定视频的内容为一只小蝾螈(第一目标对象)在水中游泳,在播放标定视频时,使用多电极阵列记录实验参与者(第二目标对象)的各神经节细胞的真实响应,标定视频重复播放30次,这样对于每个神经节细胞而言都记录了30个真实响应,对每个神经节细胞取这30个真实响应的平均值作为该神经节细胞的标签。
步骤102,获取若干个脉冲信号作为训练样本。
在具体实现中,脉冲循环模型可以接收的输入是脉冲信号,服务器可以获取若干个脉冲信号作为训练样本,比如基于事件相机来将获取到的样本视频记录为脉冲信号,样本视频在显示屏上播放,事件相机则正对显示屏进行记录;再比如通过软件将样本视频或者样本图像转换成脉冲信号;又比如使用随机脉冲生成器生成脉冲信号。
在一些例子中,事件相机可以选用DVS(Dynamic Vision Sensor,动态视觉传感器)、ATIS(Asynchronous Time-Based Image Sensor,基于异步时间的图像传感器)、DAVIS(Dynamic and Active Pixel Vision Sensor,动态主动像素视觉传感器)等。
步骤103,将脉冲信号输入至脉冲循环模型,获取脉冲循环模型输出的各神经节细胞的脉冲响应,并根据各神经节细胞的脉冲响应、对应的各标签、以及的泊松损失函数,计算损失值。
具体而言,脉冲循环模型可以预测神经节细胞的脉冲响应,因此服务器将脉冲信号输入至脉冲循环模型后,可以获取到脉冲循环模型输出的各神经节细胞的脉冲响应,并根据各神经节细胞的脉冲响应、各神经节细胞对应的标签、以及的泊松损失函数,计算损失值。
在一个例子中,脉冲循环模型的模型架构可以如图3、图4所示,脉冲循环模型的模型架构包括输入层、依次连接的第一脉冲层、第二脉冲层和第三脉冲层、第一循环块、第二循环块、读出层和输出层,输入层分别与第一脉冲层和第一循环块连接,第一脉冲层还与第二循环块连接,读出层分别与第三脉冲层、第一循环块和第二循环块连接(三者可以通过一个加法器连接到读出层),输出层与读出层连接。如图4所示,每个脉冲层均由卷积层和LIF(leaky integrate and fire,神经元)组成,每个循环块均由卷积层和MP_LIF(membranepotential LIF,膜电位神经元)组成,第一脉冲层的神经元的数量大于第二脉冲层的神经元的数量,第二脉冲层的神经元的数量大于第三脉冲层的神经元的数量,第一循环块的膜电位神经元的数量与第二循环块的膜电位神经元的数量、第三脉冲层的神经元的数量相等。脉冲循环模型的脉冲层与循环块的设置,避免了使用浮点乘法运算,有效减少了功耗,各脉冲层均为低脉冲发射率,这也为降低功耗做出了很大贡献。
在一个例子中,第一脉冲层的卷积层的初始权重参数、第二脉冲层的卷积层的初始权重参数、第三脉冲层的卷积层的初始权重参数均为Conv32@25×25,第一脉冲层的神经元的数量为100352,第二脉冲层的神经元的数量为32768,第三脉冲层的神经元的数量为128,第一循环块的卷积层的初始权重参数为Conv2@30×30,第二循环块的卷积层的初始权重参数为Conv2@25×25,第一循环块的膜电位神经元的数量和第二循环块的膜电位神经元的数量均为128。
步骤104,根据所述损失值和预设的时间反向传播函数,更新脉冲循环模型中各层的权重,直至更新后的脉冲循环模型收敛。
具体而言,服务器在计算出损失值后,可以先基于计算出的损失值,根据预设的收敛标准,判断脉冲循环模型是否已经训练至收敛,若此时脉冲循环模型已经训练至收敛,则不需要进行下一次训练,进入模型发布流程即可,若此时脉冲循环模型还未训练至收敛,服务器则根据所述损失值和预设的时间反向传播函数,更新脉冲循环模型中各层的权重,进而继续对脉冲循环模型进行迭代训练,直至更新后的脉冲循环模型收敛。
在具体实现中,脉冲循环模型包括若干个脉冲层和若干个循环块,服务器可以分别根据各循环块的输出值、计算出的损失值和预设的时间反向传播函数,更新各循环块的权重,并分别根据各脉冲层的输出值、计算出的损失值、预设的时间反向传播函数、以及预设的梯度代理函数,更新各脉冲层的权重。对于各脉冲层中的神经元来说,脉冲层的输出值是不可微分的,无法直接进行时间反向传播,因此需要利用代理梯度的方法来处理,即使用预设的梯度代理函数替换脉冲层中的神经元的赫维赛德函数。
在一个例子中,服务器可以通过以下公式,分别各循环块的输出值、计算出的损失值和预设的时间反向传播函数,更新各循环块的权重:
式中,wk为第k个循环块的原权重,t为时间反向传播函数的时间参数,t可以由技术人员根据模型训练的实际需求进行设置,为时间t时第k个循环块中膜电位神经元的膜电位,/>为时间t时第k个循环块的输出值,Ltotal为损失值,Δwk为第k个循环块的更新后的权重。对于膜电位神经元而言,/>这类似于ANN(Artificial NeutralNetwork,人工神经网络)激活函数。
在一个例子中,服务器可以通过以下公式,分别根据各脉冲层的输出值、计算出的损失值、预设的时间反向传播函数、以及预设的梯度代理函数,更新各脉冲层的权重:
式中,wq为第q个脉冲层的原权重,为时间t时第q个脉冲层中神经元的膜电位,为时间t时第q个脉冲层的输出值,Δwq为第q个脉冲层的更新后的权重,H1(x)为预设的梯度代理函数,Vth为预设的膜电位阈值。
本实施例,视网膜假体使用脉冲循环模型来预测神经节细胞的脉冲响应,对视网膜假体中的脉冲循环模型进行训练时,先基于预设的神经节细胞响应数据集,确定各神经节细胞各自对应的标签,再获取若干个脉冲信号作为训练样本,随即将脉冲信号逐一输入至脉冲循环模型,获取脉冲循环模型输出的各神经节细胞的脉冲响应,并根据各神经节细胞的脉冲响应、各神经节细胞对应的标签、以及预设的泊松损失函数,计算损失值,最后根据计算出的损失值和预设的时间反向传播函数,更新脉冲循环模型中各层的权重,直至更新后的脉冲循环模型收敛。考虑到目前的视网膜假体中大多使用卷积神经网络预测视网膜神经节细胞的响应,但卷积神经网络在处理过程中采用浮点乘法,计算量庞大,需要消耗很大的能量,还缺乏生物相似性,而本申请将样本视频转换成脉冲信号,基于泊松损失、时间反向传播函数来迭代训练脉冲循环模型,模型训练过程科学严谨、效率高,训练出的脉冲循环模型工作时功耗很低,预测准确性较高,生物相似性较高,有效提升了视网膜假体的视觉感知能力。
在一个实施例中,服务器获取若干个脉冲信号作为训练样本,可以通过如图5所示的各子步骤实现,具体包括:
步骤201,遍历获取到的若干个样本视频,在预设的显示装置的显示屏上播放当前样本视频。
步骤202,将预设的事件相机对准显示屏,通过事件相机获取当前样本视频中场景的变化特征。
在具体实现中,服务器在获取到若干个样本视频后,可以遍历获取到的样本视频,在预设的显示装置的显示屏上播放当前样本视频。预设的事件相机一直对准预设的显示装置的显示屏,当前样本视频播放的同时,事件相机实时获取当前样本视频中场景的变化特征。
步骤203,在当前样本视频播放完成后,通过记录装置根据当前样本视频中场景的变化特征,生成当前样本视频对应的脉冲信号并保存。
步骤204,等待预设暂停时长后,在显示装置的显示屏上播放下一个样本视频。
在具体实现中,获取脉冲信号的过程由显示装置、记录装置和事件相机共同完成,显示装置负责播放样本视频的播放与切换,事件相机负责对准显示装置的显示屏获取正在播放的当前样本视频中场景的变化特征,记录装置负责根据事件相机获取的当前样本视频中场景的变化特征,生成当前样本视频对应的脉冲信号并保存。图6示出了显示装置和记录装置配合工作的示意图,在当前样本视频被记录装置记录为脉冲信号并保存后,显示装置切换下一个样本视频并等待预设暂停时长,在等待了预设暂停时长后,显示装置再在显示屏上播放刚才切换出的样本视频,记录装置随即进行记录。其中,预设暂停时长可设置为1000ms,显示装置与记录装置之间通过TCP协议或IP协议保持通信。TCP协议或IP协议能够保证显示装置和记录装置之间的高效通信,进一步提升播放样本视频与收集脉冲信号之间的同步性。
本实施例,考虑到为了提升脉冲循环模型的训练效果,使用的训练样本必须贴近真实人眼的工作情况,也就是必须保证播放样本视频与收集脉冲信号之间的同步,基于这样的脉冲信号训练出的脉冲循环模型可以更准确地预测视网膜神经节细胞的响应,体现在视网膜假体上就是视觉感知的延迟更低。
在一个实施例中,服务器在获取若干个脉冲信号作为训练样本之前,可以将事件相机的空间分辨率降低至预设的空间分辨率。服务器在获取若干个脉冲信号作为训练样本之后,在将脉冲信号输入至脉冲循环模型之前,可以基于预设的滤波算法对脉冲信号进行滤波,得到滤波后的脉冲信号,根据预设的划分标准将脉冲信号分解成若干个脉冲序列,再将脉冲序列输入至脉冲循环模型。考虑到为了提升脉冲循环模型的训练效果和训练效率,本实施例对脉冲信号进行了一系列预处理,降低事件相机的空间分辨率可以避免去降低每个样本视频的分辨率,滤波可以有效去除环境噪声,将脉冲信号分解成脉冲序列可以提供更有效的特征,这些预处理均可以提升训练样本的质量。
本申请的另一个实施例涉及一种视觉感知方法,适用于视网膜假体,所述视网膜假体中设置有如上述实施例所述的脉冲循环模型,所述脉冲循环模型用于预测神经节细胞的脉冲响应,下面对本实施例的视觉感知方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。本实施例的视觉感知方法的具体流程可以如图7所示,包括:
步骤301,捕获目标视频,并将目标视频记录为真实脉冲信号。
步骤302,将真实脉冲信号输入至脉冲循环模型,获取脉冲循环模型输出的各神经节细胞的脉冲响应。
步骤303,将各神经节细胞的脉冲响应以光刺激的方式,传递给视网膜假体的植入者的视网膜最后一层的神经节细胞,供植入者的视网膜最后一层的神经节细胞进行视觉感知。
在具体实现中,视网膜假体中设置有一枚或多枚事件相机,事件相机可以对目标场景进行拍摄以捕获目标视频,视网膜假体将目标视频记录为真实脉冲信号,再将真实脉冲信号输入至脉冲循环模型,获取脉冲循环模型输出的各神经节细胞的脉冲响应,最后将神经节细胞的脉冲响应以光刺激的方式,传递给视网膜假体的植入者的视网膜最后一层的神经节细胞,供植入者的视网膜最后一层的神经节细胞进行视觉感知。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本申请另一个实施例涉及一种电子设备,如图8所示,包括:至少一个处理器401;以及,与所述至少一个处理器401通信连接的存储器402;其中,所述存储器402存储有可被所述至少一个处理器401执行的指令,所述指令被所述至少一个处理器401执行,以使所述至少一个处理器401能够执行上述各实施例中的模型训练方法,或能够执行上述各实施例中的视觉感知方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本申请另一个实施例涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,简称:ROM)、随机存取存储器(Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
下面在另一个实施例中,介绍脉冲循环模型的性能验证结果。
图9示出了正常的视网膜神经节对于动态视频的动作电位响应的记录值与脉冲循环模型的预测值之间的脉冲序列和脉冲数量的对比。图9中的Data是记录的正常的视网膜神经节细胞对于外部动态场景的动作电位响应。图9中的CRNN代表着卷积神经网络对于神经节细胞的拟合效果。图9中的SRNN则表示脉冲循环处理算法在神经节细胞响应的规律上的拟合效果。矩形内的脉冲序列是利用泊松分布根据SRNN模型预测出的动作电位数量生成的,该脉冲生成方法是一种科学的预测连续时间段内脉冲发生时间和数量的方法。此外,矩形内的脉冲序列是上述过程重复十次得到的结果,该重复过程可以有效避免随机性,其他脉冲序列也是相同的方法得到。通过对比脉冲序列和脉冲数量可以看出,SRNN模型的脉冲序列能够很好地拟合脉冲发放率较高的神经元的响应行为,略好于CRNN模型。两个模型在脉冲发放率较低的神经元上的表现都很有限。底部栏展示了脉冲数的比较,证明了SRNN模型预测值与实验记录值之间具有高度相似性,相比之下,CRNN模型在拟合脉冲发放率较低的神经元上表现不佳。综上,脉冲循环模型可以很好地代替视网膜的处理功能,并且被应用于视觉假体中。
本领域的普通技术人员可以理解,上述各实施例是实现本申请的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。
Claims (10)
1.一种模型训练方法,适用于视网膜假体中的脉冲循环模型,所述脉冲循环模型用于预测神经节细胞的脉冲响应,其特征在于,包括:
基于预设的神经节细胞响应数据集,确定各所述神经节细胞各自对应的标签;
获取若干个脉冲信号作为训练样本;将所述脉冲信号输入至所述脉冲循环模型,获取所述脉冲循环模型输出的各所述神经节细胞的脉冲响应,并根据各所述神经节细胞的脉冲响应、对应的各所述标签、以及预设的泊松损失函数,计算损失值;
根据所述损失值和预设的时间反向传播函数,更新所述脉冲循环模型中各层的权重,直至更新后的所述脉冲循环模型收敛。
2.根据权利要求1所述的模型训练方法,其特征在于,所述脉冲循环模型包括若干个脉冲层和若干个循环块,所述根据所述损失值和预设的时间反向传播函数,更新所述脉冲循环模型中各层的权重,包括:
分别根据各循环块的输出值、所述损失值和预设的时间反向传播函数,更新所述各循环块的权重;
分别根据各脉冲层的输出值、所述损失值、预设的时间反向传播函数、以及预设的梯度代理函数,更新各所述脉冲层的权重。
3.根据权利要求2所述的模型训练方法,其特征在于,通过以下公式,分别根据各循环块的输出值、所述损失值和预设的时间反向传播函数,更新所述各循环块的权重:
其中,wk为第k个循环块的原权重,t为所述时间反向传播函数的时间参数,为时间t时第k个循环块中所述膜电位神经元的膜电位,/>为时间t时第k个循环块的输出值,Ltotal为所述损失值,Δwk为第k个循环块的更新后的权重;
通过以下公式,分别根据各脉冲层的输出值、所述损失值、预设的时间反向传播函数、以及预设的梯度代理函数,更新各所述脉冲层的权重:
其中,wq为第q个脉冲层的原权重,为时间t时第q个脉冲层中所述神经元的膜电位,为时间t时第q个脉冲层的输出值,Δwq为第q个脉冲层的更新后的权重,H1(x)为所述预设的梯度代理函数,Vth为预设的膜电位阈值。
4.根据权利要求1至3中任一项所述的模型训练方法,其特征在于,所述获取若干个脉冲信号作为训练样本,包括:
遍历获取到的若干个样本视频,在预设的显示装置的显示屏上播放当前样本视频;
将预设的事件相机对准所述显示屏,通过所述事件相机获取所述当前样本视频中场景的变化特征;
在所述当前样本视频播放完成后,通过记录装置根据所述当前样本视频中场景的变化特征,生成所述当前样本视频对应的脉冲信号并保存;
等待预设暂停时长后,在所述显示装置的显示屏上播放下一个样本视频。
5.根据权利要求4所述的模型训练方法,其特征在于,所述显示装置与所述记录装置之间通过TCP协议或IP协议保持通信。
6.根据权利要求1至3中任一项所述的模型训练方法,其特征在于,所述神经节细胞响应数据集通过以下步骤获得:
重复播放若干次含有第一目标对象的标定视频;
通过多电极阵列记录观看所述标定视频的第二目标对象的各神经节细胞的响应;
基于每次播放所述标定视频时对应的所述各神经节细胞的响应,生成所述神经节细胞响应数据集;
所述确定各所述神经节细胞各自对应的标签,包括:
对于每一个所述神经节细胞,将若干次播放所述标定视频时对应的响应的平均值,作为所述神经节细胞对应的标签。
7.根据权利要求4所述的模型训练方法,其特征在于,在所述获取若干个脉冲信号作为训练样本之前,还包括:
将所述事件相机的空间分辨率降低至预设的空间分辨率;
在所述获取若干个脉冲信号作为训练样本之后,所述将所述脉冲信号输入至所述脉冲循环模型之前,还包括:
基于预设的滤波算法对所述脉冲信号进行滤波,得到滤波后的脉冲信号;
根据预设的划分标准将所述脉冲信号分解成若干个脉冲序列;
所述将所述脉冲信号输入至所述脉冲循环模型,具体为:将所述脉冲序列输入至所述脉冲循环模型。
8.一种视觉感知方法,适用于视网膜假体,所述视网膜假体中设置有如权利要求1至7中任一项所述的脉冲循环模型,所述脉冲循环模型用于预测神经节细胞的脉冲响应,其特征在于,包括:
捕获目标视频,并将所述目标视频记录为真实脉冲信号;
将所述真实脉冲信号输入至所述脉冲循环模型,获取所述脉冲循环模型输出的各所述神经节细胞的脉冲响应;
将各所述神经节细胞的脉冲响应以光刺激的方式,传递给所述视网膜假体的植入者的视网膜最后一层的神经节细胞,供所述植入者的视网膜最后一层的神经节细胞进行视觉感知。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的模型训练方法,或者能够执行如权利要求8所述的视觉感知方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的模型训练方法,或者实现权利要求8所述的视觉感知方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310486675.0A CN116502681A (zh) | 2023-04-28 | 2023-04-28 | 模型训练方法、视觉感知方法、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310486675.0A CN116502681A (zh) | 2023-04-28 | 2023-04-28 | 模型训练方法、视觉感知方法、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116502681A true CN116502681A (zh) | 2023-07-28 |
Family
ID=87321313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310486675.0A Pending CN116502681A (zh) | 2023-04-28 | 2023-04-28 | 模型训练方法、视觉感知方法、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116502681A (zh) |
-
2023
- 2023-04-28 CN CN202310486675.0A patent/CN116502681A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6068446B2 (ja) | 視覚を補助する装置を制御するための方法および装置 | |
Zhu et al. | Retina-like visual image reconstruction via spiking neural model | |
US11631246B2 (en) | Method for outputting a signal from an event-based sensor, and event-based sensor using such method | |
CN106845634A (zh) | 一种基于忆阻器件的神经元电路 | |
CN108445751B (zh) | 融合递归图与深度学习的多目标ssvep意念控制法及应用 | |
CN106137532B (zh) | 一种图像处理方法 | |
Jing et al. | Turning frequency to resolution: Video super-resolution via event cameras | |
CN109801221A (zh) | 生成对抗网络的训练方法、图像处理方法、装置和存储介质 | |
CN108111860A (zh) | 基于深度残差网络的视频序列丢失帧预测恢复方法 | |
TW201543382A (zh) | 神經網路對當前計算資源的自我調整 | |
CN107169958B (zh) | 机器学习、背景抑制与感知正反馈相结合的视觉显著性检测方法 | |
WO2022165873A1 (zh) | 一种仿视网膜中央凹与外周的联合采样方法及装置 | |
CN115115510A (zh) | 一种图像处理方法、系统及存储介质和终端设备 | |
CN116502681A (zh) | 模型训练方法、视觉感知方法、电子设备和存储介质 | |
CN112184555A (zh) | 一种基于深度交互学习的立体图像超分辨率重建方法 | |
WO2023083121A1 (zh) | 去噪方法和相关设备 | |
Zhao et al. | Spike camera image reconstruction using deep spiking neural networks | |
CN114584675A (zh) | 一种自适应视频增强方法和装置 | |
Fan et al. | Image quality evaluation of Sanda sports video based on BP neural network perception | |
Hayashida et al. | Retinal circuit emulator with spatiotemporal spike outputs at millisecond resolution in response to visual events | |
Palmieri et al. | The transfer function of neuron spike | |
CN117282029B (zh) | 脊髓电刺激参数调整方法、骨植入式电刺激装置和介质 | |
CN116440407A (zh) | 脉冲刺激方法、装置、电子设备和存储介质 | |
Santos et al. | A Model for the Diffusive Filling-In Algorithm Operating in Spike Mode | |
EP3941572A1 (en) | Systems and methods for artificial sight prosthetics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |