CN113888745A

CN113888745A - 基于多模态特征的视网膜编码器构建方法、设备、终端

Info

Publication number: CN113888745A
Application number: CN202110999519.5A
Authority: CN
Inventors: 安玲玲; 严圳; 刘毅奔; 岳佳豪; 张星雨; 王泉
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-08-29
Filing date: 2021-08-29
Publication date: 2022-01-04

Abstract

本发明属于计算机应用领域，公开了一种基于多模态特征的视网膜编码器构建方法、设备、终端，所述基于多模态特征的视网膜编码器的构建方法包括：提取并量化输入视频的多模态刺激特征；利用具有多维时间域特征的基函数对特征序列编码，获得计算单元的外部输入刺激矩阵；通过级联线性‑非线性计算单元训练得到能适应复杂环境的非线性视网膜编码器。为比较分析本发明提出的基于多模态特征的视网膜编码器的实际表现，本发明选取了部分神经元，分别计算编码器预测输出与目标值的似然函数值和互相关系数进行比较。结果表明本发明提出的视网膜编码器相比其他方法在似然函数及互相关系数上性能均显著提升。

Description

基于多模态特征的视网膜编码器构建方法、设备、终端

技术领域

本发明属于计算机应用技术领域，具体是一种基于多模态特征的视网膜编码器构建方法、设备、终端。

背景技术

目前，视网膜编码器器作为编码视觉信号的一种方法，以模拟视网膜神经节细胞特性为目标，利用非线性计算将多模态视觉刺激编码成一系列尖峰放电序列。视网膜编码器的研究不仅能够加深对于视网膜中非线性计算的理解，而且能为计算机视网膜编码的轻量化提供理论基础。

虽然现存多种视网膜编码方法，但现有方法存在如下问题：基于生物结构的视网膜编码方法通过复杂电路来模拟视网膜内部生物特性，其复杂的连接与大量的计算使该方法仅适用于学术研究，无法用于解决实际问题；基于线性非线性模型、广义线性模型的视网膜编码模型以多输入、单输出结构的神经元为基础的视网膜编码器方法，其简单的结构与计算模式使该类模型体积较小，计算较快，但是该类方法大量简化视网膜生物结构，导致其无法模拟视网膜内复杂的非线性计算；基于卷积神经网络的视网膜编码模型凭借其局部连接、权值共享、多层网络的特点能较好重现神经节细胞在白噪声等人工刺激下产生的尖峰放电序列，但该方法计算量较大，无法应用于计算能力较弱的终端中。因此，亟需一种新的视网膜编码器实现方法。

通过上述分析，现有技术存在的问题及缺陷为：

(1)现有基于生物结构的视网膜编码方法通过复杂电路来模拟视网膜内部生物特性，结构复杂，实用性不强，无法用于解决实际问题。

(2)现有基于线性非线性模型、广义线性模型的视网膜编码模型大量简化视网膜生物结构，导致其无法模拟视网膜内复杂的非线性计算。

(3)现有基于卷积神经网络的视网膜编码模型计算量较大，无法应用于计算能力较弱的终端中。

解决以上问题及缺陷的难度为：基于生物结构的视网膜编码器模型通过大量仿生电路来模拟视网膜对光照刺激的响应，如何去除冗余的网络结构、简化复杂的计算是研究的一个难点；基于卷积神经网络的视网膜编码模型凭借卷积操作能有效提取输入白噪声视频的特征，但是卷积操作的引入导致计算量增加，如何降低计算量是另一个难点。

解决以上问题及缺陷的意义为：视网膜编码器实现方法不仅加深学者对于视网膜中非线性计算的理解，而且为计算机视网膜编码的轻量化提供理论基础。

发明内容

针对现有技术存在的问题，本发明提供了一种基于多模态特征的视网膜编码器实现方法。

本发明是这样实现的，一种基于多模态特征的视网膜编码器的构建方法，所述基于多模态特征的视网膜编码器的构建方法包括以下步骤：

步骤一，提取输入视频的多模态刺激特征；

步骤二，利用具有瞬时极值和持续效应特征的基函数对特征序列编码，获得对视网膜神经节细胞的外部输入刺激矩阵；

步骤三，通过非线性计算单元训练得到能适应复杂环境的多模态刺激输入非线性视网膜编码器。

进一步，步骤一中，所述提取输入视频的多模态刺激特征，包括：

(1)提取输入视频中感受野范围内的视觉输入，获得目标神经元在视频时间内的光照刺激序列，对神经元i的光照刺激的输入强度计算如下：

其中，V(x,y,t)表示输入视频在(x,y,t)点的光照强度，x,y分别表示视频上某一帧的空间位置坐标，t表示视频帧数；

(2)基于获得的神经节i的输入光照刺激

提取视频的光照强度瞬时变化刺激序列

公式如下：

(3)对视频进行三维高斯模糊，每个像素点都经其在空间上附近的点像素值与前后几帧画面间的像素值按三维高斯模糊后计算获得，公式如下：

(4)取目标像素点附近三维空间中一定范围内的数值，根据正态分布密度决定权重系数而相乘获得目标位置的处理后像素值，得到神经元的两帧画面运动输入刺激

公式如下：

进一步，步骤二中，所述利用具有瞬时极值和持续效应特征的基函数对特征序列编码，获得对视网膜神经节细胞的外部输入刺激矩阵，包括：

(1)构建用于快速提取视频资料在时间域和空间域的多模态视觉时空刺激输入矩阵，公式如下：

其中，

表示通过第i种方法构建的刺激基矩阵；通过选择适合应用情景的特征提取方法序列，提取出目标任务所关注的视觉时空特征；

(2)构建刺激基矩阵，公式如下：

其中，

表示神经元i对输入视频资料中提取的第k种刺激特征。

进一步，步骤三中，所述通过非线性计算模型单元训练得到能适应复杂环境的多模态刺激输入非线性视网膜编码器，包括：

(1)建立非线性视网膜编码器模型；

(2)提出模型的优化方案。

进一步，步骤(1)中，所述建立非线性视网膜编码器，包括：

1)利用不同特征权向量对输入刺激进行线性计算以获得其中所包含的对应特征；

2)利用一对线性-非线性的上游滤波器对输入刺激矩阵分别计算其输入的兴奋-抑制性输入；

3)根据脉冲非线性函数对上游特征进行整合激活，从而获得神经元针对输入刺激而引起的激发速率。

进一步，步骤(1)中，所述建立非线性视网膜编码器，还包括：

其中，k_i是对特征矩阵X_stim的第i种线性选择滤波器，f_i(·)和ω_i是该特征对应的上游非线性函数和权重系数，x(t)表示神经元内部的额外因子，h是作用在x上的线性滤波器。

进一步，步骤(2)中，所述提出视网膜编码器模型的优化方案，包括：

1)在该模型中，固定ω_i为±1，对线性滤波器组{k_i}的优化通过计算似然函数对各个滤波器k_i的梯度得到：

其中，

F′[·]和f_i′(·)分别是F[·]和f_i(·)的导函数；Stim_m(t)是输入刺激矩阵中的第m列在t时刻的值；

2)在所述线性滤波被确定后，上游非线性的优化通过无参数的方式进行；利用一组分段线性基底将非线性函数f_i(·)表示为

分段线性基

表示为如下形式：

该分段线性基函数计算只需要基于对格点x_k的确定即可提供足够的上游非线性；参考f_i(·)的参数分布进行格点的选择，即p(g_i(t))，其中g(t)＝k_i·s(t)，p表示取g_i(t)的n分位数，或者函数值空间中的n等分点；同时，使用线性约束a_ij以保证非线性函数f_i(·)是单调递增的，使模型输出结果保持对神经输入的可解释性；

3)针对脉冲非线性函数F(·)，使用下式进行控制计算：

F(x)＝αlog[1+exp(β(G(t)-γ))]；

其中，α控制F(·)尺度，β控制曲线形状，γ是平移控制项，该函数保证其函数值在参数空间内是凸函数；对α、β、γ进行梯度下降法计算从而实现F(·)的优化；

4)根据获得的神经元发射速率曲线，利用随机泊松过程生成视网膜编码器方法的模拟神经元针对输入刺激的随机脉冲序列输出。

本发明的另一目的在于提供一种应用所述的基于多模态特征的视网膜编码器的构建方法构建得到的视网膜编码器。该视网膜编码器相比于其他视网膜编码器可以更准确的模拟视网膜在自然场景输入下产生的尖峰放电序列，实现基于硬件计算的对视网膜神经节细胞对输入视频信号编码的模拟。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

(1)提取输入视频的多模态刺激特征；

(2)利用具有瞬时极值和持续效应特征的基函数对特征序列编码，获得对视网膜神经节细胞的外部输入刺激矩阵；

(3)通过非线性模型训练得到能适应复杂环境的多模态刺激输入非线性视网膜编码器。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的基于多模态特征的视网膜编码器。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：为比较分析本发明提出的基于多模态特征的视网膜编码器的实际表现，本发明选取了部分神经元，分别计算其预测输出与目标值的似然函数值和互相关系数进行比较。从图4中可以看出，本发明提出的视网膜编码器模型相比其他模型在似然函数及互相关系数上性能均显著提升。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于多模态特征的视网膜编码器的构建方法流程图。

图2是本发明实施例提供的基于多模态特征的视网膜编码器的构建方法原理图。

图3是本发明实施例提供的不同类型基矩阵对输入视频刺激的编码过程示意图。

图4是本发明实施例提供的实际效果对比实验示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于多模态特征的视网膜编码器的构建方法，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的基于多模态特征的视网膜编码器的构建方法包括以下步骤：

S101，提取输入视频的多模态刺激特征；

S102，利用具有瞬时极值和持续效应特征的基函数对特征序列编码，获得对视网膜神经节细胞的外部输入刺激矩阵；

S103，通过非线性模型训练得到能适应复杂环境的多模态刺激输入非线性视网膜编码器。

本发明实施例提供的基于多模态特征的视网膜编码器的构建方法原理图如图2所示。

下面结合实施例对本发明的技术方案作进一步描述。

步骤1：提取对神经节细胞的外部输入特征；

步骤2：利用具有瞬时极值和持续时间效应特征的基函数对外部多模态特征编码，获得对视网膜神经节细胞的外部输入刺激矩阵；

步骤3：通过非线性模型训练得到非线性视网膜编码器计算单元中的参数，构建基于神经节细胞刺激处理机制的视网膜编码器。

在具体实施时，提取外部输入特征的步骤如下：

(1)提取输入视频中感受野范围内的视觉输入，获得目标神经元在视频时间内的光照刺激序列。对神经元i，其光照刺激的输入强度计算如下：

其中，V(x,y,t)表示输入视频在(x,y,t)点的光照强度，x,y分别表示视频上某一帧的空间位置坐标，t表示视频帧数。实验中视频尺寸大小为360*360，共包含1600帧视频图像。

(2)基于获得的神经节i的输入光照刺激

进一步提取视频的光照强度瞬时变化刺激序列

公式如下：

(4)取目标像素点附近三维空间中一定范围内的数值，根据正态分布密度决定权重系数而相乘获得目标位置的处理后像素值。最后得到神经元的两帧画面运动输入刺激

公式如下：

步骤2中计算获得对视网膜神经节细胞的外部输入刺激矩阵的具体步骤如下：

(1)应用图3中不同时空特征的基函数对输入刺激特征序列编码，不同特征的刺激效应通过基函数类型和基函数形态参数控制，公式如下：

其中，

表示神经元i对输入视频资料中提取的第k种刺激特征，bs(·)表示基函数构建函数，s,d,nb分别控制刺激基函数形态、持续时间和刺激基序列数量。

(2)将多种刺激对应的编码刺激基函数组合成为针对目标计算神经元的多模态刺激输入外部矩阵X_stim：

最后，步骤3中对本发明中的视网膜编码器模型训练过程步骤如下：

(1)建立非线性视网膜编码模型，步骤如下：

1)通过一组滤波器向量提取输入的多模态外部刺激矩阵中包含的刺激信息以获得对计算神经元模型的刺激输入；

2)利用一对平行的线性-非线性上游滤波器分别提取输入刺激中的“兴奋-抑制”信号，并引入线性控制项整合额外信息以获得对神经元当前时刻的激发状态；

3)利用下游的脉冲非线性单元激活上游获得的激发状态信息以获得神经元对目标输入的激发速率曲线r(t)，并通过一定的泊松过程生成随机脉冲输出。

以上过程可表示为下式：

其中，{k_i}是对特征矩阵X_stim的滤波器组，f_i(·)和ω_i是该特征对应的上游非线性函数和权重系数，x(t)表示神经元内部的额外因子，如历史激发信息，h是作用在x上的线性滤波器。

(2)对提出模型的优化方案，步骤如下：

1)对线性滤波器组{k_i}的优化可以通过计算似然函数对各个滤波器{k_i}的梯度得到：

其中，G(t)＝∑_ig_i(t)＝∑_iw_if_i(k_i·s(t))，F′[·]和f_i′(·)分别是F[·]和f_i(·)的导函数。Stim_m(t)是输入刺激矩阵中的第m列在t时刻的值。

2)在该模型中，本发明固定ω_i为±1，在前一步骤中的线性滤波器组{k_i}被确定后，后续的非线性计算优化可以通过一种无参数的方式进行。本发明利用一组分段线性基底将非线性函数f_i(·)表示为

分段线性基

可以表示为如下形式：

该分段线性基函数计算只需要基于对格点x_k的确定即可提供足够的上游非线性。对这些格点的选择可以参考f_i(·)的参数分布来选择，也就是p(g_i(t))，其中g(t)＝k_i·s(t)，p表示取g_i(t)的n分位数，或者函数值空间中的n等分点。同时，为了使本发明的模型具有对神经输入的可解释性，本发明使用线性约束a_ij以保证非线性函数f_i(·)是单调递增的。

3)针对脉冲非线性函数F[·]，本发明使用下式进行控制计算：

F(x)＝αlog[1+exp(β(G(t)-γ))]

其中，α控制F[·]尺度，β控制曲线形状，γ是平移控制项，该函数保证了其函数值在参数空间内是凸函数。通过对α、β、γ进行梯度下降法计算更新实现F[·]的优化。

最后，根据获得的神经元发射速率曲线，利用随机泊松过程生成视网膜编码器神经元针对输入刺激的随机脉冲序列输出。

如图4所示，为比较分析本发明提出的基于多模态特征的视网膜编码器的实际表现。本发明选取了部分神经元，分别计算其预测输出与目标值的似然函数值和互相关系数进行比较。从图4中可以看出，本发明提出的视网膜编码器相比其他模型在似然函数及互相关系数上性能均显著提升。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多模态特征的视网膜编码器的实现方法，其特征在于，首先提取输入视频的多模态刺激特征；然后利用具有多维时间域效应特征的基函数对特征序列编码，获得对视网膜神经节细胞的外部输入刺激矩阵；最后通过线性-非线性计算单元训练得到能适应复杂环境的多模态刺激输入非线性视网膜编码器。

2.如权利要求1所述的基于多模态特征的视网膜编码器实现方法，其特征在于，所述提取输入视频的多模态刺激特征，包括：

其中，V(x,y,t)表示输入视频在(x,y,t)点的光照强度，x,y分别表示视频上某一帧的空间位置坐标，实验中视频尺寸为360*360；t表示视频帧数，实验视频共包含1600帧图像；

(2)基于获得的神经节i的输入光照刺激

提取视频的光照强度瞬时变化刺激序列

公式如下：

公式如下：

3.如权利要求1所述的基于多模态特征的视网膜编码器的实现方法，其特征在于，所述利用具有瞬时极值和持续效应特征的基函数对特征序列编码，获得对视网膜神经节细胞的外部输入刺激矩阵，包括：

其中，

(2)构建刺激基矩阵，公式如下：

其中，

表示神经元i对输入视频资料中提取的第k种刺激特征。

4.如权利要求1所述的基于多模态特征的视网膜编码器的实现方法，其特征在于，所述通过线性-非线性计算单元训练得到能适应复杂环境的多模态输入非线性视网膜编码器，包括：

(1)建立非线性视网膜编码模型；

(2)提出模型的优化方案。

5.如权利要求4所述的基于多模态特征的视网膜编码器的构建方法，其特征在于，步骤(1)中，所述建立非线性视网膜编码器，包括：

6.如权利要求4所述的基于多模态特征的视网膜编码器的构建方法，其特征在于，步骤(1)中，所述建立非线性视网膜编码模型，还包括：

7.如权利要求4所述的基于多模态特征的视网膜编码器的构建方法，其特征在于，步骤(2)中，所述提出视网膜编码器模型的优化方案，包括：

其中，G(t)＝∑_ig_i(t)＝∑_iw_if_i(k_i·s(t))，F′[·]和f_i′(·)分别是F[·]和f_i(·)的导函数；Stim_m(t)是输入刺激矩阵中的第m列在t时刻的值；

分段线性基

表示为如下形式：

该分段线性基函数计算只需要基于对格点x_k的确定即可提供足够的上游非线性；参考f_i(·)的参数分布进行格点的选择，即p(g_i(t))，其中g(t)＝k_i·s(t)，p表示取g_i(t)的n分位数，或者函数值空间中的n等分点；同时，使用线性约束a_ij以保证非线性函数f_i(·)是单调递增的，使模型具有对神经输入的可解释性；

3)针对脉冲非线性函数F(·)，使用下式进行控制计算：

F(x)＝αlog[1+exp(β(G(t)-γ))]；

其中，α控制F[·]尺度，β控制曲线形状，γ是平移控制项，该函数保证其函数值在参数空间内是凸函数；对α、β、γ进行梯度下降法计算从而实现F[·]的优化；

4)根据获得的神经元发射速率曲线，利用随机泊松过程生成视网膜编码器神经元针对输入刺激的随机脉冲序列输出。

8.一种实施如权利要求1～7任意一项所述的基于多模态特征的视网膜编码器的构建方法构建得到的视网膜编码器。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

(1)提取输入视频的多模态刺激特征；

(3)通过非线性模型训练得到能适应复杂环境的基于多模态特征的视网膜编码器。

10.一种编码视觉信号的信息数据处理终端，其特征在于，所述编码视觉信号的信息数据处理终端用于实现如权利要求8所述的基于多模态特征的视网膜编码器。