CN108573512A

CN108573512A - 一种基于深度编解码对偶模型的复杂视觉图像重构方法

Info

Publication number: CN108573512A
Application number: CN201810233579.4A
Authority: CN
Inventors: 陈华富; 黄伟; 王冲; 颜红梅; 杨晓青; 杨天; 刘秩铭
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2018-09-25
Anticipated expiration: 2038-03-21
Also published as: CN108573512B

Abstract

本发明公开了一种基于深度编解码对偶模型的复杂视觉图像重构方法，属于生物医学图像脑解码中的视觉场景重构技术领域。本发明首先采集观看大量自然图像下的功能磁共振信号。然后分别建立四个网络模型：1、编码模型，即使用卷积神经网络将自然图像编码成视觉区的体素信号；2、解码模型，即是用卷积神经网络以及反卷积神经网络将视觉区体素信号解码成自然图像；3、判别自然图像模型，即判断真图像与假图像；4、判别视觉区响应模型，即判断真信号与假信号。通过训练设计好的四个模型，可实现从脑信号中还原出视觉场景图像。本发明首次解决了自然场景与脑信号之间直接相互转换的问题，可以实现脑机接口场景的实际应用。

Description

一种基于深度编解码对偶模型的复杂视觉图像重构方法

技术领域

本方法属于生物医学图像脑解码中的视觉场景重构技术领域，具体涉及功能磁共振图像的自然图像重构模型的框架搭建。

背景技术

2008年，Miyawaki等人让被试观看很多闪烁的棋盘格刺激图片，并记录这些刺激在早期视皮层(V1/V2/V3)的BOLD信号响应，使用多体素模式分析(Multi-voxel patternclassification,MVPA)方法，建立了多尺度稀疏多项式逻辑回归(SMLR)局部解码器模型，第一次实现了不受限于候选视觉刺激类别的脑信号视觉图像重建，重构出了简单的几何图像和字母刺激，这项研究提供了一种全新的解读大脑视觉感知状态的思路。但是，Miyawaki等人的方法只能重构出简单图像，且重构出的图像准确率较低，噪声比较大，重构时间比较长。Zhan和Song等人在Miyawaki的研究基础上，提出了基于支持向量机和贝叶斯分类器的重构方法，并采用独立成份分析方法提高特征提取的效率，在一定程度上提高了重构效率。2009年，Naselaris等人利用自然图像的结构信息和语义信息等，用早期视皮层和视前区的fMRI信号响应，构建了一个基于贝叶斯的重构模型，尝试了自然图像的脑信息重构。2011年，Nishimoto等人记录分析了受试者观看自然视频图像时枕颞叶的BOLD信号响应模式，发现早期视皮层动态脑活动响应模式可以用来编码动态视频信息类型，估计了视频图像的时空运动-能量编码模型并在此基础上构建了一种基于贝叶斯的解码模型，重构出了受试者所感知到的视频图像的主要信息。Cowen等人利用主成分分析方法将人类面孔刺激转换到“特征脸”空间，然后建立新的特征与fMRI信号之间的关系，第一次实现了对人类面孔刺激的重构。然而，已有的重构方法和技术普遍存在准确率较低和噪声较大的问题，特别是在统计结构较为复杂的自然图像的重构问题上还存在很大缺陷。发展高效的脑信号解码模式识别方法，充分利用视觉认知过程中脑响应的动态过程，更准确地模拟视觉刺激和脑响应间的映射关系，是提高视觉图像重构质量的关键。

发明内容

本发明针对背景技术的不足之处，解决重构出的图像准确率较低，噪声比较大，重构时间比较长的问题，在前人研究基础上改进设计出一种基于深度编解码对偶模型的复杂视觉图像重构方法。

本发明在前人研究基础上结合深度学习方法，建立了基于深度编解码对偶模型的脑信息解码模型，对复杂自然图像进行了视觉重构，从而实现发明目的。因而本发明技术方案为一种基于深度编解码对偶模型的复杂视觉图像重构方法，该方法为采用训练数据对编码器G₁；解码器G₂；判别图像器D₁；判别视觉区响应器D₂进行训练；

1.所述编码器G₁的作用为将刺激图像转换为视觉区响应信号，编码器G₁的编码方法为：

步骤1.1：对刺激图像进行补零操作；对补领后的数据一次进行三次运算，每次运算包含卷积、批量标准化、修正线性单元非线性函数三种操作；

步骤1.2：将步骤1.1得到的数据进行9次残差操作，每次残差操作不改变数据的大小和厚度；

步骤1.3：将步骤1.2得到的数据依次进行5次运算，每次运算包含卷积、批量标准化、修正线性单元非线性函数三种操作；然后进行reshape操作调整数据的维度，最后使用全链接网络得到与视觉区域信号维度相同的数据；

2.所述解码器G₂的作用为将视觉区响应信号转换为刺激图像，解码器G₂的解码方法为：

步骤2.1：对视觉区信号数据进行全连接操作，然后进行reshape操作，修改数据维度，再进行五次运算，每次运算包含卷积、批量标准化、修正线性单元非线性函数三种操作；步骤2.2：将步骤2.1得到的数据进行9次残差操作；每次残差操作不改变数据的大小和厚度；

步骤2.3：将步骤2.2得到的数据进行2次运算，每一次运算包含反卷积、批量标准化、修正线性单元非线性函数三种操作；然后进行补零操作；最后依次进行一次卷积、批量标准化、修正线性单元非线性函数三种操作，得到数据认定为刺激图像；

3.所述判别图像器D₁的判别方法为：

对样本图像依次进行五次运算，每次运算包含卷积、批量标准化、弱修正线性单元非线性函数三种操作；

4.所述判别视觉区响应器D₂的判别方法为：

对视觉区响应信号进行全连接，然后对该数据进行reshape操作改变数据维度，然后依次进行五次运算，每次运算包含卷积、批量标准化、弱修正线性单元非线性函数三种操作；五次运算中卷积操作的卷积核大小都为3*3；卷积步长分别为2、1、1、1、1；卷积核深度分别为64、128、256、512、1；

5.该训练方法为：

步骤5.1：获取训练数据，训练数据包括刺激图像和每张刺激图像诱发下的多个时间节点的视觉区响应信号；

步骤5.2：定义3个损失函数，分别为生成总损失L₁、判别图像损失L₂、判别视觉区响应损失L₃，如下：

L₁＝y*log[G₁(x)]+(1-y)*log[1-G₁(x)]+x*log[G₂(y)]+(1-x)*log[1-G₂(y)]+‖G₂(G₁(x))-x‖₁+‖G₁(G₂(y))-y‖₁+‖D₁(G₂(y))-1‖₂+‖D₂(G₁(x))-1‖₂；

L₂＝‖D₁(G₂(y))‖₂+‖D₁(x)-1‖₂；

L₃＝‖D₂(G₁(x))‖₂+‖D₂(y)-1‖₂；

其中，x表示刺激图像；y表示视觉区响应信号，G₁(x)、G₂(y)、D₁(G₂(y))、D₂(G₁(x))，分别表示对括号中数据进行相应的处理；

步骤5.3：对L₁、L₂、L₃三个损失函数，依次使用Adam优化算法进行对应的权重更新；先固定判别图像器D₁和判别视觉区响应器D₂中的权重参数，更新编码器G₁和解码器G₂中的参数；再固定编码器G₁和解码器G₂中的参数，更新判别图像器D₁和判别视觉区响应器D₂中的参数，依次循环进行权重更新；训练得到效果最好的编码器G₁；解码器G₂；判别图像器D₁；判别视觉区响应器D₂；

6.测试阶段：采用训练好的解码器G₂解码测试视觉区响应信号。

进一步的，所述步骤1.1中的三次运算中卷积操作的卷积核大小分别为：7*7、3*3、3*3；卷积步长分别为1、2、2；卷积核深度分别为64、128、256。

进一步的，所述步骤1.3中的五次运算中卷积操作的卷积核大小都为3*3；卷积步长都为1；卷积核深度分别为128、64、32、16、6。

进一步的，所述步骤2.1中的五次运算中卷积操作的卷积核大小都为3*3；卷积步长都为1；卷积核深度分别为16、32、64、128、256。

进一步的，所述步骤2.3的的具体方法为将步骤2.2得到的数据进行2次运算，每一次运算包含反卷积、批量标准化、修正线性单元非线性函数三种操作；两次运算中卷积操作的卷积核大小都为3*3；卷积步长都为2；卷积核深度分别为128、64；然后进行补零操作；最后依次进行一次卷积、批量标准化、修正线性单元非线性函数三种操作，其中卷积核大小都为3*3；卷积步长都为1；卷积核深度分别为3；得到数据认定为刺激图像。

进一步的，所述第3点判别图像器D₁的判别方法五次运算中卷积操作的卷积核大小都为3*3；卷积步长分别为2、2、2、1、1；卷积核深度分别为64、128、256、512、1。

进一步的，所述步骤5.3中的Adam具体优化参数如下：步长ε默认为0.001；矩估计的指数衰减速率ρ₁和ρ₂分别默认为0.9和0.999；数值稳定的小常数δ默认为10^-8；以均值为0方差为0.001的正态分布初始化参数θ；一阶和二阶矩变量初始化为s＝0,r＝0；时间步长初始化t＝0；每次取出m个样本{(x⁽¹⁾,y⁽¹⁾),(x⁽²⁾,y⁽²⁾),…,(x^(m),y^(m))}进行以下更新：

计算梯度：其中：f(x⁽ⁱ⁾；θ)表示输入x⁽ⁱ⁾时所预测的输出，L(f(x⁽ⁱ⁾；θ),y⁽ⁱ⁾)表示第i个样本的损失函数，符号←表示赋值，g表示梯度；

更新时间步：t←t+1；

更新有偏一阶矩估计：s←ρ₁s+(1-ρ₁)g，其中：ρ₁表示一阶矩估计的指数衰减速率(默认为0.9)，s表示一阶矩变量；

更新有偏二阶矩估计：r←ρ₂r+(1-ρ₂)g⊙g，其中：ρ₂表示二阶矩估计的指数衰减速率(默认为0.999)，r表示二阶矩变量；

修正一阶矩的偏差：其中：表示修正的一阶矩变量，表示ρ₁的t次幂；

修正二阶矩的偏差：其中：表示修正的二阶矩变量，表示ρ₂的t次幂；

计算更新：其中：Δ_θ表示参数θ的改变量；

权重参数更新：θ←θ+Δ_θ。

本发明建立了基于深度编解码对偶模型的脑信息解码模型，对复杂自然图像进行了视觉重构，具有重构出的图像准确率相对较高，噪声比较小，重构时间比较短的效果。

附图说明

图1为本发明图像重构流程示意图；

图2为本发明具体测试结果对比示意图。

具体实施方式

A.编码模型：

步骤A1:对大小为256*256*3的原始自然刺激图像进行补零(pad)操作，将得到大小为262*262*3数据。然后对补零后的数据依次进行三次运算，每一次运算包含Convolution(卷积)、Batch Normalization(批量标准化)、Relu(修正线性单元非线性函数)三种操作。三次运算中卷积操作的卷积核大小分别为：7*7、3*3、3*3；卷积步长分别为1、2、2；卷积核深度分别为64、128、256。此步骤最后得到大小为64*64*256的数据。

步骤A2:将步骤A1最后得到的大小为64*64*256数据作为此步骤的输入，对其进行9次Residual(残差)操作。每次残差操作不改变数据的大小(前两维)和厚度(第三维)。所以此步骤最后的得到大小还是为64*64*256的数据。

步骤A3:将步骤A2最后得到的大小为64*64*256数据作为此步骤的输入，依次对输入数据先进行5次运算，每一次运算包含Convolution(卷积)、Batch Normalization(批量标准化)、Relu(修正线性单元非线性函数)三种操作。五次运算中卷积操作的卷积核大小都为3*3；卷积步长都为1；卷积核深度分别为128、64、32、16、6。五次运算之后得到大小为64*64*6的数据，然后进行reshape操作，得到大小为4096*6的数据。最后使用全链接网络将得到大小为2046*6(6个时间点的视觉区响应)的此步骤最后数据，经过步骤A1、A2、A3，相当于实现了自然刺激图像转视觉区信号的功能。

B.解码模型：

步骤B1:对大小为2046*6的视觉区信号进行全连接操作会得到4096*6的数据，然后进行reshape操作得到大小为64*64*6的数据。接下来进行五次运算，每次运算包含Convolution(卷积)、Batch Normalization(批量标准化)、Relu(修正线性单元非线性函数)三种操作。五次运算中卷积操作的卷积核大小都为3*3；卷积步长都为1；卷积核深度分别为16、32、64、128、256。5此运算之后得到大小为64*64*256的此步骤最后数据。

步骤B2:将步骤B1最后得到的大小为64*64*256数据作为此步骤的输入，对其进行9次Residual(残差)操作。每次残差操作不改变数据的大小(前两维)和厚度(第三维)。所以此步骤最后的得到大小还是为64*64*256的数据。

步骤B3:将步骤B2最后得到的大小为64*64*256数据作为此步骤的输入，依次对输入数据先进行2次运算，每一次运算包含Deconvolution(反卷积)、Batch Normalization(批量标准化)、Relu(修正线性单元非线性函数)三种操作。两次运算中卷积操作的卷积核大小都为3*3；卷积步长都为2；卷积核深度分别为128、64。两次运算之后得到大小为256*256*64的数据，然后进行补零(pad)操作得到大小为262*262*64的数据。最后对其进行一次Convolution(卷积)、Batch Normalization(批量标准化)、Relu(修正线性单元非线性函数)三种操作，其中卷积核大小都为3*3；卷积步长都为1；卷积核深度分别为3。最后得到大小为256*256*3的此步骤最后数据。

步骤B1、B2、B3，相当于实现了视觉区信号转自然刺激图像的功能。

C.判别自然图像模型：

步骤C1:对大小为256*256*3的原始自然刺激图像依次进行五次运算，每次运算包含Convolution(卷积)、Batch Normalization(批量标准化)、Lrelu(弱修正线性单元非线性函数)三种操作。五次运算中卷积操作的卷积核大小都为3*3；卷积步长分别为2、2、2、1、1；卷积核深度分别为64、128、256、512、1。四次运算之后得到大小为32*32*1的此步骤最后数据。

D.判别视觉区响应模型：

步骤D1:首先对大小为2046*6的视觉区响应信号进行全连接，得到大小为4096*6的数据。然后对该数据进行reshape操作，得到大小为64*64*6的数据。然后依次进行五次运算，每次运算包含Convolution(卷积)、Batch Normalization(批量标准化)、Lrelu(弱修正线性单元非线性函数)三种操作。五次运算中卷积操作的卷积核大小都为3*3；卷积步长分别为2、1、1、1、1；卷积核深度分别为64、128、256、512、1。四次运算之后得到大小为32*32*1的此步骤最后数据。

E.训练阶段：

步骤E1:收集训练数据，包含：2500张大小为256*256*3的彩色自然刺激图像，以及每张刺激图像诱发下的六个时间点视觉V1区信号(大小为2046*6，其中6表示观看刺激图像时起接下来六个时间点信号，2046表示视觉V1区的体素点总数)。本专利符号定义：x表示自然刺激图像(大小为256*256*)；y表示视觉区六个时间点信号(大小为2046*6)；G₁表示编码器；G₂表示解码器；D₁表示判别图像器；D₂表示判别视觉区响应器。

步骤E2:本专利定义了3个损失函数，分别表示为生成总损失L₁、判别图像损失L₂、判别视觉区响应损失L₃，如下：

L₁＝y*log[G₁(x)]+(1-y)*log[1-G₁(x)]+x*log[G₂(y)]+(1-x)*log[1-G₂(y)]

+‖G₂(G₁(x))-x‖₁+‖G₁(G₂(y))-y‖₁+‖D₁(G₂(y))-1‖₂

+‖D₂(G₁(x))-1‖₂

L₂＝‖D₁(G₂(y))‖₂+‖D₁(x)-1‖₂

L₃＝‖D₂(G₁(x))‖₂+‖D₂(y)-1‖₂

步骤E3:对L₁、L₂、L₃三个损失函数，依次使用Adam优化算法进行对应的权重更新。Adam具体优化参数如下：步长ε默认为0.001；矩估计的指数衰减速率ρ₁和ρ₂分别默认为0.9和0.999；数值稳定的小常数δ默认为10^-8；以均值为0方差为0.001的正态分布初始化参数θ；一阶和二阶矩变量初始化为s＝0,r＝0；时间步长初始化t＝0。每次取出m个样本{(x⁽¹⁾,y⁽¹⁾),(x⁽²⁾,y⁽²⁾),…,(x^(m),y^(m))}进行以下更新：

计算梯度：

更新时间步：t←t+1

更新有偏一阶矩估计：s←ρ₁s+(1-ρ₁)g

更新有偏二阶矩估计：r←ρ₂r+(1-ρ₂)g⊙g

修正一阶矩的偏差：

修正二阶矩的偏差：

计算更新：

权重参数更新：θ←θ+Δ_θ

F.测试阶段：

步骤F1:收集测试数据，包含：250张大小为256*256*3的彩色自然刺激图像，以及每张刺激图像诱发下的六个时间点视觉V1区信号(大小为2046*6，其中6表示观看刺激图像时起接下来六个时间点信号，2046表示视觉V1区的体素点总数)。测试数据不出现在训练数据中。

步骤F2:根据训练阶段得到了包含编码器G₁、解码器G₂、判别图像器D₁、判别视觉区响应器D₂的模型。将测试图像对应的视觉V1区6个时间点的体素信号输入到解码器G₂，会生成一幅图像，该过程就实现了脑信号的解码(图2)，本发明技术方案为对彩色图像进行重构，灰度图中不能看出色彩的还原效果，但对色彩的还原比较准确。

Claims

1.一种基于深度编解码对偶模型的复杂视觉图像重构方法，该方法为采用训练数据对编码器G₁；解码器G₂；判别图像器D₁；判别视觉区响应器D₂进行训练；

P1.所述编码器G₁的作用为将刺激图像转换为视觉区响应信号，编码器G₁的编码方法为：

P2.所述解码器G₂的作用为将视觉区响应信号转换为刺激图像，解码器G₂的解码方法为：

P3.所述判别图像器D₁的判别方法为：

P4.所述判别视觉区响应器D₂的判别方法为：

P5.该训练方法为：

L₂＝‖D₁(G₂(y))‖₂+‖D₁(x)-1‖₂；

L₃＝‖D₂(G₁(x))‖₂+‖D₂(y)-1‖₂；

P6.测试阶段：采用训练好的解码器G₂解码测试视觉区响应信号。

2.如权利要求1所述的一种基于深度编解码对偶模型的复杂视觉图像重构方法，其特征在于所述步骤1.1中的三次运算中卷积操作的卷积核大小分别为：7*7、3*3、3*3；卷积步长分别为1、2、2；卷积核深度分别为64、128、256。

3.如权利要求1所述的一种基于深度编解码对偶模型的复杂视觉图像重构方法，其特征在于所述步骤1.3中的五次运算中卷积操作的卷积核大小都为3*3；卷积步长都为1；卷积核深度分别为128、64、32、16、6。

4.如权利要求1所述的一种基于深度编解码对偶模型的复杂视觉图像重构方法，其特征在于所述步骤2.1中的五次运算中卷积操作的卷积核大小都为3*3；卷积步长都为1；卷积核深度分别为16、32、64、128、256。

5.如权利要求1所述的一种基于深度编解码对偶模型的复杂视觉图像重构方法，其特征在于所述步骤2.3的的具体方法为将步骤2.2得到的数据进行2次运算，每一次运算包含反卷积、批量标准化、修正线性单元非线性函数三种操作；两次运算中卷积操作的卷积核大小都为3*3；卷积步长都为2；卷积核深度分别为128、64；然后进行补零操作；最后依次进行一次卷积、批量标准化、修正线性单元非线性函数三种操作，其中卷积核大小都为3*3；卷积步长都为1；卷积核深度分别为3；得到数据认定为刺激图像。

6.如权利要求1所述的一种基于深度编解码对偶模型的复杂视觉图像重构方法，其特征在于所述第3点判别图像器D₁的判别方法五次运算中卷积操作的卷积核大小都为3*3；卷积步长分别为2、2、2、1、1；卷积核深度分别为64、128、256、512、1。

7.如权利要求1所述的一种基于深度编解码对偶模型的复杂视觉图像重构方法，其特征在于所述步骤5.3中的Adam具体优化参数如下：步长ε默认为0.001；矩估计的指数衰减速率ρ₁和ρ₂分别默认为0.9和0.999；数值稳定的小常数δ默认为10^-8；以均值为0方差为0.001的正态分布初始化参数θ；一阶和二阶矩变量初始化为s＝0,r＝0；时间步长初始化t＝0；每次取出m个样本{(x⁽¹⁾,y⁽¹⁾),(x⁽²⁾,y⁽²⁾),…,(x^(m),y^(m))}进行以下更新：

计算梯度：y⁽ⁱ⁾)，其中：f(x⁽ⁱ⁾；θ)表示输入x⁽ⁱ⁾时所预测的输出，L(f(x⁽ⁱ⁾；θ),y⁽ⁱ⁾)表示第i个样本的损失函数，符号←表示赋值，g表示梯度；

更新时间步：t←t+1；

计算更新：其中：Δ_θ表示参数θ的改变量；

权重参数更新：θ←θ+Δ_θ。