CN112966813B

CN112966813B - 一种卷积神经网络输入层装置及其工作方法

Info

Publication number: CN112966813B
Application number: CN202110273669.8A
Authority: CN
Inventors: 许野平; 朱爱红
Original assignee: Synthesis Electronic Technology Co Ltd
Current assignee: Synthesis Electronic Technology Co Ltd
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2023-04-07
Anticipated expiration: 2041-03-15
Also published as: CN112966813A

Abstract

本发明公开了一种卷积神经网络输入层装置及其工作方法，涉及人工智能领域。卷积神经网络输入层系统包括若干图像存储区，记作An，图像变换模块，记作Bn，每一图像变换模块的输入端和输出端均与图像存储区相连，每一图像存储区还连接异步卷积层，记作C，异步卷积层的输出端连接特征层，记作D，特征层连接用于后续的特征提取和输出的卷积神经网络，记作E。本系统通过连续多帧尺度不同的视频画面作为输入，可显著压缩输入数据量，增加输入的持续时长，可减少模型训练和预测时间，提升对持续时间较长的复杂行为预测的准确性。

Description

一种卷积神经网络输入层装置及其工作方法

技术领域

本发明涉及人工智能领域，具体涉及一种卷积神经网络输入层装置及其工作方法。

背景技术

3D卷积神经网络模型可以从动态视频图像序列中提取目标特征。3D卷积神经网络工作时，通常利用3D卷积机制将多帧相同尺寸的视频图像积叠成图像立方体。由于输入层包含了连续多帧视频图像序列，3D卷积神经网络模型能够有效提取视频数据中目标的动态特征。

3D卷积神经网络模型中，连续视频图像序列中的图像尺寸完全一样。事实上，连续视频图像序列中的图像在提取目标特征过程中所起的作用随时间推移逐步递减。因此，3D卷积神经网络模型采用同规格多帧图像做输入层的方案占用了过多的网络数据资源。

现有技术公开了3D卷积神经网络的动态视频图像目标特征提取方法。但是，这类方法存在算法模型的结构性冗余问题，导致训练和预测计算量较大，运行效率低。由于视频图像帧所占内存空间较大，现有技术所能接受的连续视频帧的数量非常有限，难以识别持续时间较长的复杂行为目标。

发明内容

本发明的目的是针对上述不足，提出了一种卷积神经网络输入层系统，通过把多种尺度的图像拼接在同一幅图像输入层中，实现了用较小的网络模型规模实现较好的目标特征提取。

本发明具体采用如下技术方案：

一种卷积神经网络输入层系统，包括若干图像存储区，记作An，图像变换模块，记作Bn，每一图像变换模块的输入端和输出端均与图像存储区相连，每一图像存储区还连接异步卷积层，记作C，异步卷积层的输出端连接特征层，记作D，特征层连接用于后续的特征提取和输出的卷积神经网络，记作E。

优选地，卷积神经网络输入层系统的工作方法包括如下步骤：

S1、新的视频帧到来之前，图像存储区An-1存储的信息经图像变换模块Bn变换后存放在图像存储区An。

S2、对于异步卷积层C中的任意一个卷积核，在对图像存储区中数据做卷积运算时，图像像素的定位原则为图像A0按照传统卷积计算方法读取像素的值；卷积运算读取原始图像像素P(x,y)的值时，直接从图像A0的(x,y)位置处读取像素值，图像A1、A2、…、An的取值位置根据图像变换方法重新定位。

S3、卷积神经网络E采用传统卷积神经网络模型。

优选地，依据S1图像存储区A1图像经图像变换模块B2变换后存放在图像存储区A2；图像存储区A0图像经图像变换模块B1变换后存放在图像存储区A1；最后，新的视频帧图像保存在图像存储区A0。

优选地，依据S2，如果图像存储区的图像A0、A1、A2、…、An尺寸构成公比为r的等比数列，卷积运算读取原始图像像素P(x,y)的值时，图像A0、A1、A2、…、An的取值位置为(int(x*r^i)，int(y*r^i))，其中i＝0，1，2，…，n；当r＝1时，本发明方法退化成传统3D卷积神经网络。

本发明具有如下有益效果：

本发明通过连续多帧尺度不同的视频画面作为输入，可显著压缩输入数据量，增加输入的持续时长，可减少模型训练和预测时间，提升对持续时间较长的复杂行为预测的准确性。

附图说明

图1为卷积神经网络输入层装置示意图。

具体实施方式

下面结合附图和具体实施例对本发明的具体实施方式做进一步说明：

结合图1，卷积神经网络输入层系统包括若干图像存储区，记作An，图像变换模块，记作Bn，每一图像变换模块的输入端和输出端均与图像存储区相连，每一图像存储区还连接异步卷积层，记作C，异步卷积层的输出端连接特征层，记作D，特征层连接用于后续的特征提取和输出的卷积神经网络，记作E。

卷积神经网络输入层系统的工作方法包括如下步骤：

S1、新的视频帧到来之前，图像存储区An-1存储的信息经图像变换模块Bn变换后存放在图像存储区An；以此类推，依据S1图像存储区A1图像经图像变换模块B2变换后存放在图像存储区A2；图像存储区A0图像经图像变换模块B1变换后存放在图像存储区A1；最后，新的视频帧图像保存在图像存储区A0。

S2、对于异步卷积层C中的任意一个卷积核，在对图像存储区中数据做卷积运算时，图像像素的定位原则为图像A0按照传统卷积计算方法读取像素的值；卷积运算读取原始图像像素P(x,y)的值时，直接从图像A0的(x,y)位置处读取像素值，图像A1、A2、…、An的取值位置根据图像变换方法重新定位；如果图像存储区的图像A0、A1、A2、…、An尺寸构成公比为r的等比数列，卷积运算读取原始图像像素P(x,y)的值时，图像A0、A1、A2、…、An的取值位置为(int(x*r^i)，int(y*r^i))，其中i＝0，1，2，…，n；当r＝1时，本发明方法退化成传统3D卷积神经网络。

S3、卷积神经网络E采用传统卷积神经网络模型。

依据S1图像存储区A1图像经图像变换模块B2变换后存放在图像存储区A2；图像存储区A0图像经图像变换模块B1变换后存放在图像存储区A1；最后，新的视频帧图像保存在图像存储区A0。

以包含9个图像存储区和8个图像变换模块为例：

图像存储区A0、A1、A2、A3、A4、A5、A6、A7、A8，用于保存尺寸分别为512、256、128、64、32、16、8、4、2的方形连续视频图像序列。

图像变换模块B1、B2、B3、B4、B5、B6、B7、B8，用于变换图像尺度。

异步卷积层C，用于把图像A0、A1、A2、A3、A4、A5、A6、A7、A8利用异步卷积计算输出至特征层D。

异步卷积层C，用于把图像A0、A1、A2、A3、A4、A5、A6、A7、A8利用异步卷积计算输出至特征层D；

卷积神经网络E，传统卷积神经网络模型，用于后续的特征提取和输出。

基于本系统干的工作过程如下：

S1、新的视频帧到来之前，图像存储区A7图像变换模块B8变换后存放在图像存储区A8；依此类推，图像存储区A1图像经图像变换模块B2变换后存放在图像存储区A2；图像存储区A0图像经图像变换模块B1变换后存放在图像存储区A1；最后，新的视频帧图像保存在图像存储区A0。

S2、对于卷积层C中的任意一个卷积核，在对A0、A1、A2、…、A8中数据做卷积运算时，图像像素的定位原则为图像A0按照传统卷积计算方法读取像素的值。卷积运算需要读取原始图像像素P(x,y)的值时，图像A0、A1、A2、…、An的取值位置为(int(x*0.5^i)，int(y*0.5^i))，其中i＝0，1，2，…，8。

S3、卷积神经网络E，可按照实际需要采用传统卷积神经网络模型。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种卷积神经网络输入层系统，其特征在于，包括若干图像存储区，记作An，图像变换模块，记作Bn，每一图像变换模块的输入端和输出端均与图像存储区相连，每一图像存储区还连接异步卷积层，记作C，异步卷积层的输出端连接特征层，记作D，特征层连接用于后续的特征提取和输出的卷积神经网络，记作E；

包括如下步骤：

S1、新的视频帧到来之前，图像存储区A_n-1存储的信息经图像变换模块Bn变换后存放在图像存储区An；

S2、对于异步卷积层C中的任意一个卷积核，在对图像存储区中数据做卷积运算时，图像像素的定位原则为图像A0按照传统卷积计算方法读取像素的值；卷积运算读取原始图像像素P(x,y)的值时，直接从图像A0的(x,y)位置处读取像素值，图像A1、A2、…、An的取值位置根据图像变换方法重新定位；

S3、卷积神经网络E采用传统卷积神经网络模型；

依据S2，图像存储区的图像A0、A1、A2、…、An尺寸构成公比为r的等比数列，卷积运算读取原始图像像素P(x,y)的值时，图像A0、A1、A2、…、An的取值位置为(int(x*r^i)，int(y*r^i))，

其中i＝0，1，2，…，n；当r＝1时，本发明方法退化成传统3D卷积神经网络。

2.如权利要求1所述的一种卷积神经网络输入层系统，其特征在于，依据S1图像存储区A1图像经图像变换模块B2变换后存放在图像存储区A2；图像存储区A0图像经图像变换模块B1变换后存放在图像存储区A1；最后，新的视频帧图像保存在图像存储区A0。