CN113255761A

CN113255761A - 反馈神经网络系统及其训练方法、装置及计算机设备

Info

Publication number: CN113255761A
Application number: CN202110555326.0A
Authority: CN
Inventors: 宋金梦
Original assignee: Shenzhen Conformal Consulting Enterprise LP
Current assignee: Shenzhen Conformal Consulting Enterprise LP
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-08-13

Abstract

本发明公开了一种反馈神经网络系统及其训练方法、装置、计算机设备，反馈神经网络系统采用视频流中序列帧fn作为输入，通过前向网络net1、net2及拼接处理输出对应视频序列帧的特征ftn。本发明公开的反馈神经网络系统中存在图片特征的反馈通道，使序列帧的特征ftn融合了前n帧的信息，能够解决视频流中图片分辨率过低以及视频抖动的问题。

Description

反馈神经网络系统及其训练方法、装置及计算机设备

技术领域

本发明涉及神经网络技术领域，尤其涉及一种反馈神经网络系统及其训练方法、装置及计算机设备。

背景技术

神经网络经过40年左右的发展，特别是2012年之后，诞生了诸如VGG，GoogleNet，ResNet，MobileNet等著名的前向网络，这些网络在人脸识别，光学字符识别，强化学习中被广泛使用，目前前向网络有比较成熟的构造以及训练方法。但在工业界使用的神经网络(例如ResNet)，对图片的分辨率要求高，并且拍摄过程中的抖动对识别有重大影响。

应对以上问题，市面上采用反馈神经网络的一个变种网络LSTM(Long Short-TermMemory)，LSTM是一种反馈神经网络，在自然语言处理以及语音处理应用中使用普遍，其一般的反馈网络研究多见，但鲜有工业界的应用，原因之一是反馈神经网络的输入是一个序列，在计算机视觉领域，逐帧对视频标注极其困难；其二是理论上反馈神经网络的网络深度为无穷大，训练这类网络特别复杂。因此，亟需一种在工业界应用性强的特征反馈神经网络结构及有效训练这类型网络结构的方法。

发明内容

为解决上述技术问题，本申请实施例提供以下技术方案：

本申请实施例提供一种反馈神经网络系统，其特征在于，包括：

输入源：将视频流中的图片输入反馈神经网络系统；

特征计算单元：包含两个前向神经网络，分别用于对输入系统的图片帧和当前帧图片的融合特征进行特征计算；

拼接处理单元：用于将完成一次特征计算的当前帧图片的特征与完成了二次特征计算的上一帧图片的特征进行拼接处理，形成当前帧图片的融合特征；

反馈通道：反馈上一帧图片的最终特征到拼接处理单元的通道；

基础模块：两个特征计算单元和拼接处理单元一同构成了反馈神经网络的基础模块；

输出单元：用于将经过两次特征处理获得的图片特征组合在一起形成特征流，并根据所述特征流对所述输入源进行分类或判定。

优选的，所述特征计算单元所用前向网络的输出特征图长宽相同。

本申请实施例还提供一种反馈神经网络的训练方法，其特征在于，包括如下步骤：

a.由图片构成训练集；

b.将前向网络基本计算单元和拼接操作单元构成反馈神经网络的基础模块；

c.将反馈神经网络按时间展开为一个无穷个基础模块顺次连接的前向网络；

d.将无穷深的前向网络截断为包含N个基础模块的前向神经网络；

e.将每个基础模块输出的特征组合成新的特征作为图片经过神经网络的特征；

f.根据截断前向网络产生的特征以及图片的标注，使用训练前向神经网络的方法训练这个截断前向神经网络。

优选的，所述前向网络截断后包含的基础模块数量为4。

优选的，所述步骤a中构成训练集的图片为带标记的图片。

优选的，所述反馈神经网络的训练结构展开深度固定，当展开的网络在固定个数基础模块被截断时，所述反馈网络系统转化为前向网络。

优选的，所述反馈神经网络的参数为截断后神经网络的参数。

优选的，所述前向网络的输入是同一张图片的恒等变换，2x2的随机下采样，高斯模糊等变换，变换后图片长宽相同。

根据本申请的一个方面，还提供了一种反馈神经网络装置，包括如上所述的反馈神经网络系统。

根据本申请的一个方面，还提供了一种反馈神经网络的训练装置，采用如上所述的反馈神经网络训练方法。

根据本申请的一个方面，还提供了一种计算机设备，包括处理器和存储器，所属存储器中存储有计算机程序，所属处理器调用所述存储器中的计算机程序时执行实现如上所述反馈神经网络系统及其训练方法的步骤。

本发明所提供一种反馈神经网络系统，可以有效的应用于工业计算机视觉领域，降低对视频分辨率质量及拍摄过程中抖动程度的要求，；本发明另一目的在于提供该反馈神经网络的训练方法，使用标注图片的训练方法使反馈网络的训练装置更具有操作性，降低数据标注的复杂性和成本。

附图说明

为了清楚的说明本申请的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的反馈神经网络系统的流程示意图；

图2为本发明一实施例提供的所述反馈神经网络展开结构示意图；

图3为本发明一实施例提供的所述反馈神经网络训练方法的流程示意图；

图4为本发明一实施例提供的所述反馈神经网络训练方法的结构示意图；

图5为本发明一实施例提供的反馈神经网络系统及其训练装置的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种反馈神经网络及其训练方法、装置、设备及计算机设备及储存介质。

请参见图1所示，本实施例提供的反馈神经网络系统包含以下步骤：

根据步骤S101，反馈神经网络的输入源为一段视频流，网络结构将视频流中的每一帧作为处理对象，该结构的关键在于，单帧图片经过处理后都可以形成该图片对应的特征，所有特征组合形成特征流，帧率与输入的视频流一致，特征流信息完整，不会在处理过程中造成帧率损失。

步骤S102，使用前向网络net1对视频流中的单帧图片进行第一次特征计算；步骤S104，使用前向网络net2对当前帧图片的融合特征进行特征计算；在发明实施例中，步骤S102和步骤S104使用的前向网络在本技术领域较为常见，其计算过程也为本领域技术人员基本掌握的技术，故在实施方式中进行省略。但需要说明的是，本发明反馈神经网络的子结构net1和net2可以使用已经成熟的神经网络结构，例如ResNet；本技术方案对前向网络net1和net2唯一要求为输出的特征图长宽相同。

步骤S103中的cat拼接，为本发明实施例的关键步骤，也是该反馈神经网络结构区别与一般神经网络结构的重要技术点。请参考图2，图2为本发明反馈神经网络的一种实施例的展开结构，可以理解的是，图示仅为展开结构的一部分，展开结构形式也可以使用其他形式表达，但只要其步骤及信息传递方式与本发明所述相同，均为本发明所保护的展开形式。在本发明实施例中，步骤S103中的cat拼接处理由图3可知存在两个输入源：输入源一为经过前向网络net1处理后的单帧图片的特征，输入源二为完成了二次特征计算的上一帧图片的特征，需要说明的是，上述两种输入源虽都为图片特征，但其特征来源与处理结构深度均不相同，需要注意区分。由于上述步骤S102中，规定了前向网络net1和net2输出的特征图长宽相同，所以在本拼接实施步骤中可以将两种经过不同结构深度处理的特征进行直接拼接。通过上述的处理步骤，传递至下一步的特征数据就融合了上一帧图片的特征信息，这种信息的融合一方面能够对特征信息进行补充，在应对输入视频流分辨率过低时能够根据上一帧的特征信息自行补充当前帧图片缺失的特征信息，另一方面也能实时的对特征信息进行反馈调节，预测图像中特征可能出现的位移变化，有效调节处理对象视频自身出现的抖动。

步骤S104使用前向网络net2对拼接完成的融合特征进行特征计算。

在步骤S105中，单帧图片的最终特征首先通过反馈通道将信息传递至上述拼接步骤中以形成下一帧图片特征，连续的图片特征则结合形成特征流，用于对目标进行识别或者分类。

本发明实施例中，还提供了一种反馈神经网络的训练方法。该网络的训练方法请参考图3，其结构包含：

步骤S201，输入训练数据至反馈神经网络训练结构中。在本技术领域中，一般默认训练使用的数据即为运用中的分析处理对象，对不同的对象首先进行人为标记，通过调整网络中的各项参数，使网络输出不断的接近人为标记，即为训练过程。所述反馈神经网络的训练数据即为一个视频序列，可知的是视频序列可能存在大量的识别要素，标记一个序列是较为困难的。因此，本发明实施例中的训练数据优选了带标记的图片而非视频序列，且为了使图片能够以序列格式输入前向网络net1，通过对训练集中的图片进行某种变换生成新的图片，将新的图片输入前向网络net1，生成的图片个数和截断网络具有的基础模块个数相同。

需要说明的是，训练集中使用的图片是工业界已经存在标注的大量的图片，能够极大减少标注的需求。

步骤S202中使用前向网络net1与反馈神经网络中步骤S102内的net1性质与要求相同，其结构及计算方式也不再赘述，需要说明的是，在训练过程中net1的各项参数会根据训练过程不断优化，而反馈网络中的net1为已经完成训练、各项参数符合特征筛选需求的前向网络。

请参考图4，为了便于理解，图4为本发明反馈神经网络训练方法的一种实施例的结构，可以理解的是，图示仅为展开结构的一种，训练结构具有基础模块的个数可以任意的，但具有较少的基础模块的网络会降低训练准确度，而较多或者无穷个基础模块的训练网络计算量极大，故本实施例中优选具有4个基础模块的网络作为演示；当然，展开结构形式也可以使用其他形式表达，但只要训练步骤及信息传递方式与本发明所述相同，均为本发明所保护的结构形式。

步骤S203为拼接处理，由图4可知存在两个输入源进行拼接：

输入源一为经过前向网络net1处理后的单帧图片的特征图；

输入源二有两种，其中一种为全零特征图，全零特征图仅在网络训练结构的第一层输入；第二种为前一帧图片经过整个反馈网络结构处理后的图片特征。

需要说明的是，由于上述步骤S202中，同样规定了前向网络对(net1、net2)输出的特征图长宽相同，所以在本拼接实施步骤中可以将两种经过不同结构深度处理的特征进行直接拼接。通过上述的拼接处理步骤，网络训练结构的有益处与上述反馈神经网络的拼接处理相同。

步骤S204中使用前向网络net2与反馈网络中步骤S103内的net2性质与要求相同，其结构及计算方式也不再赘述，需要说明的是，在训练过程中net2的各项参数会根据训练过程不断优化，而反馈神经网络中的net2为已经完成训练、各项参数符合特征筛选需求的前向网络。

步骤S205，单帧图片特征通过反馈通道将信息传递至上述拼接步骤中以形成下一帧图片特征，同时，图片输出的特征继续向下一步骤传递。

在步骤S206中，需要对传递的特征进行识别与分类，需要说明的是，在反馈网络的训练过程中，初始的未经过训练的前向网络对net1、net2的权值参数可能出现符合或者不符合实际应用结果的。因此，当出现训练出的特征与预期相符合的情况时，保留层内的权值，输出结果；当出现训练出的特征与预期不符合的情况时，求出网络的输出值与目标值之间的特征误差，当误差大于我们的期望值时，将此误差传递回网络中，即可得出各层单独的误差，然后通过计算出的误差更新网络的各权值，继续进行一下轮的训练，通过大量的训练，前向网络的权值不断的优化更新，当达到期望的特征判定识别成功率时，即完成了反馈神经网络的训练。

可以理解的是，本发明实施例中，对于反馈神经网络的训练，采用了固定展开的方法来解决反馈网络展开太深的问题，进一步的，以4个基础模块的展开深度更为合理，在达到有效的训练网络结构的同时保证了计算操作的可实施性。通过上述解决方法，对无限展开的网络进行了截断，反馈网络替换成一个普通的前向网络，而对于本技术领域的专业人员而言，训练一个前向网络的方法有成熟的技术，例如随梯度下降、Adam优化算法等，都可以对已经转换过的反馈网络进行训练，故无论在训练时实施以上任一方法，都首先采用了本发明实施例给出的转换方式，应属于本发明范围内的训练方法。

下面对本发明实施例提供的一种反馈神经网络及其训练装置进行介绍，下文描述的反馈神经网络及其训练装置与上文描述的计算特征图方法可以互相对应参照。

图5为本发明实施例提供的反馈神经网络及其训练装置的结构框图，参考图5的反馈网络及其训练装置包括：

100输入模块：直接将视频序列每帧输入反馈神经网络结构；

200特征计算模块1，用于将输入的视频帧进行处理以得到特征；

拼接处理模块300：将特征计算模块1传递的特征与输出模块反馈的特征进行拼接。

需要说明的是，所述的拼接处理是对两输出模块特征信息的融合补充。

400特征计算模块2，用于处理识别拼接后的特征输出进行二次特征计算的特征。

需要说明的是，所述的特征计算模块200、400可以用ResNet等成熟的前向网络结构实现。

输出模块500：将完成二次特征计算的结果输出至拼接处理模块，并将自身形成特征流供实际判定应用。

训练输入模块600：将大量的特征图片作为训练集输入网络训练装置。

训练输出模块700：该模块对装置中完成二次特征计算的结果进行特征输出识别。

识别判定模块800：该模块对装置中完成训练输出的特征图片训练结果进行判定，根据判定及偏差对200、400处理模块进行权值修正。

本实施例的反馈神经网络及其训练装置用于实现前述的反馈神经网络及其训练方法，因此反馈神经网络及其训练装置中的具体实施方式可以见前文中的反馈神经网络及其训练方法的实施例部分，例如，特征计算模块200，拼接处理模块300，分别用于实现上述反馈网络及其训练方法中步骤S102和S103，所以，其具体实施方式可以参照相应的各个部分实施例的描述。

本说明中实施例的描述方式是根据功能及特征进行递进式的描述方法，每个实施例在进行描述时主要针对不同实施例的自身特点进行着重展开，而各实施例之间相同或者技术手段一致的部分则可以互相参考。尤其是对于实施例公开的装置设备及计算机设备及储存介质而言，由于它们皆可与实施例公开的方法互相对应，所以在描述的过程中较为简略，相关未尽描述的部分参见上文的方法部分说明即可。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种反馈神经网络系统，其特征在于，包括：

输入源：将视频流中的图片输入反馈神经网络系统；

2.如权利要求1中所述的反馈神经网络系统，其特征在于，所述特征计算单元所用前向网络的输出特征图长宽相同。

3.一种反馈神经网络的训练方法，其特征在于，包括如下步骤：

a.由图片构成训练集；

4.根据权利要求3所述的反馈神经网络的训练方法，其特征在于，所述前向网络截断后包含的基础模块数量为4。

5.根据权利要求3所述的反馈神经网络的训练方法，其特征在于，所述步骤a中构成训练集的图片为带标记的图片。

6.根据权利要求3所述的反馈神经网络的训练方法，其特征在于，所述反馈神经网络的训练结构展开深度固定，当展开的网络在固定个数基础模块被截断时，所述反馈网络系统转化为前向网络。

7.根据权利要求3所述的反馈神经网络的训练方法，其特征在于，所述反馈神经网络的参数为截断后神经网络的参数。

8.根据权利要求3所述的反馈神经网络的训练方法，其特征在于，所述前向网络的输入是同一张图片的恒等变换，2x2的随机下采样，高斯模糊等变换，变换后图片长宽相同。

9.一种反馈神经网络装置，其特征在于，包括如权利要求1-2任意一项所述的反馈神经网络系统。

10.一种反馈神经网络的训练装置，其特征在于，采用如权利要求3-8任意一项所述的反馈神经网络训练方法。

11.一种计算机设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序实现如权利要求3-8任一项所述反馈神经网络系统及其训练方法的步骤。