CN113011582A - 基于自审视的多单元反馈网络模型、设备和存储介质 - Google Patents

基于自审视的多单元反馈网络模型、设备和存储介质 Download PDF

Info

Publication number
CN113011582A
CN113011582A CN202110236817.9A CN202110236817A CN113011582A CN 113011582 A CN113011582 A CN 113011582A CN 202110236817 A CN202110236817 A CN 202110236817A CN 113011582 A CN113011582 A CN 113011582A
Authority
CN
China
Prior art keywords
unit
self
data
input
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110236817.9A
Other languages
English (en)
Other versions
CN113011582B (zh
Inventor
李阳
孙芳蕾
杨旸
汪军
温颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ShanghaiTech University
Original Assignee
ShanghaiTech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ShanghaiTech University filed Critical ShanghaiTech University
Priority to CN202110236817.9A priority Critical patent/CN113011582B/zh
Publication of CN113011582A publication Critical patent/CN113011582A/zh
Application granted granted Critical
Publication of CN113011582B publication Critical patent/CN113011582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供的一种基于自审视的多单元反馈网络模型、设备和存储介质,该反馈网络模型主要由三个智能体组成:编码单元、自审视单元、及解码智单元。自审视单元将编码智能体编码结果作为输入,对编码结果进行再处理,纠错后再输入到编码单元中进行编码,最后解码单元进行解码三个智能体紧密合作使得整个网络有着更强的反思纠错能力。

Description

基于自审视的多单元反馈网络模型、设备和存储介质
技术领域
本发明涉及深度学习网络模型研究技术领域,特别是涉及一种基于自审视的多单元反馈网络模型、设备和存储介质。
背景技术
深度学习建立在连接主义和神经科学理论技术上,其通过使用人工神经网络来模拟大脑的感知过程。受益于数十年来计算能力的提升和大规模数据样本的出现,深度学习在机器翻译,语音识别,语音合成,图像处理等领域取得了突破性的进展。
但现在的神经网络还和人脑中复杂的神经系统系统有着较大的差距,现有的神经网络大多是前馈结构或者拥有朴素的循环、反馈结构,而缺乏像人类一样的反思能力。前馈神经网络,比如卷积神经网络,数据都是单一从输入流向输出,这样的结构也使得神经网络无法利用高层已经处理过的信息进行反思完善自己。因此前馈神经网络并不能满足人们对深度学习更智能的要求,在一些神经科学研究的启发下,一些改进算法随之被提出。神经科学研究表明在人类大脑中存在着大量的循环反馈机制来进行视觉处理。受这些神经科学研究启发,ConvRNNs[1],RIG-Net[2],RethinkingCNN[3]和LoopyNets[4]等方法引入了循环反馈结构来解决图像识别问题。一方面他们使用循环结构来提升分类正确率,另一方面像ConvRNNs,RethinkingNets,LoopyNets等模型在中间层添加一条反馈回路将中间层信息反馈至底层神经元。这些现有的工作都在尝试在现有神经网络架构的基础上实现类似于人脑的反思能力,但这些方法都只是简单的模拟大脑中的神经网络的反馈回路结构,并不具有对中间层或者顶层信息进行自我审视反思的能力。
ConvRNNs提出现有的卷积神经网络并不具备生物视觉系统中普遍存在的体系结构特征:皮质区域内的局部循环以及下游区域到上游区域的远程反馈。因此他们探究了反馈在改善分类性能中的作用,标准结构的循环比如递归神经网络(RRNs),长短时记忆模型(LSTM)和卷积神经网络融合并不能取得更好的性能表现,而在循环中添加两个新的结构特征:旁路和门控能够大大的提高任务的准确度。作者们依据这些设计原则自动搜索了数千种网络结构,找到了一种新的局部循环单元和对物体识别有用的远程反馈连接。
RIG-Net提出了一种称为RIG-Net的递归迭代门控方案。RIG-Net的核心元素涉及循环连接,这些连接采用自上而下的方式控制神经网络中的信息流,并考虑了核心结构上的不同变体。这种机制的迭代性质允许门控在空间范围和特征空间中扩展。并通过实验表明该迭代反馈机制与现有的常见网络有着较好的兼容性。其主要技术方案设计:1)网络中的某些层的输出通过门控模块反馈到较早的层,简单的门控模块比如恒等映射等;2)通过级联/乘法/加法将反馈与较早层的表示进行组合,来生成下一次迭代的输入。在提出的RIG-Net框架中,将各层的反馈调制形成该层的输入信号模仿视觉的注意力机制,并引入了层次结构,从而导致隐式的从粗到细的表达来提高空间和语义环境的推理表现。该技术方案在前馈网络中集成了迭代反馈模块,这些模块可以看作是更具后向流动的信息重新路由捕获的新的信息,并在更高的层次上模拟了人脑的循环结构。
LoopyNets提出当前的人工神经网络是非循环计算图,人工网络中的神经元只发射一次,没有时间动力。这两个特性与神经科学关于人脑连接性的知识形成了鲜明的对比,尤其是在物体识别方向。因此,该方案提出通过展开循环神经网络的几个时间不来模拟大脑中的反馈循环,并比较了循环的不同结构,包括输入的乘法组成和输入的加法组成。该技术方案类似于递归神经网络(RNN)。该模型进一步由参数K(展开系数)决定,该参数决定执行循环的次数。通过添加类似于RNN的反馈机制允许低层网络指导较高层特征的权重,可以对较低层的权重进行更精细的选择。通过反馈机制,及时很浅的人工神经网络也能拥有类似于深层的神经网络表现,但是和相同深度的神经网络相比,展开的网络使用的参数要少的多,但两个网络使用的参数要少得多。
Rethinking CNN提出现有的卷积神经网络的模型在计算机视觉领域取得了巨大的成功,CNN能够以端到端的培训方式从图像中学习到分层抽象的能力,但是大多数现有的CNN模型仅能通过前馈结构学习特征,并不能利用上下层的反馈信息来进行自我完善。于是该技术方案提出一种“反思学习”算法,通过添加反馈层并生成强调向量,使得该模型能够给予先前的预测来反复提高性能。具体来说该方案通过添加新的反馈层将反馈机制引入到常规卷积神经网络体系结构中去,该反馈层用于连接在从顶而下的并不相连的两层。当输入样本经过所有层的时候并不立即基于预测的后验概率进行预测,而是通过部署一个反馈层将预测的后验概率传播到底层来更新网络。并为了在特定层中自适应地对不同特征图进行加权,还在网络中加入了强调层。强调层将反馈层生成的强调向量作为输入,并输出重新加权的特征图。该技术方案通过添加反馈层和强调层来增强现有的神经网络体系结构,构建了“反思学习”网络。
RNNs虽然同样具有循环结构,但它并没有反思能力而是有了一定的记忆能力从而解决了很多的序列预测问题。这些方法都在尝试添加反馈机制来模拟人脑以追求更智能的深度学习模型,但这些方法都还只是初步的利用反馈循环结构,并没有充分的利用反馈回路来进行更智能的计算与处理。因此,这些方法都缺乏和人类类似的反思,纠错能力。
参考文件:
[1]Nayebi A,Bear D,Kubilius J,et al.Task-driven convolutionalrecurrent models of the visual system[J].Advances in Neural InformationProcessing Systems,2018,31:5290-5301.
[2]Karim R,Islam M A,Bruce N D B.Recurrent iterative gating networksfor semantic segmentation[C]//2019IEEE Winter Conference on Applications ofComputer Vision(WACV).IEEE,2019:1070-1079.
[3]Li X,Jie Z,Feng J,et al.Learning with rethinking:Recurrentlyimproving convolutional neural networks through feedback[J].PatternRecognition,2018,79:183-194.
[4]Caswell I,Shen C,Wang L.Loopy neural nets:Imitating feedback loopsin the human brain[J].Tech.Report,2016.
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种基于自审视的多单元反馈网络模型、设备和存储介质,以解决现有技术中存在的至少一个问题。
为实现上述目的及其他相关目的,本申请提供一种基于自审视的多单元反馈网络模型,所述模型包括:整合单元,用于将原始数据X经过干扰所形成的干扰数据X1作为输入;和/或,将新的所述干扰数据X1与最新经过纠错的反馈数据X2进行整合所得到的整合数据X3作为输入;编码单元,用于将干扰数据X1或整合数据X3进行编码以输出特征Z;控制器,用于判断是否满足预设条件,以供在不满足时将特征Z输入至自审视单元或在满足时将特征Z输入至解码单元;自审视单元,用于将输入的特征Z作为输入并对其进行修复处理以形成反馈数据X2,以供依据所述特征Z和输入的干扰数据X1恢复出被干扰的原始数据X;解码单元,用于对输入的特征Z进行解码并输出结果Y,以供根据编码单元输出结构进行下游任务。
于本申请的一实施例中,所述编码单元包括:三个残差网络块,每个残差网络块由四层组成;其中,包括:两层用作学习匹配的过滤器的卷积层、一层用于避免过度拟合训练数据的随机失活层、及一层用于增强网络的拟合能力的线性整流函数激活层;所述编码单元的第一个残差网络块和第三个残差网络块中分别添加有一最大池化层,以对前一层的输出进行下采样。
于本申请的一实施例中,所述自审视单元包括:四个卷积层和一上下文注意机制;所述上下文注意机制关注于学习从已知的背景中借用或复制特征信息以优化修复受干扰的部分。
于本申请的一实施例中,所述解码单元由一个残差网络块和一个全连接线性层组成。
于本申请的一实施例中,所述模型的损失函数为:L={l1,l2,l3},具体包括:1)l2为所述自审视单元的损失函数,其为均方根误差和最小绝对值误差的联合损失函数,具体公式为:
Figure BDA0002960532160000041
其中,x为原始数据;
Figure BDA0002960532160000042
为干扰数据X1或整合数据X3;λ为均衡系数;2)l3为所述自审视单元的损失函数,其为交叉熵损失函数:
Figure BDA0002960532160000043
l3为解码单元的损失函数;其中,C为视频帧对应类别总数,n为数据集数据帧数量,
Figure BDA0002960532160000044
为第i个视频帧对应的类别,log为对数函数,yi第i个视频帧输出的预测类别;3)l1为所述解码单元的损失函数,其为l2和l3之和:
Figure BDA0002960532160000045
其中,β为平衡系数。
于本申请的一实施例中,所述预设条件为预设指标参数或预设反馈次数。
于本申请的一实施例中,所述整合包括:替换、相加、及相乘中任意一种或多种组合。
于本申请的一实施例中,所述下游任务包括:视频传输、图像修复、语音合成、语音识别、及信道均衡中任意一种。
为实现上述目的及其他相关目的,本申请提供一种计算机设备,所述设备包括:存储器、及处理器;所述存储器用于存储计算机指令;所述处理器运行计算机指令实现如上所述模型的功能。
为实现上述目的及其他相关目的,本申请提供一种计算机可读存储介质,存储有计算机指令,所述计算机指令被运行时执行如上所述模型的功能。
综上所述,本申请的一种基于自审视的多单元反馈网络模型、设备和存储介质,所述模型包括:整合单元,用于将原始数据X经过干扰所形成的干扰数据X1作为输入;和/或,将新的所述干扰数据X1与最新经过纠错的反馈数据X2进行整合所得到的整合数据X3作为输入;编码单元,用于将干扰数据X1或整合数据X3进行编码以输出特征Z;控制器,用于判断是否满足预设条件,以供在不满足时将特征Z输入至自审视单元或在满足时将特征Z输入至解码单元;自审视单元,用于将输入的特征Z作为输入并对其进行修复处理以形成反馈数据X2,以供依据所述特征Z和输入的干扰数据X1恢复出被干扰的原始数据X;解码单元,用于对输入的特征Z进行解码并输出结果Y,以供根据编码单元输出结构进行下游任务。
具有以下有益效果:
本申请提出了基于自审视的多单元反馈网络模型。该反馈网络模型主要由三个智能体组成:编码单元、自审视单元、及解码智单元。自审视单元将编码智能体编码结果作为输入,对编码结果进行再处理,纠错后再输入到编码单元中进行编码,最后解码单元进行解码三个智能体紧密合作使得整个网络有着更强的反思纠错能力。
附图说明
图1显示为本申请于一实施例中基于自审视的多单元反馈网络模型的流程示意图。
图2显示为本申请于一实施例中基于自审视的多单元反馈网络模型的架构示意图。
图3显示为本申请于一实施例中基于自审视的多单元反馈网络模型的场景示意图。
图4显示为本申请于一实施例中结构相似度指标对比的示意图。
图5显示为本申请于一实施例中峰值信噪比指标对比的示意图。
图6显示为本申请于一实施例中分类正确率指标对比的示意图。
图7A和7B显示为本申请于一实施例中实际恢复效果的对比示意图。
图8显示为本申请于一实施例中算机设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,虽然图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,但其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
在通篇说明书中,当说某部分与另一部分“连接”时,这不仅包括“直接连接”的情形,也包括在其中间把其它元件置于其间而“间接连接”的情形。另外,当说某种部分“包括”某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素,排除在外,而是意味着可以还包括其它构成要素。
其中提到的第一、第二及第三等术语是为了说明多样的部分、成分、区域、层及/或段而使用的,但并非限定于此。这些术语只用于把某部分、成分、区域、层或段区别于其它部分、成分、区域、层或段。因此,以下叙述的第一部分、成分、区域、层或段在不超出本申请范围的范围内,可以言及到第二部分、成分、区域、层或段。
再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
神经科学研究表明在人类大脑中存在着大量的循环反馈机制来进行视觉处理。受这些神经科学研究启发,ConvRNNs[1],RIG-Net[2],RethinkingCNN[3]和LoopyNets[4]等方法引入了循环反馈结构来解决图像识别问题。一方面他们使用循环结构来提升分类正确率,另一方面像ConvRNNs,RethinkingNets,LoopyNets等模型在中间层添加一条反馈回路将中间层信息反馈至底层神经元。这些现有的工作都在尝试在现有神经网络架构的基础上实现类似于人脑的反思能力,但这些方法都只是简单的模拟大脑中的神经网络的反馈回路结构,并不具有对中间层或者顶层信息进行自我审视反思的能力。
为了克服现有网络架构大多为简单的利用反馈循环机制,而缺乏足够的反思和纠错能力,本申请提出了一种基于自审视的多单元反馈网络模型。该反馈网络模型主要由三个单元组成:编码单元、自审视单元、解码单元。自审视单元将编码单元输出的编码结果作为输入,对编码结果进行再处理,纠错后再输入到编码单元中进行编码,最后解码单元进行解码,三个单元紧密合作使得整个网络有着更强的反思纠错能力。
如图1所示,展示为本申请一实施例中的基于自审视的多单元反馈网络模型的流程示意图。如图所示,所述模型包括:整合单元110、编码单元120、控制器130、自审视单元140、及解码单元150。
所述整合单元110,用于将原始数据X经过干扰所形成的干扰数据X1作为输入;和/或,将新的所述干扰数据X1与最新经过纠错的反馈数据X2进行整合所得到的整合数据X3作为输入。
举例来说,于本申请中原始数据为X,比如图像、音频等,其在采集或者传输过程中可能受到干扰形成干扰数据X1。受干扰的干扰数据X1是本申请所述模型的最终输入,后续通过本申请中的自审视单元140,其内的自审视机制能够对输入的干扰数据X1进行反思纠错来修正网络的行为。
优选地,输入的数据仅为干扰数据X1为首次输入或前几次数据,该过程中还未由自审视单元140形成反馈数据X2;在形成反馈数据X2之后,所述整合单元110,会整合每轮最新的干扰数据X1与最新的经过纠错的反馈数据X2,并形成整合数据X3。
优选地,所述整合包括但不限于:替换、相加、及相乘中任意一种或多种组合。于本申请中并不局限于上述整合方式,数据整合常用的方也均涵盖于本申请中,例如,根据输入数据的类型不同,还可包含去重、融合等。
所述编码单元120,用于将干扰数据X1或整合数据X3进行编码以输出特征Z。
简单来说,编码单元120负责将干扰数据X1以及后续经自审视单元140输出的整合数据X3映射到一个隐藏空间中,并输出一个经过编码的特征Z。这里的所述隐藏空间即为存放包含隐藏特征向量的经编码的特征Z。
所述控制器130,用于判断是否满足预设条件,以供在不满足时将特征Z输入至自审视单元140或在满足时将特征Z输入至解码单元150。其主要用来判断编码单元120输出的结果是否满足要求,并确定输出的特征的下一个流转方向。
简单来说,为了使整个自审视环路更平稳地流动,添加了控制器130来判断编码单元120处理的结果是否满足要求,并确定输出的特征的下一个流转方向。例如,进入自审视单元140进行自审视修复或直接跳出循环。
具体地,若自审视反馈尚未结束就将控制器130送入反馈回路自审视单元140中,若自审视反馈已经结束就将特征Z送入解码单元150中进行进一步处理。即若不满足要求,则认定自审视反馈尚未结束,将特征Z输入所述自审视单元140中;若特征Z满足要求,则认定自审视反馈结束,将特征Z输入所述解码单元150中。
优选地,所述预设条件为预设指标参数或预设反馈次数。
举例来说,指标参数可包括结构相似性、峰值信噪比、分类正确率等指标。另外,所述控制器130还可通过控制反馈的次数,以供达到最佳的网络表现。
所述自审视单元140,用于将输入的特征Z作为输入并对其进行修复处理以形成反馈数据X2,以供依据所述特征Z和输入的干扰数据X1恢复出被干扰的原始数据X。
与朴素的反馈架构不同的是:本申请在反馈回路中添加了自审视单元140,该自审视单元140通过对编码后的特征Z进行自我修复,输出经过修复的反馈数据X2,该输出将和原始收到干扰的干扰数据X1通过整合单元110一同送入下一个自审视循环中。
本申请自审视单元140旨在进一步消除干扰,并从特征Z(隐藏特征向量)和原始输入的干扰数据X1中恢复被干扰的原始数据X。其中,自审视单元140包括一上下文注意机制,所述上下文注意机制关注于学习从已知的背景中借用或复制特征信息以更好的修复受干扰的部分。
举例来说,假设输入的干扰数据X1为视频帧,那么在自审视单元140中将根据关联视频帧或相邻视频帧的特征信息,对被干扰的视频帧进行一或多轮的修复。
所述解码单元150,用于对输入的特征Z进行解码并输出结果Y,以供根据编码单元120输出结构进行下游任务。
简单来说,在自审视反馈结束之后,控制器130将学习到的特征送入解码单元150。解码单元150根据自审视之后的编码单元120输出结果进行下游任务,于本申请中,所述下游任务包括:视频传输、图像修复、语音合成、语音识别、及信道均衡中任意一种。举例来说,所述下游任务可为视频帧分类。
需说明的是,本申请中利用“自审视智能体”所形成的网络模型的在结构上与现有网络模型中的结构上存在区别:
前馈:以CNN(卷积神经网络)为代表的前馈网络前馈型网络可用有向无环路图表示,其可以分为若干“层”,各层按信号传输先后顺序依次排列。即数据流是单向流动的,输入经过神经网络单向流动到输出端。
反馈,循环:以RNN(循环神经网络)为代表的反馈网络是一种对序列数据建模的神经网络,即一个序列当前的输出与前面的输出也有关。RNN是将之前的输出直接作为下一个时刻的输入。
而本申请的方法是虽然在CNN中引入反馈的结构,但不同的是本申请在反馈的回路上添加了一个神经网络(自审视智能体),该模块是其他反馈模型所没有的,可以通过该模块对收到干扰的输入进行纠正后在返回到输入,这样可以纠正输入,从而得到更好的效果。
自审视智能体可形象化为“人脑”,人有很强的抗干扰能力,对于受干扰的画面有着想象、填补、纠错的能力,从而对场景有着更准确地认知、判断,而这种纠错能力体现在本申请的反馈架构和自审视智能体上。
如图2所示,展示为本申请一实施例中的基于自审视的多单元反馈网络模型的架构示意图。如图所示,所述自审视单元140包括:四个卷积(Conv)层和一上下文注意机制;所述上下文注意机制关注于学习从已知的背景中借用或复制特征信息以优化修复受干扰的部分。所述解码单元150由一个残差网络块和一个全连接线性层组成,最后输出分类结果。
所述编码单元120由两部分组成,一部分尝试学习视频帧中收到的遮挡,并将遮挡作为输出送入自审视单元140以帮助其恢复;另一部分为编码单元120的主要部件,主要包括:三个残差网络块,每个残差网络块由四层组成;其中包括:两层用作学习匹配的过滤器的卷积(Conv)层、一层用于避免过度拟合训练数据的随机失活(Dropout)层、及一层用于增强网络的拟合能力的线性整流函数(ReLU)激活层。
其中,干扰学习模块是通过构建一个小的神经网络来学习添加在图片、视频帧上的干扰,在实施例中如学习添加的遮挡(mask),可将学习到的遮挡作为额外信息送到下游网络中进行学习
此外,所述编码单元120的第一个残差网络块和第三个残差网络块中还可分别添加有一最大池化层(Max-Pooling),以对前一层的输出进行下采样。
需要说明的是,由于存在最大池化层,因此每个残差网络块会将特征图的大小减小到输入的一半。在经过整个编码单元120之后的最终输出大小为原始输入的1/4。为了让自审视单元140拥有更多的信息,在网络末端使用了联接操作以对输出的1/4大小特征图、学习的干扰进行联接,并最终输出到控制器130。
于本申请一实施例中,所述模型的损失函数为:L={l1,l2,l3},具体包括:
1)l2为所述自审视单元140的损失函数,其为均方根误差和最小绝对值误差的联合损失函数,具体公式为:
Figure BDA0002960532160000091
其中,x为原始数据;
Figure BDA0002960532160000092
为干扰数据X1或整合数据X3;λ为均衡系数;
2)l3为所述自审视单元140的损失函数,其为交叉熵损失函数:
Figure BDA0002960532160000093
l3为解码单元150的损失函数;
其中,C为视频帧对应类别总数,n为数据集数据帧数量,
Figure BDA0002960532160000094
为第i个视频帧对应的类别,log为对数函数,yi第i个视频帧输出的预测类别;
3)l1为所述解码单元150的损失函数,其为l2和l3之和:
Figure BDA0002960532160000095
其中,β为平衡系数。
如图3所示,展示为本申请一实施例中的基于自审视的多单元反馈网络模型的场景示意图。为了验证该模型,本申请在无线视频传输场景中应用了本申请基于自我审视的多单元反馈网络模型。如图所示,场景中包含两个部分:一个发送端,一个接收端。在发送端,无线摄像机捕获视频信息,并将视频通过无线通道发送到接收端。在无线传输之后,例如,通过毫米波传播,传输的信号可能遭受高的自由空间传播损失,空气损失,雨水衰减和材料穿透损失。当干扰较弱时,视频帧可能会变得模糊或平均受到正常噪声的干扰。在严重干扰下,视频帧很可能在很大范围内被遮挡。
本申请的基于自审视的多单元反馈网络模型应用将那些受遮挡和受干扰的视频帧作为输入,而编码单元120将受干扰的帧编码到更干净的潜在空间。与其他普通反馈方法不同,本申请在反馈循环中添加了可学习的自审视单元140,以对编码单元120输出的处理后的潜在变量进行自我审视和重新学习,从而消除噪声或遮挡并修复高质量的视频帧。
为了使信息流更流畅,本申请添加了一个控制器130在三个单元的连接处。控制器130决定信号的下一个方向,例如,继续进行自审视循环或直接跳出自审视循环。最后,解码单元150根据自审视之后的编码单元120输出结果进行下游任务,在这里本申请下游任务选择的是视频帧分类。经过实验表明,本申请所提出的基于自审视的多单元反馈网络模型可以在恶劣的干扰下提供高质量的视频传输服务,并对视频帧进行分类,不仅可以验证视频帧恢复结果,还可以实现更高级别的人工智能应用。
为了验证该模型的优越性能,本申请应用视频传输领域进行实验,并和传统的前聩网络、LoopyNet进行对比。如图4展示为结构相似度指标对比的示意图,图5展示为峰值信噪比指标对比的示意图,图6展示为分类正确率指标对比的示意图。其中,ReTMA-4为本申请实施例中反馈4次,ReTMA-7为本申请实施例中反馈7次,LoopyNet为朴素的反馈网络,MaskedFrame为受干扰的视频帧指标,ForwardNet18层为残差网络。
由图4与图5可以看出,本申请对于遮挡的视频流有着较高的表现提升。其中,视频帧恢复评价指标结构相似度比LoopyNet平均提升0.11,在遮挡为50%时提升了27%,峰值信噪比指标和LoopyNet相比平均有着4%的效果提升。本申请也对比了不同反馈次数4次和7次的结果,7次反馈相比于4次反馈在结构相似度指标、峰值信噪比指标上有着平均12.94%,1.58dB的提升。
同时对于下游任务分类,本申请和传统的前馈网络-残差网络18层网络,LoopyNet进行对比,由图6可以看出,在反馈7次的情况下有着比残差网络18层网络有20.87%的提高,比LoopyNet提高了10%。
另外,如图7A和7B所示,分别展示为实际恢复效果的对比示意图。
还需要说明的是,应理解以上模型的各个单元的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分单元通过处理元件调用软件的形式实现,部分单元通过硬件的形式实现。例如,自审视单元140可以为单独设立的处理元件,也可以集成在上述模型的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述模型的存储器中,由上述模型的某一个处理元件调用并执行以上自审视单元140的功能。其它单元的实现与之类似。此外这些单元全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,以上各个单元可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些单元可以是被配置成实施以上模型的功能的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC);或,一个或多个微处理器(digital signal processor,简称DSP);或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等;再如,当以上某个单元通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器;再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
如图8所示,展示为本申请于一实施例中的计算机设备的结构示意图。如图所示,所述计算机设备800包括:存储器801、及处理器802;所述存储器801用于存储计算机指令;所述处理器802运行计算机指令实现如图1所述模型的功能。
在一些实施例中,所述计算机设备800中的所述存储器801的数量均可以是一或多个,所述处理器802的数量均可以是一或多个,而图8中均以一个为例。
于本申请一实施例中,所述计算机设备800中的处理器802会按照如图1所述模型的功能,将一个或多个以应用程序的进程对应的指令加载到存储器801中,并由处理器802来运行存储在存储器801中的应用程序,从而实现如图1所述模型的功能。
所述存储器801可以包括随机存取存储器(RandomAccessMemory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。所述存储器801存储有操作系统和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作系统可包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
所述处理器802可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在一些具体的应用中,所述计算机设备800的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清除说明起见,在图8中将各种总线都成为总线系统。
于本申请的一实施例中,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图1所述模型的功能。
在任何可能的技术细节结合层面,本申请可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本申请的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是(但不限于)电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本申请的各个方面。
综上所述,本申请提供的一种基于自审视的多单元反馈网络模型、设备和存储介质,本申请提出了基于自审视的多单元反馈网络模型。该反馈网络模型主要由三个智能体组成:编码单元、自审视单元、及解码智单元。自审视单元将编码智能体编码结果作为输入,对编码结果进行再处理,纠错后再输入到编码单元中进行编码,最后解码单元进行解码三个智能体紧密合作使得整个网络有着更强的反思纠错能力。
本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (10)

1.一种基于自审视的多单元反馈网络模型,其特征在于,所述模型包括:
整合单元,用于将原始数据X经过干扰所形成的干扰数据X1作为输入;和/或,将新的所述干扰数据X1与最新经过纠错的反馈数据X2进行整合所得到的整合数据X3作为输入;
编码单元,用于将干扰数据X1或整合数据X3进行编码以输出特征Z;
控制器,用于判断是否满足预设条件,以供在不满足时将特征Z输入至自审视单元或在满足时将特征Z输入至解码单元;
自审视单元,用于将输入的特征Z作为输入并对其进行修复处理以形成反馈数据X2,以供依据所述特征Z和输入的干扰数据X1恢复出被干扰的原始数据X;
解码单元,用于对输入的特征Z进行解码并输出结果Y,以供根据编码单元输出结构进行下游任务。
2.根据权利要求1所述的模型,其特征在于,所述编码单元包括:三个残差网络块,每个残差网络块由四层组成;
其中,包括:两层用作学习匹配的过滤器的卷积层、一层用于避免过度拟合训练数据的随机失活层、及一层用于增强网络的拟合能力的线性整流函数激活层;
所述编码单元的第一个残差网络块和第三个残差网络块中分别添加有一最大池化层,以对前一层的输出进行下采样。
3.根据权利要求1所述的模型,其特征在于,所述自审视单元包括:四个卷积层和一上下文注意机制;所述上下文注意机制关注于学习从已知的背景中借用或复制特征信息以优化修复受干扰的部分。
4.根据权利要求1所述的模型,其特征在于,所述解码单元由一个残差网络块和一个全连接线性层组成。
5.根据权利要求1所述的模型,其特征在于,所述模型的损失函数为:L={l1,l2,l3},具体包括:
1)l2为所述自审视单元的损失函数,其为均方根误差和最小绝对值误差的联合损失函数,具体公式为:
Figure FDA0002960532150000011
其中,x为原始数据;
Figure FDA0002960532150000012
为干扰数据X1或整合数据X3;λ为均衡系数;
2)l3为所述自审视单元的损失函数,其为交叉熵损失函数:
Figure FDA0002960532150000013
l3为解码单元的损失函数;
其中,C为视频帧对应类别总数,n为数据集数据帧数量,
Figure FDA0002960532150000021
为第i个视频帧对应的类别,log为对数函数,yi第i个视频帧输出的预测类别;
3)l1为所述解码单元的损失函数,其为l2和l3之和:
Figure FDA0002960532150000022
其中,β为平衡系数。
6.根据权利要求1所述的模型,其特征在于,所述预设条件为预设指标参数或预设反馈次数。
7.根据权利要求1所述的模型,其特征在于,所述整合包括:替换、相加、及相乘中任意一种或多种组合。
8.根据权利要求1所述的模型,其特征在于,所述下游任务包括:视频传输、图像修复、语音合成、语音识别、及信道均衡中任意一种。
9.一种计算机设备,其特征在于,所述设备包括:存储器、及处理器;所述存储器用于存储计算机指令;所述处理器运行计算机指令实现如权利要求1至8中任意一项所述模型的功能。
10.一种计算机可读存储介质,其特征在于,存储有计算机指令,所述计算机指令被运行时执行如权利要求1至8中任一项所述模型的功能。
CN202110236817.9A 2021-03-03 2021-03-03 基于自审视的多单元反馈网络模型、设备和存储介质 Active CN113011582B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110236817.9A CN113011582B (zh) 2021-03-03 2021-03-03 基于自审视的多单元反馈网络模型、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110236817.9A CN113011582B (zh) 2021-03-03 2021-03-03 基于自审视的多单元反馈网络模型、设备和存储介质

Publications (2)

Publication Number Publication Date
CN113011582A true CN113011582A (zh) 2021-06-22
CN113011582B CN113011582B (zh) 2023-12-12

Family

ID=76404276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110236817.9A Active CN113011582B (zh) 2021-03-03 2021-03-03 基于自审视的多单元反馈网络模型、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113011582B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190188562A1 (en) * 2017-12-15 2019-06-20 International Business Machines Corporation Deep Neural Network Hardening Framework
CN110598779A (zh) * 2017-11-30 2019-12-20 腾讯科技(深圳)有限公司 摘要描述生成方法、装置、计算机设备和存储介质
CN111860528A (zh) * 2020-06-16 2020-10-30 南京邮电大学 基于改进U-Net网络的图像分割模型及训练方法
CN111915691A (zh) * 2019-05-07 2020-11-10 上海科技大学 基于神经网络的图像处理系统、方法、终端、及介质
CN112131429A (zh) * 2020-09-16 2020-12-25 北京影谱科技股份有限公司 一种基于深度预测编码网络的视频分类方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598779A (zh) * 2017-11-30 2019-12-20 腾讯科技(深圳)有限公司 摘要描述生成方法、装置、计算机设备和存储介质
US20190188562A1 (en) * 2017-12-15 2019-06-20 International Business Machines Corporation Deep Neural Network Hardening Framework
CN111915691A (zh) * 2019-05-07 2020-11-10 上海科技大学 基于神经网络的图像处理系统、方法、终端、及介质
CN111860528A (zh) * 2020-06-16 2020-10-30 南京邮电大学 基于改进U-Net网络的图像分割模型及训练方法
CN112131429A (zh) * 2020-09-16 2020-12-25 北京影谱科技股份有限公司 一种基于深度预测编码网络的视频分类方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张德正等: "基于深度卷积长短时神经网络的视频帧预测", 计算机应用, no. 06 *

Also Published As

Publication number Publication date
CN113011582B (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
Kim et al. Emi: Exploration with mutual information
Niculae et al. A regularized framework for sparse and structured neural attention
Perarnau et al. Invertible conditional gans for image editing
Bengio et al. Generalized denoising auto-encoders as generative models
CN110309732A (zh) 基于骨架视频的行为识别方法
CN110135386B (zh) 一种基于深度学习的人体动作识别方法和系统
Lin et al. The lighter the better: rethinking transformers in medical image segmentation through adaptive pruning
Chien et al. Hierarchical and self-attended sequence autoencoder
Zhou et al. Learning multiscale correlations for human motion prediction
CN112668543A (zh) 一种手模型感知的孤立词手语识别方法
Cohen et al. Diffusion bridges vector quantized variational autoencoders
Cho et al. An improved algorithm for learning long-term dependency problems in adaptive processing of data structures
Xu et al. Development of Skip Connection in Deep Neural Networks for Computer Vision and Medical Image Analysis: A Survey
Nakano et al. Interaction-based disentanglement of entities for object-centric world models
Chen et al. TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction
TW202348029A (zh) 使用限幅輸入數據操作神經網路
CN113011582A (zh) 基于自审视的多单元反馈网络模型、设备和存储介质
Agrawal et al. Deep variational inference without pixel-wise reconstruction
Su et al. Adaptive multi-order graph neural networks for human motion prediction
CN118202389A (zh) 基于自适应深度学习的点云压缩概率预测方法
Dai et al. An investigation of gcn-based human action recognition using skeletal features
Ye Emotion recognition of online education learners by convolutional neural networks
Islam et al. Multi-hop graph transformer network for 3D human pose estimation
Kim et al. Learning spectral transform for 3D human motion prediction
Xuan et al. Skeleton based human action recognition with relative position encoding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant