CN110348567B - 一种基于自动寻址和递归信息整合的内存网络方法 - Google Patents
一种基于自动寻址和递归信息整合的内存网络方法 Download PDFInfo
- Publication number
- CN110348567B CN110348567B CN201910635623.9A CN201910635623A CN110348567B CN 110348567 B CN110348567 B CN 110348567B CN 201910635623 A CN201910635623 A CN 201910635623A CN 110348567 B CN110348567 B CN 110348567B
- Authority
- CN
- China
- Prior art keywords
- memory
- information
- addressing
- network
- automatic addressing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/06—Addressing a physical block of locations, e.g. base addressing, module addressing, memory dedication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/10—Providing a specific technical effect
- G06F2212/1041—Resource optimization
- G06F2212/1044—Space efficiency improvement
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于自动寻址和递归信息整合的内存网络方法。该方法基于自动寻址和递归信息整合的内存神经网络框架,是一种高效和轻量级的内存网络方法,通过时间和空间复杂度较低的自动寻址操作对内存进行读写,并通过一种新颖的计算单元对内存信息进行有效利用,整个框架具有高效、快速、通用性强的特点,适用于各种时序处理任务,并表现出超越传统LSTM和之前的内存网络的性能。
Description
技术领域
本发明属于深度学习领域,涉及递归神经网络和内存神经网络,更具体地涉及一种基于自动寻址和递归信息整合的内存网络方法。
背景技术
在深度学习技术中,递归神经网络(RNN)是一种典型的用于处理时序任务的神经网络,其代表性框架如长短期记忆网络(LSTM),门控循环单元(GRU)具有良好的时序建模能力,被应用于各种实际场景下的时序任务,例如语音识别,文本推理和视频分析。
然而,目前典型的递归神经网络都面临以下两个问题:
一、训练时的梯度消失和梯度爆炸问题。在训练的时间步较长的情况下,容易发生梯度的累乘导致的梯度过小(接近于0)或者过大的情况(接近无穷),导致网络的训练无法收敛。
二、RNN在前后时间步只传递一个维度有限的隐状态,因此对历史信息的记忆能力有限。
基于上述两点问题,相关研究借鉴冯诺依曼架构的思想,提出了内存增强的递归神经网络,即将RNN的每个时间步产生的信息显式地存储在一个内存矩阵中,并通过学习可训练的读写方式,在每个时间步对内存进行读写。这种内存机制能够明显解决上述两种RNN面临的问题:
一、梯度在训练时可直接通过内存传播到过去所需的某个时间步,避免了梯度累乘,因此可缓解梯度消失和爆炸问题。
二、历史信息可直接被存储在内存矩阵中,大大增强了网络对历史信息的记忆能力。
然而,此前的内存神经网络存在两点不足:
一、内存读写所依赖的寻址方式为基于内容寻址和基于位置寻址,这样的寻址方式对内存消耗较高,其空间复杂度与整个内存矩阵的尺寸成正比,由于操作复杂,其速度也较慢。
二、对读到的内存信息和上一个时间步传来的隐状态信息进行综合计算的处理单元只是简单地复用LSTM的计算步骤,导致无法有效利用内存信息。
因此,当前的内存神经网络具有速度、内存消耗、内存信息利用效率等方面的问题。
发明内容
为了克服上述用于增强RNN能力的内存神经网络的不足,在考虑计算复杂度的条件下,进一步改善内存神经网络的压缩性能,本发明提供了一种基于自动寻址和递归信息整合的内存网络框架。
本发明的基于自动寻址和递归信息整合的内存网络方法,包括如下步骤:
1)使用自动寻址对内存矩阵进行读操作,直接利用递归神经网络(RNN)在不同时间步之间传递的隐状态ht-1对历史的内存寻址信息进行编码,结合当前的输入xt对内存进行寻址;
2)使用递归信息整合的计算单元对隐状态ht-1、内存信息rt和输入xt进行综合计算:
公式(1)中计算的两个门分别用于逐元素地控制ht-1和rt的信息流入,即公式(2)、(3)的含义,其后复用长短期记忆网络(LSTM)的信息处理方式进行综合计算,如公式(4)(5)所示,最后,将产生的新隐状态ht和内存信息rt分别用公式(4)中计算的两个输出门进行信息控制后并连接后输出;
3)对内存的写操作:
将该时刻产生的新的隐状态ht作为需要记忆的信息,写入内存;
4)进入下一个时间步:
将ht传入下一个时间步,接收输入xt+1,回到步骤1)循环执行上述步骤。
优选的,自动寻址方法具体为将ht-1与xt连接起来,并送入一个全连接层,得到一个N维的嵌入,嵌入被认为是一个未归一化的内存寻址概率,并用gumbel-softmax将该概率采样成一个独热向量(one-hot vetor),并读出内存中对应该矢量中元素为1的位置的D维的条目rt。
优选的,步骤3)中写入内存的写入位置为步骤1)中使用独热向量读出rt的位置。
优选的,自动寻址方法仅使用ht-1与xt进行内存寻址,并使用gumbel-softmax函数对未归一化的概率矢量进行归一化和独热采样。
本发明的方法具有如下优点:
本发明方法是基于自动寻址和递归信息整合的内存神经网络框架,是一种高效和轻量级的内存网络方法,通过时间和空间复杂度较低的自动寻址操作对内存进行读写,并通过一种新颖的计算单元对内存信息进行有效利用,整个框架具有高效、快速、通用性强的特点,适用于各种时序处理任务,并表现出超越传统LSTM和之前的内存网络的性能。
附图说明
图1是本发明的基于自动寻址和递归信息整合的内存网络方法的流程框图。
图2是本发明在数组拷贝的任务上的验证集的交叉熵损失下降曲线。
图3是本发明在重复拷贝的任务上的验证集的交叉熵损失下降曲线。
图4是本发明在相关召回的任务上的验证集的交叉熵损失下降曲线。
图5是本发明在优先级排序的任务上的验证集的交叉熵损失下降曲线。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供了一种基于自动寻址和递归信息整合的内存网络方法,该方法是基于自动寻址和递归信息整合的内存神经网络框架,通过时间和空间复杂度较低的自动寻址操作对内存进行读写,并通过一种新颖的计算单元对内存信息进行有效利用,整个框架具有高效、快速、通用性强的特点,适用于各种时序处理任务,并表现出超越传统LSTM和之前的内存网络的性能。
本发明的方法针对时序任务提出一种新的基于自动寻址和递归信息整合的内存网络方法,即,一种内存循环神经网络框架;图1是本发明的内存网络方法的流程框图,具体实施方式如下。
内存循环神经网络框架的内存矩阵为1个N×D维的矩阵,其中N为内存的条目数量,D等于RNN隐状态的维度,在处理标准的RNN输入序列时包含如下计算步骤:
1)使用自动寻址对内存矩阵进行读操作:
本内存循环神经网络框架的自动寻址方法即直接利用RNN在不同时间步之间传递的隐状态ht-1对历史的内存寻址信息进行编码,结合当前的输入xt对内存进行寻址。具体为将ht-1与xt连接起来,并送入一个全连接层(FC),得到一个N维的嵌入向量,该嵌入向量被认为是一个未归一化的内存寻址概率,并用研究者提出的一种gumbel-softmax函数将该概率采样成一个独热向量,并读出内存中对应该矢量中元素为1的位置的D维的内存信息rt。该寻址方法由于操作简单,而运行速度较快,且空间复杂度仅为O(dh+dx),相较于之前的内存网络有大幅减小。该步骤如图1中“读”字样框出的部分流程所示。
2)使用递归信息整合的计算单元对隐状态ht-1,内存信息rt,输入xt进行综合计算:
公式(1)中计算的两个门分别用于逐元素地控制ht-1和rt的信息流入,即公式(2)、(3)的含义。其后复用LSTM的信息处理方式进行综合计算,如公式(4)(5)所示,最后,将产生的新隐状态ht和内存信息rt分别用公式(4)中计算的两个输出门进行信息控制后并连接后输出。该计算单元相比直接复用LSTM,首先过滤了输入ht-1和rt中对该时间步不需要的信息,并在最后多用了一个输出门控制rt中用于输出的信息。这样,可以大大增加对内存信息读取的容错性和灵活性。
递归信息整合的计算单元,相比LSTM的4个门,新增了3个门和分别用于控制ht-1和rt的信息流入,以及rt的信息直接输出。该步骤即图1中“ARMIN(Auto-addressingand Recurrent Memory Integration Network,自动寻址和递归信息整合网络)细胞”字样所在框图内发生的计算过程。
3)对内存的写操作:
将该时刻产生的新的隐状态ht作为需要记忆的信息,写入内存。写入的位置为操作1)中使用独热向量读出rt的位置。该步骤如图1中“写”字样框出的部分流程所示。
4)进入下一个时间步:
将ht传入下一个时间步,接收输入xt+1,回到1)步循环执行上述步骤。如图1中“上个时间步”和“下个时间步”及箭头所示,显示了网络的循环处理过程。
以下结合一套算法任务说明本发明点云属性压缩方法所提供的框架的效果。具体上这套算法任务分为:a)数组拷贝:在前50个时间步将随机生成的50个6比特二进制数字输入递归网络,并要求网络在后50个时间步按照相同顺序输出之前输入的目标数组,在以下所有实验中,我们使用交叉熵损失测量实际输出数组与目标数组的偏离程度,偏离程度越低,则交叉熵损失越低,说明该递归网络利用历史内存信息完成任务的能力越强;其交叉熵损失下降曲线如图2所示;b)重复拷贝:向递归网络输入长度为1~10的数组,拷贝输出该数组1~10次,其交叉熵损失下降曲线如图3所示;c)相关召回:向递归网络输入2~6个(键,值)对,并随后输入其中一个键,要求输出该键对应的值,交叉熵损失下降曲线如图4所示;d)优先级排序:向递归网络随机输入40个(键,值)对,按照键的优先级降序输出前30个键最高的值,交叉熵损失下降曲线如图5所示。采用输出二进制序列与标准答案的交叉熵作为任务损失评估模型性能,损失越低说明网络性能越好。本内存循环神经网络框架与此前的内存网络,即图2~5中所示的TARDIS(Temporal Automatic Relation Discovery inSequences,时序自动关系发现网络)、AwTA(ARMIN with TARDIS Addressing,基于TARDIS寻址方式的ARMIN)、SAM(Sparse Access Memory,稀疏访问内存)、DNC(DifferentiableNeural Computer,可微分神经计算机)、NTM(Neural Turing Machine,神经图灵机)等框架都做了对比。
从图2至图5中可以看出,本框架在4个任务上都表现出损失下降较快,最终收敛损失较低的特点,所需迭代数较少,说明其对训练样本利用率较高。这表现出如前所述的本框架的内存寻址机制的学习速度快,以及对内存信息利用效率高的优点。此外,该框架的实际运行速度为对比框架中性能较好的NTM的3~4倍。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (5)
1.一种基于自动寻址和递归信息整合的内存网络方法,包括如下步骤:
1)使用自动寻址对内存矩阵进行读操作,直接利用递归神经网络在不同时间步之间传递的隐状态ht-1对历史的内存寻址信息进行编码,结合当前的输入xt对内存进行寻址;
2)使用递归信息整合的计算单元对隐状态ht-1、内存信息rt和输入xt进行综合计算:
公式(1)中计算的两个门分别用于逐元素地控制ht-1和rt的信息流入,即公式(2)、(3)的含义,其后复用长短期记忆网络(LSTM)的信息处理方式进行综合计算,如公式(4)(5)所示,最后,将产生的新隐状态ht和内存信息rt分别用公式(4)中计算的两个输出门进行信息控制后并连接后输出;
3)对内存的写操作:
将产生的新的隐状态ht作为需要记忆的信息,写入内存;
4)进入下一个时间步:
将ht传入下一个时间步,接收输入xt+1,回到步骤1)循环执行上述步骤。
2.根据权利要求1所述的内存网络方法,其特征在于,所述自动寻址方法具体为将ht-1与xt连接起来,并送入一个全连接层,得到一个N维的嵌入向量,所述嵌入向量认为是一个未归一化的内存寻址概率,并用gumbel-softmax函数将该概率采样成一个独热向量,并读出内存中对应矢量中元素为1的位置的D维的内存信息rt。
3.根据权利要求2所述的内存网络方法,其特征在于,步骤3)中写入内存的写入位置为步骤1)中使用独热向量读出rt的位置。
4.根据权利要求1所述的内存网络方法,其特征在于,所述自动寻址方法仅使用ht-1与xt进行内存寻址,并使用gumbel-softmax函数对未归一化的概率矢量进行归一化和独热采样。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910635623.9A CN110348567B (zh) | 2019-07-15 | 2019-07-15 | 一种基于自动寻址和递归信息整合的内存网络方法 |
PCT/CN2019/101806 WO2021007919A1 (zh) | 2019-07-15 | 2019-08-21 | 一种基于自动寻址和递归信息整合的内存网络方法 |
US17/423,223 US20220138525A1 (en) | 2019-07-15 | 2019-08-21 | Memory network method based on automatic addressing and recursive information integration |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910635623.9A CN110348567B (zh) | 2019-07-15 | 2019-07-15 | 一种基于自动寻址和递归信息整合的内存网络方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110348567A CN110348567A (zh) | 2019-10-18 |
CN110348567B true CN110348567B (zh) | 2022-10-25 |
Family
ID=68175226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910635623.9A Active CN110348567B (zh) | 2019-07-15 | 2019-07-15 | 一种基于自动寻址和递归信息整合的内存网络方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220138525A1 (zh) |
CN (1) | CN110348567B (zh) |
WO (1) | WO2021007919A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210150345A1 (en) * | 2019-11-14 | 2021-05-20 | Qualcomm Incorporated | Conditional Computation For Continual Learning |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650922A (zh) * | 2016-09-29 | 2017-05-10 | 清华大学 | 硬件神经网络转换方法、计算装置、编译方法和神经网络软硬件协作系统 |
CN107239829A (zh) * | 2016-08-12 | 2017-10-10 | 北京深鉴科技有限公司 | 一种优化人工神经网络的方法 |
CN108734272A (zh) * | 2017-04-17 | 2018-11-02 | 英特尔公司 | 卷积神经网络优化机构 |
CN109613178A (zh) * | 2018-11-05 | 2019-04-12 | 广东奥博信息产业股份有限公司 | 一种基于递归神经网络预测空气污染的方法及系统 |
CN109753897A (zh) * | 2018-12-21 | 2019-05-14 | 西北工业大学 | 基于记忆单元强化-时序动态学习的行为识别方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9483362B2 (en) * | 2013-05-08 | 2016-11-01 | Commvault Systems, Inc. | Use of auxiliary data protection software in failover operations |
US9807473B2 (en) * | 2015-11-20 | 2017-10-31 | Microsoft Technology Licensing, Llc | Jointly modeling embedding and translation to bridge video and language |
US10049106B2 (en) * | 2017-01-18 | 2018-08-14 | Xerox Corporation | Natural language generation through character-based recurrent neural networks with finite-state prior knowledge |
EP3566182A1 (en) * | 2017-02-06 | 2019-11-13 | Deepmind Technologies Limited | Memory augmented generative temporal models |
US20180349765A1 (en) * | 2017-05-30 | 2018-12-06 | Xerox Corporation | Log-linear recurrent neural network |
US10258304B1 (en) * | 2017-11-29 | 2019-04-16 | Siemens Healthcare Gmbh | Method and system for accurate boundary delineation of tubular structures in medical images using infinitely recurrent neural networks |
-
2019
- 2019-07-15 CN CN201910635623.9A patent/CN110348567B/zh active Active
- 2019-08-21 WO PCT/CN2019/101806 patent/WO2021007919A1/zh active Application Filing
- 2019-08-21 US US17/423,223 patent/US20220138525A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239829A (zh) * | 2016-08-12 | 2017-10-10 | 北京深鉴科技有限公司 | 一种优化人工神经网络的方法 |
CN106650922A (zh) * | 2016-09-29 | 2017-05-10 | 清华大学 | 硬件神经网络转换方法、计算装置、编译方法和神经网络软硬件协作系统 |
CN108734272A (zh) * | 2017-04-17 | 2018-11-02 | 英特尔公司 | 卷积神经网络优化机构 |
CN109613178A (zh) * | 2018-11-05 | 2019-04-12 | 广东奥博信息产业股份有限公司 | 一种基于递归神经网络预测空气污染的方法及系统 |
CN109753897A (zh) * | 2018-12-21 | 2019-05-14 | 西北工业大学 | 基于记忆单元强化-时序动态学习的行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021007919A1 (zh) | 2021-01-21 |
CN110348567A (zh) | 2019-10-18 |
US20220138525A1 (en) | 2022-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11487954B2 (en) | Multi-turn dialogue response generation via mutual information maximization | |
CN112115352B (zh) | 基于用户兴趣的会话推荐方法及系统 | |
CN111382868B (zh) | 神经网络结构搜索方法和神经网络结构搜索装置 | |
US20200372898A1 (en) | Adversarial Bootstrapping for Multi-Turn Dialogue Model Training | |
CN112508085A (zh) | 基于感知神经网络的社交网络链路预测方法 | |
WO2021042857A1 (zh) | 图像分割模型的处理方法和处理装置 | |
WO2019193377A1 (en) | End-to-end learning in communication systems | |
Cossu et al. | Continual learning with gated incremental memories for sequential data processing | |
WO2018228399A1 (zh) | 运算装置和方法 | |
Zhao et al. | Compact convolutional recurrent neural networks via binarization for speech emotion recognition | |
KR20220098991A (ko) | 음성 신호에 기반한 감정 인식 장치 및 방법 | |
CN111079753A (zh) | 一种基于深度学习与大数据结合的车牌识别方法及装置 | |
CN114926770A (zh) | 视频动作识别方法、装置、设备和计算机可读存储介质 | |
US20230267307A1 (en) | Systems and Methods for Generation of Machine-Learned Multitask Models | |
US20230042327A1 (en) | Self-supervised learning with model augmentation | |
CN110348567B (zh) | 一种基于自动寻址和递归信息整合的内存网络方法 | |
Rawson et al. | Convergence guarantees for deep epsilon greedy policy learning | |
CN111027681A (zh) | 时序数据处理模型训练方法、数据处理方法、装置及存储介质 | |
Zhang et al. | Adversarial VAE with normalizing flows for multi-dimensional classification | |
Borsos et al. | Data summarization via bilevel optimization | |
Kari et al. | Boosted adaptive filters | |
CN116797850A (zh) | 基于知识蒸馏和一致性正则化的类增量图像分类方法 | |
US20240126993A1 (en) | Transformer-based text encoder for passage retrieval | |
CN114819196B (zh) | 基于噪音蒸馏的联邦学习系统及方法 | |
US20230297823A1 (en) | Method and system for training a neural network for improving adversarial robustness |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |