CN109934343A - 基于正交投影矩阵的人工神经网络优化方法、系统、装置 - Google Patents
基于正交投影矩阵的人工神经网络优化方法、系统、装置 Download PDFInfo
- Publication number
- CN109934343A CN109934343A CN201910138155.4A CN201910138155A CN109934343A CN 109934343 A CN109934343 A CN 109934343A CN 201910138155 A CN201910138155 A CN 201910138155A CN 109934343 A CN109934343 A CN 109934343A
- Authority
- CN
- China
- Prior art keywords
- neural network
- artificial neural
- task
- matrix
- orthogonal intersection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 149
- 239000011159 matrix material Substances 0.000 title claims abstract description 121
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000005457 optimization Methods 0.000 title claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims description 13
- 210000002569 neuron Anatomy 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000010801 machine learning Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 101150039208 KCNK3 gene Proteins 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/293—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of characters other than Kanji, Hiragana or Katakana
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1916—Validation; Performance evaluation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Abstract
本发明属于机器学习及人工智能领域,具体涉及了一种基于正交投影矩阵的人工神经网络优化方法、系统、装置,旨在解决人工神经网络在连续学习时发生灾难性遗忘的问题。本发明方法包括:初始化人工神经网络并计算网络各层正交投影矩阵集;采用正交投影矩阵集更新人工神经网络权重矩阵并对当前任务的输入数据处理;采用递归的算法计算新的投影矩阵集并用于下一任务人工神经网络的权重矩阵更新;重复执行投影矩阵的递归运算以及权重矩阵的更新直至任务队列中所有任务执行完毕。本发明可以应用于不同任务空间,还可以用于局部网络甚至特定网络的特定权重上,计算简单、效果显著,避免了传统的人工神经网络“灾难性”遗忘的问题。
Description
技术领域
本发明属于机器学习及人工智能领域,具体涉及了一种基于正交投影矩阵的人工神经网络优化方法、系统、装置。
背景技术
随着计算机运算能力的飞速提升和海量数据的积累,人工智能再次受到社会各领域广泛关注,并掀起一轮新的发展热潮。本次热潮的核心是基于连接主义的深层人工神经网络。深层人工神经网络可以从原始数据中提取高级特征,并以此为基础实现模式的检测、识别和分类等任务,在学习复杂的映射规则方面展现出非常强大潜力。
然而,这种能力是一种“静态”的能力,即一旦训练完成,映射通常是固定的。在学习新任务时,深层人工神经网络往往会将以往任务中建立的映射破坏掉,不具备连续的学习能力。在机器学习领域中,这常被称为“灾难性遗忘”。很多应用场景需要深层人工神经网络能够学习新的信息并自我调整,但“灾难性遗忘”无疑是一块短板。
总的来说,人工神经网络使用过程中,由于不具备连续的学习能力,常常出现灾难性遗忘的问题,大大影响了后续学习应用。
发明内容
为了解决现有技术中的上述问题,即人工神经网络在连续学习时发生灾难性遗忘的问题,本发明提供了一种基于正交投影矩阵的人工神经网络优化方法,包括:
步骤S10,初始化人工神经网络Μ(0)以及人工神经网络Μ(0)各层的正交投影矩阵集{Pl(0)},l为人工神经网络的层数序号;
步骤S20,基于人工神经网络Μ(j-1)、任务队列中第j个任务R(j)的输入数据A(j)以及正交投影矩阵集{Pl(j-1)},更新所述人工神经网络Μ(j-1)的权重矩阵,获取人工神经网络Μ(j),j=1;
步骤S30,采用人工神经网络Μ(j)对任务队列中第j个任务R(j)的输入数据A(j)进行处理,获得神经网络Μ(j)各层输出数据集{Cl(j)};
步骤S40,基于所述神经网络Μ(j)各层输出数据集{Cl(j)}以及人工神经网络Μ(j-1)各层的正交投影矩阵集{Pl(j-1)},采用递归的方式获取人工神经网络Μ(j)各层的正交投影矩阵集{Pl(j)},j=1;
步骤S50,令j=j+1,重复执行步骤S20至步骤S40直至任务队列中的任务执行完毕。
经过一个任务数据更新所有层权重的人工神经网络作为下一个任务的人工神经网络,循环进行网络的权重矩阵更新,直至任务队列中所有任务执行完毕。
在一些优选的实施例中,步骤S10中“初始化人工神经网络Μ(0)各层的正交投影矩阵集{Pl(0)}”,其方法为:
令Pl(0)=βIl
其中,Il为单位矩阵,β为超参数。
在一些优选的实施例中,步骤S20中“基于人工神经网络Μ(j-1)、任务队列中第j个任务R(j)的输入数据A(j)以及正交投影矩阵集{Pl(j-1)},更新所述人工神经网络Μ(j-1)的权重矩阵”,其步骤为:
步骤S21,计算人工神经网络Μ(j-1)第l层的神经元权重在任务第i批次数据后的更新增量,获得人工神经网络Μ(j-1)各层的更新增量;
步骤S22,基于所述人工神经网络Μ(j-1)各层的更新增量更新人工神经网络Μ(j-1)的权重矩阵。
在一些优选的实施例中,步骤S22中“更新人工神经网络Μ(j-1)的权重矩阵”,其方法为:
Wl(i,j)=Wl(i-1,j)+λ(i,j)Pl(j-1)ΔWl(i,j)
其中,Wl(i,j)为更新后的权重矩阵,Wl(i-1,j)为更新前的权重矩阵,ΔWl(i,j)为更新增量,λ(i,j)为学习率函数,Pl(j-1)与第1到第j-1个任务的任务空间正交。
在一些优选的实施例中,步骤S40中“基于所述神经网络Μ(j)各层输出数据集{Cl(j)}以及人工神经网络Μ(j-1)各层的正交投影矩阵集{Pl(j-1)},采用递归的方式获取人工神经网络Μ(j)各层的正交投影矩阵集{Pl(j)},j=1”,其计算方法为:
Pl(0,j)=Pl(j-1)
Pl(j)=Pl(nj,j)
其中,j代表已完成j次任务;nj代表前馈第j次任务训练数据的批次;表示第l-1层神经元对该任务中第i批次数据的输出结果;Pl(j)为人工神经网络Μl(j)第l层对应的投影矩阵γ、α(0)、σ为超参数,Il为单位矩阵。
本发明的另一方面,提出了一种基于正交投影矩阵的人工神经网络优化系统,包括初始化模块、权重更新模块、任务数据处理模块、递归投影矩阵计算模块、任务循环控制模块;
所述初始化模块,配置为初始化人工神经网络并获取初始正交投影矩阵集;
所述权重更新模块,配置为基于人工神经网络各层的正交投影矩阵集以及输入数据,更新人工神经网络的权重矩阵;
所述任务数据处理模块,配置为基于权重更新后的当前任务的人工神经网络,处理当前任务的输入数据,获得各层输出数据集;
所述递归投影矩阵计算模块,基于当前任务人工神经网络各层输出数据集以及前一任务人工神经网络各层的正交投影矩阵集,采用递归的方式获取当前任务人工神经网络各层的正交投影矩阵集;
所述任务循环控制模块,配置为重复使用更新后的网络进行下一个任务的人工神经网络更新过程,直至任务队列中所有任务执行完毕。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于正交投影矩阵的人工神经网络优化方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;所述处理器,适于执行各条程序;所述存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于正交投影矩阵的人工神经网络优化方法。
本发明的有益效果:
(1)本发明提出的正交投影矩阵修改人工神经网络权重的人工神经网络优化方法(orthogonal weights modification,OWM),可以对人工神经网络的权重做精细的控制和调整,特别是当选取合适的任务空间时,可以有效的避免人工神经网络在连续学习时发生“灾难性遗忘”问题。
(2)本发明方法避免了训练过程中样本保存或关键样本提取等操作,节省算力、内存和时间成本。
(3)本发明方法直接对人工神经网络的权重做精细调控,更具灵活性和目的性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于正交投影矩阵的人工神经网络优化方法的流程示意图;
图2是本发明基于正交投影矩阵的人工神经网络优化方法的示意图;
图3是本发明基于正交投影矩阵的人工神经网络优化方法一种实施例的手写体汉字数据库的示例图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供一种基于正交投影矩阵的人工神经网络优化方法,提出了利用投影矩阵精细操控人工神经网络演进方向,解决了以往训练中的“灾难性遗忘”难题。根据任务要求或目的不同,投影矩阵可以定义在不同的输入向量空间上。此外投影矩阵还可以作用于网络局部,甚至可以是特定神经元的特定权重上。这些优点为该发明在具体的实施中带来极大的灵活性,同时,该方法计算简单,效果显著,可以节省算力、内存以及时间成本。
本发明的一种基于正交投影矩阵的人工神经网络优化方法,包括:
步骤S10,初始化人工神经网络Μ(0)以及人工神经网络Μ(0)各层的正交投影矩阵集{Pl(0)},l为人工神经网络的层数序号;
步骤S20,基于人工神经网络Μ(j-1)、任务队列中第j个任务R(j)的输入数据A(j)以及正交投影矩阵集{Pl(j-1)},更新所述人工神经网络Μ(j-1)的权重矩阵,获取人工神经网络Μ(j),j=1;
步骤S30,采用人工神经网络Μ(j)对任务队列中第j个任务R(j)的输入数据A(j)进行处理,获得神经网络Μ(j)各层输出数据集{Cl(j)};
步骤S40,基于所述神经网络Μ(j)各层输出数据集{Cl(j)}以及人工神经网络Μ(j-1)各层的正交投影矩阵集{Pl(j-1)},采用递归的方式获取人工神经网络Μ(j)各层的正交投影矩阵集{Pl(j)},j=1;
步骤S50,令j=j+1,重复执行步骤S20至步骤S40直至任务队列中的任务执行完毕。
为了更清晰地对本发明基于正交投影矩阵的人工神经网络优化方法进行说明,下面结合图1和图2对本发明方法实施例中各步骤展开详述。
如图1所示,为本发明基于正交投影矩阵的人工神经网络优化方法的流程示意图,Feature Input:输入神经网络的特征向量;output:神经网络的输出结果;SupervisorSignals:监督信号(标签);J:任务编号;I:数据批次的编号。
如图2所示,为本发明基于正交投影矩阵的人工神经网络优化方法的示意图,P:正交投影矩阵;ΔW(bp):通过误差反传算法和随机梯度下降直接算得的权重矩阵增量;ΔW(owm):通过本发明算法得到的权重矩阵增量;Task1:任务1;Task2:任务2;SGD:随机梯度下降算法。
本发明一种实施例的基于正交投影矩阵的人工神经网络优化方法,包括步骤S10-步骤S50,各步骤详细描述如下:
步骤S10,初始化人工神经网络Μ(0)以及人工神经网络Μ(0)各层的正交投影矩阵集{Pl(0)},l为人工神经网络的层数序号。
相对不同的输入信息构建不同的特征提取网络提取信息的特征,包括图片信息处理网络、语音信息处理网络、文本信息处理网络中的一个或多个;还可以包括其他常见信息类别的信息处理网络,此处不再一一列举。本发明中信息处理网络可以基于神经网络构建,例如,对于图片输入信息,可选择ResNet等神经网络;对于语音输入信息,可选择CNN、LSTM、GRU等神经网络;对于文本输入信息,可以使用fastText、TextCNN和TextRNN等神经网络。在现实环境中,信息一般是多模态的,可同时结合使用多种信息处理网络处理信息,能够丰富信息的表达,还可以大大降低原始信息的维度,使得下游信息更容易处理。
本发明一个优选的实施例为手写汉字的连续识别任务,选用由中科院自动化研究所开发的汉字手写体开放数据库——CASIA-HWDB1.1。该数据共包含3755个汉字,基本涵盖了中国汉字的一类字库。如图3所示为本发明基于正交投影矩阵的人工神经网络优化方法一种实施例的手写体汉字数据库的示例图。每个汉字包含300张手写体图片。每个汉字单独作为一个学习任务,且每个任务训练完成之后,该汉字不再重新训练,其图片也不会作为负样本出现在其他汉字的训练任务中。即神经网络需要连续训练3755个任务,学习每一个汉字。
利用残差网络(ResNet18,Residual Networks)对手写体汉字图片提取特征。将多层感知机网络(Multilayer Perceptron)作为连续学习的人工神经网络Μj,初始化正交投影矩阵Pl(0),其方法如式(1)所示:
令Pl(0)=βIl 式(1)
其中,Il为单位矩阵,β为超参数。
正交投影矩阵Pl,其定义如式(2)所示:
其中,Pl为人工神经网络的投影矩阵;Al为在之前所有任务中,第l层的输入向量堆叠而成的矩阵,Al=[xl(1),…,xl(i),xl(n)],xl(i)为第l层的输入向量;为Al矩阵的转置;Il为单位矩阵;α为超参数。
步骤S20,基于人工神经网络Μ(j-1)、任务队列中第j个任务R(j)的输入数据A(j)以及正交投影矩阵集{Pl(j-1)},更新所述人工神经网络Μ(j-1)的权重矩阵,获取人工神经网络Μ(j),j=1。
步骤S21,计算人工神经网络Μ(j-1)第l层的神经元权重在任务第i批次数据后的更新增量,获得人工神经网络Μ(j-1)各层的更新增量。
本发明的实施例中采用梯度下降法(SGD,StochasticGradient Descent)和误差反传算法(BP,Back Propagating),计算出人工神经网络Μl(j)第l层神经元权重Wl(i-1,j),l=1,2在该批次数据上的更新量ΔWl(i,j)。为了保证不发生灾难性遗忘,只保留ΔWl(i,j)中与以往任务中输入数据正交的部分Pl(i-1,j)ΔWl(i,j)。
步骤S22,基于所述人工神经网络Μ(j-1)各层的更新增量更新人工神经网络Μ(j-1)的权重矩阵。
权重矩阵更新如式(3)所示:
Wl(i,j)=Wl(i-1,j)+λ(i,j)Pl(j-1)ΔWl(i,j) 式(3)
其中,Wl(i,j)为更新后的权重矩阵,Wl(i-1,j)为更新前的权重矩阵,ΔWl(i,j)为更新增量,λ(i,j)为学习率函数,Pl(j-1)与第1到第j-1个任务的任务空间正交。
步骤S30,采用人工神经网络Μ(j)对任务队列中第j个任务R(j)的输入数据A(j)进行处理,获得神经网络Μ(j)各层输出数据集{Cl(j)}。
步骤S40,基于所述神经网络Μ(j)各层输出数据集{Cl(j)}以及人工神经网络Μ(j-1)各层的正交投影矩阵集{Pl(j-1)},采用递归的方式获取人工神经网络Μ(j)各层的正交投影矩阵集{Pl(j)},j=1。
本发明实施例的学习过程中,所有层的学习率恒设为2.0。由于Pl(j-1)与第1次到第j-1次任务的任务空间正交,故j轮任务中的权重更新与之前的输入作用后结果应为0,以此类推,保证了在完成新任务的情况下所有旧任务的表现不会被影响。
采用递归的方式获取第l层正交投影矩阵Pl(j)的计算方法如式(4)、式(5)、式(6)和式(7)所示:
Pl(0,j)=Pl(j-1) 式(6)
Pl(j)=Pl(nj,j) 式(7)
其中,j代表已完成j次任务;nj代表前馈第j次任务训练数据的批次;表示第l-1层神经元对该任务中第i批次数据的输出结果;γ、α(0)、σ为超参数,Il为单位矩阵。
步骤S50,令j=j+1,重复执行步骤S20至步骤S40直至任务队列中的任务执行完毕。
经过一个任务数据更新所有层权重的人工神经网络作为下一个任务的人工神经网络,循环进行网络的权重矩阵更新,直至任务队列中所有任务执行完毕。每一个新学习任务的网络空间的权重矩阵在上一个历史任务的执行过程中进行更新,并在新学习任务的执行过程中再次更新,以此类推,保证了连续学习任务中最新的网络空间带有历史任务网络空间的信息,避免了连续学习过程中的灾难性遗忘的问题。
本发明实施例中,在训练第j(j=1,…,3755)个任务中,向神经网络输入第i批次数据并按照步骤S20更新权重之后,更新正交投影矩阵Pl(j)。
本发明第二实施例的基于正交投影矩阵的人工神经网络优化系统,包括初始化模块、权重更新模块、任务数据处理模块、递归投影矩阵计算模块、任务循环控制模块;
所述初始化模块,配置为初始化人工神经网络并获取初始正交投影矩阵集;
所述权重更新模块,配置为基于人工神经网络各层的正交投影矩阵集以及输入数据,更新人工神经网络的权重矩阵;
所述任务数据处理模块,配置为基于权重更新后的当前任务的人工神经网络,处理当前任务的输入数据,获得各层输出数据集;
所述递归投影矩阵计算模块,基于当前任务人工神经网络各层输出数据集以及前一任务人工神经网络各层的正交投影矩阵集,采用递归的方式获取当前任务人工神经网络各层的正交投影矩阵集;
所述任务循环控制模块,配置为重复使用更新后的网络进行下一个任务的人工神经网络更新过程,直至任务队列中所有任务执行完毕。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于正交投影矩阵的人工神经网络优化系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于正交投影矩阵的人工神经网络优化方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于正交投影矩阵的人工神经网络优化方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (8)
1.一种基于正交投影矩阵的人工神经网络优化方法,其特征在于,包括:
步骤S10,初始化人工神经网络Μ(0)以及人工神经网络Μ(0)各层的正交投影矩阵集{Pl(0)},l为人工神经网络的层数序号;
步骤S20,基于人工神经网络Μ(j-1)、任务队列中第j个任务R(j)的输入数据A(j)以及正交投影矩阵集{Pl(j-1)},更新所述人工神经网络Μ(j-1)的权重矩阵,获取人工神经网络Μ(j),j=1;
步骤S30,采用人工神经网络Μ(j)对任务队列中第j个任务R(j)的输入数据A(j)进行处理,获得神经网络Μ(j)各层输出数据集{Cl(j)};
步骤S40,基于所述神经网络Μ(j)各层输出数据集{Cl(j)}以及人工神经网络Μ(j-1)各层的正交投影矩阵集{Pl(j-1)},采用递归的方式获取人工神经网络Μ(j)各层的正交投影矩阵集{Pl(j)},j=1;
步骤S50,令j=j+1,重复执行步骤S20至步骤S40直至任务队列中的任务执行完毕。
2.根据权利要求1所述的基于正交投影矩阵的人工神经网络优化方法,其特征在于,步骤S10中“初始化人工神经网络Μ(0)各层的正交投影矩阵集{Pl(0)}”,其方法为:
令Pl(0)=βIl
其中,Il为单位矩阵,β为超参数。
3.根据权利要求1所述的基于正交投影矩阵的人工神经网络优化方法,其特征在于,步骤S20中“基于人工神经网络Μ(j-1)、任务队列中第j个任务R(j)的输入数据A(j)以及正交投影矩阵集{Pl(j-1)},更新所述人工神经网络Μ(j-1)的权重矩阵”,其步骤为:
步骤S21,计算人工神经网络Μ(j-1)第l层的神经元权重在任务第i批次数据后的更新增量,获得人工神经网络Μ(j-1)各层的更新增量;
步骤S22,基于所述人工神经网络Μ(j-1)各层的更新增量更新人工神经网络Μ(j-1)的权重矩阵。
4.根据权利要求3所述的基于正交投影矩阵的人工神经网络优化方法,其特征在于,步骤S22中“更新人工神经网络Μ(j-1)的权重矩阵”,其方法为:
Wl(i,j)=Wl(i-1,j)+λ(i,j)Pl(j-1)ΔWl(i,j)
其中,Wl(i,j)为更新后的权重矩阵,Wl(i-1,j)为更新前的权重矩阵,ΔWl(i,j)为更新增量,λ(i,j)为学习率函数,Pl(j-1)与第1到第j-1个任务的任务空间正交。
5.根据权利要求1所述的基于正交投影矩阵的人工神经网络优化方法,其特征在于,步骤S40中“基于所述神经网络Μ(j)各层输出数据集{Cl(j)}以及人工神经网络Μ(j-1)各层的正交投影矩阵集{Pl(j-1)},采用递归的方式获取人工神经网络Μ(j)各层的正交投影矩阵集{Pl(j)},j=1”,其计算方法为:
Pl(0,j)=Pl(j-1)
Pl(j)=Pl(nj,j)
其中,j代表已完成j次任务;nj代表前馈第j次任务训练数据的批次;表示第l-1层神经元对该任务中第i批次数据的输出结果;Pl(j)为人工神经网络Μl(j)第l层对应的投影矩阵γ、α(0)、σ为超参数,Il为单位矩阵。
6.一种基于正交投影矩阵的人工神经网络优化系统,其特征在于,包括初始化模块、权重更新模块、任务数据处理模块、递归投影矩阵计算模块、任务循环控制模块;
所述初始化模块,配置为初始化人工神经网络并获取初始正交投影矩阵集;
所述权重更新模块,配置为基于人工神经网络各层的正交投影矩阵集以及输入数据,更新人工神经网络的权重矩阵;
所述任务数据处理模块,配置为基于权重更新后的当前任务的人工神经网络,处理当前任务的输入数据,获得各层输出数据集;
所述递归投影矩阵计算模块,基于当前任务人工神经网络各层输出数据集以及前一任务人工神经网络各层的正交投影矩阵集,采用递归的方式获取当前任务人工神经网络各层的正交投影矩阵集;
所述任务循环控制模块,配置为重复使用更新后的网络进行下一个任务的人工神经网络更新过程,直至任务队列中所有任务执行完毕。
7.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-5任一项所述的基于正交投影矩阵的人工神经网络优化方法。
8.一种处理装置,包括
处理器,适于执行各条程序;以及
存储装置,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-5任一项所述的基于正交投影矩阵的人工神经网络优化方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910138155.4A CN109934343A (zh) | 2019-02-25 | 2019-02-25 | 基于正交投影矩阵的人工神经网络优化方法、系统、装置 |
PCT/CN2019/083355 WO2020172974A1 (zh) | 2019-02-25 | 2019-04-19 | 基于正交投影矩阵的人工神经网络优化方法、系统、装置 |
US17/411,131 US20210383239A1 (en) | 2019-02-25 | 2021-08-25 | Feature extraction system, method and apparatus based on neural network optimization by gradient filtering |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910138155.4A CN109934343A (zh) | 2019-02-25 | 2019-02-25 | 基于正交投影矩阵的人工神经网络优化方法、系统、装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109934343A true CN109934343A (zh) | 2019-06-25 |
Family
ID=66985856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910138155.4A Pending CN109934343A (zh) | 2019-02-25 | 2019-02-25 | 基于正交投影矩阵的人工神经网络优化方法、系统、装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210383239A1 (zh) |
CN (1) | CN109934343A (zh) |
WO (1) | WO2020172974A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705689A (zh) * | 2019-09-11 | 2020-01-17 | 清华大学 | 可区分特征的持续学习方法及装置 |
CN110991513A (zh) * | 2019-11-27 | 2020-04-10 | 佛山科学技术学院 | 一种具有类人连续学习能力的图像目标识别系统及方法 |
CN111723203A (zh) * | 2020-06-15 | 2020-09-29 | 苏州意能通信息技术有限公司 | 一种基于终生学习的文本分类方法 |
CN112723038A (zh) * | 2020-12-21 | 2021-04-30 | 苏州墨砚信息技术有限公司 | 基于特征向量去正交化的用于线缆收卷的控制方法 |
WO2021153864A1 (ko) * | 2020-01-28 | 2021-08-05 | 주식회사 딥바이오 | 뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3968247A4 (en) * | 2019-06-21 | 2022-12-21 | Siemens Aktiengesellschaft | METHOD AND DEVICE FOR ELECTRIC LOAD DATA PREDICTION AND INFORMATION HOLDER |
CN113449781B (zh) * | 2021-06-17 | 2023-04-07 | 上海深至信息科技有限公司 | 一种甲状腺结节分类模型的生成方法及系统 |
CN117811846A (zh) * | 2024-02-29 | 2024-04-02 | 浪潮电子信息产业股份有限公司 | 基于分布式系统的网络安全检测方法、系统、设备及介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8489528B2 (en) * | 2009-07-28 | 2013-07-16 | Georgia Tech Research Corporation | Systems and methods for training neural networks based on concurrent use of current and recorded data |
CN103559696B (zh) * | 2013-09-29 | 2016-04-13 | 南京邮电大学 | 一种基于压缩感知的图像融合方法 |
CN107480777A (zh) * | 2017-08-28 | 2017-12-15 | 北京师范大学 | 基于伪逆学习的稀疏自编码器快速训练方法 |
-
2019
- 2019-02-25 CN CN201910138155.4A patent/CN109934343A/zh active Pending
- 2019-04-19 WO PCT/CN2019/083355 patent/WO2020172974A1/zh active Application Filing
-
2021
- 2021-08-25 US US17/411,131 patent/US20210383239A1/en active Pending
Non-Patent Citations (1)
Title |
---|
GUANXIONG ZENG 等: ""Continuous Learning of Context-dependent Processing in Neural Networks"", 《ARXIV》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705689A (zh) * | 2019-09-11 | 2020-01-17 | 清华大学 | 可区分特征的持续学习方法及装置 |
CN110705689B (zh) * | 2019-09-11 | 2021-09-24 | 清华大学 | 可区分特征的持续学习方法及装置 |
CN110991513A (zh) * | 2019-11-27 | 2020-04-10 | 佛山科学技术学院 | 一种具有类人连续学习能力的图像目标识别系统及方法 |
CN110991513B (zh) * | 2019-11-27 | 2023-05-30 | 佛山科学技术学院 | 一种具有类人连续学习能力的图像目标识别系统及方法 |
WO2021153864A1 (ko) * | 2020-01-28 | 2021-08-05 | 주식회사 딥바이오 | 뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템 |
CN111723203A (zh) * | 2020-06-15 | 2020-09-29 | 苏州意能通信息技术有限公司 | 一种基于终生学习的文本分类方法 |
CN112723038A (zh) * | 2020-12-21 | 2021-04-30 | 苏州墨砚信息技术有限公司 | 基于特征向量去正交化的用于线缆收卷的控制方法 |
Also Published As
Publication number | Publication date |
---|---|
US20210383239A1 (en) | 2021-12-09 |
WO2020172974A1 (zh) | 2020-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109934343A (zh) | 基于正交投影矩阵的人工神经网络优化方法、系统、装置 | |
Schlag et al. | Linear transformers are secretly fast weight programmers | |
JP6676165B2 (ja) | 畳み込みゲート制御再帰型ニューラルネットワーク | |
EP3398119B1 (en) | Generative neural networks for generating images using a hidden canvas | |
KR102208989B1 (ko) | 강화 학습을 통한 디바이스 배치 최적화 | |
CN109690576A (zh) | 在多个机器学习任务上训练机器学习模型 | |
JP7325414B2 (ja) | 第1のニューラルネットワークモデルと第2のニューラルネットワークモデルとの訓練 | |
CN109313721A (zh) | 训练机器学习模型 | |
Fox et al. | Parametrized hierarchical procedures for neural programming | |
WO2018211143A1 (en) | Neural network system | |
Zhang et al. | Exploring energy and accuracy tradeoff in structure simplification of trained deep neural networks | |
US20190303836A1 (en) | Determining optimal workforce types to fulfill occupational roles in an organization based on occupational attributes | |
CN109176532A (zh) | 一种机械臂路径规划方法、系统及装置 | |
CN106796667A (zh) | 动态空间目标选择 | |
CN109858615A (zh) | 具有记忆的低通递归神经网络系统 | |
Krawczak | Multilayer Neural Networks | |
Bilgin | Mastering reinforcement learning with python: build next-generation, self-learning models using reinforcement learning techniques and best practices | |
Ye et al. | Bagging for Gaussian mixture regression in robot learning from demonstration | |
Evci | Detecting dead weights and units in neural networks | |
EP4272126A1 (en) | Neural networks with adaptive gradient clipping | |
CN114358284A (zh) | 一种基于类别信息对神经网络分步训练的方法、装置、介质 | |
Zheng et al. | A scalable low-power reconfigurable accelerator for action-dependent heuristic dynamic programming | |
US11720781B2 (en) | Parallel execution of gated activation unit operations | |
Yadav et al. | Augmenting differentiable neural computer with read network and key-value memory | |
Pester et al. | Deep Learning Frameworks for Convolutional Neural Networks—A Benchmark Test |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190625 |