CN111985601A - 用于增量学习的数据识别方法 - Google Patents
用于增量学习的数据识别方法 Download PDFInfo
- Publication number
- CN111985601A CN111985601A CN201910423683.4A CN201910423683A CN111985601A CN 111985601 A CN111985601 A CN 111985601A CN 201910423683 A CN201910423683 A CN 201910423683A CN 111985601 A CN111985601 A CN 111985601A
- Authority
- CN
- China
- Prior art keywords
- network structure
- data
- sample set
- sub
- training sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 108
- 238000005070 sampling Methods 0.000 claims abstract description 9
- 238000002372 labelling Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000010076 replication Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013138 pruning Methods 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 21
- 238000013528 artificial neural network Methods 0.000 description 17
- 238000003860 storage Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及一种计算机实现的用于增量学习的数据识别方法,包括:获取新的训练样本集,将新的训练样本集与已有的训练样本集进行合并以得到更新后的训练样本集,计算更新后的训练样本集的复杂度并基于复杂度计算要基于更新后的训练样本集生成的数据识别模型的网络结构的规模,确定要生成的数据识别模型的网络结构的参数空间并基于要识别的数据从网络结构的参数空间中采样得到具有该规模的子网络结构的参数,并根据子网络结构的参数构建用于数据识别模型的网络结构,得到子网络结构的每个结点处的操作;使用更新后的训练样本集对具有子网络结构的数据识别模型进行训练以确定子网络结构中每个节点处的操作所涉及的参数,从而生成数据识别模型,以及基于数据识别模型进行数据识别。
Description
技术领域
本公开涉及用于增量学习(Incremental Learning)的数据识别方法。
背景技术
今天是信息爆炸的时代,在现代商业行为中收集、存储、挖掘和使用大量可想到的信息。随着数据的增长或增量,非常有必要找到一种方法来为当前数据集构建最佳拟合模型。对于许多人工智能公司而言,他们使用深度神经网络来处理收集数据,随着人工智能和机器学习的发展,很多机器学习算法被开发。这些算法大部分都是批量学习(BatchLearning)模式,即假设在训练之前所有训练样本都可以一次得到,在学习这些样本之后,学习过程终止,而不再学习新的知识。
应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
在下文中将给出关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分,也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
发明人认识到,批量学习模式无法满足在持续时间内处理大量信息的要求,在实际应用中,训练样本通常不可能一次全部得到,而是随着时间逐步得到的,并且样本反映的信息也可能随着时间产生变化。如果新样本到达后要重新学习全部数据,会消耗大量时间和资源,因此批量学习的算法不能满足这种需求。增量学习算法可以渐进地进行知识的更新,且能够修正和加强先前的知识,使得更新后的知识能适应新到达的数据,而不必重新对全部数据进行学习。增量学习降低了对时间和资源的需求,更能满足实际要求。此外,人工智能公司不会不断地将新信息整合到已经构建的模型中。最后,但并非最不重要的是,由专家或专业工程师从头开始定期重建新模型是相当耗费时间和成本的。
因此,本发明旨在解决以上问题,并且更特别地,提出一种特定的增量学习方法以及用于该特定的增量学习方法的数据识别方法。
本公开的目的在于提供一种用于增量学习的数据识别方法,包括:获取新的训练样本集,将新的训练样本集与已有的训练样本集进行合并以得到更新后的训练样本集,计算更新后的训练样本集的复杂度并基于复杂度计算要基于更新后的训练样本集生成的数据识别模型的网络结构的规模,基于要识别的数据的类型确定要生成的数据识别模型的网络结构的参数空间并且从网络结构的参数空间中采样得到具有该规模的子网络结构的参数,并根据子网络结构从参数构建用于数据识别模型的网络结构;使用更新后的训练样本集对具有子网络结构的数据识别模型进行训练以确定子网络结构中每个节点处的操作以及操作所涉及的参数,从而生成数据识别模型,以及基于数据识别模型进行数据识别。
通过根据本公开的用于增量学习的数据识别方法:能够不断搜索最佳拟合模型,以便不断更改或增加数据,使得推荐的模型始终对当前数据具有满意的性能;并且设计了针对增量学习定制的网络搜索空间;以及搜索策略也能够被修改以有效地找到网络结构。调整数据集更新方法以使其匹配增量算法。
相比于现有技术,本发明还具备如下优势:提出了一种学习增量学习模型架构的方法;提出训练和测试数据集更新系统,以满足逐步改变数据集的需求;为增量学习设计了定义明确的搜索空间;提出了微调方法来提高网络搜索过程的效率;该方法大大降低了深度学习专家和工程师的要求,可以处理不断更新的大数据。
附图说明
参照下面结合附图对本公开实施方式的说明,会更加容易地理解本公开的以上和其它目的、特点和优点,在附图中:
图1是示出根据本公开各个实施方式的对用于增量学习的训练集和测试集更新系统的框架的示意图;
图2是示出根据本公开实施方式的利用更新的数据集对数据识别模型进行更新的示意图;
图3是示出RNN对每个层的详细操作进行采样的示意图;
图4是示出调整RNN和CNN的参数以获得最优模型的迭代方法的示意图;
图5是示出在更新数据集时重用最优搜索模型的超参数的示意图;
图6是示出根据本发明实施方式的用于增量学习的数据识别方法的流程图;
图7是示出可用来实现根据本公开的实施方式的检查区块链网络的装置和检查区块链网络的方法的通用机器700的结构简图。
具体实施方式
在下文中将结合附图对本公开的示例性实施方式进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施方式的不同而有所改变。
本领域的技术人员可以理解,示例性实施例的各方面可以被实施为系统、方法或计算机程序产品。因此,示例性实施例的各个方面可以具体实现为以下形式,即,可以是完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)、或组合软件部分与硬件部分的实施例,本文可以一般称为"电路"、"模块"或"系统"。此外,示例性实施例的各个方面可以采取体现为一个或多个计算机可读介质的计算机程序产品的形式,该计算机可读介质上面体现有计算机可读程序代码。可以例如通过计算机网络来分发计算机程序,或者计算机程序可以位于一个或更多个远程服务器上,或被嵌入设备的存储器中。
可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是,但不限于电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中,计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。
计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式,包括但不限于电磁的、光的或其任何适当的组合。
计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。
体现在计算机可读介质中的程序代码可以采用任何适当的介质传输,包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。
用于执行这里公开的示例性实施例的各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言,诸如"C"程序设计语言或类似的程序设计语言。
以下参照按照示例性实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述这里公开的示例性实施例的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器,使得通过计算机或其它可编程数据处理设备执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中,使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。
也可以把计算机程序指令加载到计算机或其它可编程数据处理设备上,导致在计算机或其它可编程数据处理设备上执行一系列操作步骤以产生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
图1是示出根据本公开各个实施方式的对用于增量学习的训练集和测试集更新系统的框架的示意图。
增量学习算法针对的是数据量不断增加的情况,因此,首先对根据本公开各个实施方式中的增量学习算法所使用训练数据和测试数据的更新进行介绍,以使得能够理解增量数据出现时系统的整体改变情况,例如模型的更新、数据集的改变等。
如图1中所示,利用收集数据缓冲池101收集新的数据,收集数据的方式取决于应用的场景,应该理解,可以通过任何获取数据的方式来收集数据,还应当理解的是,可以连续不断地进行数据的收集。利用收集数据缓冲池101收集的数据是原始的数据(未经标注),因此在本系统中,所收集的数据可以通过人工标注102的方式处形成监督数据103。利用收集数据缓冲池101收集的数据也可以通过根据本公开各个实施方式的经训练的数据识别模型108进行识别,识别出的有一定监督的数据109被放置在数据缓冲池104处,并经过人工验证105而被筛选出监督数据103。需要注意的是,人工标注方式所针对的数据可以是所有收集数据的一部分,在此情况下,数据识别模型108进行识别所针对的数据可以是所有收集数据的剩余部分,具体的分配方式取决于人工标注的成本承受程度,当然也不限于这样的分配方式。通过上面的方式获得了监督数据103。接下来,在监督数据103中选择一部分数据作为用于搜索模型结构的数据104。进而获得更新的训练集105和验证集106。使用更新的训练集105和验证集106训练模型,得到一组数据识别模型107。从一组数据识别模型107中确定最优的网络结构,从而得到具有该最优网络结构的经训练的数据识别模型108。经训练的数据识别模型108转而又可以用于对收集数据缓冲池101收集的数据进行识别以得到有一定监督的数据109。这样,就构成了如图1所示的自动更新训练数据集和测试数据集的系统。
接下来,对图1所示的系统框架中的与本发明相关的部分的功能进行介绍。
下面首先参照图2对如何利用更新的数据集得到经训练的数据识别模型进行说明。
图2是示出根据本公开实施方式的利用更新的数据集对数据识别模型进行更新的示意图。
训练集和测试集将在如图1描述的训练数据集和测试数据集更新系统中不断被更新。在图2中,仅显示了通过人工验证用于标注的训练数据的方式,而省略了人工标注的方式,其目的在于说明如何通过数据集自动更新系统不断更新或增加训练数据集。
如图2所示,在训练集更新一次后,将根据这些数据搜索最好的神经网络结构。首先,在201处,获得新的监督数据。在202处选取训练集数据。在203处,确定当前训练集的复杂度。复杂度将帮助确定搜索空间的一些参数。假设当前训练集中有N个类别和M个样本,那么将使用下面的公式(1)、(2)和(3)来表示当前训练集的复杂度。
D=Dinner+Dinter (1)
Dinter=f(||Cov(XM)||) (3)
在上面的公式中,D表示当前数据集的复杂度。Dinner为类内复杂度,Dinter为类间复杂度。σi是每个类的方差。XM是由整个M个样本组成的变量。Cov(XM)表示XM的协方差矩阵。
需要注意的是,上述方式仅是示例性的,还可以仅采用类内复杂度或仅采用类间复杂度或采用施加不同权重的类内复杂度与类间复杂度之和的方式来计算当前训练集的复杂度。关于复杂度的具体计算方式也不限于上面的计算方差的方式。
对于给定的数据集,较大的复杂度D需要较大的神经网络。因此,神经网络模型的规模(也可以成为尺度)可以是模型复杂度D的单调递增函数。在这里,通过下面的公式(4)来计算神经网络模型的规模:
S(L,Cb)=G(D) (4)
L表示神经网络的网路结构的层数,Cb表示神经网络的网路结构中通道的数量集合。根据该公式(4),能够确定神经网络的层数和通道数。作为示例,可以通过拟合的方式来确定神经网络的层数和通道数。基于训练数据集的复杂度确定对应的神经网络的层数和通道数是本领域技术人员能够理解和做出的,在此不再赘述。
接下来,根据上面计算的神经网络的规模来调整搜索空间,即209处的根据复杂度确定搜索空间。通过上面的步骤,已经得到了神经网络的层数以及每层中的通道数。这样就确定了初始的主网络结构中的子网络结构的层数以及通道数。下面,从预定操作集中选择神经网络(具有输出节点的子网络结构)的每层中的每个通道的各个节点处的操作,仅出于示例的目的,操作集包括以下六种操作:3*3卷积操作、5*5卷积操作、深度/单独卷积3*3、深度/单独卷积5*5、最大池3*3、平均池3*3。当然,也不限于上面所述的操作,可以根据应用需求调整操作集包含的操作。下面,仅以包括该六种操作的操作集来形成神经网络。作为示例,神经网络在此被示例为卷积神经网络CNN(Convolutional Neural Network,CNN)。卷积神经网络是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。它包括卷积层(convolutional layer)和池化层(poolinglayer)。CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习,所以在使用CNN时,避免了显式的特征抽取,而隐式地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。
同样作为示例,每个层中的详细操作将从上面描述的操作集中6个定义的操作中通过RNN采样得到。在图2中,通过步骤205、210(拷贝之前训练好的网络的参数)以及206来确定206处的最优子网络,关于该部分的详细介绍将在后续中说明。利用得到的最优子网络对207的测试集进行分类并通过人工验证208得到新的监督数据201。
图3是示出RNN对每个层的详细操作进行采样的示意图。
在图3中,{x0,x1,~,xL}为L(节点数,也是网络的层数)维的随机数向量,该向量中的每个元素根据取值对应于上面提及的六个操作中一个操作,这样,就可以生成个多操作组并构建多个子网络结构,因为一个随机数向量对应于一个子网络结构,如果生成多个随机数向量就能生成多个子网络结构(作为示例,这里的子网络结构为CNN网络结构),在此,当确定了操作后,则确定了子网络结构,需要注意的是,此时还未确定除确定的操作以外的其余参数。
接下来,需要从这些网络结构中选择最优的网络结构。在这一步中,重复如图4所示的两个步骤,直到达到准确度的最大值或准确度足够高。
图4是示出调整RNN和CNN的参数以获得最优模型的迭代方法的示意图。
上面所述的两个步骤的第一步骤是,按照下面的公式(5)调整RNN的参数:
J=max{EP[R(ω)]} (5)
其中,R(ω)为奖励,其表示模型的准确度,模型的参数由ω表示。目标是根据控制策略P最大化预期的奖励。上面所述的两个步骤的第二步骤是,对采样的CNN的参数ω进行训练,使得能够获得R(ω)。需要注意的是,对采样的CNN的参数ω进行训练是基于当前的CNN的网络结构保持不变的前提进行的,即当前CNN的每个层的每个通道处的操作已被固定时,对CNN进行训练以得到使得奖励最大的CNN的除网络结构(操作)以外的其余参数ω。
其中对多个CNN进行采样并对验证集进行评估,保留具有最高准确度的CNN模型(包括确定出的网络结构和参数)。当最高准确度大于设定准确度阈值或图4中的操作的迭代次数达到预设最大值时,将停止此过程并输出当前最优的CNN模型,即确定了CNN模型的当前最优的网络结构(最优操作)以及模型中所使用的最优参数ω。
下面说明如何更新RNN的参数θ:a.在给定的θ下采样得到一组子网络(采样得到子网络的数目可自由设定,和该RNN的长度输入维度有关)。b.对于每一个子网络的ω,可以计算得到对应的Acc-s(ω)(该函数在本领域中针对分类问题是指分类精度,具体的计算方式在此不加赘述),进而得到奖励值R(ω)。c.对于采样得到的一组子网络,可以得到一组R(ω)。使用增量学习中常用的优化策略来优化公式J=EP[R(ω)],目标是使得之后得到的奖励值更大。例如近端策略优化(Proximal Policy Optimization)或者梯度策略优化,这两种方法均为强化学习领域常见的优化方法。
下面对在更新数据时,如何优化如图4所示的调整RNN和CNN的参数以获得最优模型的迭代方法中的训练CNN模型步骤进行说明。
图5是示出在更新数据集时重用最优搜索模型的超参数的示意图。
在数据集被更新的情况下,数据集的复杂度D将改变,按照公式(4),这就意味着层数和通道数将相应地改变。按照常理,可以基于更新后的完整数据集重新搜索神经网络和训练采样的CNN,但这非常耗时且不利用数据集的渐进式更改。因此,下面,使用更有效的微调方法来调整训练参数。
情况1:当数据集变得更容易时(复杂度变得更低),新的层数和通道数小于原始值。
情况2:当数据集变得更难时(复杂度变得更高),新的层数和通道数大于原始值。
详细步骤如图5所示。在情况1中,在步骤501中,对前一个模型(旧的最优模型)的参数(包括层和通道)进行剪枝,并且在步骤502中对参数进行微调以加快更新后的网络的训练速度。在情况2中,使用更新后的训练样本集对在当前数据识别模型的基础上增加适配尺寸的网络结构后的数据识别模型进行训练,并采用参数复制微调或特征归一化尺度变换以加快训练速度。作为示例,具体地,在步骤503中,随机初始化新的层和通道,在步骤505中对改变的层(即随机初始化的新层的输出数据)进行L2-NORM运算和/或在步骤506中对改变的层进行自适应尺度变换,然后通过将在步骤504中复制的旧的最优模型的训练参数(对应于图2中的步骤201)与步骤505和步骤506中处理后的参数进行组合,以在步骤507中得到微调后的新的模型。
图6是示出根据本发明实施方式的用于增量学习的数据识别方法的流程图。
首先,在步骤601中,获取新的训练样本集;接下来,在步骤602中,将新的训练样本集与已有的训练样本集进行合并以得到更新后的训练样本集;在步骤603中,计算更新后的训练样本集的复杂度并基于复杂度计算要基于更新后的训练样本集生成的数据识别模型的网络结构的规模;在步骤604中,基于要识别的数据的类型确定要生成的数据识别模型的网络结构的参数空间并且从网络结构的参数空间中采样得到具有该规模的子网络结构的参数,具体地,对于不同的数据类型,所使用的网络结构的参数空间也是不同的,以使得能够针对不同的数据类型达到最佳的分类效果;在步骤605中,根据子网络结构从参数构建用于所述数据识别模型的网络结构;接下来,在步骤606中,使用更新后的训练样本集对具有子网络结构的数据识别模型进行训练以确定子网络结构中每个节点处的操作以及操作所涉及的参数,从而生成数据识别模型;最后,在步骤607中,基于数据识别模型进行数据识别。
能够识别的数据的类型不限于图像、文本、语音。
图7是示出可用来实现根据本公开的实施方式的用于增量学习的数据识别装置和数据识别方法的通用机器700的结构简图。通用机器700可以是例如计算机系统。应注意,通用机器700只是一个示例,并非暗示对本公开的方法和装置的使用范围或者功能的局限。也不应将通用机器700解释为对上述信息处理方法和信息处理装置中示出的任一组件或其组合具有依赖或需求。
在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中,还根据需要存储当CPU 701执行各种处理等等时所需的数据。CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。
下述部件也连接到输入/输出接口705:输入部分706(包括键盘、鼠标等等)、输出部分707(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分708(包括硬盘等)、通信部分709(包括网络接口卡例如LAN卡、调制解调器等)。通信部分709经由网络例如因特网执行通信处理。根据需要,驱动器710也可连接到输入/输出接口705。可拆卸介质711例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器710上,使得从中读出的计算机程序可根据需要被安装到存储部分708中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
上面已通过框图、流程图和/或实施方式进行了详细描述,阐明了根据本公开的实施方式的装置和/或方法的具体实施方式。当这些框图、流程图和/或实施方式包含一个或多个功能和/或操作时,本领域的技术人员明白,这些框图、流程图和/或实施方式中的各功能和/或操作可以通过各种硬件、软件、固件或实质上它们的任意组合而单独地和/或共同地实施。在一种实施方式中,本说明书中描述的主题的几个部分可通过特定用途集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成形式实现。然而,本领域的技术人员会认识到,本说明书中描述的实施方式的一些方面能够全部或部分地在集成电路中以在一个或多个计算机上运行的一个或多个计算机程序的形式(例如,以在一个或多个计算机系统上运行的一个或多个计算机程序的形式)、以在一个或多个处理器上运行的一个或多个程序的形式(例如,以在一个或多个微处理器上运行的一个或多个程序的形式)、以固件的形式、或以实质上它们的任意组合的形式等效地实施,并且,根据本说明书中公开的内容,设计用于本公开的电路和/或编写用于本公开的软件和/或固件的代码完全是在本领域技术人员的能力范围之内。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。涉及序数的术语“第一”,“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度,而仅仅是为了描述清楚起见而用于在这些特征、要素、步骤或组件之间进行标识。
综上,在根据本公开的实施方式中,本公开提供了如下方案,但不限于此:
方案1.一种计算机实现的用于增量学习的数据识别方法,包括:
获取新的训练样本集,
将所述新的训练样本集与已有的训练样本集进行合并以得到更新后的训练样本集,
计算所述更新后的训练样本集的复杂度并基于所述复杂度计算要基于所述更新后的训练样本集生成的数据识别模型的网络结构的规模,
基于要识别的数据的类型确定要生成的数据识别模型的网络结构的参数空间并且从所述网络结构的参数空间中采样得到具有所述规模的子网络结构的参数,并根据子网络结构的参数构建用于数据识别模型的网络结构,得到子网络结构的每个结点处的操作;
使用所述更新后的训练样本集对具有所述子网络结构的数据识别模型进行训练以确定所述子网络结构中每个节点处的操作的参数,从而生成所述数据识别模型,以及
基于所述数据识别模型进行数据识别。
方案2.根据方案1所述的方法,其中,所述数据集的复杂度为:
类内复杂度、类间复杂度或类内复杂度与类间复杂度之组合。
方案3.根据方案1所述的方法,其中,通过复杂度计算公式计算所述数据识别模型的网络结构的规模。
方案4.根据方案1所述的方法,通过网络层数L和通道数Cb来表示所述数据识别模型的规模。
方案5.根据方案4所述的方法,其中,所述网络结构的参数空间包括所述网络层数L、所述通道数Cb、每一层网络采用的张量操作方式以及各个层网络之间的连接方式,所述网络结构的参数空间的每部分由特定取值范围的数字表示,由所述网络结构的参数空间的各个部分的确定取值的数字构成的向量代表确定的一种子网络结构。
方案6.根据方案1所述的方法,其中,所述获取新的训练样本集的方式包括:
通过对新收集到的数据进行人工标注来获取所述新的训练样本集和/或
通过对使用当前的数据识别模型对新收集到的数据的识别结果进行人工验证来获取所述新的训练样本集。
方案7.根据方案1所述的方法,其中,在使用所述更新后的训练样本集对具有所述子网络结构的数据识别模型进行训练以确定所述子网络结构中每个节点处的操作以及操作所涉及的参数的过程中,
当所述更新后的训练样本集的规模小于当前训练训练样本集的规模时,使得更新后的模型规模小于前一个模型的规模:包括对前一个模型的参数进行剪枝和参数微调以加快更新后的子网络的训练速度。
方案8.根据方案或1所述的方法,其中,在使用所述更新后的训练样本集对具有所述子网络结构的数据识别模型进行训练以确定所述子网络结构中每个节点处的操作以及操作所涉及的参数的过程中,
当所述更新后的训练样本集的规模大于当前训练训练样本集的规模时,使用所述更新后的训练样本集对在所述当前数据识别模型的基础上增加适配尺寸的网络结构后的数据识别模型进行训练,并采用参数复制微调或特征归一化尺度变换以加快训练速度。
方案9.根据方案1至8之一所述的方法,其中,所述数据识别模型为CNN。
方案10.根据方案1至8之一所述的方法,还包括数据更新、网络结构参数控制器更新和子网络模型的参数更新三个步骤,且三个步骤交替迭代更新来实现增量学习。
方案11.一种用于增量学习的数据识别装置,包括处理器,所述处理器被配置成:
获取新的训练样本集,
将所述新的训练样本集与已有的训练样本集进行合并以得到更新后的训练样本集,
计算所述更新后的训练样本集的复杂度并基于所述复杂度计算要基于所述更新后的训练样本集生成的数据识别模型的网络结构的规模,
基于要识别的数据的类型确定要生成的数据识别模型的网络结构的参数空间并且从所述网络结构的参数空间中采样得到具有所述规模的子网络结构的参数,并根据子网络结构的参数构建用于数据识别模型的网络结构,得到子网络结构的每个结点处的操作;
使用所述更新后的训练样本集对具有所述子网络结构的数据识别模型进行训练以确定所述子网络结构中每个节点处的操作的参数,从而生成所述数据识别模型,以及
基于所述数据识别模型进行数据识别。
方案12.一种存储有计算机可读的程序指令的计算机可读介质,当所述程序指令由计算机执行时,使得所述计算机用作根据方案11所述的数据识别装置。
尽管上面已经通过对本公开的具体实施方式的描述对本公开进行了披露,但是,应该理解,本领域的技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开的保护范围内。
Claims (10)
1.一种计算机实现的用于增量学习的数据识别方法,包括:
获取新的训练样本集,
将所述新的训练样本集与已有的训练样本集进行合并以得到更新后的训练样本集,
计算所述更新后的训练样本集的复杂度并基于所述复杂度计算要基于所述更新后的训练样本集生成的数据识别模型的网络结构的规模,
基于要识别的数据的类型确定要生成的数据识别模型的网络结构的参数空间并且从所述网络结构的参数空间中采样得到具有所述规模的子网络结构的参数,并根据子网络结构的参数构建用于数据识别模型的网络结构,得到子网络结构的每个结点处的操作;
使用所述更新后的训练样本集对具有所述子网络结构的数据识别模型进行训练以确定所述子网络结构中每个节点处的操作的参数,从而生成所述数据识别模型,以及
基于所述数据识别模型进行数据识别。
2.根据权利要求1所述的方法,其中,所述数据集的复杂度为:
类内复杂度、类间复杂度或类内复杂度与类间复杂度之组合。
3.根据权利要求1所述的方法,其中,通过复杂度计算公式计算所述数据识别模型的网络结构的规模。
4.根据权利要求1所述的方法,通过网络层数L和通道数Cb来表示所述数据识别模型的规模。
5.根据权利要求4所述的方法,其中,所述网络结构的参数空间包括所述网络层数L、所述通道数Cb、每一层网络采用的张量操作方式以及各个层网络之间的连接方式,所述网络结构的参数空间的每部分由特定取值范围的数字表示,由所述网络结构的参数空间的各个部分的确定取值的数字构成的向量代表确定的一种子网络结构。
6.根据权利要求1所述的方法,其中,所述获取新的训练样本集的方式包括:
通过对新收集到的数据进行人工标注来获取所述新的训练样本集和/或
通过对使用当前的数据识别模型对新收集到的数据的识别结果进行人工验证来获取所述新的训练样本集。
7.根据权利要求1所述的方法,其中,在使用所述更新后的训练样本集对具有所述子网络结构的数据识别模型进行训练以确定所述子网络结构中每个节点处的操作以及操作所涉及的参数的过程中,
当所述更新后的训练样本集的规模小于当前训练训练样本集的规模时,使得更新后的模型规模小于前一个模型的规模:包括对前一个模型的参数进行剪枝和参数微调以加快更新后的子网络的训练速度。
8.根据权利要求或1所述的方法,其中,在使用所述更新后的训练样本集对具有所述子网络结构的数据识别模型进行训练以确定所述子网络结构中每个节点处的操作以及操作所涉及的参数的过程中,
当所述更新后的训练样本集的规模大于当前训练训练样本集的规模时,使用所述更新后的训练样本集对在所述当前数据识别模型的基础上增加适配尺寸的网络结构后的数据识别模型进行训练,并采用参数复制微调或特征归一化尺度变换以加快训练速度。
9.根据权利要求1至8之一所述的方法,其中,所述数据识别模型为CNN。
10.根据权利要求1至8之一所述的方法,还包括数据更新、网络结构参数控制器更新和子网络模型的参数更新三个步骤,且三个步骤交替迭代更新来实现增量学习。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910423683.4A CN111985601A (zh) | 2019-05-21 | 2019-05-21 | 用于增量学习的数据识别方法 |
JP2020083118A JP2020191080A (ja) | 2019-05-21 | 2020-05-11 | 増分学習のためのデータ認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910423683.4A CN111985601A (zh) | 2019-05-21 | 2019-05-21 | 用于增量学习的数据识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111985601A true CN111985601A (zh) | 2020-11-24 |
Family
ID=73435832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910423683.4A Pending CN111985601A (zh) | 2019-05-21 | 2019-05-21 | 用于增量学习的数据识别方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2020191080A (zh) |
CN (1) | CN111985601A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113259331A (zh) * | 2021-04-29 | 2021-08-13 | 上海电力大学 | 一种基于增量学习的未知异常流量在线检测方法及系统 |
CN113469245A (zh) * | 2021-06-30 | 2021-10-01 | 山东恒远智能科技有限公司 | 一种基于工业互联网的数据识别方法 |
CN113645063A (zh) * | 2021-07-16 | 2021-11-12 | 上海德衡数据科技有限公司 | 基于边缘计算的智能集成数据的方法及系统 |
CN114662588A (zh) * | 2022-03-21 | 2022-06-24 | 合肥工业大学 | 一种自动更新模型的方法、系统、设备及存储介质 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115114467B (zh) * | 2021-03-17 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 图片神经网络模型的训练方法以及装置 |
CN113127058B (zh) * | 2021-04-28 | 2024-01-16 | 北京百度网讯科技有限公司 | 数据标注方法、相关装置及计算机程序产品 |
CN113850302B (zh) * | 2021-09-02 | 2023-08-29 | 杭州海康威视数字技术股份有限公司 | 一种增量学习方法、装置及设备 |
CN113887633B (zh) * | 2021-09-30 | 2023-06-27 | 国网河南省电力公司电力科学研究院 | 基于il的闭源电力工控系统恶意行为识别方法及系统 |
WO2023248305A1 (ja) * | 2022-06-20 | 2023-12-28 | 日本電気株式会社 | 情報処理装置、情報処理方法、及びコンピュータ読み取り可能な記録媒体 |
CN115134687B (zh) * | 2022-06-22 | 2024-05-07 | 中国信息通信研究院 | 光接入网的业务识别方法、装置、电子设备及存储介质 |
CN116805157B (zh) * | 2023-08-25 | 2023-11-17 | 中国人民解放军国防科技大学 | 无人集群自主动态评估方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915566A (zh) * | 2015-06-17 | 2015-09-16 | 大连理工大学 | 一种支持增量更新的深度计算模型设计方法 |
CN106295803A (zh) * | 2016-08-10 | 2017-01-04 | 中国科学技术大学苏州研究院 | 深度神经网络的构建方法 |
CN108776774A (zh) * | 2018-05-04 | 2018-11-09 | 华南理工大学 | 一种基于复杂度感知分类算法的面部表情识别方法 |
JP2019028839A (ja) * | 2017-08-01 | 2019-02-21 | 国立研究開発法人情報通信研究機構 | 分類器、分類器の学習方法、分類器における分類方法 |
WO2019043352A1 (en) * | 2017-08-29 | 2019-03-07 | Sky Cp Limited | SYSTEM AND METHOD FOR DISCOVERING CONTENT |
-
2019
- 2019-05-21 CN CN201910423683.4A patent/CN111985601A/zh active Pending
-
2020
- 2020-05-11 JP JP2020083118A patent/JP2020191080A/ja not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915566A (zh) * | 2015-06-17 | 2015-09-16 | 大连理工大学 | 一种支持增量更新的深度计算模型设计方法 |
CN106295803A (zh) * | 2016-08-10 | 2017-01-04 | 中国科学技术大学苏州研究院 | 深度神经网络的构建方法 |
JP2019028839A (ja) * | 2017-08-01 | 2019-02-21 | 国立研究開発法人情報通信研究機構 | 分類器、分類器の学習方法、分類器における分類方法 |
WO2019043352A1 (en) * | 2017-08-29 | 2019-03-07 | Sky Cp Limited | SYSTEM AND METHOD FOR DISCOVERING CONTENT |
CN108776774A (zh) * | 2018-05-04 | 2018-11-09 | 华南理工大学 | 一种基于复杂度感知分类算法的面部表情识别方法 |
Non-Patent Citations (1)
Title |
---|
陶品, 张钹, 叶榛: "构造型神经网络双交叉覆盖增量学习算法", 软件学报, no. 02, 23 February 2003 (2003-02-23), pages 951 - 954 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113259331A (zh) * | 2021-04-29 | 2021-08-13 | 上海电力大学 | 一种基于增量学习的未知异常流量在线检测方法及系统 |
CN113469245A (zh) * | 2021-06-30 | 2021-10-01 | 山东恒远智能科技有限公司 | 一种基于工业互联网的数据识别方法 |
CN113645063A (zh) * | 2021-07-16 | 2021-11-12 | 上海德衡数据科技有限公司 | 基于边缘计算的智能集成数据的方法及系统 |
CN113645063B (zh) * | 2021-07-16 | 2024-03-19 | 上海德衡数据科技有限公司 | 基于边缘计算的智能集成数据的方法及系统 |
CN114662588A (zh) * | 2022-03-21 | 2022-06-24 | 合肥工业大学 | 一种自动更新模型的方法、系统、设备及存储介质 |
CN114662588B (zh) * | 2022-03-21 | 2023-11-07 | 合肥工业大学 | 一种自动更新模型的方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2020191080A (ja) | 2020-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111985601A (zh) | 用于增量学习的数据识别方法 | |
CN111105008A (zh) | 模型训练方法、数据识别方法和数据识别装置 | |
US9990558B2 (en) | Generating image features based on robust feature-learning | |
US20210089922A1 (en) | Joint pruning and quantization scheme for deep neural networks | |
CN110263227B (zh) | 基于图神经网络的团伙发现方法和系统 | |
CN110674323B (zh) | 基于虚拟标签回归的无监督跨模态哈希检索方法及系统 | |
CN113361680B (zh) | 一种神经网络架构搜索方法、装置、设备及介质 | |
US20200167659A1 (en) | Device and method for training neural network | |
CN113469186B (zh) | 一种基于少量点标注的跨域迁移图像分割方法 | |
CN107563406B (zh) | 一种自主学习的图像精细分类方法 | |
CN109886311B (zh) | 增量聚类方法、装置、电子设备和计算机可读介质 | |
WO2023279674A1 (en) | Memory-augmented graph convolutional neural networks | |
CN112149809A (zh) | 模型超参数的确定方法及设备、计算设备和介质 | |
CN114494783A (zh) | 一种基于动态图神经网络的预训练方法 | |
CN113392983B (zh) | 自动机器学习的超参数自适应寻优优化系统和方法 | |
Guo et al. | Reducing evaluation cost for circuit synthesis using active learning | |
Basterrech et al. | Evolutionary Echo State Network: A neuroevolutionary framework for time series prediction | |
Qi et al. | Hyperparameter optimization of neural networks based on Q-learning | |
CN117349494A (zh) | 空间图卷积神经网络的图分类方法、系统、介质及设备 | |
CN115599918B (zh) | 一种基于图增强的互学习文本分类方法及系统 | |
CN115345303A (zh) | 卷积神经网络权重调优方法、装置、存储介质和电子设备 | |
Uriz et al. | FUZZ-EQ: A data equalizer for boosting the discrimination power of fuzzy classifiers | |
CN114491066A (zh) | 一种面向知识图谱构建的实体关系抽取方法及系统 | |
Tang et al. | Deep sparse representation via deep dictionary learning for reinforcement learning | |
Louati et al. | Embedding channel pruning within the CNN architecture design using a bi-level evolutionary approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |