CN113255765B

CN113255765B - 一种基于大脑机理的认知学习方法

Info

Publication number: CN113255765B
Application number: CN202110569553.9A
Authority: CN
Inventors: 吴启晖; 阮天宸; 赵世瑾; 周福辉; 黄洋
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2024-03-19
Anticipated expiration: 2041-05-25
Also published as: CN113255765A; US20230133628A1; WO2022247151A1; US11948092B2

Abstract

本发明提供了一种基于大脑机理的认知学习方法，本发明根据环境和任务选择最合适的算法类型和参数，能在各种不同的环境和任务中获得良好的学习效果，并且能修正错误行为。该框架内部包括四个主要的模块，即认知特征提取，认知控制，学习网络以及记忆模块。其中记忆模块内部包含数据库，认知案例库，算法和超参数库，分别存储动态环境和任务的数据，认知案例以及具体的算法和超参数值。针对动态的环境和任务，可以灵活地选择出最合适的算法类型和超参数组合。同时通过“良币驱逐劣币”，用正确标记数据纠正错误标记数据，实现对训练数据的鲁棒性。

Description

一种基于大脑机理的认知学习方法

技术领域

本发明属于人工智能领域，更进一步涉及机器学习中的一种基于大脑机理的认知学习框架与方法。

背景技术

近年来，机器学习受到了极大的关注，成为学术界和工业界研究热点，在众多领域得到广泛应用。人们提出了多种机器学习框架，使得一个系统能够智能地从以往获取的经验中学习。现有的框架有一定优势，然而传统的机器学习框架往往依赖大量的专家知识和大量的高质量标记样本。一旦缺少这些先验，它们的性能将会受到很大的影响。此外，合适的算法模型和参数组合对于学习算法的性能也至关重要。在传统的机器学习算法中，一旦完成了训练过程，模型和超参数将不会再改变，机器学习算法将只能实现训练好的固定的功能，而不能通过自我学习来适应动态的环境和任务。由于这些缺陷，它们的性能和应用范围受到了一定的限制。因此，构建一个能适应动态环境和动态任务的学习框架具有重要的意义和实际应用价值。

P.Kerschke,H.H.Hoos,F.Neumann,H.Trautmann等人在其发表的论文“Automatedalgorithm selection:Survey andperspectives”(Evolutionary computation，vol.27,no.1,pp.3-45,2019.)中提出了一种统一的元学习算法框架。元学习是一种受教育心理学启发的学习框架，目前已经被应用于机器学习领域。这个框架最主要的组成部分是元特征和元知识库。元学习提取问题特征，在广泛的学习任务上运行不同的机器学习算法，收集它们的性能构成性能知识库。通过从这种经验(也被称为“元数据”)中学习，当面对新的环境与任务时，从知识库中找到与之最相似的元案例，从而快速找到合适的算法模型和超参数来解决新问题。由于这个优势，元学习已经被广泛用于解决分类、图像识别等领域的算法选择和超参数优化问题。然而，该框架存在的不足之处是：当面对一个在元知识库中没有出现过或与已有案例相似度很低的问题时，元学习的性能往往比较差。其次，需要大量的先验任务集，且假定任务之间都是独立同分布的。一旦任务发生动态变化导致不具有独立同分布的特性，该框架便不能及时适应这种变化。此外，该框架不能通过利用实际测试的性能信息改善学习模型，因此，很难处理复杂的数据和复杂的学习环境。

S.Shalev-Shwartz在其发表的论文“Online learning and online convexoptimization”(Foundations and trends in Machine Learning,vol.4,no.2,pp.107-194,2011.)中提出了一种在线学习算法框架。在线学习会按照顺序连续获得训练数据。它可以根据反馈的数据快速调整模型，提高了模型的准确性。然而，该框架存在的不足之处是：在线学习过程只专注于优化当前的问题。当新的任务到达时，由于没有利用之前的任务信息来获取模型的初始参数，会降低学习速度和精度。

C.Finn,A.Rajeswaran,S.Kakade and S.Levin等人在其发表的论文“OnlineMeta-Learning”(Proc.ofthe 36^th International Conference onMachine Learning(ICML-19),pp.1920-1930)中将元学习与在线学习相结合，提出了在线元学习框架，它利用以前的经验获取先验知识，能够适应当前的任务。然而，该框架存在的不足之处是：与元学习类似，在线元学习只能适应经验中存在的任务变化，无法适应全新的任务和环境。此外，当元知识库中存在不良的训练样本时，该框架的学习性能会显著降低。

G.Zeng,Y.Chen,B.Cui and S.Yu等人在其发表的论文“Continual learningofcontext-dependent processing in neural networks”(Nat.Mach.Intell.,vol.1,pp.364-372,2019.)中提出了对神经网络进行连续学习的方法，可以逐渐学习现实世界中的种种规律。然而，该框架存在的不足之处是：如果训练数据不够精准，持续学习的性能也会显著下降。

华北理工大学提出的专利申请“具有脑认知机理的发育自动机及其学习方法”(申请号CN201510628233.0申请公布号CN105205533B)中公开了一种融合脑认知机理的发育自动机。该方法为系统自主发育过程提供了一种泛化能力强，适用范围广的数学模型，并将感觉运动系统与内在动机机制相结合，提高系统的自学习与自适应能力。然而，该框架存在的不足之处是：没有自我评估的功能，无法纠正因错误信号导致的非最优行为。

发明内容

本发明针对上述现有技术的不足，提出一种基于大脑机理的认知学习方法。

为实现上述技术目的，本发明采取的技术方案为：

一种基于大脑机理的认知学习方法，其特征是：包括如下步骤：

(1)在线学习：

(1a)接收来自外界的动态环境和动态任务；

(1b)认知特征提取模块提取出动态环境和动态任务的特征，并将其传给认知控制模块；

(1c)认知控制模块在步骤(1b)中得到的特征与合适的算法和超参数之间建立映射关系，以获得合适的算法类型和超参数组合；

(1d)认知控制模块从记忆模块的算法和超参数库调用步骤(1c)中选择的具体算法类型和超参数组合，并将其传给学习网络；

(1e)学习网络模块执行步骤(1d)中调用的算法和超参数，在步骤(1b)提取的动态环境和动态任务中执行超参数和算法，获得相应的学习结果，并将其输出到外界的动态环境中；

(2)离线自学习：

(2a)将在线学习步骤(1b)中提取的动态环境和动态任务的原始数据存储至记忆模块中的数据库，并将动态环境和任务的特征、步骤(1c)中选择的算法和超参数及步骤(1e)中得到的学习结果作为新的认知案例，存储至记忆模块中的认知案例库；

(2b)认知案例库采样认知案例；

(2c)认知控制模块对步骤(2b)中案例的特征与合适的算法和超参数之间建立映射关系，以获得合适的算法类型和超参数组合；

(2d)认知控制模块从记忆模块的算法和超参数库调用步骤(2c)中选择的具体算法类型和超参数组合，并将其传给学习网络；

(2e)学习网络基于步骤(2b)中的动态环境和任务执行由步骤(2d)中获得的算法和超参数，获得相应的学习结果，并将其传给认知评估模块；

(2f)认知案例库将步骤(2b)该案例过去的最佳学习结果传给认知评估模块；

(2g)认知评估模块比较步骤(2e)中该案例的新学习结果和步骤(2f)中该案例的历史最佳学习结果，将取得更优学习结果的算法和超参数以及该学习结果作为更新后的历史最佳算法和超参数、学习性能，传给认知案例库，更新步骤(2b)中的认知案例；

(2h)根据更新后的认知案例库重新训练认知控制模块。

为优化上述技术方案，采取的具体措施还包括：

步骤(1a)接收来的自外界的动态环境和动态任务为[e,x]＝d∈D，其中，e表示描述动态环境的数据，x表示描述动态任务的数据，d表示由这两者组成的向量，D为外界数据库，∈为属于号，表示动态环境和动态任务来源于外界数据库。

步骤(1b)认知特征提取模块提取出动态环境和动态任务的特征为f(e,x)，并将其传给认知控制模块。

步骤(1c)所述的采用认知控制模块，在步骤(1b)中得到的特征与合适的算法和超参数之间建立映射关系S[f(e,x)]，以获得合适的算法类型a∈A和超参数组合λ∈Λ，其中，A表示算法库，a表示其中是一种算法，Λ表示超参数库，λ表示其中的一种超参数组合，∈为属于号，表示动态环境和动态任务来源于外界数据库。

步骤(1e)所述的采用学习网络模块，执行步骤(1d)中调用的算法和超参数，在环境和任务d中执行超参数为λ的算法a，获得相应的学习结果y＝a[λ,d]，并将其输出到外界的动态环境中。

步骤(2a)所述的采用认知案例库，将在线学习步骤(1b)中提取的动态环境和任务的原始数据[e,x]存储至记忆模块中的数据库并将动态环境和任务的特征f(e,x)、步骤(1c)中选择的算法和超参数(a,λ)及步骤(1e)中得到的学习结果y作为新的认知案例

[f(e,x),(a_best,λ_best),y_best]，存储至记忆模块中的认知案例库。

步骤(2c)所述的采用认知控制模块，对步骤(2b)中案例的特征与合适的算法和超参数之间建立映射关系以获得合适的算法类型/>和超参数组合/>

步骤(2e)所述的采用学习网络，基于步骤(2b)中的动态环境和任务执行由步骤(2d)中获得的算法和超参数，获得相应的学习结果/>并将其传给认知评估模块。

步骤(2g)所述的采用认知评估模块，比较步骤(2e)中该案例的新学习结果和步骤(2f)中该案例的历史最佳学习结果/>将取得更优学习结果的算法和超参数以及该学习结果作为更新后的历史最佳算法和超参数、学习性能，传给认知案例库，更新步骤(2b)中的认知案例/>

根据人和灵长类动物的大脑机制，通过模拟人的认知机制和行为以改善智能的机器学习方法，是当前人工智能领域的重要创新点。研究表明，由于大脑中的感觉皮层，前额叶皮层，前运动皮层，前扣带皮层和记忆中心等区域相互协作，人和灵长类动物能够制定和完成复杂的计划来指导行为；能够根据前额叶皮层的活动，在环境和任务变化时灵活快速地改变自己的行为以适应动态变化；能够根据反馈信息修正错误行为并做出更好的决定。这些特征和活动都是由大脑认知机理决定的。

受到人和灵长类动物大脑认知机制的启发，我们发明了一种认知学习的机器学习框架。其根据环境和任务选择最合适的算法类型和参数，能在各种不同的环境和任务中获得良好的学习效果，并且能修正错误行为。该框架内部包括四个主要的模块，即认知特征提取，认知控制，学习网络以及记忆模块。其中记忆模块内部包含数据库，认知案例库，算法和超参数库，分别存储动态环境和任务的数据，认知案例以及具体的算法和超参数值。针对动态的环境和任务，可以灵活地选择出最合适的算法类型和超参数组合。同时通过“良币驱逐劣币”，用正确标记数据纠正错误标记数据，实现对训练数据的鲁棒性。

本发明与现有技术相比具有以下优点：

第一，由于本发明借鉴大脑机理引入认知控制模块和记忆模块，使得可以调用存储在记忆模块中的认知案例学习结果，由认知控制模块更新环境和任务特征与应选算法和超参数之间的匹配关系，以此方式来不断提高学习能力，选择到更合适的算法和参数。克服了现有框架一旦训练完毕，学习性能便不会再提升的不足，使得本发明拥有自学习的能力。

第二，由于本发明借鉴大脑机理引入认知特征提取模块，使得可以在环境或任务发生变化时，感知到这一变化并提取动态环境和任务的新特征。认知控制模块根据环境和任务特征与算法和超参数选择之间的匹配关系，根据新的特征改变算法类型和超参数组合的选择。克服了现有框架因算法和超参数固定而不能适应动态变化的场景，在新场景中表现不佳的不足。使得本发明可以为不同场景选择出最合适的算法和超参数，具有适应动态环境和任务的能力。

第三，由于本发明借鉴大脑机理引入认知评估模块，使得可以在离线自学习时，对所选算法类型和超参数在某个场景中的性能进行评估，将当前的学习结果与认知案例中的结果进行比较，纠正错误标记的训练样本。克服了现有框架极度依赖训练样本质量的不足，使得本发明可以具有对错误标记训练样本的鲁棒性，减少不佳的训练样本，提升学习性能。使得本发明具有“良币驱逐劣币”的能力。

附图说明

图1是本发明的流程图；

图2至图5是采用本发明和现有技术在测试次序数不断增加时的算法以及超参数选择准确率、图像识别准确率对比图；

图6和图7是采用本发明和现有技术在环境和任务不断动态转换时的算法以及超参数选择准确率对比图；

图8至图11是采用本发明和现有技术在不同错误标记训练样本量下的算法以及超参数选择准确率、图像识别准确率对比图。

具体实施方式

以下对本发明的实施例作进一步详细描述。

下面结合附图对发明做进一步描述。

结合附图1对本发明方法的具体步骤描述如下。

1.在线学习：

在线学习过程对应脑认知机制的执行控制过程。执行控制是个体在以目标为导向的行为过程中动态灵活地调节多个认知子系统活动的复杂认知过程。它对外部任务和数据进行两种操作，即制定计划来指导行为，和在发生意外变化时进行快速调节。这种机制使灵长类动物能够在动态环境中快速切换行为。

步骤1.1，接收来自外界的动态环境和动态任务[e,x]＝d∈D。其中，e表示描述动态环境的数据，x表示描述动态任务的数据，d表示由这两者组成的向量，D为外界数据库，∈为属于号，表示动态环境和动态任务来源于外界数据库。

步骤1.2，认知特征提取模块对应于大脑皮层中的感觉皮层，提取出数据的特征f(e,x)，并将其传给认知控制模块。

步骤1.3，认知控制模块对应于大脑皮层中的前额叶皮层，整合感觉皮层的特征，并基于特征信息和相关经验知识进行认知控制，获取刺激与反应之间的关联信息。在步骤1.2中得到的特征与合适的算法和超参数之间建立映射关系S[f(e,x)]，以获得合适的算法类型a∈A和超参数组合λ∈Λ。其中，A表示算法库，a表示其中的一种算法，Λ表示超参数库，λ表示其中的一种超参数组合，∈为属于号，表示算法来源于算法库，超参数组合来源于超参数库。

步骤1.4，记忆模块对应于大脑中的记忆中心，认知控制模块从记忆模块的算法库A和超参数库Λ调用步骤1.3中选择的具体算法类型和超参数组合，并将其传给学习网络。

步骤1.5，学习网络模块对应于前运动皮层，根据刺激与反应的关联信息得到具体的运动计划，执行步骤1.4中调用的算法和超参数，在环境和任务d中执行超参数为λ的算法a获得相应的学习结果y＝a[λ,d]，并将其输出到外界的动态环境中。

2.离线自学习：

离线自学习过程对应脑认知机制的内省过程。由于执行控制过程是一个快速的过程，可能导致不适当的运动反应。通过内省存储在内部记忆中导致不适当运动反应的事件，内省过程可以执行更适当的运动反应。内省过程是一种自发的心理活动，与当前的任务或感知的环境无关。

步骤2.1，记忆模块对应于大脑中的记忆中心，将在线学习步骤1.2中提取的动态环境和任务的原始数据[e,x]存储至记忆模块中的数据库并将动态环境和任务的特征f(e,x)、步骤1.3中选择的算法和超参数(a,λ)及步骤1.5中得到的学习结果y作为新的认知案例[f(e,x),(a_best,λ_best),y_best]，存储至记忆模块中的认知案例库。

步骤2.2，认知案例库采样认知案例

步骤2.3，认知控制模块对应于大脑皮层中的前额叶皮层，整合感觉皮层的特征，并基于特征信息和相关经验知识进行认知控制，获取刺激与反应之间的关联信息，对步骤2.2中案例的特征与合适的算法和超参数之间建立映射关系以获得合适的算法类型/>和超参数组合/>

步骤2.4，认知控制模块从记忆模块的算法和超参数库调用步骤2.3中选择的具体算法类型和超参数组合，并将其传给学习网络。

步骤2.5，学习网络模块对应于前运动皮层，根据刺激与反应的关联信息得到具体的运动计划，基于步骤2.2中的动态环境和任务执行由步骤2.4中获得的算法和超参数，获得相应的学习结果/>并将其传给认知评估模块。

步骤2.6，记忆模块中的认知案例库将步骤2.2中该案例过去的最佳学习结果传给认知评估模块。

步骤2.7，认知评估模块对应于大脑皮层中的前扣带皮层，监控前运动皮层的冲突反应，比较步骤2.5中该案例的新学习结果和步骤2.6中该案例的历史最佳学习结果/>然后，将冲突信息反馈给前额叶皮层，即令取得更优学习结果的算法和超参数以及该学习结果作为更新后的历史最佳算法和超参数、学习性能，传给认知案例库，更新步骤2.2中的认知案例/>若采样的案例的历史最佳学习结果y'^*优于新学习结果y'，则不更新。否则，按下式更新：

步骤2.8，根据更新后的认知案例库重新训练认知控制模块。

下面结合仿真实验对本发明的效果做进一步说明。

1、仿真条件：

本发明的仿真实验在MATLAB R2016a软件下进行的。本发明的实例为图像分类任务。

实例共有5种不同的环境即5个数据集，包括公开数据集MNIST，FashionMNIST，Cifar-10。另外，还有一个取自ImageNet的子数据集，从ImageNet中取5类，每一类有4500个训练样本。和一个取自MNIST的子数据集，每一类仅取1000个训练样本。分别命名为mini-ImageNet和mini-MNIST。实例共有2个任务，即图像分类精度百分比需求和图像分类所需时间需求。

实例的认知特征包含五个数据集特征：数据集中图像的训练样本总数，数据集中图像分类类别个数，数据集中图像宽度(图像被调整为长度与宽度相等)，数据集中图像色彩特征，图像分类难度；与两个性能需求特征：图像分类准确率的需求；对图像分类完成时间的需求。

实例的认知控制模块，针对算法选择采取径向基函数神经网络(RBFNN)的结构，针对超参数选择采取BP神经网络的结构。

实例的算法库中包含支持向量机，Adaboosting，随机森林，决策树，深度神经网络五种不同的分类算法。超参数库中包含这些算法各自的重要超参数。

2、仿真内容：

图2是采用本发明和现有技术在测试次序数不断增加时的算法以及超参数选择准确率、图像识别准确率对比图；

图3是采用本发明和现有技术在环境和任务不断动态转换时的算法以及超参数选择准确率对比图；

图4是采用本发明和现有技术在不同错误标记训练样本量下的算法以及超参数选择准确率、图像识别准确率对比图。

参照附图2，采用本发明和现有技术在测试次序数不断增加时的算法以及深度神经网络的超参数选择准确率、图像识别准确率的对比结果的曲线图中可以看出，现有技术中，在首次测试前得到固定的元示例库，随着测试次数增加，其算法以及超参数选择准确率、图像识别准确率虽然略有波动，但几乎维持稳定。而本方法认知案例空间的大小可以不断扩大，通过吸收测试案例作为训练样本对神经网络进行再训练，这些性能都会逐渐得到改善。结合附图2和附图3，以及附图4和附图5，还可以看出随着算法以及超参数选择准确率的提高，图像识别准确率也得到了提高。

附图2和附图3分别是采用本发明和现有技术在测试次序数不断增加时的算法选择准确率和基于此算法的图像分类准确率对比图。算法选择精度评估是通过检查选择的算法是否为标记的最佳算法。图像分类精度评价是通过检查根据已选算法及其最佳超参数执行图像分类的分类结果是否正确。横坐标表示测试次序数(次)，纵坐标表示算法选择/图像分类准确率(百分比)。以红色方格标示的折线表示采用本发明方法的算法选择/图像分类准确率，由于本发明可以存储已被测试的案例至认知案例空间，六次测试时，其针对每个数据集的实际训练样本数分别为30、50、100、150、250、400。以黑色圆圈标示的折线表示现有技术从具有针对每个数据集30个元案例的库实现算法选择的算法选择/图像分类准确率，以蓝色正三角标示的折线表示现有技术从具有针对每个数据集50个元案例的库实现算法选择的算法选择/图像分类准确率，以绿色倒三角标示的折线表示现有技术从具有针对每个数据集250个元案例的库实现算法选择的算法选择/图像分类准确率。通过比较两种方法得到的算法选择/图像分类精度变化情况，可以看出，当本发明的训练样本数等于现有方法的元案例个数时，两种方法性能几乎一致。但是采用本发明方法得到的算法选择/图像分类准确率随着测试次数增加而提高，采用现有技术得到的算法选择/图像分类准确率却几乎不变。

附图4和附图5分别是采用本发明和现有技术在测试次序数不断增加时的深度神经网络超参数选择准确率和基于此超参数的深度神经网络图像分类准确率对比图。深度神经网络超参数选择精度评估是通过检查选择的超参数是否为标记的最佳超参数。横坐标表示测试次序数(次)，纵坐标表示超参数选择/图像分类准确率(百分比)。以红色方格标示的折线表示采用本发明方法的超参数选择/图像分类准确率，由于本发明可以存储已被测试的案例至认知案例空间，六次测试时，其针对每个数据集的训练样本数分别为50、100、150、200、250、300。以黑色圆圈标示的折线表示现有技术从具有针对每个数据集50个元案例的库实现超参数选择的超参数选择/图像分类准确率，以蓝色正三角标示的折线表示现有技术从具有针对每个数据集100个元案例的库实现超参数选择的超参数选择/图像分类准确率，以绿色倒三角标示的折线表示现有技术从具有针对每个数据集250个元案例的库实现超参数选择的超参数选择/图像分类准确率。通过比较两种方法得到的超参数选择选择/图像分类精度变化情况，可以看出，当本发明的训练样本数等于现有方法的元案例个数时，两种方法性能几乎一致。但是采用本发明方法得到的超参数选择/图像分类准确率随着测试次数增加而提高，采用现有技术得到的超参数选择/图像分类准确率却几乎不变。

采用本发明和现有技术在环境和任务不断动态转换时的算法以及超参数选择准确率对比结果所得的曲线图中，可以看出，不管环境和任务如何变化，本发明都能很快地适应，只需要很少的次数就能达到较好的精度。其中，动态环境指数据集的变化，动态任务指性能需求的变化。完成时间优先是指标记算法是完成时间最少且满足精度要求的算法。精度优先是指标记算法是图像分类精度最高的算法，而完成时间有相对宽松的约束。最高完成时间的限制为6000秒，我们将完成时间低于3000秒的案例看作时间优先，完成时间高于3000秒的案例看作精度优先。在仿真中，环境的变化导致图像数据集特征的变化，任务的变化导致图像分类精度和完成时间的需求变化。现有方法只能在已训练样本上表现出良好性能，一旦环境和任务变化，由于元案例库固定而不能适应，性能持续较低。

附图6是采用本发明和现有技术在环境和任务不断动态转换时的算法选择准确率对比图。横坐标表示测试次序数(次)，纵坐标表示算法选择准确率(百分比)。以红色方格标示的折线表示采用本发明方法的算法选择准确率。以蓝色三角标示的折线表示现有技术从具有针对mini-ImageNet 50个时间优先的元案例的库实现算法选择的算法选择准确率。通过比较两种方法得到的算法选择精度变化情况，可以看出，当一开始第1～2次测试在mini-ImageNet上选择时间优先的算法时，两种方法的选择精度几乎一致。但是当第3～7次测试任务变为精度优先，本发明方法与现有方法一开始的算法选择准确率都降至很低，但是随着测试次数增加本发明方法迅速提高，采用现有技术得到的算法选择准确率却一直较低。当第8～10次测试任务再次变为时间优先，本发明方法的性能已经逐渐优于现有方法。当第11～15次测试数据集变化为cifar-10，任务为完成时间优先时，本发明方法与现有方法一开始的算法选择准确率都降至很低，但是随着测试次数增加本发明方法迅速提高，采用现有技术得到的算法选择准确率却一直较低。

附图7是采用本发明和现有技术在环境和任务不断动态转换时的超参数选择准确率对比图。横坐标表示测试次序数(次)，纵坐标表示超参数选择准确率(百分比)。以红色方格标示的折线表示采用本发明方法的超参数选择准确率。以蓝色三角标示的折线表示现有技术从具有针对mini-ImageNet 50个时间优先的元案例的库实现超参数选择的超参数选择准确率。通过比较两种方法得到的超参数选择精度变化情况，可以看出，当一开始第1～2次测试在mini-ImageNet上选择时间优先的超参数时，两种方法的选择精度几乎一致。但是当第3～11次测试任务变为精度优先，本发明方法与现有方法一开始的超参数选择准确率都降至很低，但是随着测试次数增加本发明方法迅速提高，采用现有技术得到的超参数选择准确率却一直较低。当第12～13次测试任务再次变为时间优先，本发明方法的性能已经逐渐优于现有方法。当第14～22次测试数据集变化为cifar-10，任务为完成时间优先时，本发明方法与现有方法一开始的超参数选择准确率都降至很低，但是随着测试次数增加本发明方法迅速提高，采用现有技术得到的超参数选择准确率却一直较低。

采用本发明和现有技术在不同数量错误标记训练样本下的算法以及超参数选择准确率、图像识别准确率的对比结果的曲线图中可以看出，不管错误标记的样本比例是多少，通过评估案例并纠正错误案例，本发明中算法以及超参数选择准确率、图像识别准确率性能会逐渐得到改善。现有技术中，在首次测试前得到固定的元示例库，错误标记样本将一直存储在元案例库中，持续影响性能。劣币指的是认知案例空间中的错误标签案例。劣币率用错误标记案例的比例来表示。算法或超参数选择的训练样本可能贴错了标签，此时面对测试样本很可能作出一个错误的选择。结合附图8和附图9，以及附图10和附图11，可以看出随着算法以及超参数选择准确率的提高，图像识别准确率也得到了提高。

附图8和9分别是采用本发明和现有技术在测试次数不断增加时的算法选择准确率/基于算法选择的图像分类准确率对比图。横坐标表示测试次序数(次)，纵坐标表示算法选择/图像分类准确率(百分比)。以红色方格标示的折线表示劣币率为10％时采用本发明方法的算法选择/图像分类准确率，以橙色圆形标示的折线表示劣币率为30％时采用本发明方法的算法选择/图像分类准确率。以蓝色正三角标示的折线表示劣币率为10％时现有技术的算法选择/图像分类准确率，以绿色倒三角标示的折线表示劣币率为30％时现有技术的算法选择/图像分类准确率。通过比较两种方法得到的算法选择/图像分类精度变化情况，可以看出，本发明所取得的算法选择/图像分类精度优于现有方法。本发明与现有方法一开始都受到劣币的影响，但是本发明的性能会逐渐提升。这是因为一方面，更好的环境和任务特征与算法和超参数间的匹配关系存储在认知案例空间，错误标记样本量的比例降低。另一方面，在本发明中认知评估模块可以将当前的学习结果与之前的学习结果进行比较，并将评价结果反馈给认知控制模块。而采用现有技术始终受到错误标记样本的影响，得到的算法选/图像分类择准确率却几乎不变。

附图10和11分别是采用本发明和现有技术在测试次数不断增加时的超参数选择准确率/深度神经网络中基于超参数选择的图像分类准确率对比图。横坐标表示测试次序数(次)，纵坐标表示超参数选择/图像分类准确率(百分比)。以红色方格标示的折线表示劣币率为10％时采用本发明方法的超参数选择/图像分类准确率，以橙色圆形标示的折线表示劣币率为30％时采用本发明方法的超参数选择/图像分类准确率。以蓝色正三角标示的折线表示劣币率为10％时现有技术的超参数选择/图像分类准确率，以绿色倒三角标示的折线表示劣币率为30％时现有技术的超参数选择/图像分类准确率。通过比较两种方法得到的精度变化情况，可以看出，本发明所取得的超参数选择/图像分类精度优于现有方法。本发明与现有方法一开始都受到劣币的影响，但是本发明的性能会逐渐提升。这是因为一方面，更好的环境和任务特征与算法和超参数间的匹配关系存储在认知案例空间，错误标记样本量的比例降低。另一方面，在本发明中认知评估模块可以将当前的学习结果与之前的学习结果进行比较，并将评价结果反馈给认知控制模块。而采用现有技术始终受到错误标记样本的影响，得到的超参数选择/图像分类择准确率几乎不变。

综合上述仿真结果和分析，本发明所提出的基于大脑机理的认知学习框架与方法，具有自学习、适应动态变化的环境和任务、良币驱除劣币的能力，这使得本发明在实际中能更好的得到应用。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于大脑机理的认知学习方法，其特征是：包括如下步骤：

(1)在线学习：

(1a)接收来自外界的动态环境和动态任务；

(2)离线自学习：

(2b)认知案例库采样认知案例；

(2h)根据更新后的认知案例库重新训练认知控制模块；

认知学习方法为图像分类任务，图像分类任务共有5种不同的环境即5个数据集，包括公开数据集MNIST，FashionMNIST，Cifar-10，一个取自ImageNet的子数据集，和一个取自MNIST的子数据集，图像分类任务共有2个任务，即图像分类精度百分比需求和图像分类所需时间需求，图像分类任务的认知特征包含五个数据集特征：数据集中图像的训练样本总数，数据集中图像分类类别个数，数据集中图像宽度，数据集中图像色彩特征和图像分类难度；图像分类任务有两个性能需求特征：图像分类准确率的需求和对图像分类完成时间的需求。

2.根据权利要求1所述的一种基于大脑机理的认知学习方法，其特征是：步骤(1a)接收来的自外界的动态环境和动态任务为[e,x]＝d∈D，其中，e表示描述动态环境的数据，x表示描述动态任务的数据，d表示由这两者组成的向量，D为外界数据库，∈为属于号，表示动态环境和动态任务来源于外界数据库。

3.根据权利要求1所述的一种基于大脑机理的认知学习方法，其特征是：步骤(1b)认知特征提取模块提取出动态环境和动态任务的特征为f(e,x)，并将其传给认知控制模块。

4.根据权利要求1所述的一种基于大脑机理的认知学习方法，其特征是：步骤(1c)采用认知控制模块，在步骤(1b)中得到的特征与合适的算法和超参数之间建立映射关系S[f(e,x)]，以获得合适的算法类型a∈A和超参数组合λ∈Λ，其中，A表示算法库，a表示其中是一种算法，Λ表示超参数库，λ表示其中的一种超参数组合，∈为属于号，表示动态环境和动态任务来源于外界数据库。

5.根据权利要求1所述的一种基于大脑机理的认知学习方法，其特征是：步骤(1e)采用学习网络模块，执行步骤(1d)中调用的算法和超参数，在环境和任务d中执行超参数为λ的算法a，获得相应的学习结果y＝a[λ,d]，并将其输出到外界的动态环境中。

6.根据权利要求1所述的一种基于大脑机理的认知学习方法，其特征是：步骤(2a)采用认知案例库，将在线学习步骤(1b)中提取的动态环境和任务的原始数据[e,x]存储至记忆模块中的数据库并将动态环境和任务的特征f(e,x)、步骤(1c)中选择的算法和超参数(a,λ)及步骤(1e)中得到的学习结果y作为新的认知案例[f(e,x),(a_best,λb_best),y_best]，存储至记忆模块中的认知案例库。

7.根据权利要求1所述的一种基于大脑机理的认知学习方法，其特征是：步骤(2c)采用认知控制模块，对步骤(2b)中案例的特征与合适的算法和超参数之间建立映射关系以获得合适的算法类型/>和超参数组合/>

8.根据权利要求1所述的一种基于大脑机理的认知学习方法，其特征是：步骤(2e)采用学习网络，基于步骤(2b)中的动态环境和任务执行由步骤(2d)中获得的算法和超参数，获得相应的学习结果/>并将其传给认知评估模块。

9.根据权利要求1所述的一种基于大脑机理的认知学习方法，其特征是：步骤(2g)采用认知评估模块，比较步骤(2e)中该案例的新学习结果和步骤(2f)中该案例的历史最佳学习结果/>将取得更优学习结果的算法和超参数以及该学习结果作为更新后的历史最佳算法和超参数、学习性能，传给认知案例库，更新步骤(2b)中的认知案例