CN116011505A

CN116011505A - 基于特征对比的多模块动态模型训练方法、装置

Info

Publication number: CN116011505A
Application number: CN202310245785.8A
Authority: CN
Inventors: 李强; 龙利民; 胡勇超; 阚德军
Original assignee: Tuling Artificial Intelligence Institute Nanjing Co ltd
Current assignee: Tuling Artificial Intelligence Institute Nanjing Co ltd
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-04-25
Anticipated expiration: 2043-03-15
Also published as: CN116011505B

Abstract

本发明提供基于特征对比的多模块动态模型训练方法、装置，包括第一步，输入图像至一基于CNN的编码器网络，以生成高级隐藏向量；第二步，使用高级隐藏向量作为查询依据对内存表执行查找，得到输出查找结果；第三步，结合内存表的输出查找结果和编码器网络的多级跳过特征，生成对未来框架的预测。本发明提出采用集成神经网络方法，建立具备长期记忆的模型框架，从而构建出一个由众多子模型组成的世界模型，从而解决各种世界模型的兼容性问题，具备在丰富子模型的同时，解决大量不同类型问题的优点。

Description

基于特征对比的多模块动态模型训练方法、装置

技术领域

本发明涉及机器学习技术领域，具体为基于特征对比的多模块动态模型训练方法、装置。

背景技术

当前几乎所有的机器学习从业者在实践中使用的都是监督式学习：向机器展示大量的样本，然后告诉机器正确的答案与内部参数，然后就能做图像识别之类的任务。

而过去几年，监督式学习有了极大的成功，应用也非常广泛。但是，当前的监督式学习，及深度学习缺乏推理能力，因此未来的一个重点发展方向就是深度学习和推理的结合。人们已经在多个方向上进行尝试。例如，在网络中增加记忆增强模块，这是实现推理的第一步。在对话模型中，由于对话的轮换和非连续的特点，通过增强记忆，有助于预测能力的提高，进而能实现长期而有效的对话。

在强化学习中，无模型的强化学习训练需要大量的尝试才能学会一项任务。因此，此类方法在游戏中表现良好，但是，由于现实环境远远比游戏中的环境要复杂得多，这就导致大大限制了系统的训练资源。

总的来说，目前的人工智能主要有以下缺点：缺乏独立于任务的背景知识；缺乏常识；缺乏预测行为后果的能力；缺乏长期规划和推理的能力。简言之就是：没有世界模型；没有关于世界运行的通用背景知识。

基于此，急需发明设计一种采用通过集成神经网络的方法，建立具备长期记忆的模型框架，从而构建出一个由众多子模型组成的世界模型，从而通过丰富子模型达到解决大量不同类型问题的目的。

发明内容

针对现有技术存在的不足，本发明目的是提供基于特征对比的多模块动态模型训练方法、装置，通过提出建立基于记忆增强框架的世界模型，以端到端的方式进行训练方式，从而使得本发明可以有效地扩展和学习新的场景和物理推理，具备准确性且容易解决极其复杂问题的优点。以解决上述背景技术中提出的问题。

为了实现上述目的，本发明是通过如下的技术方案来实现：基于特征对比的多模块动态模型训练方法，包括

第一步，输入图像至一基于CNN的编码器网络，以生成高级隐藏向量；

第二步，使用所述高级隐藏向量作为查询依据对内存表执行查找，其中，

若内存表内存在并找到类似的键，则，输出查找结果为相关子模型的结果的加权和，所述类似的键为在L2欧氏距离上最接近的向量；

第三步，结合内存表的输出查找结果和编码器网络的多级跳过特征，生成对未来框架的预测。

作为本发明的第二方面，提出一种基于特征对比的多模块动态模型训练装置，包括图像输入模块，根据获取的目标图像输入至一基于CNN的编码器网络，生成高级隐藏向量；记忆力查找模块，采取长跳跃的连接方式skipconnections，使用所述高级隐藏向量作为查询依据对内存表执行查找，输出查找结果；预测显示模块，结合输出查找结果和编码器网络的多级跳过特征，生成对记忆增强框架的未来预测，通过解码器输出目标图像结果。

与现有技术相比，本发明的有益效果：

1、本发明提出的增强的世界模型由一个一个小的子模型组成，可以解决任何子模型可以解决的问题，同时由于子模型之间可以具有较大的差异性，因此，本发明提出的世界模型具备极强的鲁棒性，储存空间足够大时，此模型可以不断地扩展子模型；

2、本发明提出采用集成神经网络的方法，建立具备长期记忆的模型框架，从而构建出一个由众多子模型组成的世界模型，这种基于记忆增强框架的世界模型拥有较强的扩展性和鲁棒性；同时，由于此模型可学习崭新的场景，并作为记忆单元存储，为之后的类似场景作为知识库，从而达到通过记忆单元找出相似问题的解决方案，解决各种世界模型的兼容性问题，具备在丰富子模型的同时，解决大量不同类型问题的优点。

附图说明

参照附图来说明本发明的公开内容。应当了解，附图仅仅用于说明目的，而并非意在对本发明的保护范围构成限制，在附图中，相同的附图标记用于指代相同的部件。其中：

图1为本发明一实施例中所提出的记忆增强的世界模型总体框架结构示意图。

具体实施方式

容易理解，根据本发明的技术方案，在不变更本发明实质精神下，本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此，以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。

以下结合附图对本发明做进一步详细说明，但不作为对本发明的限定。

作为对本发明技术构思以及实现原理的理解，人类以有限的感知能力并基于他们能够感知的东西来建立世界的心理模型，我们做出的决策和行动都是基于这种内部模型，我们称这种模型为世界模型，而传统的世界模型（或者说短期记忆模型）主要是为了解决某一种或某一类问题，如果将多种不同的任务叠加在一起，这种模型的学习复杂性可能会过高，并且更容易导致模型的欠拟合。

例如Facebook的记忆网络可以很擅长处理语言问答问题，但让一个记忆网络对语言问答和物理推理问题同时很擅长可能就会很难。这种困难主要体现在两个方面：一个是数据量，另一个是计算代价。神经网络相比传统的机器学习，本来就是用大量的数据来支撑的，如果让一个神经网络同时学会多个毫不相干的任务，这时所需要的数据量就会呈几何倍数增加才能训练出较好的网络，而实际有可能很难获得如此大量的数据。另一方面，处理多个毫不相干的任务，一定需要更加复杂的网络，从而完成神经网络从头到尾的完整训练，可能需要几周的时间。甚至在预测使用上也需要耗费较长的时间，对于需要极短时间解决的问题将不适用。

为此，本发明提出采用可允许记忆单元储存的记忆增强的框架在移动储存器中被储存扩展、读取调用，同时也采用神经网络模型CNN，通过由一个一个小的子模型组成端对端增强的世界模型，来有效地扩展和学习新的场景和物理推理。

而为实现上述技术构思，以解决现有的技术方案缺陷，如图1所示，作为本发明的一实施例，提出基于特征对比的多模块动态模型训练方法，包括：

第二步，使用高级隐藏向量作为查询依据对内存表执行查找，其中，若内存表内存在并找到类似的键，则，输出查找结果为相关子模型的结果的加权和，类似的键为在L2欧氏距离上最接近的向量；反之，若内存表内不存在类似的键，则需要在内存表中插入新的条目，同时，将本次查找的输出查找结果o设置为，其中为随机初始化的神经网络的参数集。

基于上述技术构思，需要说明的是，

使用高级隐藏向量作为查询依据对内存表执行查找的具体方式为：

S2-1、通过神经网络实现子模型，具体实施时，该神经网络可以是卷积神经网络或者其他成熟有效的网络；

S2-2、将原始观察获取的低维嵌入与其相应子模型以作为键值对，存储在内存表中；

S2-3、重写内存表，输出查找结果o：

，式中，

表示为组合权重；表示为预测向量；o表示为前K个相似结果的加权和；

表示为低维嵌入向量；表示为子模型；表示为子模型的参数；表示为参数为的子模型。

而在获取到输出查找结果o后，还需要执行S2-4、即，继续基于k维树的K最近邻算法从此内存表中查找前K个相似的子模型，目的在于，消除子模型之间的差异性，从而使得输出查找结果o由相似子模型的结果加权得出。

此时，需要说明的是，基于k维树的K最近邻算法从此内存表中查找前K个相似的子模型的方式包括基于内存表内容的检索和假设检验：

在基于内存表内容的检索时，需要构建相似度函数S以确定内存表的组合权重：

，式中，表示查询向量；

在基于假设检索时，需要通过更小的预测误差来计算并确定内存表的组合权重，式中，

表示为下一个时间点的真实标签。

第三步，结合内存表的输出查找结果和编码器网络的多级跳过特征，生成对未来框架的预测，可以理解的是，由于最终的结果由相似子模型的结果加权得来，所以该模型具备较高的准确性并且容易解决极其复杂的问题。

作为本发明的一实施例，在世界模型构建好后，还需要对其进行验证：

首先采集了大量的、不同方面的文字语言信息、语音问答信息并建立数据库，设计综合问答实验，以将错误率控制在10%以下，并同步设计语言建模实验，根据给出的文本语句中的前x个单词，预测下一个单词；

另外还设计一个物理实验，使用乒乓球发射机对空地发射乒乓球，记录发球力度、方位等信息并拍摄视频，使模型学会了如何准确地发射乒乓球。从而得出通过这些实验证明结果，一个记忆增强的世界模型可对大量不同的数据进行学习并预测正确的结果，说明该模型具有较强的鲁棒性，较高的正确性。

作为本发明的第二方面，提出一种基于特征对比的多模块动态模型训练装置，包括图像输入模块，根据获取的目标图像输入至一基于CNN的编码器网络，生成高级隐藏向量；记忆力查找模块，采取长跳跃的连接方式skipconnections，使用高级隐藏向量作为查询依据对内存表执行查找，输出查找结果；预测显示模块，结合输出查找结果和编码器网络的多级跳过特征，生成对记忆增强框架的未来预测，通过解码器输出目标图像结果。

本发明的技术范围不仅仅局限于上述说明中的内容，本领域技术人员可以在不脱离本发明技术思想的前提下，对上述实施例进行多种变形和修改，而这些变形和修改均应当属于本发明的保护范围内。

Claims

1.基于特征对比的多模块动态模型训练方法，其特征在于：包括：

2.根据权利要求1所述的基于特征对比的多模块动态模型训练方法，其特征在于：第二步中，使用所述高级隐藏向量作为查询依据对内存表执行查找的具体方式为：

S2-1、通过神经网络实现子模型；

S2-3、重写内存表，输出查找结果o：

，式中，

3.根据权利要求2所述的基于特征对比的多模块动态模型训练方法，其特征在于：在获取到输出查找结果o后，还需要

S2-4、继续基于k维树的K最近邻算法从此内存表中查找前K个相似的子模型，以消除子模型之间的差异性，从而使得输出查找结果o由相似子模型的结果加权得出。

4.根据权利要求3所述的基于特征对比的多模块动态模型训练方法，其特征在于：基于k维树的K最近邻算法从此内存表中查找前K个相似的子模型的方式包括基于内存表内容的检索和假设检验，其中，

，式中，表示查询向量；

在基于假设检索时，需要通过更小的预测误差来计算并确定内存表的组合权重式中，

表示为下一个时间点的真实标签。

5.根据权利要求1或3所述的基于特征对比的多模块动态模型训练方法，其特征在于：第二步中，若内存表内不存在类似的键，所述类似的键为在L2欧氏距离上最接近的向量，则需要在内存表中插入新的条目，同时，将本次查找的输出查找结果o设置为，其中为随机初始化的神经网络的参数集。

6.根据权利要求1所述的基于特征对比的多模块动态模型训练方法，其特征在于：所述多模块动态模型通过L2损失函数进行端到端的训练。

7.根据权利要求2所述的基于特征对比的多模块动态模型训练方法，其特征在于：所述神经网络采用卷积神经网络。

8.一种基于特征对比的多模块动态模型训练装置，基于权利要求1-7任一项所述的训练方法，其特征在于：至少包括

图像输入模块，根据获取的目标图像输入至一基于CNN的编码器网络，生成高级隐藏向量；

记忆力查找模块，采取长跳跃的连接方式，使用所述高级隐藏向量作为查询依据对内存表执行查找，输出查找结果；

预测显示模块，结合输出查找结果和编码器网络的多级跳过特征，生成对记忆增强框架的未来预测，通过解码器输出目标图像结果。