CN116011505A - 基于特征对比的多模块动态模型训练方法、装置 - Google Patents

基于特征对比的多模块动态模型训练方法、装置 Download PDF

Info

Publication number
CN116011505A
CN116011505A CN202310245785.8A CN202310245785A CN116011505A CN 116011505 A CN116011505 A CN 116011505A CN 202310245785 A CN202310245785 A CN 202310245785A CN 116011505 A CN116011505 A CN 116011505A
Authority
CN
China
Prior art keywords
memory table
dynamic model
training method
model training
searching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310245785.8A
Other languages
English (en)
Other versions
CN116011505B (zh
Inventor
李强
龙利民
胡勇超
阚德军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tuling Artificial Intelligence Institute Nanjing Co ltd
Original Assignee
Tuling Artificial Intelligence Institute Nanjing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tuling Artificial Intelligence Institute Nanjing Co ltd filed Critical Tuling Artificial Intelligence Institute Nanjing Co ltd
Priority to CN202310245785.8A priority Critical patent/CN116011505B/zh
Publication of CN116011505A publication Critical patent/CN116011505A/zh
Application granted granted Critical
Publication of CN116011505B publication Critical patent/CN116011505B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供基于特征对比的多模块动态模型训练方法、装置,包括第一步,输入图像至一基于CNN的编码器网络,以生成高级隐藏向量;第二步,使用高级隐藏向量作为查询依据对内存表执行查找,得到输出查找结果;第三步,结合内存表的输出查找结果和编码器网络的多级跳过特征,生成对未来框架的预测。本发明提出采用集成神经网络方法,建立具备长期记忆的模型框架,从而构建出一个由众多子模型组成的世界模型,从而解决各种世界模型的兼容性问题,具备在丰富子模型的同时,解决大量不同类型问题的优点。

Description

基于特征对比的多模块动态模型训练方法、装置
技术领域
本发明涉及机器学习技术领域,具体为基于特征对比的多模块动态模型训练方法、装置。
背景技术
当前几乎所有的机器学习从业者在实践中使用的都是监督式学习:向机器展示大量的样本,然后告诉机器正确的答案与内部参数,然后就能做图像识别之类的任务。
而过去几年,监督式学习有了极大的成功,应用也非常广泛。但是,当前的监督式学习,及深度学习缺乏推理能力,因此未来的一个重点发展方向就是深度学习和推理的结合。人们已经在多个方向上进行尝试。例如,在网络中增加记忆增强模块,这是实现推理的第一步。在对话模型中,由于对话的轮换和非连续的特点,通过增强记忆,有助于预测能力的提高,进而能实现长期而有效的对话。
在强化学习中,无模型的强化学习训练需要大量的尝试才能学会一项任务。因此,此类方法在游戏中表现良好,但是,由于现实环境远远比游戏中的环境要复杂得多,这就导致大大限制了系统的训练资源。
总的来说,目前的人工智能主要有以下缺点:缺乏独立于任务的背景知识;缺乏常识;缺乏预测行为后果的能力;缺乏长期规划和推理的能力。简言之就是:没有世界模型;没有关于世界运行的通用背景知识。
基于此,急需发明设计一种采用通过集成神经网络的方法,建立具备长期记忆的模型框架,从而构建出一个由众多子模型组成的世界模型,从而通过丰富子模型达到解决大量不同类型问题的目的。
发明内容
针对现有技术存在的不足,本发明目的是提供基于特征对比的多模块动态模型训练方法、装置,通过提出建立基于记忆增强框架的世界模型,以端到端的方式进行训练方式,从而使得本发明可以有效地扩展和学习新的场景和物理推理,具备准确性且容易解决极其复杂问题的优点。以解决上述背景技术中提出的问题。
为了实现上述目的,本发明是通过如下的技术方案来实现:基于特征对比的多模块动态模型训练方法,包括
第一步,输入图像至一基于CNN的编码器网络,以生成高级隐藏向量;
第二步,使用所述高级隐藏向量作为查询依据对内存表执行查找,其中,
若内存表内存在并找到类似的键,则,输出查找结果为相关子模型的结果的加权和,所述类似的键为在L2欧氏距离上最接近的向量;
第三步,结合内存表的输出查找结果和编码器网络的多级跳过特征,生成对未来框架的预测。
作为本发明的第二方面,提出一种基于特征对比的多模块动态模型训练装置,包括图像输入模块,根据获取的目标图像输入至一基于CNN的编码器网络,生成高级隐藏向量;记忆力查找模块,采取长跳跃的连接方式skipconnections,使用所述高级隐藏向量作为查询依据对内存表执行查找,输出查找结果;预测显示模块,结合输出查找结果和编码器网络的多级跳过特征,生成对记忆增强框架的未来预测,通过解码器输出目标图像结果。
与现有技术相比,本发明的有益效果:
1、本发明提出的增强的世界模型由一个一个小的子模型组成,可以解决任何子模型可以解决的问题,同时由于子模型之间可以具有较大的差异性,因此,本发明提出的世界模型具备极强的鲁棒性,储存空间足够大时,此模型可以不断地扩展子模型;
2、本发明提出采用集成神经网络的方法,建立具备长期记忆的模型框架,从而构建出一个由众多子模型组成的世界模型,这种基于记忆增强框架的世界模型拥有较强的扩展性和鲁棒性;同时,由于此模型可学习崭新的场景,并作为记忆单元存储,为之后的类似场景作为知识库,从而达到通过记忆单元找出相似问题的解决方案,解决各种世界模型的兼容性问题,具备在丰富子模型的同时,解决大量不同类型问题的优点。
附图说明
参照附图来说明本发明的公开内容。应当了解,附图仅仅用于说明目的,而并非意在对本发明的保护范围构成限制,在附图中,相同的附图标记用于指代相同的部件。其中:
图1为本发明一实施例中所提出的记忆增强的世界模型总体框架结构示意图。
具体实施方式
容易理解,根据本发明的技术方案,在不变更本发明实质精神下,本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此,以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明,而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。
以下结合附图对本发明做进一步详细说明,但不作为对本发明的限定。
作为对本发明技术构思以及实现原理的理解,人类以有限的感知能力并基于他们能够感知的东西来建立世界的心理模型,我们做出的决策和行动都是基于这种内部模型,我们称这种模型为世界模型,而传统的世界模型(或者说短期记忆模型)主要是为了解决某一种或某一类问题,如果将多种不同的任务叠加在一起,这种模型的学习复杂性可能会过高,并且更容易导致模型的欠拟合。
例如Facebook的记忆网络可以很擅长处理语言问答问题,但让一个记忆网络对语言问答和物理推理问题同时很擅长可能就会很难。这种困难主要体现在两个方面:一个是数据量,另一个是计算代价。神经网络相比传统的机器学习,本来就是用大量的数据来支撑的,如果让一个神经网络同时学会多个毫不相干的任务,这时所需要的数据量就会呈几何倍数增加才能训练出较好的网络,而实际有可能很难获得如此大量的数据。另一方面,处理多个毫不相干的任务,一定需要更加复杂的网络,从而完成神经网络从头到尾的完整训练,可能需要几周的时间。甚至在预测使用上也需要耗费较长的时间,对于需要极短时间解决的问题将不适用。
为此,本发明提出采用可允许记忆单元储存的记忆增强的框架在移动储存器中被储存扩展、读取调用,同时也采用神经网络模型CNN,通过由一个一个小的子模型组成端对端增强的世界模型,来有效地扩展和学习新的场景和物理推理。
而为实现上述技术构思,以解决现有的技术方案缺陷,如图1所示,作为本发明的一实施例,提出基于特征对比的多模块动态模型训练方法,包括:
第一步,输入图像至一基于CNN的编码器网络,以生成高级隐藏向量;
第二步,使用高级隐藏向量作为查询依据对内存表执行查找,其中,若内存表内存在并找到类似的键,则,输出查找结果为相关子模型的结果的加权和,类似的键为在L2欧氏距离上最接近的向量;反之,若内存表内不存在类似的键,则需要在内存表中插入新的条目,同时,将本次查找的输出查找结果o设置为,其中为随机初始化的神经网络的参数集。
基于上述技术构思,需要说明的是,
使用高级隐藏向量作为查询依据对内存表执行查找的具体方式为:
S2-1、通过神经网络实现子模型,具体实施时,该神经网络可以是卷积神经网络或者其他成熟有效的网络;
S2-2、将原始观察获取的低维嵌入与其相应子模型以作为键值对,存储在内存表中;
S2-3、重写内存表,输出查找结果o:
,式中,
表示为组合权重;表示为预测向量;o表示为前K个相似结果的加权和;
表示为低维嵌入向量;表示为子模型;表示为子模型的参数;表示为参数为的子模型。
而在获取到输出查找结果o后,还需要执行S2-4、即,继续基于k维树的K最近邻算法从此内存表中查找前K个相似的子模型,目的在于,消除子模型之间的差异性,从而使得输出查找结果o由相似子模型的结果加权得出。
此时,需要说明的是,基于k维树的K最近邻算法从此内存表中查找前K个相似的子模型的方式包括基于内存表内容的检索和假设检验:
在基于内存表内容的检索时,需要构建相似度函数S以确定内存表的组合权重:
,式中,表示查询向量;
在基于假设检索时,需要通过更小的预测误差来计算并确定内存表的组合权重,式中,
表示为下一个时间点的真实标签。
第三步,结合内存表的输出查找结果和编码器网络的多级跳过特征,生成对未来框架的预测,可以理解的是,由于最终的结果由相似子模型的结果加权得来,所以该模型具备较高的准确性并且容易解决极其复杂的问题。
作为本发明的一实施例,在世界模型构建好后,还需要对其进行验证:
首先采集了大量的、不同方面的文字语言信息、语音问答信息并建立数据库,设计综合问答实验,以将错误率控制在10%以下,并同步设计语言建模实验,根据给出的文本语句中的前x个单词,预测下一个单词;
另外还设计一个物理实验,使用乒乓球发射机对空地发射乒乓球,记录发球力度、方位等信息并拍摄视频,使模型学会了如何准确地发射乒乓球。从而得出通过这些实验证明结果,一个记忆增强的世界模型可对大量不同的数据进行学习并预测正确的结果,说明该模型具有较强的鲁棒性,较高的正确性。
作为本发明的第二方面,提出一种基于特征对比的多模块动态模型训练装置,包括图像输入模块,根据获取的目标图像输入至一基于CNN的编码器网络,生成高级隐藏向量;记忆力查找模块,采取长跳跃的连接方式skipconnections,使用高级隐藏向量作为查询依据对内存表执行查找,输出查找结果;预测显示模块,结合输出查找结果和编码器网络的多级跳过特征,生成对记忆增强框架的未来预测,通过解码器输出目标图像结果。
本发明的技术范围不仅仅局限于上述说明中的内容,本领域技术人员可以在不脱离本发明技术思想的前提下,对上述实施例进行多种变形和修改,而这些变形和修改均应当属于本发明的保护范围内。

Claims (8)

1.基于特征对比的多模块动态模型训练方法,其特征在于:包括:
第一步,输入图像至一基于CNN的编码器网络,以生成高级隐藏向量;
第二步,使用所述高级隐藏向量作为查询依据对内存表执行查找,其中,
若内存表内存在并找到类似的键,则,输出查找结果为相关子模型的结果的加权和,所述类似的键为在L2欧氏距离上最接近的向量;
第三步,结合内存表的输出查找结果和编码器网络的多级跳过特征,生成对未来框架的预测。
2.根据权利要求1所述的基于特征对比的多模块动态模型训练方法,其特征在于:第二步中,使用所述高级隐藏向量作为查询依据对内存表执行查找的具体方式为:
S2-1、通过神经网络实现子模型;
S2-2、将原始观察获取的低维嵌入与其相应子模型以作为键值对,存储在内存表中;
S2-3、重写内存表,输出查找结果o:
,式中,
表示为组合权重;表示为预测向量;o表示为前K个相似结果的加权和;
表示为低维嵌入向量;表示为子模型;表示为子模型的参数;表示为参数为的子模型。
3.根据权利要求2所述的基于特征对比的多模块动态模型训练方法,其特征在于:在获取到输出查找结果o后,还需要
S2-4、继续基于k维树的K最近邻算法从此内存表中查找前K个相似的子模型,以消除子模型之间的差异性,从而使得输出查找结果o由相似子模型的结果加权得出。
4.根据权利要求3所述的基于特征对比的多模块动态模型训练方法,其特征在于:基于k维树的K最近邻算法从此内存表中查找前K个相似的子模型的方式包括基于内存表内容的检索和假设检验,其中,
在基于内存表内容的检索时,需要构建相似度函数S以确定内存表的组合权重:
,式中,表示查询向量;
在基于假设检索时,需要通过更小的预测误差来计算并确定内存表的组合权重式中,
表示为下一个时间点的真实标签。
5.根据权利要求1或3所述的基于特征对比的多模块动态模型训练方法,其特征在于:第二步中,若内存表内不存在类似的键,所述类似的键为在L2欧氏距离上最接近的向量,则需要在内存表中插入新的条目,同时,将本次查找的输出查找结果o设置为,其中为随机初始化的神经网络的参数集。
6.根据权利要求1所述的基于特征对比的多模块动态模型训练方法,其特征在于:所述多模块动态模型通过L2损失函数进行端到端的训练。
7.根据权利要求2所述的基于特征对比的多模块动态模型训练方法,其特征在于:所述神经网络采用卷积神经网络。
8.一种基于特征对比的多模块动态模型训练装置,基于权利要求1-7任一项所述的训练方法,其特征在于:至少包括
图像输入模块,根据获取的目标图像输入至一基于CNN的编码器网络,生成高级隐藏向量;
记忆力查找模块,采取长跳跃的连接方式,使用所述高级隐藏向量作为查询依据对内存表执行查找,输出查找结果;
预测显示模块,结合输出查找结果和编码器网络的多级跳过特征,生成对记忆增强框架的未来预测,通过解码器输出目标图像结果。
CN202310245785.8A 2023-03-15 2023-03-15 基于特征对比的多模块动态模型训练方法、装置 Active CN116011505B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310245785.8A CN116011505B (zh) 2023-03-15 2023-03-15 基于特征对比的多模块动态模型训练方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310245785.8A CN116011505B (zh) 2023-03-15 2023-03-15 基于特征对比的多模块动态模型训练方法、装置

Publications (2)

Publication Number Publication Date
CN116011505A true CN116011505A (zh) 2023-04-25
CN116011505B CN116011505B (zh) 2024-05-14

Family

ID=86033792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310245785.8A Active CN116011505B (zh) 2023-03-15 2023-03-15 基于特征对比的多模块动态模型训练方法、装置

Country Status (1)

Country Link
CN (1) CN116011505B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190095716A1 (en) * 2017-09-26 2019-03-28 Ambient AI, Inc Systems and methods for intelligent and interpretive analysis of video image data using machine learning
US20200076841A1 (en) * 2018-09-05 2020-03-05 Oracle International Corporation Context-aware feature embedding and anomaly detection of sequential log data using deep recurrent neural networks
CN111047163A (zh) * 2019-11-27 2020-04-21 图灵人工智能研究院(南京)有限公司 储能策略数据处理系统、方法、装置及介质
WO2020088058A1 (zh) * 2018-10-31 2020-05-07 北京字节跳动网络技术有限公司 生成信息的方法和装置
US20210160247A1 (en) * 2018-04-02 2021-05-27 Visa International Service Association Real-time entity anomaly detection
CN112883947A (zh) * 2021-04-29 2021-06-01 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN113053366A (zh) * 2021-03-12 2021-06-29 中国电子科技集团公司第二十八研究所 一种基于多模态融合的管制话音复述一致性校验方法
US20210312628A1 (en) * 2020-04-07 2021-10-07 Naver Corporation A method for training a convolutional neural network for image recognition using image-conditioned masked language modeling
CN114118451A (zh) * 2021-11-29 2022-03-01 平安科技(深圳)有限公司 智能交互模型的训练方法、交互方法、装置及设备
WO2022240906A1 (en) * 2021-05-11 2022-11-17 Strong Force Vcn Portfolio 2019, Llc Systems, methods, kits, and apparatuses for edge-distributed storage and querying in value chain networks

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190095716A1 (en) * 2017-09-26 2019-03-28 Ambient AI, Inc Systems and methods for intelligent and interpretive analysis of video image data using machine learning
US20210160247A1 (en) * 2018-04-02 2021-05-27 Visa International Service Association Real-time entity anomaly detection
US20200076841A1 (en) * 2018-09-05 2020-03-05 Oracle International Corporation Context-aware feature embedding and anomaly detection of sequential log data using deep recurrent neural networks
WO2020088058A1 (zh) * 2018-10-31 2020-05-07 北京字节跳动网络技术有限公司 生成信息的方法和装置
CN111047163A (zh) * 2019-11-27 2020-04-21 图灵人工智能研究院(南京)有限公司 储能策略数据处理系统、方法、装置及介质
US20210312628A1 (en) * 2020-04-07 2021-10-07 Naver Corporation A method for training a convolutional neural network for image recognition using image-conditioned masked language modeling
CN113053366A (zh) * 2021-03-12 2021-06-29 中国电子科技集团公司第二十八研究所 一种基于多模态融合的管制话音复述一致性校验方法
CN112883947A (zh) * 2021-04-29 2021-06-01 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
WO2022240906A1 (en) * 2021-05-11 2022-11-17 Strong Force Vcn Portfolio 2019, Llc Systems, methods, kits, and apparatuses for edge-distributed storage and querying in value chain networks
CN114118451A (zh) * 2021-11-29 2022-03-01 平安科技(深圳)有限公司 智能交互模型的训练方法、交互方法、装置及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AJAY KATTEPUR 等: "RoboPlanner: Towards an Autonomous Robotic Action Planning Framework for Industry 4.0", 《COGNITIVE COMPUTATION AND SYSTEMS》, pages 1 - 13 *
HIDEYA MINO 等: "Key-value Attention Mechanism for Neural Machine Translation", 《PROCEEDINGS OF THE EIGHTH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING》, vol. 2, pages 290 - 295 *
MICHIEL DE JONG 等: "Mention Memory: incorporating textual knowledge into Transformers through entity mention attention", 《ARXIV:2110.06176》, pages 1 - 15 *
张钊: "知识表示与知识表示学习在服务机器人中的应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 140 - 150 *

Also Published As

Publication number Publication date
CN116011505B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
CN108959396B (zh) 机器阅读模型训练方法及装置、问答方法及装置
Hao et al. An end-to-end architecture for class-incremental object detection with knowledge distillation
CN111741330B (zh) 一种视频内容评估方法、装置、存储介质及计算机设备
CN109325440B (zh) 人体动作识别方法及系统
CN110795549B (zh) 短文本对话方法、装置、设备及存储介质
CN112633010A (zh) 基于多头注意力和图卷积网络的方面级情感分析方法及系统
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN112287170B (zh) 一种基于多模态联合学习的短视频分类方法及装置
Rao et al. Visual navigation with multiple goals based on deep reinforcement learning
CN113868366B (zh) 一种面向流数据的在线跨模态检索方法与系统
CN112699682A (zh) 一种基于可组合弱认证器的命名实体识别方法和装置
CN113255763B (zh) 基于知识蒸馏的模型训练方法、装置、终端及存储介质
CN111046178A (zh) 一种文本序列生成方法及其系统
CN114943960A (zh) 一种文本识别方法、系统、电子设备及存储介质
CN116188825A (zh) 一种基于并行注意力机制的高效特征匹配方法
CN112669215A (zh) 一种训练文本图像生成模型、文本图像生成的方法和装置
CN113609326B (zh) 基于外部知识和目标间关系的图像描述生成方法
Davtyan et al. Controllable video generation through global and local motion dynamics
CN116011505B (zh) 基于特征对比的多模块动态模型训练方法、装置
CN115797948A (zh) 一种文字识别方法、装置及设备
CN117093733A (zh) 媒体分类模型的训练方法、媒体数据分类方法和装置
CN114333069A (zh) 对象的姿态处理方法、装置、设备及存储介质
CN114139641A (zh) 基于局部结构传递的多模态表征学习方法和系统
Ouyang et al. Audio-visual emotion recognition with capsule-like feature representation and model-based reinforcement learning
Ye et al. Meta-relation networks for few shot learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant