CN116661452A - 一种基于类脑记忆的无人艇环境感知决策方法及系统 - Google Patents

一种基于类脑记忆的无人艇环境感知决策方法及系统 Download PDF

Info

Publication number
CN116661452A
CN116661452A CN202310626709.1A CN202310626709A CN116661452A CN 116661452 A CN116661452 A CN 116661452A CN 202310626709 A CN202310626709 A CN 202310626709A CN 116661452 A CN116661452 A CN 116661452A
Authority
CN
China
Prior art keywords
model
image
unmanned ship
language model
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310626709.1A
Other languages
English (en)
Inventor
谢少荣
余航
骆祥峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202310626709.1A priority Critical patent/CN116661452A/zh
Publication of CN116661452A publication Critical patent/CN116661452A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/0206Control of position or course in two dimensions specially adapted to water vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于类脑记忆的无人艇环境感知决策方法及系统,涉及无人艇决策技术领域,该方法包括:获取无人艇前方环境图像;将环境图像输入无人艇环境感知决策模型中,输出行动指令;无人艇环境感知决策模型包括依次连接的图像特征提取器、BERT模型、全连接层、短时场景记忆模块和长时记忆模块;BERT模型从图像特征中提取包含文本特征的图像特征编码;短时场景记忆模块用于预设多个问题,利用大语言模型的短时场景记忆按照设定顺序对各个问题进行解答获得多个答案;长时记忆模块用于利用大语言模型的长时间记忆和上下文学习基于多个答案输出行动指令;大语言模型为基于强化学习微调后的大语言模型。本发明提高了行动决策的准确性。

Description

一种基于类脑记忆的无人艇环境感知决策方法及系统
技术领域
本发明涉及无人艇决策技术领域,特别是涉及一种基于类脑记忆的无人艇环境感知决策方法及系统。
背景技术
在无人艇智能决策领域,现有的方法往往是只使用了强化学习,将无人艇的外部环境信息作为输入,设计奖励模型来得到使奖励分数最大化的决策。这一类方法面临的问题是,在现实中复杂海况下外部环境信息很难准确获取。即使获取了全部的外部环境信息之后,训练好的强化学习模型也很难根据复杂的海况做出最精准的决策。
发明内容
本发明的目的是提供一种基于类脑记忆的无人艇环境感知决策方法及系统,提高了行动决策的准确性。
为实现上述目的,本发明提供了如下方案:
一种基于类脑记忆的无人艇环境感知决策方法,包括:
获取无人艇前方环境图像;
将所述环境图像输入无人艇环境感知决策模型中,输出行动指令;所述无人艇环境感知决策模型包括依次连接的图像特征提取器、BERT模型、全连接层、短时场景记忆模块和长时记忆模块;
采用所述行动指令控制所述无人艇行动;
所述图像特征提取器用于提取所述环境图像中图像特征;所述BERT模型用于从所述图像特征中提取包含文本特征的图像特征编码;所述全连接层用于将所述图像特征编码映射为适用大语言模型识别的图像编码;所述短时场景记忆模块用于预设多个问题,利用所述大语言模型的短时场景记忆按照设定顺序对各个问题进行解答,获得多个答案;所述长时记忆模块用于利用所述大语言模型的长时间记忆和上下文学习基于多个答案输出行动指令;所述大语言模型为基于强化学习微调后的大语言模型。
本发明还公开了一种基于类脑记忆的无人艇环境感知决策系统,包括:
环境图像获取模块,用于获取无人艇前方环境图像;
无人艇环境感知决策模型决策模块,用于将所述环境图像输入无人艇环境感知决策模型中,输出行动指令;所述无人艇环境感知决策模型包括依次连接的图像特征提取器、BERT模型、全连接层、短时场景记忆模块和长时记忆模块;
控制模块,用于采用所述行动指令控制所述无人艇行动;
所述图像特征提取器用于提取所述环境图像中图像特征;所述BERT模型用于从所述图像特征中提取包含文本特征的图像特征编码;所述全连接层用于将所述图像特征编码映射为适用大语言模型识别的图像编码;所述短时场景记忆模块用于预设多个问题,利用所述大语言模型的短时场景记忆按照设定顺序对各个问题进行解答,获得多个答案;所述长时记忆模块用于利用所述大语言模型的长时间记忆和上下文学习基于多个答案输出行动指令;所述大语言模型为基于强化学习微调后的大语言模型。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明将大语言模型和强化学习结合,利用大语言模型强大的多模态表征能力和情景推理能力,模拟人脑中感知记忆,场景记忆,长时记忆和工作记忆协同决策的方法,解决了无人艇智能决策中环境信息感知难,实时精准决策难的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于类脑记忆的无人艇环境感知决策方法流程示意图;
图2为本发明实施例提供的无人艇环境感知决策模型训练原理示意图;
图3为本发明实施例提供的一种基于类脑记忆的无人艇环境感知决策系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于类脑记忆的无人艇环境感知决策方法及系统,提高了行动决策的准确性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
如图1所示,本实施例提供了一种基于类脑记忆的无人艇环境感知决策方法,该方法具体包括如下步骤。
步骤101:获取无人艇前方环境图像。
步骤102:将所述环境图像输入无人艇环境感知决策模型中,输出行动指令;所述无人艇环境感知决策模型包括依次连接的图像特征提取器、BERT模型、全连接层、短时场景记忆模块和长时记忆模块。
行动指令包括对无人艇转向角度的改变、对无人艇速度的改变和对无人艇下潜深度的改变等等。
步骤103:采用所述行动指令控制所述无人艇行动。
所述图像特征提取器用于提取所述环境图像中的图像特征;所述BERT模型用于从所述图像特征中提取包含文本特征的图像特征编码;所述全连接层用于将所述图像特征编码映射为适用大语言模型识别的图像编码;所述短时场景记忆模块用于预设多个问题,利用所述大语言模型的短时场景记忆按照设定顺序对各个问题进行解答,获得多个答案;所述长时记忆模块用于利用所述大语言模型的长时间记忆和上下文学习基于多个答案输出行动指令;所述大语言模型为基于强化学习微调后的大语言模型。
大语言模型包括GPT-4等大语言模型。所述BERT模型为训练过的BERT模型。
无人艇环境感知决策模型的训练原理如图2所示。首先,收集大量海洋和无人艇相关的图像和对应的描述文本,以创建图像-文本对数据集。然后,过滤掉低质量的图片,并对文本进行人工审核以纠正错误,包括删除重复的单词和不连贯的句子。最后将经过人工筛选的图像-文本对作为视觉编码器的训练数据(无人艇环境数据集)。
视觉编码器包括图像特征提取器和BERT模型。在在视觉编码器中,将预训练的视觉转换器(VisionTransformer)作为图像特征提取器以实现对图像的语义特征,将预训练的BERT(Bidirectional Encoder Representations from Transformers)模型作为文本的特征提取器以文本的语义特征,并且冻结预训练的视觉转换器和预训练的BERT模型。
预训练的BERT模型中每个Transformer块的自注意力模块和前馈神经网络之间加入了交叉注意力模块。
所述BERT模型的训练过程包括:
采集无人艇环境数据集;所述无人艇环境数据集中每个样本数据均包括无人艇环境图像和与无人艇环境图像对应的文本描述信息。
将文本和可学习编码融合作为初始输入,并且在BERT模型的自注意力模块和前馈神经网络之间加入交叉注意力模块,交叉注意力模块起到将图像特征和文本特征进行融合的作用,将预训练的VisionTransformer提取到的图像特征输入至交叉注意力模块,再经过前馈神经网络得到同时包含文本和图像特征的编码,用来计算后续的图像文本匹配损失。同时文本还会经过单独的使用BERT预训练的自注意力模块和前馈神经网络,得到文本的特征,与上文得到的图像特征编码结合来计算图像文本对比损失。另外在文本自注意力模块上添加掩码,使用图像编码和带掩码的文本来对掩码内容做出的预测,得到图像文本生成损失。使用上述三种损失训练得到可学习编码。之后在模型的输出端使用图像文本生成损失额外训练一个全连接层,全连接层的作用是实现从图像中提取到的文本特征和大语言模型所能识别的文本编码之间的映射,这样就可以让预训练的大语言模型几乎不做改动的情况下也能够识别图像的特征,并基于此进行文本生成和推理。
每个样本数据进行训练时均包括:
将无人艇环境图像输入预训练的图像特征提取器,输出样本图像特征。
将与无人艇环境图像对应的文本描述信息输入BERT模型,将所述样本图像特征输入到BERT模型中每个Transformer块的交叉注意力模块。
所述交叉注意力模块输出的特征经过前馈神经网络得到第一样本图像特征编码。
根据第一样本图像特征编码确定图像文本匹配损失。
将与无人艇环境图像对应的文本描述信息输入预训练的网络输出第二样本图像特征编码;预训练的网络包括依次连接的自注意力模块和前馈神经网络。
根据所述第一样本图像特征编码和所述第二样本图像特征编码确定图像文本对比损失。
在BERT模型中每个Transformer块的自注意力模块上添加掩码。
将与无人艇环境图像对应的文本描述信息输入添加掩码后的BERT模型,将所述样本图像特征输入到BERT模型中每个Transformer块的交叉注意力模块,所述交叉注意力模块输出的特征经过前馈神经网络得到第三样本图像特征编码。
根据所述第三样本图像特征编码和所述第三样本图像特征编码对应的标签数据确定图像文本生成损失。
BERT模型的训练过程中的混合损失表示为:
其中,ω1是图像文本对比损失的权重超参数,ω2是图像文本匹配损失/>的权重超参数,ω3是图像文本生成损失/>的权重超参数,/>是混合损失值。
在BERT模型学习过程中,采用混合损失函数来从图片文本对中训练特征提取器,以达到提取图片的特征输送给大语言模型完成多模态信息传输的目的。
图像文本对比损失的具体计算公式如下:
其中,s是相似度计算函数,在本发明中拟使用余弦相似度来实现,τ是一个可学习的参数,H是交叉熵损失函数,表示对于一个批量中的每一张图片计算Softmax归一化得到的图像文本相似度,/>表示对于一个批量中的每一句文本计算Softmax归一化得到的文本图像相似度,yi2t(I)表示使用标签信息(此处的标签就是图片和文本是否是同一组中的图片文本对)计算得到的图像的独热相似度,yt2i(T)表示使用标签信息计算得到的文本的独热相似度,最终的图像文本对比度损失H被定义为预测数据和标签数据之间的交叉熵,I表示单独一张图像,T表示单独一段文本,Im表示同意批次中第m涨图像,Tm表示同一批次中第m段文本,M表示批量大小,/>表示全体数据中取出的一个批量的图像文本对,D’表示全体数据即无人艇环境数据集。图像文本对比损失/>的作用是通过对比学习让正样本对在特征空间的距离接近,负样本对在特征空间的距离远离,以此来实现将图像特征和文本特征对齐,使它们的互信息最大化。
图像文本匹配损失的具体计算公式如下:
其中,pitm是使用图像和文本多模态的输出经过Softmax函数来得到的二分类预测,判断图像和文本属于正样本还是负样本,yitm使用标签信息来生成而二维独热向量,H是交叉熵损失函数。图像文本匹配损失的作用是通过判断图像和文本是否匹配来确保模型能够正确识别正样本对和负样本对,从而对齐图像和文字的特征。
图像文本生成损失的具体计算公式如下:
其中,代表掩蔽文本,pmsk是使用图像和遮蔽文本来对遮蔽内容做出的预测,ymsk是用标签生成的表示遮蔽内容的独热编码,H是交叉熵损失函数。图像文本生成损失/>的主要作用是让模型根据图像和带掩码的文字来补全掩码部分的信息,以此来确保模型能够得到正确的图像特征并且生成对应的文本表示。
根据图像文本匹配损失、图像文本对比损失和图像文本生成损失优化BERT模型。
收集能够表征无人艇状态的问题,作为专家知识。将实时收集到的无人艇状态图像经过训练好的BERT模型得到对应的图像特征编码。
利用所述大语言模型的长时间记忆和上下文学习基于多个答案输出行动指令,具体包括:
基于所述大语言模型,利用长时间记忆和上下文学习基于多个答案输出多个指令组成的指令集,并根据所述指令集输出行动指令。
所述大语言模型微调时采用强化学习模型对大语言模型进行微调。
所述大语言模型微调的过程包括:
构建指令训练集;所述指令训练集中样本数据包括输入数据和标签数据,所述输入数据为样本指令集,所述标签数据为样本指令集各指令的排序,排序顺序为分数从高到低。
以样本指令集为输入,以样本指令集排序为输出训练奖励模型,获得训练好的奖励模型。
将大语言模型输出的指令集输入训练好的奖励模型,将排序第一的指令作为行动指令反馈到大语言模型,对大语言模型进行微调。
大语言模型实现长时间记忆和上下文学习的注意力层公式如下:
其中,WV和WK都是变换矩阵,维度是d'×d,d和d'均是常数,X'是输入中示例部分的token向量表示,而X则表示输入中示例部分之后又在最后一个词之前的所有的token的向量表示。[X';X]表示矩阵拼接,V表示查询向量,K表示键向量,q表示查询向量,表示起到上下文学习作用的注意力层。如上所述的公式详细描述了在一个前向传播过程中注意力机制的运算步骤,通过和下面的公式进行对比就能够得出注意力机制在前向传播的过程中起到了上下文学习的作用
大语言模型实现长时间记忆和上下文学习的具体公式推导如下:
其中,将大语言模型的前向传播过程通过化简得到了WZSL(zsl表示Zero-shotLearning,0样本学习)与ΔWICL(icl表示In-ContextLearning,上下文学习),WZSL表示样本学习权重,ΔWICL表示上下文学习权重,Linear Attn表示线性注意力层,x'i表示当前注意力模块的输入,i表示注意力模块的输入次序,化简的具体步骤是通过使用全连接层和注意力的转化机制,WVX'看作是对应前面全连接上一次计算的输出梯度,WKX'看作是对应前面全连接上一次计算的输入,q看作是当前的输入,这个公式具体的描述了在大语言模型的一次前向传播中,注意力层是如何隐式的完成上下文学习的。
奖励模型通过使用人类标注好的对于不同场景下指令的排序作为训练数据来训练,模拟人类对于每一条进入的指令以无人艇当前的状态为参照进行打分,目标是不能改变人类手动标注的指令顺序的同时,能够给出每条指令尽可能合理的分数。
训练奖励模型时的损失函数表示为:
其中,rθ()表示奖励模型,x表示输入大语言模型的问题和图片,表示指令训练集中一个图片与问题(多个问题),及图片与问题对应的第一指令和第二指令,D表示指令训练集,yw表示第一指令,yl表示第二指令,K表示样本指令集中指令的个数,σ表示sigmoid激活函数,loss(θ)表示训练奖励模型时的损失值,θ表示奖励模型模型的全部参数,/>表示从K个数据中任意取两个数据的组合数,即/>
对大语言模型进行微调时的目标函数表示为:
其中,objective(φ)表示目标函数值,是强化学习模型,rθ()表示奖励模型,πLLM是初始的没有经过微调的大语言模型,E(x,y)表示强化学习训练集中一个图片与问题,及图片与问题对应的大语言模型输出的行动指令,/>表示强化学习训练集,/>表示当前的强化学习模型,β表示控制当前训练后的强化学习模型和初始强化学习模型偏移程度的超参数,x表示输入大语言模型的图片与问题,y表示大语言模型输出的行动指令,γ表示控制大语言模型在强化学习训练集和原始的预训练数据上的比重参数,Ex表示强化学习训练集中一个图片与问题,Dpretrain表示原始的大语言模型进行预训练时的预训练数据。
强化学习训练集和预训练时的预训练数据中每个样本数据均包括一个图片与问题,及图片与问题对应的大语言模型输出的行动指令。
所述图像特征提取器为训练好的视觉转换器。
实施例2
如图3所示,本实施例提供了一种基于类脑记忆的无人艇环境感知决策系统,该系统包括:
环境图像获取模块201,用于获取无人艇前方环境图像。
无人艇环境感知决策模型决策模块202,用于将所述环境图像输入无人艇环境感知决策模型中,输出行动指令;所述无人艇环境感知决策模型包括依次连接的图像特征提取器、BERT模型、全连接层、短时场景记忆模块和长时记忆模块。
控制模块203,用于采用所述行动指令控制所述无人艇行动。
所述图像特征提取器用于提取所述环境图像中图像特征;所述BERT模型用于从所述图像特征中提取包含文本特征的图像特征编码;所述全连接层用于将所述图像特征编码映射为适用大语言模型识别的图像编码;所述短时场景记忆模块用于预设多个问题,利用所述大语言模型的短时场景记忆按照设定顺序对各个问题进行解答,获得多个答案;所述长时记忆模块用于利用所述大语言模型的长时间记忆和上下文学习基于多个答案输出行动指令;所述大语言模型为基于强化学习微调后的大语言模型。
无人艇环境感知决策模型的训练过程包括如下步骤:
步骤A:首先,收集大量海洋和无人艇相关的图像和对应的描述文本,以创建图像-文本对数据集。然后,过滤掉低质量的图片,并对文本进行人工审核以纠正错误,包括删除重复的单词和不连贯的句子。最后将经过人工筛选的图像-文本对作为视觉编码器的训练数据。
步骤B:在视觉编码器中,将预训练的Vision Transformer模型作为图像特征提取器以实现对图像的语义特征,将预训练的BERT(Bidirectional Encoder Representationsfrom Transformers)模型作为文本的特征提取器以文本的语义特征,并且冻结预训练模型。
步骤C:在BERT模型的每个Transformer块中插入随机初始化的交叉注意力模块,将文本和可学习编码融合作为初始输入,并且在BERT模型的自注意力模块和前馈神经网络之间加入交叉注意力模块,交叉注意力模块起到将图像特征和文本特征进行融合的作用,将预训练的Vision Transformer提取到的图像特征输入至交叉注意力模块,再经过前馈神经网络得到同时包含文本和图像特征的编码,用来计算后续的图像文本匹配损失。同时文本还会经过单独的使用BERT预训练的自注意力模块和前馈神经网络,得到文本的特征,与上文得到的图像特征编码结合来计算图像文本对比损失。另外在文本自注意力模块上添加掩码,使用图像编码和带掩码的文本来对掩码内容做出的预测,得到图像文本生成损失。使用上述三种损失训练得到可学习编码。之后在模型的输出端使用图像文本生成损失额外训练一个全连接层,全连接层的作用是实现从图像中提取到的文本特征和大语言模型所能识别的文本编码之间的映射,这样就可以让预训练的大语言模型几乎不做改动的情况下也能够识别图像的特征,并基于此进行文本生成和推理。
步骤C中,训练的混合损失函数中的定义如下:
其中,ω1是图像文本对比损失的权重超参数,ω2是图像文本匹配损失/>的权重超参数,ω3是图像文本生成损失/>的权重超参数。
步骤D:收集能够表征无人艇状态的问题,作为专家知识。将实时收集到的无人艇状态图像经过步骤C中训练好的BERT模型得到对应的图像特征编码。
步骤E:将步骤D中收集的问题整理好之后按照由易到难的顺序逐步和图像编码拼接并输入给语言模型,问题由易到难的输入利用了大语言模型的短时场景记忆,根据由易到难层层递进的设置,每次前一个问题的答案作为短时情景记忆为下一个问题的解答提供了帮助。接下来利用大语言模型中的注意力层能够在前向推理的过程中隐式优化参数的功能,从而实现对输入文本的长时间记忆(对应流程图的长时记忆)和上下文学习,进一步引导语言模型将多模态信息和长时记忆融合得到无人艇下一步行动的各种可能的指令。
步骤F:找到专业人士,对步骤E中得到的指令集进行分析,对其中的每一条指令的合理性进行排序。最终将各类图片和问题以及其对应的指令排序整理成一个小规模数据集来模拟人脑中的工作记忆,其中对于指令集的排序视为标签信息。
步骤G:使用F中收集到的小规模数据集训练一个奖励模型,该奖励模型通过使用人类标注好的对于不同场景下指令的排序作为训练数据来训练,模拟人类对于每一条进入的指令以无人艇当前的状态为参照进行打分,目标是不能改变人类手动标注的指令顺序的同时,能够给出每条指令尽可能合理的分数。
进一步地,所述步骤G中,训练奖励模型的损失函数定义如下:
其中rθ代表奖励模型,x代表输入模型的问题和图片,代表小规模数据集中的一个图片与问题及其所对应的两个指令,yw和yl代表得到的输出指令,K代表指令集中指令的个数,σ表示sigmoid激活函数,该损失函数的具体意义是,从指令集中任意选取两条指令yw和yl,当yw指令比yl指令的排序靠前时,我们希望奖励模型对yw指令的打分要高于yl指令的打分,因此以这种巧妙地方式将人工指定的排序作为能够训练模型的损失函数。
步骤H:使用训练好的奖励模型来训练强化学习器,重新微调E中的大语言模型,目标是让大语言模型的输出能够在奖励函数中获得更高的分数。使用最终完成训练的模型得到当前海况下最终的指令,再根据得到的指令完成无人艇的自主决策。
进一步地,所述步骤H中,训练强化学习器的目标函数定义如下:
其中,是强化学习模型,rθ是步骤G中的奖励模型,πLLM是初始的没有经过微调的大语言模型,在该目标函数中,第一项rθ(x,y)是为了让模型训练出的指令能够获得更高的打分,值得注意的是E(x,y)中采样到的数据可以看作经典强化学习算法中的状态,会随着模型的更新而改变。第二项/>是一个正则项,用强化学习学到的新模型和初始模型概率分布的KL散度来约束强化学习模型,目的是让学习到的强化学习模型不要过度偏离初始模型,第三项/>是预训练语言模型的损失函数,让强化学习之后得到的模型也能够在原始的预训练的数据上也保持良好的效果。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于类脑记忆的无人艇环境感知决策方法,其特征在于,包括:
获取无人艇前方环境图像;
将所述环境图像输入无人艇环境感知决策模型中,输出行动指令;所述无人艇环境感知决策模型包括依次连接的图像特征提取器、BERT模型、全连接层、短时场景记忆模块和长时记忆模块;
采用所述行动指令控制所述无人艇行动;
所述图像特征提取器用于提取所述环境图像中的图像特征;所述BERT模型用于从所述图像特征中提取包含文本特征的图像特征编码;所述全连接层用于将所述图像特征编码映射为适用大语言模型识别的图像编码;所述短时场景记忆模块用于预设多个问题,利用所述大语言模型的短时场景记忆按照设定顺序对各个问题进行解答,获得多个答案;所述长时记忆模块用于利用所述大语言模型的长时间记忆和上下文学习基于多个答案输出行动指令;所述大语言模型为基于强化学习微调后的大语言模型。
2.根据权利要求1所述的基于类脑记忆的无人艇环境感知决策方法,其特征在于,所述BERT模型为训练过的BERT模型;所述BERT模型中每个Transformer块的自注意力模块和前馈神经网络之间加入了交叉注意力模块;
所述BERT模型的训练过程包括:
采集无人艇环境数据集;所述无人艇环境数据集中每个样本数据均包括无人艇环境图像和与无人艇环境图像对应的文本描述信息;
每个样本数据进行训练时均包括:
将无人艇环境图像输入预训练的图像特征提取器,输出样本图像特征;
将与无人艇环境图像对应的文本描述信息输入BERT模型,将所述样本图像特征输入到BERT模型中每个Transformer块的交叉注意力模块;
所述交叉注意力模块输出的特征经过前馈神经网络得到第一样本图像特征编码;
根据第一样本图像特征编码确定图像文本匹配损失;
将与无人艇环境图像对应的文本描述信息输入预训练的网络输出第二样本图像特征编码;预训练的网络包括依次连接的自注意力模块和前馈神经网络;
根据所述第一样本图像特征编码和所述第二样本图像特征编码确定图像文本对比损失;
在BERT模型中每个Transformer块的自注意力模块上添加掩码;
将与无人艇环境图像对应的文本描述信息输入添加掩码后的BERT模型,将所述样本图像特征输入到BERT模型中每个Transformer块的交叉注意力模块,所述交叉注意力模块输出的特征经过前馈神经网络得到第三样本图像特征编码;
根据所述第三样本图像特征编码和所述第三样本图像特征编码对应的标签数据确定图像文本生成损失;
根据图像文本匹配损失、图像文本对比损失和图像文本生成损失优化BERT模型。
3.根据权利要求1所述的基于类脑记忆的无人艇环境感知决策方法,其特征在于,利用所述大语言模型的长时间记忆和上下文学习基于多个答案输出行动指令,具体包括:
基于所述大语言模型,利用长时间记忆和上下文学习基于多个答案输出多个指令组成的指令集,并根据所述指令集输出行动指令。
4.根据权利要求3所述的基于类脑记忆的无人艇环境感知决策方法,其特征在于,所述大语言模型微调时采用强化学习模型对大语言模型进行微调;
所述大语言模型微调的过程包括:
构建指令训练集;所述指令训练集中样本数据包括输入数据和标签数据,所述输入数据为样本指令集,所述标签数据为样本指令集各指令的排序,排序顺序为分数从高到低;
以样本指令集为输入,以样本指令集排序为输出训练奖励模型,获得训练好的奖励模型;
将大语言模型输出的指令集输入训练好的奖励模型,将排序第一的指令作为行动指令反馈到大语言模型,对大语言模型进行微调。
5.根据权利要求4所述的基于类脑记忆的无人艇环境感知决策方法,其特征在于,训练奖励模型时的损失函数表示为:
其中,rθ()表示奖励模型,x表示输入大语言模型的问题和图片,表示指令训练集中一个图片与问题,及图片与问题对应的第一指令和第二指令,D表示指令训练集,yw表示第一指令,yl表示第二指令,K表示样本指令集中指令的个数,σ表示sigmoid激活函数,loss(θ)表示训练奖励模型时的损失值,θ表示奖励模型模型的全部参数。
6.根据权利要求4所述的基于类脑记忆的无人艇环境感知决策方法,其特征在于,对大语言模型进行微调时的目标函数表示为:
其中,objective(φ)表示目标函数值,rθ()表示奖励模型,πLLM是初始的没有经过微调的大语言模型,E(x,y)表示强化学习训练集中一个图片与问题,及图片与问题对应的大语言模型输出的行动指令,表示强化学习训练集,/>表示当前的强化学习模型,β表示控制当前训练后的强化学习模型和初始强化学习模型偏移程度的超参数,x表示输入大语言模型的图片与问题,y表示大语言模型输出的行动指令,γ表示控制大语言模型在强化学习训练集和原始的预训练数据上的比重参数,Ex表示强化学习训练集中一个图片与问题,Dpretrain表示原始的大语言模型进行预训练时的预训练数据。
7.根据权利要求1所述的基于类脑记忆的无人艇环境感知决策方法,其特征在于,所述图像特征提取器为训练好的视觉转换器。
8.一种基于类脑记忆的无人艇环境感知决策系统,其特征在于,包括:
环境图像获取模块,用于获取无人艇前方环境图像;
无人艇环境感知决策模型决策模块,用于将所述环境图像输入无人艇环境感知决策模型中,输出行动指令;所述无人艇环境感知决策模型包括依次连接的图像特征提取器、BERT模型、全连接层、短时场景记忆模块和长时记忆模块;
控制模块,用于采用所述行动指令控制所述无人艇行动;
所述图像特征提取器用于提取所述环境图像中图像特征;所述BERT模型用于从所述图像特征中提取包含文本特征的图像特征编码;所述全连接层用于将所述图像特征编码映射为适用大语言模型识别的图像编码;所述短时场景记忆模块用于预设多个问题,利用所述大语言模型的短时场景记忆按照设定顺序对各个问题进行解答,获得多个答案;所述长时记忆模块用于利用所述大语言模型的长时间记忆和上下文学习基于多个答案输出行动指令;所述大语言模型为基于强化学习微调后的大语言模型。
CN202310626709.1A 2023-05-30 2023-05-30 一种基于类脑记忆的无人艇环境感知决策方法及系统 Pending CN116661452A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310626709.1A CN116661452A (zh) 2023-05-30 2023-05-30 一种基于类脑记忆的无人艇环境感知决策方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310626709.1A CN116661452A (zh) 2023-05-30 2023-05-30 一种基于类脑记忆的无人艇环境感知决策方法及系统

Publications (1)

Publication Number Publication Date
CN116661452A true CN116661452A (zh) 2023-08-29

Family

ID=87716584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310626709.1A Pending CN116661452A (zh) 2023-05-30 2023-05-30 一种基于类脑记忆的无人艇环境感知决策方法及系统

Country Status (1)

Country Link
CN (1) CN116661452A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151246A (zh) * 2023-10-27 2023-12-01 光轮智能(北京)科技有限公司 智能体决策方法、控制方法、电子设备及存储介质
CN117590756A (zh) * 2024-01-19 2024-02-23 清华大学 水下机器人的运动控制方法、装置、设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151246A (zh) * 2023-10-27 2023-12-01 光轮智能(北京)科技有限公司 智能体决策方法、控制方法、电子设备及存储介质
CN117151246B (zh) * 2023-10-27 2024-02-20 光轮智能(北京)科技有限公司 智能体决策方法、控制方法、电子设备及存储介质
CN117590756A (zh) * 2024-01-19 2024-02-23 清华大学 水下机器人的运动控制方法、装置、设备和存储介质
CN117590756B (zh) * 2024-01-19 2024-04-19 清华大学 水下机器人的运动控制方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN113656570B (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN109726696B (zh) 基于推敲注意力机制的图像描述生成系统及方法
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN116661452A (zh) 一种基于类脑记忆的无人艇环境感知决策方法及系统
CN109657041A (zh) 基于深度学习的问题自动生成方法
CN112818691A (zh) 命名实体识别模型训练方法及装置
CN112990296B (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
CN109670576B (zh) 一种多尺度视觉关注图像描述方法
CN111008293A (zh) 基于结构化语义表示的视觉问答方法
CN114090780B (zh) 一种基于提示学习的快速图片分类方法
CN111966800A (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN112926655B (zh) 一种图像内容理解与视觉问答vqa方法、存储介质和终端
CN116110022B (zh) 基于响应知识蒸馏的轻量化交通标志检测方法及系统
CN117218498B (zh) 基于多模态编码器的多模态大语言模型训练方法及系统
CN113609326B (zh) 基于外部知识和目标间关系的图像描述生成方法
CN112416956A (zh) 一种基于bert和独立循环神经网络的问句分类方法
CN116975288A (zh) 文本处理方法及文本处理模型训练方法
CN117058667A (zh) 一种基于clip的端到端场景文本识别方法
CN113554040B (zh) 一种基于条件生成对抗网络的图像描述方法、装置设备
CN113011196B (zh) 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型
CN117034961B (zh) 一种基于bert的中法互译质量测评方法
CN113239678A (zh) 一种面向答案选择的多角度注意力特征匹配方法及系统
CN116860943A (zh) 对话风格感知与主题引导的多轮对话方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination