CN114860893A

CN114860893A - 基于多模态数据融合与强化学习的智能决策方法及装置

Info

Publication number: CN114860893A
Application number: CN202210786585.9A
Authority: CN
Inventors: 张煜; 李鑫; 刘屹峰; 刘运; 杨景照; 罗俊仁; 李婷婷; 蒋超远; 袁唯淋
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2022-08-05
Anticipated expiration: 2042-07-06
Also published as: CN114860893B

Abstract

本申请属于智能决策技术领域，涉及基于多模态数据融合与强化学习的智能决策方法及装置，方法包括：获取包括语言指令和视觉信息的智能决策任务，对语言指令和视觉信息进行编码，得到语言编码向量和视觉编码向量，并得到多模态数据；基于多模态融合方法，根据多模态数据，得到多模态融合数据，将多模态数据输入到距离优化的语言理解模型中，判断环境状态与语言指令相对应时，向强化学习智能体提供即时语言奖励；将多模态融合数据输入到强化学习算法中，基于强化学习算法和即时语言奖励，输出动作并完成智能决策。本申请能够使智能体理解自然语言指令，通过提供语言奖励的形式加速学习从而快速完成任务。

Description

基于多模态数据融合与强化学习的智能决策方法及装置

技术领域

本申请涉及智能决策技术领域，特别是涉及基于多模态数据融合与强化学习的智能决策方法及装置。

背景技术

人工智能的迅速发展将深刻改变世界。人工智能正在逐步走入我们的生活，但它们的“智商”似乎并不尽如人意。人工智能可以在国际围棋比赛中打败人类冠军，但是，例如在无人驾驶方面，无人车只是在某些测试路段能做到高度自动驾驶，要在人口密集的城市街道实现完全自动驾驶还需长期攻关。开发出能够像人类大脑一样聪明而具有学习能力的AI似乎还需要相当长的一段时间。无论智能体如何高度智能，其在复杂环境下的自主能力并不完全可靠，需要人脑提供决策支持。

在仿真训练环境下工作的强化学习智能体，由于环境中奖励往往是稀少的，导致智能体经过长时间的训练也不能学习到较好的策略。为了解决此类问题，一类方法是将人类的先验知识以规则的方式硬编码或软编码集成进入强化学习，作为智能体决策的一个环节或环境、奖励的一部分引导并辅助强化学习加速收敛。

然而，这需要大量的编程和领域知识，对非专家用户而言比较困难，也并不符合人工智能服务于各种各样的人类并与之合作从而完成相应任务的愿景。

发明内容

基于此，有必要针对上述技术问题，提供一种基于多模态数据融合与强化学习的智能决策方法及装置，能够融合环境状态的自然语言理解模型，使得强化学习智能体能够“理解”人的自然语言指令，按照人的意图采取行动，通过提供语言奖励的形式加速学习从而快速完成任务。

基于多模态数据融合与强化学习的智能决策方法，包括：

获取智能决策任务，所述智能决策任务包括：语言指令和视觉信息；

对所述语言指令进行编码，得到语言编码向量；对所述视觉信息进行编码，得到视觉编码向量；根据所述语言编码向量和所述视觉编码向量，得到多模态数据；

基于多模态融合方法，根据所述多模态数据，得到多模态融合数据；

将所述多模态数据输入到距离优化的语言理解模型中，当所述语言理解模型判断环境状态与所述语言指令相对应时，向强化学习智能体提供即时语言奖励；将所述多模态融合数据输入到强化学习算法中，基于所述强化学习算法和所述即时语言奖励，输出动作并完成智能决策。

在一个实施例中，对所述语言指令进行编码，得到语言编码向量包括：

采用预先训练好的Bert模型，对所述语言指令进行编码，得到语言编码向量。

在一个实施例中，对所述视觉信息进行编码，得到视觉编码向量包括：

通过卷积神经网络，对在每个时间步接收到的视觉信息进行编码，得到视觉编码向量。

在一个实施例中，将所述多模态数据输入到距离优化的语言理解模型中，当所述语言理解模型判断环境状态与所述语言指令相对应时，向强化学习智能体提供即时语言奖励包括：

将所述多模态数据输入到距离优化的语言理解模型中，计算所述语言编码向量和所述视觉编码向量之间差值的二范数；当所述二范数达到预设的阈值时，判断环境状态与所述语言指令相对应，向强化学习智能体提供即时语言奖励。

在一个实施例中，当所述二范数未达到预设的阈值时：

采用所述二范数对所述卷积神经网络进行更新，得到当前视觉编码向量，并根据所述语言编码向量和当前视觉编码向量得到当前多模态数据；

基于多模态融合方法，根据当前多模态数据，得到当前多模态融合数据；

将当前多模态数据输入到距离优化的语言理解模型中，计算所述语言编码向量和当前视觉编码向量之间差值的二范数，直至所述二范数达到预设的阈值。

在一个实施例中，当所述语言理解模型判断环境状态与所述语言指令相对应时，最小化语言编码向量和视觉编码向量之间差值的二范数；

当所述语言理解模型判断环境状态与所述语言指令不相对应时，最大化语言编码向量和视觉编码向量之间差值的二范数。

在一个实施例中，在输出动作并完成智能决策之前，所述强化学习智能体也接收环境奖励。

在一个实施例中，所述Bert模型的权重保持不变。

在一个实施例中，所述强化学习算法是A3C强化学习算法。

基于多模态数据融合与强化学习的智能决策装置，包括：

获取模块，用于获取智能决策任务，所述智能决策任务包括：语言指令和视觉信息；

编码模块，用于对所述语言指令进行编码，得到语言编码向量；对所述视觉信息进行编码，得到视觉编码向量；根据所述语言编码向量和所述视觉编码向量，得到多模态数据；

融合模块，用于基于多模态融合方法，根据所述多模态数据，得到多模态融合数据；

输出模块，用于将所述多模态数据输入到距离优化的语言理解模型中，当所述语言理解模型判断环境状态与所述语言指令相对应时，向强化学习智能体提供即时语言奖励；将所述多模态融合数据输入到强化学习算法中，基于所述强化学习算法和所述即时语言奖励，输出动作并完成智能决策。

上述基于多模态数据融合与强化学习的智能决策方法，通过构建一种语言理解模型，使得智能体能够将语言指令与对应仿真训练环境状态联系起来，从而更好地理解语言指令，语言指令以语言奖励的形式指导强化学习智能体进行决策，提高其性能。在语言理解模型中设计了一种基于距离优化的语言奖励方法，使得智能体更好地理解语言命令与对应仿真训练环境状态之间的联系，提高了智能体的语言理解能力和任务成功率；利用基于Bert的预训练语言处理模型对语言指令进行编码，能提高智能体对语言指令的泛化性，使得智能体对未知指令具有一定的鲁棒性。基于语言指导进行决策的强化学习智能体相比于基线强化学习智能体的性能有了较大的提升，这对于推动人机混合智能决策的发展具有重要的现实意义。

附图说明

图1为一个实施例中基于多模态数据融合与强化学习的智能决策方法的流程示意图；

图2为一个实施例中基于多模态数据融合与强化学习的智能决策方法的架构图；

图3为一个实施例中语言理解模型的架构图；

图4为一个实施例中基于多模态数据融合与强化学习的智能决策装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

如图1至图3所示，本申请提供的一种基于多模态数据融合与强化学习的智能决策方法，在一个实施例中，包括如下步骤：

步骤102：获取智能决策任务，智能决策任务包括：语言指令和视觉信息。

本步骤中，语言指令是指对智能体下达的自然语言形式的指令，视觉信息是指智能体在得到语言指令后对周围环境的感知信息。

步骤104：对语言指令进行编码，得到语言编码向量；对视觉信息进行编码，得到视觉编码向量；根据语言编码向量和视觉编码向量，得到多模态数据。

具体的：

采用预先训练好的Bert模型，对语言指令进行编码，得到语言编码向量。

本步骤中，语言指令和视觉信息被嵌入同一维度空间，也就是说语言编码向量和视觉编码向量的维度是相同的。同一维度的语言编码向量和视觉编码向量构成了多模态数据。

由于学习复杂的行为策略需要大量的梯度更新，以这种方式微调Bert权重将导致对语言指令的过度拟合，因此，Bert模型的权重保持不变。

语言无论是自然的还是模板的，都允许我们对抽象进行编码、概括，向他人和自己传达计划、意图和要求等，这些都是人工智能理想化的基本能力。然而，在强化学习和模仿学习等主流范式中使用传统方法训练的智能体通常缺乏这种能力，并且难以从丰富多样的环境中有效地学习互动。凭借从外部世界学习到的丰富常识知识，人类能够在新的环境中快速学习，自然语言作为一种媒介在其中起着非常重要的作用。包含在通用和特定任务的大型文本语料库中的信息对于决策可能非常有价值。最近，随着自然语言处理技术的发展，提出了多种语言数据的处理方法。

One-Hot编码和词嵌入是当前自然语言处理领域应用最广泛的两种向量表示方式。One-Hot编码是词一级最简单的向量表示，将单词映射到维度固定且由0和1构成的向量，建立了单词向量空间模型的基础。其不足之处是每个单词都被分配了不同的表示，没有相似性的概念，且是密集存储和稀疏表示的，容易导致维度灾难。向量空间模型将对象表示为一个连续空间中的向量，即用连续的数值而非离散的 0-1 值来表示每个单词语义，为One-Hot编码的局限性提供了更灵活的解决方案。这种分布式表示成为了自然语言处理领域的主流方法，最具代表性的词嵌入模型是谷歌提出的 Word2vec，通过浅层神经网络构造了紧凑的向量表示。在处理自然语言编码任务时，通常将输入文本中的每个单词转换为数字标记，通过词嵌入将标记映射到固定的低维稠密空间，同时保留了词本身所存在的内在信息。

Word2Vec等技术方法在本质上是静态的，语境化的词嵌入是动态的，即同一个词在不同的语境中被赋予不同的嵌入。语境化的模型接收整个文本范围（目标词及其上下文），并根据上下文为每个单词提供动态的嵌入。根据语言建模中使用的序列编码器的不同，可以分为基于RNN和基于Transformer的语言模型。Transformer在编码文本序列方面优势明显，其与RNN相比具备两个重要特性：一是与顺序处理输入的RNN模型相比，Transformer 是并行处理的，更适合在GPU和TPU上进行大规模并行计算；二是与RNN模型具有记忆限制不同，Transformer通过自注意力机制可以注意到句子中较远的文本，使模型能够更好地理解单词，而不存在任何位置偏差。

Bert是一个具有自注意力机制的双向预训练语言模型，基于多层Transformer编码器构建而成，其继承了 Transformer 处理文本序列的优势，又提供了一种使Transformer双向化的解决方案，即掩码语言建模（ MLM），这一方案使Bert能够注意到所有层中的左右上下文，提高了模型的特征提取和语言表示能力。Bert的基本思想仍是在编码一个词的时候，同时利用上下文的词，也就是语境化的词嵌入，可以根据不同的上下文生成动态的向量表示。Bert词嵌入一般可以分为2种使用方式，一是特征提取，Bert词嵌入模型被作为预先训练的特征提取器，能够将输入的文本编码为上下文相关的动态词向量。二是在通用大型语料库上进行模型的预训练，学习到通用且动态的语言表征能力，而后根据具体下游任务，如分类、问答、命名实体识别、意图分类等任务进行微调，或在某一专业或任务的领域预料库上再次进行预训练。通过迁移学习的方式，大幅降低了语言模型对大型语料库的依赖性。

目前随着计算机视觉的不断发展，视觉处理技术得到了广泛的研究。对于视觉图像，智能体根据视觉感知模块捕捉环境信息，作为决策环节的重要条件之一。卷积神经网络（CNN）是处理视觉感知RGB图像的一种重要模型，网络中的每层都由多个二维平面组成，而每个平面由多个独立的神经元组成，相邻两层的神经元之间互相连接，而处于同一层的神经元之间没有连接。CNN采用了权值共享网络结构使之更类似于生物神经网络，同时模型的容量可以通过改变网络的深度和广度来调整，对自然图像也具有很强的假设（统计的平稳性和像素的局部相关性）。因此，与每层具有相当大小的全连接网络相比，CNN能够有效降低网络模型的学习复杂度，具有更少的网络连接数和权值参数，从而更容易训练。CNN主要包括输入层、卷积层、池化层、全连接层和输出层。对于大尺寸的图像识别问题，CNN首先从图像中随机选取一小块区域作为训练样本，从该小块样本中学习到一些特征，然后将这些特征作为滤波器，与原始整个图像作卷积运算，从而得到原始图像中任一位置上的不同特征的激活值。

步骤106：基于多模态融合方法，根据多模态数据，得到多模态融合数据。

基于多模态融合方法，将语言编码向量和视觉编码向量进行拼接，得到多模态融合数据。

视觉和自然语言是两种互相关联但属不同模态的信息，主要问题在于信息之间的融合和对齐。对于视觉和语言数据驱动的任务，这两种信息在环境描述上存在大范围重叠区域，因此通常可以帮助另一个模态信息的理解以及错误的校正。同时，自然语言中包含的概念需要与真实环境中的实体或属性建立关联关系。针对视觉和语言的融合问题，大多数研究聚焦于基于注意力机制的方法，其中一个典型特例是多模态 Transformer模型。注意力机制已经广泛应用于多模态数据融合中，通常是指在每个时间步上动态的生成一组带权向量的加权和，多头注意力则是指生成多组动态权重从而保留额外的信息。

步骤108：将多模态数据输入到距离优化的语言理解模型中，当语言理解模型判断环境状态与语言指令相对应时，向强化学习智能体提供即时语言奖励；将多模态融合数据输入到强化学习算法中，基于强化学习算法和即时语言奖励，输出动作并完成智能决策。

具体的：

将多模态数据输入到距离优化的语言理解模型中，计算语言编码向量和视觉编码向量之间差值的二范数；当二范数达到预设的阈值时，判断环境状态与语言指令相对应，向强化学习智能体提供即时语言奖励。

当二范数未达到预设的阈值时：采用二范数形成的损失对卷积神经网络进行参数的更新，得到当前视觉编码向量，并根据语言编码向量和当前视觉编码向量得到当前多模态数据；基于多模态融合方法，根据当前多模态数据，得到当前多模态融合数据；将当前多模态数据输入到距离优化的语言理解模型中，计算语言编码向量和当前视觉编码向量之间差值的二范数，直至二范数的大小达到预设的阈值。

当语言理解模型判断环境状态与语言指令相对应时（即：智能体完成了指令，到达了相应的任务状态），最小化语言编码向量和视觉编码向量之间差值的二范数；当语言理解模型判断环境状态与语言指令不相对应时，最大化语言编码向量和视觉编码向量之间差值的二范数。

也就是说，距离优化的语言理解模型是指，对语言编码向量和视觉编码向量之间差值的二范数进行优化的语言理解模型，为了二范数达到预设的阈值，需要进行多轮迭代，迭代的过程也就是最小化或最大化二范数的过程。

环境状态是指：将多模态数据输入到距离优化的语言理解模型之后的当前游戏状态。

强化学习智能体是指：采用了强化学习算法的智能体。在输出动作并完成智能决策之前，强化学习智能体也接收环境奖励。环境奖励是来自仿真训练环境中的奖励，是稀疏的。

强化学习算法是A3C强化学习算法。

强化学习是一种基于数据驱动的试错学习方式，是机器学习典型的方法之一。智能体在与环境的交互过程中，通过不断试错学习策略以实现奖励最大化或实现特定目标，在许多任务中取得了优于人类专家的水平。常见的强化学习模型是标准的马尔可夫决策过程（MDP）。

根据学习方式，可以将强化学习分为基于策略和基于值函数两大类。基于策略的强化学习方法直接输出下一步动作的概率分布，根据概率来选取动作。但不一定概率最高就会选择该动作，算法还是会从整体考虑。并且基于策略的强化学习方法对连续和非连续的动作问题都适用。常见的算法有Policy gradients等。基于值函数的强化学习方法输出的是动作的价值，选择价值最高的动作，适用于非连续的动作，常见的算法有DQN等。A3C算法将结合了上述两者优势，其中Actor根据概率选择动作，Critic根据动作给出价值，加速了两者学习过程。

虽然最近提出了许多强化学习算法，但是这些算法仍然难以从奖励稀疏的环境中学习到较好的策略。解决此问题的一种方法是将知识驱动和数据驱动两种框架有机融合，解决先验知识不足导致的学习效率低、收敛慢等问题，提高策略学习的稳定性和速度。

在强化学习中使用知识驱动的方法大致可分为两类，一类是将规则通过硬编码或软编码方式集成进入强化学习中，作为智能体决策的一个环节或环境、奖赏反馈的一部分引导，辅助强化学习加速收敛，例如MuZero、AlphaZero等。另一类是由人类执行对抗博弈任务，生成相关数据，指导智能体模仿专家行为，间接实现先验知识和强化学习的结合。人工先验知识主要可以分为两类，分别是通用知识和态势驱动知识。通用知识可以是概念定义、动作约束以及启发式规则。态势驱动知识与执行任务时产生的状态相关，在智能体与环境交互时不断地提供给学习系统。

奖励塑造是一种知识与强化学习融合的重要方式。强化学习的本质就是奖励驱动的试错学习，提高它学习效率的一种方法就是奖励塑造，本申请设计了语言奖励来加速强化学习。

本步骤中，采用了基于距离优化的语言理解模型，相比现有技术中余弦优化的语言理解模型，距离优化的语言理解模型针对已知命令的优化效果更好，原因是：传统的利用余弦损失优化语言视觉多模态嵌入向量之间距离的方法，只能够将语言指令和对应的环境状态的夹角推进到较近的范围，并不能保证将嵌入向量之间的距离能够被推进到较近的范围，使得语言指令和环境状态很好地对应。

自然语言是人类进行任务传递与决策的最直接方式，让智能体能够对人的语言指令进行正确的理解，进而实施正确的决策完成最终的任务目标，具有重要的现实意义。

本实施例中，当语言指令与对应的环境状态相匹配时，智能体可以获得语言奖励，即时语言奖励能够对智能体的策略进行优化，使得智能体可以按照指令正确达到指令对应状态所在的位置，按照人的意图进行策略学习，提高智能体对语言指令和环境观察的理解并加速智能体的学习。

语言奖励模型的学习，是提前预训练的，在指令和游戏屏幕帧构成的匹配或不匹配数据进行学习训练，之后直接加载到强化学习语言奖励学习模块中。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图4所示，本申请还提供一种基于多模态数据融合与强化学习的智能决策装置，包括：获取模块402、编码模块404、融合模块406和输出模块408，其中，

获取模块402，用于获取智能决策任务，智能决策任务包括：语言指令和视觉信息；

编码模块404，用于对语言指令进行编码，得到语言编码向量；对视觉信息进行编码，得到视觉编码向量；根据所述语言编码向量和所述视觉编码向量，得到多模态数据；

融合模块406，用于基于多模态融合方法，根据所述多模态数据，得到多模态融合数据；

输出模块408，用于将多模态数据输入到距离优化的语言理解模型中，当语言理解模型判断环境状态与语言指令相对应时，向强化学习智能体提供即时语言奖励；将多模态融合数据输入到强化学习算法中，基于强化学习算法和即时语言奖励，输出动作并完成智能决策。

关于基于多模态数据融合与强化学习的智能决策装置的具体限定可以参见上文中对于基于多模态数据融合与强化学习的智能决策方法的限定，在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.基于多模态数据融合与强化学习的智能决策方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对所述语言指令进行编码，得到语言编码向量包括：采用预先训练好的Bert模型，对所述语言指令进行编码，得到语言编码向量。

3.根据权利要求2所述的方法，其特征在于，对所述视觉信息进行编码，得到视觉编码向量包括：通过卷积神经网络，对在每个时间步接收到的视觉信息进行编码，得到视觉编码向量。

4.根据权利要求3所述的方法，其特征在于，将所述多模态数据输入到距离优化的语言理解模型中，当所述语言理解模型判断环境状态与所述语言指令相对应时，向强化学习智能体提供即时语言奖励包括：

5.根据权利要求4所述的方法，其特征在于，当所述二范数未达到预设的阈值时：

6.根据权利要求1至3任一项所述的方法，其特征在于，当所述语言理解模型判断环境状态与所述语言指令相对应时，最小化语言编码向量和视觉编码向量之间差值的二范数；

7.根据权利要求1至3任一项所述的方法，其特征在于，在输出动作并完成智能决策之前，所述强化学习智能体也接收环境奖励。

8.根据权利要求2或3所述的方法，其特征在于，所述Bert模型的权重保持不变。

9.根据权利要求1至3任一项所述的方法，其特征在于，所述强化学习算法是A3C强化学习算法。

10.基于多模态数据融合与强化学习的智能决策装置，其特征在于，包括：