CN109800294B

CN109800294B - 基于物理环境博弈的自主进化智能对话方法、系统、装置

Info

Publication number: CN109800294B
Application number: CN201910014369.0A
Authority: CN
Inventors: 许家铭; 姚轶群; 徐波
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2020-10-13
Anticipated expiration: 2039-01-08
Also published as: US11487950B2; WO2020143130A1; US20210150151A1; CN109800294A

Abstract

本发明属于人工智能及视觉对话领域，具体涉及了一种基于物理环境博弈的自主进化智能对话方法、系统、装置，旨在解决智能系统计算消耗大、收敛速度慢、处理信息精确度低的问题。本发明方法包括：获取待处理图像及对应问题文本；采用优化的对话模型将图片编码为图片向量，问题文本编码为问句向量；基于图片向量及问句向量生成状态向量；解码状态向量获得应答文本并输出。其中，对话模型的优化过程需引入判别器，对话模型与判别器交替优化直至对话模型的混合损失函数和判别器的损失函数值不再下降或低于预设值，完成模型优化。本发明方法与传统方法相比，计算消耗小、收敛速度快，进一步提高了处理信息的精确度。

Description

基于物理环境博弈的自主进化智能对话方法、系统、装置

技术领域

本发明属于人工智能及视觉对话领域，具体涉及了一种基于物理环境博弈的自主进化智能对话方法、系统、装置。

背景技术

在人工智能领域，训练一个能够理解数据的模型，最常用的方法是监督训练。监督训练通过最大化样本数据和对应的标签出现的概率，从统计分布角度设计目标函数，并对模型参数进行更新。监督训练需要大量的数据，并且以“从统计角度解释数据”为唯一目标，这与人类的实际学习过程并不相同，也因此监督学习存在一个明显的缺陷：当目标任务的某些重要部分缺乏标签和参照时，监督学习的效果会有明显下降。

人类的实际学习中，除了模仿之外，在有限的监督信息的条件下，通过与外界的交互博弈而进行自主更新的过程是必不可少的。目前能够从一定程度上模拟这一过程方法是使用强化学习。强化学习的目标是通过不断生成动作来进行尝试，最大化每一步决策所能获得的奖励的期望。强化学习需要定义完整的动作空间和外部奖励，因此往往只被用来解决单一的问题，例如如何在一个交互式游戏中取得更高的分数。然而，人类智能的自主进化过程中包含与物理世界环境的广泛的交互和博弈，而目前方法普遍只考虑了智能体之间的，人为任务设定下的交互博弈。这些方法只对特定的任务有效，而不同任务之间必须引入不同的动作空间和奖励机制，导致其缺少泛用性，设计复杂且难以扩展和迁移。

视觉对话生成是自然语言处理领域的重要问题。该问题的常见表现形式是，输入一张现实世界的图片和围绕该图片进行的若干轮对话历史文本，以及当前轮次从外部输入的语句，对话系统生成一句对当前轮次外部输入语句的应答语句。现有的基于强化学习和生成对抗学习的方法能够在一定程度上提高视觉对话的质量，但是计算消耗过大，基于反馈信号的策略梯度算法收敛较慢，并且没有考虑与物理世界的博弈或仅仅通过基于单样本的目标驱动来实现与物理世界的博弈，视觉对话质量有待进一步提高。

因此，如何在模型的训练过程中引入一种通用的、与物理环境进行博弈的方法，实现人类、机器、物理世界的三元博弈，以提高系统对视觉、文本等多模态信息的整合能力，同时不引入过大的计算复杂度，是人工智能及视觉对话领域的重要问题。

发明内容

为了解决现有技术中的上述问题，即为了解决智能系统计算消耗大、收敛速度慢以及处理信息精确度低的问题，本发明提供了一种基于物理环境博弈的自主进化智能对话方法，包括：

步骤S10，获取待处理图像及对应问题文本；

步骤S20，采用优化的对话模型生成所述待处理图像和对应问题文本的应答文本；

步骤S30，输出应答文本；

其中，所述对话模型包括图片编码模型、文本编码模型、状态编码模型、解码器；

所述图片编码模型基于预训练的卷积神经网络构建；

所述文本编码模型、状态编码模型、解码器为基于循环神经网络的语言模型；

所述文本编码模型包括问句编码器、事实编码器。

在一些优选的实施例中，所述优化的对话模型，其优化过程还需引入判别器，对话模型与判别器交替优化直至对话模型的混合损失函数和判别器的损失函数值不再下降或低于预设值，其步骤为：

步骤M10，获取代表物理环境的图片集及所述图片对应的对话文本，作为第一图片集和第一对话文本集；所述第一对话文本集包括第一问题文本集、第一应答文本集；

步骤M20，采用图片编码模型对所述第一图片集中每一个图片进行编码，生成第一图片向量，获得第一图片向量集；

步骤M30，融入第一图片向量集，利用的问句编码器、事实编码器和状态编码模型将所述第一对话文本集中对话文本的所有轮次的对话编码为对应轮次的状态向量，得到第一状态向量集；

步骤M40，通过解码器将所述第一状态向量集生成对应轮次的应答语句，获得第二应答文本集；通过单层感知映射函数将所述第一状态向量集生成第二图片向量集；

步骤M50，通过判别器对第二图片向量集中所有图片向量属于物理环境向量的概率进行计算，利用所述概率以及第一应答文本集，优化对话模型，得到第一优化对话模型；

步骤M60，对第一图片向量集和第二图片向量集进行采样，生成对抗训练样本池，对判别器进行优化，得到第一优化判别器。

在一些优选的实施例中，所述图片编码模型的构建，还设置有预训练步骤，其步骤为：

步骤T10，选取包含物理环境的图片集，作为预训练图片集；

步骤T20，采用卷积神经网络模型，以所述预训练图片集中每一张图片的物体类别为标签进行预训练，预训练所得的卷积神经网络为图片编码模型。

在一些优选的实施例中，第一图片向量为：

I＝CNN_pre(Img)

其中，I为第一图片向量，CNN_pre为的图片编码模型，Img为图片集中每一个图片。

在一些优选的实施例中，步骤M20中“采用图片编码模型对所述第一图片集中每一个图片进行编码，生成第一图片向量”，其方法为：

将所述第一图片集的每一个图片分别输入图片编码模型，输出对应图片最后一层的全连接层向量，所述向量编码了所述输入图片的各个层级的信息，获得第一图片向量集。

在一些优选的实施例中，步骤M30中“融入第一图片向量集，利用的问句编码器、事实编码器和状态编码模型将所述第一对话文本集中对话文本的所有轮次的对话编码为对应轮次的状态向量”，其步骤为：

步骤M31，通过词映射的方法，将所有轮次对话文本中每个词编码为词向量，获得词向量集；

步骤M32，在t轮对话文本中，基于所述词向量集，使用问句编码器将问题文本编码成为问句向量；使用事实编码器将问题文本和应答文本联合编码成为事实向量；使用状态编码器将所述问题文本问句向量、事实向量、所述事实向量对应的第一图片向量和t-1轮的状态向量融合编码为第t轮状态向量；1≤t≤T，T为对话总轮次数；

步骤M33，将通过步骤M32得到的各轮状态向量构建为第二状态向量集。

在一些优选的实施例中，所述文本编码模型包括问句编码器、事实编码器；词向量、问句向量、事实向量和状态向量，计算方法为：

其中，e为词向量，b为词向量维度，v为数据集中所有单词构成的词表的大小，w为每个词的独热码表示。

其中，q_t为问题文本问句向量，Enc^q为问句编码器，{e₁,...e_n}_t为问句词向量序列。

其中，

为事实向量，Enc^f为事实编码器；{e₁,...e_m+n}_t为第t轮的问句和答句词向量序列的拼接序列。

其中，s_t为当前轮次的状态向量；LSTM^s为状态编码器，每一对话t内只进行一步运算；s_t-1为第t-1轮的隐藏层状态；q_t为当前轮次的问题文本问句向量；

为上一轮次事实向量；I为对话所基于的第一图片向量。

在一些优选的实施例中，步骤M40中“通过解码器将所述第一状态向量集生成对应轮次的应答语句，获得第二应答文本集；通过单层感知映射函数将所述第一状态向量集生成第二图片向量集”，其方法为：

采用解码器，以所述第一状态向量集中每一轮状态向量为初始状态，依次生成预测答案的每个词，为对应轮次的应答语句，获得第二应答文本集；使用单层感知映射函数将所述第一状态向量集中每一轮的状态向量映射成为对应轮次的图片向量，获得第二图片向量集。

第二图片向量s_t'为：

s_t'＝ReLU(W_ps_t),s_t'∈R^D

其中，s_t'为第二图片向量；D为第二图片向量维度，也是第一图片向量I的维度；W_p是单层感知机的连接权重；ReLU是单层感知机所使用的激活函数。

在一些优选的实施例中，步骤M50中“通过判别器对第二图片向量集中所有图片向量属于物理环境向量的概率进行计算，利用所述概率以及第一应答文本集，优化对话模型”，其步骤为：

步骤M51，将所述第二图片向量集中每一个图片向量输入判别器，获得图片向量属于物理环境向量的概率；将所述第二应答文本集与第一应答文本集比较，计算监督训练的损失函数和物理环境博弈损失函数；

步骤M52，将所述损失函数与第二图片向量集属于真实物理环境向量的概率相结合，计算混合损失函数；

步骤M53，计算所述混合函数对所述编码器、解码器和映射函数的参数的梯度，对所述编码器、解码器和单层感知映射函数的参数更新，得到第一优化对话模型。

在一些优选的实施例中，第二图片向量属于物理环境向量的概率，计算方法为：

其中，

为第二图片向量属于物理环境向量的概率，DBot()为判别器，s_t'为第二图片向量。

在一些优选的实施例中，监督训练的损失函数、物理环境博弈损失函数和混合损失函数，计算方法为：

L_G＝L_su+λL_adv

其中，L_su为监督训练的损失函数、L_adv为物理环境博弈损失函数和L_G为混合损失函数，N为轮次t真实对话应答语句长度，

为}为第一应答文本词序列，T为对话总轮次数，

为该序列中的每个词的生成概率，

为第二图片向量属于物理环境向量的概率的平均值，其中，λ为超参数。

在一些优选的实施例中，步骤M60中“对第一图片向量集和第二图片向量集进行采样，生成对抗训练样本池，对判别器进行优化”，其步骤为：

步骤M61，从所述第一图片向量集中选取若干样本，标记为真；从所述第二图片向量集中选取若干样本，标记为假；所有带有标记的向量构成判别器的训练样本池；

步骤M62，计算判别器的损失函数，使判别器对真样本输出的概率尽可能高，对假样本输出的概率尽可能低，对判别器进行参数更新，得到优化的判别器。

在一些优选的实施例中，判别器损失函数，计算方法为：

其中，L_D为判别器损失函数，I为第一图片向量，s_t'为第二图片向量，DBot()为判别器，

为第二图片向量属于物理环境向量的概率的平均值，E_I～p(I)为真样本输出的概率的平均值。

本发明的另一方面，提出了一种基于物理环境博弈的自主进化智能对话系统，获取模块、对话模型、输出模块；；

所述获取模块，配置为获取待处理的图像及对应的问题信息并输入；

所述对话模型，配置为采用优化的对话模型生成所述待处理的图像和对应的问题信息的应答信息；

所述输出模块，配置为输出应答信息；

其中，所述对话模型，包括图像编码模块、文本编码模块、解码模块；

所述图像编码模块，配置为采用构建的图片编码模型对获取的第一图片集中每一个图片进行编码，生成第一图片向量，获得第一图片向量集；

所述文本编码模块，配置为融入第一图片向量集，利用的文本编码和状态编码模型将所述第一对话文本集中对话文本的所有轮次的对话文本编码为对应轮次的状态向量，得到第一状态向量集；

所述解码模块，配置为以第一状态向量集为基础，生成对应轮次的应答文本。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于物理环境博弈的自主进化智能对话方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于物理环境博弈的自主进化智能对话方法。

本发明的有益效果：

(1)本发明的基于物理环境博弈的自主进化智能对话方法，能够通过综合使用对抗训练和监督训练，使编解码模型产生的状态向量与物理世界的图片向量具有紧密相关的分布，从而实现智能体与人、智能体与物理环境之间的三元博弈，提高对话应答的准确度和流畅度，同时避免使用强化学习所导致的较大计算负担。

(2)本发明基于物理环境博弈的自主进化智能对话方法在自主进化的人工智能方法中引入广泛的真实物理世界信息，相比于现有的方法，本发明方法能够更充分地利用广泛、易获取的物理环境信息，使模型能够在与物理环境的博弈中，通过自主进化，获得更泛用和可扩展的知识。

(3)本发明自主进化智能系统是通过与物理环境的交互博弈完成的，能够更好地模拟人类的学习过程，依赖于更易获取的资源，获取更泛用的知识。同时，物理环境资源是无监督信息，数据量更充足，也更容易获得。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于物理环境博弈的自主进化智能对话方法的流程示意图；

图2是本发明基于物理环境博弈的自主进化智能对话方法实施例的一轮对话中的问句编码器和事实编码器模块示意图；

图3是本发明基于物理环境博弈的自主进化智能对话方法实施例的监督和对抗训练的损失函数产生过程的示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

现有的自然语言处理并生成对话主要为基于强化学习和生成对抗学习的方法，该方法能够在一定程度上提高对话的质量，但往往存在两个缺陷：一是必须在生成每一个词或句子时进行大量的采样试错，才能对基于反馈信号和期望的损失函数进行准确的估计，基于反馈信号的策略梯度算法本身收敛较慢，导致计算消耗过大；二是没有考虑与物理世界的博弈，仅仅通过文本本身和简单的目标驱动完成，导致处理信息精确度低。本发明引入一种通用的、与物理环境进行博弈的方法，实现人类，机器，物理世界的三元博弈，以提高系统对多模态信息的整合能力，同时不引入过大的计算复杂度，计算消耗低，收敛速度快，进一步提高了处理信息的精确度。

本发明的一种基于物理环境博弈的自主进化智能对话方法，包括：

步骤S10，获取待处理图像及对应问题文本；

步骤S30，输出应答文本；

所述图片编码模型基于预训练的卷积神经网络构建；

所述文本编码模型包括问句编码器、事实编码器。

为了更清晰地对本发明基于物理环境博弈的自主进化智能对话方法进行说明，下面结合图1对本发明方法实施例中各步骤展开详述。

本发明一种实施例的基于物理环境博弈的自主进化智能对话方法，包括步骤S10-步骤S30，各步骤详细描述如下：

步骤S10，获取待处理图像及对应问题文本。

步骤S20，采用优化的对话模型生成所述待处理图像和对应问题文本的应答文本。

所述对话模型包括图片编码模型、文本编码模型、状态编码模型、解码器。

所述文本编码模型、状态编码模型、解码器为基于循环神经网络的语言模型。

所述文本编码模型包括问句编码器、事实编码器。

图片编码模型基于预训练的卷积神经网络构建，步骤为：

步骤T10，选取包含物理环境的图片集，作为预训练图片集；

本发明实施例选取ImageNet作为包含大量真实世界图片的大规模数据集，选取成熟的卷积神经网络模型VGG16，以数据集中每一张图片中物体类别为标签进行预训练，获得图片编码模型CNN_pre。

对话模型的优化过程，还需要引入判别器，对话模型与判别器交替优化直至对话模型的混合损失函数和判别器的损失函数值不再下降或低于预设值，其步骤为：

步骤M10，获取代表物理环境的图片集及所述图片对应的对话文本，作为第一图片集和第一对话文本集；所述第一对话文本集包括第一问题文本集、第一应答文本集。

步骤M20，采用图片编码模型对所述第一图片集进行编码，生成第一图片向量，获得第一图片向量集。

图片编码模型CNN_pre对于一个输入的图片，能够输出图片最后一层的全连接层向量，该向量编码了输入图片的各个层级的信息，为第一图片向量I，如式(1)所示：

I＝CNN_pre(Img) 式(1)

对于第一图片集中每一个图片，都按照上述方法获得图片向量，为第一图片向量集，CNN_pre模型的参数不随着模型的训练而进行更新。

步骤M30，融入第一图片向量集，利用的问句编码器、事实编码器和状态编码模型将所述第一对话文本集中对话文本的所有轮次的对话编码为对应轮次的状态向量，得到第一状态向量集。

步骤M31，通过词映射的方法，将所有轮次对话文本中每个词编码为词向量，获得词向量集。

步骤M32，在t轮对话文本中，基于所述词向量集，使用问句编码器将问题文本编码成为问句向量；使用事实编码器将问题文本和应答文本联合编码成为事实向量；使用状态编码器将所述问题文本问句向量、事实向量、所述事实向量对应的第一图片向量和t-1轮的状态向量融合编码为第t轮状态向量；1≤t≤T，T为对话总轮次数。如图2所示，为本发明实施例的问句编码器和事实编码器模块示意图。

在历史对话的第t轮，{x₁,...,x_n}_t，称为问句，数据集给出的对该问句的标准答案{y₁,...y_m}_t称为答句，问句和答句中的每一个词w∈{x₁,...x_n,y₁,...y_m}_t都是一个独热码向量，通过词映射矩阵可以将该向量映射成为词向量e，如式(2)所示：

其中，b为词向量维度，v为数据集中所有单词构成的词表的大小，w为每个词的独热码表示。

本实施例中，采用LSTM模型(长短期记忆网络模型，Long Short-Term Memory)作为问句编码器Enc^q；LSTM是一种循环神经网络，每输入一个词的词向量，该网络根据所输入的词向量和上一时刻自身的隐藏层状态计算产生新一时刻的隐藏层状态；将问句的词向量序列{e₁,...e_n}_t输入问句编码器，所得最后一时刻隐藏层状态作为问句向量q_t，如式(3)所示：

采用LSTM模型作为事实编码器Enc^f，将第t轮的问句和答句词向量序列进行拼接，得到{e₁,...e_m+n}_t，输入事实编码器，所得最后一时刻隐藏层状态作为事实向量

如式(4)所示：

该事实向量记录了当前轮对话中的问句和答句信息，用来在下一轮(t+1)对话中作为历史信息输入。

采用采用LSTM模型作为状态编码器LSTM^s，处于问句编码器Enc^q和事实编码器Enc^f的层级之上，每一轮对话t内只进行一步运算，输入第t-1轮的事实向量

和隐藏层状态s_t-1，当前时刻的问句向量

以及整个对话所基于的第一图片向量I，输出当前轮的状态向量s_t，如式(5)所示：

步骤M40，通过解码器将所述第一状态向量集生成对应轮次的应答语句，获得第二应答文本集；通过单层感知映射函数将所述第一状态向量集生成第二图片向量集。

采用解码器，以第一状态向量集中每一轮状态向量为初始状态，依次生成预测答案的每个词，为对应轮次的应答语句，获得第二应答文本集；使用单层感知映射函数将第一状态向量集中每一轮的状态向量映射成为对应轮次的图片向量，获得第二图片向量集。

在对话轮次t，使用单层感知机模型作为映射函数f，将状态向量s_t映射为第二图片向量s_t'，如式(6)所示：

s_t'＝ReLU(W_ps_t),s_t'∈R^D (式)6

其中，D为第二图片向量维度，也是第一图片向量I的维度；W_p是单层感知机的连接权重；ReLU是单层感知机所使用的激活函数。

步骤M50，通过判别器对第二图片向量集中所有图片向量属于物理环境向量的概率进行计算，利用所述概率以及第一应答文本集，优化对话模型，得到第一优化对话模型。

步骤M51，将所述第二图片向量集中每一个图片向量输入判别器，获得图片向量属于物理环境向量的概率；将所述第二应答文本集与第一应答文本集比较，计算监督训练的损失函数和物理环境博弈损失函数。如图3所示，为本发明实施例的监督和对抗训练的损失函数产生过程的示意图。

在对话轮次t，使用LSTM模型作为解码器Decoder，以状态向量s_t作为初始状态，依次生成出所预测的每个答案词。解码器所使用的LSTM模型结构与图2所示的编码器Enc^q结构相同，在每个时间片，将已经解码出的词编码成为新的隐层向量。在新的隐层向量基础上，通过带有softmax激活函数的单层感知机模型，对词表中的每个词，计算在该时间片产生该词的概率。

本实施例中，采用带有ReLU激活函数的单层感知机作为判别器DBot()，对于每个第二图片向量，判别器输出该向量属于物理环境向量的概率

如式(7)所示：

其中，DBot()为判别器，s_t'为第二图片向量。

在对话轮次t，第一对话文本中的应答语句为一个词序列

N为句子长度，，T为历史对话轮次数，在所有的T轮对话进行完成后，使用交叉熵计算该对话中所有整句应答语句的监督训练损失函数L_su，如式(8)所示：

其中，

为该序列中的每个词的生成概率。

当一个样本中的所有的T轮对话预测结束后，对于每一轮产生的第二图片向量s_t'，采用判别器产生的概率

对这些概率的平均值取反，作为与物理环境博弈的损失函数L_adv，如式(9)所示：

其中，

为第二图片向量属于物理环境向量的概率的平均值。

L_adv越小，代表所产生的第二图片向量越接近于第一图片向量的分布。

步骤M52，将所述损失函数与第二图片向量集属于真实物理环境向量的概率相结合，计算混合损失函数。

混合损失函数L_G由监督训练和物理环境博弈的损失函数通过参数λ加权求和得到，如式(10)所示：

L_G＝L_su+λL_adv 式(10)

其中，λ为超参数。

本实施例中，基于计算的参数梯度，采用Adam算法更新编码器、解码器和映射函数的参数，以降低损失函数的值。

步骤M61，从所述第一图片向量集中选取若干样本，标记为真；从所述第二图片向量集中选取若干样本，标记为假；所有带有标记的向量构成判别器的训练样本池。

本实施例中，从对话数据(dialog)中采样出一个包(通常为32)大小的样本子集，通过当前的编码器参数对样本子集的对话文本进行编码，生成第二图片向量，并对这些向量打上标签，标记为假。

从第一图片向量集中采样相同数量的第一图片向量(可不对应对话数据的样本子集)，并对这些向量打上标签，标记为真。

带有标记真和标记假的所有图片向量构成判别器的训练样本池。

判别器的损失函数L_D，如式(11)所示：

其中，I为第一图片向量，s_t'为第二图片向量，DBot()为判别器，

为伪图片向量属于物理环境向量的概率的平均值，E_I～p(I)为真样本输出的概率的平均值。

计算判别器损失函数L_D对判别器DBot()的参数的梯度。基于该梯度，使用RMSProp算法更新判别器参数，以降低该损失函数的值。

步骤S30，输出应答文本；

为了进一步说明本发明基于物理环境博弈的自主进化智能对话方法的性能，本发明实施例选择VisDial v0.5多轮问答数据集进行评测。VisDial数据集中数据的典型形式为：给出一张图片和对应的10轮自然语言对话，要求对话系统在每一轮阅读图片和之前所有的对话历史，预测在这一轮对问句的应答，并与真实的应答语句作比较。每个应答语句有100个候选语句，系统必须给出产生每一个候选语句的概率。数据集的测试指标与真实答案的概率在所有候选答案中的排名有关，分为五类，分别是MRR(Mean Reciprocal Rank)，生成概率前1/5/10名中正确答案的召回率(Recall@1/5/10)，以及正确答案的平均排名(MeanRank)。其中平均排名值越低说明结果准确度越高；其他四项指标越高则说明结果准确度越高。

参数设置为：n＝20，b＝300，d＝512，D＝4096，lr＝5e-5，lr^pre＝1e-3，bs＝32，λ＝10，c＝0.01；n为所有训练数据中的最大句子长度，b为词向量映射的维度，d为编解码器中所有LSTM循环神经网络产生的向量的维度，D图片向量和第二图片向量的维度。lr监督训练和对抗训练时采用的学习率，lr^pre是只采用监督学习进行预训练时使用的学习率。预训练时，学习率逐渐从1e-3衰减至5e-5，预训练过程一共进行30轮。bs是每次训练时采样的数据包的大小。λ为计算混合损失函数时对抗训练的损失函数的权重大小。c是对抗训练时对判别器权重的压缩区间大小。

在上述设定下，本发明的实施例在进行预训练后，加入与物理环境进行博弈的对抗训练，在20轮内能够收敛，得到的编解码器的参数作为最终的视觉对话系统。

本发明实施例采用以下对比方法：

对比方法一SL-pretrain：本发明中所描述编解码器的纯监督训练版本(SL-pretrain)，该模型是一个层级的文本句子和对话状态编码器，只是用监督式的损失函数进行训练，不涉及物理环境博弈中的对抗学习。

对比方法二Answer-Prior：答句先验(Answer-Prior)，该模型是一个基线模型，直接使用一个长短期记忆(LSTM)神经网络对每一条候选答句进行编码，再通过单层感知机输出一个分数。该模型直接在训练集的所有答句上进行训练，不考虑图片信息。

对比方法三MN：记忆网络模型(MN)，该模型对每一轮对话历史进行离散的向量式存储，并在产生回答时对历史向量以点积相似度计算和加权和的形式进行检索，同时整合图片向量信息，使用循环神经网络进行解码。

对比方法四LF：后期融合编码器(LF)，该模型将对话历史中的所有轮的问答句子视为一个长序列，并用一个LSTM循环神经网络进行编码；对于当前轮次的问句，用另一个LSTM进行编码。将历史编码、问句编码和图片向量进行拼接后，用多层感知机融合映射，在感知机所得向量的基础上使用循环神经网络进行解码。

对比方法五HREA：层级注意力编码(HREA)，该模型的结构与对比方法一所述SL-pretrain模型类似。参照步骤S1024，唯一的区别是输入状态编码器的事实向量不再是来自第t-1轮，而是使用参数化注意力机制计算当前问句向量与每一轮对话历史的事实向量的相似权重，对每一轮的事实向量进行加权和，作为新的事实向量输入状态编码器。

对比方法六PL-Multi：目标驱动的强化学习(RL-Multi)，该方法使用与对比方法一所述SL-pretrain类似的模型，区别在于，对问句进行编码后，该方法在问句向量基础上通过单层感知机产生一个对图片向量的预测，使用该预测向量与对话所基于的图片向量之间的欧式距离作为奖励信号，通过强化学习方法计算损失函数，并与监督训练的损失函数进行加权求和。

本发明实施例和对比方法实验结果如表1所示：

表1

方法	MRR	R@1(％)	R@5(％)	R@10(％)	Mean
						SL-pretrain	0.436	33.02	53.41	60.09	21.83
Answer-Prior	0.311	19.85	39.14	44.28	31.56
						MN	0.443	34.62	53.74	60.18	21.69
LF	0.430	33.27	51.96	58.09	23.04
						HREA	0.442	34.47	53.43	59.73	21.83
RL-Multi	0.437	33.22	53.67	60.48	21.13
						本发明方法	0.446	34.55	54.29	61.15	20.72

表1中的实验结果表明，本发明的基于物理环境博弈的自主进化智能对话方法的实施例对模型在数据集各项指标上的表现均有明显的提升作用。一个结构简单、不包含对文本和图像的任何注意力机制的模型(SL-pretrain)经过本发明所述的训练过程后，在所有指标上明显超越了大多数其他模型。

此外，为了验证本发明中基于物理环境博弈的对抗训练不但是一种较为理想的提升视觉对话系统性能的途径，且这一提升是稳定、鲁棒的，与编解码器本身的结构无关，在对比方法LF的模型基础上加入了本发明所述的物理环境博弈进行混合损失函数训练。不同训练方法对不同模型的性能提升比较如表2所示：

表2

方法	MRR	R@1(％)	R@5(％)	R@10(％)	Mean
						SL-pretrain	0.436	33.02	53.41	60.09	21.83
RL-Multi提升	0.001	0.20	0.26	0.39	0.70
						本发明提升	0.010	1.53	0.88	1.06	1.11
LF	0.430	33.27	51.96	58.09	23.04
						本发明提升	0.009	1.54	0.90	1.14	1.11

对比表2的前三行可以表明，使用完全相同的编解码器结构，本发明中物理环境博弈所带来的提升远比之前最佳的对比方法六RL-Multi提升明显。原因在于，对比方法六使用目标驱动的强化学习方式，但强化学习的奖励只与当前样本中所涉及的唯一一张图片有关。由于人类语言的高度抽象性，文本中的10轮对话能够正确描述的现实世界图片并不限于真实数据中的这一张。因此，选择与这一张图片的欧式距离作为奖惩信号并不是一种很可靠的辅助训练方式。与此相反，本发明的思路是通过物理环境博弈的对抗训练，使编码器产生的状态编码从分布上更贴近于现实世界图片，从而在整体数据分布层面整合来自多模态的先验知识。对比表2的后三行可以表明，本发明所涉及的对抗学习与监督学习混合损失函数能够稳定地为不同的编解码器模型带来性能提升，是一种较为高效和通用的视觉对话方法。同时，任何物理环境图片数据集都可以直接被用来参与该模型的博弈，而该模型的博弈过程也适用于任何需要从视觉信息中获取知识的目标任务。因此，该模型所使用的数据更容易获得，并且解决了其他自主进化方法缺少泛用性的问题。

本发明第二实施例的基于物理环境博弈的自主进化智能对话系统，包括获取模块、对话模型、输出模块；

所述输出模块，配置为输出应答信息；

所述文本编码模块，配置为融入第一图片向量集，利用问句编码器、事实编码器和状态编码模型将所述第一对话文本集中对话文本的所有轮次的对话文本编码为对应轮次的状态向量，得到第一状态向量集；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于物理环境博弈的自主进化智能对话系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于物理环境博弈的自主进化智能对话方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于物理环境博弈的自主进化智能对话方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于物理环境博弈的自主进化智能对话方法，其特征在于，包括：

步骤S10，获取待处理图像及对应问题文本；

步骤S30，输出应答文本；

所述图片编码模型基于预训练的卷积神经网络构建；

所述文本编码模型包括问句编码器、事实编码器；

所述优化的对话模型，其优化过程还需引入判别器，对话模型与判别器交替优化直至对话模型的混合损失函数和判别器的损失函数值不再下降或低于预设值，其步骤为：

步骤M10，获取代表物理环境的图片集及所述图片集对应的对话文本，作为第一图片集和第一对话文本集；所述第一对话文本集包括第一问题文本集、第一应答文本集；

步骤M20，采用图片编码模型对所述第一图片集中每一个图片分别进行编码，生成第一图片向量，获得第一图片向量集；

步骤M30，融入第一图片向量集，利用问句编码器、事实编码器和状态编码模型将所述第一对话文本集中对话文本的所有轮次的对话编码为对应轮次的状态向量，得到第一状态向量集；

2.根据权利要求1所述的基于物理环境博弈的自主进化智能对话方法，其特征在于，所述图片编码模型的构建，还设置有预训练步骤，其步骤为：

步骤T10，选取包含物理环境的图片集，作为预训练图片集；

3.根据权利要求1所述的基于物理环境博弈的自主进化智能对话方法，其特征在于，所述第一图片向量为：

I＝CNN_pre(Img)

其中，I为第一图片向量，CNN_pre为图片编码模型，Img为图片集中每一个图片。

4.根据权利要求1或3所述的基于物理环境博弈的自主进化智能对话方法，其特征在于，步骤M20中“采用图片编码模型对所述第一图片集中每一个图片分别进行编码，生成第一图片向量”，其方法为：

将所述第一图片集的每一张图片分别输入图片编码模型，输出对应图片最后一层的全连接层向量，所述向量编码了所述输入图片的各个层级的信息，获得第一图片向量集。

5.根据权利要求1所述的基于物理环境博弈的自主进化智能对话方法，其特征在于，步骤M30中“融入第一图片向量集，利用问句编码器、事实编码器和状态编码模型将所述第一对话文本集中对话文本的所有轮次的对话编码为对应轮次的状态向量”，其步骤为：

步骤M32，在t轮对话文本中，基于所述词向量集，使用问句编码器将问题文本编码成为问句向量；使用事实编码器将问题文本和应答文本联合编码成为事实向量；使用状态编码模型将所述问句向量、事实向量、所述事实向量对应的第一图片向量和t-1轮的状态向量融合编码为第t轮状态向量；1≤t≤T，T为对话总轮次数；

6.根据权利要求5所述的基于物理环境博弈的自主进化智能对话方法，其特征在于，词向量、问句向量、事实向量和状态向量，计算方法为：

e＝Aw,

其中，e为词向量，b为词向量维度，v为数据集中所有单词构成的词表的大小，w为每个词的独热码表示；

其中，q_t为问句向量，Enc^q为问句编码器，{e₁,...e_n}_t为问句词向量序列；

其中，

为事实向量，Enc^f为事实编码器；{e₁,...e_m+n}_t为第t轮的问句和答句词向量序列的拼接序列；

其中，s_t为当前轮次的状态向量；LSTM^s为状态编码模型，每一对话t内只进行一步运算；s_t-1为第t-1轮的隐藏层状态；q_t为当前轮次的问题文本问句向量；

为上一轮次事实向量；I为对话所基于的第一图片向量。

7.根据权利要求1所述的基于物理环境博弈的自主进化智能对话方法，其特征在于，步骤M40中“通过解码器将所述第一状态向量集生成对应轮次的应答语句，获得第二应答文本集；通过单层感知映射函数将所述第一状态向量集生成第二图片向量集”，其方法为：

8.根据权利要求7所述基于物理环境博弈的自主进化智能对话方法，其特征在于，第二图片向量为：

s_t'＝ReLU(W_ps_t),s_t'∈R^D

其中，s_t为当前轮次的状态向量，s_t'为第二图片向量；D为第二图片向量维度，也是第一图片向量I的维度；W_p是单层感知机的连接权重；ReLU是单层感知机所使用的激活函数。

9.根据权利要求1所述的基于物理环境博弈的自主进化智能对话方法，其特征在于，步骤M50中“通过判别器对第二图片向量集中所有图片向量属于物理环境向量的概率进行计算，利用所述概率以及第一应答文本集，优化对话模型”，其步骤为：

步骤M53，计算所述混合损失函数对所述编码器、解码器和映射函数的参数的梯度，对所述编码器、解码器和单层感知映射函数的参数更新，得到第一优化对话模型。

10.根据权利要求9所述的基于物理环境博弈的自主进化智能对话方法，其特征在于，所述第二图片向量属于物理环境向量的概率，计算方法为：

其中，

11.根据权利要求9所述的基于物理环境博弈的自主进化智能对话方法，其特征在于，所述监督训练的损失函数、物理环境博弈损失函数和混合损失函数，计算方法为：

L_G＝L_su+λL_adv

其中，L_su为监督训练的损失函数、L_adv为物理环境博弈损失函数、L_G为混合损失函数，N为轮次t真实对话应答语句长度，

为第一应答文本词序列，T为对话总轮次数，

为该序列中的每个词的生成概率，

12.根据权利要求1所述的基于物理环境博弈的自主进化智能对话方法，其特征在于，步骤M60中“对第一图片向量集和第二图片向量集进行采样，生成对抗训练样本池，对判别器进行优化”，其步骤为：

13.根据权利要求12所述的基于物理环境博弈的自主进化智能对话方法，其特征在于，所述判别器损失函数，计算方法为：

14.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-13任一项所述的基于物理环境博弈的自主进化智能对话方法。

15.一种处理装置，包括

处理器，适于执行各条程序；以及

存储装置，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

权利要求1-13任一项所述的基于物理环境博弈的自主进化智能对话方法。