CN113051420A

CN113051420A - 一种基于文本生成视频机器人视觉人机交互方法及系统

Info

Publication number: CN113051420A
Application number: CN202110405742.2A
Authority: CN
Inventors: 许庆阳; 周瑞; 姜聪; 宋勇; 李贻斌; 张承进; 袁宪锋; 庞豹; 王敏婕
Original assignee: Shandong University
Current assignee: Jieyu Technology Shanghai Co ltd
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-06-29
Anticipated expiration: 2041-04-15
Also published as: CN113051420B

Abstract

本发明公开了一种基于文本生成视频的机器人视觉人机交互方法及系统，包括：获取待识别的文本信息和源图像；根据文本信息检索动作数据库，选择匹配度最高的动作图像序列；基于源图像生成模型场景信息，结合匹配得到的参考动作图像序列，基于文本生成视频任务的网络模型，生成满足语义信息并含有源图像场景信息的视频/图像序列。本发明将检索与生成模型相结合，提出一种新的基于文本生成视频的方法，用于机器人视觉人机交互，该方法在生成视频的在语义相关性、多样性以及图像真实性方面具有更好的效果，能够提升机器人的视觉交互能力。

Description

一种基于文本生成视频机器人视觉人机交互方法及系统

技术领域

本发明涉及人机视觉交互技术领域，尤其一种基于文本生成视频机器人视觉人机交互方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

机器人在进行人机交互过程中，视觉信息的交互是一种重要的信息交互手段。机器人视觉信息的输出主要以图像、视频等方式进行。当前，机器人主要以固定的图像、视频的播放方式，与人进行视觉信息的交互。

基于文本生成图像的任务是指根据文本描述生成特定的图像，该任务主要包含两个步骤，首先是文本信息的获取，其次是基于获取的文本信息进行图像或视频(图像序列)的合成。在早期的研究中，主要采用基于检索与监督学习相结合的方法。通过对相关关键词检索，寻找最优的匹配图像，最终基于语义关系，生成满足要求的图像。通过这种在已有数据库中检索的方式获得的图像比较准确，语义相关性比较高。但是，这种方法对检索数据库的依赖性较高，缺乏生成未知语义对应图像的能力。

随着深度学习技术的发展，基于深度网络的文本生成图像方法逐渐兴起。与传统的基于文本生成图像(检索与监督学习方法)相比，基于深度学习的生成方法(生成模型与无监督学习方法)可以实现端到端的训练，极大提高生成图像的多样性。变分自编码器是最基本的生成模型，主要是基于统计建模理论建立输入输出网络映射模型，然后通过计算生成图像与真实图像之间的均方误差来实现网络的训练。分自编码器能够提高生成图像的多样性，但是生成的图像会比较模糊。深度递归注意力模型是利用深度递归网络与注意力机制相结合的方式进行图像的生成，并在此基础上提出了基于字幕和软注意力机制的堆叠结构的深度递归注意力模型。随着模型的不断改进，生成图像的质量在不断提高，但是效果还是不尽人意。

生成对抗网络的提出为更好地完成生成任务提供了新的思路。生成对抗网网络主要包含生成模型(G)与判别模型(D)。生成模型接收噪声向量(z)，根据数据分布生成图像(X_g)，生成模型的目标是生成足以以假乱真的图像。判别模型接收真实图像(X_r)与伪图像(X_g)，并对真伪模型进行区分。

为了训练模型，损失函数表达式如下所示：

其中，p_data()是真实数据分布，P_z(z)是噪声向量，是学习真实图像数据分布P_G的先验模型。判别模型(D)目标是最大化分配正确的标签给真实训练样本和来自生成模型的概率，而生成模型(G)则是将log(1-D(G(z)))最小化，即生成模型(G)与判别模型(D)是根据V(D，G)进行相互博弈的过程。其网络结构如图1所示。

与变分自编码器相比，生成对抗网络在训练和生成样本时不需要对马尔科夫链进行展开推理。生成对抗网络生成的图像更加真实、清晰。基于生成对抗网络的文本生成视频的原理如图1所示。模型的输入是文本信息，通过文本嵌入函数

将文本信息转化为特征向量，根据文本特征向量生成满足要求的视频(序列图像)。

然而单纯的基于生成对抗网络的文本生成图像存在一定弊端。首先，生成对抗网络的收敛性比较差，生成对抗网络在训练的过程中可能会出现“模型崩塌”现象，即不同的噪声向量生成大量相同或者完全相近的图像；其次，通过生成对抗网络生成图形会有一定的随机性，特别是对于复杂的语义信息，生成的图像质量较差，文本与图像的语义一致性较差。

发明内容

为了解决上述问题，本发明提出了一种基于文本生成视频机器人视觉人机交互方法及系统，在生成视频的语义相关性、多样性以及图像真实性方面具有更好的效果。

在一些实施方式中，采用如下技术方案：

一种基于文本生成视频的机器人视觉人机交互方法，包括：

获取待识别的文本信息和源图像；

根据文本信息检索动作数据库，选择匹配度最高的动作图像序列；

基于源图像生成模型场景信息，结合匹配得到的参考动作图像序列，基于文本生成视频任务的网络模型，生成满足语义信息并含有源图像场景信息的视频/图像序列。

在另一些实施方式中，采用如下技术方案：

一种基于文本生成视频的机器人视觉人机交互系统，包括：

数据获取模块，用于获取待识别的文本信息和源图像；

语义信息处理模块，用于根据文本信息检索动作数据库，选择匹配度最高的动作图像序列；

生成模块，用于基于源图像生成模型场景信息，结合匹配得到的参考动作图像序列，基于文本生成视频任务的网络模型，生成满足语义信息并含有源图像场景信息的视频/图像序列。

在另一些实施方式中，采用如下技术方案：

一种终端设备，其包括处理器和存储器，处理器用于实现各指令；存储器用于存储多条指令，所述指令适于由处理器加载并执行上述的基于文本生成视频的机器人视觉人机交互方法。

与现有技术相比，本发明的有益效果是：

(1)本发明将检索与生成模型相结合，提出一种新的基于文本生成视频(序列图像)的方法，用于机器人视觉人机交互，该方法在生成视频的在语义相关性、多样性以及图像真实性方面具有更好的效果，能够提升机器人的视觉交互能力。

(2)本发明能够实现基于文本生成视频(序列图像)的任务。利用检索的生成方法来保证生成过程的可控性和稳定性，同时保留生成对抗网络强大的生成能力，提高生成视频的多样性，减少生成过程的不稳定性。

(3)本发明构建特定动作检索数据库，包含近百种特定动作，并对检索动作库在“人物块”、“时间块”、“状态块”、“动作块”进行分支检索，确定匹配度最高的参考动作模块，用于指导视频的生成。

本发明的其他特征和附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本方面的实践了解到。

附图说明

图1是现有技术中基于文本生成视频的原理图；

图2是本发明实施例中基于文本生成视频的过程示意图；

图3是本发明实施例中动作检索数据库示意图；

图4是本发明实施例中基于文本生成视频网络模型的结构示意图；

图5是本发明实施例中人体网格复原模块网络结构示意图；

图6是本发明实施例中基于文本生成视频结果的展示效果图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

根据本发明的实施例，公开了一种基于文本生成视频机器人视觉人机交互方法，参照图2，包括如下步骤：

(1)获取待识别的文本信息和源图像；

其中，待识别的文本信息可以是直接输入的文本信息，也可以是通过输入的语音信息转化成的文本信息。

源图像可以为人物的旧照或者现场采集的照片，作为模型场景信息生成的指导。

(2)根据文本信息检索动作数据库，选择匹配度最高的动作图像序列；

传统的基于文本生成图像任务中，文本信息通过文本嵌入函数进行处理，以标签的形式与特定的源图像进行结合。基于标签形式的文本信息需要耗费大量人工成本进行标记，包含的对象信息有限，无法对篇幅较长、内容丰富的文本描述进行连续视频的生成。

基于上述方式存在的问题，本实施例中，提出建立动作检索数据库，利用检索式文本处理方法，实现文本与动作的映射处理，如图3所示。动作检索库包含数百种行为状态的动作指导。为了有效提高文本到动作的检索能力，采用总线型拓扑与树型拓扑结构相结合的检索方式。首先，依据树型拓扑结构将检索库在“人物块”、“时间块”、“状态块”、“动作块”进行分支检索，选择匹配度最高的动作参考模块。随后通过总线型拓扑结构检索方式对在每个树型拓扑结构分支中匹配度最高的检索结果进行融合，筛选出匹配度最高的动作图像序列。

通过动作检索库，可以实现无标签化信息处理，省去了数据标注的成本。同时，完善的动作检索库以及合理的检索方式可以更好地对包含丰富对象的文本语义信息进行处理，实现生成内容丰富、语义一致性较好的视频。

(3)基于源图像生成模型场景信息，结合匹配得到的参考动作图像序列，基于文本生成视频任务的网络模型，生成满足语义信息并含有源图像场景信息的视频/图像序列。

本实施例中，基于文本生成视频任务的网络模型结构如图4所示，主要包括三个部分：人体网格复原模块，神经网格渲染模块，多阶段生成对抗网络模块。通过三个模块，实现基于源图像与文本描述的视频(序列图像)生成。

三个模块工作的整个过程是：首先将图像信息(源图像和参考图像)从2D状态转化为3D状态。随后在3D状态下完成姿势的转换。最后将完成动作转换后的3D模型转化为2D图像(目标图像)。

其中，人体网格复原模块通过端到端的方式，实现从二维人体图像复原到相对应的三维人体模型框架。人体网格复原模块的输入是源图像和检索到的动作检索库中的序列图像，输出是复原后的3D模型信息，人体网络复原模块的网络结构如图5所示；

在人体网格复原模块，主要是通过二维图像，预测三维姿态和形状参数。对于动作检索库匹配的图像，首先获得二维图像的卷积特征，然后传递到迭代的3D回归模型中，从而推断出三维人像建模信息以及相机与二维关节的投影关系，相机提供了一个衡量三维模型建模后的人像与相机距离的参数，来避免出现极大或者极小的三维人像模型。最后构建可微的三维人体模型(SMPL，

(，β))，与β是位姿参数。利用生成对抗网络结构，把生成模型的参数信息输入到判别模型中，判别模型对生成的三维模型是否满足正常人体行为活动进行判断，并根据损失函数对网络进行训练调整。

L＝λ(L_reproj+L_3D)+L_adv

其中，λ是权值，代表每个损失函数的重要程度，当标注的三维模型可用时，Δ取值为1，否则为0。L_reproj、L_3D、L_adv分别代表了三维回归模块损失函数、三维损失函数、编码器对抗损失函数。

对于源图像，首先获得二维图像的卷积特征，然后传递到迭代的3D回归模型中，构建可微的三维人体模型(SMPL，M(θ，β))，θ与β是位姿参数。然后，神经网格渲染模块将从人体网格复原模块获得的形体参数通过SMPL模型转化为参考图像的三维模型(3D_ref)和源图像的三维模型(3D_src)。本实施例中，参考图像指的是在动作检索库中通过检索方式获得的图像，也就是指导源图像进行动作转换的图像。(图4中左上方从动作检索库获取的图像)。

在SMPL模块中，分别为形态(β)与位姿(θ)两部分训练低维的判别器，获得更稳定的训练。SMPL模型是一种参数化的人体模型，将人体的形状与姿势进行数据化的表示。通过SMPL模型可以实现对任意形态进行人体建模与动作驱动。同时，这种建模方法可以模拟人的肌肉在运动过程中的凸起和凹陷，避免人体肌肉在运动过程中出现表面失真的现象。通过这种方式，可以创造逼真的动画人体，不同的体型，并表现出与真人类似的软组织运动。θ与β是SMPL模型的输入参数，其中，θ代表人体运动位姿和24个关节角度的75个参数，β是用来描述人体形态其中包括高矮胖瘦、以及身体各部分比例的10个参数。这些参数通过多边形网格方法进行提取。

在由二维图像转化为3D模型的过程中采用生成对抗模型，生成模型采用的是变分自动编码器(VAE)结构，编码器输入是图像编码为512维的特征向量，解码器由三层全连接层组成，隐藏层大小分别是1024与2048。生成模型的损失函数如下所示：

其中，λ_sl与λ_sm为比重系数，

是轮廓损失函数，反应真实轮廓与重建轮廓的交集。

是平滑损失函数，反映了网格表面的平滑程度，其作用是保证两个面的交角都接近180度。

随后，神经网格渲染模块随后将人体网格复原模块获取的两个三维模型进行映射，并根据其投影顶点计算变换矩阵(T)，将源图像和参考图像分离成前景图像和背景图形。通过变换矩阵(T)，实现源三维人像建模在参考三维人像建模下的动作转换，进而实现文本对图像进行姿势控制，完成基于文本生成视频(序列图像)的任务要求。此时，基于文本生成的特定姿势图像是在三维空间的建模状态，为了满足视频(序列图像)输出的需要，将3D模型转换为2D图像进行输出，神经网格渲染器将三维人像模型渲染为二维图像信息并传递到多阶段生成对抗网络模块。

多阶段生成对抗网络模块主要包括三个阶段。在该模块中，主要实现的是合成背景图像并且预测隐藏部分的像素颜色，并在SMPL基础上进行头发、衣服等像素点的补充。

在stage-IGAN阶段，主要是对上一个阶段处理后的背景图(剔除了前景信息)进行补充，通过GAN网络实现对预测部分像素颜点的补充，输出补充后的完整的背景信息图；在stage-IIGAN阶段，主要是提取和保留图像特征信息，进行前景图像的生成，随后将生成的前景图像与stage-I生成的背景图像进行融合，生成完整的包含前景与背景信息的图像；在stage-IIIGAN阶段，完成最终图像的合成的工作，输入源图像经过变换矩阵(T)变换后的满足特定动作要求的图像以及包含源图像细节的特征信息，以及背景图像，生成在背景信息补充完整的、符合语义一致性的图像，将满足要求的图像按照序列生成，生成满足语义要求的视频。

在GAN网络模型搭建中，stage-IGAN、stage-IIGAN与stage-IIIGAN三个阶段的生成模型使用的是ResUnet结构，即残差神经网络(ResNet)与全卷积神经网络(Unet)组合，在判别模型中使用的是Pix2Pix中的判别模型的框架结构。

多阶段生成对抗网络模块通过三个阶段的生成对抗网络完成背景图重建、不可见部分的预测、SMPL模型中人像细节(头发、衣服等)等部分的重构。通过抗损失函数对网络模型进行训练，使生成图像

更贴近真实图像的分布，损失函数如下所示：

其中a,b分别是来自假数据与真数据的标签。对于判别模型，

进行正则化处理，使其看起来更加真实。

判别模型使用的是条件判别模型，其输入是生成的图像和对应的映射C_s，其对抗损失函数如下所示：

下面对本实施例方法进行实验验证，基于文本生成视频(序列图像)任务的实现流程如下：首先，输入是源图像和语义信息，如图6中的实验1输入(包括图像与文本信息“我年轻的时候早晨经常穿着拳服打太极”)、实验2输入(包括图像与文本信息“我经常起床后晨练”)；随后，根据语义信息检索动作检索数据库，检索满足语义描述的参考动作，用于指导视频的生成；最后，通过在源图像和参考动作之间进行编码、建模、渲染等操作对源图像进行动作修改，最后生成满足语义要求动作，如图6中实验1输出、实验2输出。

实施例二

根据本发明的实施例，公开了一种基于文本生成视频机器人视觉人机交互系统的实施例，参照图2，包括：

数据获取模块，用于获取待识别的文本信息和源图像；

本实施例中，语义信息处理模块主要包含语言信息和图像信息。其中，语言信息又可以分为两种，分别是语音输入和文本输入。在与机器人进行的交互的过程中，通过语言处理模块，将语音信息转化为文本信息。语义信息处理模块根据文本信息检索动作数据库，在“人物块”、“时间块”、“状态块”、“动作块”的检索结果中选择匹配度最高的参考动作，指导视频图像的生成。系统的另一个输入是源图像，源图像可以为人物的旧照或者现场采集的照片，作为模型场景信息生成的指导。生成模块的主要作用是根据文本信息检索到的动作信息及源图像信息进行处理，然后生成满足语义信息并含有源图像场景信息的视频(序列图像)。

需要说明的是，上述各模块的具体实现方式已经在实施例一中进行了详细的说明，此处不再赘述。

实施例三

根据本发明的实施例，公开了一种终端设备的实施例，其包括处理器和存储器，处理器用于实现各指令；存储器用于存储多条指令，所述指令适于由处理器加载并执行实施例一中所述的基于文本生成视频的机器人视觉人机交互方法。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于文本生成视频的机器人视觉人机交互方法，其特征在于，包括：

获取待识别的文本信息和源图像；

2.如权利要求1所述的一种基于文本生成视频的机器人视觉人机交互方法，其特征在于，所述待识别的文本信息为直接输入的文本信息，或者通过输入的语音信息转化成的文本信息。

3.如权利要求1所述的一种基于文本生成视频的机器人视觉人机交互方法，其特征在于，所述动作数据库至少包含人物块、时间块、状态块和动作块；采用总线型拓扑与树型拓扑结构相结合的检索方式，基于获取的文本信息，首先依据树型拓扑结构在动作数据库的每一个块结构中进行分支检索，分别选择匹配度最高的检索结果，然后对各个块结构中筛选出的检索结果进行融合，得到匹配度最高的参考动作。

4.如权利要求1所述的一种基于文本生成视频的机器人视觉人机交互方法，其特征在于，所述基于文本生成视频任务的网络模型包括：

人体网格复原模块，被配置为根据输入的源图像和动作数据库匹配到的参考动作图像序列，输出是复原后的3D模型信息；

神经网格渲染模块，被配置为将人体网格复原模块输出的3D模型进行映射，并根据其投影顶点计算变换矩阵，将源图像和动作数据库中检索到的参考图像分离成前景图像和背景图形；

多阶段生成对抗网络模块，被配置为实现合成背景图像并且预测隐藏部分的像素颜色，并在3D模型的基础上进行像素点的补充。

5.如权利要求4所述的一种基于文本生成视频的机器人视觉人机交互方法，其特征在于，对于接收到的动作数据库匹配到的参考动作图像，人体网格复原模块获得二维图像的卷积特征，然后传递到迭代的3D回归模型中，推断出三维人像建模信息以及相机与二维关节的投影关系；构建包含位姿参数的可微的三维人体模型，利用生成对抗网络结构，判断生成的三维模型是否满足正常人体行为活动。

6.如权利要求4所述的一种基于文本生成视频的机器人视觉人机交互方法，其特征在于，所述神经网格渲染模块将从人体网格复原模块获得的形体参数通过SMPL模型转化为参考图像的三维模型和源图像的三维模型，通过变换矩阵将源图像三维模型在参考图像的三维模型指导下进行三维形态转换。

7.如权利要求4所述的一种基于文本生成视频的机器人视觉人机交互方法，其特征在于，所述多阶段生成对抗网络模块在第一阶段通过GAN网络实现对预测部分像素颜点的补充，输出补充后的完整的背景信息图；在第二阶段提取和保留图像特征信息，进行前景图像的生成，将生成的前景图像与第一阶段生成的背景图像进行融合，生成包含前景与背景信息的图像；在第三阶段完成最终图像的合成，生成背景信息补充完整、符合语义一致性的图像，将满足要求的图像按照序列生成满足语义要求的视频。

8.如权利要求7所述的一种基于文本生成视频的机器人视觉人机交互方法，其特征在于，所述多阶段生成对抗网络模块中，第一阶段、第二阶段和第三阶段的生成模型使用的是残差神经网络与全卷积神经网络的组合，在判别模型中使用的是Pix2Pix中的判别模型的框架结构。

9.一种基于文本生成视频的机器人视觉人机交互系统，其特征在于，包括：

数据获取模块，用于获取待识别的文本信息和源图像；

10.一种终端设备，其包括处理器和存储器，处理器用于实现各指令；存储器用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行权利要求1-7任一项所述的基于文本生成视频的机器人视觉人机交互方法。