CN113051420A - 一种基于文本生成视频机器人视觉人机交互方法及系统 - Google Patents

一种基于文本生成视频机器人视觉人机交互方法及系统 Download PDF

Info

Publication number
CN113051420A
CN113051420A CN202110405742.2A CN202110405742A CN113051420A CN 113051420 A CN113051420 A CN 113051420A CN 202110405742 A CN202110405742 A CN 202110405742A CN 113051420 A CN113051420 A CN 113051420A
Authority
CN
China
Prior art keywords
image
information
model
text
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110405742.2A
Other languages
English (en)
Other versions
CN113051420B (zh
Inventor
许庆阳
周瑞
姜聪
宋勇
李贻斌
张承进
袁宪锋
庞豹
王敏婕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jieyu Technology Shanghai Co ltd
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202110405742.2A priority Critical patent/CN113051420B/zh
Publication of CN113051420A publication Critical patent/CN113051420A/zh
Application granted granted Critical
Publication of CN113051420B publication Critical patent/CN113051420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于文本生成视频的机器人视觉人机交互方法及系统,包括:获取待识别的文本信息和源图像;根据文本信息检索动作数据库,选择匹配度最高的动作图像序列;基于源图像生成模型场景信息,结合匹配得到的参考动作图像序列,基于文本生成视频任务的网络模型,生成满足语义信息并含有源图像场景信息的视频/图像序列。本发明将检索与生成模型相结合,提出一种新的基于文本生成视频的方法,用于机器人视觉人机交互,该方法在生成视频的在语义相关性、多样性以及图像真实性方面具有更好的效果,能够提升机器人的视觉交互能力。

Description

一种基于文本生成视频机器人视觉人机交互方法及系统
技术领域
本发明涉及人机视觉交互技术领域,尤其一种基于文本生成视频机器人视觉人机交互方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
机器人在进行人机交互过程中,视觉信息的交互是一种重要的信息交互手段。机器人视觉信息的输出主要以图像、视频等方式进行。当前,机器人主要以固定的图像、视频的播放方式,与人进行视觉信息的交互。
基于文本生成图像的任务是指根据文本描述生成特定的图像,该任务主要包含两个步骤,首先是文本信息的获取,其次是基于获取的文本信息进行图像或视频(图像序列)的合成。在早期的研究中,主要采用基于检索与监督学习相结合的方法。通过对相关关键词检索,寻找最优的匹配图像,最终基于语义关系,生成满足要求的图像。通过这种在已有数据库中检索的方式获得的图像比较准确,语义相关性比较高。但是,这种方法对检索数据库的依赖性较高,缺乏生成未知语义对应图像的能力。
随着深度学习技术的发展,基于深度网络的文本生成图像方法逐渐兴起。与传统的基于文本生成图像(检索与监督学习方法)相比,基于深度学习的生成方法(生成模型与无监督学习方法)可以实现端到端的训练,极大提高生成图像的多样性。变分自编码器是最基本的生成模型,主要是基于统计建模理论建立输入输出网络映射模型,然后通过计算生成图像与真实图像之间的均方误差来实现网络的训练。分自编码器能够提高生成图像的多样性,但是生成的图像会比较模糊。深度递归注意力模型是利用深度递归网络与注意力机制相结合的方式进行图像的生成,并在此基础上提出了基于字幕和软注意力机制的堆叠结构的深度递归注意力模型。随着模型的不断改进,生成图像的质量在不断提高,但是效果还是不尽人意。
生成对抗网络的提出为更好地完成生成任务提供了新的思路。生成对抗网网络主要包含生成模型(G)与判别模型(D)。生成模型接收噪声向量(z),根据数据分布生成图像(Xg),生成模型的目标是生成足以以假乱真的图像。判别模型接收真实图像(Xr)与伪图像(Xg),并对真伪模型进行区分。
为了训练模型,损失函数表达式如下所示:
Figure BDA0003022202670000021
其中,pdata()是真实数据分布,Pz(z)是噪声向量,是学习真实图像数据分布PG的先验模型。判别模型(D)目标是最大化分配正确的标签给真实训练样本和来自生成模型的概率,而生成模型(G)则是将log(1-D(G(z)))最小化,即生成模型(G)与判别模型(D)是根据V(D,G)进行相互博弈的过程。其网络结构如图1所示。
与变分自编码器相比,生成对抗网络在训练和生成样本时不需要对马尔科夫链进行展开推理。生成对抗网络生成的图像更加真实、清晰。基于生成对抗网络的文本生成视频的原理如图1所示。模型的输入是文本信息,通过文本嵌入函数
Figure BDA0003022202670000022
将文本信息转化为特征向量,根据文本特征向量生成满足要求的视频(序列图像)。
然而单纯的基于生成对抗网络的文本生成图像存在一定弊端。首先,生成对抗网络的收敛性比较差,生成对抗网络在训练的过程中可能会出现“模型崩塌”现象,即不同的噪声向量生成大量相同或者完全相近的图像;其次,通过生成对抗网络生成图形会有一定的随机性,特别是对于复杂的语义信息,生成的图像质量较差,文本与图像的语义一致性较差。
发明内容
为了解决上述问题,本发明提出了一种基于文本生成视频机器人视觉人机交互方法及系统,在生成视频的语义相关性、多样性以及图像真实性方面具有更好的效果。
在一些实施方式中,采用如下技术方案:
一种基于文本生成视频的机器人视觉人机交互方法,包括:
获取待识别的文本信息和源图像;
根据文本信息检索动作数据库,选择匹配度最高的动作图像序列;
基于源图像生成模型场景信息,结合匹配得到的参考动作图像序列,基于文本生成视频任务的网络模型,生成满足语义信息并含有源图像场景信息的视频/图像序列。
在另一些实施方式中,采用如下技术方案:
一种基于文本生成视频的机器人视觉人机交互系统,包括:
数据获取模块,用于获取待识别的文本信息和源图像;
语义信息处理模块,用于根据文本信息检索动作数据库,选择匹配度最高的动作图像序列;
生成模块,用于基于源图像生成模型场景信息,结合匹配得到的参考动作图像序列,基于文本生成视频任务的网络模型,生成满足语义信息并含有源图像场景信息的视频/图像序列。
在另一些实施方式中,采用如下技术方案:
一种终端设备,其包括处理器和存储器,处理器用于实现各指令;存储器用于存储多条指令,所述指令适于由处理器加载并执行上述的基于文本生成视频的机器人视觉人机交互方法。
与现有技术相比,本发明的有益效果是:
(1)本发明将检索与生成模型相结合,提出一种新的基于文本生成视频(序列图像)的方法,用于机器人视觉人机交互,该方法在生成视频的在语义相关性、多样性以及图像真实性方面具有更好的效果,能够提升机器人的视觉交互能力。
(2)本发明能够实现基于文本生成视频(序列图像)的任务。利用检索的生成方法来保证生成过程的可控性和稳定性,同时保留生成对抗网络强大的生成能力,提高生成视频的多样性,减少生成过程的不稳定性。
(3)本发明构建特定动作检索数据库,包含近百种特定动作,并对检索动作库在“人物块”、“时间块”、“状态块”、“动作块”进行分支检索,确定匹配度最高的参考动作模块,用于指导视频的生成。
本发明的其他特征和附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本方面的实践了解到。
附图说明
图1是现有技术中基于文本生成视频的原理图;
图2是本发明实施例中基于文本生成视频的过程示意图;
图3是本发明实施例中动作检索数据库示意图;
图4是本发明实施例中基于文本生成视频网络模型的结构示意图;
图5是本发明实施例中人体网格复原模块网络结构示意图;
图6是本发明实施例中基于文本生成视频结果的展示效果图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
根据本发明的实施例,公开了一种基于文本生成视频机器人视觉人机交互方法,参照图2,包括如下步骤:
(1)获取待识别的文本信息和源图像;
其中,待识别的文本信息可以是直接输入的文本信息,也可以是通过输入的语音信息转化成的文本信息。
源图像可以为人物的旧照或者现场采集的照片,作为模型场景信息生成的指导。
(2)根据文本信息检索动作数据库,选择匹配度最高的动作图像序列;
传统的基于文本生成图像任务中,文本信息通过文本嵌入函数进行处理,以标签的形式与特定的源图像进行结合。基于标签形式的文本信息需要耗费大量人工成本进行标记,包含的对象信息有限,无法对篇幅较长、内容丰富的文本描述进行连续视频的生成。
基于上述方式存在的问题,本实施例中,提出建立动作检索数据库,利用检索式文本处理方法,实现文本与动作的映射处理,如图3所示。动作检索库包含数百种行为状态的动作指导。为了有效提高文本到动作的检索能力,采用总线型拓扑与树型拓扑结构相结合的检索方式。首先,依据树型拓扑结构将检索库在“人物块”、“时间块”、“状态块”、“动作块”进行分支检索,选择匹配度最高的动作参考模块。随后通过总线型拓扑结构检索方式对在每个树型拓扑结构分支中匹配度最高的检索结果进行融合,筛选出匹配度最高的动作图像序列。
通过动作检索库,可以实现无标签化信息处理,省去了数据标注的成本。同时,完善的动作检索库以及合理的检索方式可以更好地对包含丰富对象的文本语义信息进行处理,实现生成内容丰富、语义一致性较好的视频。
(3)基于源图像生成模型场景信息,结合匹配得到的参考动作图像序列,基于文本生成视频任务的网络模型,生成满足语义信息并含有源图像场景信息的视频/图像序列。
本实施例中,基于文本生成视频任务的网络模型结构如图4所示,主要包括三个部分:人体网格复原模块,神经网格渲染模块,多阶段生成对抗网络模块。通过三个模块,实现基于源图像与文本描述的视频(序列图像)生成。
三个模块工作的整个过程是:首先将图像信息(源图像和参考图像)从2D状态转化为3D状态。随后在3D状态下完成姿势的转换。最后将完成动作转换后的3D模型转化为2D图像(目标图像)。
其中,人体网格复原模块通过端到端的方式,实现从二维人体图像复原到相对应的三维人体模型框架。人体网格复原模块的输入是源图像和检索到的动作检索库中的序列图像,输出是复原后的3D模型信息,人体网络复原模块的网络结构如图5所示;
在人体网格复原模块,主要是通过二维图像,预测三维姿态和形状参数。对于动作检索库匹配的图像,首先获得二维图像的卷积特征,然后传递到迭代的3D回归模型中,从而推断出三维人像建模信息以及相机与二维关节的投影关系,相机提供了一个衡量三维模型建模后的人像与相机距离的参数,来避免出现极大或者极小的三维人像模型。最后构建可微的三维人体模型(SMPL,
(,β)),与β是位姿参数。利用生成对抗网络结构,把生成模型的参数信息输入到判别模型中,判别模型对生成的三维模型是否满足正常人体行为活动进行判断,并根据损失函数对网络进行训练调整。
L=λ(Lreproj+L3D)+Ladv
其中,λ是权值,代表每个损失函数的重要程度,当标注的三维模型可用时,Δ取值为1,否则为0。Lreproj、L3D、Ladv分别代表了三维回归模块损失函数、三维损失函数、编码器对抗损失函数。
对于源图像,首先获得二维图像的卷积特征,然后传递到迭代的3D回归模型中,构建可微的三维人体模型(SMPL,M(θ,β)),θ与β是位姿参数。然后,神经网格渲染模块将从人体网格复原模块获得的形体参数通过SMPL模型转化为参考图像的三维模型(3Dref)和源图像的三维模型(3Dsrc)。本实施例中,参考图像指的是在动作检索库中通过检索方式获得的图像,也就是指导源图像进行动作转换的图像。(图4中左上方从动作检索库获取的图像)。
在SMPL模块中,分别为形态(β)与位姿(θ)两部分训练低维的判别器,获得更稳定的训练。SMPL模型是一种参数化的人体模型,将人体的形状与姿势进行数据化的表示。通过SMPL模型可以实现对任意形态进行人体建模与动作驱动。同时,这种建模方法可以模拟人的肌肉在运动过程中的凸起和凹陷,避免人体肌肉在运动过程中出现表面失真的现象。通过这种方式,可以创造逼真的动画人体,不同的体型,并表现出与真人类似的软组织运动。θ与β是SMPL模型的输入参数,其中,θ代表人体运动位姿和24个关节角度的75个参数,β是用来描述人体形态其中包括高矮胖瘦、以及身体各部分比例的10个参数。这些参数通过多边形网格方法进行提取。
在由二维图像转化为3D模型的过程中采用生成对抗模型,生成模型采用的是变分自动编码器(VAE)结构,编码器输入是图像编码为512维的特征向量,解码器由三层全连接层组成,隐藏层大小分别是1024与2048。生成模型的损失函数如下所示:
Figure BDA0003022202670000081
Figure BDA0003022202670000082
其中,λsl与λsm为比重系数,
Figure BDA0003022202670000083
是轮廓损失函数,反应真实轮廓与重建轮廓的交集。
Figure BDA0003022202670000084
是平滑损失函数,反映了网格表面的平滑程度,其作用是保证两个面的交角都接近180度。
随后,神经网格渲染模块随后将人体网格复原模块获取的两个三维模型进行映射,并根据其投影顶点计算变换矩阵(T),将源图像和参考图像分离成前景图像和背景图形。通过变换矩阵(T),实现源三维人像建模在参考三维人像建模下的动作转换,进而实现文本对图像进行姿势控制,完成基于文本生成视频(序列图像)的任务要求。此时,基于文本生成的特定姿势图像是在三维空间的建模状态,为了满足视频(序列图像)输出的需要,将3D模型转换为2D图像进行输出,神经网格渲染器将三维人像模型渲染为二维图像信息并传递到多阶段生成对抗网络模块。
多阶段生成对抗网络模块主要包括三个阶段。在该模块中,主要实现的是合成背景图像并且预测隐藏部分的像素颜色,并在SMPL基础上进行头发、衣服等像素点的补充。
在stage-IGAN阶段,主要是对上一个阶段处理后的背景图(剔除了前景信息)进行补充,通过GAN网络实现对预测部分像素颜点的补充,输出补充后的完整的背景信息图;在stage-IIGAN阶段,主要是提取和保留图像特征信息,进行前景图像的生成,随后将生成的前景图像与stage-I生成的背景图像进行融合,生成完整的包含前景与背景信息的图像;在stage-IIIGAN阶段,完成最终图像的合成的工作,输入源图像经过变换矩阵(T)变换后的满足特定动作要求的图像以及包含源图像细节的特征信息,以及背景图像,生成在背景信息补充完整的、符合语义一致性的图像,将满足要求的图像按照序列生成,生成满足语义要求的视频。
在GAN网络模型搭建中,stage-IGAN、stage-IIGAN与stage-IIIGAN三个阶段的生成模型使用的是ResUnet结构,即残差神经网络(ResNet)与全卷积神经网络(Unet)组合,在判别模型中使用的是Pix2Pix中的判别模型的框架结构。
多阶段生成对抗网络模块通过三个阶段的生成对抗网络完成背景图重建、不可见部分的预测、SMPL模型中人像细节(头发、衣服等)等部分的重构。通过抗损失函数对网络模型进行训练,使生成图像
Figure BDA0003022202670000105
更贴近真实图像的分布,损失函数如下所示:
Figure BDA0003022202670000101
Figure BDA0003022202670000102
其中a,b分别是来自假数据与真数据的标签。对于判别模型,
Figure BDA0003022202670000103
进行正则化处理,使其看起来更加真实。
判别模型使用的是条件判别模型,其输入是生成的图像和对应的映射Cs,其对抗损失函数如下所示:
Figure BDA0003022202670000104
下面对本实施例方法进行实验验证,基于文本生成视频(序列图像)任务的实现流程如下:首先,输入是源图像和语义信息,如图6中的实验1输入(包括图像与文本信息“我年轻的时候早晨经常穿着拳服打太极”)、实验2输入(包括图像与文本信息“我经常起床后晨练”);随后,根据语义信息检索动作检索数据库,检索满足语义描述的参考动作,用于指导视频的生成;最后,通过在源图像和参考动作之间进行编码、建模、渲染等操作对源图像进行动作修改,最后生成满足语义要求动作,如图6中实验1输出、实验2输出。
实施例二
根据本发明的实施例,公开了一种基于文本生成视频机器人视觉人机交互系统的实施例,参照图2,包括:
数据获取模块,用于获取待识别的文本信息和源图像;
语义信息处理模块,用于根据文本信息检索动作数据库,选择匹配度最高的动作图像序列;
生成模块,用于基于源图像生成模型场景信息,结合匹配得到的参考动作图像序列,基于文本生成视频任务的网络模型,生成满足语义信息并含有源图像场景信息的视频/图像序列。
本实施例中,语义信息处理模块主要包含语言信息和图像信息。其中,语言信息又可以分为两种,分别是语音输入和文本输入。在与机器人进行的交互的过程中,通过语言处理模块,将语音信息转化为文本信息。语义信息处理模块根据文本信息检索动作数据库,在“人物块”、“时间块”、“状态块”、“动作块”的检索结果中选择匹配度最高的参考动作,指导视频图像的生成。系统的另一个输入是源图像,源图像可以为人物的旧照或者现场采集的照片,作为模型场景信息生成的指导。生成模块的主要作用是根据文本信息检索到的动作信息及源图像信息进行处理,然后生成满足语义信息并含有源图像场景信息的视频(序列图像)。
需要说明的是,上述各模块的具体实现方式已经在实施例一中进行了详细的说明,此处不再赘述。
实施例三
根据本发明的实施例,公开了一种终端设备的实施例,其包括处理器和存储器,处理器用于实现各指令;存储器用于存储多条指令,所述指令适于由处理器加载并执行实施例一中所述的基于文本生成视频的机器人视觉人机交互方法。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于文本生成视频的机器人视觉人机交互方法,其特征在于,包括:
获取待识别的文本信息和源图像;
根据文本信息检索动作数据库,选择匹配度最高的动作图像序列;
基于源图像生成模型场景信息,结合匹配得到的参考动作图像序列,基于文本生成视频任务的网络模型,生成满足语义信息并含有源图像场景信息的视频/图像序列。
2.如权利要求1所述的一种基于文本生成视频的机器人视觉人机交互方法,其特征在于,所述待识别的文本信息为直接输入的文本信息,或者通过输入的语音信息转化成的文本信息。
3.如权利要求1所述的一种基于文本生成视频的机器人视觉人机交互方法,其特征在于,所述动作数据库至少包含人物块、时间块、状态块和动作块;采用总线型拓扑与树型拓扑结构相结合的检索方式,基于获取的文本信息,首先依据树型拓扑结构在动作数据库的每一个块结构中进行分支检索,分别选择匹配度最高的检索结果,然后对各个块结构中筛选出的检索结果进行融合,得到匹配度最高的参考动作。
4.如权利要求1所述的一种基于文本生成视频的机器人视觉人机交互方法,其特征在于,所述基于文本生成视频任务的网络模型包括:
人体网格复原模块,被配置为根据输入的源图像和动作数据库匹配到的参考动作图像序列,输出是复原后的3D模型信息;
神经网格渲染模块,被配置为将人体网格复原模块输出的3D模型进行映射,并根据其投影顶点计算变换矩阵,将源图像和动作数据库中检索到的参考图像分离成前景图像和背景图形;
多阶段生成对抗网络模块,被配置为实现合成背景图像并且预测隐藏部分的像素颜色,并在3D模型的基础上进行像素点的补充。
5.如权利要求4所述的一种基于文本生成视频的机器人视觉人机交互方法,其特征在于,对于接收到的动作数据库匹配到的参考动作图像,人体网格复原模块获得二维图像的卷积特征,然后传递到迭代的3D回归模型中,推断出三维人像建模信息以及相机与二维关节的投影关系;构建包含位姿参数的可微的三维人体模型,利用生成对抗网络结构,判断生成的三维模型是否满足正常人体行为活动。
6.如权利要求4所述的一种基于文本生成视频的机器人视觉人机交互方法,其特征在于,所述神经网格渲染模块将从人体网格复原模块获得的形体参数通过SMPL模型转化为参考图像的三维模型和源图像的三维模型,通过变换矩阵将源图像三维模型在参考图像的三维模型指导下进行三维形态转换。
7.如权利要求4所述的一种基于文本生成视频的机器人视觉人机交互方法,其特征在于,所述多阶段生成对抗网络模块在第一阶段通过GAN网络实现对预测部分像素颜点的补充,输出补充后的完整的背景信息图;在第二阶段提取和保留图像特征信息,进行前景图像的生成,将生成的前景图像与第一阶段生成的背景图像进行融合,生成包含前景与背景信息的图像;在第三阶段完成最终图像的合成,生成背景信息补充完整、符合语义一致性的图像,将满足要求的图像按照序列生成满足语义要求的视频。
8.如权利要求7所述的一种基于文本生成视频的机器人视觉人机交互方法,其特征在于,所述多阶段生成对抗网络模块中,第一阶段、第二阶段和第三阶段的生成模型使用的是残差神经网络与全卷积神经网络的组合,在判别模型中使用的是Pix2Pix中的判别模型的框架结构。
9.一种基于文本生成视频的机器人视觉人机交互系统,其特征在于,包括:
数据获取模块,用于获取待识别的文本信息和源图像;
语义信息处理模块,用于根据文本信息检索动作数据库,选择匹配度最高的动作图像序列;
生成模块,用于基于源图像生成模型场景信息,结合匹配得到的参考动作图像序列,基于文本生成视频任务的网络模型,生成满足语义信息并含有源图像场景信息的视频/图像序列。
10.一种终端设备,其包括处理器和存储器,处理器用于实现各指令;存储器用于存储多条指令,其特征在于,所述指令适于由处理器加载并执行权利要求1-7任一项所述的基于文本生成视频的机器人视觉人机交互方法。
CN202110405742.2A 2021-04-15 2021-04-15 一种基于文本生成视频机器人视觉人机交互方法及系统 Active CN113051420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110405742.2A CN113051420B (zh) 2021-04-15 2021-04-15 一种基于文本生成视频机器人视觉人机交互方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110405742.2A CN113051420B (zh) 2021-04-15 2021-04-15 一种基于文本生成视频机器人视觉人机交互方法及系统

Publications (2)

Publication Number Publication Date
CN113051420A true CN113051420A (zh) 2021-06-29
CN113051420B CN113051420B (zh) 2022-07-05

Family

ID=76520471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110405742.2A Active CN113051420B (zh) 2021-04-15 2021-04-15 一种基于文本生成视频机器人视觉人机交互方法及系统

Country Status (1)

Country Link
CN (1) CN113051420B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114598926A (zh) * 2022-01-20 2022-06-07 中国科学院自动化研究所 一种视频生成方法、装置、电子设备及存储介质
CN115249062A (zh) * 2022-09-22 2022-10-28 武汉大学 一种文本生成视频的网络模型、方法及装置
CN117095085A (zh) * 2023-08-24 2023-11-21 摩尔线程智能科技(北京)有限责任公司 视频生成方法和装置、介质和计算机设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298916A (zh) * 2019-06-21 2019-10-01 湖南大学 一种基于合成深度数据的三维人体重建方法
US20190371080A1 (en) * 2018-06-05 2019-12-05 Cristian SMINCHISESCU Image processing method, system and device
CN111275518A (zh) * 2020-01-15 2020-06-12 中山大学 一种基于混合光流的视频虚拟试穿方法及装置
CN111462274A (zh) * 2020-05-18 2020-07-28 南京大学 一种基于smpl模型的人体图像合成方法及系统
CN111539262A (zh) * 2020-04-02 2020-08-14 中山大学 一种基于单张图片的运动转移方法及系统
CN111553968A (zh) * 2020-05-11 2020-08-18 青岛联合创智科技有限公司 一种三维人体重构动画的方法
WO2021063271A1 (zh) * 2019-09-30 2021-04-08 Oppo广东移动通信有限公司 人体模型重建方法、重建系统及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190371080A1 (en) * 2018-06-05 2019-12-05 Cristian SMINCHISESCU Image processing method, system and device
CN110298916A (zh) * 2019-06-21 2019-10-01 湖南大学 一种基于合成深度数据的三维人体重建方法
WO2021063271A1 (zh) * 2019-09-30 2021-04-08 Oppo广东移动通信有限公司 人体模型重建方法、重建系统及存储介质
CN111275518A (zh) * 2020-01-15 2020-06-12 中山大学 一种基于混合光流的视频虚拟试穿方法及装置
CN111539262A (zh) * 2020-04-02 2020-08-14 中山大学 一种基于单张图片的运动转移方法及系统
CN111553968A (zh) * 2020-05-11 2020-08-18 青岛联合创智科技有限公司 一种三维人体重构动画的方法
CN111462274A (zh) * 2020-05-18 2020-07-28 南京大学 一种基于smpl模型的人体图像合成方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
FENGLING MAO等: "Learning efficient text-to-image synthesis via interstage cross-sample similarity distillation", 《SCIENCE CHINA INFORMATION SCIENCE》 *
MING-YU LIU等: "Generative Adversarial Networks for Image and Video Synthesis: Algorithms and Applications", 《PROCEEDINGS OF THE IEEE》 *
RUI ZHOU: "《Research on Information Management Based on Image Recognition and Virtual Reality》", 《IEEE ACCESS》 *
史明镒: "基于单目视频的三维人体运动重建", 《中国优秀硕士学位论文全文数据库》 *
蒋岚: "基于图像的大熊猫三维重建算法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114598926A (zh) * 2022-01-20 2022-06-07 中国科学院自动化研究所 一种视频生成方法、装置、电子设备及存储介质
CN114598926B (zh) * 2022-01-20 2023-01-03 中国科学院自动化研究所 一种视频生成方法、装置、电子设备及存储介质
CN115249062A (zh) * 2022-09-22 2022-10-28 武汉大学 一种文本生成视频的网络模型、方法及装置
CN117095085A (zh) * 2023-08-24 2023-11-21 摩尔线程智能科技(北京)有限责任公司 视频生成方法和装置、介质和计算机设备

Also Published As

Publication number Publication date
CN113051420B (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
CN113051420B (zh) 一种基于文本生成视频机器人视觉人机交互方法及系统
CN106971414B (zh) 一种基于深度循环神经网络算法的三维动画生成方法
Po et al. State of the art on diffusion models for visual computing
CN113344777B (zh) 基于三维人脸分解的换脸与重演方法及装置
JP2022553252A (ja) 画像処理方法、画像処理装置、サーバ、及びコンピュータプログラム
CN110942512B (zh) 基于元学习的室内场景重建方法
CN113822993A (zh) 一种基于3d模型匹配的数字孪生方法和系统
CN111462274A (zh) 一种基于smpl模型的人体图像合成方法及系统
CN112819951A (zh) 一种基于深度图修复的带遮挡三维人体重建方法
CN115797606A (zh) 基于深度学习的3d虚拟数字人交互动作生成方法及系统
GB2614794A (en) Synthesizing sequences of 3D geometries for movement-based performance
CN116959094A (zh) 一种基于时空图卷积网络的人体行为识别方法
CN115346262A (zh) 一种表情驱动参数的确定方法、装置、设备及存储介质
CN117496072B (zh) 一种三维数字人生成和交互方法及系统
CN117218300B (zh) 三维模型的构建方法、三维构建模型的训练方法及装置
CN113706670A (zh) 生成动态三维人体网格模型序列的方法及装置
CN116385667B (zh) 三维模型的重建方法、纹理重构模型的训练方法以及装置
CN110197226B (zh) 一种无监督图像翻译方法及系统
CN116958324A (zh) 图像生成模型的训练方法、装置、设备及存储介质
CN114333069B (zh) 对象的姿态处理方法、装置、设备及存储介质
WO2024066549A1 (zh) 一种数据处理方法及相关设备
CN117635897B (zh) 三维对象的姿态补全方法、装置、设备、存储介质及产品
US20230154090A1 (en) Synthesizing sequences of images for movement-based performance
Victor et al. Character Pose Design in Latent Space For Animation Edition
Wang et al. Animation Design Based on Anatomically Constrained Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230308

Address after: A101-1, Floor 1, No. 456, Bibo Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, 202150

Patentee after: JIEYU TECHNOLOGY (SHANGHAI) CO.,LTD.

Address before: 264209 No. 180, Wenhua West Road, Shandong, Weihai

Patentee before: SHANDONG University