CN111131913A - 基于虚拟现实技术的视频生成方法、装置及存储介质 - Google Patents
基于虚拟现实技术的视频生成方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111131913A CN111131913A CN201811273049.9A CN201811273049A CN111131913A CN 111131913 A CN111131913 A CN 111131913A CN 201811273049 A CN201811273049 A CN 201811273049A CN 111131913 A CN111131913 A CN 111131913A
- Authority
- CN
- China
- Prior art keywords
- intention
- video
- expression
- preset
- characteristic value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000005516 engineering process Methods 0.000 title claims abstract description 36
- 230000014509 gene expression Effects 0.000 claims abstract description 97
- 238000013507 mapping Methods 0.000 claims abstract description 80
- 230000033001 locomotion Effects 0.000 claims description 16
- 230000008451 emotion Effects 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 abstract description 6
- 230000003111 delayed effect Effects 0.000 abstract description 5
- 230000001815 facial effect Effects 0.000 description 8
- 241001465754 Metazoa Species 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 210000004709 eyebrow Anatomy 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000008921 facial expression Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000270728 Alligator Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000010171 animal model Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004118 muscle contraction Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供了一种基于虚拟现实技术的视频生成方法、装置及存储介质。该方法包括:用户通过输入装置输入信号,输入装置将输入信号通过网络传输至电子装置;电子装置对该输入信号进行识别得到输入对象的意图,根据预先设定的意图与特征值的映射关系确定所述输入对象的意图对应的特征值Ki,再根据预先设定的特征值与表情轨迹的映射关系从预设表情集合C1中获取所述特征值Ki对应的表情轨迹C1i。之后,电子装置根据所述表情轨迹C1i控制模型C2i上的特征点运动,生成虚拟视频并通过输出装置输出该虚拟视频。利用本发明,可以对用户的输入信号做出实时或延时响应,在终端输出装置输出虚拟视频。
Description
技术领域
本发明涉及虚拟现实技术领域,尤其涉及一种基于虚拟现实技术的视频生成方法、装置及存储介质。
背景技术
虚拟现实(Virtual Reality,VR)技术是仿真技术的一个重要方向,是仿真技术与计算机图形学、人机接口技术、多媒体技术、传感技术、网络技术等多种技术的集合,是一门富有挑战性的交叉技术前沿学科和研究领域。虚拟现实技术主要包括模拟对象、感知、自然技能和传感设备等方面。模拟对象是由计算机生成的、实时动态的三维(3Dimensions,3D)立体逼真图像和音效。
3D计算机图形、建模领域中的进步已经提供了在3D计算机图形环境中创建3D模型并且显现真实对象的能力。3D内容(诸如3D人或动物模型)正在被越来越多地用在动画电影、游戏和虚拟现实系统中以增强用户体验。3D模型是类似于特定对象的形状的静态3D网格。这样的3D模型在动画或各种虚拟现实系统或应用中可能以不同的方式使用。此外,在某些情况下,3D模型的脸部部分可以被认为是3D模型的最重要部分之一。目前,创建现实的3D面部模型已经是计算机图形和计算机视觉领域中的最困难的问题之一。随着3D虚拟人或虚拟动物技术在虚拟现实、3D游戏和虚拟仿真领域中的应用增多,开发中的基于真实的人或动物来生成的3D面部模型的技术已经变得越来越重要。
近年来虚拟现实技术迎来井喷式增长,虚拟现实技术有助于各行各业的供应商将产品以个性化、智能化、易于接受的全新体验形式传达给消费者。虚拟现实技术将是计算机与人的下一代交互入口,在商业、金融、娱乐、教育、医疗、咨询服务等行业的人机交互场景中,例如,瑞士瑞讯银行(Swiss quote)宣布将推出基于虚拟现实技术的交易应用程序。阿联酋第一海湾银推出了虚拟现实银行服务。此外,美国富国银行已开始尝试客户用OculusRift头戴显示器与银行员工开展虚拟互动,并通过谷歌眼镜扫描支票和信用卡完成交易。花旗银行探索客户通过佩戴Holo Lens产品,实时创建、查看、处理、分享虚拟的三维全息金融数据,并在系统中完成在线交易。在中国,蚂蚁金服推出了VR Pay,让用户在虚拟现实购物中用手势完成支付。
然而,目前市场上的VR技术场景中的视频,例如虚拟人物的面部表情、动作,都是预先设定好的。
发明内容
本发明提供一种基于虚拟现实技术的视频生成方法、装置及存储介质,其主要目的在于对输入信号做出实时或延时响应,输出虚拟视频。
为实现上述目的,本发明提供一种基于虚拟现实技术的视频生成方法,该方法包括:
识别步骤:接收输入信号,对该输入信号进行识别,得到输入对象的意图;
第一映射步骤:根据预先设定的意图与特征值的映射关系确定所述输入对象的意图对应的特征值Ki;
第二映射步骤:根据预先设定的特征值与表情轨迹的映射关系从预设表情集合C1中获取所述特征值Ki对应的表情轨迹C1i;及
生成步骤:根据所述表情轨迹C1i控制模型C2i上的特征点运动,生成虚拟视频。
本发明还提供另一种基于虚拟现实技术的视频生成方法,该方法包括:
识别步骤:接收输入信号,对该输入信号进行识别,得到输入对象的意图;
第一映射步骤:根据预先设定的意图与特征值的映射关系确定所述输入对象的意图对应的特征值Ki;
第二映射步骤:根据预先设定的特征值与表情轨迹的映射关系从预设表情集合C1中获取所述特征值Ki对应的表情轨迹C1i;
第三映射步骤:根据预先设定的表情轨迹与模型的映射关系从预设模型集合C2中获取所述表情轨迹C1i对应的模型C2i;及
生成步骤:根据所述表情轨迹C1i控制所述模型C2i上的特征点运动,生成虚拟视频。
优选地,上述任意一种方法,还可以包括步骤:通过输出装置输出所述虚拟视频。
优选地,所述输入信号包括文本、音频、图像、视频。
优选地,当所述输入信号为文本时,根据文本语义确定所述输入对象的意图。
优选地,当所述输入信号为音频时,先利用预设语音转换文字软件将该音频转换为文字,再根据文本语义确定所述输入对象的意图。
优选地,当所述输入信号为图像或视频时,先利用预先训练的动作单元特征识别模型识别出该图像或视频中的动作单元特征,再根据该动作单元特征与输入对象的意图体现出的情绪之间的对应关系确定所述输入对象的意图。
优选地,所述特征点为利用预设特征点提取算法从所述模型C2i上提取的用于描述所述表情轨迹C1i的点。
此外,本发明还提供一种电子装置,该电子装置包括存储器和处理器,所述存储器中包括视频生成程序,该视频生成程序被所述处理器执行时实现如下步骤:
识别步骤:接收输入信号,对该输入信号进行识别,得到输入对象的意图;
第一映射步骤:根据预先设定的意图与特征值的映射关系确定所述输入对象的意图对应的特征值Ki;
第二映射步骤:根据预先设定的特征值与表情轨迹的映射关系从预设表情集合C1中获取所述特征值Ki对应的表情轨迹C1i;及
生成步骤:根据所述表情轨迹C1i控制模型C2i上的特征点运动,生成虚拟视频。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括视频生成程序,该视频生成程序被处理器执行时实现如上所述的基于虚拟现实技术的视频生成方法中的任意步骤。
本发明提出的基于虚拟现实技术的视频生成方法、电子装置及计算机可读存储介质,通过对输入信号(例如人或动物的音频、视频等)进行识别,得到输入对象的意图,然后根据预先设定的意图与特征值的映射关系、特征值与表情轨迹的映射关系、表情轨迹与模型的映射关系,依次确定所述输入对象的意图对应的特征值、该特征值对应的表情轨迹和该表情轨迹对应的模型,最后根据该表情轨迹控制该模型上的特征点运动,从而生成虚拟视频。利用本发明,可以根据输入对象的输入信号生成虚拟视频,从而提升人机交互的灵活性和趣味性。
附图说明
图1为本发明电子装置一实施例的运行环境示意图;
图2为本发明电子装置一实施例的示意图;
图3为图1、图2中视频生成程序一实施例的程序模块图;
图4为本发明基于虚拟现实技术的视频生成方法第一实施例的流程图;
图5为本发明基于虚拟现实技术的视频生成方法第二实施例的流程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种电子装置。参照图1所示,为本发明电子装置1一实施例的运行环境示意图。在该实施例中,电子装置1是基于虚拟现实技术的视频生成方法的执行主体,该电子装置1与输入装置2、输出装置3通过网络4相连接。所述输入装置2将输入信号通过网络4传输至所述电子装置1,该电子装置1根据所述输入信号,控制对应模型上的特征点运动,从而生成虚拟视频。
所述电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机、游戏设备、视频音频会议系统、虚拟现实装置等具有存储和运算功能的终端设备。在一个实施例中,当电子装置1为服务器时,该服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等的一种或几种。
所述输入装置2包括但不限于摄像头、麦克风、键盘、鼠标、触摸屏、控制杆、拾音器、有线和/或无线的电信号接收装置、地理定位装置、重力/温度/压力/速度传感器,等等。
所述输出装置3包括但不限于显示器,显示器也可以适当的称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)显示器等。显示器用于显示在所述电子装置1中生成的虚拟视频。
所述网络4可以为互联网、云网络、无线保真(Wi-Fi)网络、个人网(PAN)、局域网(LAN)和/或城域网(MAN)。网络环境中的各种设备可以被配置为根据各种有线和无线通信协议连接到通信网络。这样的有线和无线通信协议的例子可以包括但不限于以下中的至少一个:传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、ZigBee、EDGE、IEEE 802.11、光保真(Li-Fi)、802.16、IEEE802.11s、IEEE 802.11g、多跳通信、无线接入点(AP)、设备对设备通信、蜂窝通信协议和/或蓝牙(BlueTooth)通信协议或其组合。
需要说明的是,在该实施例中,所述输入装置2和输出装置3独立于所述电子装置1,此时因为网络延迟等原因,该电子装置1对所述输入信号做出的响应可能是延时响应。在其他实施例中,所述输入装置2和输出装置3也可以为所述电子装置1的元器件或者通过硬件接口直接连接至该电子装置1,此时该电子装置1可以对所述输入信号做出实时响应,实时输出虚拟视频。
参照图2所示,为本发明电子装置1一实施例的示意图。在该实施例中,所述电子装置1包括存储器11、处理器12以及网络接口13。
其中,所述存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置1的外部存储器11,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器11的可读存储介质通常用于存储视频生成程序10、从所述输入装置2中获取的输入信号以及预设映射表等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行视频生成程序10等。
网络接口13可以包括标准的有线接口、无线接口(如WI-FI接口)。通常用于在该电子装置1与其他电子设备之间建立通信连接,例如与所述输入装置2、输出装置3建立通信连接。
图2仅示出了具有组件11-13和视频生成程序10的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
在一个实施例中,处理器12执行存储器11中存储的视频生成程序10时实现如下步骤:
识别步骤:接收输入信号,对该输入信号进行识别,得到输入对象的意图;
第一映射步骤:根据预先设定的意图与特征值的映射关系确定所述输入对象的意图对应的特征值Ki;
第二映射步骤:根据预先设定的特征值与表情轨迹的映射关系从预设表情集合C1中获取所述特征值Ki对应的表情轨迹C1i;及
生成步骤:根据所述表情轨迹C1i控制模型C2i上的特征点运动,生成虚拟视频。
在另一个实施例中,处理器12执行存储器11中存储的视频生成程序10时实现的步骤如下:
识别步骤:接收输入信号,对该输入信号进行识别,得到输入对象的意图;
第一映射步骤:根据预先设定的意图与特征值的映射关系确定所述输入对象的意图对应的特征值Ki;
第二映射步骤:根据预先设定的特征值与表情轨迹的映射关系从预设表情集合C1中获取所述特征值Ki对应的表情轨迹C1i;
第三映射步骤:根据预先设定的表情轨迹与模型的映射关系从预设模型集合C2中获取所述表情轨迹C1i对应的模型C2i;及
生成步骤:根据所述表情轨迹C1i控制所述模型C2i上的特征点运动,生成虚拟视频。
具体原理请参照下述图3关于视频生成程序10的程序模块图及图4、图5关于基于虚拟现实技术的视频生成方法的流程图的介绍。
参照图3所示,为图1、图2中视频生成程序10的程序模块图。所述视频生成程序10被分割为多个模块,该多个模块被存储于存储器12中,并由处理器13执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。
所述视频生成程序10可以被分割为:识别模块110、映射模块120及视频生成模块130。
所述识别模块110,用于接收输入信号,并对该输入信号进行识别,得到输入对象的意图。所述输入信号包括但不限于文本、图像、音频、视频、电脉冲信号等。以下分别以文本、音频、图像、视频举例说明如何对输入信号进行识别确定输入对象的意图。
当所述输入信号为文本时,可以根据文本语义确定输入对象的意图。具体地,可以先通过预设的分词算法(例如结巴分词)将所述文本分解成多个词语,然后根据近义词模式以及词语的词性,将所述分解成的多个词语映射到预设关键词,获得输入文本映射后的关键词,接着利用预先设置的知识图谱确定与所述映射后的关键词对应的意图。
如下表所示,示意性地列出了部分文本对应的意图。
当所述输入信号为音频时,可以先利用预设语音转换文字软件(例如讯飞听见、百度语音助手等)将音频转换为文字,再根据文本语义确定输入对象的意图。
当所述输入信号为图像、视频等,可以通过预先训练的动作单元(actionunit,AU)特征识别模型识别出图像、视频中的AU特征,再根据AU特征与输入对象的意图体现出的情绪、微表情特征之间的对应关系确定输入对象的意图。
下面以输入对象是普通用户为例说明如何根据AU特征与输入对象的意图体现出的情绪、微表情特征之间的对应关系确定输入对象的意图。
保罗·艾克曼(Paul Ekman)总结出人类一共有39个主要的面部AU。每一个AU,就是脸部的一小组肌肉收缩代码。比如AU1-抬起眉毛内角,代表眉头向中间聚拢并抬起的一个动作,AU2-抬起眉毛外角,AU4-皱眉(降低眉毛),等等。而用户在表达意图时通常会带着情绪,情绪通常会反应到面部表情,即AU特征上。例如,AU6+AU12=微笑,AU4+AU5+AU17+AU23=愤怒,AU1+AU2+AU5+AU25+AU26=惊讶,AU9+AU10+AU25=厌恶。当用户表达肯定、认同、承认的意图时,通常会面带微笑;当用户对某事物不感兴趣、有拒绝倾向时,通常会表现出厌恶的情绪;表示否定、否认时,可能会表现出惊讶的微表情。关于AU特征识别模型,可以通过训练学习模型的方式得到,例如通过收集AU正/负样本对支持向量分类器(SVM)进行学习训练得到每个AU的分类器,用于识别AU。
上述关于对输入信号进行识别,得到输入对象的意图的描述仅是提供部分例子,未能穷举。在其他实施例中,所述识别模块110可以利用其他预设知识库或识别模型获取输入对象的意图,在此不再赘述。
所述映射模块120,用于根据预先设定的映射关系确定所述输入对象的意图对应的特征值、该特征值对应的表情轨迹以及该表情轨迹对应的模型。具体的,所述映射关系包括意图与特征值的映射关系、特征值与表情轨迹的映射关系,还可以包括表情轨迹与模型的映射关系。所述映射模块120可以包括第一映射单元、第二映射单元,在另一个实施例中,还可以包括第三映射单元。所述第一映射单元用于根据预先设定的意图与特征值的映射关系确定所述输入对象的意图对应的特征值Ki;所述第二映射单元用于根据预先设定的特征值与表情轨迹的映射关系从预设表情集合C1中获取所述特征值Ki对应的表情轨迹C1i;所述第三映射单元用于根据预先设定的表情轨迹与模型的映射关系从预设模型集合C2中获取所述表情轨迹C1i对应的模型C2i。
如下表所示,示意性地列出了部分意图与特征值Ki的映射关系。
在一个实施例中,任一用户意图对应一个唯一确定的特征值Ki,对于任一特征值Ki,有且只有一个表情轨迹C1i与之相对应,对于任一表情轨迹C1i,有且只有一个模型C2i与之相对应。如下表所示,示意性地列出了部分特征值Ki、表情轨迹C1i以及模型C2i的映射关系。
意图 | 特征值Ki | 表情轨迹C1i | 模型C2i | 表情轨迹的含义 |
否认 | K001 | C1001 | C2001 | 惊讶的表情运动 |
确认身份 | K002 | C1001 | C2002 | 严肃的表情运动 |
接受 | K003 | C1001 | C2003 | 微笑的表情运动 |
在另一个实施例中,还可以根据输入信号的识别结果在所述模型集合C2中为所述输入对象指定模型C2i。例如,当识别模块110对所述输入信号进行识别时,不仅能够得到输入对象的意图,还能获取所述输入对象的其他特征,例如物种、性别、年龄等。
在上述实施例中,所述模型C2i可以为2D模型,也可以为3D模型,可以是利用相机拍摄真实对象的真实视频并建立的模型,也可以是利用建模软件人工建立的模型。例如,可以利用三维相机拍摄某用户的面部视频,然后根据该面部视频为该用户或特定用户群(比如某个年龄段的男性用户)构建3D面部模型。
所述视频生成模块130,用于根据所述表情轨迹C1i控制所述模型C2i上的特征点运动,生成虚拟视频。在本发明的实施例中,所述特征点为利用特征点提取算法在特定模型上提取的特征点。例如,利用dlib特征点提取算法可以从面部模型中提取68个面部特征点,这些面部特征点在不同时刻的连续变化可形成面部表情轨迹。
在所述模型C2i上与所述特征值Ki对应的表情轨迹C1i可以表示为一个矩阵,如下所示:
该矩阵中的每个元素C1ij(xj,yj,zj)表示模型C2i上一个特征点在预设时间段(例如10秒)内的运动轨迹,该模型C2i上所有特征点的运动轨迹,即构成一个动态虚拟视频。
本发明旨在利用输入信号生成人或其他动物的虚拟视频,输入对象可以是普通用户,也可以是猫、狗等其他动物,生成的虚拟视频可以是关于人的视频,也可以是关于动物或其他对象的视频。
参照图4所示,为本发明基于虚拟现实技术的视频生成方法第一实施例的流程图。电子装置1的处理器13执行存储器12中存储的视频生成程序10时实现视频生成方法的如下步骤:
步骤S400,利用所述识别模块110接收输入信号,并对该输入信号进行识别,得到输入对象的意图。所述输入信号包括但不限于文本、图像、音频、视频、电脉冲信号等。当所述输入信号为文本时,可以根据文本语义确定所述输入对象的意图。当所述输入信号为音频时,可以先利用预设语音转换文字软件将该音频转换为文字,再根据文本语义确定所述输入对象的意图。当所述输入信号为图像或视频等,可以先利用预先训练的AU特征识别模型识别出该图像或视频中的AU特征,再根据该动作单元特征与输入对象的意图体现出的情绪之间的对应关系确定所述输入对象的意图。当所述输入信号为电脉冲信号时,可以通过预先建立的知识库,确定具体某种电脉冲信号对应的输入对象的意图,该知识库可以以表格的形式存储在所述存储器11中。根据不同类型和内容的输入信号,识别模块110还可以获取输入信号中输入对象的其他特征,例如物种、性别、年龄等,并根据上述特征为所述输入对象在预设模型集合C2中指定模型C2i。
步骤S410,利用所述第一映射单元根据预先设定的意图与特征值的映射关系确定所述输入对象的意图对应的特征值Ki。
步骤S420,利用所述第二映射单元根据预先设定的特征值与表情轨迹的映射关系从预设表情集合C1中获取所述特征值Ki对应的表情轨迹C1i。
所述意图与特征值、特征值与表情轨迹的预先设定的映射关系可以通过预设表格获得。具体示例请参照上述关于映射模块120的相关介绍。
步骤S430,利用所述视频生成模块130根据所述表情轨迹C1i控制所述模型C2i上的特征点运动,生成虚拟视频。
在本实施例中,所述特征点为利用预先确定的特征点提取算法在指定模型C2i上提取的特征点。例如,可以利用dlib特征点提取算法在面部模型中提取68个面部特征点,以这些面部特征点在不同时刻的连续变化描述表情轨迹C1i。
步骤S440,通过输出装置3输出所述虚拟视频。
本实施例提出的基于虚拟现实技术的视频生成方法,通过对输入信号进行识别,得到输入对象的意图及其他特征,然后利用意图与特征值、特征值与表情轨迹的预先设定的映射关系获取所述输入对象的意图对应的特征值、该特征值对应的表情轨迹以及该表情轨迹对应的模型,并根据对输入信号的识别结果为输入对象指定模型,最终根据所述表情轨迹控制该模型上的特征点运动,生成虚拟视频并通过输出装置输出该虚拟视频。本实施例可以对输入信号做出实时或延时响应,输出虚拟视频,从而提升人机交互的灵活性和趣味性。
参照图5所示,为本发明基于虚拟现实技术的视频生成方法第二实施例的流程图。电子装置1的处理器13执行存储器12中存储的视频生成程序10时实现视频生成方法的如下步骤:
步骤S500,利用所述识别模块110接收输入信号,并对该输入信号进行识别,得到输入对象的意图。所述输入信号包括但不限于文本、图像、音频、视频、电脉冲信号等。
步骤S510,利用所述第一映射单元根据预先设定的意图与特征值的映射关系确定所述输入对象的意图对应的特征值Ki。
步骤S520,利用所述第二映射单元根据预先设定的特征值与表情轨迹的映射关系从预设表情集合C1中获取所述特征值Ki对应的表情轨迹C1i。
步骤S530,利用所述第三映射单元根据预先设定的表情轨迹与模型的映射关系从预设模型集合C2中获取所述表情轨迹C1i对应的模型C2i。
所述意图与特征值、特征值与表情轨迹、表情轨迹与模型的预先设定的映射关系可以通过预设表格获得。具体示例请参照上述关于映射模块120的相关介绍。
步骤S540,利用所述视频生成模块130根据所述表情轨迹C1i控制所述模型C2i上的特征点运动,生成虚拟视频。
所述模型C2i上的表情轨迹C1i可以表示为一个矩阵,如下所示:
该矩阵中的每个元素C1ij(xj,yj,zj)表示模型C2i上一个特征点在预设时间段(例如10秒)内的运动轨迹,该模型C2i上所有特征点的运动轨迹,可构成一个动态虚拟视频。之后,通过所述输出装置3输出所述动态虚拟视频。
本实施例提出的基于虚拟现实技术的视频生成方法,通过对输入信号进行识别得到输入对象的意图,然后利用意图与特征值、特征值与表情轨迹、表情轨迹与模型的预先设定的映射关系获取所述输入对象的意图对应的特征值,该特征值对应的表情轨迹以及该表情轨迹对应的模型,最终根据该表情轨迹控制该模型上的特征点运动,生成虚拟视频。本实施例利用预先设定的表情轨迹与模型的映射关系确定所述表情轨迹对应的模型,为确定输入对象对应的模型提出了另一种切实可行的方式。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括视频生成程序10,该视频生成程序10被处理器执行时实现的功能,请参照上述关于图3和图4的介绍,在此不再赘述。
根据本发明的上述方案,本发明的电子装置1可以应用于以下场景:
在一个应用场景中,所述电子装置1为虚拟现实装置---基于虚拟现实或增强现实的设备。例如,虚拟现实装置可以将从真实人、动物面部实时捕获的表情迁移到特定的三维面部模型上展示。虚拟现实装置可以包括根据输入信号做出实时或延时响应并输出虚拟人或动物的视频的合适的逻辑、电路、接口和/或代码。
在另一个应用场景中,所述电子装置1可以是游戏设备。例如,游戏设备可以在游戏环境中将用户的实时表情迁移到用户选择的游戏人物的面部展现。
在另一个应用场景中,所述电子装置1还可以是基于三维模型的会议系统。通常,常规的视频会议系统显示的是真实人物的表情姿态,基于三维模型的会议设备(诸如虚拟现实装置)能够向参会者展现虚拟的人物表情姿态。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于虚拟现实技术的视频生成方法,应用于电子装置,其特征在于,该方法包括:
识别步骤:接收输入信号,对该输入信号进行识别,得到输入对象的意图;
第一映射步骤:根据预先设定的意图与特征值的映射关系确定所述输入对象的意图对应的特征值Ki;
第二映射步骤:根据预先设定的特征值与表情轨迹的映射关系从预设表情集合C1中获取所述特征值Ki对应的表情轨迹C1i;及
生成步骤:根据所述表情轨迹C1i控制模型C2i上的特征点运动,生成虚拟视频。
2.一种基于虚拟现实技术的视频生成方法,应用于电子装置,其特征在于,该方法包括:
识别步骤:接收输入信号,对该输入信号进行识别,得到输入对象的意图;
第一映射步骤:根据预先设定的意图与特征值的映射关系确定所述输入对象的意图对应的特征值Ki;
第二映射步骤:根据预先设定的特征值与表情轨迹的映射关系从预设表情集合C1中获取所述特征值Ki对应的表情轨迹C1i;
第三映射步骤:根据预先设定的表情轨迹与模型的映射关系从预设模型集合C2中获取所述表情轨迹C1i对应的模型C2i;及
生成步骤:根据所述表情轨迹C1i控制所述模型C2i上的特征点运动,生成虚拟视频。
3.如权利要求1或2所述的视频生成方法,其特征在于,该方法还包括:
输出步骤:通过输出装置输出所述虚拟视频。
4.如权利要求1或2所述的视频生成方法,其特征在于,所述输入信号包括文本、音频、图像、视频。
5.如权利要求4所述的视频生成方法,其特征在于,当所述输入信号为文本时,根据文本语义确定所述输入对象的意图。
6.如权利要求4所述的视频生成方法,其特征在于,当所述输入信号为音频时,先利用预设语音转换文字软件将该音频转换为文字,再根据文本语义确定所述输入对象的意图。
7.如权利要求4所述的视频生成方法,其特征在于,当所述输入信号为图像或视频时,先利用预先训练的动作单元特征识别模型识别出该图像或视频中的动作单元特征,再根据该动作单元特征与输入对象的意图体现出的情绪之间的对应关系确定所述输入对象的意图。
8.如权利要求1或2所述的视频生成方法,其特征在于,所述特征点为利用预设特征点提取算法从所述模型C2i上提取的用于描述所述表情轨迹C1i的点。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中包括视频生成程序,该视频生成程序被所述处理器执行时实现如下步骤:
识别步骤:接收输入信号,对该输入信号进行识别,得到输入对象的意图;
第一映射步骤:根据预先设定的意图与特征值的映射关系确定所述输入对象的意图对应的特征值Ki;
第二映射步骤:根据预先设定的特征值与表情轨迹的映射关系从预设表情集合C1中获取所述特征值Ki对应的表情轨迹C1i;及
生成步骤:根据所述表情轨迹C1i控制模型C2i上的特征点运动,生成虚拟视频。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括视频生成程序,所述视频生成程序被处理器执行时,实现如权利要求1至8中任一项所述的基于虚拟现实技术的视频生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811273049.9A CN111131913A (zh) | 2018-10-30 | 2018-10-30 | 基于虚拟现实技术的视频生成方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811273049.9A CN111131913A (zh) | 2018-10-30 | 2018-10-30 | 基于虚拟现实技术的视频生成方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111131913A true CN111131913A (zh) | 2020-05-08 |
Family
ID=70484099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811273049.9A Pending CN111131913A (zh) | 2018-10-30 | 2018-10-30 | 基于虚拟现实技术的视频生成方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111131913A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475360A (zh) * | 2023-12-27 | 2024-01-30 | 南京纳实医学科技有限公司 | 基于改进型mlstm-fcn的音视频特点的生物体征提取与分析方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090114139A (ko) * | 2008-04-29 | 2009-11-03 | 한국기술교육대학교산학협력단 | 3차원 입체 콘텐츠 기반 실감형 인터랙티브 기술교육 방법 |
US20100082345A1 (en) * | 2008-09-26 | 2010-04-01 | Microsoft Corporation | Speech and text driven hmm-based body animation synthesis |
US20120130717A1 (en) * | 2010-11-19 | 2012-05-24 | Microsoft Corporation | Real-time Animation for an Expressive Avatar |
US20160350973A1 (en) * | 2015-05-28 | 2016-12-01 | Microsoft Technology Licensing, Llc | Shared tactile interaction and user safety in shared space multi-person immersive virtual reality |
CN106653052A (zh) * | 2016-12-29 | 2017-05-10 | Tcl集团股份有限公司 | 虚拟人脸动画的生成方法及装置 |
CN106910514A (zh) * | 2017-04-30 | 2017-06-30 | 上海爱优威软件开发有限公司 | 语音处理方法及系统 |
WO2017137948A1 (en) * | 2016-02-10 | 2017-08-17 | Vats Nitin | Producing realistic body movement using body images |
CN107831905A (zh) * | 2017-11-30 | 2018-03-23 | 北京光年无限科技有限公司 | 一种基于全息投影设备的虚拟形象交互方法及系统 |
-
2018
- 2018-10-30 CN CN201811273049.9A patent/CN111131913A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090114139A (ko) * | 2008-04-29 | 2009-11-03 | 한국기술교육대학교산학협력단 | 3차원 입체 콘텐츠 기반 실감형 인터랙티브 기술교육 방법 |
US20100082345A1 (en) * | 2008-09-26 | 2010-04-01 | Microsoft Corporation | Speech and text driven hmm-based body animation synthesis |
US20120130717A1 (en) * | 2010-11-19 | 2012-05-24 | Microsoft Corporation | Real-time Animation for an Expressive Avatar |
US20160350973A1 (en) * | 2015-05-28 | 2016-12-01 | Microsoft Technology Licensing, Llc | Shared tactile interaction and user safety in shared space multi-person immersive virtual reality |
WO2017137948A1 (en) * | 2016-02-10 | 2017-08-17 | Vats Nitin | Producing realistic body movement using body images |
CN106653052A (zh) * | 2016-12-29 | 2017-05-10 | Tcl集团股份有限公司 | 虚拟人脸动画的生成方法及装置 |
CN106910514A (zh) * | 2017-04-30 | 2017-06-30 | 上海爱优威软件开发有限公司 | 语音处理方法及系统 |
CN107831905A (zh) * | 2017-11-30 | 2018-03-23 | 北京光年无限科技有限公司 | 一种基于全息投影设备的虚拟形象交互方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475360A (zh) * | 2023-12-27 | 2024-01-30 | 南京纳实医学科技有限公司 | 基于改进型mlstm-fcn的音视频特点的生物体征提取与分析方法 |
CN117475360B (zh) * | 2023-12-27 | 2024-03-26 | 南京纳实医学科技有限公司 | 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11182591B2 (en) | Methods and apparatuses for detecting face, and electronic devices | |
US11688120B2 (en) | System and method for creating avatars or animated sequences using human body features extracted from a still image | |
US10664060B2 (en) | Multimodal input-based interaction method and device | |
US10504268B1 (en) | Systems and methods for generating facial expressions in a user interface | |
Kumar et al. | Coupled HMM-based multi-sensor data fusion for sign language recognition | |
US20210174072A1 (en) | Microexpression-based image recognition method and apparatus, and related device | |
JP6662876B2 (ja) | アバター選択機構 | |
Zheng et al. | Recent advances of deep learning for sign language recognition | |
EP3617946A1 (en) | Context acquisition method and device based on voice interaction | |
TW201937344A (zh) | 智慧型機器人及人機交互方法 | |
US20190045270A1 (en) | Intelligent Chatting on Digital Communication Network | |
CN111191503A (zh) | 一种行人属性识别方法、装置、存储介质及终端 | |
CN113703585A (zh) | 交互方法、装置、电子设备及存储介质 | |
CN112990043A (zh) | 一种服务交互方法、装置、电子设备及存储介质 | |
Neverova | Deep learning for human motion analysis | |
Alshammari et al. | Robotics Utilization in Automatic Vision-Based Assessment Systems From Artificial Intelligence Perspective: A Systematic Review | |
Ding et al. | Designs of human–robot interaction using depth sensor-based hand gesture communication for smart material-handling robot operations | |
CN111274489B (zh) | 信息处理方法、装置、设备及存储介质 | |
Ji et al. | Human‐like sign‐language learning method using deep learning | |
CN111131913A (zh) | 基于虚拟现实技术的视频生成方法、装置及存储介质 | |
Hsu et al. | A multimedia presentation system using a 3D gesture interface in museums | |
CN113176827A (zh) | 基于表情的ar交互方法、系统、电子设备及存储介质 | |
CN108416261B (zh) | 一种任务处理方法和系统 | |
Arias et al. | Convolutional neural network applied to the gesticulation control of an interactive social robot with humanoid aspect | |
CN112395979B (zh) | 基于图像的健康状态识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200508 |
|
RJ01 | Rejection of invention patent application after publication |