CN117830476A - 一种虚拟形象生成方法及相关装置 - Google Patents

一种虚拟形象生成方法及相关装置 Download PDF

Info

Publication number
CN117830476A
CN117830476A CN202211183216.7A CN202211183216A CN117830476A CN 117830476 A CN117830476 A CN 117830476A CN 202211183216 A CN202211183216 A CN 202211183216A CN 117830476 A CN117830476 A CN 117830476A
Authority
CN
China
Prior art keywords
target model
model
facial
features
input conditions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211183216.7A
Other languages
English (en)
Inventor
殷国君
李江伟
秦瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Device Co Ltd
Original Assignee
Huawei Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Device Co Ltd filed Critical Huawei Device Co Ltd
Priority to CN202211183216.7A priority Critical patent/CN117830476A/zh
Publication of CN117830476A publication Critical patent/CN117830476A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Psychiatry (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Social Psychology (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请提供了一种虚拟形象生成方法及相关装置,涉及人工智能技术领域。该方法包括:获取基础模型与目标模型的函数关系;基于基础模型对应于输入条件的特征,以及函数关系,确定目标模型对应于输入条件的特征;基于目标模型对应于输入条件的特征,显示第二虚拟形象。此方法的整个流程可以自动化运行,无需针对每一个不同的虚拟形象重新设计面部表情和躯体动作,泛化性好,计算量小,有利于虚拟形象的大规模部署。

Description

一种虚拟形象生成方法及相关装置
技术领域
本申请涉及人工智能技术领域,并且更具体地,涉及一种虚拟形象生成方法及相关装置。
背景技术
在社交、娱乐等场景中,用户可能会使用一个虚拟形象来代表自己,以与其他用户进行交互。由于不同用户自定义的虚拟形象不同,很难预先为不同的虚拟形象设计对应于不同输入条件下的动作。
一种可能的解决方法是,在用户自定义虚拟形象后,会对该虚拟形象设计对应于不同输入条件下的面部表情和躯体动作,但这种方法计算量大,不利于虚拟形象的大规模部署。
发明内容
本申请提供了一种虚拟形象生成方法及相关装置,不需要预先为每个虚拟形象预先设计不同输入条件下的面部表情或躯体动作,有利于虚拟形象的大面积部署。
第一方面,本申请提供了一种虚拟形象生成方法,该方法包括:获取基础模型与目标模型的函数关系,该基础模型包括预定义的第一虚拟形象中的多个关键点,该目标模型基于用户自定义的第二虚拟形象而建立,该函数关系用于将基础模型中的多个关键点映射至目标模型;基于基础模型对应于输入条件的特征,以及函数关系,确定目标模型对应于输入条件的特征,输入条件来自如下至少一项:文本、音频或情感;基于目标模型对应于输入条件的特征,显示第二虚拟形象。
基于本申请提供的虚拟形象生成方法,基于用户自定义的虚拟形象建立目标模型,并基于基础模型对应于输入条件的特征以及基础模型和目标模型之间的函数关系,确定目标模型对应于输入条件的特征,最后基于该特征生成虚拟形象。整个流程可以自动化运行,无需针对每一个不同的虚拟形象重新设计面部表情和躯体动作,泛化性好,计算量小,有利于虚拟形象的大规模部署。
虚拟形象的特征可以包括面部特征和/或躯体特征,换言之,目标模型的面部特征和躯体特征中的至少一项是基于本方案生成的。
结合第一方面,在第一方面的某些可能的实现方式中,该特征包括面部特征,多个关键点包括多个面部关键点;基于基础模型对应于输入条件的特征,以及函数关系,确定目标模型对应于输入条件的特征,包括:基于基础模型对应于输入条件的面部特征,确定基础模型在面部特征下多个面部关键点的位置;基于函数关系,将基础模型在面部特征下的多个面部关键点映射至目标模型,得到目标模型对应于输入条件的面部特征。
其中,基于函数关系,将基础模型在面部特征下的多个关键点映射至目标模型,得到目标模型对应于输入条件的面部特征,包括:基于函数关系,将基础模型在面部特征下的多个关键点映射至目标模型,得到目标模型中的多个面部关键点对应于输入条件的初始位置;基于预定义的影响因素,对多个面部关键点的初始位置进行修正,得到目标模型对应于输入条件的面部特征。
在基于函数关系将关键点从基础模型映射到目标模型之后,目标模型的面部特征可能不够真实或者自然,因此可能还有一些其他的影响因素对目标模型中的面部关键点的位置造成影响。基于这些影响因素对面部关键点的初始位置进行修正,可以使面部特征更加真实自然。
进一步地,基于函数关系,将基础模型在面部特征下的多个关键点映射至目标模型,得到目标模型中的多个面部关键点对应于输入条件的初始位置,包括:基于函数关系和与目标模型对应的偏移系数,将基础模型在面部特征下的多个关键点映射至目标模型,得到目标模型中的多个面部关键点对应于输入条件的初始位置;其中,偏移系数用于调整目标模型中的多个关键点的初始位置。
这里的偏移系数可以是利用深度神经网络对该第二虚拟形象进行面部特征学习得到的,得到的针对该第二虚拟形象的偏移系数。利用偏移系数,可以对目标模型中的关键点位置进行调整,使目标模型的面部特征看起来更自然。
再进一步地,所述影响因素包括面部约束或弱表情中的至少一项,面部约束用于约束目标模型的面部特征,弱表情是响应于目标模型的躯体运动而产生的表情。
基于面部约束对目标模型的面部特征进行约束或基于弱表情对目标模型中的关键点位置进行修正,可以使目标模型更加真实。
结合第一方面,在第一方面的某些可能的实现方式中,特征包括躯体特征,多个关键点包括多个躯体关键点;基于基础模型对应于输入条件的特征,以及函数关系,确定目标模型对应于输入条件的特征,包括:基于基础模型的历史躯体特征和输入条件,确定基础模型对应于输入条件的躯体特征,该历史躯体特征是基础模型在接收到输入条件之前的躯体特征;基于基础模型对应于输入条件的躯体特征,确定基础模型在躯体特征下多个躯体关键点的位置;基于函数关系,将基础模型在躯体特征下的多个躯体关键点映射至目标模型,得到目标模型对应于输入条件的躯体特征。
其中,基于函数关系,将基础模型在躯体特征下的多个躯体关键点映射至目标模型,得到目标模型对应于输入条件的躯体特征,包括:基于函数关系,将基础模型在躯体特征下的多个关键点映射至目标模型,得到目标模型中的多个躯体关键点对应于输入条件的初始位置;基于预定义的影响因素,对多个躯体关键点的初始位置进行修正,得到目标模型对应于输入条件的躯体特征。
在基于函数关系将关键点从基础模型映射到目标模型之后,目标模型的躯体特征可能不够真实或者自然,因此可能还有一些其他的影响因素对目标模型中的躯体关键点的位置造成影响。基于这些影响因素对躯体关键点的初始位置进行修正,可以使躯体特征更加真实自然。
进一步地,所述影响因素包括动作幅度约束或表情约束中的至少一项,动作幅度约束用于约束目标模型中各关键点的动作幅度;表情约束是响应于目标模型的表情变化而产生的姿态变化。
基于动作幅度约束或者基于表情约束对目标模型中的关键点位置进行修正,可以使目标模型更加真实。
结合第一方面,在第一方面的某些可能的实现方式中,基础模型对应于输入条件的特征基于预定义的多种输入条件和多组特征序列的对应关系确定,多组特征序列中的每组特征序列包括与至少一个时间点对应的至少一个特征,该对应关系中,每种输入条件对应于一组或多组特征序列,基础模型对应于输入条件的特征来自输入条件所对应的一组或多组特征序列中的一组特征序列。
基础模型在做某一表情或者动作时,该表情或者动作一般会持续一段时间,而这个会持续一段时间的表情或者动作可以由一组特征序列来表示,一组特征序列中包括多个特征,每个特征对应于该表情或者动作中的一个时间点。基础模型在接收到输入条件时,可以从候选的特征序列中选择一组特征序列作为输出。这样可以使虚拟形象给人的感觉不会太僵硬,表现更加自然。
结合第一方面,在第一方面的某些可能的实现方式中,获取基础模型与目标模型的函数关系,包括:识别目标模型中的多个关键点;基于基础模型中的多个关键点和目标模型中的多个关键点,确定基础模型与目标模型的函数关系。
虚拟形象上包括多个点,但不同的点对于表现虚拟形象的特征的重要性不同。关键点指的是虚拟形象上对于表现虚拟形象的特征比较重要的点。根据关键点确定函数关系,将面部特征从基础模型映射到目标模型的效率更高。
第二方面,本申请提供了一种虚拟形象生成装置,包括用于实现第一方面以及第一方面任一种可能实现方式中的方法的模块或单元。应理解,各个模块或单元可通过执行计算机程序来实现相应的功能。
第三方面,本申请提供了一种虚拟形象生成装置,包括存储器和处理器,其中,存储器用于存储计算机程序;处理器用于调用并执行计算机程序,以实现上述第一方面以及第一方面任一种可能实现方式中所述的虚拟形象生成方法。
第四方面,本申请提供了一种计算机可读存储介质,包括计算机程序,当其在计算机上运行时,使得计算机实现第一方面以及第一方面任一种可能实现方式中的方法。
第五方面,本申请提供了一种计算机程序产品,计算机程序产品包括:计算机程序(也可以称为代码,或指令),当计算机程序被运行时,使得计算机执行第一方面以及第一方面任一种可能实现方式中的方法。
应理解,第二方面至第五方面的技术方案与第一方面相对应,各方面及对应的可行实施方式所取得的有益效果相似,不再赘述。
附图说明
图1是适用于本申请实施例提供的虚拟形象生成方法的使用场景示意图;
图2是本申请实施例提供的虚拟形象生成方法的流程示意图;
图3是本申请实施例提供的面部的基础模型以及标记点的示意图;
图4是本申请实施例提供的躯体的基础模型以及标记点的示意图;
图5是本申请实施例提供的面部的基础模型以及关键点的示意图;
图6是本申请实施例提供的获得函数关系的流程示意图;
图7是本申请实施例提供的通过输入得到输入条件的流程示意图;
图8是本申请实施例提供的虚拟形象生成方法的另一流程示意图;
图9是本申请实施例提供的获得面部特征的流程示意图;
图10是本申请实施例提供的将基础模型中的面部关键点映射到目标模型的示意图;
图11是本申请实施例提供的获得躯体特征的流程示意图;
图12是本申请实施例提供的将基础模型中的躯体关键点映射到目标模型的示意图;
图13是本申请实施例提供的虚拟形象生成方法的一种优选的流程示意图;
图14是本申请实施例提供的虚拟形象生成装置的示意性框图;
图15是本申请实施例提供的虚拟形象生成装置的另一示意性框图。
具体实施方式
为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中,术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”以及任何变形,意图在于覆盖不排他的包含。
下面将结合附图,对本申请中的技术方案进行描述。
图1是适用于本申请实施例提供的虚拟形象生成方法的使用场景示意图。在社交、娱乐等场景中,用户可能会使用一个虚拟形象来代表自己,以与其他用户进行交互。当前在生成虚拟形象时,会对每一个不同的虚拟形象重新设计面部表情和躯体动作,泛化性较差,计算量大,不利于虚拟形象的大规模部署。
鉴于此,本申请提供了一种虚拟形象生成方法,基于用户自定义的虚拟形象建立目标模型,并基于基础模型对应于输入条件的特征以及基础模型和目标模型之间的函数关系,确定目标模型对应于输入条件的特征,最后基于该特征生成虚拟形象。整个流程可以自动化运行,无需针对每一个不同的虚拟形象重新设计面部表情和躯体动作,泛化性好,计算量小,有利于虚拟形象的大规模部署。
图2是本申请实施例提供的虚拟形象生成方法的流程示意图。该方法200可以由虚拟形象生成装置来执行,虚拟形象生成装置可以是服务器,也可以是服务器内的部件,如芯片、芯片系统或其他可用于实现其部分或全部功能的模块,本申请对此不作限定。
图2示出的方法200可以包括步骤210至230,下面对方法200中的各个步骤做详细说明。
在步骤210中,获取基础模型与目标模型的函数关系。
其中,基础模型包括预定义的第一虚拟形象以及第一虚拟形象中的多个标记点与多个关键点。第一虚拟形象为虚拟形象生成装置中预先定义好的默认的形象,在基础模型中,包括第一虚拟形象以及在其基础上预定义的多个标记点。虚拟形象上包括多个点,但不同部位的点的重要性不同。例如,对于面部来说,脸颊和额头上的点不如眼睛和嘴巴的点更重要;对于躯体来说,胸部和腹部的点不如四肢以及关节的点更重要。标记点指的是虚拟形象上可以用于标记出重要部位的点,将这些点标记出来可以用于生成映射关系。多个标记点包括多个面部标记点和/或多个躯体标记点。
基础模型中的面部标记点可以标识出面部的关键信息,例如五官的位置和轮廓等信息。如图3所示,在面部的基础模型上包括84个标记点,并通过这84个标记点标识出面部的关键信息,例如点0到点32用来标识面部的轮廓,点33到点42用来标识眉毛的位置和轮廓,点43到点46用来标识鼻梁的位置,点47到点51用来标识鼻尖和鼻孔的位置,点52到点63用来标识眼睛的位置和轮廓,点64到83用来标识嘴巴的位置和轮廓等。
基础模型中的躯体标记点可以标识出躯体的关键信息,例如标识出躯体上对躯体的姿态影响较大的关节的位置信息。如图4所示,在躯体的基础模型上包括13个标记点,并通过这13个标记点标识出躯体上各个关节的位置,例如点a用来标识颈关节,点b和点c用来标识肩关节,点d和点e用来标识肘关节,点f和点g用来标识腕关节,点h和点i用来标识髋关节,点j和点k用来标识膝关节,点l和点m用来标识踝关节等。
而关键点则指的是对于表现虚拟形象的特征来说重要的点。例如,对于面部来说,如图5所示,关键点可以是面部拓扑线的交点;而对于躯体来说,关键点可以是关节部位的点。由于躯体动作相对于面部表情来说更加简单,所以对于躯体来说,标记点和关键点可以是相同的点。而且在基础模型中已经预先定义好了在不同的输入条件下,每个关键点可以如何运动,基础模型可以输出什么样的特征。
获得函数关系的流程可以参照图6。
目标模型可以基于用户自定义的第二虚拟形象而建立,该第二虚拟形象可以是通过扫描设备来构建得到,或者,也可以是用户通过网络下载得到,或者,还可以是用户通过软件手动构建得到等。本申请对于第二虚拟形象的获取方式不作限定。
在用户获得第二虚拟形象之后,可以将第二虚拟形象输入到虚拟形象生成装置中,然后虚拟形象生成装置基于第二虚拟形象建立目标模型。
用户自定义的第二虚拟形象代表了用户想要对外展示的形象,但该第二虚拟形象通常是静态的,并不可以根据输入条件改变其面部表情、躯体姿态等特征。因此可以基于第二虚拟形象建立目标模型。
目标模型的建立首先需要在第二虚拟形象的基础上确定目标模型中的标记点。与基础模型对应,目标模型包括多个标记点,该多个标记点包括多个面部标记点和多个躯体标记点。
对于目标模型中面部标记点的识别,可以使用二维图像人脸识别技术,对目标模型面部的主视图进行二维识别,得到主视图上标记点的二维坐标,再将二维坐标映射到目标模型上的三维坐标;也可以使用三维人脸识别技术,直接对整个目标模型的面部进行三维识别,得到标记点在目标模型上的三维坐标。而一般来说,目标模型中躯体标记点的数量比面部关键点要少,因此目标模型中躯体标记点的识别,相较于面部标记点的识别要更简单。
目标模型上的标记点与基础模型上的标记点数量相等且一一对应,而且基础模型上的标记点可以映射到目标模型上的标记点,因此可以将目标模型与基础模型进行标记点匹配。如此一来,可以得到目标模型与基础模型之间的映射关系,而通过标记点匹配得到的映射关系也可以用于对目标模型与基础模型上关键点的运动进行映射。
上述映射关系可以通过函数关系来实现。由于目标模型和基础模型可能有一些差异,所以基础模型上关键点的运动一般不能直接照搬到目标模型上,而是会有一些变化,这种变化可以体现在函数关系上。例如,基础模型上的某个关键点运动幅度较小,且运动方向是向正上方;该关键点在目标模型上对应的关键点运动幅度较大,且运动方向是向斜上方。这里关键点的运动幅度以及运动方向的改变都可以体现在函数关系上。又例如,目标模型上关键点的数量和基础模型上关键点的数量可能是不同的,基础模型上一个关键点的运动可能对应了目标模型上多个关键点的运动,或者,基础模型上多个关键点的运动可能对应了目标模型上多个关键点的运动。这里关键点之间的对应关系也可以体现在函数关系上。
另外,在目标模型上还有一些特殊部位,这些特殊部位在目标模型上的位置相对固定,但其表现的特征却无法通过关键点来确定。例如,眼球和头发,对于某些非人形的目标模型来说,还可能会有尾巴等。
对于这些特殊部位,可以先将其位置确定下来,至于特殊部位表现的特征,可以由虚拟形象生成装置或者用户自定义。例如,可以先确定眼球在目标模型上所处的位置,然后定义眼球的朝向和躯体的朝向一致,或者在躯体做特定动作时可以朝向特定的方向等;可以先确定头发在目标模型上所处的位置,然后定义头发会受重力影响向下垂,或者在躯体做特定动作时飘荡摆动等;可以先确定尾巴在目标模型上所处的位置,然后定义几种尾巴表现的特征,尾巴可以在躯体做特定动作时表现不同的特征等。这些特殊部位对于其特征的表现,也可以体现在函数关系中,最终得到针对于该目标模型的个性化函数关系,包括个性化躯体动作函数和个性化面部表情函数。
在步骤220中,基于基础模型对应于输入条件的特征,以及函数关系,确定目标模型对应于输入条件的特征。
其中,输入条件来自文本输入、音频输入或情感输入中的至少一项。
该输入条件可以是根据从用户输入的文本、音频或情感中的至少一项提取到的,文本、音频或情感可以视为三个不同维度的输入。通过输入得到输入条件的流程可以参照图7。这些输入可以是从用户处实时获取到的,即,用户在操作时,实时输入的;也可以是用户预先定义好的,针对某些问题的反应等,本申请对此不作限定。
虚拟形象生成装置获取文本输入的方式可以是从文本框获取,例如用户可以在用户界面的文本框中输入文本,该装置可读取文本框中的文本。
虚拟形象生成装置获取音频输入的方式可以是从麦克风获取,例如用户可以通过麦克风来输入语音,麦克风可以将接收到的语音转换为音频,并发送给虚拟形象生成装置。
虚拟形象生成装置获取情感输入的方式可以是根据情感标签来确定,例如用户可以在用户界面中的“平静”、“开心”、“愤怒”、“悲伤”和“恐惧”等情感标签中选择一种情感标签,或者,选择多种情感标签并自行搭配每种情感标签的权重。上述情感标签仅作示例,本申请不限定情感标签的名称以及种类。
应理解,上述输入条件也可以通过其他方式得到。
文本也可以从音频中提取,例如,虚拟形象生成装置可以运用自动语音识别(automated speech recognition,ASR)技术,从音频中提取文本;音频也可以从文本中得到,例如,虚拟形象生成装置可以运用从文本到语音(text to speech,TTS)技术,通过文本得到音频;情感也可以从用户输入的文本和音频中提取,例如,虚拟形象生成装置可以从文本中提取关键词,进而分析得到情感,也可以从音频中分析得到情感。
在文本、音频和情感这三个维度的输入中,可以只获取其中一个维度的输入,进而根据获取到的输入,确定输入条件。例如,只获取文本,可以从中得到音频和/或情感,进而确定输入条件;又例如,只获取音频,可以从中得到文本和/或情感,进而确定输入条件;再例如,只获取情感,可以认为用户只想要表达情感,而没有文本和音频,进而可以根据情感确定输入条件。
进一步地,还可以通过情感对音频进行调整。例如将音频通过编码器映射到隐空间向量,然后利用情感修改该隐空间向量,再将编辑后的隐空间向量通过解码器得到修改后的音频。这样可以在不改变音频原本的音色和语义的基础上,改变音频中所携带的情感。
应理解,对于虚拟形象生成装置来说,获取到的输入条件越多,越有利于生成逼真的虚拟形象,因此应当获取尽可能多的输入条件。
上述输入条件可以对基础模型造成影响,使基础模型上的至少部分关键点发生运动,从而使其表现出来的特征发生变化。
一示例,基础模型如果要做出张嘴的表情,嘴巴附近的关键点可以做出相应的运动,以达到张嘴的效果。而与其对应的目标模型上嘴巴附近的关键点也可以做出相应的运动,以达到张嘴的效果。目标模型和基础模型在外观上可能有一些差异,比如目标模型的嘴比基础模型的嘴更小,则目标模型在张嘴时,目标模型中嘴巴附近的关键点的运动幅度也可能比基础模型中嘴巴附近的关键点的运动幅度更小。
另一示例,基础模型如果要做出摆臂的动作,用来标识肘关节和腕关节的关键点可以做出相应的运动,以达到摆臂的效果。而与其对应的目标模型上用来标识肘关节和腕关节的关键点也可以做出相应的运动,以达到摆臂的效果。目标模型和基础模型在外观上可能有一些差异,比如目标模型的手臂比基础模型的手臂更长,则目标模型在摆臂时目标模型中用来标识肘关节和腕关节的关键点的运动幅度也可能比基础模型中用来标识肘关节和腕关节的关键点的运动幅度更大。
由于文本、音频或情感无法直接作用于基础模型,因此,可以基于对接收到的文本、音频或情感进行特征提取,以得到特征向量,该特征向量可以作为与输入对应的输入条件,进而利用特征向量作用于基础模型。
示例性地,输入条件可以通过深度神经网络对接收到的输入进行特征提取得到。例如,文本可以通过深度神经网络提取为文本向量,并将其归一化为文本特征向量;音频可以通过采用transformer结构的音频语义识别深度神经网络,提取为音频特征向量;虚拟形象生成装置也可以将接收到的情感转换为情感特征向量。
由于基础模型与目标模型响应于输入条件所表现的特征可以包括面部特征和/或躯体特征,与此对应,如图8所示,步骤220可以具体包括:
2201,基于基础模型对应于输入条件的面部特征,以及函数关系,确定目标模型对应于输入条件的面部特征;和/或
2202,基于基础模型对应于输入条件的躯体特征,以及函数关系,确定目标模型对应于输入条件的躯体特征。
下面将分别针对2201和2201两个步骤来做详细说明。
在步骤2201中,基础模型在输入条件的影响下,可以表现出一定的面部特征。基于基础模型的面部特征以及函数关系,可以得到目标模型对应于输入条件的面部特征。
获得面部特征的一种可能的实现方式可参看图9所示的流程。
如图9所示,先基于基础模型在输入条件影响下的面部特征,确定在该面部特征下的面部关键点的位置;再基于个性化面部表情函数,将基础模型在该面部特征下的面部关键点映射到目标模型,以得到目标模型下对应于输入条件的面部特征。
由于基础模型中已经预先定义好了在不同的输入条件下,每个关键点可以如何运动,基础模型可以输出什么样的特征,所以在这个步骤中可以根据输入条件来确定关键点的位置。
如图10所示,在某一输入条件影响下,基础模型中的面部关键点的位置如图10中的(a)所示。接下来基于步骤210中获取的函数关系,即,个性化面部表情函数,将基础模型中的面部关键点映射到目标模型,如图10中的(b)所示,就得到了该输入条件下目标模型的面部关键点,这些面部关键点表现出了目标模型的面部特征,也就是对面部表情进行了更新。根据图10中(a)和(b)中相同标号的面部关键点之间的关系,可以得到基础模型与目标模型之间的函数关系。
如果基于函数关系,直接将面部关键点从基础模型上映射到目标模型上,得到的目标模型的面部特征可能会看起来不够自然。所以可以将面部关键点从基础模型上映射到目标模型上的位置当作是面部关键点的初始位置。后续再在初始位置的基础上,对面部关键点的位置进行修正,得到目标模型的面部特征。
在得到目标模型的面部关键点的初始位置的过程中,除了函数关系,也可能用到该目标模型对应的偏移系数。这里的偏移系数是利用深度神经网络对该第二虚拟形象进行面部特征学习,得到的针对该第二虚拟形象的偏移系数。利用偏移系数,可以对目标模型中的关键点位置进行调整,使目标模型的面部特征看起来更自然。
另外,还有一些其他的影响因素可能会对目标模型中的面部关键点的位置造成影响,这些影响因素可以由用户或者开发人员预先定义,如面部约束或者弱表情。
其中,面部约束可以用于对目标模型的面部特征进行约束。在某些场景下,通过面部关键点的位置确定的目标模型的面部特征可能会显得过于夸张,例如在张嘴时,嘴巴张得过大;在瞪眼时,眼睛瞪得过大。这时可以通过面部约束对嘴巴可以张开到最大的情况进行约束,或者眼睛可以瞪到最大的情况进行约束,尽量避免使面部特征显得过于夸张。
弱表情是响应于目标模型的躯体运动而产生的表情。目标模型的部分面部特征可能受躯体运动特征的影响,例如躯体奔跑跳跃时面部肌肉会随之抖动等。可以利用躯体关键点的位置确定弱表情,并根据弱表情对目标模型中的关键点位置进行修正,使目标模型更加真实。
在步骤2202中,基础模型在接收到输入条件之前,可能有一定的躯体特征,这种躯体特征可以称作历史躯体特征。可以认为历史躯体特征表现了基础模型在接收到输入条件之前躯体的状态。
基础模型在输入条件的影响下,可以在历史躯体特征的基础上表现出一定的躯体特征。基于基础模型的躯体特征以及函数关系,可以得到目标模型对应于输入条件的躯体特征。
获得躯体特征的一种可能的实现方式可参看图11所示的流程。
如图11所示,先基于基础模型在输入条件影响下的躯体特征,确定在该躯体特征下的躯体关键点的位置。再基于个性化躯体动作函数,将基础模型在该躯体特征下的躯体关键点映射到目标模型,以得到目标模型下对应于输入条件的躯体特征。
由于基础模型中已经预先定义好了在不同的输入条件下,每个关键点可以如何运动,基础模型可以输出什么样的特征,所以在这个步骤中可以根据输入条件来确定关键点的位置。
如图12所示,在某一输入条件影响下,基础模型中的躯体关键点的位置如图12中的(a)所示。接下来基于步骤210中获取的函数关系,即,个性化躯体动作函数,将基础模型中的躯体关键点映射到目标模型,如图12中的(b)所示,就得到了该输入条件下目标模型的躯体关键点,这些躯体关键点表现出了目标模型的躯体特征,也就是对躯体动作进行了更新。根据图12中(a)和(b)中相同标号的躯体关键点之间的关系,可以得到基础模型与目标模型之间的函数关系。
如果基于函数关系,直接将躯体关键点从基础模型上映射到目标模型上,得到的目标模型的躯体特征可能会看起来不够自然。所以可以将躯体关键点从基础模型上映射到目标模型上的位置当作是躯体关键点的初始位置。后续再在初始位置的基础上,基于预定义的影响因素,对躯体关键点的位置进行修正,得到目标模型的躯体特征。
在一些实施例中,预定义的影响因素可能会对目标模型中的躯体关键点的位置造成影响,这些影响因素可以由用户或者开发人员预先定义,如动作幅度约束或者表情约束。
其中,动作幅度约束可用于约束目标模型中各关键点的动作幅度。在某些场景下,通过躯体关键点的位置确定的目标模型的躯体特征可能会显得不符合真实情况,例如膝关节向后弯曲、肘关节向外弯曲;或者躯体特征会导致穿模的情况,例如躯体的一部分进入了墙里。这时可以通过动作幅度约束对膝关节和肘关节弯曲的角度和方向进行约束,或者对躯体目标模型进行碰撞检测,通过碰撞约束对躯体目标模型的动作进行约束,使目标模型的躯体特征更加真实。
表情约束是响应于目标模型的表情变化而产生的姿态变化。目标模型的部分躯体特征可能受面部表情变化的影响,例如打喷嚏时躯体的动作会有明显改变等。可以利用表情约束对目标模型中的关键点位置进行调整,使目标模型更加自然。
在步骤230中,基于目标模型对应于输入条件的特征,显示第二虚拟形象。
以上所述的目标模型对应于输入条件的特征是从基础模型对应于输入条件的特征得到的。基础模型在做某一表情或者动作时,该表情或者动作一般会持续一段时间,而这个会持续一段时间的表情或者动作可以由一组特征序列来表示,一组特征序列中包括多个特征,每个特征对应于该表情或者动作中的一个时间点。基础模型对应于输入条件的特征可以基于多种输入条件和多组特征序列的对应关系确定,也可以来自一组或多组特征序列中的一组特征序列。
在对应关系中,每种输入条件可以对应于一组或多组特征序列。也就是说,当输入条件完全相同时,基础模型所做的表情或者动作并不一定完全相同,而是有多种表情或者动作可供选择。基础模型在接收到输入条件时,可以从候选的特征序列中选择一组特征序列作为输出。这样可以使虚拟形象给人的感觉不会太僵硬,表现更加自然。
在上述步骤中已经确定了目标模型对应于输入条件的面部特征和/或躯体特征,接下来可以根据用户需求,将面部特征和躯体特征进行融合,成为一个整体,再对整个特征序列进行渲染等操作;或者,根据用户需求,只对面部特征序列或躯体特征序列进行渲染等操作,得到符合用户需求的虚拟形象,最终向用户展示该虚拟形象。
基于上述方法,基于用户自定义的虚拟形象建立目标模型,并基于基础模型对应于输入条件的特征以及基础模型和目标模型之间的函数关系,确定目标模型对应于输入条件的特征,最后基于该特征生成虚拟形象。整个流程自动化运行,无需针对每一个不同的虚拟形象重新设计面部表情和躯体动作,泛化性好,计算量小,有利于虚拟形象的大规模部署。
图13是本申请实施例提供的虚拟形象生成方法的一种优选的流程示意图。
在用户自定义的第二虚拟形象的基础上识别出目标模型的关键点,然后将目标模型的标记点与基础模型上的标记点进行标记点匹配,得到目标模型与基础模型的映射函数。如此一来,基于映射函数,基础模型中关键点一旦发生运动,相应的运动也可以被映射到目标模型的关键点上。接下来对目标模型上无法通过关键点来确定的特殊部位进行绑定,最终得到针对于该目标模型的个性化函数关系,包括个性化躯体动作函数和个性化面部表情函数。
从用户输入的文本、音频或情感中提取文本特征、音频特征或情感特征,以得到特征向量,该特征向量可以作为与输入对应的输入条件,进而利用特征向量作用于基础模型。
根据输入条件确定面部关键点的位置,然后根据个性化面部表情函数以及针对第二虚拟形象的进行学习得到的偏移系数对目标模型中的关键点位置进行调整,即,对面部表情进行更新。然后分别通过面部约束和弱表情对关键点的位置进行修正,最终得到目标模型下对应于输入条件的面部特征。
根据历史躯体特征、输入条件和弱表情对躯体特征的表情约束确定躯体关键点的位置,然后根据个性化躯体动作函数对目标模型中的关键点位置进行调整,即,对躯体动作进行更新。然后通过动作幅度约束对关键点的位置进行修正,最终得到目标模型下对应于输入条件的躯体特征。
在得到面部特征和躯体特征后,面部特征和躯体特征进行融合,成为一个整体,再对整个特征序列进行渲染等操作,得到虚拟形象,最终向用户展示该虚拟形象。
图14是本申请实施例提供的虚拟形象生成装置的示意性框图。该设备可以对应于上文方法实施例中的虚拟形象生成装置,用于实现其相应的功能。如图14所示,该虚拟形象生成装置1400可以包括函数获取模块1410、特征确定模块1420和形象显示模块1430。
其中,函数获取模块1410可用于,获取基础模型与目标模型的函数关系,该基础模型包括预定义的第一虚拟形象中的多个关键点,该目标模型基于用户自定义的第二虚拟形象而建立,函数关系用于将基础模型中的多个关键点映射至目标模型;特征确定模块1420可用于,基于基础模型对应于输入条件的特征,以及函数关系,确定目标模型对应于输入条件的特征,该输入条件来自如下至少一项:文本、音频或情感;形象显示模块1430可用于,基于目标模型对应于输入条件的特征,显示第二虚拟形象。
可选地,特征确定模块1420可用于,基于基础模型对应于输入条件的面部特征,确定基础模型在面部特征下多个面部关键点的位置;基于函数关系,将基础模型在面部特征下的多个面部关键点映射至目标模型,得到目标模型对应于输入条件的面部特征。
可选地,特征确定模块1420可用于,基于函数关系,将基础模型在面部特征下的多个关键点映射至目标模型,得到目标模型中的多个面部关键点对应于输入条件的初始位置;基于预定义的影响因素,对多个面部关键点的初始位置进行修正,得到目标模型对应于输入条件的面部特征。
可选地,特征确定模块1420可用于,基于函数关系和与目标模型对应的偏移系数,将基础模型在面部特征下的多个关键点映射至目标模型,得到目标模型中的多个面部关键点对应于输入条件的初始位置;其中,偏移系数用于调整目标模型中的多个关键点的初始位置。
可选地,特征确定模块1420可用于,基于基础模型的历史躯体特征和输入条件,确定基础模型对应于输入条件的躯体特征,该历史躯体特征是基础模型在接收到输入条件之前的躯体特征;基于基础模型对应于输入条件的躯体特征,确定基础模型在躯体特征下多个躯体关键点的位置;基于函数关系,将基础模型在躯体特征下的多个躯体关键点映射至目标模型,得到目标模型对应于输入条件的躯体特征。
可选地,特征确定模块1420可用于,基于函数关系,将基础模型在躯体特征下的多个关键点映射至目标模型,得到目标模型中的多个躯体关键点对应于输入条件的初始位置;基于预定义的影响因素,对多个躯体关键点的初始位置进行修正,得到目标模型对应于输入条件的躯体特征。
可选地,函数获取模块1410可用于,识别目标模型中的多个关键点;基于基础模型中的多个关键点和目标模型中的多个关键点,确定基础模型与目标模型的函数关系。
图15是本申请实施例提供的虚拟形象生成装置的另一示意性框图。如图15所示,该设备1500可以包括至少一个处理器1510,可用于实现上述方法实施例中虚拟形象生成装置的功能。具体参见方法示例中的详细描述,此处不做赘述。
该设备1500还可以包括一个存储器1520,用于存储程序指令和/或数据。存储器1520和处理器1510耦合。本申请中的耦合是装置、单元或模块之间的间接耦合或通信连接,可以是电性,机械或其它的形式,用于装置、单元或模块之间的信息交互。处理器1510可能和存储器1520协同操作。处理器1510可能执行存储器1520中存储的程序指令。所述至少一个存储器中的至少一个可以包括于处理器中。
该设备1500还可以包括一个通信接口1530,用于通过传输介质和其它设备进行通信,从而用于装置1500中的装置可以和其它设备进行通信。所述通信接口1530例如可以是收发器、接口、总线、电路或者能够实现收发功能的装置。处理器1510可利用通信接口1530收发数据和/或信息,并用于实现图2对应的实施例中所述的虚拟形象生成方法。
本申请中不限定上述处理器1510、存储器1520以及通信接口1530之间的具体连接介质。本申请在图15中以处理器1510、存储器1520以及通信接口1530之间通过总线1540连接。总线1540在图15中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图15中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
在本申请实施例中,处理器可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
根据本申请提供的方法,本申请还提供一种计算机可读存储介质,该计算机可读存储介质存储有程序代码,当该程序代码在计算机上运行时,使得该计算机执行上述实施例中所述的虚拟形象生成方法。
根据本申请提供的方法,本申请还提供一种计算机程序产品,该计算机程序产品包括:计算机程序代码。当该计算机程序代码在计算机上运行时,使得该计算机执行上述实施例中所述的虚拟形象生成方法。
本申请提供的技术方案可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、终端设备或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线,例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机可以存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质例如,数字视频光盘(digital video disc,DVD)、或者半导体介质等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (20)

1.一种虚拟形象生成方法,其特征在于,包括:
获取基础模型与目标模型的函数关系,所述基础模型包括预定义的第一虚拟形象中的多个关键点,所述目标模型基于用户自定义的第二虚拟形象而建立,所述函数关系用于将所述基础模型中的多个关键点映射至所述目标模型;
基于所述基础模型对应于输入条件的特征,以及所述函数关系,确定所述目标模型对应于所述输入条件的特征,所述输入条件来自如下至少一项:文本输入、音频输入或情感输入;
基于所述目标模型对应于所述输入条件的特征,显示所述第二虚拟形象。
2.如权利要求1所述的方法,其特征在于,所述特征包括面部特征,所述多个关键点包括多个面部关键点;
所述基于所述基础模型对应于输入条件的特征,以及所述函数关系,确定所述目标模型对应于所述输入条件的特征,包括:
基于所述基础模型对应于所述输入条件的面部特征,确定所述基础模型在所述面部特征下所述多个面部关键点的位置;
基于所述函数关系,将所述基础模型在所述面部特征下的所述多个面部关键点映射至所述目标模型,得到所述目标模型对应于所述输入条件的面部特征。
3.如权利要求2所述的方法,其特征在于,所述基于所述函数关系,将所述基础模型在所述面部特征下的所述多个关键点映射至所述目标模型,得到所述目标模型对应于所述输入条件的面部特征,包括:
基于所述函数关系,将所述基础模型在所述面部特征下的所述多个关键点映射至所述目标模型,得到所述目标模型中的多个面部关键点对应于所述输入条件的初始位置;
基于预定义的影响因素,对所述多个面部关键点的初始位置进行修正,得到所述目标模型对应于所述输入条件的面部特征。
4.如权利要求3所述的方法,其特征在于,所述基于所述函数关系,将所述基础模型在所述面部特征下的所述多个关键点映射至所述目标模型,得到所述目标模型中的多个面部关键点对应于所述输入条件的初始位置,包括:
基于所述函数关系和与所述目标模型对应的偏移系数,将所述基础模型在所述面部特征下的所述多个关键点映射至所述目标模型,得到所述目标模型中的多个面部关键点对应于所述输入条件的初始位置;其中,所述偏移系数用于调整所述目标模型中的所述多个关键点的初始位置。
5.如权利要求3或4所述的方法,其特征在于,所述影响因素包括面部约束或弱表情中的至少一项,所述面部约束用于约束所述目标模型的面部特征,所述弱表情是响应于所述目标模型的躯体运动而产生的表情。
6.如权利要求1所述的方法,其特征在于,所述特征包括躯体特征,所述多个关键点包括多个躯体关键点;
所述基于所述基础模型对应于输入条件的特征,以及所述函数关系,确定所述目标模型对应于所述输入条件的特征,包括:
基于所述基础模型的历史躯体特征和所述输入条件,确定所述基础模型对应于所述输入条件的所述躯体特征,所述历史躯体特征是所述基础模型在接收到所述输入条件之前的躯体特征;
基于所述基础模型对应于所述输入条件的所述躯体特征,确定所述基础模型在所述躯体特征下所述多个躯体关键点的位置;
基于所述函数关系,将所述基础模型在所述躯体特征下的所述多个躯体关键点映射至所述目标模型,得到所述目标模型对应于所述输入条件的躯体特征。
7.如权利要求6所述的方法,其特征在于,所述基于所述函数关系,将所述基础模型在所述躯体特征下的所述多个躯体关键点映射至所述目标模型,得到所述目标模型对应于所述输入条件的躯体特征,包括:
基于所述函数关系,将所述基础模型在所述躯体特征下的所述多个关键点映射至所述目标模型,得到所述目标模型中的多个躯体关键点对应于所述输入条件的初始位置;
基于预定义的影响因素,对所述多个躯体关键点的初始位置进行修正,得到所述目标模型对应于所述输入条件的躯体特征。
8.如权利要求7所述的方法,其特征在于,所述影响因素包括动作幅度约束或表情约束中的至少一项,所述动作幅度约束用于约束所述目标模型中各关键点的动作幅度;所述表情约束是响应于所述目标模型的表情变化而产生的姿态变化。
9.如权利要求2至8中任一项所述的方法,其特征在于,所述基础模型对应于所述输入条件的特征基于预定义的多种输入条件和多组特征序列的对应关系确定,所述多组特征序列中的每组特征序列包括与至少一个时间点对应的至少一个特征,所述对应关系中,每种输入条件对应于一组或多组特征序列,所述基础模型对应于所述输入条件的特征来自所述输入条件所对应的一组或多组特征序列中的一组特征序列。
10.如权利要求1至9中任一项所述的方法,其特征在于,所述获取基础模型与目标模型的函数关系,包括:
识别所述目标模型中的多个标记点;
基于所述基础模型中的多个标记点和所述目标模型中的多个标记点,确定所述基础模型与所述目标模型的函数关系。
11.一种虚拟形象生成装置,其特征在于,包括:
函数获取模块,用于获取基础模型与目标模型的函数关系,所述基础模型包括预定义的第一虚拟形象中的多个关键点,所述目标模型基于用户自定义的第二虚拟形象而建立,所述函数关系用于将所述基础模型中的多个关键点映射至所述目标模型;
特征确定模块,用于基于所述基础模型对应于输入条件的特征,以及所述函数关系,确定所述目标模型对应于所述输入条件的特征,所述输入条件来自如下至少一项:文本、音频或情感;
形象显示模块,用于基于所述目标模型对应于所述输入条件的特征,显示所述第二虚拟形象。
12.如权利要求11所述的装置,其特征在于,所述特征包括面部特征,所述多个关键点包括多个面部关键点;
所述特征确定模块用于,基于所述基础模型对应于所述输入条件的面部特征,确定所述基础模型在所述面部特征下所述多个面部关键点的位置;基于所述函数关系,将所述基础模型在所述面部特征下的所述多个面部关键点映射至所述目标模型,得到所述目标模型对应于所述输入条件的面部特征。
13.如权利要求12所述的装置,其特征在于,所述特征确定模块用于,基于所述函数关系,将所述基础模型在所述面部特征下的所述多个关键点映射至所述目标模型,得到所述目标模型中的多个面部关键点对应于所述输入条件的初始位置;基于预定义的影响因素,对所述多个面部关键点的初始位置进行修正,得到所述目标模型对应于所述输入条件的面部特征。
14.如权利要求13所述的装置,其特征在于,所述特征确定模块用于,基于所述函数关系和与所述目标模型对应的偏移系数,将所述基础模型在所述面部特征下的所述多个关键点映射至所述目标模型,得到所述目标模型中的多个面部关键点对应于所述输入条件的初始位置;其中,所述偏移系数用于调整所述目标模型中的所述多个关键点的初始位置。
15.如权利要求11所述的装置,其特征在于,所述特征包括躯体特征,所述多个关键点包括多个躯体关键点;
所述特征确定模块用于,基于所述基础模型的历史躯体特征和所述输入条件,确定所述基础模型对应于所述输入条件的所述躯体特征,所述历史躯体特征是所述基础模型在接收到所述输入条件之前的躯体特征;基于所述基础模型对应于所述输入条件的所述躯体特征,确定所述基础模型在所述躯体特征下所述多个躯体关键点的位置;基于所述函数关系,将所述基础模型在所述躯体特征下的所述多个躯体关键点映射至所述目标模型,得到所述目标模型对应于所述输入条件的躯体特征。
16.如权利要求15所述的装置,其特征在于,所述特征确定模块用于,基于所述函数关系,将所述基础模型在所述躯体特征下的所述多个关键点映射至所述目标模型,得到所述目标模型中的多个躯体关键点对应于所述输入条件的初始位置;基于预定义的影响因素,对所述多个躯体关键点的初始位置进行修正,得到所述目标模型对应于所述输入条件的躯体特征。
17.如权利要求11所述的装置,其特征在于,所述函数获取模块用于,识别所述目标模型中的多个标记点;基于所述基础模型中的多个标记点和所述目标模型中的多个标记点,确定所述基础模型与所述目标模型的函数关系。
18.一种虚拟形象生成装置,其特征在于,包括存储器和处理器,其中,
所述存储器用于存储计算机程序;
所述处理器用于调用并执行所述计算机程序,以使得所述虚拟形象生成装置执行如权利要求1至10中任一项所述的方法。
19.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至10中任一项所述的方法。
20.一种计算机程序产品,其特征在于,包括计算机程序,当所述计算机程序被运行时,实现如权利要求1至10中任一项所述的方法。
CN202211183216.7A 2022-09-27 2022-09-27 一种虚拟形象生成方法及相关装置 Pending CN117830476A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211183216.7A CN117830476A (zh) 2022-09-27 2022-09-27 一种虚拟形象生成方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211183216.7A CN117830476A (zh) 2022-09-27 2022-09-27 一种虚拟形象生成方法及相关装置

Publications (1)

Publication Number Publication Date
CN117830476A true CN117830476A (zh) 2024-04-05

Family

ID=90515861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211183216.7A Pending CN117830476A (zh) 2022-09-27 2022-09-27 一种虚拟形象生成方法及相关装置

Country Status (1)

Country Link
CN (1) CN117830476A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118141517A (zh) * 2024-05-10 2024-06-07 中国科学院自动化研究所 肘关节增生信息获取方法、装置、介质及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118141517A (zh) * 2024-05-10 2024-06-07 中国科学院自动化研究所 肘关节增生信息获取方法、装置、介质及设备

Similar Documents

Publication Publication Date Title
KR102503413B1 (ko) 애니메이션 인터랙션 방법, 장치, 기기 및 저장 매체
US11669726B2 (en) Methods and systems for interpolation of disparate inputs
CN111680562A (zh) 一种基于骨骼关键点的人体姿态识别方法、装置、存储介质及终端
CN113362263B (zh) 变换虚拟偶像的形象的方法、设备、介质及程序产品
JP7193015B2 (ja) コミュニケーション支援プログラム、コミュニケーション支援方法、コミュニケーション支援システム、端末装置及び非言語表現プログラム
US11836840B2 (en) Systems and methods for cross-application authoring, transfer, and evaluation of rigging control systems for virtual characters
CN110147737B (zh) 用于生成视频的方法、装置、设备和存储介质
KR20180080783A (ko) 가상 휴먼 인식 및 실시간 증강 합성 기술을 이용한 라이브 소셜 미디어 시스템 및 증강 합성 서버
CN111383642B (zh) 基于神经网络的语音应答方法、存储介质以终端设备
CN110728319B (zh) 一种图像生成方法、装置以及计算机存储介质
JP2022530935A (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体
CN111832372A (zh) 产生模拟用户的三维脸部模型的方法及装置
CN109331455A (zh) 人体姿态的动作纠错方法、装置、存储介质及终端
CN113408449A (zh) 基于语音驱动的人脸动作合成方法、电子设备及存储介质
CN117830476A (zh) 一种虚拟形象生成方法及相关装置
CN113903067A (zh) 虚拟对象视频的生成方法、装置、设备及介质
CN112669422A (zh) 仿真3d数字人生成方法、装置、电子设备及存储介质
CN115049016A (zh) 基于情绪识别的模型驱动方法及设备
CN111939558A (zh) 一种实时语音驱动虚拟人物动作的方法和系统
CN117635897B (zh) 三维对象的姿态补全方法、装置、设备、存储介质及产品
CN114712862A (zh) 虚拟宠物交互方法、电子设备及计算机可读存储介质
CN114170648A (zh) 视频生成方法、装置、电子设备及存储介质
CN109740511A (zh) 一种人脸表情匹配方法、装置、设备及存储介质
CN111597926A (zh) 图像处理方法及装置、电子设备及存储介质
CN117078816A (zh) 一种虚拟形象的生成方法、装置、终端设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication