CN115529500A - 动态影像的生成方法和装置 - Google Patents

动态影像的生成方法和装置 Download PDF

Info

Publication number
CN115529500A
CN115529500A CN202211141405.8A CN202211141405A CN115529500A CN 115529500 A CN115529500 A CN 115529500A CN 202211141405 A CN202211141405 A CN 202211141405A CN 115529500 A CN115529500 A CN 115529500A
Authority
CN
China
Prior art keywords
data
information
feature
generating
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211141405.8A
Other languages
English (en)
Inventor
魏莱
王宇桐
宋雅奇
薛裕颖
沈云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202211141405.8A priority Critical patent/CN115529500A/zh
Publication of CN115529500A publication Critical patent/CN115529500A/zh
Priority to PCT/CN2023/112565 priority patent/WO2024060873A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computer Security & Cryptography (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本公开涉及一种动态影像的生成方法和装置,涉及计算机技术领域。该生成方法,包括:根据用户语音,确定回应信息对应的特征信息;根据特征信息,确定回应信息对应的特征数据,特征数据根据特征信息对应的BlendShape数据和骨骼数据确定;根据特征数据,生成回应信息对应的动态影像。本公开的技术方案能够提高动态影像效果。

Description

动态影像的生成方法和装置
技术领域
本公开涉及计算机技术领域,特别涉及一种动态影像的生成方法、动态影像的生成装置和非易失性计算机可读存储介质。
背景技术
随着元宇宙、虚拟现实、数字孪生等领域的发展,虚拟数字人开始从外观的数字化逐渐深入到思想和行为的智能化。智能驱动型数字人是通过三维建模、计算机视觉、语音识别等技术还原的数字人,可以通过口型、表情的变化来实现与用户的交流。
在相关技术中,在渲染引擎中,事先内置好若干个BlendShape(混合形状)基本表情动画和基本口型动画;根据文本,生成表情标签和口型标签;输入到渲染引擎,进行动画调取和合成。
发明内容
本公开的发明人发现上述相关技术中存在如下问题:生成的动态影像死板、僵硬,导致动态影像效果差。
鉴于此,本公开提出了一种动态影像的生成技术方案,能够提高动态影像效果。
根据本公开的一些实施例,提供了一种动态影像的生成方法,包括:根据用户语音,确定回应信息对应的特征信息;根据特征信息,确定回应信息对应的特征数据,特征数据根据特征信息对应的BlendShape数据和骨骼数据确定;根据特征数据,生成回应信息对应的动态影像。
在一些实施例中,特征信息包括情绪信息或发音信息中的至少一项,特征数据包括表情数据或口型数据中的至少一项,根据特征信息,确定回应信息对应的特征数据包括下面的至少一项:根据情绪信息,确定表情数据,表情数据根据情绪信息对应的第一BlendShape数据和第一骨骼数据确定;或者,根据发音信息,确定口型数据,口型数据根据发音信息对应的第二BlendShape数据和第二骨骼数据确定。
在一些实施例中,骨骼数据根据初始骨骼数据和多个骨骼数据分量的加权和确定。
在一些实施例中,生成方法还包括:根据特征信息,确定特征数据的初始权重;根据特征数据,生成回应信息对应的动态影像包括:在根据初始权重和阈值确定的取值范围内,分别随机生成多个关键帧的对应时刻的实际权重;利用多个实际权重分别对特征数据进行加权,以生成多个关键帧;根据多个关键帧,生成动态影像。
在一些实施例中,取值范围包括大于初始权重与阈值之差且小于初始权重与阈值之和的值。
在一些实施例中,根据多个关键帧,生成动态影像包括:对相邻关键帧对应的加权后的特征数据进行平滑处理,以生成相邻关键帧之间的非关键帧;根据关键帧和非关键帧及其时间戳,按照时间顺序生成动态影像。
在一些实施例中,生成方法还包括:根据特征信息,确定特征数据的时间戳;在根据初始权重和阈值确定的取值范围内,分别随机生成多个关键帧的对应时刻的实际权重包括:生成时间戳的对应时刻的实际权重。
在一些实施例中,根据特征信息,确定回应信息对应的特征数据包括:利用语义引擎中的状态机,根据特征信息,确定特征数据对应的标识信息;利用渲染引擎,根据状态机发送的标识信息,从缓存池中获取特征数据。
在一些实施例中,生成方法还包括:在初始化的过程中,利用渲染引擎,从面部模型库中读取多个特征数据;利用渲染引擎,以JSON文本格式,将多个特征数据加载到缓存池。
在一些实施例中,根据用户语音,确定回应信息对应的特征信息包括:在用户发起语音交互的情况下,对用户语音进行语义分析和情感分析;根据分析结果,在问答库中确定回应文本;对回应文本进行情感分析或音素提取中的至少一项处理,确定特征信息。
在一些实施例中,BlendShape数据根据初始BlendShape数据和多个BlendShape数据分量的加权和确定。
根据本公开的另一些实施例,提供一种动态影像的生成装置,包括:语义引擎模块,用于根据用户语音,确定回应信息对应的特征信息,根据特征信息,确定回应信息对应的特征数据,特征数据根据特征信息对应的BlendShape数据和骨骼数据确定;渲染引擎模块,用于根据特征数据,生成回应信息对应的动态影像。
在一些实施例中,生成装置还包括:面部模型库,用于存储多个特征数据。
在一些实施例中,特征信息包括情绪信息或发音信息中的至少一项,特征数据包括表情数据或口型数据中的至少一项,语义引擎模块执行下面的至少一项:根据情绪信息,确定表情数据,表情数据根据情绪信息对应的第一BlendShape数据和第一骨骼数据确定;或者,根据发音信息,确定口型数据,口型数据根据发音信息对应的第二BlendShape数据和第二骨骼数据确定。
在一些实施例中,骨骼数据根据初始骨骼数据和多个骨骼数据分量的加权和确定。
在一些实施例中,语义引擎模块根据特征信息,确定特征数据的初始权重;渲染引擎模块在根据初始权重和阈值确定的取值范围内,分别随机生成多个关键帧的对应时刻的实际权重,利用多个实际权重分别对特征数据进行加权,以生成多个关键帧;根据多个关键帧,生成动态影像。
在一些实施例中,取值范围包括大于初始权重与阈值之差且小于初始权重与阈值之和的值。
在一些实施例中,渲染引擎模块对相邻关键帧对应的加权后的特征数据进行平滑处理,以生成相邻关键帧之间的非关键帧;根据关键帧和非关键帧及其时间戳,按照时间顺序生成动态影像。
在一些实施例中,语义引擎模块根据特征信息,确定特征数据的时间戳;渲染引擎模块生成时间戳的对应时刻的实际权重。
在一些实施例中,语义引擎模块利用其中的状态机,根据特征信息,确定特征数据对应的标识信息;渲染引擎模块根据状态机发送的标识信息,从缓存池中获取特征数据。
在一些实施例中,在初始化的过程中,渲染引擎模块从面部模型库中读取多个特征数据,以JSON文本格式,将多个特征数据加载到缓存池。
在一些实施例中,语义引擎模块在用户发起语音交互的情况下,对用户语音进行语义分析和情感分析;根据分析结果,在问答库中确定回应文本,对回应文本进行情感分析或音素提取中的至少一项处理,确定特征信息。
在一些实施例中,BlendShape数据根据初始BlendShape数据和多个BlendShape数据分量的加权和确定。
根据本公开的又一些实施例,提供一种动态影像的生成装置,包括:存储器;和耦接至存储器的处理器,处理器被配置为基于存储在存储器装置中的指令,执行上述任一个实施例中的动态影像的生成方法。
根据本公开的再一些实施例,提供一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的动态影像的生成方法。
在上述实施例中,利用骨骼数据对BlendShape数据进行修正,能够基于BlendShape数据和骨骼数据共同实现表情的精准驱动,从而提高动态影像的效果。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开:
图1示出本公开的动态影像的生成方法的一些实施例的流程图;
图2示出本公开的动态影像的生成方法的另一些实施例的流程图;
图3示出本公开的动态影像的生成方法的一些实施例的示意图;
图4示出本公开的动态影像的生成装置的一些实施例的框图;
图5示出本公开的动态影像的生成装置的另一些实施例的框图;
图6示出本公开的动态影像的生成装置的又一些实施例的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
如前所述,智能驱动型数字人的驱动方式主要包括下面两种。
一种方式是在渲染引擎中事先内置好若干个BlendShape基本表情动画和基本口型动画;然后,通过语义引擎对用户的语音进行语音识别,判断要回答的文本内容;根据文本生成表情标签和口型标签,输入到渲染引擎进行动画调取和合成。这种方式的数字人驱动效果较为死板、僵硬,而且需要预先制作好大量的面部动画。如果对表情的细节要求高,甚至需要预先制作上百个动画,然后导入到渲染引擎中。如果需要对表情或口型进行扩展,则需要重新手动制作动画和导入动画,人工成本高,系统扩展性低。
另一种方式不需要渲染引擎中事先导入动画,而是语义引擎直接根据训练得到表情和口型的BlendShape系数,并向渲染引擎发送系数,渲染引擎进行实时接收和驱动。这种方法需要不断占用带宽发送数据,并且对训练得到的数据没有形成标准的表情库,存在大量重复数据,导致带宽资源占用高,数据复用性差,实时性也有所下降。
另外,BlendShape是通过使用一系列的顶点位移,使物体得到平顺的变形效果。单一使用BlendShape进行驱动,没有考虑到骨骼对数字人的影响,因此使得数字人驱动精度受到限制,真实感差。
单一使用骨骼进行驱动,需要在面部添加很多骨骼点,并且制作蒙皮。而且,要在细微处频繁调整表情中骨骼的位置,制作过程比较麻烦,并且如果骨骼数量过多,性能也会大量消耗。
也就是说,上述的几种方式存在如下的技术问题。
驱动精度低:单一使用BlendShape或是骨骼进行驱动,使得数字人驱动精度受到限制,导致数字人面部表情僵硬,缺乏动态变化和精准表达,真实感差。
资源开销大:基于训练的方法需要不断占用带宽发送数据,其中存在大量重复数据;并且基于动画的方法需要存储大量动画资产,导致带宽、硬件资源开销大,性能和实时性都有所下降。
系统扩展性差:基于动画的方法需要在渲染引擎中事先内置几种基本表情,在后期若要更改,则又要重新手工制作和导入,过程比较繁琐;基于训练的方法也没有对训练数据形成标准的表情库,导致系统扩展性差,人工成本高。
因此,如何精准、动态、高效地驱动数字人面部的动态微表情,为系统提出了更高的技术要求。
针对上述技术问题,本公开提出了一种基于随机权重的数字人动态微表情驱动技术方案。本公开的随机权重计算方法,基于状态机和阈值随机计算面部关键帧权重,并采用最小二乘法对关键帧进行平滑处理,实现微表情的动态表达;本公开的骨骼修正方法,基于BlendShape和骨骼加权实现表情精准驱动;本公开构建了面部模型库以存储基本表情,设置了模型ID以唯一标识不同表情和口型,基于JSON文本,实现了轻量化导入缓存池进行数据缓存,实现了数据的高效复用和扩展。
例如,可以通过如下的实施例实现本公开的技术方案。
图1示出本公开的动态影像的生成方法的一些实施例的流程图。
如图1所示,在步骤110中,根据用户语音,确定回应信息对应的特征信息。
在一些实施例中,在用户发起语音交互的情况下,对用户语音进行语义分析和情感分析;根据分析结果,在问答库中确定回应文本;对回应文本进行情感分析或音素提取中的至少一项处理,确定特征信息。
在步骤120中,根据特征信息,确定回应信息对应的特征数据,特征数据根据特征信息对应的BlendShape数据和骨骼数据确定。
在一些实施例中,在初始化的过程中,利用渲染引擎,从面部模型库中读取多个特征数据;利用渲染引擎,以JSON文本格式,将多个特征数据加载到缓存池。
例如,面部模型库能够对BlendShape进行骨骼修正处理,从而基于BlendShape和骨骼共同实现表情精准驱动。面部模型库负责还可以存储基本表情的文本数据、用于唯一标识不同表情和口型(即特征数据)的模型ID(即标识信息),从而实现数据的高效读取和复用。
在一些实施例中,利用语义引擎中的状态机,根据特征信息,确定特征数据对应的标识信息;利用渲染引擎,根据状态机发送的标识信息,从缓存池中获取特征数据。
例如,面部模型库包括口型数据库,口型数据库中的口型数据LIP的数据结构为[LipID,BlendShapeL,SkeletonL]。
LipID表示口型数据的口型ID,多个音素可以有同样的口型,即同一个口型ID。例如,音素“o”和“ao”口型类似,可以对应同一个LipID,从而在精准驱动的基础上,减小数据量。
BlendShapeL表示该口型数据对应的一组BlendShape系数(即第二BlendShape数据),SkeletonL表示口型数据对应的面部骨骼系数(即第二骨骼数据)。
例如,面部模型库包括表情数据库,表情数据库中的表情数据Emotion的数据结构为[EmoID,BlendShapeE,SkeletonE]。
EmoID表示表情数据的表情ID。例如,EmoID=0表示微笑,EmoID=1表示大笑,EmoID=2表示忧伤,EmoID=3表示恐惧,EmoID=4表示愤怒等,支持扩展。
BlendShapeE表示表情数据对应的一组BlendShape系数(即第一BlendShape数据),SkeletonE表示表情数据对应的面部骨骼系数(即第一骨骼数据)。
在一些实施例中,BlendShape数据根据初始BlendShape数据和多个BlendShape数据分量的加权和确定。
例如,BlendShapeE数据包括一组组成整体表情基准(或表情分量),某一时刻下的人脸表情e的BlendShapeE数据为这组表情分量的线性加权:
BlendShapeE=BE×dbE+bbE
BE是一组表情基准,dbE是对应的权重系数,bbE是初始表情(如区别于负性表情和正性表情的中性表情)。
在一些实施例中,骨骼数据根据初始骨骼数据和多个骨骼数据分量的加权和确定。
例如,随着BlendShapeE数据的变化,数字人的骨骼数据也应该相应变化,如在数字人说话时,下巴和脸部相关的骨骼点也发生位移。因此需要对BlendShapeE数据进行骨骼修正处理,从而使驱动效果更加精准和真实。骨骼修正处理后的人脸表情e为:
e=BlendShapeE+SkeletonE=(BE×dbE+bbE)+(SE×dSE+bSE)
SE是一组骨骼基准(或骨骼分量),dSE是对应的骨骼系数(即权重系数),bSE是初始骨骼(如区别于负性骨骼和正性骨骼的中性骨骼)。骨骼系数表示表情从中性骨骼变化到目标骨骼的一组骨骼分量的线性混合系数。
例如,骨骼修正处理后的口型l为:
l=BlendShapeL+SkeletonL=(BL×dbL+bbL)+(SL×dSL+bSL)
BL是一组表情基准,dbL是对应的权重系数,bbL是初始表情(如区别于负性表情和正性表情的中性表情),SL是一组骨骼基准(或骨骼分量),dSL是对应的骨骼系数(即权重系数),bSL是初始骨骼(如区别于负性骨骼和正性骨骼的中性骨骼)。骨骼系数表示口型从中性骨骼变化到目标骨骼的一组骨骼分量的线性混合系数。
在一些实施例中,特征信息包括情绪信息或发音信息中的至少一项,特征数据包括表情数据或口型数据中的至少一项。例如,根据情绪信息,确定表情数据。表情数据根据情绪信息对应的第一BlendShape数据和第一骨骼数据确定。例如,根据发音信息,确定口型数据,口型数据根据发音信息对应的第二BlendShape数据和第二骨骼数据确定。
例如,语义引擎识别用户语音,输出数字人回答音频;语义引擎的状态机,根据数字人回答文本的情绪,输出对应的表情数据的EmoID和初始权重Weight。由于数字人的情绪不是固定不变的,因此状态机还输出表情数据的TimeStamp(时间戳),以保证不同微表情的变化。状态机根据数字人回答文本的音素,输出对应的口型数据的LipID和初始权重Weight。由于数字人每个字的发音不是相同频率的,因此状态机还输出口型数据的TimeStamp,以保证口型和音频的同步。
在步骤130中,根据特征数据,生成回应信息对应的动态影像。
在一些实施例中,对相邻关键帧对应的加权后的特征数据进行平滑处理,以生成相邻关键帧之间的非关键帧;根据关键帧和非关键帧及其时间戳,按照时间顺序生成动态影像。
在一些实施例中,渲染引擎在缓存池缓存面部模型库的数据;根据随机权重计算方法,基于阈值随机计算面部模型的实际权重,实现微表情的动态表达;根据实际权重进行驱动数据的平滑处理,并将表情和口型数据进行融合,实现数字人整体面部的驱动;同步播放语音。
例如,可以通过图2中的实施例计算实际权重。
图2示出本公开的动态影像的生成方法的另一些实施例的流程图。
如图2所示,在步骤210中,根据特征信息,确定特征数据的初始权重。
在一些实施例中,以表情数据为例,语义引擎的状态机向渲染引擎发送表情数据的EmoID、初始权重W和时间戳TS;渲染引擎的随机权重计算模块,根据EmoID匹配缓存池中对应的表情数据e,反映数字人的基本情绪:
e=BlendShapeE+SkeletonE=(BE×dbE+bbE)+(SE×dSE+bSE)
在步骤220中,在根据初始权重和阈值确定的取值范围内,分别随机生成多个关键帧的对应时刻的实际权重。
例如,取值范围包括大于初始权重与阈值之差且小于初始权重与阈值之和的值。
在一些实施例中,根据特征信息,确定特征数据的时间戳;生成时间戳的对应时刻的实际权重。
例如,数字人的表情不应是静止僵硬、一成不变的,因此随机权重计算模块配置有阈值T,作为增量反映数字人表情的动态变化范围;随机权重计算模块计算最大权重W+T和最小权重W-T,并每隔时间间隔I生成一个随机数R作为实际权重:
W-T<R<W+T
在步骤230中,利用多个实际权重分别对特征数据进行加权,以生成多个关键帧。
例如,R的范围在最大权重和最小权重之间,作为新的表情权重对e进行加权,生成关键帧的表情数据:
e(I)=[(BE×dbE+bbE)+(SE×dSE+bSE)}]×R
在步骤240中,根据多个关键帧,生成动态影像。
例如,对于相邻的两个关键帧的表情数据e(I)和e(J),采用最小二乘法对表情数据进行平滑处理,得到非关键帧的表情数据;将表情和口型数据进行融合,并按照时间戳TS,实现数字人整体面部的动态驱动。
上述实施例中,随机权重计算方法可以通过随机数实现微表情的动态生成,不需预先制作上百种表情动画,也不需要语义引擎实时发送大量的驱动数据。从而,实现数字人在满足基本情绪的基础上,表情能够随时间在一定范围内发生动态变化,给用户带来真实感,提高动态影像的准确性和真实性。
图3示出本公开的动态影像的生成方法的一些实施例的示意图。
如图3所示,面部模型库用于实现骨骼修正,能够对BlendShape进行骨骼修正处理,从而基于BlendShape和骨骼共同实现表情精准驱动。面部模型库负责还可以存储基本表情的文本数据、用于唯一标识不同表情和口型(即特征数据)的模型ID(即标识信息),从而实现数据的高效读取和复用。
例如,面部模型库的口型数据库设计如下:口型数据LIP的数据结构为[LipID,BlendShapeL,SkeletonL];LipID表示口型数据的口型ID,多个音素可以有同样的口型,即同一个口型ID。例如,音素“o”和“ao”口型类似,可以对应同一个LipID,从而在精准驱动的基础上,减小数据量;BlendShapeL表示该口型数据对应的一组BlendShape系数(即第二BlendShape数据),SkeletonL表示口型数据对应的面部骨骼系数(即第二骨骼数据)。
例如,面部模型库的表情数据库设计如下:表情数据Emotion的数据结构为[EmoID,BlendShapeE,SkeletonE];EmoID表示表情数据的表情ID。例如,EmoID=0表示微笑,EmoID=1表示大笑,EmoID=2表示忧伤,EmoID=3表示恐惧,EmoID=4表示愤怒等,支持扩展;BlendShapeE表示表情数据对应的一组BlendShape系数(即第一BlendShape数据),SkeletonE表示表情数据对应的面部骨骼系数(即第一骨骼数据)。
例如,BlendShapeE数据包括一组组成整体表情基准(或表情分量),某一时刻下的人脸表情e的BlendShapeE数据为这组表情分量的线性加权:
BlendShapeE=BE×dbE+bbE
BE是一组表情基准,dbE是对应的权重系数,bbE是初始表情(如区别于负性表情和正性表情的中性表情)。
例如,随着BlendShapeE数据的变化,数字人的骨骼数据也应该相应变化,如在数字人说话时,下巴和脸部相关的骨骼点也发生位移。因此需要对BlendShapeE数据进行骨骼修正处理,从而使驱动效果更加精准和真实。骨骼修正处理后的人脸表情e为:
e=BlendShapeE+SkeletonE=(BE×dbE+bbE)+(SE×dSE+bSE)
SE是一组骨骼基准(或骨骼分量),dSE是对应的骨骼系数(即权重系数),bSE是初始骨骼(如区别于负性骨骼和正性骨骼的中性骨骼)。骨骼系数表示表情从中性骨骼变化到目标骨骼的一组骨骼分量的线性混合系数。
例如,骨骼修正处理后的口型l为:
l=BlendShapeL+SkeletonL=(BL×dbL+bbL)+(SL×dSL+bSL)
BL是一组表情基准,dbL是对应的权重系数,bbL是初始表情(如区别于负性表情和正性表情的中性表情),SL是一组骨骼基准(或骨骼分量),dSL是对应的骨骼系数(即权重系数),bSL是初始骨骼(如区别于负性骨骼和正性骨骼的中性骨骼)。骨骼系数表示口型从中性骨骼变化到目标骨骼的一组骨骼分量的线性混合系数。
例如,语义引擎识别用户语音,输出数字人回答音频;语义引擎的状态机,根据数字人回答文本的情绪,输出对应的表情数据的EmoID和初始权重Weight。由于数字人的情绪不是固定不变的,因此状态机还输出表情数据的TimeStamp(时间戳),以保证不同微表情的变化。状态机根据数字人回答文本的音素,输出对应的口型数据的LipID和初始权重Weight。由于数字人每个字的发音不是相同频率的,因此状态机还输出口型数据的TimeStamp,以保证口型和音频的同步。
在一些实施例中,渲染引擎在缓存池缓存面部模型库的数据;根据随机权重计算方法,基于阈值随机计算面部模型的实际权重,实现微表情的动态表达;根据实际权重进行驱动数据的平滑处理,并将表情和口型数据进行融合,实现数字人整体面部的驱动;同步播放语音。
在一些实施例中,以表情数据为例,语义引擎的状态机向渲染引擎发送表情数据的EmoID、初始权重W和时间戳TS;渲染引擎的随机权重计算模块,根据EmoID匹配缓存池中对应的表情数据e,反映数字人的基本情绪:
e=BlendShapeE+SkeletonE=(BE×dbE+bbE)+(SE×dSE+bSE)
例如,数字人的表情不应是静止僵硬、一成不变的,因此随机权重计算模块配置有阈值T,作为增量反映数字人表情的动态变化范围;随机权重计算模块计算最大权重W+T和最小权重W-T,并每隔时间间隔I生成一个随机数R作为实际权重:
W-T<R<W+T
例如,R的范围在最大权重和最小权重之间,作为新的表情权重对e进行加权,生成关键帧的表情数据:
e(I)=[(BE×dbE+bbE)+(SE×dSE+bSE)}]×R
例如,对于相邻的两个关键帧的表情数据e(I)和e(J),采用最小二乘法对表情数据进行平滑处理,得到非关键帧的表情数据;将表情和口型数据进行融合,并按照时间戳TS,实现数字人整体面部的动态驱动。
在一些实施例中,数字人智能驱动交互流程如下。
在步骤1中,设置基本表情、基本口型的BlendShape数据模型。每个基本数据模型由模型ID唯一标识。
在步骤2中,执行骨骼修正处理,向数据模型中增加骨骼点的系数,形成修正后的面部模型文本。
在步骤3中,渲染引擎初始化时读取面部模型库,将数据以JSON文本格式加载至缓存池缓存。
在步骤4中,当用户向数字人发起语音交互时,语音识别模块进行用户语义及情感分析。
在步骤5中,回答文本模块存有智能问答库,根据用户语义和情感得到对应的回答文本。
在步骤6中,自然语言处理模块对回答文本进行情感分析和音素提取。
在步骤7中,语音合成模块将分词后的回答文本合成为音频数据。
在步骤8中,状态机将表情ID或口型ID、权重、时间戳、音频等数据发送到渲染引擎。
在步骤9中,随机权重计算模块根据ID匹配缓存池中对应的基本模型,基于随机数生成关键帧。
在步骤10中,平滑处理模块基于最小二乘法对关键帧进行平滑处理。
在步骤11中,表情融合模块将表情和口型数据进行融合,并按照时间戳实现动态驱动。
上述实施例中,提出了随机权重计算方法,基于状态机和阈值随机计算面部关键帧权重,并采用最小二乘法对关键帧进行平滑处理,实现微表情的动态表达;提出骨骼修正规则,基于BlendShape和骨骼加权实现表情精准驱动,从而提升数字人真实感和驱动精度。
利用缓存池存储面部基本数据,利用随机权重计算方法实现动态微表情,不需占用带宽发送大量重复数据,也不需大量存储动画资产,减少带宽、硬件资源的额外开销,提高性能和实时性,降低资源开销。
构建面部模型库存储基本表情,模型ID唯一标识不同表情和口型,基于JSON文本轻量化导入缓存池进行数据缓存,实现数据的高效复用和扩展。不需要在渲染引擎中事先内置基本口型和基本表情,提高系统扩展性,降低人工成本。
图4示出本公开的动态影像的生成装置的一些实施例的框图。
如图4所示,动态影像的生成装置4包括:语义引擎模块41,用于根据用户语音,确定回应信息对应的特征信息,根据特征信息,确定回应信息对应的特征数据,特征数据根据特征信息对应的BlendShape数据和骨骼数据确定;渲染引擎模块42,用于根据特征数据,生成回应信息对应的动态影像。
在一些实施例中,生成装置4还包括:面部模型库43,用于存储多个特征数据。
在一些实施例中,特征信息包括情绪信息或发音信息中的至少一项,特征数据包括表情数据或口型数据中的至少一项,语义引擎模块41执行下面的至少一项:根据情绪信息,确定表情数据,表情数据根据情绪信息对应的第一BlendShape数据和第一骨骼数据确定;或者,根据发音信息,确定口型数据,口型数据根据发音信息对应的第二BlendShape数据和第二骨骼数据确定。
在一些实施例中,骨骼数据根据初始骨骼数据和多个骨骼数据分量的加权和确定。
在一些实施例中,语义引擎模块41根据特征信息,确定特征数据的初始权重;渲染引擎模块42在根据初始权重和阈值确定的取值范围内,分别随机生成多个关键帧的对应时刻的实际权重,利用多个实际权重分别对特征数据进行加权,以生成多个关键帧;根据多个关键帧,生成动态影像。
在一些实施例中,取值范围包括大于初始权重与阈值之差且小于初始权重与阈值之和的值。
在一些实施例中,渲染引擎模块42对相邻关键帧对应的加权后的特征数据进行平滑处理,以生成相邻关键帧之间的非关键帧;根据关键帧和非关键帧及其时间戳,按照时间顺序生成动态影像。
在一些实施例中,语义引擎模块41根据特征信息,确定特征数据的时间戳;渲染引擎模块生成时间戳的对应时刻的实际权重。
在一些实施例中,语义引擎模块41利用其中的状态机,根据特征信息,确定特征数据对应的标识信息;渲染引擎模块42根据状态机发送的标识信息,从缓存池中获取特征数据。
在一些实施例中,在初始化的过程中,渲染引擎模块42从面部模型库中读取多个特征数据,以JSON文本格式,将多个特征数据加载到缓存池。
在一些实施例中,语义引擎模块42在用户发起语音交互的情况下,对用户语音进行语义分析和情感分析;根据分析结果,在问答库中确定回应文本,对回应文本进行情感分析或音素提取中的至少一项处理,确定特征信息。
在一些实施例中,BlendShape数据根据初始BlendShape数据和多个BlendShape数据分量的加权和确定。
图5示出本公开的动态影像的生成装置的另一些实施例的框图。
如图5所示,该实施例的装置5包括:存储器51以及耦接至该存储器51的处理器52,处理器52被配置为基于存储在存储器51中的指令,执行本公开中任意一个实施例中的动态影像的生成方法。
其中,存储器51例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序Boot Loader、数据库以及其他程序等。
图6示出本公开的动态影像的生成装置的又一些实施例的框图。
如图6所示,该实施例的动态影像的生成装置6包括:存储器610以及耦接至该存储器610的处理器620,处理器620被配置为基于存储在存储器610中的指令,执行前述任意一个实施例中的动态影像的生成方法。
存储器610例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序Boot Loader以及其他程序等。
动态影像的生成装置6还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630、640、650以及存储器610和处理器620之间例如可以通过总线660连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏、麦克、音箱等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质包括但不限于磁盘存储器、CD-ROM、光学存储器等上实施的计算机程序产品的形式。
至此,已经详细描述了根据本公开的动态影像的生成方法、动态影像的生成装置和非易失性计算机可读存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims (15)

1.一种动态影像的生成方法,包括:
根据用户语音,确定回应信息对应的特征信息;
根据所述特征信息,确定所述回应信息对应的特征数据,所述特征数据根据所述特征信息对应的混合形状BlendShape数据和骨骼数据确定;
根据所述特征数据,生成所述回应信息对应的动态影像。
2.根据权利要求1所述的生成方法,其中,所述特征信息包括情绪信息或发音信息中的至少一项,所述特征数据包括表情数据或口型数据中的至少一项,
所述根据所述特征信息,确定所述回应信息对应的特征数据包括下面的至少一项:
根据所述情绪信息,确定所述表情数据,所述表情数据根据所述情绪信息对应的第一BlendShape数据和第一骨骼数据确定;或者
根据所述发音信息,确定所述口型数据,所述口型数据根据所述发音信息对应的第二BlendShape数据和第二骨骼数据确定。
3.根据权利要求1所述的生成方法,其中,所述骨骼数据根据初始骨骼数据和多个骨骼数据分量的加权和确定。
4.根据权利要求1所述的生成方法,还包括:
根据所述特征信息,确定所述特征数据的初始权重;
其中,所述根据所述特征数据,生成所述回应信息对应的动态影像包括:
在根据所述初始权重和阈值确定的取值范围内,分别随机生成多个关键帧的对应时刻的实际权重;
利用多个实际权重分别对所述特征数据进行加权,以生成所述多个关键帧;
根据所述多个关键帧,生成所述动态影像。
5.根据权利要求4所述的生成方法,其中,取值范围包括大于所述初始权重与所述阈值之差且小于所述初始权重与所述阈值之和的值。
6.根据权利要求4所述的生成方法,其中,所述根据所述多个关键帧,生成所述动态影像包括:
对相邻关键帧对应的加权后的特征数据进行平滑处理,以生成所述相邻关键帧之间的非关键帧;
根据关键帧和非关键帧及其时间戳,按照时间顺序生成所述动态影像。
7.根据权利要求4所述的生成方法,还包括:
根据所述特征信息,确定所述特征数据的时间戳;
其中,所述在根据所述初始权重和阈值确定的取值范围内,分别随机生成多个关键帧的对应时刻的实际权重包括:
生成所述时间戳的对应时刻的实际权重。
8.根据权利要求1所述的生成方法,其中,所述根据所述特征信息,确定所述回应信息对应的特征数据包括:
利用语义引擎中的状态机,根据所述特征信息,确定所述特征数据对应的标识信息;
利用渲染引擎,根据状态机发送的所述标识信息,从缓存池中获取所述特征数据。
9.根据权利要求8所述的生成方法,还包括:
在初始化的过程中,利用所述渲染引擎,从面部模型库中读取多个特征数据;
利用所述渲染引擎,以JSON文本格式,将所述多个特征数据加载到所述缓存池。
10.根据权利要求1-9任一项所述的生成方法,其中,根据用户语音,确定回应信息对应的特征信息包括:
在用户发起语音交互的情况下,对所述用户语音进行语义分析和情感分析;
根据分析结果,在问答库中确定回应文本;
对所述回应文本进行情感分析或音素提取中的至少一项处理,确定所述特征信息。
11.根据权利要求1-9任一项所述的生成方法,其中,所述BlendShape数据根据初始BlendShape数据和多个BlendShape数据分量的加权和确定。
12.一种动态影像的生成装置,包括:
语义引擎模块,用于根据用户语音,确定回应信息对应的特征信息,根据所述特征信息,确定所述回应信息对应的特征数据,所述特征数据根据所述特征信息对应的混合形状BlendShape数据和骨骼数据确定;
渲染引擎模块,用于根据所述特征数据,生成所述回应信息对应的动态影像。
13.根据权利要求12所述的生成装置,还包括:
面部模型库,用于存储多个特征数据。
14.一种动态影像的生成装置,包括:
存储器;和
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1-11任一项所述的动态影像的生成方法。
15.一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-11任一项所述的动态影像的生成方法。
CN202211141405.8A 2022-09-20 2022-09-20 动态影像的生成方法和装置 Pending CN115529500A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211141405.8A CN115529500A (zh) 2022-09-20 2022-09-20 动态影像的生成方法和装置
PCT/CN2023/112565 WO2024060873A1 (zh) 2022-09-20 2023-08-11 动态影像的生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211141405.8A CN115529500A (zh) 2022-09-20 2022-09-20 动态影像的生成方法和装置

Publications (1)

Publication Number Publication Date
CN115529500A true CN115529500A (zh) 2022-12-27

Family

ID=84697278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211141405.8A Pending CN115529500A (zh) 2022-09-20 2022-09-20 动态影像的生成方法和装置

Country Status (2)

Country Link
CN (1) CN115529500A (zh)
WO (1) WO2024060873A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024060873A1 (zh) * 2022-09-20 2024-03-28 中国电信股份有限公司 动态影像的生成方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292427A (zh) * 2020-03-06 2020-06-16 腾讯科技(深圳)有限公司 骨骼位移信息获取方法、装置、设备及存储介质
CN111445561A (zh) * 2020-03-25 2020-07-24 北京百度网讯科技有限公司 虚拟对象的处理方法、装置、设备及存储介质
CN111443852A (zh) * 2020-03-25 2020-07-24 北京百度网讯科技有限公司 一种数字人动作的控制方法、装置、电子设备及存储介质
CN112270734A (zh) * 2020-10-19 2021-01-26 北京大米科技有限公司 一种动画生成方法、可读存储介质和电子设备
CN113538636A (zh) * 2021-09-15 2021-10-22 中国传媒大学 一种虚拟对象的控制方法、装置、电子设备及介质
CN113763518A (zh) * 2021-09-09 2021-12-07 北京顺天立安科技有限公司 基于虚拟数字人的多模态无限表情合成方法及装置
CN113822967A (zh) * 2021-02-09 2021-12-21 北京沃东天骏信息技术有限公司 人机交互方法、装置、系统、电子设备以及计算机介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8743125B2 (en) * 2008-03-11 2014-06-03 Sony Computer Entertainment Inc. Method and apparatus for providing natural facial animation
CN113781610B (zh) * 2021-06-28 2023-08-22 武汉大学 一种虚拟人脸的生成方法
CN113643413A (zh) * 2021-08-30 2021-11-12 北京沃东天骏信息技术有限公司 动画处理方法、装置、介质及电子设备
CN114219880A (zh) * 2021-12-16 2022-03-22 网易(杭州)网络有限公司 一种生成表情动画的方法和装置
CN115529500A (zh) * 2022-09-20 2022-12-27 中国电信股份有限公司 动态影像的生成方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292427A (zh) * 2020-03-06 2020-06-16 腾讯科技(深圳)有限公司 骨骼位移信息获取方法、装置、设备及存储介质
CN111445561A (zh) * 2020-03-25 2020-07-24 北京百度网讯科技有限公司 虚拟对象的处理方法、装置、设备及存储介质
CN111443852A (zh) * 2020-03-25 2020-07-24 北京百度网讯科技有限公司 一种数字人动作的控制方法、装置、电子设备及存储介质
CN112270734A (zh) * 2020-10-19 2021-01-26 北京大米科技有限公司 一种动画生成方法、可读存储介质和电子设备
CN113822967A (zh) * 2021-02-09 2021-12-21 北京沃东天骏信息技术有限公司 人机交互方法、装置、系统、电子设备以及计算机介质
CN113763518A (zh) * 2021-09-09 2021-12-07 北京顺天立安科技有限公司 基于虚拟数字人的多模态无限表情合成方法及装置
CN113538636A (zh) * 2021-09-15 2021-10-22 中国传媒大学 一种虚拟对象的控制方法、装置、电子设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘洁: "基于双相机捕获面部表情及人体姿态生成三维虚拟人动画", 计算机应用, 26 January 2021 (2021-01-26), pages 842 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024060873A1 (zh) * 2022-09-20 2024-03-28 中国电信股份有限公司 动态影像的生成方法和装置

Also Published As

Publication number Publication date
WO2024060873A1 (zh) 2024-03-28

Similar Documents

Publication Publication Date Title
WO2022116977A1 (zh) 目标对象的动作驱动方法、装置、设备及存储介质及计算机程序产品
Cao et al. Expressive speech-driven facial animation
WO2021248473A1 (en) Personalized speech-to-video with three-dimensional (3d) skeleton regularization and expressive body poses
US7933772B1 (en) System and method for triphone-based unit selection for visual speech synthesis
CN113077537B (zh) 一种视频生成方法、存储介质及设备
CN111325817A (zh) 一种虚拟人物场景视频的生成方法、终端设备及介质
CN113870395A (zh) 动画视频生成方法、装置、设备及存储介质
JP2023552854A (ja) ヒューマンコンピュータインタラクション方法、装置、システム、電子機器、コンピュータ可読媒体及びプログラム
CN114363531B (zh) 基于h5的文案解说视频生成方法、装置、设备以及介质
CN115497448A (zh) 语音动画的合成方法、装置、电子设备及存储介质
Mattos et al. Improving CNN-based viseme recognition using synthetic data
CN114255737B (zh) 语音生成方法、装置、电子设备
WO2024060873A1 (zh) 动态影像的生成方法和装置
Kacorri TR-2015001: A survey and critique of facial expression synthesis in sign language animation
CN117152308B (zh) 一种虚拟人动作表情优化方法与系统
CN114581570B (zh) 一种三维脸部动作生成方法和系统
CN116310004A (zh) 虚拟人授课动画生成方法、装置、计算机设备和存储介质
CN116528015A (zh) 数字人视频的生成方法、装置、电子设备和存储介质
CN116561294A (zh) 手语视频的生成方法、装置、计算机设备及存储介质
CN115171673A (zh) 一种基于角色画像的交流辅助方法、装置及存储介质
CN114898019A (zh) 一种动画融合方法和装置
Kolivand et al. Realistic lip syncing for virtual character using common viseme set
CN115731917A (zh) 语音数据处理方法、模型训练方法、装置及存储介质
CN116580721B (zh) 表情动画的生成方法、装置和数字人平台
Fanelli et al. Acquisition of a 3d audio-visual corpus of affective speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination