CN112652041A - 虚拟形象的生成方法、装置、存储介质及电子设备 - Google Patents

虚拟形象的生成方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN112652041A
CN112652041A CN202011513932.8A CN202011513932A CN112652041A CN 112652041 A CN112652041 A CN 112652041A CN 202011513932 A CN202011513932 A CN 202011513932A CN 112652041 A CN112652041 A CN 112652041A
Authority
CN
China
Prior art keywords
blink
time
video
generating
avatar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011513932.8A
Other languages
English (en)
Other versions
CN112652041B (zh
Inventor
雷超兵
赵明瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dami Technology Co Ltd
Original Assignee
Beijing Dami Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dami Technology Co Ltd filed Critical Beijing Dami Technology Co Ltd
Priority to CN202011513932.8A priority Critical patent/CN112652041B/zh
Publication of CN112652041A publication Critical patent/CN112652041A/zh
Application granted granted Critical
Publication of CN112652041B publication Critical patent/CN112652041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Ophthalmology & Optometry (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请公开了一种虚拟形象的生成方法、装置、存储介质及电子设备,属于图像处理技术领域。所述虚拟形象的生成方法包括:获取目标对象的基础虚拟形象视频,确定所述基础虚拟形象视频的持续时间段内的眨眼特性信息,根据所述眨眼特性信息和所述基础虚拟形象视频生成具有眨眼特性的最终虚拟形象视频。故本申请通过在生成基础虚拟形象的基础上添加了眨眼变化模型,解决现有技术生成的虚拟人物普遍存在不会眨眼、缺乏真实感等的问题。

Description

虚拟形象的生成方法、装置、存储介质及电子设备
技术领域
本发明涉及图像处理技术领域,具体涉及一种虚拟形象的生成方法、装置、存储介质及电子设备。
背景技术
虚拟人物是指在现实中不存在的人物,它可以存在于电视剧、漫画、游戏等创作作品中,是在电视剧、漫画、游戏等创作性作品中虚构的人物。合成虚拟人物通常可以采用三维扫描、基于音频数据等方法生成人脸关键点,再按照需求合成所需的虚拟人物形象。目前虚拟人物的生成方案普遍使用先从语音生成人脸关键点,再从关键点生成虚拟人物人脸,但是目前生成的虚拟人物普遍存在不会眨眼等问题,缺乏真实感。因此如何通过增加控制信号的形式来生成能够按需眨眼的虚拟人物形象是目前亟待解决的问题。
发明内容
本申请实施例提供了一种虚拟形象的生成方法、装置、存储介质及电子设备,通过添加眨眼变化模型,解决现有技术生成的虚拟人物普遍存在不会眨眼、缺乏真实感等的问题。所述技术方案如下:
第一方面,本申请实施例提供了一种虚拟形象的生成方法,包括:
获取目标对象的基础虚拟形象视频;
确定所述基础虚拟形象视频的持续时间段内的眨眼特性信息;
根据所述眨眼特性信息和所述基础虚拟形象视频生成具有眨眼特性的最终虚拟形象视频。
第二方面,本申请实施例提供了一种虚拟形象的生成装置,所述装置包括:
获取模块,用于获取目标对象的基础虚拟形象视频;
确定模块,用于确定所述基础虚拟形象视频的持续时间段内的眨眼特性信息;
生成模块,用于根据所述眨眼特性信息和所述基础虚拟形象视频生成具有眨眼特性的最终虚拟形象视频。
第三方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供了一种电子设备,包括:存储器和处理器;其中,所述存储器存储有计算机程序,所述计算机程序适用于由所述处理器加载并执行上述的方法步骤。
本申请一些实施例提供的技术方案带来的有益效果至少包括:
上述虚拟形象的生成方法、装置、存储介质及电子设备工作时,获取目标对象的基础虚拟形象视频,确定所述基础虚拟形象视频的持续时间段内的眨眼特性信息,根据所述眨眼特性信息和所述基础虚拟形象视频生成具有眨眼特性的最终虚拟形象视频。本申请实施例通过在生成基础虚拟形象的基础上添加了眨眼变化模型,解决现有技术生成的虚拟人物普遍存在不会眨眼、缺乏真实感等的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种通信系统架构示意图;
图2是本申请实施例提供的一种虚拟形象的生成方法的流程示意图;
图3是本申请实施例提供的一种虚拟形象的生成方法的另一流程示意图;
图4是本申请实施例提供的一种虚拟形象的生成装置的结构示意图;
图5是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
下面的描述设计附图时,除非另有表示,不同附图中的相同数字表示相同的或相似的要素。以下示例性实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
为了解决上述提到的现有技术中基于输入音频数据,实现对虚拟形象的合成(例如根据声音生成嘴唇动作,以模仿说话动作),现有生成的虚拟形象不够真实,不能眨眼,降低了互动体验的问题,特提出了一种虚拟形象的生成方法,本申请实施例方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系且安装有摄像头或可旋转摄像头的计算机系统上。该计算机系统可以是智能手机、笔记本电脑、平板电脑等设备的计算机系统。
图1为本申请提供的一种通信系统架构示意图。
请参见图1,通信系统01包括终端设备101、网络设备102、服务器103;当通信系统01包括核心网时,该网络设备102还可以与核心网相连。网络设备102还可以与互联网协议(Internet Protocol,IP)网络进行通信,例如,因特网(internet),私有的IP网,或其它数据网等。网络设备102为覆盖范围内的终端设备101和服务器103提供服务。用户可以使用终端设备101通过网络设备102与服务器103交互,以接收或发送消息等,终端设备101可以安装有各种通讯客户端应用,例如语音交互类应用、动画制作类应用等,服务器103可以是存储了本申请实施例提供的虚拟形象生成方法以及提供各种服务的服务器,用于对终端设备101上传的音频数据、视频数据、算法模型等文件进行存储和处理,并将处理结果发送给终端设备101。
在下述方法实施例中,为了便于说明,仅以各步骤的执行主体为计算机进行介绍说明。
下面将结合附图2至图3,对本申请实施例提供的虚拟形象的生成方法进行详细介绍。
请参见图2,为本申请实施例提供了一种虚拟形象的生成方法的流程示意图。所述方法可以包括以下步骤:
S201、获取目标对象的基础虚拟形象视频。
一般的,计算机对音频数据进行特征提取得到声音特征,通过人脸关键点生成模型对所述声音特征进行处理得到人脸关键点特征,根据所述人脸关键点特征生成基础虚拟形象视频。其中,所述基础虚拟形象视频中的虚拟形象在讲话时嘴部动,不具有眨眼动作。
S202、确定所述基础虚拟形象视频的持续时间段内的眨眼特性信息。
一般的,所述眨眼特性信息表示所述持续时间段内的多个眨眼时刻,以及各个眨眼时刻的眨眼时长和人眼开合距离。所述多个眨眼时刻在所述持续时间段内呈周期分布,所述各个眨眼时刻的眨眼时长和人眼开合距离呈随机分布。计算机在获取目标对象的基础虚拟形象视频之后,统计多个视频素材的眨眼频率得到平均眨眼频率,根据所述多个视频素材在各个眨眼时刻、各眨眼时长内的人眼开合距离拟合出人眼眨眼变化模型。然后计算机对所述基础虚拟形象视频对应的音频数据进行语音识别处理得到文本数据,通过自然语言处理NLP模型在所述文本数据中提取预设关键词,将各个预设关键词的出现时刻确定为眨眼时刻,识别出所述各个预设关键词的语调,根据所述语调确定眨眼时长和人眼开合距离,基于所述眨眼时刻、所述眨眼时长和所述人眼开合距离生成眨眼特性信息。在一个实施例中,计算机还可以根据预设的平均眨眼频率在所述持续时间区间内确定多个初始的眨眼时刻,为所述多个初始的眨眼时刻增加随机时长得到所述持续时间区间内的多个最终的眨眼时刻,根据所述人眼眨眼变化模型生成各个眨眼时刻的眨眼时长和人眼开合距离,基于所述多个最终的眨眼时刻、所述眨眼时长和所述人眼开合距离生成眨眼特性信息。
S203、根据所述眨眼特性信息和所述基础虚拟形象视频生成具有眨眼特性的最终虚拟形象视频。
一般的,计算机确定所述基础虚拟形象视频的持续时间段内的眨眼特性信息后,确定所述基础虚拟形象视频的多个眨眼时刻,获取各个眨眼时刻的眨眼时长和人眼开合距离,将各个眨眼时长内的基础虚拟形象视频分割为连续帧图像,基于所述人眼开合距离对所述连续帧图像中的眼部关键点进行变换处理得到变换结果,基于所述变换结果生成具有眨眼特性的最终虚拟形象视频。
由上述内容可知,获取目标对象的基础虚拟形象视频,确定所述基础虚拟形象视频的持续时间段内的眨眼特性信息,其中,所述眨眼特性信息表示所述持续时间段内的多个眨眼时刻,以及各个眨眼时刻的眨眼时长和人眼开合距离,根据所述眨眼特性信息和所述基础虚拟形象视频生成具有眨眼特性的最终虚拟形象视频。本申请实施例通过在生成基础虚拟形象的基础上添加了眨眼变化模型,解决现有技术生成的虚拟人物普遍存在不会眨眼、缺乏真实感等的问题。
请参见图3,为本申请实施例提供了一种虚拟形象的生成方法的另一流程示意图。该虚拟形象的生成方法可以包括以下步骤:
S301、对音频数据进行特征提取得到声音特征。
一般的,声音特征是表示语音声学特性的物理量,也是声音诸要素声学表现的统称,例如:表示音色的能量集中区、共振峰频率、共振峰强度和带宽,以及表示语音韵律特性的时长、基频、平均语声功率等。一般的声音特征包括梅尔频率倒谱系数(Mel-scaleFrequency Cepstral Cofficients,MFCC)特征、梅尔滤波器组(Mel Filter Bank,MFB)特征、频谱子带质心(Spectral Subband Centroid,SSC)特征等。计算机基于预设帧率计算在所述音频数据的时间区间上的中心位置,遍历所述时间区间提取所述中心位置前后预设长度的子时间区间内的梅尔倒谱系数MFCC声音特征,对所述MFCC声音特征进行处理得到声音特征,例如:生成一帧图像的声音特征用向量表示维度为(1,256),则将N帧的所述声音特征进行叠加得到维度为(N,256)的声音特征,其中N为大于1的整数。
S302、通过人脸关键点生成模型对所述声音特征进行处理得到人脸关键点特征,根据所述人脸关键点特征生成基础虚拟形象视频。
一般的,人脸关键点特征是指人脸关键点坐标信息特征,例如:81个人脸关键点坐标或者68个人脸关键点坐标。人脸关键点生成模型是指能检测识别人脸关键点坐标信息的神经网络。计算机得到声音特征后,通过单层全连接网络对所述人脸关键点相关特征进行处理得到人脸关键点特征,其中,所述人脸关键点特征包括序列大小与音频数据长度关联参数、人脸关键点个数和对应坐标等信息,例如:计算机生成一帧图像的68个人脸关键点坐标信息((73,25),(85,30),(90,34),...)。然后计算机根据所述人脸关键点特征生成基础虚拟形象视频,即将连续帧图像进行组合生成预设帧率、格式等的视频。
S303、统计多个视频素材的眨眼频率得到平均眨眼频率。
一般的,计算机生成基础虚拟形象视频后,统计多个视频素材的眨眼频率得到平均眨眼频率,例如:计算机统计五个视频素材确定每个视频素材的眨眼频率为13次每分钟、14次每分钟、15次每分钟、16次每分钟和17次每分钟,则平均眨眼频率为15次每分钟。计算机可以通过眼部关键点的开合距离来判断是否眨眼。
S304、根据所述多个视频素材在各个眨眼时刻、各眨眼时长内的人眼开合距离拟合出人眼眨眼变化模型。
一般的,计算机得到平均眨眼频率后,根据所述多个视频素材在各个眨眼时刻、各眨眼时长内的人眼开合距离拟合出人眼眨眼变化模型,例如:计算机得到人眼眨眼变化模型表示为,从开始眨眼时刻,到结束眨眼时刻,有5帧图像对应视频素材时长为0.3秒,每一帧图像上的每个眼部关键点坐标存在连续变化,得到每一帧的每个眼部关键点坐标后,在一个实施例中,计算机就可以根据预设的平均眨眼频率在所述持续时间区间内确定多个初始的眨眼时刻,所述多个初始的眨眼时刻增加随机时长得到所述持续时间区间内的多个最终的眨眼时刻,根据所述人眼眨眼变化模型生成各个眨眼时刻的眨眼时长和人眼开合距离,基于所述多个最终的眨眼时刻、所述眨眼时长和所述人眼开合距离生成眨眼特性信息。
S305、对所述基础虚拟形象视频对应的音频数据进行语音识别处理得到文本数据,通过自然语言处理NLP模型在所述文本数据中提取预设关键词。
一般的,计算机拟合出人眼眨眼变化模型后,首先多个所述基础虚拟形象视频对应的音频数据,对所述多个音频数据进行语音识别得到文本信息,再通过自然语言处理(Natural Language Processing,NLP)模型在各个素材视频数据的文本信息提取情感关键字,例如:计算机对得到的文本信息提取出:高兴、悲伤、难受等情感关键字。
S306、将各个预设关键词的出现时刻确定为眨眼时刻,识别出所述各个预设关键词的语调,根据所述语调确定眨眼时长和人眼开合距离。
一般的,计算机提取预设关键词后,将各个预设关键词的出现时刻确定为眨眼时刻,例如:对于一段1分钟的视频,计算机确定第15秒、第29秒、第47秒和第58秒为眨眼时刻,然后识别出所述各个预设关键词的语调,根据所述语调确定眨眼时长和人眼开合距离,例如:计算机识别出预设关键词为高兴的语调,则确定眨眼时长为0.2秒,人眼开合距离可根据上述步骤拟合出人眼眨眼变化模型的作相应调整,将对于的0.3秒转换成0.2秒,或者在一个实施例中计算机可以先预设相关参数,自定义设置语调与眨眼时长和人眼开合距离的对应关系,然后直接读取出眨眼时长和人眼开合距离信息。
S307、基于所述眨眼时刻、所述眨眼时长和所述人眼开合距离生成眨眼特性信息。
一般的,计算机确定眨眼时长和人眼开合距离后,基于所述眨眼时刻、所述眨眼时长和所述人眼开合距离生成眨眼特性信息,例如:计算机确定眨眼特性信息为第23秒为眨眼时刻,对应眨眼时长为0.3秒,人眼开合距离信息为眼部关键点a的坐标变化为((125,76)→(126,74)→(130,71)→(127,73)→(125,75))等等。
S308、确定所述基础虚拟形象视频的多个眨眼时刻,获取各个眨眼时刻的眨眼时长和人眼开合距离。
一般的,计算机生成眨眼特性信息后,还需要确定所述基础虚拟形象视频的多个眨眼时刻,获取各个眨眼时刻的眨眼时长和人眼开合距离,例如:对于一段10分钟的基础虚拟形象视频,计算机确定的多个眨眼时刻分别为:第5秒、第19秒和第37秒等等,各个眨眼时刻的眨眼时长分别为:0.2秒、0.4秒和0.3秒等等,各个眨眼时刻的人眼开合距离分别为眼部关键点a的开合距离变化为1厘米、0.5厘米、0厘米、0.49厘米和1.1厘米等等。
S309、将各个眨眼时长内的基础虚拟形象视频分割为连续帧图像,基于所述人眼开合距离对所述连续帧图像中的眼部关键点进行变换处理得到变换结果。
一般的,计算机获取各个眨眼时刻的眨眼时长和人眼开合距离后,将各个眨眼时长内的基础虚拟形象视频分割为连续帧图像,例如:计算机将第8个眨眼时长内的基础虚拟形象视频分割为5帧图像,将第9个眨眼时长内的基础虚拟形象视频分割为3帧图像。然后计算机基于所述人眼开合距离对所述连续帧图像中的眼部关键点进行变换处理得到变换结果,例如:计算机得到的第8个眨眼时长内的基础虚拟形象视频分割为5帧图像中的眼部关键点a的坐标为((369,527),(369,527),(369,527),(369,527),(369,527)),则得到的变换结果为((369,527),(372,521),(374,517),(371,523),(370,529))等等。
S310、基于所述变换结果生成具有眨眼特性的最终虚拟形象视频。
一般的,计算机得到变换结果后,将新生成的连续帧图像替换掉对应位置的基础虚拟形象视频的图像,生成具有眨眼特性的最终虚拟形象视频。在一个实施例中计算机还可以基于现有的图片或者视频作为基础虚拟形象视频,然后基于所述眨眼特性信息确定所述原始虚拟形象基础虚拟形象视频对应的具有眨眼特性的最终虚拟形象视频。
本申请实施例的方案在执行时,对音频数据进行特征提取得到声音特征,通过人脸关键点生成模型对所述声音特征进行处理得到人脸关键点特征,根据所述人脸关键点特征生成基础虚拟形象视频,统计多个视频素材的眨眼频率得到平均眨眼频率,根据所述多个视频素材在各个眨眼时刻、各眨眼时长内的人眼开合距离拟合出人眼眨眼变化模型,对所述基础虚拟形象视频对应的音频数据进行语音识别处理得到文本数据,通过自然语言处理NLP模型在所述文本数据中提取预设关键词,将各个预设关键词的出现时刻确定为眨眼时刻,识别出所述各个预设关键词的语调,根据所述语调确定眨眼时长和人眼开合距离,基于所述眨眼时刻、所述眨眼时长和所述人眼开合距离生成眨眼特性信息,确定所述基础虚拟形象视频的多个眨眼时刻,获取各个眨眼时刻的眨眼时长和人眼开合距离,将各个眨眼时长内的基础虚拟形象视频分割为连续帧图像,基于所述人眼开合距离对所述连续帧图像中的眼部关键点进行变换处理得到变换结果,基于所述变换结果生成具有眨眼特性的最终虚拟形象视频。本申请实施例通过在生成基础虚拟形象的基础上添加了眨眼变化模型,解决现有技术生成的虚拟人物普遍存在不会眨眼、缺乏真实感等的问题。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参见图4,其示出了本申请一个示例性实施例提供的虚拟形象的生成装置的结构示意图,以下简称生成装置4。生成装置4可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。包括:
获取模块401,用于获取目标对象的基础虚拟形象视频;
确定模块402,用于确定所述基础虚拟形象视频的持续时间段内的眨眼特性信息;
生成模块403,用于根据所述眨眼特性信息和所述基础虚拟形象视频生成具有眨眼特性的最终虚拟形象视频。
可选地,所述获取模块401,还包括:
提取单元,用于对音频数据进行特征提取得到声音特征;通过人脸关键点生成模型对所述声音特征进行处理得到人脸关键点特征;根据所述人脸关键点特征生成基础虚拟形象视频。
可选地,所述确定模块402,还包括:
统计单元,用于统计多个视频素材的眨眼频率得到平均眨眼频率;根据所述多个视频素材在各个眨眼时刻、各眨眼时长内的人眼开合距离拟合出人眼眨眼变化模型。
识别单元,用于对所述基础虚拟形象视频对应的音频数据进行语音识别处理得到文本数据;通过自然语言处理NLP模型在所述文本数据中提取预设关键词;将各个预设关键词的出现时刻确定为眨眼时刻;识别出所述各个预设关键词的语调,根据所述语调确定眨眼时长和人眼开合距离;基于所述眨眼时刻、所述眨眼时长和所述人眼开合距离生成眨眼特性信息。
得到单元,用于根据预设的平均眨眼频率在所述持续时间区间内确定多个初始的眨眼时刻;为所述多个初始的眨眼时刻增加随机时长得到所述持续时间区间内的多个最终的眨眼时刻;根据所述人眼眨眼变化模型生成各个眨眼时刻的眨眼时长和人眼开合距离;基于所述多个最终的眨眼时刻、所述眨眼时长和所述人眼开合距离生成眨眼特性信息。
可选地,所述生成模块403,还包括:
变换单元,用于确定所述基础虚拟形象视频的多个眨眼时刻;获取各个眨眼时刻的眨眼时长和人眼开合距离;将各个眨眼时长内的基础虚拟形象视频分割为连续帧图像;基于所述人眼开合距离对所述连续帧图像中的眼部关键点进行变换处理得到变换结果;基于所述变换结果生成具有眨眼特性的最终虚拟形象视频。
本申请实施例和图2至图3的方法实施例基于同一构思,其带来的技术效果也相同,具体过程可参照图2至图3的方法实施例的描述,此处不再赘述。
所述装置4可以为实现相关功能的现场可编程门阵列(field-programmable gatearray,FPGA),专用集成芯片,系统芯片(system on chip,SoC),中央处理器(centralprocessor unit,CPU),网络处理器(network processor,NP),数字信号处理电路,微控制器(micro controller unit,MCU),还可以采用可编程控制器(programmable logicdevice,PLD)或其他集成芯片。
本申请实施例的方案在执行时,对音频数据进行特征提取得到声音特征,通过人脸关键点生成模型对所述声音特征进行处理得到人脸关键点特征,根据所述人脸关键点特征生成基础虚拟形象视频,对所述基础虚拟形象视频对应的音频数据进行语音识别处理得到文本数据,通过自然语言处理NLP模型在所述文本数据中提取预设关键词,将各个预设关键词的出现时刻确定为眨眼时刻,识别出所述各个预设关键词的语调,根据所述语调确定眨眼时长和人眼开合距离,基于所述眨眼时刻、所述眨眼时长和所述人眼开合距离生成眨眼特性信息,确定所述基础虚拟形象视频的多个眨眼时刻,获取各个眨眼时刻的眨眼时长和人眼开合距离,将各个眨眼时长内的基础虚拟形象视频分割为连续帧图像,基于所述人眼开合距离对所述连续帧图像中的眼部关键点进行变换处理得到变换结果,基于所述变换结果生成具有眨眼特性的最终虚拟形象视频。本申请实施例通过在生成基础虚拟形象的基础上添加了眨眼变化模型,解决现有技术生成的虚拟人物普遍存在不会眨眼、缺乏真实感等的问题。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述的方法步骤,具体执行过程可以参见图2或图3所示实施例的具体说明,在此不进行赘述。
本申请还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的模板的控制方法。
请参见图5,为本申请实施例提供了一种电子设备的结构示意图。如图5所示,所述电子设备5可以包括:至少一个处理器501,至少一个网络接口504,用户接口503,存储器505,至少一个通信总线502。
其中,通信总线502用于实现这些组件之间的连接通信。
其中,用户接口503可以包括显示屏(Display)、麦克风(Microphone),可选用户接口503还可以包括标准的有线接口、无线接口。
其中,网络接口504可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器501可以包括一个或者多个处理核心。处理器501利用各种借口和线路连接整个终端500内的各个部分,通过运行或执行存储在存储器505内的指令、程序、代码集或指令集,以及调用存储在存储器505内的数据,执行终端500的各种功能和处理数据。可选的,处理器501可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器501可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器501中,单独通过一块芯片进行实现。
其中,存储器505可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器505包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器505可用于存储指令、程序、代码、代码集或指令集。存储器505可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器505可选的还可以是至少一个位于远离前述处理器501的存储装置。如图5所示,作为一种计算机存储介质的存储器505中可以包括操作系统、网络通信模块、用户接口模块以及虚拟形象的生成应用程序。
在图5所示的电子设备500中,用户接口503主要用于为用户提供输入的接口,获取用户输入的数据;而处理器501可以用于调用存储器505中存储的虚拟形象的生成应用程序,并具体执行以下操作:
获取目标对象的基础虚拟形象视频;
确定所述基础虚拟形象视频的持续时间段内的眨眼特性信息;
根据所述眨眼特性信息和所述基础虚拟形象视频生成具有眨眼特性的最终虚拟形象视频。
在一个实施例中,处理器501执行所述获取目标对象的基础虚拟形象视频,包括:
对音频数据进行特征提取得到声音特征;
通过人脸关键点生成模型对所述声音特征进行处理得到人脸关键点特征;
根据所述人脸关键点特征生成基础虚拟形象视频。
在一个实施例中,处理器501执行所述确定所述基础虚拟形象视频的持续时间段内的眨眼特性信息之前,还包括:
统计多个视频素材的眨眼频率得到平均眨眼频率;
根据所述多个视频素材在各个眨眼时刻、各眨眼时长内的人眼开合距离拟合出人眼眨眼变化模型。
在一个实施例中,处理器501执行所述确定所述基础虚拟形象视频的持续时间段内的眨眼特性信息,包括:
对所述基础虚拟形象视频对应的音频数据进行语音识别处理得到文本数据;
通过自然语言处理NLP模型在所述文本数据中提取预设关键词;
将各个预设关键词的出现时刻确定为眨眼时刻;
识别出所述各个预设关键词的语调,根据所述语调确定眨眼时长和人眼开合距离;
基于所述眨眼时刻、所述眨眼时长和所述人眼开合距离生成眨眼特性信息。
在一个实施例中,处理器501执行所述确定所述基础虚拟形象视频的持续时间段内的眨眼特性信息,还包括:
根据预设的平均眨眼频率在所述持续时间区间内确定多个初始的眨眼时刻;
为所述多个初始的眨眼时刻增加随机时长得到所述持续时间区间内的多个最终的眨眼时刻;
根据所述人眼眨眼变化模型生成各个眨眼时刻的眨眼时长和人眼开合距离;
基于所述多个最终的眨眼时刻、所述眨眼时长和所述人眼开合距离生成眨眼特性信息。
在一个实施例中,处理器501执行所述根据所述眨眼特性信息和所述基础虚拟形象视频生成具有眨眼特性的最终虚拟形象视频,包括:
确定所述基础虚拟形象视频的多个眨眼时刻;
获取各个眨眼时刻的眨眼时长和人眼开合距离;
将各个眨眼时长内的基础虚拟形象视频分割为连续帧图像;
基于所述人眼开合距离对所述连续帧图像中的眼部关键点进行变换处理得到变换结果;
基于所述变换结果生成具有眨眼特性的最终虚拟形象视频。
本申请实施例的技术构思和图2或图3的技术构思相同,具体过程可参照图2或图3的方法实施例,此处不再赘述。
在本申请实施例中,对音频数据进行特征提取得到声音特征,通过人脸关键点生成模型对所述声音特征进行处理得到人脸关键点特征,根据所述人脸关键点特征生成基础虚拟形象视频,对所述基础虚拟形象视频对应的音频数据进行语音识别处理得到文本数据,通过自然语言处理NLP模型在所述文本数据中提取预设关键词,将各个预设关键词的出现时刻确定为眨眼时刻,识别出所述各个预设关键词的语调,根据所述语调确定眨眼时长和人眼开合距离,基于所述眨眼时刻、所述眨眼时长和所述人眼开合距离生成眨眼特性信息,确定所述基础虚拟形象视频的多个眨眼时刻,获取各个眨眼时刻的眨眼时长和人眼开合距离,将各个眨眼时长内的基础虚拟形象视频分割为连续帧图像,基于所述人眼开合距离对所述连续帧图像中的眼部关键点进行变换处理得到变换结果,基于所述变换结果生成具有眨眼特性的最终虚拟形象视频。本申请实施例通过在生成基础虚拟形象的基础上添加了眨眼变化模型,解决现有技术生成的虚拟人物普遍存在不会眨眼、缺乏真实感等的问题。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (11)

1.一种虚拟形象的生成方法,其特征在于,所述方法包括:
获取目标对象的基础虚拟形象视频;
确定所述基础虚拟形象视频的持续时间段内的眨眼特性信息;
根据所述眨眼特性信息和所述基础虚拟形象视频生成具有眨眼特性的最终虚拟形象视频。
2.根据权利要求1所述方法,其特征在于,所述获取目标对象的基础虚拟形象视频,包括:
对音频数据进行特征提取得到声音特征;
通过人脸关键点生成模型对所述声音特征进行处理得到人脸关键点特征;
根据所述人脸关键点特征生成基础虚拟形象视频。
3.根据权利要求1所述方法,其特征在于,所述眨眼特性信息表示所述持续时间段内的多个眨眼时刻,以及各个眨眼时刻的眨眼时长和人眼开合距离。
4.根据权利要求3所述方法,其特征在于,所述多个眨眼时刻在所述持续时间段内呈周期分布,所述各个眨眼时刻的眨眼时长和人眼开合距离呈随机分布。
5.根据权利要求3所述方法,其特征在于,所述确定所述基础虚拟形象视频的持续时间段内的眨眼特性信息之前,还包括:
统计多个视频素材的眨眼频率得到平均眨眼频率;
根据所述多个视频素材在各个眨眼时刻、各眨眼时长内的人眼开合距离拟合出人眼眨眼变化模型。
6.根据权利要求3所述方法,其特征在于,所述确定所述基础虚拟形象视频的持续时间段内的眨眼特性信息,包括:
对所述基础虚拟形象视频对应的音频数据进行语音识别处理得到文本数据;
通过自然语言处理NLP模型在所述文本数据中提取预设关键词;
将各个预设关键词的出现时刻确定为眨眼时刻;
识别出所述各个预设关键词的语调,根据所述语调确定眨眼时长和人眼开合距离;
基于所述眨眼时刻、所述眨眼时长和所述人眼开合距离生成眨眼特性信息。
7.根据权利要求3所述方法,其特征在于,所述确定所述基础虚拟形象视频的持续时间段内的眨眼特性信息,还包括:
根据预设的平均眨眼频率在所述持续时间区间内确定多个初始的眨眼时刻;
为所述多个初始的眨眼时刻增加随机时长得到所述持续时间区间内的多个最终的眨眼时刻;
根据所述人眼眨眼变化模型生成各个眨眼时刻的眨眼时长和人眼开合距离;
基于所述多个最终的眨眼时刻、所述眨眼时长和所述人眼开合距离生成眨眼特性信息。
8.根据权利要求3所述方法,其特征在于,所述根据所述眨眼特性信息和所述基础虚拟形象视频生成具有眨眼特性的最终虚拟形象视频,包括:
确定所述基础虚拟形象视频的多个眨眼时刻;
获取各个眨眼时刻的眨眼时长和人眼开合距离;
将各个眨眼时长内的基础虚拟形象视频分割为连续帧图像;
基于所述人眼开合距离对所述连续帧图像中的眼部关键点进行变换处理得到变换结果;
基于所述变换结果生成具有眨眼特性的最终虚拟形象视频。
9.一种虚拟形象的生成装置,其特征在于,包括:
获取模块,用于获取目标对象的基础虚拟形象视频;
确定模块,用于确定所述基础虚拟形象视频的持续时间段内的眨眼特性信息;
生成模块,用于根据所述眨眼特性信息和所述基础虚拟形象视频生成具有眨眼特性的最终虚拟形象视频。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~8任意一项的方法步骤。
11.一种电子设备,其特征在于,包括:存储器和处理器;其中,所述存储器存储有计算机程序,所述计算机程序适用于由所述处理器加载并执行如权利要求1~8任意一项的方法步骤。
CN202011513932.8A 2020-12-18 2020-12-18 虚拟形象的生成方法、装置、存储介质及电子设备 Active CN112652041B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011513932.8A CN112652041B (zh) 2020-12-18 2020-12-18 虚拟形象的生成方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011513932.8A CN112652041B (zh) 2020-12-18 2020-12-18 虚拟形象的生成方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN112652041A true CN112652041A (zh) 2021-04-13
CN112652041B CN112652041B (zh) 2024-04-02

Family

ID=75358441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011513932.8A Active CN112652041B (zh) 2020-12-18 2020-12-18 虚拟形象的生成方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN112652041B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113178206A (zh) * 2021-04-22 2021-07-27 内蒙古大学 Ai合成主播生成方法、电子设备及可读存储介质
CN113487711A (zh) * 2021-07-23 2021-10-08 北京达佳互联信息技术有限公司 虚拟形象的眨眼控制方法、装置、电子设备及存储介质
CN116704080A (zh) * 2023-08-04 2023-09-05 腾讯科技(深圳)有限公司 眨眼动画生成方法、装置、设备及存储介质
CN116708899A (zh) * 2022-06-30 2023-09-05 北京生数科技有限公司 应用于合成虚拟形象的视频处理方法、装置及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030137515A1 (en) * 2002-01-22 2003-07-24 3Dme Inc. Apparatus and method for efficient animation of believable speaking 3D characters in real time
WO2018103220A1 (zh) * 2016-12-09 2018-06-14 武汉斗鱼网络科技有限公司 一种图像处理的方法及装置
CN108491147A (zh) * 2018-04-16 2018-09-04 青岛海信移动通信技术股份有限公司 一种基于虚拟人物的人机交互方法及移动终端
CN111045582A (zh) * 2019-11-28 2020-04-21 深圳市木愚科技有限公司 一种个性化虚拟人像活化互动系统及方法
CN111145322A (zh) * 2019-12-26 2020-05-12 上海浦东发展银行股份有限公司 用于驱动虚拟形象的方法、设备和计算机可读存储介质
CN111638784A (zh) * 2020-05-26 2020-09-08 浙江商汤科技开发有限公司 人脸表情互动方法、互动装置以及计算机存储介质
CN111798551A (zh) * 2020-07-20 2020-10-20 网易(杭州)网络有限公司 虚拟表情生成方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030137515A1 (en) * 2002-01-22 2003-07-24 3Dme Inc. Apparatus and method for efficient animation of believable speaking 3D characters in real time
WO2018103220A1 (zh) * 2016-12-09 2018-06-14 武汉斗鱼网络科技有限公司 一种图像处理的方法及装置
CN108491147A (zh) * 2018-04-16 2018-09-04 青岛海信移动通信技术股份有限公司 一种基于虚拟人物的人机交互方法及移动终端
CN111045582A (zh) * 2019-11-28 2020-04-21 深圳市木愚科技有限公司 一种个性化虚拟人像活化互动系统及方法
CN111145322A (zh) * 2019-12-26 2020-05-12 上海浦东发展银行股份有限公司 用于驱动虚拟形象的方法、设备和计算机可读存储介质
CN111638784A (zh) * 2020-05-26 2020-09-08 浙江商汤科技开发有限公司 人脸表情互动方法、互动装置以及计算机存储介质
CN111798551A (zh) * 2020-07-20 2020-10-20 网易(杭州)网络有限公司 虚拟表情生成方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
位雪岭;侯进;吴志明;: "具有真实感的情绪化虚拟人研究", 计算机应用研究, no. 12 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113178206A (zh) * 2021-04-22 2021-07-27 内蒙古大学 Ai合成主播生成方法、电子设备及可读存储介质
CN113178206B (zh) * 2021-04-22 2022-05-31 内蒙古大学 Ai合成主播生成方法、电子设备及可读存储介质
CN113487711A (zh) * 2021-07-23 2021-10-08 北京达佳互联信息技术有限公司 虚拟形象的眨眼控制方法、装置、电子设备及存储介质
CN113487711B (zh) * 2021-07-23 2024-02-09 北京达佳互联信息技术有限公司 虚拟形象的眨眼控制方法、装置、电子设备及存储介质
CN116708899A (zh) * 2022-06-30 2023-09-05 北京生数科技有限公司 应用于合成虚拟形象的视频处理方法、装置及存储介质
CN116708899B (zh) * 2022-06-30 2024-01-23 北京生数科技有限公司 应用于合成虚拟形象的视频处理方法、装置及存储介质
CN116704080A (zh) * 2023-08-04 2023-09-05 腾讯科技(深圳)有限公司 眨眼动画生成方法、装置、设备及存储介质
CN116704080B (zh) * 2023-08-04 2024-01-30 腾讯科技(深圳)有限公司 眨眼动画生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112652041B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN112669417B (zh) 虚拟形象的生成方法、装置、存储介质及电子设备
CN110688911B (zh) 视频处理方法、装置、系统、终端设备及存储介质
WO2022048403A1 (zh) 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
US10997764B2 (en) Method and apparatus for generating animation
CN112652041B (zh) 虚拟形象的生成方法、装置、存储介质及电子设备
CN110531860B (zh) 一种基于人工智能的动画形象驱动方法和装置
CN112650831A (zh) 虚拟形象生成方法、装置、存储介质及电子设备
US8125485B2 (en) Animating speech of an avatar representing a participant in a mobile communication
US8725507B2 (en) Systems and methods for synthesis of motion for animation of virtual heads/characters via voice processing in portable devices
CN112099628A (zh) 基于人工智能的vr互动方法、装置、计算机设备及介质
CN109346076A (zh) 语音交互、语音处理方法、装置和系统
US20030149569A1 (en) Character animation
CN110599359B (zh) 社交方法、装置、系统、终端设备及存储介质
WO2022170848A1 (zh) 人机交互方法、装置、系统、电子设备以及计算机介质
CN111145777A (zh) 一种虚拟形象展示方法、装置、电子设备及存储介质
CN112668407A (zh) 人脸关键点生成方法、装置、存储介质及电子设备
CN114895817B (zh) 交互信息处理方法、网络模型的训练方法及装置
WO2008087621A1 (en) An apparatus and method for animating emotionally driven virtual objects
CN113923462A (zh) 视频生成、直播处理方法、设备和可读介质
WO2023246163A9 (zh) 一种虚拟数字人驱动方法、装置、设备和介质
CN110148406A (zh) 一种数据处理方法和装置、一种用于数据处理的装置
JP2023059937A (ja) データインタラクション方法、装置、電子機器、記憶媒体、および、プログラム
CN117523088A (zh) 一种个性化的三维数字人全息互动形成系统及方法
WO2022041192A1 (zh) 语音消息处理方法、设备及即时通信客户端
CN117370605A (zh) 一种虚拟数字人驱动方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant