CN115052197A - 虚拟人像视频的生成方法及装置 - Google Patents

虚拟人像视频的生成方法及装置 Download PDF

Info

Publication number
CN115052197A
CN115052197A CN202210303667.3A CN202210303667A CN115052197A CN 115052197 A CN115052197 A CN 115052197A CN 202210303667 A CN202210303667 A CN 202210303667A CN 115052197 A CN115052197 A CN 115052197A
Authority
CN
China
Prior art keywords
sample
target
triphones
triphone
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210303667.3A
Other languages
English (en)
Other versions
CN115052197B (zh
Inventor
赵超
肖立鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wofeng Times Data Technology Co ltd
Original Assignee
Beijing Wofeng Times Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wofeng Times Data Technology Co ltd filed Critical Beijing Wofeng Times Data Technology Co ltd
Priority to CN202210303667.3A priority Critical patent/CN115052197B/zh
Publication of CN115052197A publication Critical patent/CN115052197A/zh
Application granted granted Critical
Publication of CN115052197B publication Critical patent/CN115052197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8146Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
    • H04N21/8153Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics comprising still images, e.g. texture, background image

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computer Graphics (AREA)
  • Processing Or Creating Images (AREA)
  • Studio Circuits (AREA)

Abstract

本发明提供一种虚拟人像视频的生成方法及装置,所述虚拟人像视频的生成方法,包括:从样本数据库中获取与目标音频对应的M个样本三音素;基于M个样本三音素,分别从样本数据库中获取与M个样本三音素对应的P个样本图像,样本图像包括人像的嘴部区域信息,人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联;基于P个样本图像和目标音频合成目标虚拟人像视频,目标虚拟人像视频中的人像的嘴部区域信息与目标音频相对应。本发明的虚拟人像视频的生成方法,合成效率高且合成的视频效果生动形象,具有较高的分辨率,从而有助于提高智能服务领域的服务效率和服务质量。

Description

虚拟人像视频的生成方法及装置
技术领域
本发明涉及虚拟视频合成技术领域,尤其涉及一种虚拟人像视频的生成方法及装置。
背景技术
随着人工智能产品在生活中的渗透率越来越高,虚拟视频作为人机自然交互的最直观、最有效以及体验最好的途径方法,虚拟视频包括但不限于虚拟偶像主播、虚拟员工、虚拟助手、虚拟管家以及虚拟驾驶员等。相关技术中,主要采用动态扫描技术或采用深度学习GAN网络驱动技术生成虚拟视频,第一种方法需要将采集到的光影效果或是照片数据通过人脸特征识别、空间变换组件、模型重建组件、骨骼变形组件以及纹理融合组件等搭配合成多模态3D模型,然后通过面部表情驱动,对建模要求高且生成的形象生硬;第二种方法需要采集大量的训练数据来对模型进行训练,然后基于模型与给定音频驱动唇形,不仅GAN训练难度大,而且生成的图像分辨率低。以上两种方法均会导致最终合成的虚拟视频的效果不佳。
发明内容
本发明提供一种虚拟人像视频的生成方法及装置,用以解决现有技术中虚拟视频合成效率低且合成效果较差的缺陷,实现高效且高质量的虚拟视频合成。
本发明提供一种虚拟人像视频的生成方法,包括:
从样本数据库中获取与目标音频对应的M个样本三音素,所述样本数据库中包括N个样本三音素,以及与所述N个样本三音素对应的Q个样本图像;
基于所述M个样本三音素,分别从所述样本数据库中获取与所述M个样本三音素对应的P个样本图像,所述样本图像包括人像的嘴部区域信息,所述人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联,其中N≥M,Q≥P,P≥M,Q≥N且M、N、P和Q为正整数;
基于所述P个样本图像和所述目标音频合成目标虚拟人像视频,所述目标虚拟人像视频中的人像的嘴部区域信息与所述目标音频相对应。
根据本发明提供的一种虚拟人像视频的生成方法,所述从样本数据库中获取与目标音频对应的M个样本三音素,包括:
将所述目标音频与所述目标音频对应的目标文本进行时间对齐;
将所述目标文本转化为目标三音素序列;
切分所述目标三音素序列,生成多个目标三音素;
从所述样本数据库中匹配得到与所述目标三音素对应的样本三音素。
根据本发明提供的一种虚拟人像视频的生成方法,所述分别从所述样本数据库中获取与所述M个样本三音素对应的P个样本图像,包括:
获取所述目标三音素在所述目标音频中的时长信息;
从所述样本数据库中匹配得到与所述样本三音素对应的多个样本图像;
基于所述目标三音素在所述目标音频中的时长信息调整所述多个样本图像对应的时长信息。
根据本发明提供的一种虚拟人像视频的生成方法,所述基于所述P个样本图像和所述目标音频合成目标虚拟人像视频,包括:
基于所述P个样本三音素中相邻的两个样本三音素对应的样本图像,生成所述两个样本三音素对应的样本图像之间的过渡图像;
基于所述样本图像对应的样本三音素在所述目标音频中的时间信息,拼接所述样本图像和所述过渡图像,生成目标图像序列;
合成所述目标图像序列和所述目标音频,生成所述目标虚拟人像视频。
根据本发明提供的一种虚拟人像视频的生成方法,在所述从样本数据库中获取与目标音频对应的M个样本三音素之前,所述方法包括:
获取样本视频,所述样本视频包括样本图像序列和样本音频;
基于所述样本音频,获取与所述样本音频对应的样本三音素序列;
对所述样本图像序列和所述样本三音素序列进行时间对齐,生成时间序列;
基于所述时间序列,建立所述样本图像序列中的样本图像与所述样本三音素序列中的样本三音素之间的映射关系;
将所述样本图像、与所述样本图像对应的样本三音素以及所述样本图像与所述样本图像对应的样本三音素之间的映射关系存储至所述样本数据库。
根据本发明提供的一种虚拟人像视频的生成方法,所述基于所述时间序列,建立所述样本图像序列中的样本图像与所述样本三音素序列中的样本三音素之间的映射关系,包括:
基于所述样本图像中人像的嘴部区域信息,生成所述样本图像中人像的嘴部区域坐标;
建立所述嘴部区域坐标与其所在的样本图像所对应的样本三音素之间的映射关系。
本发明还提供一种虚拟人像视频的生成装置,包括:
第一处理模块,用于从样本数据库中获取与目标音频对应的M个样本三音素,所述样本数据库中包括N个样本三音素,以及与所述N个样本三音素对应的Q个样本图像;
第二处理模块,用于基于所述M个样本三音素,分别从所述样本数据库中获取与所述M个样本三音素对应的P个样本图像,所述样本图像包括人像的嘴部区域信息,所述人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联,其中N≥M,Q≥P,P≥M,Q≥N且M、N、P和Q为正整数;
第三处理模块,用于基于所述P个样本图像和所述目标音频合成目标虚拟人像视频,所述目标虚拟人像视频中的人像的嘴部区域信息与所述目标音频相对应。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述虚拟人像视频的生成方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述虚拟人像视频的生成方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述虚拟人像视频的生成方法。
本发明提供的虚拟人像视频的生成方法及装置,通过建立三音素、嘴部区域坐标以及文本信息之间的对应关系,以能够从样本数据库中获取与目标音频对应的样本三音素所对应的样本图像,对获取的样本图像和目标音频进行合成以生成目标虚拟人像视频,无需对大量数据进行重复训练即可进行视频合成,合成效率高;且合成的视频效果生动形象,具有较高的分辨率,有助于提高智能服务领域的服务效率和服务质量。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的虚拟人像视频的生成方法的流程示意图;
图2是本发明提供的虚拟人像视频的生成装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明的虚拟人像视频的生成方法。
该虚拟人像视频的生成方法的执行主体可以为虚拟人像视频的生成装置,或者为服务器,或者还可以为用户的终端,包括移动终端和非移动终端,其中,非移动终端包括但不限于:用户的手机、平板电脑、车载终端、手表以及其他智能终端等。
如图1所示,该虚拟人像视频的生成方法包括:步骤110、步骤120和步骤130。
步骤110、从样本数据库中获取与目标音频对应的M个样本三音素,样本数据库中包括N个样本三音素,以及与N个样本三音素对应的Q个样本图像,其中N≥M,Q≥N且M、N和Q为正整数;
在该步骤中,目标音频为用于进行目标虚拟人像视频合成的音频。
样本数据库为预先建立的映射关系数据库,样本数据库用于存储预先生成的样本三音素和样本三音素对应的一帧或多帧样本图像。
其中,样本图像包括人像的嘴部区域信息,人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联。
人像的嘴部区域信息表征人像的嘴部变化状态,包括但不限于人像的嘴部形状以及位置等。
需要说明的是,在实际执行过程中,可预先获取样本视频,对该样本视频进行特征提取,可获取多帧样本图像和样本音频,其中,多帧样本图像可以记为:P1P2P3…Pn,其中Pn表示样本视频中第n帧样本图像,n为样本视频中的总帧数。
对样本音频进行特征提取,可以生成样本音频对应的样本三音素序列,对样本三音素序列进行切分,即可生成多个样本三音素。
然后将获取的多帧样本图像:P1P2P3…Pn和多个样本三音素存储于样本数据库中。
可以理解的是,对于任一样本三音素,其对应的样本图像可能为一帧,也可能为多帧;样本三音素对应的样本图像的帧数基于样本三音素的发音时长确定。
其中,三音素为音素的一种,由三个单音素组成,包含有上下文之间的关系。
样本图像为样本视频中的任意一帧图像帧,且样本图像中的内容与样本视频对应的样本音频在该图像帧下的音频具有对应关系,也即样本图像中的内容与样本视频对应的样本音频在该图像帧下的样本三音素具有对应关系。
例如,在样本图像包括人像的情况下,该样本图像中人像的口型应与样本音频在该图像帧下的音频相对应,如在样本音频为“我”的情况下,样本图像中人像的口型应近似为o型。
样本数据库为预先建立的数据库,样本数据库的具体建立方式将在后续实施例中进行说明,在此暂不作赘述。
下面通过具体实施例,对该步骤的实现方式进行说明。
在一些实施例中,步骤110可以包括:
将目标音频与目标音频对应的目标文本进行时间对齐;
将目标文本转化为目标三音素序列;
切分目标三音素序列,生成多个目标三音素;
从样本数据库中匹配得到与目标三音素对应的样本三音素。
在该实施例中,目标文本用于表征目标音频中的文本信息。
在该实施例中,将目标音频与目标音频对应的目标文本进行时间对齐,也即将目标音频中的每一个字符所对应的读音与该读音所对应的字符在文本中的位置进行对齐。
在对齐之后,基于目标文本将目标音频转化为目标三音素序列F1F2F3…Fm,其中Fm表示目标三音素序列中第m个三音素,m为目标三音素序列中的三音素的总数。
例如,对于目标文本“今天天气很好”,可以将其转化为目标三音素序列:sil-j+in/j-in+t/t-ian+q/q-i+h/h-en+h/h-ao+sil,其中,sil为开始结束的标志。
其中,目标三音素序列是针对音素发音的特点聚类生成的,如ao的上文是清辅音聚为一类等,b/p-ao+*。
在生成目标三音素序列后,对目标三音素序列进行切分所得到的多个三音素,其中每一个三音素均可以用Fa-b+c表示,其中a、b和c分别表示三音素中的各个音素,Fa-b+c即为本实施例中的目标三音素。
在获取得到目标三音素后,将目标三音素与样本数据库中的样本三音素进行匹配,以获取与目标三音素相同或近似的样本三音素,并将该样本三音素对应的样本图像确定为目标三音素对应的目标图像。
下面分别从两种实现角度,对目标三音素的匹配过程进行说明。
其一,样本数据库中存在有与目标三音素相同的样本三音素。
在一些实施例中,从样本数据库中匹配得到与目标三音素对应的样本三音素,可以包括:从样本数据库中匹配得到与目标三音素相同的样本三音素。
在该实施例中,样本数据库中存在有与目标三音素相同的样本三音素,则直接从样本数据库中获取与目标三音素相同的样本三音素即可。
其二,样本数据库中不存在有与目标三音素相同的样本三音素。
在另一些实施例中,从样本数据库中匹配得到与目标三音素对应的样本三音素,可以包括:
获取与目标三音素相似的第一三音素;
从样本数据库中匹配得到与第一三音素相同的样本三音素序列。
在该实施例中,第一三音素为与目标三音素的相似程度较高的三音素。
样本数据库中不存在有与目标三音素相同的样本三音素,则获取与目标三音素近似的样本三音素。
在实际执行过程中,可以采用聚类模型获取与目标三音素相似第一三音素。
步骤120、基于M个样本三音素,分别从样本数据库中获取与M个样本三音素对应的P个样本图像;
在该步骤中,N≥M,Q≥P,P≥M,Q≥N且M、N、P和Q均为正整数。
其中,一个样本三音素可以对应有一帧或多帧样本图像。
可以理解的是,从样本数据库中获取的与M个样本三音素对应的P个样本图像,可以为与目标三音素相同的样本三音素对应的样本图像,也可以为与目标三音素相似的样本三音素对应的样本图像。
例如,样本数据库C中包括:N个样本三音素F’以及与N个样本三音素对应的Q个样本图像P’。
对于目标音频V和目标音频对应的目标文本T,在将目标音频V和目标文本T进行对齐后,生成目标音频V对应的目标三音素序列F1F2F3…Fm,其中Fm表示目标三音素序列中第m个三音素,m为目标三音素序列中的三音素的总数。
对于目标三音素序列中的任意目标三音素Fi,从样本数据库C中获取与目标三音素Fi对应的样本三音素Fj’,其中1≤i≤m,1≤j≤N;然后从样本数据库C中获取与该样本三音素Fj’对应的一帧或多帧样本图像Pj’,并将该一帧或多帧样本图像Pj’确定为目标三音素对应的目标图像Pi
在一些实施例中,步骤120可以包括:
获取目标三音素在目标音频中的时长信息;
从样本数据库中匹配得到与样本三音素对应的样本图像;
基于目标三音素在目标音频中的时长信息调整样本图像对应的时长信息。
在该实施例中,时长信息用于表征目标三音素在目标音频中的发音时长。
目标三音素序列中的每一个目标三音素均对应有时长信息。
需要说明的是,在目标三音素序列对应有时长信息的情况下,样本数据库中的样本三音素也应对应有时长信息。
例如,对于目标音频V和目标音频对应的目标文本T,在将目标音频V和目标文本T进行对齐后,可以生成目标音频V对应的目标三音素序列F1F2F3…Fm,以及目标三音素序列中每一个目标三音素的时长T,生成目标三音素序列对应的时长序列T1T2T3…Tm
对于目标三音素序列中的任意目标三音素Fi,其对应的时长信息为Ti,从样本数据库C中获取与目标三音素Fi对应的样本三音素Fj’,该样本三音素Fj’对应的时长信息为Tj’,其中1≤i≤m,1≤j≤N;
然后从样本数据库C中获取与该样本三音素Fj’对应的一帧或多帧样本图像Pi’,通过线性差值将T j’对应的一帧或多帧样本图像Pi’和Ti对应的一帧或多帧目标图像Pi进行对齐,以将一帧或多帧样本图像Pi’对应的时长调整至与Ti一致。
步骤130、基于P个样本图像和目标音频合成目标虚拟人像视频,目标虚拟人像视频中的人像的嘴部区域信息与目标音频相对应。
在该步骤中,目标虚拟人像视频为基于目标音频所合成的视频,目标虚拟人像视频包括图像信息和音频信息。
可以理解的是,对于任一目标音频,可以将其合成为一段目标虚拟人像视频,且所合成的目标虚拟人像视频中的图像信息与音频信息相对应。
例如,在图像信息包括人像的情况下,人像的嘴型变化状态应与音频信息相对应。
在实际执行过程中,在通过步骤110和步骤120生成目标音频对应的P个样本图像后,可以基于P个样本图像中每一个样本图像对应的样本三音素在目标音频中的时间序列,对P个样本图像进行拼接,生成P帧样本图像序列,并对P帧样本图像序列和目标音频进行合成,从而生成目标虚拟人像视频。
在一些实施例中,步骤130可以包括:
基于P个样本三音素中相邻的两个样本三音素对应的样本图像,生成两个样本三音素对应的样本图像之间的过渡图像;
基于样本图像对应的样本三音素在目标音频中的时间信息,拼接样本图像和过渡图像,生成目标图像序列;
合成目标图像序列和目标音频,生成目标虚拟人像视频。
在该实施例中,过渡图像为任意两个相邻的目标三音素对应的样本图像之间的图像。
例如,对于目标三音素序列F1F2F3…Fm中的目标三音素F1和F2,其中,第一个目标三音素F1对应有三帧样本图像,从前至后依次为P1P2P3,第二个目标三音素F2对应有三帧样本图像,从前至后依次为P4P5P6;过渡图像即为P3和P4之间的图像。
时间信息包括样本三音素在目标音频中的时长信息以及时间序列。
目标图像序列包括多帧目标图像,其中,多帧目标图像包括P帧样本图像以及除样本图像外的过渡图像。
可以理解的是,在本实施例中,目标图像的帧数应不低于P。
在实际执行过程中,可以基于第一个目标三音素F1对应有多帧样本图像中的最后一帧样本图像对应的目标像素点的坐标,在第二个目标三音素F2对应的样本图像序列中,通过余弦距离与目标像素点坐标最接近的像素点坐标作为过渡图像中的目标像素点的坐标。
其中,目标像素点为需要与目标音频保持一致的像素点,例如,在图像信息包括人像信息的情况下,目标像素点可以为样本图像上的嘴部区域对应的坐标。
重复上述操作,依次生成目标三音素序列F1F2F3…Fm中的任意两个相连的目标三音素对应的样本图像之间的过渡图像,以获取多个过渡图像。
在生成目标三音素序列F1F2F3…Fm对应的全部样本图像和过渡图像后,基于每一帧样本图像对应的样本三音素所对应的目标三音素在目标音频中的时间信息,对全部的样本图像以及过渡图像按照时间序列进行拼接,以生成目标图像序列。
例如,对于目标三音素序列F1F2,其中目标三音素F1对应的样本图像序列为P1P2P3,目标三音素F2对应的样本图像序列为P4P5P6,基于P3和P4可以生成过渡图像Pg
基于P1P2P3和P4P5P6对应的目标三音素在目标三音素序列中的时间序列,依次拼接P1P2P3、Pg以及P4P5P6,生成目标图像序列P1P2P3PgP4P5P6
根据本发明实施例提供的虚拟人像视频的生成方法,通过建立三音素、嘴部区域坐标以及文本信息之间的对应关系,以能够从样本数据库中获取与目标音频对应的样本三音素所对应的样本图像,对获取的样本图像和目标音频进行合成以生成目标虚拟人像视频,无需对大量数据进行重复训练即可进行视频合成,合成效率高;且合成的视频效果生动形象,具有较高的分辨率,有助于提高智能服务领域的服务效率和服务质量。
下面通过具体实施例对样本数据库的构建过程进行说明。
在一些实施例中,在步骤110之前,该方法还可以包括:
获取样本视频,样本视频包括样本图像序列和样本音频;
基于样本音频,获取与样本音频对应的样本三音素序列;
对样本图像序列和样本三音素序列进行时间对齐,生成时间序列;
基于时间序列,建立样本图像序列中的样本图像与样本三音素序列中的样本三音素之间的映射关系;
将样本图像、与样本图像对应的样本三音素以及样本图像与样本图像对应的样本三音素之间的映射关系存储至样本数据库。
在该实施例中,样本视频为用于构建样本数据库的视频。
样本视频可以为多个人物说话视频,且不同的说话视频中的样本音频所对应的样本文本不同。
例如,可以采集多段目标人物的具有高表现力的说话视频作为样本视频,以提高样本视频的清晰度;并限制目标任务的头部转向角度小于目标阈值,以保证目标人物的嘴部左右对称,从而保证采集的样本图像中的任务的嘴部图像具有对称性。
其中,目标阈值可以基于用户自定义,如设置为10°或12°等。
在实际执行过程中,可以对获取的样本视频进行视频分帧处理,以生成多帧样本图像,其中,多帧样本图像可以记为:P’1P’2P’3…P’n,其中P’n表示样本视频中第n帧样本图像,n为样本视频中的总帧数。
在一些实施例中,基于时间序列,建立样本图像序列中的样本图像与样本三音素序列中的样本三音素之间的映射关系,可以包括:
基于样本图像中人像的嘴部区域信息,生成样本图像中人像的嘴部区域坐标;
建立嘴部区域坐标与其所在的样本图像所对应的样本三音素之间的映射关系。
在该实施例中,对于样本图像中包括人像信息的图像,可以基于人脸检测算法对每张样本图像进行人脸识别与检测,将每张样本图像调整至相同的高与宽,并标记样本图像中人像的位置坐标,用[x1,x2,y1,y2]表示,并取人像的嘴部区域坐标为
Figure BDA0003563905830000131
除此之外,对获取的样本视频进行语音提取,获取样本音频以及样本音频对应的样本文本,利用语音识别系统对样本音频以及样本音频对应的样本文本进行对齐,根据对齐结果,生成样本音频对应的样本三音素序列以及样本三音素序列对应的时间序列。
然后对样本三音素序列进行切分,生成多个样本三音素。基于样本三音素序列对应的时间序列可以获取各样本三音素对应的时长信息。
对于任一样本三音素,可以获取该样本三音素在时间序列上对应于同一时间信息的样本图像,并建立样本三音素与样本图像之间的映射关系。
对于建立有嘴部区域坐标的样本图像而言,建立样本三音素与样本图像之间的映射关系,也即建立样本三音素与该样本三音素对应的样本图像中的人像的嘴部区域坐标之间的映射关系。
根据本发明实施例提供的虚拟人像视频的生成方法,通过建立嘴型区域坐标与样本三音素之间的映射关系数据库,通过人像中嘴型区域的关键点坐标检测,来合成与给定的目标音频对应的目标图像序列,能够保证所生成的目标图像序列的分辨率无损失,且画面生动形象。
下面通过具体实施例,对本申请提供的虚拟人像视频的生成方法的实现方式进行说明。
首先获取样本视频,对获取的样本视频进行视频分帧处理,以生成多帧样本图像,其中,多帧样本图像可以记为:P’1P’2P’3…P’n,其中Pn表示样本视频中第n帧样本图像,n为样本视频中的总帧数。
对于样本图像中包括人像信息的图像,可以基于人脸检测算法对每张样本图像进行人脸识别与检测,将每张样本图像调整至相同的高与宽,并标记样本图像中人像的位置坐标,用[x1,x2,y1,y2]表示,并取人像中嘴型部分区域坐标V为
Figure BDA0003563905830000141
除此之外,对获取的样本视频进行语音提取,获取样本音频以及样本音频对应的样本文本,利用语音识别系统对样本音频以及样本音频对应的样本文本进行对齐,根据对齐结果,生成样本音频对应的样本三音素序列以及样本三音素序列对应的时间序列。
基于三音素对齐结果以及人脸检测结果,实现样本三音素序列与样本图像序列中的口型的对应关系,如样本三音素序列F’1F’2F’3…F’n对应的样本图像序列为P’1P’2P’3…P’n,P’n为第n个样本三音素对应的子样本图像序列,对于任意的P’k,其对应的子样本图像序列可以表示为:P’1kP’2kP’3k…P’mk,其中,m为子样本图像序列中的样本图像的数量,且1≤k≤n。
该子样本图像序列也即时间序列下的嘴部区域坐标序列。
其中,每个样本图像对应16点坐标
Figure BDA0003563905830000142
其中,1≤i≤m,
Figure BDA0003563905830000143
为第k个样本三音素对应的第i张样本图像中的嘴部区域坐标。
在该实施例中,采用108点人脸检测,在其他实施例中,也可以采用其他人脸检测方法,本发明不作限定。
根据以上步骤,即可建立样本三音素与对应的样本图像之间的映射关系,并将该样本三音素、该样本三音素对应的样本图像以及本三音素与对应的样本图像之间的映射关系存储至样本数据库中。
在构建生成样本数据库后,在实际应用中,对于任一目标音频,均可基于语音识别系统将目标音频与该目标音频对应的目标文本进行强制对齐,生成目标音频对应的目标三音素序列F1F2F3…Fm,其中Fm表示目标三音素序列中第m个三音素,m为目标三音素序列中的三音素的总数;以及目标三音素序列对应的音素时长序列T1T2T3…Tm
从样本数据库中随机抽取一组与目标三音素F1对应的子图像序列P’1以及子图像序列P’1对应的时长T1’,通过线性差值将目标三音素对应的时长T1与T1’对应的图像进行对齐处理,以生成目标三音素对应的子目标图像序列。
取F1对应的最后一帧样本图像中嘴型对应的坐标
Figure BDA0003563905830000151
在F对应的子样本图像序列中,通过余弦距离确定与嘴部区域坐标
Figure BDA0003563905830000152
最接近的嘴型对应的坐标所对应的样本图像确定为过渡图像。
重复以上两个步骤,生成目标三音素序列F1F2F3…Fm对应的嘴部区域坐标序列,并将嘴部区域坐标序列与其对应的样本图像中的背景图像进行融合,即可生成目标三音素序列F1F2F3…Fm对应的目标图像序列,并将目标图像序列与目标音频进行合成,生成对应于目标音频的虚拟人像视频,即目标虚拟人像视频。
根据本发明实施例提供的虚拟人像视频的生成方法,通过构建样本数据库以建立并存储样本三音素、样本图像中人像的嘴部区域坐标以及样本文本之间的对应关系,以便于后续实际应用过程中能够从样本数据库中匹配与目标音频对应的样本图像来进行视频合成,无需进行重复训练,合成过程高效快捷,且合成的视频具有较高的分辨率,合成的视频中人物形象更加生动自然。
下面对本发明提供的虚拟人像视频的生成装置进行描述,下文描述的虚拟人像视频的生成装置与上文描述的虚拟人像视频的生成方法可相互对应参照。
如图2所示,该虚拟人像视频的生成装置包括:第一处理模块210、第二处理模块220和第三处理模块230。
第一处理模块210,用于从样本数据库中获取与目标音频对应的M个样本三音素,样本数据库中包括N个样本三音素,以及与N个样本三音素对应的Q个样本图像;
第二处理模块220,用于基于M个样本三音素,分别从样本数据库中获取与M个样本三音素对应的P个样本图像,样本图像包括人像的嘴部区域信息,人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联,其中N≥M,Q≥P,P≥M,Q≥N且M、N、P和Q为正整数;
第三处理模块230,用于基于P个样本图像和目标音频合成目标虚拟人像视频,目标虚拟人像视频中的人像的嘴部区域信息与目标音频相对应。
根据本发明实施例提供的虚拟人像视频的生成装置,通过建立三音素、嘴部区域坐标以及文本信息之间的对应关系,以能够从样本数据库中获取与目标音频对应的样本三音素所对应的样本图像,对获取的样本图像和目标音频进行合成以生成目标虚拟人像视频,无需对大量数据进行重复训练即可进行视频合成,合成效率高;且合成的视频效果生动形象,具有较高的分辨率,有助于提高智能服务领域的服务效率和服务质量。
在一些实施例中,第一处理模块210,还可以用于:
将目标音频与目标音频对应的目标文本进行时间对齐;
将目标文本转化为目标三音素序列;
切分目标三音素序列,生成多个目标三音素;
从样本数据库中匹配得到与目标三音素对应的样本三音素。
在一些实施例中,第二处理模块220,还可以用于:
获取目标三音素在目标音频中的时长信息;
从样本数据库中匹配得到与样本三音素对应的多个样本图像;
基于目标三音素在目标音频中的时长信息调整多个样本图像对应的时长信息。
在一些实施例中,第三处理模块230,还可以用于:
基于P个样本三音素中相邻的两个样本三音素对应的样本图像,生成两个样本三音素对应的样本图像之间的过渡图像;
基于样本图像对应的样本三音素在目标音频中的时间信息,拼接样本图像和过渡图像,生成目标图像序列;
合成目标图像序列和目标音频,生成目标虚拟人像视频。
在一些实施例中,该装置还可以包括:
第四处理模块,用于在从样本数据库中获取与目标音频对应的M个样本三音素之前,获取样本视频,样本视频包括样本图像序列和样本音频;
第五处理模块,用于基于样本音频,获取与样本音频对应的样本三音素序列;
第六处理模块,用于对样本图像序列和样本三音素序列进行时间对齐,生成时间序列;
第七处理模块,用于基于时间序列,建立样本图像序列中的样本图像与样本三音素序列中的样本三音素之间的映射关系;
第八处理模块,用于将样本图像、与样本图像对应的样本三音素以及样本图像与样本图像对应的样本三音素之间的映射关系存储至样本数据库。
在一些实施例中,第七处理模块,还可以用于:
基于样本图像中人像的嘴部区域信息,生成样本图像中人像的嘴部区域坐标;
建立嘴部区域坐标与其所在的样本图像所对应的样本三音素之间的映射关系。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(CommunicationsInterface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行虚拟人像视频的生成方法,该方法包括:从样本数据库中获取与目标音频对应的M个样本三音素,样本数据库中包括N个样本三音素,以及与N个样本三音素对应的Q个样本图像;基于M个样本三音素,分别从样本数据库中获取与M个样本三音素对应的P个样本图像,样本图像包括人像的嘴部区域信息,人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联,其中N≥M,Q≥P,P≥M,Q≥N且M、N、P和Q为正整数;基于P个样本图像和目标音频合成目标虚拟人像视频,目标虚拟人像视频中的人像的嘴部区域信息与目标音频相对应。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的虚拟人像视频的生成方法,该方法包括:从样本数据库中获取与目标音频对应的M个样本三音素,样本数据库中包括N个样本三音素,以及与N个样本三音素对应的Q个样本图像;基于M个样本三音素,分别从样本数据库中获取与M个样本三音素对应的P个样本图像,样本图像包括人像的嘴部区域信息,人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联,其中N≥M,Q≥P,P≥M,Q≥N且M、N、P和Q为正整数;基于P个样本图像和目标音频合成目标虚拟人像视频,目标虚拟人像视频中的人像的嘴部区域信息与目标音频相对应。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的虚拟人像视频的生成方法,该方法包括:从样本数据库中获取与目标音频对应的M个样本三音素,样本数据库中包括N个样本三音素,以及与N个样本三音素对应的Q个样本图像;基于M个样本三音素,分别从样本数据库中获取与M个样本三音素对应的P个样本图像,样本图像包括人像的嘴部区域信息,人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联,其中N≥M,Q≥P,P≥M,Q≥N且M、N、P和Q为正整数;基于P个样本图像和目标音频合成目标虚拟人像视频,目标虚拟人像视频中的人像的嘴部区域信息与目标音频相对应。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种虚拟人像视频的生成方法,其特征在于,包括:
从样本数据库中获取与目标音频对应的M个样本三音素,所述样本数据库中包括N个样本三音素,以及与所述N个样本三音素对应的Q个样本图像;
基于所述M个样本三音素,分别从所述样本数据库中获取与所述M个样本三音素对应的P个样本图像,所述样本图像包括人像的嘴部区域信息,所述人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联,其中N≥M,Q≥P,P≥M,Q≥N且M、N、P和Q为正整数;
基于所述P个样本图像和所述目标音频合成目标虚拟人像视频,所述目标虚拟人像视频中的人像的嘴部区域信息与所述目标音频相对应。
2.根据权利要求1所述的虚拟人像视频的生成方法,其特征在于,所述从样本数据库中获取与目标音频对应的M个样本三音素,包括:
将所述目标音频与所述目标音频对应的目标文本进行时间对齐;
将所述目标文本转化为目标三音素序列;
切分所述目标三音素序列,生成多个目标三音素;
从所述样本数据库中匹配得到与所述目标三音素对应的样本三音素。
3.根据权利要求2所述的虚拟人像视频的生成方法,其特征在于,所述分别从所述样本数据库中获取与所述M个样本三音素对应的P个样本图像,包括:
获取所述目标三音素在所述目标音频中的时长信息;
从所述样本数据库中匹配得到与所述样本三音素对应的多个样本图像;
基于所述目标三音素在所述目标音频中的时长信息调整所述多个样本图像对应的时长信息。
4.根据权利要求1-3任一项所述的虚拟人像视频的生成方法,其特征在于,所述基于所述P个样本图像和所述目标音频合成目标虚拟人像视频,包括:
基于所述P个样本三音素中相邻的两个样本三音素对应的样本图像,生成所述两个样本三音素对应的样本图像之间的过渡图像;
基于所述样本图像对应的样本三音素在所述目标音频中的时间信息,拼接所述样本图像和所述过渡图像,生成目标图像序列;
合成所述目标图像序列和所述目标音频,生成所述目标虚拟人像视频。
5.根据权利要求1-3任一项所述的虚拟人像视频的生成方法,其特征在于,在所述从样本数据库中获取与目标音频对应的M个样本三音素之前,所述方法包括:
获取样本视频,所述样本视频包括样本图像序列和样本音频;
基于所述样本音频,获取与所述样本音频对应的样本三音素序列;
对所述样本图像序列和所述样本三音素序列进行时间对齐,生成时间序列;
基于所述时间序列,建立所述样本图像序列中的样本图像与所述样本三音素序列中的样本三音素之间的映射关系;
将所述样本图像、与所述样本图像对应的样本三音素以及所述样本图像与所述样本图像对应的样本三音素之间的映射关系存储至所述样本数据库。
6.根据权利要求5所述的虚拟人像视频的生成方法,其特征在于,所述基于所述时间序列,建立所述样本图像序列中的样本图像与所述样本三音素序列中的样本三音素之间的映射关系,包括:
基于所述样本图像中人像的嘴部区域信息,生成所述样本图像中人像的嘴部区域坐标;
建立所述嘴部区域坐标与其所在的样本图像所对应的样本三音素之间的映射关系。
7.一种虚拟人像视频的生成装置,其特征在于,包括:
第一处理模块,用于从样本数据库中获取与目标音频对应的M个样本三音素,所述样本数据库中包括N个样本三音素,以及与所述N个样本三音素对应的Q个样本图像;
第二处理模块,用于基于所述M个样本三音素,分别从所述样本数据库中获取与所述M个样本三音素对应的P个样本图像,所述样本图像包括人像的嘴部区域信息,所述人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联,其中N≥M,Q≥P,P≥M,Q≥N且M、N、P和Q为正整数;
第三处理模块,用于基于所述P个样本图像和所述目标音频合成目标虚拟人像视频,所述目标虚拟人像视频中的人像的嘴部区域信息与所述目标音频相对应。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述虚拟人像视频的生成方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述虚拟人像视频的生成方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述虚拟人像视频的生成方法。
CN202210303667.3A 2022-03-24 2022-03-24 虚拟人像视频的生成方法及装置 Active CN115052197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210303667.3A CN115052197B (zh) 2022-03-24 2022-03-24 虚拟人像视频的生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210303667.3A CN115052197B (zh) 2022-03-24 2022-03-24 虚拟人像视频的生成方法及装置

Publications (2)

Publication Number Publication Date
CN115052197A true CN115052197A (zh) 2022-09-13
CN115052197B CN115052197B (zh) 2024-05-28

Family

ID=83157528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210303667.3A Active CN115052197B (zh) 2022-03-24 2022-03-24 虚拟人像视频的生成方法及装置

Country Status (1)

Country Link
CN (1) CN115052197B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116228895A (zh) * 2023-01-16 2023-06-06 北京百度网讯科技有限公司 视频生成方法、深度学习模型训练方法、装置以及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131988A (zh) * 2020-09-14 2020-12-25 北京百度网讯科技有限公司 确定虚拟人物唇形的方法、装置、设备和计算机存储介质
WO2021073416A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 基于神经网络生成虚拟人物视频的方法及相关设备
CN113205797A (zh) * 2021-04-30 2021-08-03 平安科技(深圳)有限公司 虚拟主播生成方法、装置、计算机设备及可读存储介质
CN114155849A (zh) * 2021-11-04 2022-03-08 北京搜狗科技发展有限公司 一种虚拟对象的处理方法、装置和介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021073416A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 基于神经网络生成虚拟人物视频的方法及相关设备
CN112131988A (zh) * 2020-09-14 2020-12-25 北京百度网讯科技有限公司 确定虚拟人物唇形的方法、装置、设备和计算机存储介质
CN113205797A (zh) * 2021-04-30 2021-08-03 平安科技(深圳)有限公司 虚拟主播生成方法、装置、计算机设备及可读存储介质
CN114155849A (zh) * 2021-11-04 2022-03-08 北京搜狗科技发展有限公司 一种虚拟对象的处理方法、装置和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116228895A (zh) * 2023-01-16 2023-06-06 北京百度网讯科技有限公司 视频生成方法、深度学习模型训练方法、装置以及设备
CN116228895B (zh) * 2023-01-16 2023-11-17 北京百度网讯科技有限公司 视频生成方法、深度学习模型训练方法、装置以及设备

Also Published As

Publication number Publication date
CN115052197B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
WO2021073416A1 (zh) 基于神经网络生成虚拟人物视频的方法及相关设备
CN112887698B (zh) 基于神经辐射场的高质量人脸语音驱动方法
CN113256821B (zh) 一种三维虚拟形象唇形生成方法、装置及电子设备
CN116250036A (zh) 用于合成语音的照片级真实感视频的系统和方法
US11968433B2 (en) Systems and methods for generating synthetic videos based on audio contents
KR102409988B1 (ko) 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치
CN112668407A (zh) 人脸关键点生成方法、装置、存储介质及电子设备
CN108648745B (zh) 一种由唇部图像序列到语音编码参数的转换方法
CN116665695B (zh) 虚拟对象口型驱动方法、相关装置和介质
CN115052197B (zh) 虚拟人像视频的生成方法及装置
CN114550239A (zh) 视频生成方法及装置、存储介质、终端
CN114359517A (zh) 虚拟形象生成方法、虚拟形象生成系统和计算设备
CN116597857A (zh) 一种语音驱动图像的方法、系统、装置及存储介质
CN113395569B (zh) 视频生成方法及装置
CN113469292A (zh) 视频合成模型的训练方法、合成方法、装置、介质和设备
CN114049290A (zh) 图像处理方法、装置、设备及存储介质
CN115278297B (zh) 基于驱动视频的数据处理方法、装置、设备及存储介质
CN114581811B (zh) 基于时空注意力机制的视觉语言识别方法和相关设备
CN113221840B (zh) 一种人像视频处理方法
CN116416961A (zh) 基于虚拟主播的新闻稿播报方法、装置及存储介质
CN114155321B (zh) 一种基于自监督和混合密度网络的人脸动画生成方法
CN111034187A (zh) 动态图像的生成方法、装置、可移动平台和存储介质
CN112837318B (zh) 超声图像生成模型的生成方法、合成方法、介质及终端
Narwekar et al. PRAV: A Phonetically Rich Audio Visual Corpus.
JP2003512802A (ja) 三次元モデリングのためのシステム及び方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant