CN113095206A - 虚拟主播生成方法、装置和终端设备 - Google Patents

虚拟主播生成方法、装置和终端设备 Download PDF

Info

Publication number
CN113095206A
CN113095206A CN202110373022.2A CN202110373022A CN113095206A CN 113095206 A CN113095206 A CN 113095206A CN 202110373022 A CN202110373022 A CN 202110373022A CN 113095206 A CN113095206 A CN 113095206A
Authority
CN
China
Prior art keywords
model
face
facial
anchor
current anchor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110373022.2A
Other languages
English (en)
Inventor
董炼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huaduo Network Technology Co Ltd
Original Assignee
Guangzhou Huaduo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huaduo Network Technology Co Ltd filed Critical Guangzhou Huaduo Network Technology Co Ltd
Priority to CN202110373022.2A priority Critical patent/CN113095206A/zh
Publication of CN113095206A publication Critical patent/CN113095206A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2021Shape modification

Abstract

本申请提供了一种虚拟主播生成方法、装置和终端设备,获取某一直播间当前主播的脸部数据,对脸部数据进行处理得到当前主播的脸部图像;根据当前主播的脸部图像提取脸型特征,根据脸型特征从脸型模型库中选择出至少一个脸型模型;获取当前主播的模型选择指令和模型调整指令,根据模型选择指令从至少一个脸型模型选出相应的脸型模型,并根据模型调整指令对相应的脸型模型进行调整,生成虚拟主播。该方法一方面可以使不同主播能选择不同的虚拟形象,且虚拟形象种类多样;另一方面主播可以调整脸型模型,也能满足个性化的要求。

Description

虚拟主播生成方法、装置和终端设备
技术领域
本申请涉及互联网直播技术领域,具体涉及一种虚拟主播生成方法、装置、终端设备和计算机可读存储介质。
背景技术
随着互联网技术及自媒体的发展,出现很多视频平台和对应的视频直播软件。在直播中,主播可通过直播APP进行视频直播从而为用户放送精彩的节目,而用户也可以通过直播APP观看主播直播或与主播进行互动;并且在直播过程中,主播可以以自己真实形象或根据自己的喜好选择素材库中存储的虚拟形象进行展示,例如采用虚拟主持人进行新闻主播;但由于素材库中虚拟形象的数量和形象都比较固定,导致多个主播在直播时使用的虚拟形象都是相同的,无法满足不同主播的个性化需求。
申请内容
有鉴于此,本申请实施例中提供了一种虚拟主播生成方法、终端设备和计算机可读存储介质,以克服现有技术中虚拟直播形象单一的问题。
第一方面,本申请实施例提供了一种虚拟主播生成方法,该方法包括:
获取某一直播间当前主播的脸部数据,对所述脸部数据进行处理得到当前主播的脸部图像;
根据所述当前主播的脸部图像提取脸型特征,根据所述脸型特征从脸型模型库中选择出至少一个脸型模型;
获取当前主播的模型选择指令和模型调整指令,根据所述模型选择指令从至少一个所述脸型模型选出相应的脸型模型,并根据所述模型调整指令对所述相应的脸型模型进行调整,生成虚拟主播。
第二方面,本申请实施例提供了一种虚拟主播生成装置,该装置包括:
脸部数据获取模块,用于获取某一直播间当前主播的脸部数据;
脸部图像获得模块,用于对所述脸部数据进行处理得到所述当前主播的脸部图像;
特征提取模块,用于根据所述当前主播的脸部图像提取脸型特征;
第一脸型模型选择模块,用于根据所述脸型特征从脸型模型库中选择出至少一个脸型模型;
指令获取模块,用于获取当前主播的模型选择指令和模型调整指令;
第二脸型模型选择模块,用于根据所述模型选择指令从至少一个所述脸型模型选出相应的脸型模型;
虚拟主播生成模块,用于根据所述模型调整指令对所述相应的脸型模型进行调整,生成虚拟主播。
第三方面,本申请实施例提供了一种终端设备,包括:存储器;一个或多个处理器,与所述存储器耦接;一个或多个应用程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个应用程序配置用于执行上述第一方面提供的虚拟主播生成方法。
第四方面,本申请实施例提供了一种计算机可读取存储介质,计算机可读取存储介质中存储有程序代码,程序代码可被处理器调用执行上述第一方面提供的虚拟主播生成方法。
本申请实施例提供的虚拟主播生成方法、装置、终端设备和计算机可读存储介质,获取某一直播间当前主播的脸部数据,对脸部数据进行处理得到当前主播的脸部图像;根据当前主播的脸部图像提取脸型特征,根据脸型特征从脸型模型库中选择出至少一个脸型模型;获取当前主播的模型选择指令和模型调整指令,根据模型选择指令从至少一个脸型模型选出相应的脸型模型,并根据模型调整指令对相应的脸型模型进行调整,生成虚拟主播。该虚拟主播生成方法根据主播的脸型特征从脸型模拟库中筛选出多个脸型模型,然后根据主播的选择从多个脸型模型中选出一个脸型模型,主播可以根据自己喜好等对选出的一个脸型模型进行调整,从而生成虚拟直播;该方法一方面可以使不同主播能选择不同的虚拟形象,且虚拟形象种类多样;另一方面主播可以调整脸型模型,也能满足个性化的要求。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的虚拟主播生成方法的应用场景示意图;
图2为本申请一个实施例提供的虚拟主播生成方法的流程示意图;
图3为本申请一个实施例提供的虚拟主播形象的示意图;
图4为本申请一个实施例提供的虚拟主播生成装置结构图;
图5为本申请一个实施例中提供的终端设备的结构示意图;
图6为本申请一个实施例中提供的计算机可读存储介质的结构示意图。
具体实施方式
下面将对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了更详细说明本申请,下面结合附图对本申请提供的一种虚拟主播生成方法、装置、终端设备和计算机存储介质,进行具体地描述。
请参考图1,图1示出了本申请实施例提供的虚拟主播生成方法的应用场景的示意图,该应用场景包括本申请实施例提供的,直播服务器102、直播提供终端104和直播接收终端106。其中,其中直播服务器102、直播提供终端104和直播接收终端106之间设置有网络。网络用于在直播服务器102、直播提供终端104和直播接收终端106之间提供通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。直播服务器102能够与直播提供终端104以及直播接收终端106进行通信,以为直播提供终端104或/和直播接收终端106提供直播服务。例如,直播提供终端104可以将直播间的直播视频流发送给直播服务器102,用户可以通过直播接收终端106访问直播服务器102以观看直播间的直播视频。又例如,直播服务器102也可以在用户订阅的直播间开播时向该用户的直播接收终端106发送通知消息。直播视频流可以是当前正在直播平台中直播的视频流或者直播完成后形成的完整视频流。
在一些实施场景中,直播提供终端104和直播接收终端106可以互换使用。例如,主播可以使用直播提供终端104来为观众提供直播视频服务,也可以作为用户查看其他主播提供的直播视频。又例如,用户可以使用直播接收终端106观看所关注的主播提供的直播视频,也可以作为主播为其他观众提供直播视频服务。
本实施例中,直播提供终端104和直播接收终端106都是一种终端设备,可以是具有显示屏的各种电子设备,包括但不限于智能手机、个人数字助理、平板电脑、个人计算机、笔记本电脑、虚拟现实终端设备、增强现实终端设备等。其中,直播提供终端104和直播接收终端106中可以安装有用于提供互联网直播服务的互联网产品,例如,互联网产品可以是计算机或智能手机中使用的与互联网直播服务相关的应用程序APP、Web网页、小程序等。
可以理解,图1所示的应用场景仅为一种可行的示例,在其它可行的实施例中,该应用场景也可以仅包括图1所示的部分组件或者还可以包括其它的组成部分。例如,图1所示的应用场景还可以包括用于采集主播的直播视频帧的视频采集终端108,视频采集终端108可以直接安装或集成于直播提供终端104,也可以独立于直播提供终端104等,本实施例在此不做限制。
应该理解,直播提供终端104、直播接收终端106、网络和直播服务器102的数目仅仅是示意性的。根据实现需要,可以具有任意数目的直播提供终端104、直播接收终端106、网络和直播服务器102。比如直播服务器可以是多个服务器组成的服务器集群等。其中,直播提供终端104、直播接收终端106通过网络与直播服务器交互,以接收或发送消息等。直播服务器102可以是提供各种服务的服务器。其中直播提供终端104或直播服务器102可以用来执行本申请实施例中提供的一种虚拟主播生成方法的步骤。此外,直播提供终端104在执行本申请实施例中提供的一种虚拟主播生成方法时,可以将一部分步骤在直播提供终端执行,一部分步骤在直播服务器执行,在这里不进行限定。
基于此,本申请实施例中提供了一种虚拟主播生成方法。请参阅图2,图2示出了本申请实施例提供的一种虚拟主播生成方法的流程示意图,以该方法应用于图1中的直播提供终端或直播服务器为例进行说明,包括以下步骤:
步骤S110,获取某一直播间当前主播的脸部数据,对脸部数据进行处理得到当前主播的脸部图像;
其中,脸部数据是指富含脸部特征或信息的一些数据。脸部数据的形式是多样的,包括但不限于照片、视频等。脸部数据可以通过采集主播的直播视频帧的视频采集终端等进行采集获得。
在本实施例中,当前主播的脸部数据可以是在直播打开直播APP准备直播时采集的,也可以是一些直播的历史数据,例如过去一段时间直播产生的视频等。
对脸部数据进行处理得到脸部图像的过程通常是从脸部数据中提取跟脸部相关的图像;脸部图像可以是多张的,每一张脸部图像的拍摄角度、光照、颜色以及直播的表情等可以是不相同的。
步骤S120,根据当前主播的脸部图像提取脸型特征,根据脸型特征从脸型模型库中选择出至少一个脸型模型;
脸型特征是指从主播的脸部图像中提取出的用于反映该脸部所呈现出的脸型状态的特征,即是能表征或描述脸型的一些信息,包括但限于形状特征、纹理特征、表情特征等。其中,脸型包括圆脸(round)、方形脸(square)、三角形脸(triangle)心形脸(heart)等。可以理解的是,每一个主播的脸型特征可以是一个向量,该向量的维数可以根据需要设定,如,脸型特征是可以是1×10维的向量,其中向量的维数可以表示特征的个数或类别。
可选的,在对当前主播的脸部图像进行特征提取时可以采用深度学习方法。
深度学习方法是一类模式分析方法,是学习样本数据的内在规律和表示层次,在学习过程中获得的信息对如文字,图像和声音等数据的解释有很大的帮助,其最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。应当理解,对当前主播的脸部图像进行特征提取的方法可以用很多种,不限于深度学习方法,还包括例如非负矩阵分解特征提取方法、核主成分分析法等。
在得到脸型特征(即当前主播的脸型特征)后,根据脸型特征从脸型模型库中选择出至少一个脸型模型。在选择的过程中,通常是基于相似性的原理,即尽可能查找与当前主播的脸型相似度高的脸型模型。
在一些实施例中,根据脸型特征从脸型模型库中选择出至少一个脸型模型的步骤中,包括:根据脸型特征和脸型模型库中各脸型模型的脸型特征计算当前主播的脸型与各脸型模型的相似度;根据当前主播的脸型与各脸型模型的相似度,选择出至少一个脸型模型。
具体而言,脸型模型库中包含有多个脸型模型,对于每一个脸型模型,需要分别计算该脸型模型与当前主播的脸型的相似度。
应当理解,根据脸型特征和脸型模型库中各脸型模型的脸型特征计算当前主播的脸型与各脸型模型的相似度的方式可以有多种情况,如,可以计算脸型特征与脸型模型库中各脸型模型的脸型特征之间的余弦相似度,从而得到当前主播的脸型与各脸型模型的相似度。也可以通过计算脸型特征与脸型模型库中各脸型模型的脸型特征之间的欧式距离、曼哈顿距离等,来得到当前主播的脸型与各脸型模型的相似度,在此不加以限制。
在得到相似度后,可以根据相似度对脸型模型库中各脸型模型进行排序,然后从排序结果中选择出多个脸型模型。
在一种可选的实施方式中,当脸型特征包括多个或种类有多个时,在根据脸型特征和脸型模型库中各脸型模型的脸型特征计算当前主播的脸型与各脸型模型的相似度的的过程中,可以根据各特征对脸型的影响程度采用加权计算方式。
为了便于理解给出一个详细的实施例,假设当前主播A,其脸型特征为B,脸型模型库中一共有5个脸型模型,其脸型特征分别记为C、D、E、F和G,则需要分别计算脸型特征C、D、E、F和G与脸型特征为B的相似度,相应的,然后根据计算结果从5个脸型模型中选出一个或多个脸型模型。
在一些实施例中,根据脸型特征从脸型模型库中选择出至少一个脸型模型的步骤中,包括:根据脸型特征的特征值与脸型模型库中各脸型模型的脸型特征的特征值计算脸型特征的特征值与各脸型模型的脸型特征的特征值的差值;选择出差值小于预设阈值的脸型模型。
在本实施例中,可以对脸型特征进行量化,即采用特征值来表示脸型特征。可以根据脸型特征(即当前主播的脸型特征)的特征值与脸型模型库中各脸型模型的脸型特征的特征值计算脸型特征的特征值与各脸型模型的脸型特征的特征值的差值,差值越小说明脸型模型与当前主播的脸型越接近或相似,反之,则越不相似。然后将差值与预设阈值进行比较,选择出差值小于预设阈值的脸型模型。
其中,预设阈值可以是预先设置的值,可以是一个点值,也可以是一个范围值,可以根据实际需求进行选择。
步骤S130,获取当前主播的模型选择指令和模型调整指令,根据模型选择指令从至少一个脸型模型选出相应的脸型模型,并根据模型调整指令对相应的脸型模型进行调整,生成虚拟主播。
模型选择指令包含脸型模型信息,用于从脸型模型库中选择出至少一个脸型模型选择出当前主播想要选择的脸型模型。
模型调整指令包含有一些模型调整参数,用来对当前主播选择的脸型模型进行参数调整,在调整完成后,生成虚拟主播。其中虚拟主播的形象或外形结构如图3所示。
可选地,模型调整参数包括如肤色、眼睛大小、眼睛形状、眉毛形状、嘴巴形状、发型、头发颜色、头发长度等参数。
本申请实施例提供的虚拟主播生成方法,获取某一直播间当前主播的脸部数据,对脸部数据进行处理得到当前主播的脸部图像;根据当前主播的脸部图像提取脸型特征,根据脸型特征从脸型模型库中选择出至少一个脸型模型;获取当前主播的模型选择指令和模型调整指令,根据模型选择指令从至少一个脸型模型选出相应的脸型模型,并根据模型调整指令对相应的脸型模型进行调整,生成虚拟主播。该虚拟主播生成方法根据主播的脸型特征从脸型模拟库中筛选出多个脸型模型,然后根据主播的选择从多个脸型模型中选出一个脸型模型,主播可以根据自己喜好等对选出的一个脸型模型进行调整,从而生成虚拟直播;该方法一方面可以使不同主播能选择不同的虚拟形象,且虚拟形象种类多样;另一方面主播可以调整脸型模型,也能满足个性化的要求。
在一个实施例中,脸型模型库的建立方法,包括:获取骨骼模型图像样本,对骨骼模型图像样本进行分析生成多个脸型模型;根据多个脸型模型构建脸型模型库,其中每一个脸型模型对应一个脸型特征。
其中,骨骼模型图像样本是从骨骼模型数据库中获得的一些骨骼模型图像,对这些骨骼模型图像进行分析,可以得到多个脸型模型。其中每一个脸型模型是一个特征脸型3D模型,每个脸型模型都有其脸型特征,每一个脸型特征都有对应的特征值,其中特征值的数量可以是多个;例如:长脸和圆脸的基础模型和骨骼是不一样的。每个基本模型对应一套不同的特征值。
在一个实施例中,在根据当前主播的脸部图像提取脸型特征的步骤中,包括:对当前主播的脸部图像采用深度学习3DMM方法进行图像重建,得到当前主播的人脸模型;根据当前主播的人脸模型,得到脸型特征。
具体的,3DMM方法又叫3DMM模型,其中3DMM(3D Morphable models),三维可变形人脸模型。是一个通用的三维人脸模型,用固定的点数来表示人脸。它的核心思想就是人脸可以在三维空间中进行一一匹配,并且可以由其他许多幅人脸正交基加权线性相加而来。我们所处的三维空间,每一点(x,y,z),实际上都是由三维空间三个方向的基量(1,0,0),(0,1,0),(0,0,1)加权相加所得,只是权重分别为x,y,z。
转换到三维空间也一样。每一个三维的人脸,可以由一个数据库中的所有人脸组成的基向量空间中进行表示,而求解任意三维人脸的模型,实际上等价于求解各个基向量的系数的问题。
人脸的基本属性包括形状和纹理,每一张人脸可以表示为形状向量和纹理向量的线性叠加。形状向量Shape Vector:S=(X1,Y1,Z1,X2,Y2,Z2,...,Yn,Zn),纹理向量Texture Vector:T=(R1,G1,B1,R2,G2,B2,...,Rn,Bn),任意的人脸模型可以由数据集中的m个人脸模型进行加权组合。基于3DMM求解三维人脸需要解决的问题就是形状、纹理等系数的估计,具体就是如何将2D人脸拟合到3D模型上。
基于深度学习3DMM方法就是采用深度学习的方法来对3DMM模型进行回归相关系数计算,从而估算出形状、纹理等系数(即3DMM参数),进而得到重建后的人脸模型。在本实施例中,采用深度学习3DMM方法进行图像重建,得到当前主播的人脸模型,然后根据人脸模型得到脸型特征。可选地,脸型特征可以通过形状、纹理等系数(即3DMM参数)来确定。
可选地,基于深度学习3DMM方法可以是全监督的3DMM方法、自监督3DMM方法和人脸的三维特征编码的3DMM方法,在此不做限定。其中,全监督的3DMM方法是指采用全监督方法来对3DMM模型进行回归相关系数计算;自监督3DMM方法是采用自监督方法来对3DMM模型进行回归相关系数计算;人脸的三维特征编码的3DMM方法是采用人脸的三维特征编码来对3DMM模型进行回归相关系数计算。
在一些实施例中,在对当前主播的脸部图像采用深度学习3DMM方法进行图像重建,得到当前主播的人脸模型的步骤中,包括:采用CNN算法根据当前主播的脸部图像来调整3DMM人脸模型参数,得到当前主播的人脸模型。
具体而言,采用CNN算法根据当前主播的脸部图像来调整3DMM人脸模型参数即为采用CNN(卷积神经网络)算法来对3DMM模型进行回归相关系数计算。3DMM CNN是一个非常简单的回归模型,使用了ResNet101网络直接回归出3DMM的形状系数和纹理系数,形状系数和纹理系数各有99维,除此之外还有几个核心问题。
首先是数据集的获取。由于真实的三维人脸和二维人脸图像对非常缺乏,采集成本高,可以用CASIA数据集中的多张照片进行model fitting(即将2D人脸拟合到3D模型上)求解生成了对应的三维人脸模型,将其作为真值(Ground Truth),从而得到了二维三维图像对。
然后是优化目标的设计。因为重建的结果是一个三维模型,所以损失函数是在三维的空间中计算,如果使用标准的欧拉损失函数来最小化距离,会使得到的人脸模型太泛化,趋于平均脸。对此作者们提出了一个非对称欧拉损失,使模型学习到更多的细节特征,使三维人脸模型具有更多的区别性,公式如下:
Figure BDA0003010021850000091
Figure BDA0003010021850000092
Figure BDA0003010021850000093
Figure BDA0003010021850000101
其中,
Figure BDA0003010021850000102
表示过度估计时的计算公式,
Figure BDA0003010021850000103
表示估计不足或低估时的计算公式;γ是标签,γp是预测值,通过两个权重λ1和λ2对损失进行控制,作者设定λ2权重更大,所以是期望γp能够更大一些,从而提供更多的细节。
在本实施例中,数据集是从CASIA数据集选取500K图像。而真实的2D图像为当前主播的脸部图像;具体过程为:将当前主播的脸部图像拟合到3D模型上,生成当前主播的3DMM(即当前主播的人脸模型)。
应当理解,在当前主播的人脸模型获得的过程采用的算法不限于本实施例中提到的CNN算法,根据本发明的技术启示,本领域技术人员还可以采用其他算法来进行当前主播的人脸模型重建。
在一些实施例中,还包括:获取当前主播的声音数据和/或动作数据;将声音数据和/或动作数据叠加至虚拟主播,生成虚拟主播的视频画面,并以虚拟主播的视频画面为各用户进行直播。
其中,动作数据可以包括但不限于肢体动作数据、面部表情动作数据等中的至少一种;声音数据包括但不限于音色数据、音量数据、声音内容数据等中的至少一种。实际实施时,当虚拟主播为卡通人物形象时,可将该卡通人物形象的肢体动作、面部表情或声音等与采集到当前主播的动作数据和所述声音数据进行关联,使得卡通人物形象可按照当前主播的肢体动作数据、面部表情数据或声音执行相应的肢体动作、面部表情、声音,将卡通人物形象和当前主播的声音数据和/或动作数据叠加摄录的视频画面合成得到卡通人物视频画面,然后将实时生成的卡通人物视频画面进行直播,从而供各用户观看。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
上述本申请公开的实施例中详细描述了一种虚拟主播生成方法,对于本申请公开的上述方法可采用多种形式的设备实现,因此本申请还公开了对应上述方法的虚拟主播生成装置,下面给出具体的实施例进行详细说明。
请参阅图4,为本申请实施例公开的一种虚拟主播生成装置,主要包括:
脸部数据获取模块402,用于获取某一直播间当前主播的脸部数据;
脸部图像获得模块404,用于对脸部数据进行处理得到当前主播的脸部图像;
特征提取模块406,用于根据当前主播的脸部图像提取脸型特征;
第一脸型模型选择模块408,根据脸型特征从脸型模型库中选择出至少一个脸型模型;
指令获取模块410,用于获取当前主播的模型选择指令和模型调整指令;
第二脸型模型选择模块412,用于根据模型选择指令从至少一个脸型模型选出相应的脸型模型;
虚拟主播生成模块414,用于根据模型调整指令对相应的脸型模型进行调整,生成虚拟主播。
在一个实施例中,包括:
图像样本获取模块,用于获取骨骼模型图像样本;
脸型模型生成模块,用于对骨骼模型图像样本进行分析生成多个脸型模型;
脸型模型库建立模块,用于根据多个脸型模型构建脸型模型库,其中每一个脸型模型对应一个脸型特征。
在一个实施例中,第一脸型模型选择模块包括相似度计算模块:
相似度计算模块,用于根据脸型特征和脸型模型库中各脸型模型的脸型特征计算当前主播的脸型与各脸型模型的相似度;
第一脸型模型选择模块,还用于根据当前主播的脸型与各脸型模型的相似度,选择出至少一个脸型模型。
在一个实施例中,第一脸型模型选择模块包括差值计算模块:
差值计算模块,用于根据脸型特征的特征值与脸型模型库中各脸型模型的脸型特征的特征值计算脸型特征的特征值与各脸型模型的脸型特征的特征值的差值;
第一脸型模型选择模块,还用于选择出差值小于预设阈值的脸型模型。
在一个实施例中,特征提取模块包括:
人脸模型获得模块,用于对当前主播的脸部图像采用深度学习3DMM方法进行图像重建,得到当前主播的人脸模型;
脸型特征获得模块,用于根据当前主播的人脸模型,得到脸型特征。
在一个实施例中,人脸模型获得模块,还用于采用CNN算法根据当前主播的脸部图像来调整3DMM人脸模型参数,得到当前主播的人脸模型。
在一个实施例中,还包括:
声音动作数据获取模块,用于获取当前主播的声音数据和/或动作数据;
叠加模块,用于将声音数据和/或动作数据叠加至虚拟主播,生成虚拟主播的视频画面,并以虚拟主播的视频画面为各用户进行直播。
关于虚拟主播生成装置的具体限定可以参见上文中对于方法的限定,在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端设备中的处理器中,也可以以软件形式存储于终端设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
请参考图5,图5其示出了本申请实施例提供的一种终端设备的结构框图。该终端设备50可以是计算机设备。本申请中的终端设备50可以包括一个或多个如下部件:处理器52、存储器54以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器54中并被配置为由一个或多个处理器52执行,一个或多个应用程序配置用于执行上述应用于终端设备的方法实施例中所描述的方法,也可以配置用于执行上述应用于数据聚合的方法实施例中所描述的方法。
处理器52可以包括一个或者多个处理核。处理器52利用各种接口和线路连接整个终端设备50内的各个部分,通过运行或执行存储在存储器54内的指令、程序、代码集或指令集,以及调用存储在存储器54内的数据,执行终端设备50的各种功能和处理数据。可选地,处理器52可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器52可集成中央处理器(Cen tralProcessingUnit,CPU)、埋点数据的上报验证器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器52中,单独通过一块通信芯片进行实现。
存储器54可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器54可用于存储指令、程序、代码、代码集或指令集。存储器54可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备50在使用中所创建的数据等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端设备的限定,具体的终端设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
综上,本申请实施例提供的终端设备用于实现前述方法实施例中相应的虚拟主播生成方法,并具有相应的方法实施例的有益效果,在此不再赘述。
请参阅图6,其示出了本申请实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取存储介质60中存储有程序代码,程序代码可被处理器调用执行上述虚拟主播生成方法实施例中所描述的方法,也可以被处理器调用执行上述虚拟主播生成方法实施例中所描述的方法。
计算机可读取存储介质60可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读取存储介质60包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读取存储介质60具有执行上述方法中的任何方法步骤的程序代码62的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码62可以例如以适当形式进行压缩。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种虚拟主播生成方法,其特征在于,所述方法包括:
获取某一直播间当前主播的脸部数据,对所述脸部数据进行处理得到当前主播的脸部图像;
根据所述当前主播的脸部图像提取脸型特征,根据所述脸型特征从脸型模型库中选择出至少一个脸型模型;
获取当前主播的模型选择指令和模型调整指令,根据所述模型选择指令从至少一个所述脸型模型选出相应的脸型模型,并根据所述模型调整指令对所述相应的脸型模型进行调整,生成虚拟主播。
2.根据权利要求1所述的方法,其特征在于,所述脸型模型库的建立方法,包括:
获取骨骼模型图像样本,对所述骨骼模型图像样本进行分析生成多个脸型模型;
根据多个所述脸型模型构建所述脸型模型库,其中每一个所述脸型模型对应一个脸型特征。
3.根据权利要求2所述的方法,其特征在于,根据所述脸型特征从脸型模型库中选择出至少一个脸型模型的步骤中,包括:
根据所述脸型特征和所述脸型模型库中各所述脸型模型的脸型特征计算当前主播的脸型与各所述脸型模型的相似度;
根据当前主播的脸型与各所述脸型模型的相似度,选择出至少一个所述脸型模型。
4.根据权利要求2所述的方法,其特征在于,根据所述脸型特征从脸型模型库中选择出至少一个脸型模型的步骤中,包括:
根据所述脸型特征的特征值与所述脸型模型库中各所述脸型模型的脸型特征的特征值计算所述脸型特征的特征值与各所述脸型模型的脸型特征的特征值的差值;
选择出所述差值小于预设阈值的所述脸型模型。
5.根据权利要求3或4所述的方法,其特征在于,在根据所述当前主播的脸部图像提取脸型特征的步骤中,包括:
对所述当前主播的脸部图像采用深度学习3DMM方法进行图像重建,得到当前主播的人脸模型;
根据所述当前主播的人脸模型得到所述脸型特征。
6.根据权利要求5所述的方法,其特征在于,在对所述当前主播的脸部图像采用所述深度学习3DMM方法进行图像重建,得到当前主播的人脸模型的步骤中,包括:
采用CNN算法根据所述当前主播的脸部图像来调整3DMM人脸模型参数,得到所述当前主播的人脸模型。
7.根据权利要求6所述所述的方法,其特征在于,还包括:
获取所述当前主播的声音数据和/或动作数据;
将所述声音数据和/或动作数据叠加至所述虚拟主播,生成虚拟主播的视频画面,并以虚拟主播的视频画面为各用户进行直播。
8.一种虚拟主播生成装置,其特征在于,所述装置包括:
脸部数据获取模块,用于获取某一直播间当前主播的脸部数据;
脸部图像获得模块,用于对所述脸部数据进行处理得到当前主播的脸部图像;
特征提取模块,用于根据所述当前主播的脸部图像提取脸型特征;
第一脸型模型选择模块,用于根据所述脸型特征从脸型模型库中选择出至少一个脸型模型;
指令获取模块,用于获取当前主播的模型选择指令和模型调整指令;
第二脸型模型选择模块,用于根据所述模型选择指令从至少一个所述脸型模型选出相应的脸型模型;
虚拟主播生成模块,用于根据所述模型调整指令对所述相应的脸型模型进行调整,生成虚拟主播。
9.一种终端设备,其特征在于,包括:
存储器;一个或多个处理器,与所述存储器耦接;一个或多个应用程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个应用程序配置用于执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。
CN202110373022.2A 2021-04-07 2021-04-07 虚拟主播生成方法、装置和终端设备 Pending CN113095206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110373022.2A CN113095206A (zh) 2021-04-07 2021-04-07 虚拟主播生成方法、装置和终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110373022.2A CN113095206A (zh) 2021-04-07 2021-04-07 虚拟主播生成方法、装置和终端设备

Publications (1)

Publication Number Publication Date
CN113095206A true CN113095206A (zh) 2021-07-09

Family

ID=76674974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110373022.2A Pending CN113095206A (zh) 2021-04-07 2021-04-07 虚拟主播生成方法、装置和终端设备

Country Status (1)

Country Link
CN (1) CN113095206A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114245155A (zh) * 2021-11-30 2022-03-25 北京百度网讯科技有限公司 直播方法、装置及电子设备
CN114979682A (zh) * 2022-04-19 2022-08-30 阿里巴巴(中国)有限公司 多主播虚拟直播方法以及装置
CN116993918A (zh) * 2023-08-11 2023-11-03 无锡芯算智能科技有限公司 基于深度学习的主播形象建模系统及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114245155A (zh) * 2021-11-30 2022-03-25 北京百度网讯科技有限公司 直播方法、装置及电子设备
CN114979682A (zh) * 2022-04-19 2022-08-30 阿里巴巴(中国)有限公司 多主播虚拟直播方法以及装置
CN114979682B (zh) * 2022-04-19 2023-10-13 阿里巴巴(中国)有限公司 多主播虚拟直播方法以及装置
CN116993918A (zh) * 2023-08-11 2023-11-03 无锡芯算智能科技有限公司 基于深度学习的主播形象建模系统及方法
CN116993918B (zh) * 2023-08-11 2024-02-13 无锡芯算智能科技有限公司 基于深度学习的主播形象建模系统及方法

Similar Documents

Publication Publication Date Title
CN110390704B (zh) 图像处理方法、装置、终端设备及存储介质
WO2021238595A1 (zh) 基于人工智能的图像生成方法、装置、设备及存储介质
WO2021088556A1 (zh) 图像处理方法、装置、设备及存储介质
CN113095206A (zh) 虚拟主播生成方法、装置和终端设备
WO2019173108A1 (en) Electronic messaging utilizing animatable 3d models
WO2021184933A1 (zh) 一种人体三维模型重建方法
CN111369681A (zh) 三维模型的重构方法、装置、设备及存储介质
KR102491140B1 (ko) 가상 아바타 생성 방법 및 장치
KR20210074360A (ko) 이미지 처리 방법, 디바이스 및 장치, 그리고 저장 매체
CN110969572B (zh) 换脸模型训练方法、人脸互换方法、装置及电子设备
CN114339409B (zh) 视频处理方法、装置、计算机设备及存储介质
CN111464834A (zh) 一种视频帧处理方法、装置、计算设备及存储介质
US20230073340A1 (en) Method for constructing three-dimensional human body model, and electronic device
CN115601484B (zh) 虚拟人物面部驱动方法、装置、终端设备和可读存储介质
CN110458924B (zh) 一种三维脸部模型建立方法、装置和电子设备
CN113850168A (zh) 人脸图片的融合方法、装置、设备及存储介质
CN115222862A (zh) 虚拟人衣物生成方法、装置、设备、介质及程序产品
CN111182350A (zh) 图像处理方法、装置、终端设备及存储介质
CN112381707A (zh) 图像生成方法、装置、设备以及存储介质
CN114202615A (zh) 人脸表情的重建方法、装置、设备和存储介质
CN113393544A (zh) 一种图像处理方法、装置、设备及介质
CN116342782A (zh) 生成虚拟形象渲染模型的方法和装置
CN116630485A (zh) 虚拟形象的驱动方法、虚拟形象的渲染方法以及电子设备
CN115984447A (zh) 图像渲染方法、装置、设备和介质
CN115393487A (zh) 一种虚拟角色模型处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination