CN114422832A - 主播虚拟形象生成方法及装置 - Google Patents

主播虚拟形象生成方法及装置 Download PDF

Info

Publication number
CN114422832A
CN114422832A CN202210049881.0A CN202210049881A CN114422832A CN 114422832 A CN114422832 A CN 114422832A CN 202210049881 A CN202210049881 A CN 202210049881A CN 114422832 A CN114422832 A CN 114422832A
Authority
CN
China
Prior art keywords
limb
face
image
parameters
position information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210049881.0A
Other languages
English (en)
Inventor
盛亦来
章怀宙
胡钧豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bilibili Technology Co Ltd
Original Assignee
Shanghai Bilibili Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bilibili Technology Co Ltd filed Critical Shanghai Bilibili Technology Co Ltd
Priority to CN202210049881.0A priority Critical patent/CN114422832A/zh
Publication of CN114422832A publication Critical patent/CN114422832A/zh
Priority to US18/152,433 priority patent/US20230230305A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/77Determining position or orientation of objects or cameras using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Abstract

本申请提供主播虚拟形象生成方法及装置,其中所述主播虚拟形象生成方法包括:获取图像采集设备采集的目标主播的人体图像,所述人体图像中至少包括目标主播的人脸和上半身;对所述人体图像分别进行人脸识别及上半身肢体识别,获得人脸特征和肢体特征;基于所述人脸特征和所述肢体特征,设置所述目标主播的虚拟形象参数,根据所述虚拟形象参数,生成所述目标主播对应的虚拟形象。本方案可以兼顾直播的便捷性和内容丰富度。

Description

主播虚拟形象生成方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种主播虚拟形象生成方法。本申请同时涉及一种主播虚拟形象生成装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
在直播技术中,根据主播真人的动作和表情,在视频帧中展示与主播真人具有相同或相近动作及表情的虚拟形象,可以极大地提升直播内容的丰富度。
相关技术中,通常在直播过程中通过专业的捕捉设备捕捉主播真人的动作和表情。但是,上述专业的捕捉设备往往操作复杂,并且,需要配置专门的使用场地。因此,需要提供更加便捷的方案。
发明内容
有鉴于此,本申请实施例提供了一种主播虚拟形象生成方法。本申请同时涉及一种主播虚拟形象生成装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的主播虚拟形象生成不够便捷的问题。
根据本申请实施例的第一方面,提供了一种主播虚拟形象生成方法,包括:
获取图像采集设备采集的目标主播的人体图像,所述人体图像中至少包括目标主播的人脸和上半身;
对所述人体图像分别进行人脸识别及上半身肢体识别,获得人脸特征和肢体特征;
基于所述人脸特征和所述肢体特征,设置所述目标主播的虚拟形象参数,根据所述虚拟形象参数,生成所述目标主播对应的虚拟形象。
根据本申请实施例的第二方面,提供了一种主播虚拟形象生成装置,包括:
图像获取模块,被配置为获取图像采集设备采集的目标主播的人体图像,所述人体图像中至少包括目标主播的人脸和上半身;
特征获取模块,被配置为对所述人体图像分别进行人脸识别及上半身肢体识别,获得人脸特征和肢体特征;
虚拟形象生成模块,被配置为基于所述人脸特征和所述肢体特征,设置所述目标主播的虚拟形象参数,根据所述虚拟形象参数,生成所述目标主播对应的虚拟形象。
根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述主播虚拟形象生成方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述主播虚拟形象生成方法的步骤。
本申请一实施例实现了获取图像采集设备采集的目标主播的人体图像,人体图像中至少包括目标主播的人脸和上半身;对人体图像分别进行人脸识别及上半身的肢体识别,获得人脸特征和肢体特征;基于人脸特征和肢体特征,设置目标主播的虚拟形象参数,根据虚拟形象参数,生成目标主播对应的虚拟形象。其中,上半身的肢体动作通常具有变化幅度和变化速度相对较小的特点。并且,人体图像中至少包括目标主播的人脸和上半身。因此,直接获取图像采集设备采集的人体图像,可以对人体图像分别进行人脸识别及上半身的肢体识别,获得人脸特征和肢体特征。并且,人脸特征和肢体特征表征了目标主播的头部和上半身的特质,可以反映目标主播的动作和表情。因此,本实施例可以实现通过图像采集设备直接捕捉目标主播的动作和表情的效果,无需依赖专门的捕捉设备。在此基础上,基于人脸特征和肢体特征,设置目标主播的虚拟形象参数,根据虚拟形象参数,生成目标主播对应的虚拟形象,可以保证生成的虚拟形象与目标主播的动作和表情对应,以保证直播的内容丰富度。因此,本方案无需依赖专门的捕捉设备即可实现主播虚拟形象的生成,可以兼顾直播的便捷性以及内容丰富度。
附图说明
图1是本申请一实施例提供的一种主播虚拟形象生成方法的流程图;
图2是本申请另一实施例提供的一种主播虚拟形象生成方法中,头部的滚转角、偏航角以及俯仰角的示意图;
图3是本申请另一实施例提供的一种主播虚拟形象生成方法中,头部姿态参数的更新流程示意图;
图4是本申请另一实施例提供的一种主播虚拟形象生成方法中,表情特征点的示意图;
图5是本申请另一实施例提供的一种主播虚拟形象生成方法中,人脸表情参数的更新流程示意图;
图6是本申请另一实施例提供的一种主播虚拟形象生成方法中,肢体姿态参数的更新流程示意图;
图7是本申请另一实施例提供的一种主播虚拟形象生成方法的流程示意图;
图8是本申请一实施例提供的一种主播虚拟形象生成装置的结构示意图;
图9是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本申请一个或多个实施例涉及的名词术语进行解释。
动作捕捉:跟踪物体的关键部位,通过计算机对跟踪结果进行处理,得到三维空间坐标系中表征动作的数据。
面部捕捉:跟踪面部轮廓及特征点,经过处理后得到面部的位置及关键点坐标数据。
RGB摄像头:也称彩色摄像头,RGB代表红、绿、蓝三个通道的颜色,该摄像头可以用于进行非常精确的彩色图像采集。
反向运动(IK,Inverse Kinematics):也称逆向运动学,是指在给定末端的空间位置的前提下,求解关节需要成多少角度。
机器学习(ML,Machine Learning):一门多领域交叉学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
感兴趣区域(ROI,region of interest):机器视觉、图像处理中,被处理的图像中需要处理的区域。在一种情况中,可以采用指定形状,例如方框、圆、椭圆、不规则多边形等形状勾勒出感兴趣区域,以方便对感兴趣区域的利用。
回归算法:一种用于连续型分布预测的机器学习算法。回归算法针对的是数值型的样本,回归算法可以针对给定的输入预测出一个数值,这样可以预测连续型数据而不仅仅是离散的类别标签。
姿态:位置和旋转数据。
虚拟形象驱动:利用姿态和表情数据使虚拟形象呈现与摄像头所捕获真人相同或相近的动作或表情。
在本申请中,提供了一种主播虚拟形象生成方法,本申请同时涉及一种主播虚拟形象生成装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例提供的一种主播虚拟形象生成方法的流程图,具体包括以下步骤:
S102,获取图像采集设备采集的目标主播的人体图像,人体图像中至少包括目标主播的人脸和上半身。
在具体应用中,本申请实施例提供的主播虚拟形象生成方法,可以应用于直播的客户端或者直播的服务端。并且,图像采集设备具体可以是多种的。示例性的,图像采集设备可以为安装在直播的客户端上的摄像头,例如,移动终端上的摄像头。或者,示例性的,图像采集设备可以为与直播的客户端通信连接、且独立于该客户端的图像采集设备,例如,可以与该客户端通信连接的RGB摄像头、摄像机等等。并且,获取图像采集设备采集的目标主播的人体图像的方式,具体可以是多种的。示例性的,若本申请实施例应用于直播的客户端,则可以直接接收图像采集设备采集的目标主播的人体图像;或者,若本申请实施例应用于直播的服务端,则可以直接接收直播的客户端发送的、由图像采集设备采集的目标主播的人体图像,这都是合理的。另外,在图像采集设备采集的数据为直播视频的情况下,可以从直播视频中采集至少包括目标主播的人脸和上半身的视频帧,得到人体图像。
S104,对人体图像分别进行人脸识别及上半身肢体识别,获得人脸特征和肢体特征。
在具体应用中,与专门的捕捉设备不同的是,上述图像采集设备本身通常无法实现长距捕捉,且易受干扰。并且,主播大部分时间是坐姿直播,针对这个细分使用场景,本实施例通过人体图像中至少包括目标主播的人脸和上半身,对人体图像分别进行人脸识别及上半身肢体识别,获得人脸特征和肢体特征。这样,可以利用上半身的肢体动作通常具有变化幅度和变化速度相对较小的特点,保证通过本步骤获得的人脸特征和肢体特征可以分别表征目标主播的面部和姿态。并且,目标主播上半身的姿态是指目标主播上半身的位置和旋转数据,可以反映目标主播的上半身肢体动作。因此,本步骤可以实现以图像采集设备对主播进行面部捕捉和动作捕捉的效果。
并且,对人体图像分别进行人脸识别及上半身肢体识别,获得人脸特征和肢体特征的方式可以是多种的。示例性的,可以根据人脸器官的形状数据,以及人脸器官之间的距离关系,设置人脸模板;将人体图像中与人脸模板匹配的部分,确定为人脸特征。类似的,可以根据上半身肢体的形状数据,以及上半身肢体之间的距离关系,设置上半身肢体模板;将人体图像中与上半身肢体模板匹配的部分,确定为肢体特征。或者,示例性的,可以从人体图像中识别存在人脸的人脸区域,识别人脸区域中的人脸特征点,获得人脸特征;从人体图像中识别存在上半身肢体的肢体区域,识别肢体区域中的肢体特征点,获得肢体特征。为了便于理解和合理布局,后续以可选实施例的形式对第二种示例进行具体说明。
另外,人脸特征和肢体特征具体可以是多种的,例如,人脸特征和肢体特征可以为特征点、感兴趣区域、纹理、灰度等等,这都是合理的。
S106,基于人脸特征和肢体特征,设置目标主播的虚拟形象参数,根据虚拟形象参数,生成目标主播对应的虚拟形象。
其中,目标主播的虚拟形象参数是指表征目标主播的虚拟形象的上半身姿态和面部表情的参数,该上半身姿态可以包括头部姿态和肢体姿态。
在具体应用中,基于人脸特征和肢体特征,设置目标主播的虚拟形象参数的方式可以是多种的。示例性的,可以从预先建立的虚拟形象参数与人脸特征的对应关系中,查找与人脸特征匹配的虚拟形象参数,作为目标主播的头部形象参数;从预先建立的虚拟形象参数与肢体特征的对应关系中,查找与肢体特征匹配的虚拟形象参数,作为目标主播的肢体形象参数;将头部形象参数和肢体形象参数确定为目标主播的虚拟形象参数。或者,示例性的,可以对人脸特征分别进行头部姿态、人脸表情和肢体的解析,基于解析结果获得目标主播的虚拟形象参数。为了便于理解和合理布局,后续以可选实施例的形式对第二种示例进行具体说明。
并且,根据虚拟形象参数,生成目标主播对应的虚拟形象的方式具体可以是多种的。示例性的,可以获取预设虚拟形象,利用目标主播的虚拟形象参数更新预设虚拟形象,得到目标主播对应的虚拟形象。或者,示例性的,可以从预先建立的虚拟形象与虚拟形象参数的对应关系中,查找目标主播的虚拟形象参数对应的虚拟形象,作为目标主播对应的虚拟形象。任何可以根据虚拟形象参数,生成目标主播对应的虚拟形象的方式,均可用于本申请,本实施例对此不作限制。
本申请一实施例中,上半身的肢体动作通常具有变化幅度和变化速度相对较小的特点。并且,人体图像中至少包括目标主播的人脸和上半身。因此,直接获取图像采集设备采集的人体图像,可以对人体图像分别进行人脸识别及上半身的肢体识别,获得人脸特征和肢体特征。并且,人脸特征和肢体特征表征目标主播的头部和上半身的特质,可以反映目标主播的动作和表情。因此,本实施例可以实现通过图像采集设备直接捕捉目标主播的动作和表情的效果,无需依赖专门的捕捉设备。在此基础上,基于人脸特征和肢体特征,设置目标主播的虚拟形象参数,根据虚拟形象参数,生成目标主播对应的虚拟形象,可以保证生成的虚拟形象与目标主播的动作和表情对应,以保证直播的内容丰富度。因此,本方案无需依赖专门的捕捉设备即可实现主播虚拟形象生成,可以兼顾直播的便捷性以及内容丰富度。
在一种可选的实施方式中,上述对人体图像分别进行人脸识别及上半身的肢体识别,获得人脸特征和肢体特征,具体可以包括如下步骤:
从人体图像中识别人脸区域,基于人脸区域确定人脸特征;
从人体图像中识别上半身肢体区域,基于上半身肢体区域确定肢体特征。
在具体应用中,人脸特征具体可以是多种的,例如,人脸特征可以为人脸区域的特征点、感兴趣区域、纹理、灰度等等。其中,人脸区域的特征点也就是人脸特征点具体可以为人脸区域中的像素点,或者该像素点在人脸区域中的位置信息。类似的,肢体特征具体可以是多种的,例如,肢体特征可以为上半身肢体区域的特征点、感兴趣区域、纹理、灰度等等。其中,上半身肢体区域的特征点也就是肢体特征点具体可以为肢体区域中的像素点,或者该像素点在肢体区域中的位置信息。并且,从人体图像中识别人脸区域,以及从人体图像中识别上半身肢体区域类似,均为识别感兴趣区域。区别在于所识别的感兴趣区域中的内容不同,人脸区域中的内容为人脸,上半身肢体区域中的内容为上半身肢体。本实施例通过先识别感兴趣区域,再基于感兴趣区域确定特征,例如人脸特征和肢体特征,可以减少直接对整个人体图像进行特征识别造成的效率降低和误识别,从而提高效率和准确度。
并且,主播直播的场景通常较为固定。因此,上述识别感兴趣区域可以通过比较人体图像与参考图像实现。其中,参考图像为不包括人体、且与主播直播的场景相同或相似的图像。具体的,可以识别人体图像与参考图像中存在差异、且面积大于面积阈值的目标区域,作为感兴趣区域。在一种情况中,目标区域可能为多个相互独立的区域。并且,人脸和上半身肢体具有特定形状和面积区间。因此,可以利用目标区域的边缘点绘制目标区域的轮廓,将轮廓符合指定形状、且面积属于指定区间的目标区域作为感兴趣区域。其中,若感兴趣区域为人脸区域,则指定形状可以为椭圆形、圆形等等,指定区间为根据经验或者样本人脸确定的人脸面积区间。若感兴趣区域为人脸区域,则指定形状可以为矩形、与人脸区域连接的矩形等等,指定区间为根据经验或者样本上半身确定的上半身面积区间。或者,可以基于机器学习实现本实施例的步骤,下面以可选实施例的形式进行具体说明。
在一种可选的实施方式中,上述从人体图像中识别人脸区域,基于人脸区域确定人脸特征,具体可以包括如下步骤:
将人体图像输入预先训练得到的人脸识别模型,获得人体图像中的人脸区域;
确定人脸特征点在人脸区域中的第一位置信息,根据第一位置信息确定人脸特征。
在具体应用中,人脸识别模型为利用样本人体图像、样本人脸在样本人体图像中的区域标签、以及样本人脸特征点在样本人脸中的位置标签训练得到的。第一位置信息可以为人脸特征点在人脸区域中的坐标。其中,人脸特征点可以是人脸器官对应的像素点,例如,人脸的五官、面部轮廓等等器官对应的像素点。并且,人脸特征点的数量通常为多个,因此,上述根据第一位置信息确定人脸特征具体可以包括:将各第一位置信息的坐标集合,确定为人脸特征。并且,上述人脸识别模型可以是基于通过机器学习,推断3D对象例如目标主播的人脸表面几何形状的模型。因此,本实施例可以保证本申请对人体图像的采集无需使用专用的深度传感器,进一步提高便捷性。
具体的,人脸识别模型包含用于识别人脸区域的人脸区域检测子模型,以及人脸特征检测子模型。人脸特征检测子模型可以基于人脸区域检测子模型输出的人脸区域,确定人脸特征点的第一位置信息。其中,人脸区域检测子模型为利用样本人体图像和样本人体图像中人脸的位置标签训练得到。人脸特征检测子模型为利用样本人脸图像和样本人脸特征点在样本人脸图像中的坐标标签训练得到。也就是说,人脸识别模型包含一个从完整人体图像中识别人脸位置的人脸区域检测子模型,该子模型可以看作人脸检测器,以及一个对人脸位置处的区域进行操作的人脸特征检测子模型。示例性的,人脸特征检测子模型具体可以利用回归算法预测人脸表面几何形状的坐标,得到面部的特征点坐标集合。
另外,本申请实施例提供的主播虚拟形象生成方法,还可以包括如下步骤:
若识别人脸区域中的人脸特征点失败,则返回执行获取图像采集设备采集的目标主播的人体图像。也就是说,当人脸特征检测子模型无法识别人脸,表明当前的图像也就是当前视频帧中很可能不存在人脸。因此,可以获取新的视频帧即新的人体图像,进而调用人脸区域检测子模型重新定位人脸。
在一种可选的实施方式中,从人体图像中识别上半身肢体区域,基于上半身肢体区域确定肢体特征,具体可以包括如下步骤:
将人体图像输入预先训练得到的肢体识别模型,获得人体图像中的上半身肢体区域;
确定肢体特征点在上半身肢体区域中的第二位置信息,
根据第二位置信息确定肢体特征。
在具体应用中,肢体特征是指表征目标主播上半身的姿态的数据,肢体特征点是指肢体特征中的像素点。目标主播上半身的姿态是指目标主播上半身的位置和旋转数据。肢体识别模型为利用样本人体图像、样本上半身肢体在样本人体图像中的区域标签、以及样本肢体特征点在样本上半身肢体中的位置标签训练得到的。其中,第二位置信息可以为肢体特征点在上半身肢体区域中的坐标。并且,目标主播上半身的位置和旋转数据均可以由肢体特征点的第二位置信息反映。例如,肢体特征点包括肘部特征点和手部末尾(例如最长手指的指尖)特征点,则肘部特征点和手部末尾特征点的第二位置信息可以反映目标主播胳膊的位置和旋转数据。并且,肢体特征点的数量通常为多个。因此,上述根据第二位置信息确定肢体特征具体可以包括:将各肢体特征点的第二位置信息例如坐标的集合,确定为肢体特征。并且,与上述人脸特征点的识别类似的,肢体识别模型包含用于识别肢体区域的肢体区域检测子模型,以及肢体跟踪子模型。肢体跟踪子模型可以基于肢体区域检测子模型输出的肢体区域,确定肢体特征点的第二位置信息。其中,肢体区域检测子模型为利用样本人体图像和样本人体图像中肢体的位置标签训练得到的。肢体跟踪子模型为利用样本肢体图像和样本肢体特征点在样本肢体图像中的坐标标签训练得到的。也就是说,首先使用肢体区域检测子模型,在图像帧内定位上半身姿态的感兴趣区域(ROI);随后肢体跟踪子模型使用ROI裁剪帧作为输入来识别ROI内的姿态特征点也就是肢体特征。其中,肢体区域检测子模型可以看作检测器,肢体跟踪子模型可以看作跟踪器。
在一种情况中,若识别肢体区域中的肢体特征点失败,或者,不存在前一帧的肢体特征点,则返回执行从人体图像中识别上半身肢体区域。
其中,前一帧是指在当前处理的人体图像的前一次人体图像获取中,获取的人体图像。另外,不存在前一帧的肢体特征点表明当前处理的人体图像很可能为所获取的人体图像所属直播的第一帧图像。因此,可以调用检测器也就是肢体识别模型重新定位ROI。对于除上述肢体特征点识别失败和不存在前一帧的肢体特征点以外的情况,由于姿态很可能与前一帧的相同、相似或者关联,因此,可以直接利用前一帧的肢体特征点所属的ROI,也就是从前一帧的姿势坐标导出ROI。其中,姿势坐标即肢体特征点在人体图像中的位置坐标。
在一种可选的实施方式中,虚拟形象参数,包括:头部姿态参数、人脸表情参数、以及肢体姿态参数;
基于人脸特征和肢体特征,设置目标主播的虚拟形象参数,具体可以包括如下步骤:
对人脸特征进行头部姿态的解析,获得头部姿态参数;
对人脸特征进行人脸表情的解析,获得人脸表情参数;
解析肢体特征,获得参考肢体姿态参数。
在具体应用中,头部姿态参数可以表征目标主播的头部姿态;人脸表情参数可以表征目标主播的表情;肢体姿态参数可以表征目标主播的上半身姿态。因此,可以将头部姿态参数用于表征目标主播的虚拟形象的头部姿态;人脸表情参数用于表征目标主播的虚拟形象的表情;肢体姿态参数用于表征目标主播的虚拟形象的上半身姿态。因此,本实施例可以提高目标主播的虚拟形象与目标主播真人的相似度,从而提高虚拟形象的准确度。
在一种可选的实施方式中,人脸特征包括:人脸特征点在人体图像的人脸区域中的第一位置信息;
相应地,上述对人脸特征进行头部姿态的解析,获得头部姿态参数,具体可以包括如下步骤:
从第一位置信息中,分别确定多个指定人脸特征点的位置信息;
根据多个指定人脸特征点的位置信息,按照多个指定人脸特征点在目标主播的头部形成的空间位置关系,确定头部的滚转角、偏航角以及俯仰角;
基于滚转角、偏航角以及俯仰角,确定头部姿态参数。
在具体应用中,如图2本申请另一实施例提供的一种主播虚拟形象生成方法中,头部的滚转角、偏航角以及俯仰角的示意图所示:滚转角(Roll)是指头部绕三维坐标系中Y轴旋转产生的角度;偏航角(Yaw)是指头部绕三维坐标系中Z轴旋转产生的角度;俯仰角(Pitch)是指头部绕三维坐标系中X轴旋转产生的角度。这样,本实施例基于滚转角、偏航角以及俯仰角,确定头部姿态参数,可以保证头部姿态参数表征的头部姿态的准确度。这样,本实施例即实现了头部姿态估计,也就是对欧拉角的计算与应用。其中,欧拉角是三个一组独立角参量,用于唯一地确定定点转动的刚体的位置。
并且,根据多个指定人脸特征点的位置信息,按照多个指定人脸特征点在目标主播的头部形成的空间位置关系,确定头部的滚转角,具体可以包括:获取第一位置信息中,处于人脸边缘、且为左右镜像关系的第一人脸特征点和第二人脸特征点的位置信息,作为第一指定位置信息;将第一指定位置信息处理为第一人脸向量,其中,第一人脸向量的端点分别为第一人脸特征点和第二人脸特征点;计算第一人脸向量的反正切值,得到滚转角。例如,滚转角Roll:取在轮廓的边缘,也就是两个太阳穴附近特征点A和B连接向量VectorAB(x,y,z)的滚转角FaceRollRad。公式为:
Figure BDA0003473997160000101
FaceRollRad=arctan(y/x)。
并且,根据多个指定人脸特征点的位置信息,按照多个指定人脸特征点在目标主播的头部形成的空间位置关系,确定头部的偏航角,具体可以包括:获取第一位置信息中,表征嘴部中心的第三人脸特征点的位置信息,作为第二指定位置信息;将第一指定位置信息和第二指定位置信息处理为第二人脸向量和第三人脸向量,其中,第二人脸向量的端点分别为第一人脸特征点和第三人脸特征点,第三人脸向量的端点分别为第二人脸特征点和第三人脸特征点;计算第二人脸向量的模与第三人脸向量的模之间的比值,得到偏航角。例如,偏航角Yaw:确定左右轮廓A和B分别与嘴部中心C形成的偏移量DiffLeft和DiffRight,计算两个偏移量的比值FaceYawRate,得到偏航角,公式如下:
Figure BDA0003473997160000102
Figure BDA0003473997160000103
FaceYawRate=DiffLeft/DiffRight。
并且,根据多个指定人脸特征点的位置信息,按照多个指定人脸特征点在目标主播的头部形成的空间位置关系,确定头部的俯仰角,具体可以包括:获取第一位置信息中,表征左眼中心的第四人脸特征点、表征右眼中心的第五人脸特征点的位置信息,作为第三指定位置信息,表征人脸左边缘的第六人脸特征点、表征人脸右边缘的第七人脸特征点的位置信息,作为第四指定位置信息;基于第三指定位置信息,计算左眼中心和右眼中心的第一高度平均值;基于第四指定位置信息,计算人脸左边缘和人脸右边缘的第二高度平均值;计算第一高度平均值与第二高度平均值之间的差值,以及预设差值,并获取差值与预设差值间的比值,得到俯仰角。例如,俯仰角Pitch:取左右眼中心点的高度平均值EY与左右轮廓高度平均值的FY的差值,计算该差值与预设差值EFM的比值作为FacePitchRate。FacePitchRate=(EY-FY)/EFM。其中,取左眼的左、右、上、下四个方向处指定点,例如中心点的纵坐标求和,并对求和结果除以4得到左眼高度EYL。类似的,可以获得右眼高度EYR,区别在于针对的是右眼。计算左眼高度EYL和右眼高度EYR的平均值,可以得到左右眼中心点的高度平均值EY。轮廓高度平均值即人脸左右轮廓也就是人脸左边缘的第六人脸特征点的纵坐标,与人脸右边缘的第七人脸特征点的纵坐标的平均值FY。例如,第六人脸特征点可以为与人脸左太阳穴之间的差异值小于差异阈值的特征点,第七人脸特征点可以为与人脸右太阳穴之间的差异值小于差异阈值的特征点。预设差值EFM可以为通过试验采集的第一高度和第二高度之间的最大差值。第一高度为左眼和右眼的平均高度,第二高度为左脸边缘和右脸边缘的平均高度。
为了便于理解,下面以图3为例进行示例性说明。示例性的,如图3本申请另一实施例提供的一种主播虚拟形象生成方法中,头部姿态参数的更新流程示意图所示:上述头部姿态估计,可以包括如下步骤:
滚转角:取轮廓的边缘,也就是与左太阳穴之间的位置差异小于差异阈值的人脸特征点A,以及与右太阳穴之间的位置差异小于差异阈值的人脸特征点B,连接得到的向量AB的滚转角;
偏航角:取左右轮廓即人脸特征点A和人脸特征点B,与嘴部中心偏移量间的比值;其中,嘴部中心即MouseCenter;
俯仰角:取左右眼角的距离与轮廓距离的比值;
坐标系转换与角度修正;插值平滑外理并应用于虚拟形象头部节点。
下面以可选实施例的形式,对坐标系转换与角度修正,以及插值平滑外理进行具体说明。
在一种可选的实施方式中,上述基于滚转角、偏航角以及俯仰角,确定头部姿态参数,具体可以包括如下步骤:
分别将滚转角、偏航角以及俯仰角,转换至二维坐标系中,得到坐标转换结果;
对坐标转换结果进行角度值修正以及插值平滑处理,得到头部姿态参数。
在具体应用中,滚转角、偏航角以及俯仰角为三维坐标系中的角度。并且,在一种情况中,虚拟形象为二维图像。因此,可以根据空间映射关系,将滚转角、偏航角以及俯仰角从三维坐标系中至二维坐标系。在另一种情况中,虚拟形象为三维图像。因此,无需进行坐标系的转换,直接对滚转角、偏航角以及俯仰角进行修正以及插值平滑处理即可得到头部姿态参数。并且,角度值修正具体可以包括:比较滚转角与滚转角阈值之间的差异值,比较偏航角与偏航角阈值之间的差异值,比较俯仰角与俯仰角阈值之间的差异值;若任一角度对应的差异值大于角度差异阈值,则调整该角度至调整后的角度对应的差异值小于或者等于角度差异阈值。其中,插值平滑处理是指:根据已知的数据序列(也可以理解为坐标中一连串离散的点),找到其中的规律;然后根据找到的这个规律,来对其中尚未有数据记录的点进行数值估计,从而对数据中的缺失进行合理的补偿。另外,头部姿态参数的变化可以体现出虚拟形象的头部转动过程。因此,在具体应用中,为了减少头部转动的速率异常引起的虚拟形象不符合人体动作逻辑的问题,可以对头部姿态参数的变化率进行修正。具体的,可以确定当前的头部姿态参数与上一个头部姿态参数的差异值,计算该差异值与预设时长的比值,获得变化率;在变化率大于转动速率阈值的情况下,将变化率调整为小于或者等于转动速率阈值。例如,可以确定处于当前的头部姿态参数与上一个头部姿态参数之间的至少一个中间头部姿态参数,将中间头部姿态参数确定为当前的头部姿态参数。这样,可以通过中间头部姿态参数,实现头部姿态参数以符合人体动作逻辑的变化率进行变化,也就实现了虚拟形象的头部转动的速率的正常化。
本实施例通过坐标转换和角度修正可以实现3D数据在二维虚拟形象上的应用,以及通过插值平滑处理进一步提高虚拟形象参数的准确度。
在一种可选的实施方式中,人脸特征包括:人脸特征点在人体图像的人脸区域中的第一位置信息;
相应地,上述对人脸特征进行人脸表情的解析,获得人脸表情参数,具体可以包括如下步骤:
从第一位置信息中,确定表情特征点的参考位置信息,其中,表情特征点为目标主播的人脸中随表情变化的人脸特征点;
获取表征基础人脸特征点的指定表情参数;
基于参考位置信息和指定表情参数,确定表情特征点的变化系数,作为人脸表情参数。
在具体应用中,如图4本申请另一实施例提供的一种主播虚拟形象生成方法中,表情特征点的示意图所示:指定表情参数可以为基础嘴部特征点,参考位置信息相应的为参考嘴部特征点的位置信息。基于参考位置信息和指定表情参数,确定表情特征点的变化系数,作为人脸表情参数,具体可以包括:在二维坐标系中,利用参考位置信息和指定表情参数,对基础人脸特征点和表情特征点进行对齐,得到对齐结果;根据对齐结果中的位置信息,确定表情特征点的变化系数,作为人脸表情参数。
并且,根据对齐结果中的位置信息,确定表情特征点的变化系数,作为人脸表情参数,可以包括:针对关键姿态和当前帧的嘴部关键点做中心对齐,然后求解嘴部表情系数;分别取单侧眉毛中心与眼睛中心的偏移量与鼻长的比值计算眉毛系数;取上下眼眶距离与鼻长的比值计算眨眼系数;计算其它表情系数并做混合。示例性的,如图5本申请另一实施例提供的一种主播虚拟形象生成方法中,人脸表情参数的更新流程示意图所示:表情系数的求解与应用,可以包括如下步骤:
确定上嘴唇中心与下嘴唇中心对齐的偏移量,计算该偏移量与鼻子长度的比值,得到嘴部变化系数;
针对每一侧眉毛,确定该侧眉毛的中心与眼睛中心的偏移量,计算该偏移量与鼻子长度的比值,得到眉毛变化系数;
针对每个眼睛,计算该眼睛上下眼眶的距离与鼻子长度的比值,得到眼睛变化系数;
分别利用嘴部变化系数、眉毛变化系数及眼睛变化系数,调整相应的虚拟形象的基础表情参数。
通过上述图3和图5实施例,本申请可以实现根据面部特征点的坐标集合计算头部的姿态数据和表情数据,进而利用得到的数据生成虚拟形象的头部和面部的效果。
在一种可选的实施方式中,肢体特征包括:肢体特征点在上半身肢体区域中的第二位置信息;
相应地,上述解析肢体特征,获得肢体姿态参数,具体可以包括如下步骤:
根据第二位置信息,确定肢体节点的位置信息;
基于肢体节点的位置信息,按照预设的肢体运动规则,确定肢体节点的变动参数,获得肢体姿态参数。
在具体应用中,上述基于肢体节点的位置信息,按照预设的肢体运动规则,确定肢体节点的变动数据,可以包括如下步骤:将属于同一肢体的目标肢体节点的位置信息处理为肢体特征向量,其中,肢体特征向量的端点为目标肢体节点;将肢体特征向量转换为单位方向向量,得到肢体节点的变动数据。具体的,可以获取当前肢体姿态数据中的各当前肢体长度,以及各当前肢体节点的位置信息;确定各当前肢体节点中存在运动关联关系的肢体节点对,其中,任一肢体节点对包括一个固定肢体节点和一个运动肢体节点;针对每个肢体节点对,基于该肢体节点对中固定肢体节点的位置信息,利用该肢体节点对对应的肢体节点的变动数据和该肢体节点对形成的肢体长度,计算该肢体节点对中运动肢体节点的目标位置信息;利用目标位置信息,更新当前肢体姿态数据中相应运动肢体节点的当前位置信息。例如,获取虚拟形象的骨骼节点数据并计算所有骨骼节点间的骨骼长度,以骨骼节点D和骨骼节点E为例:
计算其骨骼长度DE:
Figure BDA0003473997160000131
计算对应特征点F和G的单位方向向量NFG:
Figure BDA0003473997160000132
则以D为基准,骨骼节点E的目标位置为:E=D+NFG*DE。
在一种情况中,本申请实施例提供的主播虚拟形象生成方法,还可以包括如下步骤:修正各肢体节点的位置和角度。
在具体应用中,可以比较相邻肢体节点的位置差异是否大于差异阈值,若大于,则调整相邻肢体节点的位置至差异小于或者等于关节差异阈值。并且,如果肢体节点形成的角度大于角度阈值,则调整肢体节点形成的角度至小于或者等于角度阈值。这样,可以通过关节差异阈值和角度阈值的限制,减少关节扭曲、穿模等问题。另外,与参考头部姿态参数类似的,参考肢体姿态参数的变化可以体现肢体的运动速率。因此,在可以确定参考肢体姿态参数的变化率,若变化率大于肢体速率阈值,则调整参考肢体姿态参数的变化率至小于或者等于肢体速率阈值。
示例性的,如图6本申请另一实施例提供的一种主播虚拟形象生成方法中,肢体姿态参数的更新流程示意图所示:上半身姿态驱动,具体可以包括如下步骤:
获取虚拟形象骨骼节点的位置信息,并计算骨骼长度;基于肢体节点的位置信息,计算表征肢体动作方向的方向向量;基于方向向量和骨骼长度,计算虚拟形象骨骼节点的目标位置信息;修正骨骼节点的目标位置信息和角度;反向驱动虚拟形象的上半身;计算并修正虚拟形象的上半身整体的方向。
本实施例中虚拟形象的肢体节点具体为骨骼节点。虚拟形象骨骼节点为E,并且骨骼节点E的目标位置=D+NFG*DE。将骨骼节点E调整至目标位置,并按照骨骼节点E与关联骨骼点之间的运动关系,调整关联骨骼点的位置。其中,关联骨骼点是指与骨骼节点E形成关节带动关系的骨骼点,例如,手部末端的关联骨骼点包括手肘和肩部。
在一种可选的实施方式中,根据虚拟形象参数,生成目标主播对应的虚拟形象,具体可以包括如下步骤:
确虚拟形象参数对应的虚拟形象是否达到预设异常条件;
若达到,则修正虚拟形象,得到目标主播对应的虚拟形象。
本实施例在虚拟形象参数对应的虚拟形象达到预设异常条件的情况下,修正虚拟形象,从而可以进一步提高目标主播对应的虚拟形象的准确度。并且,若虚拟形象参数对应的虚拟形象未达到预设异常条件,则直接将虚拟形象参数对应的虚拟形象作为目标主播对应的虚拟形象,与每次都对虚拟形象进行修正相比,可以提高效率。
在具体应用中,虚拟形象参数对应的虚拟形象达到预设异常条件,可以包括:获取虚拟形象参数对应的头部位置信息和两侧肩部的位置信息;根据头部位置信息,确定虚拟形象的头部偏转方向;根据两侧肩部的位置信息,确定虚拟形象的上半身偏转方向;若头部偏转方向和上半身偏转方向的差异值大于偏转方向阈值,则调整上半身的偏转方向至小于或者等于偏转方向阈值。并且,为了保证上半身的转动速率符合人体运动逻辑,可以获取两侧肩部的位置信息的变化率,在该变化率大于预设转身速率阈值的情况下,将该变化率调整至小于或者等于预设转身速率阈值。
为了便于理解,下面结合图7对上述本申请部分实施例进行整合描述。示例性的,如图7本申请另一实施例提供的一种主播虚拟形象生成方法的流程示意图所示,该方法可以包括如下步骤:
摄像头采集图像;使用面部模型获取面部特征点;使用肢体模型获取肢体特征点;计算头部姿态和表情驱动面部;计算人体骨骼节点IK驱动上身肢体。
具体的,先是获取摄像头采集的图像纹理,使用预先训练得到的面部模型识别摄像头采集图像中人体的面部并获取面部特征点坐标集合;使用预先训练得到的肢体模型识别摄像头采集图像中人体的上半身肢体并获取肢体的特征点坐标集合;根据面部特征点坐标集合计算头部的姿态数据和表情数据驱动虚拟形象的面部,根据肢体特征点坐标集合计算人体骨骼节点相对位移数据并利用IK驱动虚拟形象上身肢体。其中,驱动虚拟形象上身肢体可以保证虚拟形象具有与目标主播相同或者相似的上半身肢体动作。本实施例中各步骤与上述图1实施例及图1可选实施例中作用相同的步骤为相似步骤,区别在于本实施例为了简洁描述采用不同的表述。本实施例的面部模型即上述图1可选实施例中的人脸识别模型,肢体模型即上述图1可选实施例中的肢体识别模型。对于相同部分可以参见上述图1实施例及图1可选实施例的描述,在此不再赘述。
与上述方法实施例相对应,本申请还提供了主播虚拟形象生成装置实施例,图8示出了本申请一实施例提供的一种主播虚拟形象生成装置的结构示意图。
如图8所示,该装置包括:
图像获取模块802,被配置为获取图像采集设备采集的目标主播的人体图像,所述人体图像中至少包括目标主播的人脸和上半身;
特征获取模块804,被配置为对所述人体图像分别进行人脸识别及上半身肢体识别,获得人脸特征和肢体特征;
虚拟形象生成模块806,被配置为基于所述人脸特征和所述肢体特征,设置所述目标主播的虚拟形象参数,根据所述虚拟形象参数,生成所述目标主播对应的虚拟形象。
本申请一实施例中,上半身的肢体动作通常具有变化幅度和变化速度相对较小的特点。并且,人体图像中至少包括目标主播的人脸和上半身。因此,直接获取图像采集设备采集的人体图像,可以对人体图像分别进行人脸识别及上半身的肢体识别,获得人脸特征和肢体特征。并且,人脸特征和肢体特征表征了目标主播的头部和上半身的特质,可以反映目标主播的动作和表情。因此,本实施例可以实现通过图像采集设备直接捕捉目标主播的动作和表情的效果,无需依赖专门的捕捉设备。在此基础上,基于人脸特征和肢体特征,设置目标主播的虚拟形象参数,根据虚拟形象参数,生成目标主播对应的虚拟形象,可以保证生成的虚拟形象与目标主播的动作和表情对应,以保证直播的内容丰富度。因此,本方案无需依赖专门的捕捉设备即可实现主播虚拟形象的生成,可以兼顾直播的便捷性以及内容丰富度。
在一种可选的实施方式中,特征获取模块804,进一步被配置为:
从人体图像中识别人脸区域,基于人脸区域确定人脸特征;
从人体图像中识别上半身肢体区域,基于上半身肢体区域确定肢体特征。
在一种可选的实施方式中,特征获取模块804,进一步被配置为:
将人体图像输入预先训练得到的人脸识别模型,获得所述人体图像中的人脸区域;
确定人脸特征点在人脸区域中的第一位置信息,根据第一位置信息确定人脸特征。
在一种可选的实施方式中,特征获取模块804,进一步被配置为:
将人体图像输入预先训练得到的肢体识别模型,获得所述人体图像中的上半身肢体区域;
确定肢体特征点在上半身肢体区域中的第二位置信息,根据第二位置信息确定肢体特征。
在一种可选的实施方式中,虚拟形象参数,包括:头部姿态参数、人脸表情参数、以及肢体姿态参数;
相应地,特征获取模块804,进一步被配置为:
对人脸特征进行头部姿态的解析,获得头部姿态参数;
对人脸特征进行人脸表情的解析,获得人脸表情参数;
解析肢体特征,获得肢体姿态参数。
在一种可选的实施方式中,人脸特征包括:人脸特征点在人体图像的人脸区域中的第一位置信息;
相应地,特征获取模块804,进一步被配置为:
从第一位置信息中,分别确定多个指定人脸特征点的位置信息;
根据多个指定人脸特征点的位置信息,按照多个指定人脸特征点在目标主播的头部形成的空间位置关系,确定头部的滚转角、偏航角以及俯仰角;
基于滚转角、偏航角以及俯仰角,确定头部姿态参数。
在一种可选的实施方式中,特征获取模块804,进一步被配置为:
分别将滚转角、偏航角以及俯仰角,转换至二维坐标系中,得到坐标转换结果;
对坐标转换结果进行角度值修正以及插值平滑处理,得到头部姿态参数。
在一种可选的实施方式中,人脸特征包括:人脸特征点在人体图像的人脸区域中的第一位置信息;
相应地,特征获取模块804,进一步被配置为:
从第一位置信息中,确定表情特征点的参考位置信息,其中,表情特征点为目标主播的人脸中随表情变化的人脸特征点;
获取表征基础人脸特征点的指定表情参数;
基于参考位置信息和指定表情参数,确定表情特征点的变化系数,作为人脸表情参数。
在一种可选的实施方式中,肢体特征包括:肢体特征点在上半身肢体区域中的第二位置信息;
相应地,特征获取模块804,进一步被配置为:
根据第二位置信息,确定肢体节点的位置信息;
基于肢体节点的位置信息,按照预设的肢体运动规则,确定肢体节点的变动参数,获得肢体姿态参数。
在一种可选的实施方式中,虚拟形象生成模块806,进一步被配置为:
确定虚拟形象参数对应的虚拟形象是否达到预设异常条件;
若达到,则修正虚拟形象,得到目标主播对应的虚拟形象。
上述为本实施例的一种主播虚拟形象生成装置的示意性方案。需要说明的是,该主播虚拟形象生成装置的技术方案与上述的主播虚拟形象生成方法的技术方案属于同一构思,主播虚拟形象生成装置的技术方案未详细描述的细节内容,均可以参见上述主播虚拟形象生成方法的技术方案的描述。
图9示出了根据本申请一实施例提供的一种计算设备的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接,数据库950用于保存数据。
计算设备900还包括接入设备940,接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,NetworkInterface Controller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocal Area Networks)无线接口、全球微波互联接入(Wi-MAX,WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near FieldCommunication)接口,等等。
在本申请的一个实施例中,计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图9所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备900可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备900还可以是移动式或静止式的服务器。
其中,处理器920执行所述计算机指令时实现所述的主播虚拟形象生成方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的主播虚拟形象生成方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述主播虚拟形象生成方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述主播虚拟形象生成方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的主播虚拟形象生成方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述主播虚拟形象生成方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (13)

1.一种主播虚拟形象生成方法,其特征在于,包括:
获取图像采集设备采集的目标主播的人体图像,所述人体图像中至少包括目标主播的人脸和上半身;
对所述人体图像分别进行人脸识别及上半身肢体识别,获得人脸特征和肢体特征;
基于所述人脸特征和所述肢体特征,设置所述目标主播的虚拟形象参数,根据所述虚拟形象参数,生成所述目标主播对应的虚拟形象。
2.根据权利要求1所述的方法,其特征在于,所述对所述人体图像分别进行人脸识别及上半身的肢体识别,获得人脸特征和肢体特征,包括:
从所述人体图像中识别人脸区域,基于所述人脸区域确定人脸特征;
从所述人体图像中识别上半身肢体区域,基于所述上半身肢体区域确定肢体特征。
3.根据权利要求2所述的方法,其特征在于,所述从所述人体图像中识别人脸区域,基于所述人脸区域确定人脸特征,包括:
将所述人体图像输入预先训练得到的人脸识别模型,获得所述人体图像中的人脸区域;
确定人脸特征点在所述人脸区域中的第一位置信息,根据所述第一位置信息确定人脸特征。
4.根据权利要求2所述的方法,其特征在于,所述从所述人体图像中识别上半身肢体区域,基于所述上半身肢体区域确定肢体特征,包括:
将所述人体图像输入预先训练得到的肢体识别模型,获得所述人体图像中的上半身肢体区域;
确定肢体特征点在所述上半身肢体区域中的第二位置信息,根据所述第二位置信息确定肢体特征。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述虚拟形象参数,包括:头部姿态参数、人脸表情参数、以及肢体姿态参数;
所述基于所述人脸特征和所述肢体特征,设置所述目标主播的虚拟形象参数,包括:
对所述人脸特征进行头部姿态的解析,获得所述头部姿态参数;
对所述人脸特征进行人脸表情的解析,获得所述人脸表情参数;
解析所述肢体特征,获得所述肢体姿态参数。
6.根据权利要求5所述的方法,其特征在于,所述人脸特征包括:人脸特征点在所述人体图像的人脸区域中的第一位置信息;
所述对所述人脸特征进行头部姿态的解析,获得头部姿态参数,包括:
从所述第一位置信息中,分别确定多个指定人脸特征点的位置信息;
根据所述多个指定人脸特征点的位置信息,按照所述多个指定人脸特征点在所述目标主播的头部形成的空间位置关系,确定所述头部的滚转角、偏航角以及俯仰角;
基于所述滚转角、所述偏航角以及所述俯仰角,确定所述头部姿态参数。
7.根据权利要求6所述的方法,其特征在于,所述基于所述滚转角、所述偏航角以及所述俯仰角,确定所述头部姿态参数,包括:
分别将所述滚转角、所述偏航角以及所述俯仰角,转换至二维坐标系中,得到坐标转换结果;
对所述坐标转换结果进行角度值修正以及插值平滑处理,得到所述头部姿态参数。
8.根据权利要求5所述的方法,其特征在于,所述人脸特征包括:人脸特征点在所述人体图像的人脸区域中的第一位置信息;
所述对所述人脸特征进行人脸表情的解析,获得人脸表情参数,包括:
从所述第一位置信息中,确定表情特征点的参考位置信息,其中,所述表情特征点为所述目标主播的人脸中随表情变化的人脸特征点;
获取表征基础人脸特征点的指定表情参数;
基于所述参考位置信息和所述指定表情参数,确定所述表情特征点的变化系数,作为所述人脸表情参数。
9.根据权利要求5所述的方法,其特征在于,所述肢体特征包括:肢体特征点在上半身肢体区域中的第二位置信息;
所述解析所述肢体特征,获得肢体姿态参数,包括:
根据所述第二位置信息,确定肢体节点的位置信息;
基于所述肢体节点的位置信息,按照预设的肢体运动规则,确定肢体节点的变动参数,获得所述肢体姿态参数。
10.根据权利要求1至4和6至9中任一项所述的方法,其特征在于,所述根据所述虚拟形象参数,生成所述目标主播对应的虚拟形象,包括:
确定所述虚拟形象参数对应的虚拟形象是否达到预设异常条件;
若达到,则修正所述虚拟形象,得到所述目标主播对应的虚拟形象。
11.一种主播虚拟形象生成装置,其特征在于,包括:
图像获取模块,被配置为获取图像采集设备采集的目标主播的人体图像,所述人体图像中至少包括目标主播的人脸和上半身;
特征获取模块,被配置为对所述人体图像分别进行人脸识别及上半身肢体识别,获得人脸特征和肢体特征;
虚拟形象生成模块,被配置为基于所述人脸特征和所述肢体特征,设置所述目标主播的虚拟形象参数,根据所述虚拟形象参数,生成所述目标主播对应的虚拟形象。
12.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述计算机指令时实现权利要求1-10任意一项所述方法的步骤。
13.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-10任意一项所述方法的步骤。
CN202210049881.0A 2022-01-17 2022-01-17 主播虚拟形象生成方法及装置 Pending CN114422832A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210049881.0A CN114422832A (zh) 2022-01-17 2022-01-17 主播虚拟形象生成方法及装置
US18/152,433 US20230230305A1 (en) 2022-01-17 2023-01-10 Online streamer avatar generation method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210049881.0A CN114422832A (zh) 2022-01-17 2022-01-17 主播虚拟形象生成方法及装置

Publications (1)

Publication Number Publication Date
CN114422832A true CN114422832A (zh) 2022-04-29

Family

ID=81273554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210049881.0A Pending CN114422832A (zh) 2022-01-17 2022-01-17 主播虚拟形象生成方法及装置

Country Status (2)

Country Link
US (1) US20230230305A1 (zh)
CN (1) CN114422832A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953813A (zh) * 2022-12-19 2023-04-11 北京字跳网络技术有限公司 一种表情驱动方法、装置、设备及存储介质
CN116612512A (zh) * 2023-02-02 2023-08-18 北京甲板智慧科技有限公司 基于单目rgb相机的人脸表情图像处理方法和装置
CN116977515A (zh) * 2023-08-08 2023-10-31 广东明星创意动画有限公司 一种虚拟人物表情驱动方法
WO2024022065A1 (zh) * 2022-07-25 2024-02-01 京东方科技集团股份有限公司 虚拟表情生成方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473801A (zh) * 2013-09-27 2013-12-25 中国科学院自动化研究所 一种基于单摄像头与运动捕捉数据的人脸表情编辑方法
JP2017176673A (ja) * 2016-03-31 2017-10-05 ブラザー工業株式会社 表示制御装置およびプログラム
CN109922355A (zh) * 2019-03-29 2019-06-21 广州虎牙信息科技有限公司 虚拟形象直播方法、虚拟形象直播装置和电子设备
CN110139115A (zh) * 2019-04-30 2019-08-16 广州虎牙信息科技有限公司 基于关键点的虚拟形象姿态控制方法、装置及电子设备
CN112699857A (zh) * 2021-03-24 2021-04-23 北京远鉴信息技术有限公司 基于人脸姿态的活体验证方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473801A (zh) * 2013-09-27 2013-12-25 中国科学院自动化研究所 一种基于单摄像头与运动捕捉数据的人脸表情编辑方法
JP2017176673A (ja) * 2016-03-31 2017-10-05 ブラザー工業株式会社 表示制御装置およびプログラム
CN109922355A (zh) * 2019-03-29 2019-06-21 广州虎牙信息科技有限公司 虚拟形象直播方法、虚拟形象直播装置和电子设备
CN110139115A (zh) * 2019-04-30 2019-08-16 广州虎牙信息科技有限公司 基于关键点的虚拟形象姿态控制方法、装置及电子设备
CN112699857A (zh) * 2021-03-24 2021-04-23 北京远鉴信息技术有限公司 基于人脸姿态的活体验证方法、装置及电子设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024022065A1 (zh) * 2022-07-25 2024-02-01 京东方科技集团股份有限公司 虚拟表情生成方法、装置、电子设备和存储介质
CN115953813A (zh) * 2022-12-19 2023-04-11 北京字跳网络技术有限公司 一种表情驱动方法、装置、设备及存储介质
CN115953813B (zh) * 2022-12-19 2024-01-30 北京字跳网络技术有限公司 一种表情驱动方法、装置、设备及存储介质
CN116612512A (zh) * 2023-02-02 2023-08-18 北京甲板智慧科技有限公司 基于单目rgb相机的人脸表情图像处理方法和装置
CN116977515A (zh) * 2023-08-08 2023-10-31 广东明星创意动画有限公司 一种虚拟人物表情驱动方法
CN116977515B (zh) * 2023-08-08 2024-03-15 广东明星创意动画有限公司 一种虚拟人物表情驱动方法

Also Published As

Publication number Publication date
US20230230305A1 (en) 2023-07-20

Similar Documents

Publication Publication Date Title
Mora et al. Gaze estimation from multimodal kinect data
US9361723B2 (en) Method for real-time face animation based on single video camera
CN114422832A (zh) 主播虚拟形象生成方法及装置
CN108171133B (zh) 一种基于特征协方差矩阵的动态手势识别方法
CN111161395B (zh) 一种人脸表情的跟踪方法、装置及电子设备
CN111402290A (zh) 一种基于骨骼关键点的动作还原方法以及装置
KR20040034606A (ko) 단안 얼굴 트래킹을 위해 데이터 구동형 모델을 사용하는시스템 및 방법
JP6207210B2 (ja) 情報処理装置およびその方法
JP2006520054A (ja) 不変視点からの画像照合および2次元画像からの3次元モデルの生成
Schröder et al. Real-time hand tracking using synergistic inverse kinematics
JPH10320588A (ja) 画像処理装置および画像処理方法
JP2019096113A (ja) キーポイントデータに関する加工装置、方法及びプログラム
CN113421328B (zh) 一种三维人体虚拟化重建方法及装置
CN111815768B (zh) 三维人脸重建方法和装置
CN112330813A (zh) 一种基于单目深度摄像头的着装下三维人体模型重建方法
Achenbach et al. Accurate Face Reconstruction through Anisotropic Fitting and Eye Correction.
Pham et al. Robust real-time performance-driven 3D face tracking
JP2000268161A (ja) 実時間表情検出装置
CN116248920A (zh) 虚拟角色直播处理方法、装置及系统
CN108694348B (zh) 一种基于自然特征的跟踪注册方法及装置
CN112381952B (zh) 一种基于多相机的面部轮廓点云模型重构方法及装置
Lefevre et al. Structure and appearance features for robust 3d facial actions tracking
Hou et al. Smooth adaptive fitting of 3D face model for the estimation of rigid and nonrigid facial motion in video sequences
CN114219920A (zh) 三维人脸模型的构建方法及装置、存储介质、终端
Tao et al. Tracking facial features using probabilistic network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination