CN110536095A - 通话方法、装置、终端及存储介质 - Google Patents
通话方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN110536095A CN110536095A CN201910814309.7A CN201910814309A CN110536095A CN 110536095 A CN110536095 A CN 110536095A CN 201910814309 A CN201910814309 A CN 201910814309A CN 110536095 A CN110536095 A CN 110536095A
- Authority
- CN
- China
- Prior art keywords
- face
- callee
- real
- parameter
- terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Geometry (AREA)
- Computer Networks & Wireless Communication (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Processing Or Creating Images (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本申请实施例公开了一种通话方法、装置、终端及存储介质,属于通话技术领域。所述方法:主叫方终端根据目标人脸RGB图像构建被叫方终端对应的目标人脸三维模型;当与被叫方终端进行通话时,主叫方终端获取目标人脸三维模型;主叫方终端接收被叫方终端发送的被叫方实时人脸参数,被叫方实时人脸参数由被叫方终端从采集到的被叫方实时人脸RGB图像中提取得到;主叫方终端根据被叫方实时人脸参数驱动目标人脸三维模型。相较于通过传输视频流的方式实现视频通话方法,本申请实施例中通话终端之间实现视频通话时传输的数据量较少,且对网络环境的要求更低,有助于在流量不足或网络状况不佳的情况下实现视频通话。
Description
技术领域
本申请实施例涉及通话技术领域,特别涉及一种通话方法、装置、终端及存储介质。
背景技术
随着视频通话的不断普及,越来越多的用户倾向于通过视频的方式进行相互沟通,从而达到面对面沟通的效果。
视频通话过程中,第一通话方终端和第二通话方终端的摄像头(比如前置摄像头)均处于开启状态,并不断进行图像采集,得到由连续图像帧构成的视频流,从而通过服务器将视频流数据(与音频数据一同)发送至对端终端,以便对端终端对接收到的视频流数据进行解析显示。
发明内容
本申请实施例提供了一种通话方法、装置、终端及存储介质。所述技术方案如下:
一方面,本申请实施例提供了一种通话方法,所述方法用于主叫方终端,所述方法包括:
根据目标人脸红绿蓝(Red-Green-Blue,RGB)图像构建被叫方终端对应的目标人脸三维模型;
当与所述被叫方终端进行通话时,获取所述目标人脸三维模型;
接收所述被叫方终端发送的被叫方实时人脸参数,所述被叫方实时人脸参数由所述被叫方终端从采集到的被叫方实时人脸RGB图像中提取得到;
根据所述被叫方实时人脸参数驱动所述目标人脸三维模型。
另一方面,本申请实施例提供了一种通话方法,所述方法用于被叫方终端,所述方法包括:
当与主叫方终端进行通话时,通过摄像头采集被叫方实时人脸RGB图像;
从所述被叫方实时人脸RGB图像中提取被叫方实时人脸参数;
向所述主叫方终端发送所述被叫方实时人脸参数,所述主叫方终端用于根据所述被叫方实时人脸参数驱动目标人脸三维模型,所述目标人脸三维模型由所述主叫方终端根据目标人脸RGB图像构建得到。
另一方面,本申请实施例提供了一种通话装置,所述装置用于主叫方终端,所述装置包括:
构建模块,用于根据目标人脸RGB图像构建被叫方终端对应的目标人脸三维模型;
第一获取模块,用于当与所述被叫方终端进行通话时,获取所述目标人脸三维模型;
第一接收模块,用于接收所述被叫方终端发送的被叫方实时人脸参数,所述被叫方实时人脸参数由所述被叫方终端从采集到的被叫方实时人脸RGB图像中提取得到;
第一驱动模块,用于根据所述被叫方实时人脸参数驱动所述目标人脸三维模型。
另一方面,本申请实施例提供了一种通话装置,所述装置用于被叫方终端,所述装置包括:
第二采集模块,用于当与主叫方终端进行通话时,通过摄像头采集被叫方实时人脸RGB图像;
第二提取模块,用于从所述被叫方实时人脸RGB图像中提取被叫方实时人脸参数;
第二发送模块,用于向所述主叫方终端发送所述被叫方实时人脸参数,所述主叫方终端用于根据所述被叫方实时人脸参数驱动目标人脸三维模型,所述目标人脸三维模型由所述主叫方终端根据目标人脸RGB图像构建得到。
另一方面,本申请实施例提供了一种终端,所述终端包括处理器和存储器;所述存储器存储有至少一条指令,所述至少一条指令用于被所述处理器执行以实现如上述方面主叫方终端侧的通话方法,或,实现如上述方面被叫方终端侧的通话方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质存储有至少一条指令,所述至少一条指令用于被处理器执行以实现如上述方面主叫方终端侧的通话方法,或,实现如上述方面被叫方终端侧的通话方法。
另一方面,还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上述方面主叫方终端侧的通话方法,或,实现如上述方面被叫方终端侧的通话方法。
采用本申请实施例提供的通话方法,由于主叫方终端预先根据目标人脸RGB图像生成被叫方终端对应的目标人脸三维模型,因此在通话过程中,被叫方终端从采集到的实时人脸RGB图像中提取被叫方实时人脸参数,并将参数发送至主叫方终端后,主叫方终端能够根据被叫方实时人脸参数驱动目标人脸三维模型,从而模拟出被叫方的实时人脸状态;相较于通过传输视频流的方式实现视频通话方法,本申请实施例中通话终端之间实现视频通话时传输的数据量较少,且对网络环境的要求更低,有助于在流量不足或网络状况不佳的情况下实现视频通话。
附图说明
图1示出了本申请一个示例性实施例提供的终端的结构方框图;
图2示出了本申请一个示例性实施例提供的实施环境的示意图;
图3示出了本申请一个示例性实施例示出的通话方法的流程图;
图4示出了本申请一个示例性实施例示出三维人脸模型构建过程的流程图;
图5是根据目标人脸RGB图像生成初始三维人脸模型过程的流程图;
图6是根据目标人脸RGB图像生成人脸纹理贴图过程的流程图;
图7示出了本申请另一个示例性实施例示出的通话方法的流程图;
图8是被叫方终端向主叫方终端发送实时人脸参数过程的流程图;
图9是一个实施例提供的主叫方终端发起三维模拟通话过程的流程图;
图10示出了本申请另一个示例性实施例示出的通话方法的流程图;
图11示出了本申请一个实施例提供的通话装置的结构框图;
图12示出了本申请另一个实施例提供的通话装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
参考图1,其示出了本申请一个示例性实施例提供的终端100的结构方框图。该终端100可以是智能手机、平板电脑、笔记本电脑等。本申请中的终端100可以包括一个或多个如下部件:处理器110、存储器120、显示屏130。
处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个终端100内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行终端100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)、神经网络处理器(Neural-network Processing Unit,NPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责触摸显示屏130所需要显示的内容的渲染和绘制;NPU用于实现人工智能(Artificial Intelligence,AI)功能;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块芯片进行实现。
在一种可能的实施方式中,本申请实施例中,与神经网络相关的步骤可以由NPU执行,与人脸三维模型显示相关的步骤可以由GPU执行,与应用程序内操作相关的步骤可以由CPU执行。
存储器120可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选地,该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等;存储数据区可存储根据终端100的使用所创建的数据(比如音频数据、电话本)等。
显示屏130是用于显示用户界面的显示组件。可选的,该显示屏130还具有触控功能,通过触控功能,用户可以使用手指、触摸笔等任何适合的物体在显示屏130上进行触控操作。
显示屏130通常设置在终端130的前面板。显示屏130可被设计成为全面屏、曲面屏、异型屏、双面屏或折叠屏。显示屏130还可被设计成为全面屏与曲面屏的结合,异型屏与曲面屏的结合,本实施例对此不加以限定。
在一种可能的实施方式中,终端100还包括摄像头组件,该摄像头组件用于采集RGB图像(比如RGB摄像头),其可以是终端100的前置摄像头或者后置摄像头。
可选的,本申请实施例中,使用终端100进行视频通话时,摄像头组件处于开启状态,并进行图像采集,对于采集到的实时RGB图像,摄像头组件将其传输至处理器110,由处理器110对实时RGB图像进行实时人脸参数提取,以便将提取到的实时人脸参数提供给进行视频通话的对端设备。
除此之外,本领域技术人员可以理解,上述附图所示出的终端100的结构并不构成对终端100的限定,终端可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端100中还包括麦克风、扬声器、射频电路、输入单元、传感器、音频电路、无线保真(Wireless Fidelity,WiFi)模块、电源、蓝牙模块等部件,在此不再赘述。
请参考图2,其示出了本申请一个示例性实施例提供的实施环境的示意图,该实施环境中包括主叫方终端210、被叫方终端220以及服务器230。
主叫方终端210和被叫方终端220是具有视频通话功能的电子设备,其可以是智能手机、平板电脑、个人计算机等等。其中,主叫方终端210为发起视频通话请求的终端,被叫方终端220为接受视频通话请求的终端。图1中以主叫方终端210和被叫方终端220均为智能手机为例进行说明。
在一种可能的实施方式中,主叫方终端210和被叫方终端220通过应用程序实现视频通话功能,该应用程序可以是社交应用程序、即时通讯应用程序、直播类应用程序等等,本申请实施例对此不作限定。
可选的,主叫方终端210与被叫方终端220均设置有摄像组件,该摄像组件可以是终端的前置摄像头,视频通话过程中,终端即通过前置摄像头进行图像采集。本申请实施例中,该前置摄像头为具有RGB图像采集功能的单摄像头组件。
主叫方终端210和被叫方终端220均与服务器230通过有线或无线网络相连。
服务器230为视频通话过程中用于进行数据传输的设备,其可以为一台服务器、若干台服务器构成的服务器集群或云计算中心。在一种可能的实施方式中,服务器230为终端中应用程序(具有视频通话功能)的后台服务器。比如,服务器230为即时通信应用程序的后台服务器。
在一种可能的应用场景下,如图2所示,主叫方终端210发起视频通话请求后,服务器230将视频通话请求转发至被叫方终端220,若被叫方终端220接受视频通话请求,服务器230则向主叫方终端发送接受响应。视频通话过程中,主叫方终端210和被叫方终端220均启动前置摄像头进行实时图像采集,并从采集到的实时图像中提取本端用户的实时人脸参数,从而通过服务器230将实时人脸参数以及麦克风采集的音频数据发送给对端终端,以便对端终端在解析播放音频的同时,根据实时人脸参数驱动人脸三维模型模拟出对端用户的实时人脸表情以及姿态。
需要说明的是,上述实施例中,仅以两个终端间进行通话为例进行示意性说明,在其他可能的应用场景下,进行通话的终端可以包括至少三个,本申请实施例并不对终端的具体数量进行限定。
相关技术中,终端之间进行视频通话时,终端通过摄像头和麦克风分别采集视频数据和音频数据,并通过服务器将视频数据和音频数据发送至对端终端,由对端终端对音视频数据进行解析播放。这种方式下,由于终端之间不断进行视频流数据传输,因此需要耗费大量数据流量,且当终端所处的网络状态不佳时,视频通话会出现卡顿的情况。
而本申请实施例提供的通话方法中,进行视频通话的终端通过摄像头采集到图像后,并非直接对图像进行编码生成视频数据,而是对采集到的图像中的人脸进行人脸参数提取,从而将提取到的实时人脸参数与音频数据一同发送至对端终端。相应的,对端终端中预先存储有对端用户对应的人脸三维模型,从而基于接收到的实时人脸参数驱动人脸三维模型模拟出对端用户的实时表情和姿态。相较于视频数据传输,终端间传输实时人脸参数所需耗费的流量较少,且对网络状态的要求较低,在实现终端间视频通话的前提下,能够降低数据流量消耗,并有助于提高网络状态较差环境下的视频通话质量。下面采用示意性的实施例对终端间的通话过程进行说明。
请参考图3,其示出了本申请一个示例性实施例示出的通话方法的流程图。本实施例以该方法应用于图2所示的实施环境来举例说明。该方法包括:
步骤301,主叫方终端根据目标人脸RGB图像构建被叫方终端对应的目标人脸三维模型。
在一种可能的实施方式中,主叫方终端中获取通讯录中被叫方终端对应的目标人脸RGB图像,从而预先基于目标人脸RGB图像构建被叫方终端的目标人脸三维模型,从而将目标人脸三维模型与被叫方终端进行关联存储。其中,该目标人脸RGB图像可以是被叫方用户的人脸RGB图像,或者,由主叫方用户指定一张人脸图像(非被叫方用户的人脸)。
可选的,本申请实施例中目标人脸RGB图像是通过RGB摄像头拍摄的图像,即图像中各个像素点对应R、G、B三个通道值,而并不包含深度值;相应的,主叫方终端基于单张目标人脸RGB图像构建目标人脸三维模型。
可选的,由于构建目标人脸三维模型时需要耗费较高的处理资源,因此主叫方终端在空闲状态下进行目标人脸三维模型构建,避免模型构建对其他应用程序运行造成影响。
当然,除了在本地进行人脸三维模型构建外,主叫方终端还可以将目标人脸RGB图像上传至服务器,从而由服务器基于目标人脸RGB图像构建目标人脸三维模型,并将目标人脸三维模型的模型数据发送至主叫方终端,本申请实施例并不对此进行限定。
步骤302,当与被叫方终端进行通话时,主叫方终端获取目标人脸三维模型。
在一种可能的实施方式中,当主叫方终端向被叫方终端发起通话请求,且被叫方终端接受通话请求后,主叫方终端与被叫方终端即能够进行通话。相应的,由于主叫方终端预先存储有被叫方终端对应的目标人脸三维模型,因此为了通过目标人脸三维模型模拟出视频通话的效果,主叫方终端根据被叫方终端的标识获取对应的目标人脸三维模型。
步骤303,当与主叫方终端进行通话时,被叫方终端通过摄像头采集被叫方实时人脸RGB图像。
通话过程中,为了使主叫方终端侧的目标人脸RGB模型能够模拟出被叫方终端侧用户的实时人脸状态,被叫方终端在通话过程中开启摄像头,从而通过摄像头采集被叫方用户的被叫方实时人脸RGB图像。与用于构建模型的目标人脸RGB图像类似的,被叫方实时人脸RGB图像中各个像素点包含R、G、B三个通道值,而不包含深度值。
步骤304,被叫方终端从被叫方实时人脸RGB图像中提取被叫方实时人脸参数。
进一步的,被叫方终端从被叫方实时人脸RGB图像中提取用于驱动人脸三维模型的被叫方实时人脸参数。可选的,该被叫方实时人脸参数中至少包括用于驱动人脸表情以及人脸姿态的人脸参数。
在一种可能的实施方式中,被叫方终端采用与主叫方终端构建目标人脸三维模型时相同的方法,从被叫方实时人脸RGB图像中提取被叫方实时人脸参数,保证被叫方实时人脸参数能够驱动目标人脸三维模型。
步骤305,被叫方终端向主叫方终端发送被叫方实时人脸参数。
可选的,被叫方终端通过服务器将被叫方实时人脸参数与采集到的音频数据一同发送至主叫方终端,其中,被叫方实时人脸参数与音频数据均对应时间戳,从而避免主叫方终端后续出现音视频画面不同步(即目标人脸三维模型显示与音频播放不同步)的问题。
步骤306,主叫方终端接收被叫方终端发送的被叫方实时人脸参数。
相应的,主叫方终端通过服务器接收被叫方终端发送的被叫方实时人脸参数以及音频数据。
步骤307,主叫方终端根据被叫方实时人脸参数驱动目标人脸三维模型。
在一种可能的实施方式中,主叫方终端根据被叫方实时人脸参数驱动目标人脸三维模型模拟出被叫方用户的实时人脸状态,并对与被叫方实时人脸参数对应时间戳相同的音频数据进行解析播放,从而保证音视频画面同步。
综上所述,采用本申请实施例提供的通话方法,由于主叫方终端预先根据目标人脸RGB图像生成被叫方终端对应的目标人脸三维模型,因此在通话过程中,被叫方终端从采集到的实时人脸RGB图像中提取被叫方实时人脸参数,并将参数发送至主叫方终端后,主叫方终端能够根据被叫方实时人脸参数驱动目标人脸三维模型,从而模拟出被叫方的实时人脸状态;相较于通过传输视频流的方式实现视频通话方法,本申请实施例中通话终端之间实现视频通话时传输的数据量较少,且对网络环境的要求更低,有助于在流量不足或网络状况不佳的情况下实现视频通话。
从图3所示的实施例可以看出,本申请实施例涉及的通话方法包括三维人脸模型构建、实时人脸参数提取以及实时人脸参数传输三个过程,下面首先对三维人脸模型构建过程进行说明。
请参考图4,其示出了本申请一个示例性实施例示出三维人脸模型构建过程的流程图。本实施例以该过程由主叫方终端执行为例进行说明,该过程包括如下步骤:
步骤401,获取目标人脸RGB图像。
为了提高后续构建的目标人脸三维模型的模型质量,在一种可能的实施方式中,主叫方终端获取符合预设条件的目标人脸RGB图像。其中,该预设条件包括如下至少一种:图像分辨率高于分辨率阈值(比如480p)、图像中人脸的朝向属于预设朝向范围(比如正向左右偏转10°)。
可选的,该目标人脸RGB图像可以由主叫方终端自动从若干张包含被叫方用户的图像中选取,也可以由主叫方用户手动指定。
可选的,为了降低模型构建难度,获取到目标人脸RGB图像后,主叫方终端即根据目标人脸RGB图像分别生成不包含人脸纹理的初始人脸三维模型以及人脸纹理贴图,进而根据初始人脸三维模型以及人脸纹理贴图最终构建得到目标人脸三维模型。
步骤402,根据目标人脸RGB图像生成初始人脸三维模型,初始人脸三维模型不包括人脸纹理。
在一种可能的实施方式中,为了降低人脸三维模型的构建难度并便于后续进行模型驱动,主叫方终端基于通用人脸三维模型构建初始人脸三维模型,其中,通用人脸三维模型是具有固定拓扑结构以及顶点语义信息的模型,本申请实施例中,以通用人脸三维模型为3D形变模型(3D Morphable Model,3DMM)为例进行说明。可选的,本步骤可以包括如下步骤。
一、将目标人脸RGB图像输入人脸参数预测模型,得到人脸参数预测模型输出的初始人脸参数,初始人脸参数包括初始人脸形状参数、初始人脸表情参数和初始人脸姿态参数。
在一种可能的实施方式中,本申请实施例采用人脸参数预测模型对通用人脸三维模型所需的人脸参数进行预测,该人脸参数预测模型可以是基于MobileNetv2的神经网络。
相应的,主叫方终端将目标人脸RGB图像输入人脸参数预测模型,由人脸参数预测模型进行推理,从而得到目标人脸RGB图像中人脸对应的初始人脸参数。
可选的,由于目标人脸图像中可能包含其他干扰因素,因此为了提高提取到的初始人脸形状参数的准确性,将目标人脸RGB图像输入人脸参数预测模型前,主叫方终端首先进行人脸检测,并提取目标人脸图像中的人脸区域,从而将提取到的人脸区域输入人脸参数预测模型。
针对人脸参数预测模型的训练方式,在一种可能的实施方式中,计算机设备预先构建人脸图像数据库,该人脸图像数据库中包含不同姿态、不同人种、不同年龄段、不同脸型、不同性别的样本人脸RGB图像(均匀分布),且各张样本人脸RGB图像均经过人脸关键点标注。
对于人脸图像数据库中的各张样本人脸RGB图像,计算机设备通过迭代优化算法,将各张样本人脸RGB图像与通用人脸三维模型进行拟合优化,直至算法收敛,得到每一张样本人脸RGB图像对应的样本人脸参数。其中,拟合优化过程中,计算机设备对通用人脸三维模型中的人脸网络模板(mesh template)进行形变,并计算网格模板中3D关键点的2D投影与样本人脸RGB图像中人脸关键点之间的L2距离,并在L2距离满足收敛条件时,将形变后通用人脸三维模型对应的人脸参数确定为样本人脸RGB图像对应的样本人脸参数。
进一步的,计算机设备根据样本人脸RGB图像对应的样本人脸参数对人脸参数预测模型进行训练。其中,在训练过程中,计算机设备可以分别对不同的人脸参数进行损失函数计算,并在计算其中一个人脸参数时,保持其他人脸参数不变,以此增加神经网络的学习效果。
可选的,训练得到的人脸参数预测模型可以实现成为应用程序的一部分,并安装至主叫方终端,以便主叫方终端通过该人脸参数预测模型在本地进行初始人脸参数预测。
二、根据初始人脸参数和通用人脸三维模型生成初始人脸三维模型。
在一种可能的实施方式中,通过人脸参数预测模型预测得到初始人脸参数后,主叫方终端根据通用人脸参数预测模型的平均人脸,将初始人脸形状参数与身份基(也可以称为身份基)相作用、初始人脸表情参数与表情基相作用,构建目标人脸RGB图像中二维人脸对应的三维人脸,进而根据初始人脸姿态参数对三维人脸进行姿态调整,最终生成初始人脸三维模型。示意性,根据初始人脸形状参数和初始人脸表情参数构建三维人脸的过程可以用如下公式表示:
其中,为平均人脸,αi为人脸形态参数,Si为人脸身份基,βi为人脸表情参数,Bi为人脸表情基,m为参数总数。
在一个示意性的例子中,如图5所示,主叫方终端获取到目标人脸RGB图像后,首先对目标人脸RGB图像进行人脸检测,并在通过人脸检测后,将目标人脸RGB图像输入人脸参数预测模型,从而得到模型输出的初始人脸形状参数、初始人脸表情参数以及初始人脸姿态参数,进而基于上述人脸参数和通用人脸三维模型,构建得到初始人脸三维模型。
步骤403,根据目标人脸RGB图像生成人脸纹理贴图。
本申请实施例中,为了控制通用人脸三维模型的模型尺寸(即模型数据量),并降低上述步骤402中利用神经网络预测初始人脸参数的难度,人脸三维模型的模型框架与纹理贴图分开生成。可选的,主叫方终端根据目标人脸RGB图像生成初始人脸三维模型的同时,根据该目标人脸RGB图像生成人脸纹理贴图。
在一种可能的实施方式中,主叫方终端根据目标人脸RGB图像生成人脸纹理贴图的过程包括如下步骤。
一、对目标人脸RGB图像进行UV展开,生成第一UV纹理图,第一UV纹理图为三通道图像。
由于目标人脸RGB图像是平面图像,而应用于人脸三维模型的图像为UV图像,因此首先需要对目标人脸RGB图像进行UV展开,生成第一UV纹理图。其中,UV展开的方式可以采用圆柱形展开或者球型展开,本实施例并不对UV展开的具体方式以及具体过程进行限定。
可选的,由于经过UV展开的第一UV纹理图并不完整,因此对于第一UV纹理图中缺失部分的像素点,主叫方终端采用(0,0,0)进行填充,最终生成一张三通道的第一UV纹理图。
示意性的,如图6所示,主叫方终端对目标人脸RGB图像61进行UV展开,得到第一UV纹路图62。
二、对第一UV纹理图进行水平翻转,生成第二UV纹理图,第二UV纹理图与第一UV纹理图像的尺寸相同,且第二UV纹理图为三通道图像。
由于人脸的左右脸具有相似性,因此为了提高最终生成的人脸纹理贴图的质量,在一种可能的实施方式中,主叫方终端对生成的第一UV纹理图进行水平翻转,生成与第一UV图像尺寸一致的第二UV纹理图。
示意性的,如图6所示,主叫方终端对第一UV纹理图62进行水平翻转,生成第二UV纹路图63。
三、根据第一UV纹理图和第二UV纹理图生成第三UV纹理图,第三UV纹理图为六通道图像。
在一种可能的实施方式中,基于左右脸的相似特性,主叫方终端延通道方向对第一UV纹理图和第二UV纹理图进行拼接,从而生成六通道的第三UV纹理图,其中,相较于第一UV纹理图和第二UV纹理图,生成的第三UV纹理图的完整性更高,有利于提高最终生成的人脸纹理贴图的质量。
示意性的,如图6所示,主叫方终端对第一UV纹理图62和第二UV纹理图63进行拼接,生成第三UV纹理图64。
四、将第三UV纹理图输入UV纹理生成模型,得到UV纹理生成模型输出的人脸纹理贴图。
在一种可能的实施方式中,该UV纹理生成模型是基于对抗生成网络(,GenerativeAdversarial Networks,GAN)的模型,且UV纹理生成模型的输入为六通道图像,输出为三通道的人脸纹理贴图。
针对UV纹理生成模型的训练方式,在一种可能的实施方式中,计算机设备首先获取样本人脸RGB图像及其对应的样本人脸纹理贴图,该样本人脸纹理贴图为实际扫描生成的纹理贴图。进一步的,计算机设备将样本人脸RGB图像输入UV纹理生成模型中的生成器,并通过判别器(利用样本人脸纹理贴图训练)对生成器输出的预测人脸纹理贴图进行判别(判别结果为样本人脸纹理贴图的概率)。对生成器和判别器进行对抗训练过程中,当判别器的判别结果满足收敛条件(即判别结果为样本人脸纹理贴图的概率为0.5)时,则完成对UV纹理生成模型的训练。
步骤404,根据初始人脸三维模型和人脸纹理贴图构建目标人脸三维模型。
进一步的,主叫方终端将生成的人脸纹理贴图与初始人脸三维模型进行贴合,构建得到目标人脸三维模型,并将目标人脸三维模型与被叫方终端进行关联存储。
本实施例中,终端基于单目摄像头采集的单张人脸RGB图像即可构建人脸三维模型,无需使用诸如深度摄像头一类的组件,降低了摄像头的性能需求,从而扩大了通话方法的应用场景。
同时,本申请实施例中,终端基于通用人脸三维模型以及从人脸RGB图像中提取到的人脸参数进行目标人脸三维模型构建,相较于传统的基于人脸关键点的人脸三维模型生成方法,能够提高模型生成的速度,并有利于后续的模型驱动;此外,通过解耦初始人脸三维模型与人脸纹理贴图的生成过程,有助于减小人脸参数预测模型的模型尺寸,降低神经网络的学习难度。
下面采用示意性的实施例对实时人脸参数的提取以及传输过程进行说明。
请参考图7,其示出了本申请另一个示例性实施例示出通话方法的流程图。本实施例以该方法应用于图2所示的实施环境来举例说明,该过程包括如下步骤:
步骤701,主叫方终端根据目标人脸RGB图像构建被叫方终端对应的目标人脸三维模型。
本步骤的实施方式可以参考上述步骤401至404,本实施例在此不再赘述。
步骤702,当与被叫方终端进行通话时,若存储有被叫方终端对应的目标人脸三维模型,主叫方终端则在通话界面中显示人脸三维模型显示控件。
由于基于人脸RGB图像构建人脸三维模型需要花费一定的时间,因此在一种可能的实施方式中,当接收到用户触发的通话发起指令时,主叫方终端根据被叫方标识,检测是否存储有被叫方终端的目标人脸三维模型,若存储有被叫方终端的目标人脸三维模型,则在通话界面中显示人脸三维模型显示控件;若未存储被叫方终端的目标人脸三维模型,则不显示人脸三维模型显示控件(或将人脸三维模型显示控件设置为不可选状态)。
其中,该人脸三维模型显示控件用于触发在通话界面中显示被叫方终端对应的目标人脸三维模型。
步骤703,当接收到对人脸三维模型显示控件的触发操作时,向被叫方终端发送实时人脸参数获取请求。
进一步的,当接收到对人脸三维模型显示控件的触发操作时,为了能够通过目标人脸三维模型展现出被叫方用户的实时人脸状态,主叫方终端通过服务器向被叫方终端发送实时人脸参数获取请求。
其中,对人脸三维模型显示控件的触发操作可以为点击操作、长按操作、滑动操作等等,本实施例对此不做限定。
可选的,若在预定时长内未接收到对人脸三维模型显示控件的触发操作,则停止显示人脸三维模型显示控件。比如,该预定时长为5s。
步骤704,被叫方终端接收主叫方终端发送的实时人脸参数获取请求。
相应的,被叫方终端接收主叫方终端通过服务器发送的实时人脸参数获取请求。
步骤705,若接收到对实时人脸参数获取请求的接受信号,被叫方终端则向主叫方终端发送请求接受响应。
可选的,被叫方终端接收到实时人脸参数获取请求后,在通话界面显示交互控件,并通过交互控件接收被叫方用户的触发操作。若被叫方用户的触发操作触发了接受信号,则向主叫方终端发送请求接受响应;若被叫方用户的触发操作触发了拒绝信号,则向主叫方终端发送请求拒绝响应。其中,向主叫方终端发送请求接受响应后,被叫方终端将不会进行实时人脸参数发送。
步骤706,若接收到被叫方终端发送的请求接受响应,主叫方终端则获取目标人脸三维模型。
当接收到被叫方终端发送的请求接受响应时,表明被叫方用户允许进行被叫方终端进行图像采集,从而获取并显示目标人脸三维模型。
可选的,当接收到被叫方终端发送的请求拒绝响应时,主叫方终端将不会显示目标人脸三维模型(因为后续也不会接收到被叫方终端发送的实时人脸参数)。
步骤707,被叫方终端通过摄像头采集被叫方实时人脸RGB图像。
当接收到对实时人脸参数获取请求的接受信号时,被叫方终端即开启摄像头,并通过摄像头连续采集被叫方用户的被叫方实时人脸RGB图像。其中,采集被叫方实时人脸RGB图像的过程与视频通话过程中的图像采集过程相似,本实施例在此不再赘述。
步骤708,被叫方终端将被叫方实时人脸RGB图像输入人脸参数预测模型,得到人脸参数预测模型输出的被叫方实时人脸参数。
在一种可能的实施方式中,主叫方终端与被叫方终端中均存储有人脸参数预测模型,在通话过程中,被叫方终端将被叫方实时人脸RGB图像输入人脸参数预测模型,得到人脸参数预测模型输出的被叫方实时人脸参数。其中,利用人脸参数预测模型提取实时人脸参数的过程可以参考上述实施例中利用人脸参数预测模型提取初始人脸参数的过程,本实施例在此不再赘述。
可选的,被叫方实时人脸参数包括实时人脸形状参数、实时人脸表情参数和实时人脸姿态参数。
步骤709,被叫方终端向主叫方终端发送被叫方实时人脸参数。
步骤710,主叫方终端接收被叫方终端发送的被叫方实时人脸参数。
由于通话过程中人脸的表情和姿态可能会发生较大变化,而人脸形状则不会发生较大变化,因此为了进一步降低数据发送量,在一种可能的实施方式中,如图8所示,上述步骤709和710可以被替换为如下步骤。
步骤711,被叫方终端向主叫方终端发送第一被叫方实时人脸参数,第一被叫方实时人脸参数中包括实时人脸形状参数、实时人脸表情参数和实时人脸姿态参数。
在一种可能的实施方式中,为了确定当前使用被叫方终端的用户是否为目标人脸模型对应的用户,在通话初始阶段,被叫方终端将提取到的实时人脸形状参数、实时人脸表情参数和实时人脸姿态参数作为第一被叫方实时人脸参数发送至主叫方终端。
步骤712,主叫方终端接收被叫方终端发送的第一被叫方实时人脸参数。
可选的,主叫方终端接收到第一被叫方实时人脸参数后,获取第一被叫方实时人脸参数中的实时人脸形状参数,并计算该实时人脸形状参数与初始人脸形状参数之间的匹配度。若两者的匹配度高于匹配度阈值,主叫方终端则确定当前使用被叫方终端的用户与目标人脸模型对应的用户一致;若两者的匹配度低于匹配度阈值,主叫方终端则确定当前使用被叫方终端的用户与目标人脸模型对应的用户不一致。
在一个示意性的例子中,该匹配度阈值为80%。
步骤713,若实时人脸形状参数与初始人脸形状参数的匹配度高于匹配度阈值,主叫方终端则向被叫方终端发送参数简化消息。
进一步的,当主叫方终端则确定当前使用被叫方终端的用户与目标人脸模型对应的用户一致时,主叫方终端向被叫方终端发送参数简化消息,该参数简化消息用于指示被叫方终端对发送的实时人脸参数进行简化。
步骤714,若接收到主叫方终端发送的参数简化消息,被叫方终端则向主叫方终端发送第二被叫方实时人脸参数,第二被叫方实时人脸参数中包括实时人脸表情参数和实时人脸姿态参数。
相应的,当接收到主叫方终端发送的参数简化消息时,被叫方终端向主叫方终端发送去除实时人脸形状参数的第二被叫方实时人脸参数。
当然,在其他可能的实施方式中,被叫方终端可以在通话开始阶段,即向主叫方终端发送第二被叫方实时人脸参数,本实施例对此不做限定。
步骤715,主叫方终端接收被叫方终端发送的第二被叫方实时人脸参数。
相应的,主叫方终端接收被叫方终端发送的第二被叫方实时人脸参数,以便后续进行模型驱动。
步骤711,主叫方终端根据被叫方实时人脸参数驱动目标人脸三维模型。
在一种可能的实施方式中,主叫方终端根据被叫方实时人脸参数中的实时人脸表情参数驱动目标人脸三维模型调整人脸表情,并根据实时人脸姿态参数驱动目标人脸三维模型调整人脸姿态。
在一个示意性的例子中,主叫方终端发起通话的过程如图9所示。
1、检测通讯录中是都存储有被叫方(即当前通话对象)的人脸三维模型;若存储有,则执行步骤2,若未存储,则执行步骤6;
2、检测是否发起三维模拟通话邀请;若发起,则执行步骤3,若未发起,则执行步骤6;
3、向被叫方发送三维模拟通话邀请;
4、被叫方是否接受三维模拟通话邀请;若接受,则执行步骤5,若未接受,则执行步骤6。
5、与被叫方终端进行三维模拟通话;
6、与被叫方终端进行普通音频通话。
本实施例中,在主叫方终端存储有被叫方终端对应的目标人脸三维模型,且被叫方终端允许进行实时人脸图像采集时,获取并显示目标人脸三维模型,并根据实时人脸参数驱动目标人脸三维模型,实现了通话过程中模型的自定义显示。
此外,本实施例中,被叫方终端仅向主叫方终端发送实时人脸表情参数和实时人脸姿态参数,在保证模型正常驱动的前提下,进一步降低了通话过程中的数据传输量。
上述实施例中,以通话过程中主叫方终端根据被叫方终端发送的实时人脸参数驱动目标人脸三维模型为例进行说明,在实际应用过程中,若被叫方终端存储有主叫方终端对应的人脸三维模型时,主叫方终端也可以进行实时人脸图像采集以及实时人脸参数提取,并将提取到的主叫方实时人脸参数发送至被叫方终端。在一种可能的实施方式中,如图10所示,该通话方法还可以包括如下步骤。
步骤1001,主叫方终端通过摄像头采集主叫方实时人脸RGB图像。
主叫方终端采集主叫方实时人脸RGB图像的过程可以参考被叫方终端采集被叫方实时人脸RGB图像的过程,本实施例在此不再赘述。
步骤1002,主叫方终端从主叫方实时人脸RGB图像中提取主叫方终端对应的主叫方实时人脸参数。
其中,主叫方终端提取主叫方实时人脸参数的过程可以参考被叫方终端提取被叫方实时人脸RGB图像的过程,本实施例在此不再赘述。
步骤1003,主叫方终端向被叫方终端发送主叫方实时人脸参数。
步骤1004,被叫方终端接收主叫方终端发送的主叫方实时人脸参数。
步骤1005,被叫方终端根据主叫方实时人脸参数驱动主叫方终端对应的人脸三维模型。
其中,被叫方终端预先构建有主叫方终端对应的人脸三维模型,后续即根据主叫方实时人脸参数驱动该人脸三维模型,从而模拟出主叫方用户的实时人脸状态。
需要说明的是,上述各个实施例中,以主叫方终端为执行主体的步骤可以单独实现成为主叫方终端侧的通话方法,以被叫方终端为执行主体的步骤可以单独实现成为被叫方终端侧的通话方法,本实施例在此不再赘述。
请参考图11,其示出了本申请一个实施例提供的通话装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为图2中主叫方终端210的全部或一部分。该装置包括:
构建模块1101,用于根据目标人脸RGB图像构建被叫方终端对应的目标人脸三维模型;
第一获取模块1102,用于当与所述被叫方终端进行通话时,获取所述目标人脸三维模型;
第一接收模块1103,用于接收所述被叫方终端发送的被叫方实时人脸参数,所述被叫方实时人脸参数由所述被叫方终端从采集到的被叫方实时人脸RGB图像中提取得到;
第一驱动模块1104,用于根据所述被叫方实时人脸参数驱动所述目标人脸三维模型。
可选的,所述构建模块1101,包括:
第一获取单元,用于获取所述目标人脸RGB图像;
第一生成单元,用于根据所述目标人脸RGB图像生成初始人脸三维模型,所述初始人脸三维模型不包括人脸纹理;
第二生成单元,用于根据所述目标人脸RGB图像生成人脸纹理贴图;
构建单元,用于根据所述初始人脸三维模型和所述人脸纹理贴图构建所述目标人脸三维模型。
可选的,所述第一生成单元,用于:
将所述目标人脸RGB图像输入人脸参数预测模型,得到所述人脸参数预测模型输出的初始人脸参数,所述初始人脸参数包括初始人脸形状参数、初始人脸表情参数和初始人脸姿态参数;
根据所述初始人脸参数和通用人脸三维模型生成所述初始人脸三维模型,所述通用人脸三维模型采用人脸3D形变模型3DMM。
可选的,所述第二生成单元,用于:
对所述目标人脸RGB图像进行UV展开,生成第一UV纹理图,所述第一UV纹理图为三通道图像;
对所述第一UV纹理图进行水平翻转,生成第二UV纹理图,所述第二UV纹理图与所述第一UV纹理图像的尺寸相同,且所述第二UV纹理图为三通道图像;
根据所述第一UV纹理图和所述第二UV纹理图生成第三UV纹理图,所述第三UV纹理图为六通道图像;
将所述第三UV纹理图输入UV纹理生成模型,得到所述UV纹理生成模型输出的所述人脸纹理贴图。
可选的,所述第一接收模块1103,包括:
第一接收单元,用于接收所述被叫方终端发送的第一被叫方实时人脸参数,所述第一被叫方实时人脸参数包括实时人脸形状参数、实时人脸表情参数和实时人脸姿态参数;
第一发送单元,用于若所述实时人脸形状参数与初始人脸形状参数的匹配度高于匹配度阈值,则向所述被叫方终端发送参数简化消息,所述初始人脸形状参数是用于构建所述目标人脸三维模型的人脸形状参数;
第二接收单元,用于接收所述被叫方终端发送的第二被叫方实时人脸参数,所述第二被叫方实时人脸参数包括所述实时人脸表情参数和所述实时人脸姿态参数;
所述第一驱动模块1104,用于:
根据所述实时人脸表情参数驱动所述目标人脸三维模型调整人脸表情,并根据所述实时人脸姿态参数驱动所述目标人脸三维模型调整人脸姿态。
可选的,所述第一获取模块1102,包括:
显示单元,用于当与所述被叫方终端进行通话时,若存储有所述被叫方终端对应的所述目标人脸三维模型,则在通话界面中显示人脸三维模型显示控件;
第二发送单元,用于当接收到对所述人脸三维模型显示控件的触发操作时,向所述被叫方终端发送实时人脸参数获取请求;
第二获取单元,用于若接收到所述被叫方终端发送的请求接受响应,则获取所述目标人脸三维模型。
可选的,所述被叫方终端存储有所述主叫方终端对应的人脸三维模型;
所述装置还包括:
第一采集模块,用于通过摄像头采集主叫方实时人脸RGB图像;
第一提取模块,用于从所述主叫方实时人脸RGB图像中提取所述主叫方终端对应的主叫方实时人脸参数;
第一发送模块,用于向所述被叫方终端发送所述主叫方实时人脸参数,所述被叫方终端存储有所述主叫方终端对应的人脸三维模型,所述被叫方终端用于根据所述主叫方实时人脸参数驱动所述主叫方终端对应的人脸三维模型。
请参考图12,其示出了本申请一个实施例提供的通话装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为图2中被叫方终端220的全部或一部分。该装置包括:
第二采集模块1201,用于当与主叫方终端进行通话时,通过摄像头采集被叫方实时人脸RGB图像;
第二提取模块1202,用于从所述被叫方实时人脸RGB图像中提取被叫方实时人脸参数;
第二发送模块1203,用于向所述主叫方终端发送所述被叫方实时人脸参数,所述主叫方终端用于根据所述被叫方实时人脸参数驱动目标人脸三维模型,所述目标人脸三维模型由所述主叫方终端根据目标人脸RGB图像构建得到。
可选的,所述第二提取模块1202,用于:
将所述被叫方实时人脸RGB图像输入人脸参数预测模型,得到所述人脸参数预测模型输出的所述被叫方实时人脸参数,所述被叫方实时人脸参数包括实时人脸形状参数、实时人脸表情参数和实时人脸姿态参数。
可选的,所述第二采集模块1201,包括:
第三接收单元,用于当与所述主叫方终端进行通话时,接收所述主叫方终端发送的实时人脸参数获取请求,所述实时人脸参数获取请求是所述主叫方终端存储有所述目标人脸三维模型,且接收到对通话界面中人脸三维模型显示控件的触发操作时发送的;
第三发送单元,用于若接收到对所述实时人脸参数获取请求的接受信号,则向所述主叫方终端发送请求接受响应,并通过所述摄像头采集所述被叫方实时人脸RGB图像。
可选的,所述第二发送模块1203,包括:
第四发送单元,用于向所述主叫方终端发送第一被叫方实时人脸参数,所述第一被叫方实时人脸参数中包括实时人脸形状参数、实时人脸表情参数和实时人脸姿态参数;
或者,
第五发送单元,用于若接收到所述主叫方终端发送的参数简化消息,则向所述主叫方终端发送第二被叫方实时人脸参数,所述第二被叫方实时人脸参数中包括所述实时人脸表情参数和所述实时人脸姿态参数,所述参数简化消息是所述实时人脸形状参数与初始人脸形状参数的匹配度高于匹配度阈值时发送的,所述初始人脸形状参数是用于构建所述目标人脸三维模型的人脸形状参数。
可选的,所述被叫方终端存储有所述主叫方终端对应的人脸三维模型;
所述装置还包括:
第二接收模块,用于接收所述主叫方终端发送的主叫方实时人脸参数,所述主叫方实时人脸参数由所述主叫方终端从采集的主叫方实时人脸RGB图像中提取得到;
第二驱动模块,用于根据所述主叫方实时人脸参数驱动所述主叫方终端对应的人脸三维模型。
本申请实施例还提供了一种计算机可读介质,该计算机可读介质存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的通话方法。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的通话方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (16)
1.一种通话方法,其特征在于,所述方法用于主叫方终端,所述方法包括:
根据目标人脸RGB图像构建被叫方终端对应的目标人脸三维模型;
当与所述被叫方终端进行通话时,获取所述目标人脸三维模型;
接收所述被叫方终端发送的被叫方实时人脸参数,所述被叫方实时人脸参数由所述被叫方终端从采集到的被叫方实时人脸RGB图像中提取得到;
根据所述被叫方实时人脸参数驱动所述目标人脸三维模型。
2.根据权利要求1所述的方法,其特征在于,所述根据目标人脸RGB图像构建被叫方终端对应的目标人脸三维模型,包括:
获取所述目标人脸RGB图像;
根据所述目标人脸RGB图像生成初始人脸三维模型,所述初始人脸三维模型不包括人脸纹理;
根据所述目标人脸RGB图像生成人脸纹理贴图;
根据所述初始人脸三维模型和所述人脸纹理贴图构建所述目标人脸三维模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标人脸RGB图像生成初始人脸三维模型,包括:
将所述目标人脸RGB图像输入人脸参数预测模型,得到所述人脸参数预测模型输出的初始人脸参数,所述初始人脸参数包括初始人脸形状参数、初始人脸表情参数和初始人脸姿态参数;
根据所述初始人脸参数和通用人脸三维模型生成所述初始人脸三维模型,所述通用人脸三维模型采用人脸3D形变模型3DMM。
4.根据权利要求2所述的方法,其特征在于,所述根据所述目标人脸RGB图像生成人脸纹理贴图,包括:
对所述目标人脸RGB图像进行UV展开,生成第一UV纹理图,所述第一UV纹理图为三通道图像;
对所述第一UV纹理图进行水平翻转,生成第二UV纹理图,所述第二UV纹理图与所述第一UV纹理图像的尺寸相同,且所述第二UV纹理图为三通道图像;
根据所述第一UV纹理图和所述第二UV纹理图生成第三UV纹理图,所述第三UV纹理图为六通道图像;
将所述第三UV纹理图输入UV纹理生成模型,得到所述UV纹理生成模型输出的所述人脸纹理贴图。
5.根据权利要求1至4任一所述的方法,其特征在于,所述接收所述被叫方终端发送的被叫方实时人脸参数,包括:
接收所述被叫方终端发送的第一被叫方实时人脸参数,所述第一被叫方实时人脸参数包括实时人脸形状参数、实时人脸表情参数和实时人脸姿态参数;
若所述实时人脸形状参数与初始人脸形状参数的匹配度高于匹配度阈值,则向所述被叫方终端发送参数简化消息,所述初始人脸形状参数是用于构建所述目标人脸三维模型的人脸形状参数;
接收所述被叫方终端发送的第二被叫方实时人脸参数,所述第二被叫方实时人脸参数包括所述实时人脸表情参数和所述实时人脸姿态参数;
所述根据所述实时人脸参数驱动所述目标人脸三维模型,包括:
根据所述实时人脸表情参数驱动所述目标人脸三维模型调整人脸表情,并根据所述实时人脸姿态参数驱动所述目标人脸三维模型调整人脸姿态。
6.根据权利要求1至4任一所述的方法,其特征在于,所述当与所述被叫方终端进行通话时,获取所述目标人脸三维模型,包括:
当与所述被叫方终端进行通话时,若存储有所述被叫方终端对应的所述目标人脸三维模型,则在通话界面中显示人脸三维模型显示控件;
当接收到对所述人脸三维模型显示控件的触发操作时,向所述被叫方终端发送实时人脸参数获取请求;
若接收到所述被叫方终端发送的请求接受响应,则获取所述目标人脸三维模型。
7.根据权利要求1至4任一所述的方法,其特征在于,所述被叫方终端存储有所述主叫方终端对应的人脸三维模型;
所述获取所述目标人脸三维模型之后,所述方法还包括:
通过摄像头采集主叫方实时人脸RGB图像;
从所述主叫方实时人脸RGB图像中提取所述主叫方终端对应的主叫方实时人脸参数;
向所述被叫方终端发送所述主叫方实时人脸参数,所述被叫方终端存储有所述主叫方终端对应的人脸三维模型,所述被叫方终端用于根据所述主叫方实时人脸参数驱动所述主叫方终端对应的人脸三维模型。
8.一种通话方法,其特征在于,所述方法用于被叫方终端,所述方法包括:
当与主叫方终端进行通话时,通过摄像头采集被叫方实时人脸RGB图像;
从所述被叫方实时人脸RGB图像中提取被叫方实时人脸参数;
向所述主叫方终端发送所述被叫方实时人脸参数,所述主叫方终端用于根据所述被叫方实时人脸参数驱动目标人脸三维模型,所述目标人脸三维模型由所述主叫方终端根据目标人脸RGB图像构建得到。
9.根据权利要求8所述的方法,其特征在于,所述从所述被叫方实时人脸RGB图像中提取被叫方实时人脸参数,包括:
将所述被叫方实时人脸RGB图像输入人脸参数预测模型,得到所述人脸参数预测模型输出的所述被叫方实时人脸参数,所述被叫方实时人脸参数包括实时人脸形状参数、实时人脸表情参数和实时人脸姿态参数。
10.根据权利要求8或9所述的方法,其特征在于,所述当与主叫方终端进行通话时,通过摄像头采集被叫方实时人脸RGB图像,包括:
当与所述主叫方终端进行通话时,接收所述主叫方终端发送的实时人脸参数获取请求,所述实时人脸参数获取请求是所述主叫方终端存储有所述目标人脸三维模型,且接收到对通话界面中人脸三维模型显示控件的触发操作时发送的;
若接收到对所述实时人脸参数获取请求的接受信号,则向所述主叫方终端发送请求接受响应,并通过所述摄像头采集所述被叫方实时人脸RGB图像。
11.根据权利要求8或9所述的方法,其特征在于,所述向所述主叫方终端发送所述被叫方实时人脸参数,包括:
向所述主叫方终端发送第一被叫方实时人脸参数,所述第一被叫方实时人脸参数中包括实时人脸形状参数、实时人脸表情参数和实时人脸姿态参数;
或者,
若接收到所述主叫方终端发送的参数简化消息,则向所述主叫方终端发送第二被叫方实时人脸参数,所述第二被叫方实时人脸参数中包括所述实时人脸表情参数和所述实时人脸姿态参数,所述参数简化消息是所述实时人脸形状参数与初始人脸形状参数的匹配度高于匹配度阈值时发送的,所述初始人脸形状参数是用于构建所述目标人脸三维模型的人脸形状参数。
12.根据权利要求8或9所述的方法,其特征在于,所述被叫方终端存储有所述主叫方终端对应的人脸三维模型;
所述向所述主叫方终端发送所述被叫方实时人脸参数之后,所述方法还包括:
接收所述主叫方终端发送的主叫方实时人脸参数,所述主叫方实时人脸参数由所述主叫方终端从采集的主叫方实时人脸RGB图像中提取得到;
根据所述主叫方实时人脸参数驱动所述主叫方终端对应的人脸三维模型。
13.一种通话装置,其特征在于,所述装置用于主叫方终端,所述装置包括:
构建模块,用于根据目标人脸RGB图像构建被叫方终端对应的目标人脸三维模型;
第一获取模块,用于当与所述被叫方终端进行通话时,获取所述目标人脸三维模型;
第一接收模块,用于接收所述被叫方终端发送的被叫方实时人脸参数,所述被叫方实时人脸参数由所述被叫方终端从采集到的被叫方实时人脸RGB图像中提取得到;
第一驱动模块,用于根据所述被叫方实时人脸参数驱动所述目标人脸三维模型。
14.一种通话装置,其特征在于,所述装置用于被叫方终端,所述装置包括:
第二采集模块,用于当与主叫方终端进行通话时,通过摄像头采集被叫方实时人脸RGB图像;
第二提取模块,用于从所述被叫方实时人脸RGB图像中提取被叫方实时人脸参数;
第二发送模块,用于向所述主叫方终端发送所述被叫方实时人脸参数,所述主叫方终端用于根据所述被叫方实时人脸参数驱动目标人脸三维模型,所述目标人脸三维模型由所述主叫方终端根据目标人脸RGB图像构建得到。
15.一种终端,其特征在于,所述终端包括处理器和存储器;所述存储器存储有至少一条指令,所述至少一条指令用于被所述处理器执行以实现如权利要求1至7任一所述的通话方法,或,实现如权利要求8至12任一所述的通话方法。
16.一种计算机可读存储介质,其特征在于,所述存储介质存储有至少一条指令,所述至少一条指令用于被处理器执行以实现如权利要求1至7任一所述的通话方法,或,实现如权利要求8至12任一所述的通话方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910814309.7A CN110536095A (zh) | 2019-08-30 | 2019-08-30 | 通话方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910814309.7A CN110536095A (zh) | 2019-08-30 | 2019-08-30 | 通话方法、装置、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110536095A true CN110536095A (zh) | 2019-12-03 |
Family
ID=68665515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910814309.7A Pending CN110536095A (zh) | 2019-08-30 | 2019-08-30 | 通话方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110536095A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111047690A (zh) * | 2019-12-23 | 2020-04-21 | 北京奇艺世纪科技有限公司 | 模型构建方法和装置、存储介质和电子装置 |
CN112218034A (zh) * | 2020-10-13 | 2021-01-12 | 北京字节跳动网络技术有限公司 | 视频处理方法、系统、终端和存储介质 |
CN113066497A (zh) * | 2021-03-18 | 2021-07-02 | Oppo广东移动通信有限公司 | 数据处理方法、装置、系统、电子设备和可读存储介质 |
CN113395476A (zh) * | 2021-06-07 | 2021-09-14 | 广东工业大学 | 一种基于三维人脸重构的虚拟人物视频通话方法及系统 |
CN113840131A (zh) * | 2020-06-08 | 2021-12-24 | 中国移动通信有限公司研究院 | 视频通话质量评估方法、装置、电子设备及可读存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101329728A (zh) * | 2008-07-03 | 2008-12-24 | 深圳市康贝尔智能技术有限公司 | 一种基于汉明距离约束的lbp人脸光照预处理方法 |
CN101360246A (zh) * | 2008-09-09 | 2009-02-04 | 西南交通大学 | 结合3d人脸模型的视频差错掩盖方法 |
CN101398886A (zh) * | 2008-03-17 | 2009-04-01 | 杭州大清智能技术开发有限公司 | 一种基于双目被动立体视觉的快速三维人脸识别方法 |
CN102271241A (zh) * | 2011-09-02 | 2011-12-07 | 北京邮电大学 | 一种基于面部表情/动作识别的图像通信方法及系统 |
CN104036546A (zh) * | 2014-06-30 | 2014-09-10 | 清华大学 | 一种基于自适应形变模型的任意视角人脸三维重构方法 |
CN104200444A (zh) * | 2014-09-25 | 2014-12-10 | 西北民族大学 | 基于对称样本块的图像修复方法 |
CN104217454A (zh) * | 2014-08-21 | 2014-12-17 | 中国科学院计算技术研究所 | 一种视频驱动的人脸动画生成方法 |
CN104951773A (zh) * | 2015-07-12 | 2015-09-30 | 上海微桥电子科技有限公司 | 一种实时人脸识别监视系统 |
WO2016161553A1 (en) * | 2015-04-07 | 2016-10-13 | Intel Corporation | Avatar generation and animations |
CN106251396A (zh) * | 2016-07-29 | 2016-12-21 | 迈吉客科技(北京)有限公司 | 三维模型的实时控制方法和系统 |
US20180300927A1 (en) * | 2017-04-18 | 2018-10-18 | Yury Hushchyn | Dynamic real-time generation of three-dimensional avatar models of users based on live visual input of users' appearance and computer systems and computer-implemented methods directed to thereof |
CN108765550A (zh) * | 2018-05-09 | 2018-11-06 | 华南理工大学 | 一种基于单张图片的三维人脸重建方法 |
CN109360170A (zh) * | 2018-10-24 | 2019-02-19 | 北京工商大学 | 基于高级特征的人脸修复方法 |
CN109410133A (zh) * | 2018-09-30 | 2019-03-01 | 北京航空航天大学青岛研究院 | 一种基于3dmm的人脸纹理修复方法 |
-
2019
- 2019-08-30 CN CN201910814309.7A patent/CN110536095A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398886A (zh) * | 2008-03-17 | 2009-04-01 | 杭州大清智能技术开发有限公司 | 一种基于双目被动立体视觉的快速三维人脸识别方法 |
CN101329728A (zh) * | 2008-07-03 | 2008-12-24 | 深圳市康贝尔智能技术有限公司 | 一种基于汉明距离约束的lbp人脸光照预处理方法 |
CN101360246A (zh) * | 2008-09-09 | 2009-02-04 | 西南交通大学 | 结合3d人脸模型的视频差错掩盖方法 |
CN102271241A (zh) * | 2011-09-02 | 2011-12-07 | 北京邮电大学 | 一种基于面部表情/动作识别的图像通信方法及系统 |
CN104036546A (zh) * | 2014-06-30 | 2014-09-10 | 清华大学 | 一种基于自适应形变模型的任意视角人脸三维重构方法 |
CN104217454A (zh) * | 2014-08-21 | 2014-12-17 | 中国科学院计算技术研究所 | 一种视频驱动的人脸动画生成方法 |
CN104200444A (zh) * | 2014-09-25 | 2014-12-10 | 西北民族大学 | 基于对称样本块的图像修复方法 |
WO2016161553A1 (en) * | 2015-04-07 | 2016-10-13 | Intel Corporation | Avatar generation and animations |
CN104951773A (zh) * | 2015-07-12 | 2015-09-30 | 上海微桥电子科技有限公司 | 一种实时人脸识别监视系统 |
CN106251396A (zh) * | 2016-07-29 | 2016-12-21 | 迈吉客科技(北京)有限公司 | 三维模型的实时控制方法和系统 |
US20180300927A1 (en) * | 2017-04-18 | 2018-10-18 | Yury Hushchyn | Dynamic real-time generation of three-dimensional avatar models of users based on live visual input of users' appearance and computer systems and computer-implemented methods directed to thereof |
CN108765550A (zh) * | 2018-05-09 | 2018-11-06 | 华南理工大学 | 一种基于单张图片的三维人脸重建方法 |
CN109410133A (zh) * | 2018-09-30 | 2019-03-01 | 北京航空航天大学青岛研究院 | 一种基于3dmm的人脸纹理修复方法 |
CN109360170A (zh) * | 2018-10-24 | 2019-02-19 | 北京工商大学 | 基于高级特征的人脸修复方法 |
Non-Patent Citations (1)
Title |
---|
陈珂: "基于卷积神经网络的单视图三维人脸重建技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111047690A (zh) * | 2019-12-23 | 2020-04-21 | 北京奇艺世纪科技有限公司 | 模型构建方法和装置、存储介质和电子装置 |
CN111047690B (zh) * | 2019-12-23 | 2023-12-15 | 北京奇艺世纪科技有限公司 | 模型构建方法和装置、存储介质和电子装置 |
CN113840131A (zh) * | 2020-06-08 | 2021-12-24 | 中国移动通信有限公司研究院 | 视频通话质量评估方法、装置、电子设备及可读存储介质 |
CN112218034A (zh) * | 2020-10-13 | 2021-01-12 | 北京字节跳动网络技术有限公司 | 视频处理方法、系统、终端和存储介质 |
WO2022078066A1 (zh) * | 2020-10-13 | 2022-04-21 | 北京字节跳动网络技术有限公司 | 视频处理方法、系统、终端和存储介质 |
CN113066497A (zh) * | 2021-03-18 | 2021-07-02 | Oppo广东移动通信有限公司 | 数据处理方法、装置、系统、电子设备和可读存储介质 |
CN113395476A (zh) * | 2021-06-07 | 2021-09-14 | 广东工业大学 | 一种基于三维人脸重构的虚拟人物视频通话方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10609334B2 (en) | Group video communication method and network device | |
CN110536095A (zh) | 通话方法、装置、终端及存储介质 | |
US11595617B2 (en) | Communication using interactive avatars | |
CN109413480B (zh) | 画面处理方法、装置、终端及存储介质 | |
CN110401810B (zh) | 虚拟画面的处理方法、装置、系统、电子设备及存储介质 | |
CN107333086A (zh) | 一种在虚拟场景中进行视频通信的方法及装置 | |
CN109150690B (zh) | 交互数据处理方法、装置、计算机设备和存储介质 | |
CN110178158A (zh) | 信息处理装置、信息处理方法和程序 | |
CN107784355A (zh) | 虚拟人多模态交互数据处理方法和系统 | |
CN108668050A (zh) | 基于虚拟现实的视频拍摄方法和装置 | |
CN114007099A (zh) | 一种视频处理方法、装置和用于视频处理的装置 | |
CN111614925B (zh) | 人物图像处理方法、装置、相应终端及存储介质 | |
CN109413152B (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN108353127A (zh) | 基于深度相机的图像稳定 | |
CN117036583A (zh) | 视频生成方法、装置、存储介质及计算机设备 | |
CN112669846A (zh) | 交互系统、方法、装置、电子设备及存储介质 | |
CN112669416B (zh) | 客服服务系统、方法、装置、电子设备及存储介质 | |
CN108513090B (zh) | 群组视频会话的方法及装置 | |
CN113014960B (zh) | 一种在线制作视频的方法、装置及存储介质 | |
CN107070784A (zh) | 一种基于WebGL和VR技术的3D即时通讯系统 | |
CN113222178B (zh) | 模型训练方法、用户界面的生成方法、装置及存储介质 | |
CN112449098A (zh) | 一种拍摄方法、装置、终端及存储介质 | |
CN114972588A (zh) | 车载虚拟动画的构建方法、构建装置及控制方法 | |
CN116420351A (zh) | 提供虚拟会议中的发送参与者的3d表示 | |
CN113050791A (zh) | 交互方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191203 |
|
RJ01 | Rejection of invention patent application after publication |