CN114594851A - 图像处理方法、服务器和虚拟现实设备 - Google Patents

图像处理方法、服务器和虚拟现实设备 Download PDF

Info

Publication number
CN114594851A
CN114594851A CN202011381020.XA CN202011381020A CN114594851A CN 114594851 A CN114594851 A CN 114594851A CN 202011381020 A CN202011381020 A CN 202011381020A CN 114594851 A CN114594851 A CN 114594851A
Authority
CN
China
Prior art keywords
image
mouth
user
human body
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011381020.XA
Other languages
English (en)
Inventor
刘家宾
彭晗
孙文超
杨庆许
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202011381020.XA priority Critical patent/CN114594851A/zh
Priority to PCT/CN2021/098241 priority patent/WO2022110752A1/zh
Publication of CN114594851A publication Critical patent/CN114594851A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/012Walk-in-place systems for allowing a user to walk in a virtual environment while constraining him to a given position in the physical environment

Abstract

本申请实施例公开了一种图像处理方法,用于使用户在多方虚拟现实场景中获取其他用户无遮挡的人脸图像。本申请实施例方法包括:获取第一虚拟现实VR设备采集的眼部图像和嘴部图像;获取第一用户佩戴所述第一VR设备的人体图像;根据所述眼部图像和所述嘴部图像合成人脸图像;根据所述人脸图像和所述人体图像合成无VR设备遮挡的人体图像;向第二VR设备发送所述无VR设备遮挡的人体图像,用户获取其他用户无遮挡的人脸图像,可以提升用户体验。

Description

图像处理方法、服务器和虚拟现实设备
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像处理方法、服务器和虚拟现实设备。
背景技术
随着虚拟现实(virtual reality,VR)技术的迅猛发展,用户对于VR体验的要求越来越高。常见的虚拟现实场景包括远程三维视频会议和虚拟现实游戏等。
现有的虚拟现实场景下,用户通过图像采集装置获取其他用户的图像。
由于参与VR场景的用户都会佩戴VR设备例如VR头盔等,由于其他用户的眼部被VR头盔遮盖,因此其人体图像中存在面部表情缺失,用户体验较差。
发明内容
本申请实施例提供了一种图像处理方法,用于使用户在多方虚拟现实场景中获取其他用户无遮挡的人脸图像。
本申请实施例第一方面提供了一种图像处理方法,包括:获取第一虚拟现实VR设备采集的眼部图像和嘴部图像;获取第一用户佩戴所述第一VR设备的人体图像;根据所述眼部图像和所述嘴部图像合成人脸图像;根据所述人脸图像和所述人体图像合成无VR设备遮挡的人体图像;向第二VR设备发送所述无VR设备遮挡的人体图像。需要说明的是,实现该图像处理方法的图像处理装置可以是VR设备、手机等终端,也可以是服务器,具体不做限定。
本申请实施例提供的图像处理方法,虚拟现实场景中至少包括佩戴第一VR设备的第一用户以及佩戴第二VR设备的第二用户,图像处理装置可以获取第一VR设备采集的第一用户的眼部图像和第一用户的嘴部图像,并获取第一用户佩戴第一VR设备的人体图像,图像处理装置基于上述图像合成第一用户的无第一VR设备遮挡的完整的人体图像,并将该图像发送给第二VR设备,由此,第二用户可以获取呈现在虚拟现实场景中的第一用户无VR设备遮挡的人体图像,提升用户体验。
在第一方面的一种可能的实现方式中,所述第一用户与佩戴所述第二VR设备的第二用户位于不同的物理场景下;所述获取第一用户佩戴所述第一VR设备的人体图像具体包括:获取图像采集设备发送的所述人体图像,所述图像采集设备与所述第一用户位于同一物理场景下。
本申请实施例提供的图像处理方法,当第一用户和第二用户位于不同物理场景下时,可以通过与第一用户位于同一物理场景下的图像采集设备采集第一用户佩戴第一VR设备的人体图像,增加了方案实现的灵活性。
在第一方面的一种可能的实现方式中,所述第一用户与佩戴所述第二VR设备的第二用户位于同一物理场景下;所述获取第一用户佩戴所述第一VR设备的人体图像具体包括:获取所述第二VR设备发送的所述人体图像。
本申请实施例提供的图像处理方法,当第一用户和第二用户位于同一物理场景下时,可以直接由第二VR设备采集第一用户佩戴第一VR设备的人体图像,而不需要额外的图像采集装置,可以减少对硬件设备的要求。
在第一方面的一种可能的实现方式中,所述方法还包括:根据所述第一用户佩戴所述第一VR设备的人体图像获取拍摄所述人体图像时的人脸位姿;根据所述眼部图像和所述嘴部图像合成人脸图像具体包括:根据所述人脸位姿、所述眼部图像和所述嘴部图像,基于深度学习模型输出所述人脸图像。
本申请实施例提供的图像处理方法,图像处理装置可以根据预训练的深度学习模型进行人脸图像的合成,在人脸合成时考虑到合成的人脸图像需要与人体图像进行融合,因此,提前获取人体图像拍摄时的人脸位姿,合成人脸图像时基于该人脸位姿进行合成,可以提升后续融合的人体图像的质量。
在第一方面的一种可能的实现方式中,所述嘴部图像具体包括:嘴部彩色图像和嘴部深度图像,或者,嘴部灰度图像和嘴部深度图像。
本申请实施例提供的图像处理方法,嘴部图像具体还包括了嘴部深度图像,可以提升合成人脸图像的图像质量。此外,在深度模型训练阶段,引入嘴部深度图像,增加了深度图像监督模型训练,相应修改目标损失函数,加快神经网络训练迭代速度,还可以优化离线预训练模型的训练效率。
在第一方面的一种可能的实现方式中,所述深度学习模型包括由第一模型和第二模型组成的深度学习模型;所述第一模型由训练样本的人脸彩色图像和人脸深度图像输入变分自编码器进行第一训练,根据所述第一训练获取的损失值对所述变分自编码器的权重参数进行更新得到;所述第二模型由训练样本的第一眼部图像、第一嘴部图像、第二眼部图像、第二嘴部图像输入域自适应变分自编码器进行第二训练,根据所述第二训练获取的损失值对所述域自适应变分自编码器的权重参数进行更新得到,所述第一眼部图像和所述第一嘴部图像为VR设备采集得到的图像,所述第二眼部图像为将所述第一眼部图像对应的人脸位姿输入所述第一模型获取的图像,所述第二嘴部图像为将所述第一嘴部图像对应的人脸位姿输入所述第一模型获取的图像。
本申请实施例提供的图像处理方法,用于合成人脸的深度学习模型经预先训练得到,包括第一模型和第二模型两部分组成,其中,第一模型的训练过程使用了人脸深度图像,并在目标损失函数中增加了深度残差项,相较现有技术,可以减少对多角度人脸图像的要求,加快收敛速度提升第一模型训练效率;第二模型的训练中,输入数据包括基于人脸位姿由第一模型合成得到的眼部图像和嘴部图像,嘴部图像包括深度图和灰度图,同样在目标损失函数中新增深度约束项,可以使得获取经该模型最终合成的人脸图像质量提高。
在第一方面的一种可能的实现方式中,所述根据所述第一用户佩戴所述第一VR设备的人体图像获取拍摄所述人体图像时的人脸位姿,具体包括:所述第一VR设备表面设有定位标识物;从所述第一用户佩戴所述第一VR设备的人体图像中识别所述定位标识物,获取所述人脸位姿,所述深度学习模型输出的人脸图像为基于所述人脸位姿呈现的图像。
本申请实施例提供的图像处理方法,第一VR设备表面设有定位标识物,定位标识物为非对称的图案标识,从所述第一用户佩戴所述第一VR设备的人体图像中识别所述定位标识物即可获取人脸与拍摄该人体图像的相机之间的相对位姿,即人脸位姿,该方法简便易于实现,相较已有的人脸位姿获取方法的计算量较低。
在第一方面的一种可能的实现方式中,所述根据所述人脸图像和所述人体图像合成无VR设备遮挡的人体图像,具体包括:获取所述人脸图像中的第一嘴型特征点;获取所述人体图像中的第二嘴型特征点;根据所述第一嘴型特征点和所述第二嘴型特征点对所述人脸图像或所述人体图像进行缩放,经所述缩放后的所述人脸图像和所述人体图像具有相同尺度;根据所述缩放后的所述人脸图像和所述人体图像进行图像融合,获取所述无VR设备遮挡的人体图像。
本申请实施例提供的图像处理方法,图像处理装置根据人脸图像和人体图像的嘴型特征点进行尺寸缩放,使得两图像中人脸的尺寸匹配,然后再进行图像融合可以使得融合后的图像质量提高。
在第一方面的一种可能的实现方式中,所述方法还包括:接收所述第二VR设备发送的图像请求消息;若获取所述第一VR设备对所述图像请求消息的反馈信息为同意提供人体图像,则触发根据所述眼部图像和所述嘴部图像合成人脸图像。
本申请实施例提供的图像处理方法,图像处理装置进行图像处理由第二VR设备的请求触发,经第一VR设备确认后执行,可以更好的保护用户隐私。
本申请实施例第二方面提供了一种图像处理方法,包括:采集第一用户的眼部图像和所述第一用户的嘴部图像,所述第一用户佩戴所述第一VR设备;向图像处理装置发送所述第一用户的眼部图像和所述第一用户的嘴部图像,所述第一用户的眼部图像和所述第一用户的嘴部图像用于合成所述第一用户的无VR设备遮挡的人脸图像。
本申请实施例提供的图像处理方法,第一VR设备可以采集佩戴该第一VR设备的第一用户的眼部图像和嘴部图像,发送给服务器用于合成第一用户的无VR设备遮挡的人脸图像,在多用户参与的虚拟现实场景中,向其他用户提供无VR设备的人脸图像可以提升用户体验。
在第二方面的一种可能的实现方式中,所述嘴部图像具体包括:嘴部彩色图像和嘴部深度图像,或者,嘴部灰度图像和嘴部深度图像。
本申请实施例提供的图像处理方法,嘴部图像具体包括嘴部深度图像,在合成人脸时可以提升合成人脸图像的图像质量。
在第二方面的一种可能的实现方式中,所述采集第一用户的眼部图像和所述第一用户的嘴部图像之前,所述方法还包括:接收第二VR设备发送的图像请求消息;若获取所述第一用户对所述图像请求消息的确认信息,则向所述图像处理装置发送反馈消息,所述反馈消息携带所述第一用户同意提供人体图像的所述确认信息,所述确认信息用于触发所述采集第一用户的眼部图像和所述第一用户的嘴部图像。
本申请实施例提供的图像处理方法,第一VR设备接收的第二VR设备发送的图像请求消息,在接收图像请求消息后,第一VR设备可以获取第一用户的确认信息,可以是呈现在显示屏中告知用户或者通过语音播报的方式提示用户,获取第一用户的反馈可以是用户的实时反馈或者根据用户预设的规则获取对图像请求消息的确认信息,然后可以将用户的确认信息反馈给第二VR设备,该方案可以保护用户隐私。
本申请实施例第三方面提供了一种服务器,包括:获取单元,用于获取第一虚拟现实VR设备采集的眼部图像和嘴部图像;所述获取单元,还用于获取第一用户佩戴所述第一VR设备的人体图像;处理单元,用于根据所述眼部图像和所述嘴部图像合成人脸图像;所述处理单元,还用于根据所述人脸图像和所述人体图像合成无VR设备遮挡的人体图像;发送单元,用于向第二VR设备发送所述无VR设备遮挡的人体图像。
在第三方面的一种可能的实现方式中,所述第一用户与佩戴所述第二VR设备的第二用户位于同一物理场景下;所述获取单元,具体用于:获取所述第二VR设备发送的所述人体图像。
在第三方面的一种可能的实现方式中,所述获取单元还用于:根据所述第一用户佩戴所述第一VR设备的人体图像获取拍摄所述人体图像时的人脸位姿;所述处理单元具体用于:根据所述人脸位姿、所述眼部图像和所述嘴部图像,基于深度学习模型输出所述人脸图像。
在第三方面的一种可能的实现方式中,所述嘴部图像具体包括:嘴部彩色图像和嘴部深度图像,或者,嘴部灰度图像和嘴部深度图像。
在第三方面的一种可能的实现方式中,所述深度学习模型包括由第一模型和第二模型组成的深度学习模型;所述第一模型由训练样本的人脸彩色图像和人脸深度图像输入变分自编码器进行第一训练,根据所述第一训练获取的损失值对所述变分自编码器的权重参数进行更新得到;所述第二模型由训练样本的第一眼部图像、第一嘴部图像、第二眼部图像、第二嘴部图像输入域自适应变分自编码器进行第二训练,根据所述第二训练获取的损失值对所述域自适应变分自编码器的权重参数进行更新得到,所述第一眼部图像和所述第一嘴部图像为VR设备采集得到的图像,所述第二眼部图像为将所述第一眼部图像对应的人脸位姿输入所述第一模型获取的图像,所述第二嘴部图像为将所述第一嘴部图像对应的人脸位姿输入所述第一模型获取的图像。
在第三方面的一种可能的实现方式中,所述第一VR设备表面设有定位标识物;所述获取单元,具体用于:从所述第一用户佩戴所述第一VR设备的人体图像中识别所述定位标识物,获取所述人脸位姿,所述深度学习模型输出的人脸图像为基于所述人脸位姿呈现的图像。
在第三方面的一种可能的实现方式中,所述处理单元具体用于:获取所述人脸图像中的第一嘴型特征点;获取所述人体图像中的第二嘴型特征点;根据所述第一嘴型特征点和所述第二嘴型特征点对所述人脸图像或所述人体图像进行缩放,经所述缩放后的所述人脸图像和所述人体图像具有相同尺度;根据所述缩放后的所述人脸图像和所述人体图像进行图像融合,获取所述无VR设备遮挡的人体图像。
在第三方面的一种可能的实现方式中,所述图像处理装置还包括:接收单元,用于接收所述第二VR设备发送的图像请求消息;触发单元,用于若获取所述第一VR设备对所述图像请求消息的反馈信息为同意提供人体图像,则触发根据所述眼部图像和所述嘴部图像合成人脸图像。
本申请实施例第四方面提供了一种虚拟现实VR设备,其特征在于,包括:采集单元,用于采集第一用户的眼部图像和所述第一用户的嘴部图像,所述第一用户佩戴所述第一VR设备;发送单元,向图像处理装置发送所述第一用户的眼部图像和所述第一用户的嘴部图像,所述第一用户的眼部图像和所述第一用户的嘴部图像用于合成所述第一用户的无VR设备遮挡的人脸图像。
在第四方面的一种可能的实现方式中,所述嘴部图像具体包括:嘴部彩色图像和嘴部深度图像,或者,嘴部灰度图像和嘴部深度图像。
在第四方面的一种可能的实现方式中,所述VR设备还包括:接收单元,用于接收第二VR设备发送的图像请求消息;所述发送单元还用于,若获取所述第一用户对所述图像请求消息的确认信息,则向所述服务器发送反馈消息,所述反馈消息携带所述第一用户同意提供人体图像的所述确认信息,所述确认信息用于触发所述采集单元采集第一用户的眼部图像和所述第一用户的嘴部图像。
本申请实施例第五方面提供了一种图像处理装置,包括:一个或多个处理器和存储器;其中,所述存储器中存储有计算机可读指令;所述一个或多个处理器读取所述计算机可读指令以使所述终端实现如上述第一方面以及各种可能的实现方式中任一项所述的方法。
本申请实施例第六方面提供了一种VR设备,包括:一个或多个处理器和存储器;其中,所述存储器中存储有计算机可读指令;所述一个或多个处理器读取所述计算机可读指令以使所述终端实现如上述第二方面以及各种可能的实现方式中任一项所述的方法。
本申请实施例第七方面提供了一种包含指令的计算机程序产品,其特征在于,当其在计算机上运行时,使得所述计算机执行如上述第一方面以及各种可能的实现方式中任一项所述的方法。
本申请实施例第八方面提供了一种计算机可读存储介质,包括指令,其特征在于,当所述指令在计算机上运行时,使得计算机执行如上述第一方面以及各种可能的实现方式中任一项所述的方法。
本申请实施例第九方面提供了一种芯片,包括处理器。处理器用于读取并执行存储器中存储的计算机程序,以执行上述任一方面任意可能的实现方式中的方法。可选地,该芯片该包括存储器,该存储器与该处理器通过电路或电线与存储器连接。进一步可选地,该芯片还包括通信接口,处理器与该通信接口连接。通信接口用于接收需要处理的数据和/或信息,处理器从该通信接口获取该数据和/或信息,并对该数据和/或信息进行处理,并通过该通信接口输出处理结果。该通信接口可以是输入输出接口。
其中,第三方面、第四方面、第五方面、第六方面、第七方面、第八方面或第九方面中任一种实现方式所带来的技术效果可参见第一方面和第二方面中相应实现方式所带来的技术效果,此处不再赘述。
从以上技术方案可以看出,本申请实施例具有以下优点:当虚拟现实场景中至少包括佩戴第一VR设备的第一用户以及佩戴第二VR设备的第二用户,图像处理装置可以接收第一VR设备采集的第一用户的眼部图像和第一用户的嘴部图像,并获取第一用户佩戴第一VR设备的人体图像,图像处理装置基于上述图像合成第一用户的无第一VR设备遮挡的完整的人体图像,并将该图像发送给第二VR设备,由此,第二用户可以获取呈现在虚拟现实场景中的第一用户无VR设备遮挡的人体图像,提升用户体验。
附图说明
图1a为本申请实施例中图像处理方法的一个应用场景示意图;
图1b为本申请实施例中图像处理方法的一个系统架构图;
图2a为本申请实施例中图像处理方法的另一个应用场景示意图;
图2b为本申请实施例中图像处理方法的另一个系统架构图;
图3a为本申请实施例中虚拟现实设备的一个实施例示意图;
图3b为本申请实施例中定位标识的一个实施例示意图;
图4为本申请实施例中图像处理方法的一个实施例示意图;
图5为本申请实施例中图像处理方法的一个交互实施例示意图;
图6为本申请实施例中人脸图像合成方法的示意图;
图7为本申请实施例中人脸图像和人体图像融合方法的示意图;
图8为本申请实施例中嘴型特征点的一个实施例示意图;
图9为本申请实施例中图像处理方法的另一个交互实施例示意图;
图10为本申请实施例中图像处理装置的一个实施例示意图;
图11为本申请实施例中VR设备的一个实施例示意图;
图12为本申请实施例中图像处理装置的另一个实施例示意图;
图13为本申请实施例中VR设备的另一个实施例示意图。
具体实施方式
本申请实施例提供了一种图像处理方法,用于使用户在多方虚拟现实场景中获取其他用户无遮挡的人脸图像。
下面结合附图,对本申请的实施例进行描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号,并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤,已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序,只要能达到相同或者相类似的技术效果即可。
由于用户体验虚拟现实场景时一般佩戴有VR设备,例如,在双人或多人参与的虚拟现实场景中,使用VR头盔的用户在简单的图像采集装置的协助下,只能看到其他用户的身体,其他用户的眼睛被VR头盔遮盖而无法看清完整面部表情。本申请实施例提供的图像处理方法希望能够让穿戴VR头盔的用户可以看到对方用户被遮盖的面部表情以及身体,对方同样可以看到自己被VR头盔所遮盖的面部表情以及身体,由此提升在虚拟现实场景下的用户体验。
下面基于参与虚拟现实场景的多个用户是否位于同一物理场景,对本申请实施例提供的图像处理方法的两种典型的应用场景分别进行介绍。需要说明的是,由于本申请实施例提供的图像处理方法对计算资源和存储资源的要求,一般由服务器实现图像合成技术步骤,但随着终端设备例如VR设备的计算资源及存储资源的迅速发展,在未来可能的实现方式中,由服务器实现的合成用户无VR设备遮挡的完整的人体图像的步骤可能直接由VR设备等终端设备实现,本实施例对此不做限定,后续实施例中,以服务器为例进行介绍。
一、用户位于不同的物理场景下,具体应用例如远程3D视频会议等。
可以理解的是,参与虚拟现实场景的用户数量为两个或两个以上,具体数量不做限定。下面以两个用户之间的交互为例进行介绍,请参阅图1a-图1b。
如图1a所示,第一用户佩戴第一VR设备110,位于第一物理场景中,第二用户佩戴第二VR设备,位于第二物理场景中,由于第一物理场景和第二物理场景为不同的场景,也就是说,第一用户无法直接看到第二用户或通过佩戴的VR设备采集到第二用户的图像。
第一VR设备和第二VR设备通过服务器100进行信息交互。
下面以本申请实施例中第二用户获取第一用户的图像为例进行介绍:
如图1b所示,第一VR设备110包括图像采集设备,例如眼部相机和嘴部相机,还包括显示器和处理器等。第一VR设备110的具体形态可参考后续实施例。其中,眼部相机可以采集第一用户的眼部图像,嘴部相机可以采集第一用户的嘴部图像。此外,第一物理场景中还包括图像采集设备111,可以是智能摄像头、手机等终端,具体设备形态不做限定。图像采集设备111可以采集第一用户佩戴第一VR设备110的人体图像。类似的,第二物理场景中还包括图像采集设备121。
本申请实施例提供的图像处理方法,服务器100可以获取第一VR设备110采集的第一用户的眼部图像和第一用户的嘴部图像,以及图像采集设备111采集的第一用户佩戴第一VR设备110的人体图像。服务器基于上述图像合成第一用户的无第一VR设备遮挡的完整的人体图像,并将该图像发送给第二VR设备120,由此,第二用户可以获取呈现在虚拟现实场景中的第一用户无VR设备遮挡的人体图像,用户体验较好。
类似的,第一用户也可以获取第二用户无VR设备遮挡的人体图像,具体过程此处不再赘述。
二、用户位于同一物理场景下,例如VR游戏等。
可以理解的是,参与同一物理场景下虚拟现实场景的用户数量为两个或两个以上,具体数量不做限定。下面以两个用户之间的交互为例进行介绍,请参阅图2a至图2b。
如图2a所示,第一用户佩戴第一VR设备110,第二用户佩戴第二VR设备120,两个用户位于同一物理场景中。
下面以本申请实施例中第二用户获取第一用户的图像为例进行介绍:
如图2b所示,第一VR设备110包括图像采集设备,例如眼部相机、嘴部相机和场景相机,还包括显示器和处理器等。其中,眼部相机可以采集第一用户的眼部图像,嘴部相机可以采集第一用户的嘴部图像,场景相机可以采集该物理场景中第二用户的人体图像。第二VR设备120与第一VR设备110类似,此处不再赘述。
本申请实施例提供的图像处理方法,服务器100可以获取第一VR设备110采集的第一用户的眼部图像、第一用户的嘴部图像以及场景中第二用户,以及第二VR设备120采集的第一用户佩戴第一VR设备的人体图像。服务器基于上述图像合成第一用户的无第一VR设备遮挡的完整的人体图像,并将该图像发送给第二VR设备120,由此,第二用户可以获取呈现在虚拟现实场景中的第一用户无VR设备遮挡的人体图像,用户体验较好。
类似的,第一用户也可以获取第二用户无VR设备遮挡的人体图像,具体过程此处不再赘述。
需要说明的是,除了虚拟现实场景,本方案还可以应用于混合现实技术(MR)领域。
本申请实施例提供的VR设备即头显控制器,例如为VR头盔等。
该VR设备设置有图像采集装置,可选地,该设备的组件构成如图3a所示。其中,VR设备内侧包括2个图像采集设备,具体是分别位于左眼部位的红外(Infrared,IF)相机301和右眼部位的IF相机302,支持暗光拍摄用户的眼部图像,VR设备下方是采集嘴部图像的图像采集装置303,例如可以输出RGBD图像数据的飞行时间(time-of-flight,ToF)相机,RGBD图像数据包括RGB(红(R)、绿(G)、蓝(B))图以及深度(depth)图,可选地,该模块折叠设计,方便用户收纳。此外,VR设备内侧还包括左右眼部位的透镜304。
在VR设备外侧,设有图像采集设备305,用于采集用户所处场景的图像,该图像中可能包含其他参与互动的用户。在VR设备外侧包括用于定位人脸姿态的定位标识306。定位标识物为非对称图案标识,例如图3b所示的标识。在计算用户的人脸位姿时,可以通过识别定位标识物,利用直线检测算法识别定位标识区域,提取图像二值化特征,并通过图像特征匹配,结合图像平面仿射变换理论知识,计算出定位标识的位置、旋转等信息,从而得到人脸位姿。
本申请实施例提供的图像处理方法应用于两个或多个用户参与的虚拟现实场景,下面以佩戴第二VR设备的第二用户获取佩戴第一VR设备的第一用户的人体图像为例进行介绍,请参阅图4。
401、服务器接收第一虚拟现实VR设备发送的眼部图像和嘴部图像;
第一用户佩戴第一VR设备,第一VR设备例如可以是VR头盔,VR头盔设有的图像采集装置可以采集第一用户的眼部图像,以及第一用户的嘴部图像。
第一VR设备通过网络与服务器进行通信,可以将采集得到的第一用户的眼部图像和嘴部图像发送给服务器。
402、服务器获取第一用户佩戴第一VR设备的人体图像;
服务器还可以获取第一用户佩戴第一VR设备的人体图像,由于第一用户佩戴第一VR设备,因此,该人体图像中第一用户的眼部被第一VR设备遮挡,为不完整的人体图像。人体图像可以由与第一用户位于同一物理场景中的设备采集,例如,设置在第一物理场景中的摄像头,或者第一用户的手持终端,或者与第一用户位于同一物理场景中的第一用户佩戴的第二VR设备等。根据实际应用场景,服务器可以通过不同的方式获取第一用户佩戴第一VR设备的人体图像,具体方式此处不做限定。
403、服务器根据眼部图像和嘴部图像合成人脸图像;
服务器可以基于获取的第一用户的眼部和嘴部图像,通过人脸重建技术获取第一用户的完整人脸图像。可选地,服务器根据深度学习模型渲染人脸。深度学习模型通过多视角采集的人脸数据初始化学习到面部几何形状和面部纹理的联合表示,发展出一套基于这种联合表示的数据驱动的渲染框架,此外,分离人脸视角效应的编解码技术使得数据驱动的面部渲染更加真实,本申请实施例中进行人脸重建的具体方法在后续实施例中进行详细介绍。
404、服务器根据人脸图像和佩戴VR设备的人体图像合成无VR设备遮挡的人体图像;
服务器可以根据步骤403合成的人脸图像和步骤402获取的佩戴VR设备的人体图像合成第一用户无VR设备遮挡的人体图像,可选地,可以根据该人脸图像和佩戴VR设备的人体图像的共有部分进行图像融合,例如该人脸图像和佩戴VR设备的人体图像的中嘴部的特征点进行尺寸缩放,然后基于已有的图像融合技术进行图像融合,由此可以获取第一用户无VR设备遮挡的人体图像。
405、服务器向第二VR设备发送所述无VR设备遮挡的人体图像;
服务器将步骤404获取的第一用户无VR设备遮挡的人体图像发送给第二VR设备,由此,第二用户可以从VR设备显示器中观看到第一用户的人体图像,VR体验提升。
下面结合图1a所示的应用场景,以第一用户获取第二用户的人体图像为例,对本申请实施例提供的图像处理方法的一种实现方式进行介绍,请参阅图5。
501、第一VR设备向服务器发送图像请求消息;
第一用户可以通过VR设备向服务器发送图像请求消息,以请求获取第二用户的人体图像。可选地,本实施例中第一用户佩戴的第一VR设备以及第二用户佩戴的第二VR设备具体可以是VR头盔。
502、服务器向第二VR设备发送图像请求消息;
服务器接收第一VR设备发送的图像请求消息之后向第二VR设备转发该图像请求消息。
503、第二VR设备获取第二用户的反馈信息;
第二VR设备获取第二用户的反馈信息,可选地,将图像请求消息呈现给第二用户,获取用户的实时反馈,或者,根据预设规则进行反馈。
504、第二VR设备向服务器发送反馈消息;
第二VR设备向服务器发送反馈消息,若反馈消息为拒绝提供人体图像,则服务器执行步骤505;若该反馈消息为同意提供人体图像,则服务器执行步骤505至步骤513,其中,步骤505和步骤508的执行顺序不做限定。
505、服务器向第一VR设备发送反馈消息;
服务器向第一VR设备转发该反馈消息。
506、第二VR设备采集第二用户的眼部图像和嘴部图像;
若第二VR设备获取的第二用户的反馈信息为同意提供人体图像,则第二VR设备可以通过第二VR设备中设置的图像采集装置采集第二用户的眼部图像和嘴部图像。
507、第二VR设备向服务器发送眼部图像和嘴部图像;
第二VR设备向服务器发送采集的第二用户的眼部图像和嘴部图像。
508、服务器向图像采集设备发送图像采集指令;
若服务器接收的第二用户的反馈信息为同意提供人体图像,则服务器向图像采集设备发送图像采集指令,根据图1a的介绍可知,该图像采集设备为与第二用户位于同一物理场景的设备。
509、图像采集设备采集第二用户佩戴第二VR设备的人体图像;
图像采集设备采集第二用户的人体图像,由于第二用户佩戴第二VR设备,因此获取的人体图像为第二用户佩戴第二VR设备的人体图像。
510、图像采集设备向服务器发送第二用户佩戴第二VR设备的人体图像;
图像采集设备将第二用户佩戴第二VR设备的人体图像发送给服务器。
511、服务器合成人脸图像;
服务器根据步骤507获取的第二用户的眼部图像和嘴部图像进行人脸合成。可选地,本申请实施例提供的图像处理方法根据深度学习模型获取人脸图像。下面具体进行介绍:
人脸合成的深度学习模型需要预先训练得到,训练模型过程包括两个阶段:
第一阶段,利用图像采集装置拍摄人脸不同角度下的彩色图像(例如RGB图像)与深度图像,结合人脸几何形状模型,训练出一个变分自编码器(variational autoencoder,VAE)编解码模型。该VAE编解码模型用于对给定的人脸位姿渲染出该人脸位姿下的人脸图像和人脸深度图像。VAE编解码模型包含编码器E和解码器D1,该编码器E可以将完整人脸图像编码生成满足特定概率分布的完整人脸编码结果,该解码器D1可以利用符合上述特定概率分布的完整人脸编码结果以及人脸位姿,生成给定方向上的人脸图像;训练VAE编解码模型中设定的目标函数方程为:
Figure BDA0002809312750000101
其中,参数T表示输入的人脸图像的人脸纹理,参数M表示输入的人脸图像的人脸几何形状,参数下标t表示不同时刻时的不同输入参数,参数上标υ表示不同人脸位姿时的不同输入参数,参数上方带标识表示对应解码生成的数据;
Figure BDA0002809312750000102
为编解码的KL散度,
Figure BDA0002809312750000106
分别为编码结果z的均值与方差;
Figure BDA0002809312750000103
为人脸纹理的二值掩码,用于在时刻t,位姿v时,标注可见的人脸纹理区域。深度图残差项和彩色图残差项,如公式灰色部分所示:其中,参数
Figure BDA0002809312750000105
表示输入的人脸RGB图像,
Figure BDA0002809312750000104
表示输入人脸深度图像,参数上方带标识表示对应解码生成的数据,λT,λM,λD,λI,λZ分别表示人脸纹理残差项、人脸几何形状残差项、人脸深度图残差项、人脸彩色图残差项以及编解码KL散度的残差系数。
第二阶段,1)、用VR设备的图像采集传感器获取多张嘴部图像及眼部图像,得到图像数据集A,其中,嘴部图像包括嘴部灰度图像和嘴部深度图像,可选地,眼部图像具体为眼部灰度图像;2)利用第一部分训练得到的VAE神经网络模型,合成与VR设备采集嘴部图像和眼部图像的相同视角的嘴部图像及眼部图像作为图像数据集B,同样的,嘴部图像包括嘴部灰度图像和嘴部深度图像;3)将采集获取的图像数据集A和合成的图像数据集B进行域自适应变分自编码器(domain adaptation variational autoencoder,DA-VAE)编码,训练获得编码器ε,解码器D2以及编码转换器Ay→z。其中,编码器ε用于对嘴部图像和眼部图像进行编码;解码器D2用于对生成的编码结果yt进行解码生成的眼部图像、嘴部灰度图和嘴部深度图;编码转换器Ay→z用于对嘴部图像和眼部图像进行编码,得到高斯分布
Figure BDA0002809312750000112
编码转换器Ay→z将嘴部图像和眼部图像的编码结果yt转换成完整人脸的编码结果zt。模型训练优化目标函数为:
Figure BDA0002809312750000111
其中,
Figure BDA0002809312750000113
表示上述图像集合A中的眼部图像和嘴部灰度图像,
Figure BDA0002809312750000118
表示上述图像集合A中的嘴部深度图像,
Figure BDA0002809312750000114
表示利用解码器D2对生成的编码结果yt进行解码生成的眼部图像、和嘴部灰度图像,
Figure BDA0002809312750000115
表示利用解码器D2对生成的编码结果yt进行解码生成的嘴部深度图像。
Figure BDA0002809312750000116
表示第一阶段编码器E生成的完整人脸编码结果,
Figure BDA0002809312750000119
表示符合一种高斯分布的嘴部图像以及眼部图像的编码,
Figure BDA00028093127500001110
Ay→zyt表示将眼部图像和嘴部图像的编码结果转换成完整人脸的编码结果。KL(·)表示编解码的KL散度。公式中灰色项
Figure BDA0002809312750000117
代表深度值约束。λH1、λH2、λA、λY分别表示各项的误差项系数,数值范围为0至1。
经过训练得到的深度学习模型包括第一模型和第二模型两部分,其中,第一模型即训练第一阶段得到的VAE编解码模型,包括编码器E和解码器D1;第二模型即训练第二阶段得到的编码器ε、解码器D2以及编码转换器Ay→z
得到训练好的深度学习模型后,可以根据该模型进行人脸合成在线处理,请参阅图6,具体步骤如下:
步骤1、获取嘴部图像和眼部图像601;
步骤2、根据外部的图像采集装置拍摄的人体图像,识别VR头盔上的定位标识物,计算出拍摄人体图像时的人脸位姿602;
步骤3、将嘴部图像和眼部图像属于预先训练好的编码器ε处理后得到眼部特征和嘴部特征的编码结果603;
步骤4、眼部图像和嘴部图像的编码结果,经过离线训练好的编码转换器Ay→z处理后得到完整人脸特征的编码结果604;
步骤5、离线训练好的解码器D1根据步骤2获得的人脸位姿以及步骤4中获得的完整人脸编码结果获得人脸三维模型及纹理605;
步骤6、根据人脸三维模型及纹理605渲染得到二维人脸图像606,该二维人脸图像即为人脸合成的结果。
512、服务器合成无VR设备遮挡的人体图像;
服务器根据步骤510获取的第二用户佩戴第二VR设备的人体图像,和步骤511获取的人脸图像进行图像融合,获取无VR设备遮挡的人体图像。可选地,合成人体图像的具体步骤如下,请参阅图7。
步骤1、获取人体图像701中的嘴型特征点702,以及人脸图像703中的嘴型特征点704,嘴型特征点用于表征图像中人脸的嘴部特征,图8示出了嘴型特征点的一个示例;
步骤2、对嘴型特征点702以及嘴型特征点704进行特征点归一化705处理,计算人脸图像相与人体图像的嘴型特征点的缩放因子;根据缩放因子对人脸合成图像进行缩放处理,使得人体图像嘴型特征点与人脸合成图像嘴型特征点具有相同尺度;
步骤3、根据缩放处理后的人体图像和人脸合成图像,利用泊松融合算法,使得两个图像中的嘴型特征点对齐,获取人脸和人体融合图像706,此融合图像即为人脸人体合成的结果,是第二用户无VR设备遮挡的人体图像。
513、服务器向第一VR设备发送无VR设备遮挡的人体图像;
服务器将步骤512获取的无VR设备遮挡的人体图像发送给第一VR设备,由此,第一用户可以通过第一VR设备观察到无VR设备遮挡的第二用户的人体图像。
可以理解的是,本方案中仅从第一VR设备获取第二用户人体图像的角度进行介绍,类似的,第二VR设备也可以获取第一用户无VR设备遮挡的人体图像。进一步地,当有三个或三个以上的用户同时参与虚拟现实场景时,同样可以根据本方案获取其他用户的无VR设备遮挡的人体图像,此处不再赘述。
本申请实施例介绍了当多用户参与的虚拟现实场景中,用户位于不同物理场景,即互相无法直接观察到时的图像处理方法,常见的应用场景例如多人VR会议,用户可能位于不同的城市,例如第一用户位于北京,第二用户位于上海;或者用户位于同一城市的不同位置,例如第一用户位于学校,第二用户在家,等等。此时,通过本申请提供的图像处理方法,位于不同物理位置的用户可以通过VR设备直接看到其他用户的无VR设备遮挡的人体图像,可以拉近彼此距离,给用户仿佛当面交流的美好体验。
下面结合图2a所示的应用场景,对本申请实施例提供的图像处理方法的一种实现方式进行介绍,请参阅图9。
901、第一VR设备向服务器发送图像请求消息;
902、服务器向第二VR设备发送图像请求消息;
903、第二VR设备获取第二用户的反馈信息;
904、第二VR设备向服务器发送反馈消息;
905、服务器向第一VR设备发送反馈消息;
906、第二VR设备采集第二用户的眼部图像和嘴部图像;
907、第二VR设备向服务器发送眼部图像和嘴部图像;
步骤901至步骤907与图5对应的实施例中步骤501至步骤507类似,此处不再赘述。
908、第一VR设备采集第二用户佩戴第二VR设备的人体图像;
本实施例的场景中,由于第一VR设备与第二VR设备位于同一物理场景,因此,可以通过第一VR设备的图像采集装置采集第二用户佩戴第二VR设备的人体图像。
需要说明的是,步骤908在步骤905之后执行,与步骤906至步骤907的执行顺序没有限定。
909、第一VR设备向服务器发送第二用户佩戴第二VR设备的人体图像;
第一VR设备将采集的第二用户佩戴第二VR设备的人体图像发送给服务器。
910、服务器合成人脸图像;
911、服务器合成无VR设备遮挡的人体图像;
912、服务器向第一VR设备发送无VR设备遮挡的人体图像;
步骤910至步骤912与图5对应的实施例中步骤511至步骤513类似,此处不再赘述。
可以理解的是,本方案中仅从第一VR设备获取第二用户人体图像的角度进行介绍,类似的,第二VR设备也可以获取第一用户无VR设备遮挡的人体图像。进一步地,当有三个或三个以上的用户同时参与虚拟现实场景时,同样可以根据本方案获取其他用户的无VR设备遮挡的人体图像,此处不再赘述。
本申请实施例介绍了当多用户参与的虚拟现实场景中,用户位于同一物理场景,即可相互直接观察到时的图像处理方法,常见的应用场景例如VR游戏,用户通常面对面进行游戏,此时,通过本申请提供的图像处理方法,结合第一VR设备采集的第二用户有VR设备遮挡的人体图像,以及第二VR设备采集的第二用户的眼部及嘴部图像,合成第二用户的无VR设备遮挡的人体图像,可以提升虚拟现实场景体验的真实感。
上面介绍了本申请提供的图像处理方法,下面对实现该图像处理方法的图像处理装置进行介绍,请参阅图10,为本申请实施例中图像处理装置的一个实施例示意图。
图10中的各个模块的只一个或多个可以软件、硬件、固件或其结合实现。所述软件或固件包括但不限于计算机程序指令或代码,并可以被硬件处理器所执行。所述硬件包括但不限于各类集成电路,如中央处理单元(CPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)或专用集成电路(ASIC)。
该图像处理装置,包括:
获取单元1001,用于获取第一虚拟现实VR设备采集的眼部图像和嘴部图像;
所述获取单元1001,还用于获取第一用户佩戴所述第一VR设备的人体图像;
处理单元1002,用于根据所述眼部图像和所述嘴部图像合成人脸图像;
所述处理单元1002,还用于根据所述人脸图像和所述人体图像合成无VR设备遮挡的人体图像;
发送单元1003,用于向第二VR设备发送所述无VR设备遮挡的人体图像。
可选地,所述第一用户与佩戴所述第二VR设备的第二用户位于同一物理场景下;所述获取单元1001,具体用于:获取所述第二VR设备发送的所述人体图像。
可选地,所述获取单元1001还用于:根据所述第一用户佩戴所述第一VR设备的人体图像获取拍摄所述人体图像时的人脸位姿;所述处理单元1002具体用于:根据所述人脸位姿、所述眼部图像和所述嘴部图像,基于深度学习模型输出所述人脸图像。
可选地,所述嘴部图像具体包括:嘴部彩色图像和嘴部深度图像,或者,嘴部灰度图像和嘴部深度图像。
可选地,所述深度学习模型包括由第一模型和第二模型组成的深度学习模型;所述第一模型由训练样本的人脸彩色图像和人脸深度图像输入变分自编码器进行第一训练,根据所述第一训练获取的损失值对所述变分自编码器的权重参数进行更新得到;所述第二模型由训练样本的第一眼部图像、第一嘴部图像、第二眼部图像、第二嘴部图像输入域自适应变分自编码器进行第二训练,根据所述第二训练获取的损失值对所述域自适应变分自编码器的权重参数进行更新得到,所述第一眼部图像和所述第一嘴部图像为VR设备采集得到的图像,所述第二眼部图像为将所述第一眼部图像对应的人脸位姿输入所述第一模型获取的图像,所述第二嘴部图像为将所述第一嘴部图像对应的人脸位姿输入所述第一模型获取的图像。
可选地,所述第一VR设备表面设有定位标识物;所述获取单元1001,具体用于:从所述第一用户佩戴所述第一VR设备的人体图像中识别所述定位标识物,获取所述人脸位姿,所述深度学习模型输出的人脸图像为基于所述人脸位姿呈现的图像。
可选地,所述处理单元1002具体用于:获取所述人脸图像中的第一嘴型特征点;获取所述人体图像中的第二嘴型特征点;根据所述第一嘴型特征点和所述第二嘴型特征点对所述人脸图像或所述人体图像进行缩放,经所述缩放后的所述人脸图像和所述人体图像具有相同尺度;根据所述缩放后的所述人脸图像和所述人体图像进行图像融合,获取所述无VR设备遮挡的人体图像。
可选地,所述图像处理装置还包括:接收单元1005,用于接收所述第二VR设备发送的图像请求消息;触发单元1004,用于若获取所述第一VR设备对所述图像请求消息的反馈信息为同意提供人体图像,则触发根据所述眼部图像和所述嘴部图像合成人脸图像。
下面对实现该图像处理方法的VR设备进行介绍,请参阅图11,为本申请实施例中VR设备的一个实施例示意图。
图11中的各个模块的只一个或多个可以软件、硬件、固件或其结合实现。所述软件或固件包括但不限于计算机程序指令或代码,并可以被硬件处理器所执行。所述硬件包括但不限于各类集成电路,如中央处理单元(CPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)或专用集成电路(ASIC)。
该虚拟现实VR设备,包括:
采集单元1101,用于采集第一用户的眼部图像和所述第一用户的嘴部图像,所述第一用户佩戴所述第一VR设备;
发送单元1102,用于向图像处理装置发送所述第一用户的眼部图像和所述第一用户的嘴部图像,所述第一用户的眼部图像和所述第一用户的嘴部图像用于合成所述第一用户的无VR设备遮挡的人脸图像。
可选地,所述嘴部图像具体包括:嘴部彩色图像和嘴部深度图像,或者,嘴部灰度图像和嘴部深度图像。
可选地,所述VR设备还包括:接收单元1103,用于接收第二VR设备发送的图像请求消息;所述发送单元1102还用于,若获取所述第一用户对所述图像请求消息的确认信息,则向所述服务器发送反馈消息,所述反馈消息携带所述第一用户同意提供人体图像的所述确认信息,所述确认信息用于触发所述采集单元1101采集第一用户的眼部图像和所述第一用户的嘴部图像。
请参阅图12,为本申请实施例中图像处理装置的另一个实施例示意图;
本实施例提供的图像处理装置,可以是服务器或者终端设备,终端设备包括手机、平板电脑或VR设备等,本实施例对其具体设备形态不做限定。
该图像处理装置1200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器1201和存储器1202,该存储器1202中存储有程序或数据。
其中,存储器1202可以是易失性存储或非易失性存储。可选地,处理器1201是一个或多个中央处理器(CPU,Central Processing Unit,该CPU可以是单核CPU,也可以是多核CPU。处理器1201可以与存储器1202通信,在图像处理装置1200上执行存储器1202中的一系列指令。
该图像处理装置1200还包括一个或一个以上有线或无线网络接口1203,例如以太网接口。
可选地,尽管图12中未示出,图像处理装置1200还可以包括一个或一个以上电源;一个或一个以上输入输出接口,输入输出接口可以用于连接显示器、鼠标、键盘、触摸屏设备或传感设备等,输入输出接口为可选部件,可以存在也可以不存在,此处不做限定。
本实施例中图像处理装置1200中的处理器1201所执行的流程可以参考前述方法实施例中描述的方法流程,此处不加赘述。
请参阅图13,为本申请实施例中VR设备的另一个实施例示意图;
本实施例提供的VR设备,对其具体设备形态不做限定。
该VR设备1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器1301和存储器1302,该存储器1302中存储有程序或数据。
其中,存储器1302可以是易失性存储或非易失性存储。可选地,处理器1301是一个或多个中央处理器(CPU,Central Processing Unit,该CPU可以是单核CPU,也可以是多核CPU。处理器1301可以与存储器1302通信,在VR设备1300上执行存储器1302中的一系列指令。
该VR设备1300还包括一个或一个以上有线或无线网络接口1303,例如以太网接口。
可选地,尽管图13中未示出,VR设备1300还可以包括一个或一个以上电源;一个或一个以上输入输出接口,输入输出接口可以用于连接显示器、鼠标、键盘、触摸屏设备或传感设备等,输入输出接口为可选部件,可以存在也可以不存在,此处不做限定。
该VR设备1300还包括多个图像采集装置,具体可参考图3a对应的实施例中的介绍,此处不再赘述。
本实施例中VR设备1300中的处理器1301所执行的流程可以参考前述方法实施例中描述的方法流程,此处不加赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (26)

1.一种图像处理方法,其特征在于,包括:
获取第一虚拟现实VR设备采集的眼部图像和嘴部图像;
获取第一用户佩戴所述第一VR设备的人体图像;
根据所述眼部图像和所述嘴部图像合成人脸图像;
根据所述人脸图像和所述人体图像合成无VR设备遮挡的人体图像;
向第二VR设备发送所述无VR设备遮挡的人体图像。
2.根据权利要求1所述的方法,其特征在于,所述第一用户与佩戴所述第二VR设备的第二用户位于同一物理场景下;
所述获取第一用户佩戴所述第一VR设备的人体图像,具体包括:
获取所述第二VR设备发送的所述人体图像。
3.根据权利要求1或2所述的方法,其特征在于,所述嘴部图像具体包括:嘴部彩色图像和嘴部深度图像,或者,嘴部灰度图像和嘴部深度图像。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
根据所述第一用户佩戴所述第一VR设备的人体图像获取拍摄所述人体图像时的人脸位姿;
根据所述眼部图像和所述嘴部图像合成人脸图像具体包括:
根据所述人脸位姿、所述眼部图像和所述嘴部图像,基于深度学习模型输出所述人脸图像。
5.根据权利要求4所述的方法,其特征在于,所述深度学习模型包括由第一模型和第二模型组成的深度学习模型;
所述第一模型由训练样本的人脸彩色图像和人脸深度图像输入变分自编码器进行第一训练,根据所述第一训练获取的损失值对所述变分自编码器的权重参数进行更新得到;
所述第二模型由训练样本的第一眼部图像、第一嘴部图像、第二眼部图像、第二嘴部图像输入域自适应变分自编码器进行第二训练,根据所述第二训练获取的损失值对所述域自适应变分自编码器的权重参数进行更新得到,所述第一眼部图像和所述第一嘴部图像为VR设备采集得到的图像,所述第二眼部图像为将所述第一眼部图像对应的人脸位姿输入所述第一模型获取的图像,所述第二嘴部图像为将所述第一嘴部图像对应的人脸位姿输入所述第一模型获取的图像。
6.根据权利要求4或5所述的方法,其特征在于,所述根据所述第一用户佩戴所述第一VR设备的人体图像获取拍摄所述人体图像时的人脸位姿,具体包括:
所述第一VR设备表面设有定位标识物;
从所述第一用户佩戴所述第一VR设备的人体图像中识别所述定位标识物,获取所述人脸位姿,所述深度学习模型输出的人脸图像为基于所述人脸位姿呈现的图像。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述根据所述人脸图像和所述人体图像合成无VR设备遮挡的人体图像,具体包括:
获取所述人脸图像中的第一嘴型特征点;
获取所述人体图像中的第二嘴型特征点;
根据所述第一嘴型特征点和所述第二嘴型特征点对所述人脸图像或所述人体图像进行缩放,经所述缩放后的所述人脸图像和所述人体图像具有相同尺度;
根据所述缩放后的所述人脸图像和所述人体图像进行图像融合,获取所述无VR设备遮挡的人体图像。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:
接收所述第二VR设备发送的图像请求消息;
若获取所述第一VR设备对所述图像请求消息的反馈信息为同意提供人体图像,则触发根据所述眼部图像和所述嘴部图像合成人脸图像。
9.一种图像处理方法,其特征在于,包括:
采集第一用户的眼部图像和所述第一用户的嘴部图像,所述第一用户佩戴所述第一VR设备;
向图像处理装置发送所述第一用户的眼部图像和所述第一用户的嘴部图像,所述第一用户的眼部图像和所述第一用户的嘴部图像用于合成所述第一用户的无VR设备遮挡的人脸图像。
10.根据权利要求9所述的方法,其特征在于,所述嘴部图像具体包括:
嘴部彩色图像和嘴部深度图像,或者,嘴部灰度图像和嘴部深度图像。
11.根据权利要求9或10所述的方法,其特征在于,所述采集第一用户的眼部图像和所述第一用户的嘴部图像之前,所述方法还包括:
接收第二VR设备发送的图像请求消息;
若获取所述第一用户对所述图像请求消息的确认信息,则向所述图像处理装置发送反馈消息,所述反馈消息携带所述第一用户同意提供人体图像的所述确认信息,所述确认信息用于触发所述采集第一用户的眼部图像和所述第一用户的嘴部图像。
12.一种图像处理装置,其特征在于,包括:
获取单元,用于获取第一虚拟现实VR设备采集的眼部图像和嘴部图像;
所述获取单元,还用于获取第一用户佩戴所述第一VR设备的人体图像;
处理单元,用于根据所述眼部图像和所述嘴部图像合成人脸图像;
所述处理单元,还用于根据所述人脸图像和所述人体图像合成无VR设备遮挡的人体图像;
发送单元,用于向第二VR设备发送所述无VR设备遮挡的人体图像。
13.根据权利要求12所述的图像处理装置,其特征在于,所述第一用户与佩戴所述第二VR设备的第二用户位于同一物理场景下;
所述获取单元,具体用于:
获取所述第二VR设备发送的所述人体图像。
14.根据权利要求12或13所述的图像处理装置,其特征在于,所述嘴部图像具体包括:嘴部彩色图像和嘴部深度图像,或者,嘴部灰度图像和嘴部深度图像。
15.根据权利要求12至14中任一项所述的图像处理装置,其特征在于,所述获取单元还用于:
根据所述第一用户佩戴所述第一VR设备的人体图像获取拍摄所述人体图像时的人脸位姿;
所述处理单元具体用于:
根据所述人脸位姿、所述眼部图像和所述嘴部图像,基于深度学习模型输出所述人脸图像。
16.根据权利要求15所述的图像处理装置,其特征在于,所述深度学习模型包括由第一模型和第二模型组成的深度学习模型;
所述第一模型由训练样本的人脸彩色图像和人脸深度图像输入变分自编码器进行第一训练,根据所述第一训练获取的损失值对所述变分自编码器的权重参数进行更新得到;
所述第二模型由训练样本的第一眼部图像、第一嘴部图像、第二眼部图像、第二嘴部图像输入域自适应变分自编码器进行第二训练,根据所述第二训练获取的损失值对所述域自适应变分自编码器的权重参数进行更新得到,所述第一眼部图像和所述第一嘴部图像为VR设备采集得到的图像,所述第二眼部图像为将所述第一眼部图像对应的人脸位姿输入所述第一模型获取的图像,所述第二嘴部图像为将所述第一嘴部图像对应的人脸位姿输入所述第一模型获取的图像。
17.根据权利要求15或16所述的图像处理装置,其特征在于,所述第一VR设备表面设有定位标识物;
所述获取单元,具体用于:从所述第一用户佩戴所述第一VR设备的人体图像中识别所述定位标识物,获取所述人脸位姿,所述深度学习模型输出的人脸图像为基于所述人脸位姿呈现的图像。
18.根据权利要求12至17中任一项所述的图像处理装置,其特征在于,所述处理单元具体用于:
获取所述人脸图像中的第一嘴型特征点;
获取所述人体图像中的第二嘴型特征点;
根据所述第一嘴型特征点和所述第二嘴型特征点对所述人脸图像或所述人体图像进行缩放,经所述缩放后的所述人脸图像和所述人体图像具有相同尺度;
根据所述缩放后的所述人脸图像和所述人体图像进行图像融合,获取所述无VR设备遮挡的人体图像。
19.根据权利要求12至18中任一项所述的图像处理装置,其特征在于,所述图像处理装置还包括:
接收单元,用于接收所述第二VR设备发送的图像请求消息;
触发单元,用于若获取所述第一VR设备对所述图像请求消息的反馈信息为同意提供人体图像,则触发根据所述眼部图像和所述嘴部图像合成人脸图像。
20.一种虚拟现实VR设备,其特征在于,包括:
采集单元,用于采集第一用户的眼部图像和所述第一用户的嘴部图像,所述第一用户佩戴所述第一VR设备;
发送单元,用于向图像处理装置发送所述第一用户的眼部图像和所述第一用户的嘴部图像,所述第一用户的眼部图像和所述第一用户的嘴部图像用于合成所述第一用户的无VR设备遮挡的人脸图像。
21.根据权利要求20所述的VR设备,其特征在于,所述嘴部图像具体包括:
嘴部彩色图像和嘴部深度图像,或者,嘴部灰度图像和嘴部深度图像。
22.根据权利要求20或21所述的VR设备,其特征在于,所述VR设备还包括:
接收单元,用于接收第二VR设备发送的图像请求消息;
所述发送单元还用于,若获取所述第一用户对所述图像请求消息的确认信息,则向所述服务器发送反馈消息,所述反馈消息携带所述第一用户同意提供人体图像的所述确认信息,所述确认信息用于触发所述采集单元采集第一用户的眼部图像和所述第一用户的嘴部图像。
23.一种图像处理装置,其特征在于,包括:一个或多个处理器和存储器;其中,
所述存储器中存储有计算机可读指令;
所述一个或多个处理器读取所述计算机可读指令以使所述图像处理装置实现如权利要求1至8中任一项所述的方法。
24.一种VR设备,其特征在于,包括:一个或多个处理器和存储器;其中,
所述存储器中存储有计算机可读指令;
所述一个或多个处理器读取所述计算机可读指令以使所述终端实现如权利要求9至11中任一项所述的方法。
25.一种计算机程序产品,其特征在于,包括计算机可读指令,当所述计算机可读指令在计算机上运行时,使得所述计算机执行如权利要求1至11任一项所述的方法。
26.一种计算机可读存储介质,其特征在于,包括计算机可读指令,当所述计算机可读指令在计算机上运行时,使得所述计算机执行如权利要求1至11中任一项所述的方法。
CN202011381020.XA 2020-11-30 2020-11-30 图像处理方法、服务器和虚拟现实设备 Pending CN114594851A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011381020.XA CN114594851A (zh) 2020-11-30 2020-11-30 图像处理方法、服务器和虚拟现实设备
PCT/CN2021/098241 WO2022110752A1 (zh) 2020-11-30 2021-06-04 图像处理方法、服务器和虚拟现实设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011381020.XA CN114594851A (zh) 2020-11-30 2020-11-30 图像处理方法、服务器和虚拟现实设备

Publications (1)

Publication Number Publication Date
CN114594851A true CN114594851A (zh) 2022-06-07

Family

ID=81755226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011381020.XA Pending CN114594851A (zh) 2020-11-30 2020-11-30 图像处理方法、服务器和虚拟现实设备

Country Status (2)

Country Link
CN (1) CN114594851A (zh)
WO (1) WO2022110752A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114972661A (zh) * 2022-08-01 2022-08-30 深圳元象信息科技有限公司 人脸模型构建方法、人脸图像生成方法、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491165A (zh) * 2016-06-12 2017-12-19 张翔宇 一种vr眼镜面部3d图像、平面图像捕获与手势捕获系统
CN107680069A (zh) * 2017-08-30 2018-02-09 歌尔股份有限公司 一种图像处理方法、装置和终端设备
US20180158246A1 (en) * 2016-12-07 2018-06-07 Intel IP Corporation Method and system of providing user facial displays in virtual or augmented reality for face occluding head mounted displays
CN110298319A (zh) * 2019-07-01 2019-10-01 北京字节跳动网络技术有限公司 图像合成方法和装置
CN111385514A (zh) * 2020-02-18 2020-07-07 华为技术有限公司 人像处理方法和装置以及终端
CN111709302A (zh) * 2020-05-21 2020-09-25 青岛小鸟看看科技有限公司 人脸表情检测方法、装置、头戴显示设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130068193A (ko) * 2011-12-14 2013-06-26 한국전자통신연구원 멀티 영상 제공 시스템 및 그것의 멀티 영상 입력 장치
CN110175950A (zh) * 2018-10-24 2019-08-27 广东小天才科技有限公司 一种基于可穿戴设备的隐私保护方法及可穿戴设备
CN109886216B (zh) * 2019-02-26 2023-07-18 华南理工大学 基于vr情景人脸图像复原的表情识别方法、设备及介质
CN110929651B (zh) * 2019-11-25 2022-12-06 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491165A (zh) * 2016-06-12 2017-12-19 张翔宇 一种vr眼镜面部3d图像、平面图像捕获与手势捕获系统
US20180158246A1 (en) * 2016-12-07 2018-06-07 Intel IP Corporation Method and system of providing user facial displays in virtual or augmented reality for face occluding head mounted displays
CN107680069A (zh) * 2017-08-30 2018-02-09 歌尔股份有限公司 一种图像处理方法、装置和终端设备
CN110298319A (zh) * 2019-07-01 2019-10-01 北京字节跳动网络技术有限公司 图像合成方法和装置
CN111385514A (zh) * 2020-02-18 2020-07-07 华为技术有限公司 人像处理方法和装置以及终端
CN111709302A (zh) * 2020-05-21 2020-09-25 青岛小鸟看看科技有限公司 人脸表情检测方法、装置、头戴显示设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114972661A (zh) * 2022-08-01 2022-08-30 深圳元象信息科技有限公司 人脸模型构建方法、人脸图像生成方法、设备及存储介质

Also Published As

Publication number Publication date
WO2022110752A1 (zh) 2022-06-02

Similar Documents

Publication Publication Date Title
US9030486B2 (en) System and method for low bandwidth image transmission
CN107194964B (zh) 一种基于实时人体三维重建的vr社交系统及其方法
JP7200439B1 (ja) アバター表示装置、アバター生成装置及びプログラム
CN106998900B (zh) 用于检查正确口腔卫生操作的系统
CN110599395B (zh) 目标图像生成方法、装置、服务器及存储介质
CN111402399B (zh) 人脸驱动和直播方法、装置、电子设备及存储介质
US20130101164A1 (en) Method of real-time cropping of a real entity recorded in a video sequence
CN109671141B (zh) 图像的渲染方法和装置、存储介质、电子装置
CN113298858A (zh) 一种虚拟形象的动作生成方法、装置、终端以及存储介质
CN113706699B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN109145788A (zh) 基于视频的姿态数据捕捉方法和系统
CN107211165A (zh) 用于自动延迟视频演示的装置、系统和方法
CN111371966A (zh) 一种在虚拟演播室中合成前景人物阴影的方法、装置及存储介质
CN107481318A (zh) 用户头像的替换方法、装置和终端设备
CN105894571B (zh) 一种处理多媒体信息的方法及装置
CN107469355A (zh) 游戏人物形象创建方法及装置、终端设备
TW202305551A (zh) 用於人工實境之全像通話
CN115100707A (zh) 模型的训练方法、视频信息生成方法、设备以及存储介质
CN114594851A (zh) 图像处理方法、服务器和虚拟现实设备
JP2006107145A (ja) 顔形状モデリングシステムおよび顔形状モデリング方法
Danieau et al. Automatic generation and stylization of 3d facial rigs
US20230386147A1 (en) Systems and Methods for Providing Real-Time Composite Video from Multiple Source Devices Featuring Augmented Reality Elements
CN105893452B (zh) 一种呈现多媒体信息的方法及装置
Ladwig et al. Unmasking Communication Partners: A Low-Cost AI Solution for Digitally Removing Head-Mounted Displays in VR-Based Telepresence
CN116363245A (zh) 虚拟人脸生成方法、虚拟人脸直播方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination