CN107680069B - 一种图像处理方法、装置和终端设备 - Google Patents
一种图像处理方法、装置和终端设备 Download PDFInfo
- Publication number
- CN107680069B CN107680069B CN201710766169.1A CN201710766169A CN107680069B CN 107680069 B CN107680069 B CN 107680069B CN 201710766169 A CN201710766169 A CN 201710766169A CN 107680069 B CN107680069 B CN 107680069B
- Authority
- CN
- China
- Prior art keywords
- image data
- image
- face
- virtual reality
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 230000008921 facial expression Effects 0.000 claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 21
- 239000002131 composite material Substances 0.000 claims abstract description 15
- 230000001815 facial effect Effects 0.000 claims description 71
- 238000013528 artificial neural network Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 7
- 230000002349 favourable effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种图像处理方法、装置和终端设备。该方法包括:从摄像头采集的视频流中获取指定目标的实际图像;从实际图像中识别出指定目标脸部的未被虚拟现实头戴设备遮挡区域和被虚拟现实头戴设备遮挡区域,获取与未被遮挡区域对应的第一脸部图像数据;根据第一脸部图像数据和预设的脸部表情模型,得到与第一脸部图像数据匹配的第二脸部图像数据,第二脸部图像数据与被遮挡区域相对应;将第一脸部图像数据和第二脸部图像数据相融合,生成合成图像。该图像处理装置包括第一获取单元、识别单元、第二获取单元和生成单元,用于执行上述的方法步骤。本方案有利于社交双方及时获得对方的表情信息,保证社交的顺利进行,提升用户体验。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种图像处理方法、装置和终端设备。
背景技术
虚拟现实技术(Virtual Reality,简称VR)的一个重要应用领域是社交领域。例如,VR视频直播的应用中,主持人侧配置360度摄像头,采集直播地点的全视角场景视频,经由网络共享给接入端的VR头戴显示设备(Head Mounted Device,简称HMD),访客通过佩戴VR HMD体验主持人侧的场景视频,并可以通过转动头部来观看不同视角的场景。该应用的特点是VR视频数据流为单向传输。随着VR社交需求的不断提升,VR社交需要两点之间实现VR视频数据流的双向流动,即社交双方都需要同时配置360度摄像头和VR HMD,同时采集本地全视角视频并发送给对方,由对方从VR HMD 中观看。
但是,因为社交双方均佩戴VR HMD,这将导致本地摄像头拍摄到的人脸都会被VRHMD遮挡住眼睛及周围部分。因为眼部周围图像带有非常丰富的表情信息,表情信息的缺失严重影响VR技术在社交领域的应用。所以,急需一种图像处理方案,对被VR HMD遮挡住的眼睛及周围部分进行重建,以保证社交过程中表情信息的完整。
发明内容
鉴于上述问题,提出了本发明的一种图像处理方法、装置和终端设备,以便解决或至少部分地解决上述问题。
根据本发明的一个方面,提供了一种图像处理方法,该方法包括:
从摄像头采集的视频流中获取指定目标的实际图像,其中,指定目标佩戴有虚拟现实头戴设备;
从实际图像中识别出指定目标脸部的未被虚拟现实头戴显示设备遮挡区域和被虚拟现实头戴显示设备遮挡区域,获取与未被虚拟现实头戴显示设备遮挡区域对应的第一脸部图像数据;
根据第一脸部图像数据和预设的脸部表情模型,得到与第一脸部图像数据匹配的第二脸部图像数据,第二脸部图像数据与被虚拟现实头戴显示设备遮挡区域相对应;
将第一脸部图像数据和第二脸部图像数据相融合,生成合成图像。
根据本发明的另一个方面,提供了一种图像处理装置,该装置包括:
第一获取单元,用于从摄像头采集的视频流中获取指定目标的实际图像,其中,指定目标佩戴有虚拟现实头戴设备;
识别单元,用于从实际图像中识别出指定目标脸部的未被虚拟现实头戴显示设备遮挡区域和被虚拟现实头戴显示设备遮挡区域,获取与未被虚拟现实头戴显示设备遮挡区域对应的第一脸部图像数据;
第二获取单元,用于根据第一脸部图像数据和预设的脸部表情模型,得到与第一脸部图像数据匹配的第二脸部图像数据,第二脸部图像数据与被虚拟现实头戴显示设备遮挡区域相对应;
生成单元,用于将第一脸部图像数据和第二脸部图像数据相融合,生成合成图像。
根据本发明的又一个方面,提供了一种终端设备,该终端设备包括:如前所述的图像处理装置。
综上所述,本发明技术方案的有益效果是:当获取到戴有虚拟现实头戴设备的指定目标的实际图像后,先从实际图像中识别出指定目标脸部的未被虚拟现实头戴显示设备遮挡区域和被虚拟现实头戴显示设备遮挡区域,将未被虚拟现实头戴显示设备遮挡区域对应的第一脸部图像数据输入到预设的脸部表情模型中,就可以得到与第一脸部图像数据匹配的第二脸部图像数据;然后将第一脸部图像数据和第二脸部图像数据相融合,生成合成图像。因为第二脸部图像数据与被虚拟现实头戴显示设备遮挡区域相对应,且带有表情信息,所以合成图像则是完整的带有表情信息的图像,相比较使用静态图片来说,合成图像更加逼真、准确,有利于社交双方及时获得对方的表情信息,提高社交质量,保证社交的顺利进行,提升用户体验。
附图说明
图1为本发明一个实施例提供的一种图像处理方法的流程示意图;
图2为本发明一个实施例提供的一种图像处理装置的功能结构示意图;
图3为本发明另一个实施例提供的一种图像处理装置的功能结构示意图;
图4为本发明一个实施例提供的一种终端设备的功能结构示意图。
具体实施方式
本发明的设计思路是:鉴于使用眼部的静态图片覆盖被VR HMD遮挡的部分仍然会导致表情信息的缺失,且静态图片与脸部其余部分不能很好的融合,会很不自然。又考虑到,人脸被虚拟现实头戴显示设备遮挡的眼部及周边部分的图像,与未被虚拟现实头戴显示设备遮挡的脸部图像信息之间有着强相关的关系。本技术方案引入脸部表情模型,通过脸部表情模型得到与未被虚拟现实头戴显示设备遮挡的脸部图像信息匹配的遮挡区域的脸部图像,进而获得具有完整表情信息的合成图像。为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1为本发明一个实施例提供的一种图像处理方法的流程示意图。如图 1所示,该方法包括:
步骤S110,从摄像头采集的视频流中获取指定目标的实际图像,其中,指定目标佩戴有虚拟现实头戴设备(VR HMD)。
在社交应用中,摄像头通过采集指定目标的视频流传输给社交对方。在本实施例中,该指定目标为可以是佩戴VR HMD进行社交的用户,指定目标佩戴着VR HMD,所以实际图像中,指定目标的人脸的眼睛以及眼睛周围部分是被VR HMD遮挡的,无法获取到完整的表情信息,影响社交过程。为了对摄像头采集的图像进行处理,需要从摄像头采集的视频流中获取一指定目标的实际图像。
步骤S120,从实际图像中识别出指定目标脸部的未被虚拟现实头戴显示设备遮挡区域和被虚拟现实头戴显示设备遮挡区域,获取与未被虚拟现实头戴显示设备遮挡区域对应的第一脸部图像数据。
本实施例中,通过图像识别方法识别出实际图像中指定目标的脸部,并识别出脸部未被VR HMD遮挡的区域和被VR HMD遮挡的区域,因为需要通过未被VR HMD备遮挡区域,得到与被VR HMD遮挡区域对应的图像数据,所以需要获取与未被虚拟现实头戴显示设备遮挡区域对应的第一脸部图像数据。
步骤S130,根据第一脸部图像数据和预设的脸部表情模型,得到与第一脸部图像数据匹配的第二脸部图像数据,第二脸部图像数据与被虚拟现实头戴显示设备遮挡区域相对应。
本实施例中,预设的脸部表情模型是通过指定目标样本训练得到的(例如,使用神经网络进行机器学习),在样本训练中可以获得未被VR HMD遮挡的图像数据与被VR HMD遮挡区域的图像数据之间的关系,因此,根据从实际图像中获取的第一脸部图像数据和预设的脸部表情模型,就可以得到与第一脸部图像数据匹配的第二脸部图像数据,即得到与被VR HMD遮挡区域对应的图像数据。
针对一个用户来说,只需要进行一次样本训练就可以,但是当用户更换 VR HMD时,因为会存在更换前和更换后的VR HMD的大小不一致的情况,需要进行重新训练,防止根据原预设的脸部表情模型生成的第二脸部图像与第一脸部图像数据不能进行完美的融合。
步骤S140,将第一脸部图像数据和第二脸部图像数据相融合,生成合成图像。
通过图像融合方法,将第一脸部图像数据和和第二脸部图像数据相融合,生成合成图像。因为,第二脸部图像数据是与被VR HMD遮挡区域对应的带有表情信息的图像,因此,合成图像中带有指定目标的完整表情,获得合成图像后,就可以将该合成图像发送社交的对方。
因为第二脸部图像数据与被虚拟现实头戴显示设备遮挡区域相对应,且带有表情信息,所以合成图像则是完整的带有表情信息的图像,相比较静态图片来说,合成图像更加逼真、准确,有利于社交双方及时获得对方的表情信息,提高社交质量,保证社交的顺利进行,提升用户体验。
在本发明的一个实施例中,步骤S130中的根据第一脸部图像数据和预设的脸部表情模型,得到与第一脸部图像数据匹配的第二脸部图像数据包括:将第一脸部图像数据输入到预设的脸部表情模型中,以使脸部表情模型识别第一脸部图像数据,输出与第一脸部图像数据相匹配的第二脸部图像数据。
如上文说明,在预设的脸部表情模型中有未被VR HMD遮挡的图像数据与被VR HMD遮挡区域的图像数据之间的关系,当将第一脸部图像数据输入到预设的脸部表情模型后,脸部表情模型识别第一脸部图像数据,就会输出与第一脸部图像数据相匹配的第二脸部图像数据。也就是说,预设的脸部表情模型会自动分析第一脸部图像数据,然后根据第一脸部图像数据直接生成与第一脸部数据匹配的第二脸部图像数据,有利于提高图像处理的效率,进一步增加用户体验。
进一步地,上述的预设的脸部表情模型是通过深度神经网络实现得到的,通过深度神经网络实现得到预设的脸部表情模型包括:
(1)获取摄像头在第一场景下采集的指定目标的多个第一样本图像,以及在第二场景下采集的指定目标的多个第二样本图像;其中,在第一场景下,指定目标佩戴有虚拟现实头戴设备;在第二场景下,指定目标未佩戴虚拟现实头戴显示设备,且各第二样本图像中包含指定用户的脸部状态。
在本实施例中,获取多个第一样本图像的目的是为了可以将第二样本图像中与被VR HMD遮挡区域对应的部分提取出来。多个第二样本图像中应该包含用户各种表情信息,以便在对实际图像进行处理时,可以匹配到更加准确的第二图像数据。
(2)从第一样本图像中识别出第一被遮挡区域,获取第一被遮挡区域信息。
如上文说明,为了将第二样本图像中与被VR HMD遮挡区域对应的部分提取出来,需要识别出第一样本图像中的第一被遮挡区域,然后获取到第一被遮挡区域信息,例如,区域边界的坐标信息。
(3)根据第一被遮挡区域信息,对第二样本图像的指定目标脸部的与第一被遮挡区域对应的区域进行标记。
(4)将第二样本图像中标记区域的图像放入第一指定集合中,将该第一指定集合作为深度神经网络训练时的输出集合;将第二样本图像中的指定目标脸部的未被标记区域的图像放入第二指定集合中,将该第二指定集合作为深度神经网络训练时的输入集合,放入第一指定集合和第二指定集合中的图像作为相应集合中的图像元素。其中,第二指定集合与第一指定集合中的图像元素有一一对应的严格的输入输出对应关系。
(5)将输入集合和输出集合中的每一对具有输入输出对应关系的图像元素输入到预设的深度神经网络中进行训练,确定未遮挡区域图像和生成的与其匹配的遮挡区域图像之间的函数关系,以使在第一脸部图像数据输入到预设的脸部表情模型时,预设的脸部表情模型根据识别的第一脸部图像数据和函数关系输出与其匹配的第二脸部图像数据。
本实施例,设计一个深度神经网络,其类型、层数以及每一层的节点数量,根据图像分辨率和所需生成效果设定。采用深度神经网络的机器学习方法,通过对指定目标的样本图像进行机器学习,获得对应的脸部表情模型。且,本实施例第二指定集合与第一指定集合中的图像元素有一一对应的严格的输入输出对应关系,也就是说,本实施例通过深度神经网络进行有监督式的训练,将具有输入输出对应关系的图像元素输入到深度神经网络中进行训练生成神经网络模型参数,因为输入的图像元素和输出的图像元素有对应关系,通过训练就可以生成未遮挡区域图像和生成的与其匹配的遮挡区域图像之间的函数关系:output=f(input),input为脸部未遮挡区域的图像,output 则为生成的眼部及周围对应于遮挡区域的脸部图像。
可见,本实施例引入深度神经网络的机器学习方法,对指定目标的样本图像进行训练,利用人工智能通过对指定目标的样本图像训练-预测的方式来生成被VR HMD遮挡区域的图像数据,可以使得合成图像与指定目标更加匹配,生成的合成图像更加自然,增强用户体验。
具体地,在预设的深度神经网络训练过程中,预设的深度神经网络训练的损失函数是输出集合中的图像和生成的与输入集合中的图像相匹配的图像之间的均方差。
在实际应用中,VR HMD比指定目标的脸部要大,图像中除了指定目标的脸部区域的部分,VR HMD还会遮挡一部分非脸部区域,如果仅对脸部进行图像处理,生成的合成图像与真实效果的差距较大,需要对被VR HMD遮挡的非脸部图像进行去遮挡处理,可以通过下述的方法进行:
(1)在本发明的一个实施例中,图1所示的方法还包括:从实际图像中识别出被虚拟现实头戴设备遮挡的非脸部区域;从视频流中获取实际图像之前的多个第三图像,从第三图像中提取背景图像,使用背景图像中与被虚拟现实头戴设备遮挡的非脸部区域对应的图像数据,对被虚拟现实头戴设备遮挡的非脸部区域进行去遮挡处理。
这里第三图像的个数不具体限定。因为摄像头采集视频流是与环境的位置是相对固定的,可以根据实际图像之前的多个图像帧中的背景图像信息进行去遮挡处理。
(2)在本发明的另一个实施例中,图1所示的方法还包括:从实际图像中识别出被虚拟现实头戴设备遮挡的非脸部图像数据,将非脸部图像数据输入到预设的非脸部模型中,以使预设的非脸部模型识别非脸部图像数据,输出与被虚拟现实头戴设备遮挡的非脸部区域匹配的第四图像数据,根据第四图像数据对被虚拟现实头戴设备遮挡的非脸部区域进行去遮挡处理。
本实施例中预设的非脸部模型可以通过无监督训练的神经网络生成。上述的去遮挡处理可以采用图像融合方法,将获取的与被VR HMD遮挡的非脸部区域对应的图像数据或者第四图像数据与实际图像中未被VR HMD遮挡的图像数据进行融合。
通过上述的(1)和(2)对被虚拟现实头戴设备遮挡的非脸部区域,避免第一脸部图像数据和第二脸部图像数据融合后,与非脸部区域的衔接处过于明显,保证生成的合成图像更加真实、完整,而非仅仅体现指定目标的表情信息,整个合成图像更具有观赏性,增强用户体验。
在一个实施例中,该图像处理方法在实际应用中,生成合成图像是将第一脸部图像数据、第二脸部图像数据、非人脸部分中未被VR HMD遮挡的图像数据,以及获取的与被VRHMD遮挡的非脸部区域对应的图像数据或者第四图像数据进行融合,以生成完整的合成图像。
例如,本实施例中被VR HMD遮挡的非脸部图像数据可以是指定目标的头发或耳朵等区域,通过上述的(1)或(2)就可以将被遮挡的头发或耳朵展现出来,使得生成的合成图像更加逼真。
图3为本发明一个实施例提供的一种图像处理装置的功能结构示意图。如图3所示,该图像处理装置200包括:
第一获取单元210,用于从摄像头采集的视频流中获取指定目标的实际图像,其中,指定目标佩戴有虚拟现实头戴设备。
识别单元220,用于从实际图像中识别出指定目标脸部的未被虚拟现实头戴显示设备遮挡区域和被虚拟现实头戴显示设备遮挡区域,获取与未被虚拟现实头戴显示设备遮挡区域对应的第一脸部图像数据。
第二获取单元230,用于根据第一脸部图像数据和预设的脸部表情模型,得到与第一脸部图像数据匹配的第二脸部图像数据,第二脸部图像数据与被虚拟现实头戴显示设备遮挡区域相对应。
生成单元240,用于将第一脸部图像数据和第二脸部图像数据相融合,生成合成图像。
在本发明的一个实施例中,第二获取单元230,用于将第一脸部图像数据输入到预设的脸部表情模型中,以使脸部表情模型识别第一脸部图像数据,输出与第一脸部图像数据相匹配的第二脸部图像数据。
在本发明的一个实施例中,第二获取单元230还包括:
训练模块,用于通过深度神经网络实现得到预设的脸部表情模型,具体用于:获取摄像头在第一场景下采集的指定目标的多个第一样本图像,以及在第二场景下采集的指定目标的多个第二样本图像;其中,在第一场景下,指定目标佩戴有虚拟现实头戴设备;在第二场景下,指定目标未佩戴虚拟现实头戴显示设备,且各第二样本图像中包含指定用户的脸部状态;从第一样本图像中识别出第一被遮挡区域,获取第一被遮挡区域信息;根据第一被遮挡区域信息,对第二样本图像的指定目标脸部的与第一被遮挡区域对应的区域进行标记;将第二样本图像中标记区域的图像放入第一指定集合中,将该第一指定集合作为深度神经网络训练时的输出集合;将第二样本图像中的指定目标脸部的未被标记区域的图像放入第二指定集合中,将该第二指定集合作为深度神经网络训练时的输入集合;第二指定集合与第一指定集合中的图像元素有一一对应的严格的输入输出对应关系;将输入集合和输出集合中的每一具有对输入输出对应关系的图像元素输入到预设的深度神经网络中进行训练,确定未遮挡区域图像和生成的与其匹配的遮挡区域图像之间的函数关系,以使第二获取单元将第一脸部图像数据输入到预设的脸部表情模型,预设的脸部表情模型根据输入的第一脸部图像数据和函数关系输出与其匹配的第二脸部图像数据。
进一步地,在预设的深度神经网络训练过程中,预设的深度神经网络训练的损失函数是输出集合中的图像和生成的与输入集合中的图像相匹配的图像之间的均方差。
在本发明的一个实施例中,图2所示的装置还包括:
处理单元,用于从实际图像中识别出被虚拟现实头戴设备遮挡的非脸部区域;从视频流中获取实际图像之前的多个第三图像,从第三图像中提取背景图像,使用背景图像中与被虚拟现实头戴设备遮挡的非脸部区域对应的图像数据,对被虚拟现实头戴设备遮挡的非脸部区域进行去遮挡处理,或者,从实际图像中识别出被所述虚拟现实头戴设备遮挡的非脸部图像数据,将非脸部图像数据输入到预设的非脸部模型中,以使预设的非脸部模型识别非脸部图像数据,输出与被非脸部区域匹配的第四图像数据,根据第四图像数据对非脸部区域进行去遮挡处理。
图3为本发明另一个实施例提供的一种图像处理装置的结构示意图。如图3所示,图像处理装置300包括存储器310和处理器320,存储器310和处理器320之间通过内部总线330通讯连接,存储器310存储有能够被处理器320执行的图像处理的计算机程序311,该图像处理的计算机程序311被处理器320执行时能够实现图1中所示的方法步骤。
在不同的实施例中,存储器310可以是内存或者非易失性存储器。其中非易失性存储器可以是:存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、DVD等),或者类似的存储介质,或者它们的组合。内存可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存。进一步,非易失性存储器和内存作为机器可读存储介质,其上可存储由处理器320执行的图像处理的计算机程序311。
图4为本发明一个实施例提供的一种终端设备的功能结构示意图。如图 4所示,该终端设备400包括:如图3或图4所示的图像处理装置410。
在本发明的一个实施例中,该终端设备410是虚拟现实头戴显示设备。或者,该终端设备410是在社交过程中与虚拟现实头戴显示设备进行连接的计算机或服务器,合成图像可以通过计算机或者服务器发送给社交的对方。
需要说明的是,图2、图3所示的装置和图4所示的终端设备的各实施例与图1所示的方法的各实施例对应相同,上文已有详细说明,在此不再赘述。
综上所述,本发明技术方案的有益效果是:当获取到戴有虚拟现实头戴设备的指定目标的实际图像后,先从实际图像中识别出指定目标脸部的未被虚拟现实头戴显示设备遮挡区域和被虚拟现实头戴显示设备遮挡区域,将未被虚拟现实头戴显示设备遮挡区域对应的第一脸部图像数据输入到预设的脸部表情模型中,就可以得到与第一脸部图像数据匹配的第二脸部图像数据;然后将第一脸部图像数据和第二脸部图像数据相融合,生成合成图像。因为第二脸部图像数据与被虚拟现实头戴显示设备遮挡区域相对应,且带有表情信息,所以合成图像则是完整的带有表情信息的图像,有利于社交双方及时获得对方的表情信息,提高社交质量,保证社交的顺利进行,提升用户体验。
以上所述,仅为本发明的具体实施方式,在本发明的上述教导下,本领域技术人员可以在上述实施例的基础上进行其他的改进或变形。本领域技术人员应该明白,上述的具体描述只是更好的解释本发明的目的,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种图像处理方法,其特征在于,所述方法包括:
从摄像头采集的视频流中获取指定目标的实际图像,其中,所述指定目标佩戴有虚拟现实头戴设备;
从所述实际图像中识别出所述指定目标脸部的未被虚拟现实头戴显示设备遮挡区域和被虚拟现实头戴显示设备遮挡区域,获取与所述未被虚拟现实头戴显示设备遮挡区域对应的第一脸部图像数据;
根据所述第一脸部图像数据和预设的脸部表情模型,得到与所述第一脸部图像数据匹配的第二脸部图像数据,所述第二脸部图像数据与所述被虚拟现实头戴显示设备遮挡区域相对应;所述预设的脸部表情模型是通过深度神经网络实现得到的,预设的脸部表情模型中有未被虚拟现实头戴显示设备遮挡的图像数据与被虚拟现实头戴显示设备遮挡区域的图像数据之间的关系;
将所述第一脸部图像数据和所述第二脸部图像数据相融合,生成合成图像。
2.如权利要求1所述的图像处理方法,其特征在于,所述根据所述第一脸部图像数据和预设的脸部表情模型,得到与所述第一脸部图像数据匹配的第二脸部图像数据包括:
将所述第一脸部图像数据输入到所述预设的脸部表情模型中,以使所述脸部表情模型识别所述第一脸部图像数据,输出与所述第一脸部图像数据相匹配的第二脸部图像数据。
3.如权利要求2所述的图像处理方法,其特征在于,所述通过深度神经网络实现得到预设的脸部表情模型包括:
获取摄像头在第一场景下采集的所述指定目标的多个第一样本图像,以及在第二场景下采集的所述指定目标的多个第二样本图像;其中,在所述第一场景下,所述指定目标佩戴有所述虚拟现实头戴设备;在所述第二场景下,所述指定目标未佩戴所述虚拟现实头戴显示设备,且各第二样本图像中包含所述指定用户的脸部状态;
从所述第一样本图像中识别出第一被遮挡区域,获取所述第一被遮挡区域信息;
根据所述第一被遮挡区域信息,对所述第二样本图像的所述指定目标脸部的与所述第一被遮挡区域对应的区域进行标记;
将所述第二样本图像中标记区域的图像放入第一指定集合中,将该第一指定集合作为深度神经网络训练时的输出集合;将所述第二样本图像中的所述指定目标脸部的未被标记区域的图像放入第二指定集合中,将该第二指定集合作为深度神经网络训练时的输入集合;所述第二指定集合与所述第一指定集合中的图像元素有一一对应的严格的输入输出对应关系;
将所述输入集合和所述输出集合中的每一对具有输入输出对应关系的图像元素输入到预设的深度神经网络中进行训练,确定未遮挡区域图像和生成的与其匹配的遮挡区域图像之间的函数关系,以使在所述第一脸部图像数据输入到所述预设的脸部表情模型时,所述预设的脸部表情模型根据输入的所述第一脸部图像数据和所述函数关系输出与其匹配的第二脸部图像数据。
4.如权利要求3所述的图像处理方法,其特征在于,
在所述预设的深度神经网络训练过程中,所述预设的深度神经网络训练的损失函数是所述输出集合中的图像和生成的与所述输入集合中的图像相匹配的图像之间的均方差。
5.如权利要求1所述的图像处理方法,其特征在于,所述方法还包括:
从所述实际图像中识别出被所述虚拟现实头戴设备遮挡的非脸部区域;
从所述视频流中获取所述实际图像之前的多个第三图像,从所述第三图像中提取背景图像,使用所述背景图像中与被所述虚拟现实头戴设备遮挡的非脸部区域对应的图像数据,对所述被所述虚拟现实头戴设备遮挡的非脸部区域进行去遮挡处理。
6.如权利要求1所述的图像处理方法,其特征在于,所述方法还包括:
从所述实际图像中识别出被所述虚拟现实头戴设备遮挡的非脸部图像数据,将所述非脸部图像数据输入到预设的非脸部模型中,以使所述预设的非脸部模型识别所述非脸部图像数据,输出与被所述虚拟现实头戴设备遮挡的非脸部区域匹配的第四图像数据,根据所述第四图像数据对所述被所述虚拟现实头戴设备遮挡的非脸部区域进行去遮挡处理。
7.一种图像处理装置,其特征在于,所述装置包括:
第一获取单元,用于从摄像头采集的视频流中获取指定目标的实际图像,其中,所述指定目标佩戴有虚拟现实头戴设备;
识别单元,用于从所述实际图像中识别出所述指定目标脸部的未被虚拟现实头戴显示设备遮挡区域和被虚拟现实头戴显示设备遮挡区域,获取与所述未被虚拟现实头戴显示设备遮挡区域对应的第一脸部图像数据;
第二获取单元,用于根据所述第一脸部图像数据和预设的脸部表情模型,得到与所述第一脸部图像数据匹配的第二脸部图像数据,所述第二脸部图像数据与所述被虚拟现实头戴显示设备遮挡区域相对应;所述预设的脸部表情模型是通过深度神经网络实现得到的,预设的脸部表情模型中有未被虚拟现实头戴显示设备遮挡的图像数据与被虚拟现实头戴显示设备遮挡区域的图像数据之间的关系;
生成单元,用于将所述第一脸部图像数据和所述第二脸部图像数据相融合,生成合成图像。
8.如权利要求7所述的图像处理装置,其特征在于,所述第二获取单元还包括:
训练模块,用于通过深度神经网络实现得到所述预设的脸部表情模型,具体用于:
获取摄像头在第一场景下采集的所述指定目标的多个第一样本图像,以及在第二场景下采集的所述指定目标的多个第二样本图像;其中,在所述第一场景下,所述指定目标佩戴有所述虚拟现实头戴设备;在所述第二场景下,所述指定目标未佩戴所述虚拟现实头戴显示设备,且各第二样本图像中包含所述指定用户的脸部状态;
从所述第一样本图像中识别出第一被遮挡区域,获取所述第一被遮挡区域信息;
根据所述第一被遮挡区域信息,对所述第二样本图像的所述指定目标脸部的与所述第一被遮挡区域对应的区域进行标记;
将所述第二样本图像中标记区域的图像放入第一指定集合中,将该第一指定集合作为深度神经网络训练时的输出集合;将所述第二样本图像中的所述指定目标脸部的未被标记区域的图像放入第二指定集合中,将该第二指定集合作为深度神经网络训练时的输入集合;所述第二指定集合与所述第一指定集合中的图像元素有一一对应的严格的输入输出对应关系;
将所述输入集合和所述输出集合中的每一对具有输入输出对应关系的图像元素输入到预设的深度神经网络中进行训练,确定未遮挡区域图像和生成的与其匹配的遮挡区域图像之间的函数关系,以使所述第二获取单元将所述第一脸部图像数据输入到所述预设的脸部表情模型,所述预设的脸部表情模型根据输入的所述第一脸部图像数据和所述函数关系输出与其匹配的第二脸部图像数据。
9.如权利要求7所述的图像处理装置,其特征在于,所述装置还包括:
处理单元,用于从所述实际图像中识别出被所述虚拟现实头戴设备遮挡的非脸部区域;从所述视频流中获取所述实际图像之前的多个第三图像,从所述第三图像中提取背景图像,使用所述背景图像中与被所述虚拟现实头戴设备遮挡的非脸部区域对应的图像数据,对被所述虚拟现实头戴设备遮挡的非脸部区域进行去遮挡处理,或者,从所述实际图像中识别出被所述虚拟现实头戴设备遮挡的非脸部图像数据,将所述非脸部图像数据输入到预设的非脸部模型中,以使所述预设的非脸部模型识别所述非脸部图像数据,输出与被所述非脸部区域匹配的第四图像数据,根据所述第四图像数据对所述非脸部区域进行去遮挡处理。
10.一种终端设备,其特征在于,所述终端设备包括:如权利要求7-9任一项所述的图像处理装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710766169.1A CN107680069B (zh) | 2017-08-30 | 2017-08-30 | 一种图像处理方法、装置和终端设备 |
US16/461,718 US11295550B2 (en) | 2017-08-30 | 2018-06-26 | Image processing method and apparatus, and terminal device |
PCT/CN2018/092887 WO2019041992A1 (zh) | 2017-08-30 | 2018-06-26 | 一种图像处理方法、装置和终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710766169.1A CN107680069B (zh) | 2017-08-30 | 2017-08-30 | 一种图像处理方法、装置和终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107680069A CN107680069A (zh) | 2018-02-09 |
CN107680069B true CN107680069B (zh) | 2020-09-11 |
Family
ID=61135055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710766169.1A Active CN107680069B (zh) | 2017-08-30 | 2017-08-30 | 一种图像处理方法、装置和终端设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11295550B2 (zh) |
CN (1) | CN107680069B (zh) |
WO (1) | WO2019041992A1 (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107680069B (zh) * | 2017-08-30 | 2020-09-11 | 歌尔股份有限公司 | 一种图像处理方法、装置和终端设备 |
US11145124B2 (en) | 2017-08-30 | 2021-10-12 | Ronald H. Winston | System and method for rendering virtual reality interactions |
CN108256505A (zh) * | 2018-02-12 | 2018-07-06 | 腾讯科技(深圳)有限公司 | 图像处理方法及装置 |
JP7250809B2 (ja) * | 2018-03-13 | 2023-04-03 | ロナルド ウィンストン | 仮想現実システムおよび方法 |
CN108551552B (zh) * | 2018-05-14 | 2020-09-01 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及移动终端 |
CN108764135B (zh) * | 2018-05-28 | 2022-02-08 | 北京微播视界科技有限公司 | 图像生成方法、装置,及电子设备 |
CN110647780A (zh) * | 2018-06-07 | 2020-01-03 | 东方联合动画有限公司 | 一种数据处理方法、系统 |
CN110147805B (zh) * | 2018-07-23 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、终端及存储介质 |
WO2020040061A1 (ja) * | 2018-08-24 | 2020-02-27 | ソニー株式会社 | 画像処理装置、画像処理方法及び画像処理プログラム |
CN109215007B (zh) * | 2018-09-21 | 2022-04-12 | 维沃移动通信有限公司 | 一种图像生成方法及终端设备 |
CN111045618A (zh) * | 2018-10-15 | 2020-04-21 | 广东美的白色家电技术创新中心有限公司 | 产品展示方法、装置及系统 |
EP3877831A4 (en) | 2018-11-09 | 2022-08-03 | Beckman Coulter, Inc. | MAINTENANCE GOGGLES WITH SELECTIVE DATA SUPPLY |
CN109948525A (zh) * | 2019-03-18 | 2019-06-28 | Oppo广东移动通信有限公司 | 拍照处理方法、装置、移动终端以及存储介质 |
WO2020214897A1 (en) | 2019-04-18 | 2020-10-22 | Beckman Coulter, Inc. | Securing data of objects in a laboratory environment |
CN111860380B (zh) * | 2020-07-27 | 2024-07-23 | 平安科技(深圳)有限公司 | 人脸图像生成方法、装置、服务器及存储介质 |
CN112257552B (zh) * | 2020-10-19 | 2023-09-05 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN114594851B (zh) * | 2020-11-30 | 2024-06-25 | 华为技术有限公司 | 图像处理方法、服务器和虚拟现实设备 |
US20240177359A1 (en) * | 2022-11-30 | 2024-05-30 | Sony Interactive Entertainment Inc. | Training a machine learning model for reconstructing occluded regions of a face |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110317905A1 (en) * | 2010-06-29 | 2011-12-29 | Analogic Corporation | Anti-counterfeiting / authentication |
CN104539868A (zh) * | 2014-11-24 | 2015-04-22 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN107004301A (zh) * | 2014-11-19 | 2017-08-01 | 微软技术许可有限责任公司 | 使用深度信息以绘制增强现实场景 |
CN107004296A (zh) * | 2014-08-04 | 2017-08-01 | 脸谱公司 | 用于对虚拟现实环境的遮挡面部进行重构的方法和系统 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3464754B2 (ja) * | 1997-09-19 | 2003-11-10 | 日本電信電話株式会社 | ヘッドマウントディスプレイを装着した人物の顔画像合成方法およびその装置 |
US9904054B2 (en) * | 2015-01-23 | 2018-02-27 | Oculus Vr, Llc | Headset with strain gauge expression recognition system |
GB2534580B (en) * | 2015-01-28 | 2020-06-17 | Sony Interactive Entertainment Europe Ltd | Image processing |
US9910275B2 (en) * | 2015-05-18 | 2018-03-06 | Samsung Electronics Co., Ltd. | Image processing for head mounted display devices |
US10217261B2 (en) * | 2016-02-18 | 2019-02-26 | Pinscreen, Inc. | Deep learning-based facial animation for head-mounted display |
US10684674B2 (en) * | 2016-04-01 | 2020-06-16 | Facebook Technologies, Llc | Tracking portions of a user's face uncovered by a head mounted display worn by the user |
CN107305621A (zh) | 2016-04-17 | 2017-10-31 | 张翔宇 | 一种虚拟现实眼镜的图像捕获设备及图像合成系统 |
CN107491165A (zh) * | 2016-06-12 | 2017-12-19 | 张翔宇 | 一种vr眼镜面部3d图像、平面图像捕获与手势捕获系统 |
US20180101989A1 (en) * | 2016-10-06 | 2018-04-12 | Google Inc. | Headset removal in virtual, augmented, and mixed reality using an eye gaze database |
US20180158246A1 (en) * | 2016-12-07 | 2018-06-07 | Intel IP Corporation | Method and system of providing user facial displays in virtual or augmented reality for face occluding head mounted displays |
CN107680069B (zh) * | 2017-08-30 | 2020-09-11 | 歌尔股份有限公司 | 一种图像处理方法、装置和终端设备 |
-
2017
- 2017-08-30 CN CN201710766169.1A patent/CN107680069B/zh active Active
-
2018
- 2018-06-26 WO PCT/CN2018/092887 patent/WO2019041992A1/zh active Application Filing
- 2018-06-26 US US16/461,718 patent/US11295550B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110317905A1 (en) * | 2010-06-29 | 2011-12-29 | Analogic Corporation | Anti-counterfeiting / authentication |
CN107004296A (zh) * | 2014-08-04 | 2017-08-01 | 脸谱公司 | 用于对虚拟现实环境的遮挡面部进行重构的方法和系统 |
CN107004301A (zh) * | 2014-11-19 | 2017-08-01 | 微软技术许可有限责任公司 | 使用深度信息以绘制增强现实场景 |
CN104539868A (zh) * | 2014-11-24 | 2015-04-22 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US20210374390A1 (en) | 2021-12-02 |
US11295550B2 (en) | 2022-04-05 |
WO2019041992A1 (zh) | 2019-03-07 |
CN107680069A (zh) | 2018-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107680069B (zh) | 一种图像处理方法、装置和终端设备 | |
Li et al. | Learning the depths of moving people by watching frozen people | |
CN108986189B (zh) | 基于三维动画中实时多人动作捕捉并直播的方法和系统 | |
US9030486B2 (en) | System and method for low bandwidth image transmission | |
Shen et al. | Virtual mirror rendering with stationary rgb-d cameras and stored 3-d background | |
CN109508679B (zh) | 实现眼球三维视线跟踪的方法、装置、设备及存储介质 | |
CN111710036A (zh) | 三维人脸模型的构建方法、装置、设备及存储介质 | |
US20150279044A1 (en) | Method and apparatus for obtaining 3d face model using portable camera | |
CN108108748A (zh) | 一种信息处理方法及电子设备 | |
KR100560464B1 (ko) | 관찰자의 시점에 적응적인 다시점 영상 디스플레이 시스템을 구성하는 방법 | |
CN110956691A (zh) | 一种三维人脸重建方法、装置、设备及存储介质 | |
CN111914811B (zh) | 图像数据处理方法、装置、计算机设备以及存储介质 | |
CN113192132A (zh) | 眼神捕捉方法及装置、存储介质、终端 | |
CN113192164A (zh) | 虚拟形象随动控制方法、装置、电子设备和可读存储介质 | |
Zheng et al. | Learning view-invariant features for person identification in temporally synchronized videos taken by wearable cameras | |
Li et al. | MannequinChallenge: Learning the depths of moving people by watching frozen people | |
CN107016730A (zh) | 一种虚拟现实与真实场景融合的装置 | |
Mann et al. | An introduction to the 3rd workshop on egocentric (first-person) vision | |
Wang et al. | Digital twin: Acquiring high-fidelity 3D avatar from a single image | |
WO2024104144A1 (zh) | 图像合成方法和装置、存储介质及电子设备 | |
CN106981100A (zh) | 一种虚拟现实与真实场景融合的装置 | |
Ma et al. | CVTHead: One-shot Controllable Head Avatar with Vertex-feature Transformer | |
Wang et al. | Fighting malicious media data: A survey on tampering detection and deepfake detection | |
CN111161399B (zh) | 基于二维影像生成三维模型的数据处理方法及组件 | |
KR102558806B1 (ko) | 멀티카메라를 이용한 대상 추적 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |