CN112733794B - 人脸图像的视线矫正方法、装置、设备及存储介质 - Google Patents
人脸图像的视线矫正方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112733794B CN112733794B CN202110088338.7A CN202110088338A CN112733794B CN 112733794 B CN112733794 B CN 112733794B CN 202110088338 A CN202110088338 A CN 202110088338A CN 112733794 B CN112733794 B CN 112733794B
- Authority
- CN
- China
- Prior art keywords
- corrected
- eye image
- eye
- image
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000003860 storage Methods 0.000 title claims abstract description 29
- 238000012937 correction Methods 0.000 claims abstract description 197
- 238000012545 processing Methods 0.000 claims abstract description 84
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 241000282414 Homo sapiens Species 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 54
- 230000004438 eyesight Effects 0.000 claims description 45
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 12
- 230000000007 visual effect Effects 0.000 claims description 10
- 230000010354 integration Effects 0.000 claims description 5
- 230000001815 facial effect Effects 0.000 claims description 4
- 230000008447 perception Effects 0.000 claims description 2
- 210000001508 eye Anatomy 0.000 abstract description 393
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 210000005252 bulbus oculi Anatomy 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 230000007613 environmental effect Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000005530 etching Methods 0.000 description 4
- 210000003128 head Anatomy 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000036544 posture Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000004424 eye movement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000016776 visual perception Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/803—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/19—Sensors therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Ophthalmology & Optometry (AREA)
- Data Mining & Analysis (AREA)
- Geometry (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请公开了一种人脸图像的视线矫正方法、装置、设备及存储介质,涉及人工智能技术领域。所述方法包括:从人脸图像中获取待矫正眼部图像;对待矫正眼部图像进行特征提取处理,得到待矫正眼部图像的特征信息;基于特征信息和目标视线方向,对待矫正眼部图像进行视线矫正处理,得到初步矫正后眼部图像和眼部轮廓掩码;采用眼部轮廓掩码对初步矫正后眼部图像进行调整处理,生成矫正后眼部图像;基于矫正后眼部图像,生成经视线矫正后的人脸图像。本申请提供了一种矫正能力更强的视线矫正方案,即便是对于眼珠偏移较大的图像,也能够达到真实且准确的视线矫正结果。
Description
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种人脸图像的视线矫正方法、装置、设备及存储介质。
背景技术
人的眼睛是最能传神的器官,视线矫正旨在将人眼的视线矫正为任意指定的方向。
在相关技术中,提供了一种基于三角面片形变的视线矫正方案。该方案通过识别得到眼部轮廓上的多个配准点,然后基于该多个配准点将眼部区域划分为多个三角形区域,得到多个三角形面片,然后对该多个三角形面片进行拉伸等形变处理,通过调整眼睛的睁开程度来实现视线矫正。
上述这种方案视线矫正能力较弱,当眼睛视线偏向左侧或者右侧时,矫正效果不佳。
发明内容
本申请实施例提供了一种人脸图像的视线矫正方法、装置、设备及存储介质,提供了一种矫正能力更强的视线矫正方案。所述技术方案如下:
根据本申请实施例的一个方面,提供了一种人脸图像的视线矫正方法,所述方法包括:
从人脸图像中获取待矫正眼部图像;
对所述待矫正眼部图像进行特征提取处理,得到所述待矫正眼部图像的特征信息;
基于所述特征信息和目标视线方向,对所述待矫正眼部图像进行视线矫正处理,得到初步矫正后眼部图像和眼部轮廓掩码;其中,所述目标视线方向是指所述待矫正眼部图像中的眼部视线需要矫正至的视线方向,所述眼部轮廓掩码用于指示所述待矫正眼部图像中的像素位置属于眼部区域的概率;
采用所述眼部轮廓掩码对所述初步矫正后眼部图像进行调整处理,生成矫正后眼部图像;
基于所述矫正后眼部图像,生成所述经视线矫正后的人脸图像。
根据本申请实施例的一个方面,提供了一种视线矫正模型的训练方法,所述方法包括:
获取视线矫正模型的训练样本,所述训练样本包括待矫正眼部图像样本和目标矫正眼部图像;
通过视线矫正模型基于所述待矫正眼部图像样本、所述目标矫正眼部图像和目标视线方向,生成初步矫正后眼部图像样本和眼部轮廓掩码;其中,所述目标视线方向是指所述待矫正眼部图像样本中的眼部视线需要矫正至的视线方向,所述眼部轮廓掩码用于指示所述待矫正眼部图像样本中的像素位置属于眼部区域的概率;
采用所述眼部轮廓掩码对所述初步矫正后眼部图像样本进行调整处理,生成矫正后眼部图像样本;
基于所述矫正后眼部图像样本和所述目标矫正眼部图像,确定所述视线矫正模型的损失,并基于所述损失对所述视线矫正模型的参数进行调整。
根据本申请实施例的一个方面,提供了一种人脸图像的视线矫正装置,所述装置包括:
眼部图像获取模块,用于从人脸图像中获取待矫正眼部图像;
特征信息提取模块,用于对所述待矫正眼部图像进行特征提取处理,得到所述待矫正眼部图像的特征信息;
视线矫正处理模块,用于基于所述特征信息和目标视线方向,对所述待矫正眼部图像进行视线矫正处理,得到初步矫正后眼部图像和眼部轮廓掩码;其中,所述目标视线方向是指所述待矫正眼部图像中的眼部视线需要矫正至的视线方向,所述眼部轮廓掩码用于指示所述待矫正眼部图像中的像素位置属于眼部区域的概率;
图像调整处理模块,用于采用所述眼部轮廓掩码对所述初步矫正后眼部图像进行调整处理,生成矫正后眼部图像;
眼部图像整合模块,用于基于所述矫正后眼部图像,生成所述经视线矫正后的人脸图像。
根据本申请实施例的一个方面,提供了一种视线矫正模型的训练装置,所述装置包括:
样本获取模块,用于获取视线矫正模型的训练样本,所述训练样本包括待矫正眼部图像样本和目标矫正眼部图像;
模型处理模块,用于通过视线矫正模型基于所述待矫正眼部图像样本、所述目标矫正眼部图像和目标视线方向,生成初步矫正后眼部图像样本和眼部轮廓掩码;其中,所述目标视线方向是指所述待矫正眼部图像样本中的眼部视线需要矫正至的视线方向,所述眼部轮廓掩码用于指示所述待矫正眼部图像样本中的像素位置属于眼部区域的概率;
图像调整模块,用于采用所述眼部轮廓掩码对所述初步矫正后眼部图像样本进行调整处理,生成矫正后眼部图像样本;
参数调整模块,用于基于所述矫正后眼部图像样本和所述目标矫正眼部图像,确定所述视线矫正模型的损失,并基于所述损失对所述视线矫正模型的参数进行调整。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述人脸图像的视线矫正方法,或者上述视线矫正模型的训练方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述人脸图像的视线矫正方法,或者上述视线矫正模型的训练方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述人脸图像的视线矫正方法,或者上述视线矫正模型的训练方法。
本申请实施例提供的技术方案至少包括如下有益效果:
通过基于待矫正眼部图像的特征信息和目标视线方向,对该待矫正眼部图像进行视线矫正处理,得到矫正后眼部图像,提供了一种矫正能力更强的视线矫正方案,即便是对于眼珠偏移较大的图像,也能够达到真实且准确的视线矫正结果。
另外,由于待矫正眼部图像为眼部轮廓扩大后的矩形区域,因此导致眼部轮廓外的区域也进行了视线矫正处理,而这不是我们需要的结果。为此,本申请加入了眼部轮廓掩码,通过注意力机制将待矫正眼部图像和初步矫正后眼部图像进行融合,既提高了生成图像的稳定性,又可以保证只对眼部轮廓内部的图像内容进行视线矫正,而眼部轮廓外部的图像内容不需要进行视线矫正,提升了最终得到的矫正后眼部图像的视线矫正效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的方案实施环境的示意图;
图2示出了在视频会议场景下,摄像头、人眼、人眼视线看的位置之间形成的夹角的示意图;
图3是本申请一个实施例提供的人脸图像的视线矫正方法的流程图;
图4是本申请一个实施例提供的视线矫正前后的对比图;
图5是本申请另一个实施例提供的视线矫正前后的对比图;
图6是本申请另一个实施例提供的人脸图像的视线矫正方法的流程图;
图7是本申请一个实施例提供的视线矫正模型的使用流程的示意图;
图8是本申请一个实施例提供的视线矫正模型的训练方法的流程图;
图9是本申请一个实施例提供的视线矫正模型的训练流程的示意图;
图10是本申请一个实施例提供的人脸图像的视线矫正装置的框图;
图11是本申请一个实施例提供的视线矫正模型的训练装置的框图;
图12是本申请一个实施例提供的计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3Dimension,三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
本申请实施例提供的技术方案,涉及人工智能的机器学习和计算机视觉等技术,具体通过如下实施例进行介绍说明。
请参考图1,其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以实现称为一个视频会议系统。该方案实施环境可以包括服务器10和多个终端20。
终端20可以是诸如手机、平板电脑、PC(Personal Computer,个人计算机)、智能电视、多媒体播放设备等电子设备。终端20中可以安装运行视频会议应用程序的客户端,从而向用户提供视频会议功能。
服务器10可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。服务器10可以是视频会议应用程序的后台服务器,用于为上述客户端提供后台服务器。
终端20和服务器10之间可以通过网络进行通信。
如图2所示,在视频会议场景下,用户的视线一般都是看着屏幕21中的对方,而摄像头22并不在屏幕21中,而是在其他位置(如图2所示的屏幕21上方),因此摄像头22、人眼、人眼视线看的位置之间往往有一个夹角(图2中虚线所示夹角α)。在对方用户看来,用户的视线并没有看着对方用户,而是视线偏下,从而影响了用户的交流体验。
除了在视频会议场景之外,视频通话、视频直播等场景中均有类似问题。
本申请提出的视线矫正方案,通过基于待矫正眼部图像的特征信息和目标视线方向,对该待矫正眼部图像进行视线矫正处理,得到矫正后眼部图像,提供了一种矫正能力更强的视线矫正方案,即便是对于眼珠偏移较大的图像,也能够达到真实且准确的视线矫正结果。
请参考图3,其示出了本申请一个实施例提供的人脸图像的视线矫正方法的流程图。该方法各步骤的执行主体可以是诸如手机、平板电脑、PC等终端设备,也可以是服务器。该方法可以包括如下几个步骤(310~350):
步骤310,从人脸图像中获取待矫正眼部图像。
人脸图像是指包含人脸的图像,该人脸图像可以是一张照片或图片,也可以是视频中的一个图像帧,本申请实施例对此不作限定。待矫正眼部图像是从人脸图像中截取的,包含需要进行视线矫正的眼部区域的图像。
需要说明的是,通常来讲,一个人脸图像中包含左右两个人眼,因此可以从一张人脸图像中获取两张待矫正眼部图像,其中一张对应于左眼的待矫正眼部图像,另一张对应于右眼的待矫正眼部图像。
可选地,首先对人脸图像进行人脸检测,确定人脸图像中是否包含人脸,以及在包含人脸的情况下确定人脸位置。进一步地,如果在人脸图像中包含人脸的情况下,进行人脸关键点检测。由于本申请重点关注的是眼部区域,因此可以仅进行眼部关键点的检测,诸如嘴、鼻子等其他部位的关键点不需要检测。
在示例性实施例中,基于单个眼睛的轮廓关键点,确定该单个眼睛的最小外接矩形;对该单个眼睛的最小外接矩形放大指定倍数,得到该单个眼睛的图像截取框;基于该单个眼睛的图像截取框,从人脸图像中截取得到该单个眼睛的待矫正眼部图像。
单个眼睛的最小外接矩形是指包含该单个眼睛的最小外接矩形框。例如,左眼的最小外接矩形即是指包含该左眼的最小外接矩形框。上述指定倍数可以是预先设定的数值,例如1.5倍、2倍或3倍等,本申请实施例对此不作限定。在对单个眼睛的最小外接矩形进行放大处理得到图像截取框的过程中,以该最小外接矩形的中心点为中心,对其进行等比例放大处理,得到图像截取框,该图像截取框的中心点与上述最小外接矩形的中心点重合。最后,采用图像截取技术,从人脸图像中截取该单个眼睛的图像截取框中的图像内容,得到该单个眼睛的待矫正眼部图像。
相比于直接对人脸图像进行视线矫正处理,通过从人脸图像中获取待矫正眼部图像,对该待矫正眼部图像进行视线矫正处理,有助于减少后续步骤的计算量,提升效率。
步骤320,对待矫正眼部图像进行特征提取处理,得到待矫正眼部图像的特征信息。
可选地,通过神经网络对该待矫正眼部图像进行特征提取处理,得到待矫正眼部图像的特征信息。特征信息用于反映该待矫正眼部图像的图像特征。
可选地,特征信息包括特定眼神特征、眼神无关特征和环境相关特征。其中,特定眼神特征是指与眼睛视线相关的特征信息;眼神无关特征是指与眼睛视线无关的特征信息,如眼部纹理特征等信息;环境相关特征是指能够体现出图像的光照、明暗、饱和度等特征的信息。
在本申请实施例中,结合多种特征信息进行视线矫正,有助于提升方案在不同环境下的鲁棒性,在多种不同环境下都能够达到较好的视线矫正效果。
步骤330,基于特征信息和目标视线方向,对待矫正眼部图像进行视线矫正处理,得到初步矫正后眼部图像和眼部轮廓掩码。
目标视线方向是指待矫正眼部图像中的眼部视线需要矫正至的视线方向。可选地,目标视线方向是指正视摄像头的方向,从而实现将待矫正眼部图像中的眼部视线矫正至正视摄像头的方向。可选地,目标视线方向包括俯仰角(pitch)和偏航角(yaw),例如,在正视摄像头的情况下,定义俯仰角等于0°且偏航角也等于0°。
眼部轮廓掩码用于指示待矫正眼部图像中的像素位置属于眼部区域的概率。例如,眼部轮廓掩码可以表示为一个一维图像,该一维图像的尺寸(包括高和宽),与待矫正眼部图像的尺寸相同。眼部轮廓掩码中某一像素的像素值可以是一个概率值,表示待矫正眼部图像中相同位置的像素属于眼部区域的概率。例如,眼部轮廓掩码中坐标为(i,j)位置的像素值,可以是一个属于[0,1]取值范围的概率值,表示待矫正眼部图像中坐标为(i,j)位置的像素属于眼部区域的概率。
在示例性实施例中,上述步骤320和330可以由视线矫正模型来实现。视线矫正模型可以是一个神经网络模型,如其可以包括编码网络和解码网络。编码网络用于对输入数据(即待矫正眼部图像)进行特征提取处理,得到该待矫正眼部图像的特征信息;解码网络用于基于上述特征信息和目标视线方向,对待矫正眼部图像进行视线矫正处理,得到初步矫正后眼部图像和眼部轮廓掩码。
步骤340,采用眼部轮廓掩码对初步矫正后眼部图像进行调整处理,生成矫正后眼部图像。
可选地,本步骤包括如下几个子步骤:
1、将眼部轮廓掩码与初步矫正后眼部图像中对应位置的像素值进行相乘,得到第一中间图像;
2、将眼部轮廓掩码对应的映射图像与待矫正眼部图像中对应位置的像素值进行相乘,得到第二中间图像;
3、将第一中间图像和第二中间图像中对应位置的像素值进行相加,得到矫正后眼部图像。
结合上文实施例中的介绍说明,眼部轮廓掩码中各位置的像素值是一个属于[0,1]取值范围的概率值,眼部轮廓掩码对应的映射图像中任一位置的像素值,是采用1减去眼部轮廓掩码中相同位置的像素值(即概率值)得到的数值。例如,眼部轮廓掩码中坐标为(i,j)位置的像素值(即概率值)为0.2,那么眼部轮廓掩码对应的映射图像中坐标为(i,j)位置的像素值为1-0.2=0.8。
上述生成矫正后眼部图像可以采用如下公式表示:矫正后眼部图像=眼部轮廓掩码×初步矫正后眼部图像+(1-眼部轮廓掩码)×待矫正眼部图像。
步骤350,基于矫正后眼部图像,生成经视线矫正后的人脸图像。
将矫正后眼部图像整合至原始的人脸图像中,采用矫正后眼部图像覆盖或替换掉上述待矫正眼部图像,得到经视线矫正后的人脸图像。
可选地,将矫正后眼部图像整合至待矫正眼部图像在人脸图像的图像截取框位置处,得到整合图像;对该整合图像中图像截取框位置处进行图像和谐化处理,得到经视线矫正后的人脸图像。其中,图像和谐化处理的目的是为了消除图像截取框位置处的边界痕迹。在本申请实施例中,对图像和谐化处理所采用的方式不作限定,如高斯模糊、腐蚀膨胀或者基于深度学习的图像和谐化方法等。
在一种可能的实现方式中,采用如下方式对整合图像中图像截取框位置处进行图像和谐化处理,得到经视线矫正后的人脸图像:
1、生成与人脸图像相同尺寸的初始化掩膜图像,该初始化掩膜图像在图像截取框位置处的像素值为1,其余位置的像素值为0;
例如,假设原始的人脸图像的尺寸为C×H×W;其中,C为通道数(如包括R、G、B三个通道),H为高度(如高度方向上包含的像素数量),W为宽度(如宽度方向上包含的像素数量)。同时假设上述图像截取框是一个在人脸图像中的目标位置处的尺寸为h×w的矩形框,h为高度(如高度方向上包含的像素数量),w为宽度(如宽度方向上包含的像素数量),那么待矫正眼部图像和矫正后眼部图像的尺寸均为c×h×w,c为通道数(如包括R、G、B三个通道)。
那么生成尺寸为C×H×W的初始化掩膜图像,对于C个通道中的每一个单通道图像H×W,在上述目标位置处的h×w图像截取框中的像素值设为1,除该图像截取框之外的其他区域的像素值设为0,作为初始化掩膜图像。
2、对初始化掩膜图像进行腐蚀操作和高斯模糊处理,得到处理后掩膜图像;
腐蚀操作的目的是消除物体之间的边界点,例如可以采用椭圆模板对初始化掩膜图像进行腐蚀操作,得到腐蚀后掩膜图像。高斯模糊处理也称为高斯平滑处理,用于减少图像噪声以及降低细节层次。在得到上述腐蚀后掩膜图像之后,可以对该腐蚀后掩膜图像进行高斯模糊处理,得到处理后掩膜图像。处理后掩膜图像中,仍然是一个尺寸为C×H×W的图像,各像素的取值在范围[0,1]之间,特别是对于原本0和1之间的交界位置处的像素来说,经过上述腐蚀操作和高斯模糊处理之后,取值会介于0和1之间,从而实现平滑过渡。
3、将处理后掩膜图像与整合图像中对应位置的像素值进行相乘,得到第一生成图像;
4、将处理后掩膜图像对应的映射图像与人脸图像中对应位置的像素值进行相乘,得到第二生成图像;
5、将第一生成图像和第二生成图像中对应位置的像素值进行相加,得到经视线矫正后的人脸图像。
处理后掩膜图像中各位置的像素值是一个属于[0,1]取值范围的数值,处理后掩膜图像对应的映射图像中任一位置的像素值,是采用1减去处理后掩膜图像中相同位置的像素值得到的数值。例如,处理后掩膜图像中坐标为(i,j)位置的像素值为0.3,那么处理后掩膜图像对应的映射图像中坐标为(i,j)位置的像素值为1-0.3=0.7。
上述生成经视线矫正后的人脸图像可以采用如下公式表示:经视线矫正后的人脸图像=处理后掩膜图像×整合图像+(1-处理后掩膜图像)×人脸图像。
通过上述方式,能够使得整合图像中位于图像截取框位置处的边界痕迹得到消除,使得最终得到的经视线矫正后的人脸图像没有明显的拼接痕迹,效果更佳。
如图4所示,其示出了采用本申请实施例提供的视线矫正方法,在视线矫正前后的对比图。左侧图示(a)为未经视线矫正的人脸图像,人眼视线偏移;右侧图示(b)为经视线矫正后的人脸图像,人眼视线聚焦在正前方。
另一种相关技术是基于流模型的视线矫正方案,该方案通过基于待矫正眼部图像生成对应的眼部运动流场,然后基于该眼部运动流场对上述待矫正眼部图像中的像素进行位移处理,生成矫正后眼部图像。该方案本质上是学习像素位置的移动。那么意味着生成的像素全部来自于输入的像素。这种固定的形式不够灵活,容易带来失真。比如当眼珠的偏移较大的时候,会出现失真。如图5所示,左侧图示(a)为未经视线矫正的人脸图像,眼珠的偏移较大;中间图示(b)为基于流模型的视线矫正方案生成的视线矫正后的人脸图像,从图中可以明显看出眼珠位置存在失真;右侧图示(c)为采用本申请技术方案进行视线矫正后的人脸图像,人眼视线聚焦在正前方,且眼珠位置不存在失真。
综上所述,本申请实施例提供的技术方案,通过基于待矫正眼部图像的特征信息和目标视线方向,对该待矫正眼部图像进行视线矫正处理,得到矫正后眼部图像,提供了一种矫正能力更强的视线矫正方案,即便是对于眼珠偏移较大的图像,也能够达到真实且准确的视线矫正结果。
另外,由于待矫正眼部图像为眼部轮廓扩大后的矩形区域,因此导致眼部轮廓外的区域也进行了视线矫正处理,而这不是我们需要的结果。为此,本申请加入了眼部轮廓掩码,通过注意力机制将待矫正眼部图像和初步矫正后眼部图像进行融合,既提高了生成图像的稳定性,又可以保证只对眼部轮廓内部的图像内容进行视线矫正,而眼部轮廓外部的图像内容不需要进行视线矫正,提升了最终得到的矫正后眼部图像的视线矫正效果。
请参考图6,其示出了本申请另一个实施例提供的人脸图像的视线矫正方法的流程图。该方法各步骤的执行主体可以是诸如手机、平板电脑、PC等终端设备,也可以是服务器。该方法可以包括如下几个步骤(610~670):
步骤610,从人脸图像中获取待矫正眼部图像。
步骤610与图3实施例中的步骤310相同或类似,具体参见图3实施例中介绍说明,此处不再赘述。
步骤620,通过视线矫正模型的编码网络,对待矫正眼部图像进行特征提取处理,得到待矫正眼部图像的特征信息,该特征信息包括特定眼神特征、眼神无关特征和环境相关特征。
视线矫正模型可以是一个神经网络模型,如其可以包括编码网络和解码网络。编码网络用于对输入数据(即待矫正眼部图像)进行特征提取处理,得到该待矫正眼部图像的特征信息,该特征信息可以包括特定眼神特征、眼神无关特征和环境相关特征。
步骤630,对特征信息和目标视线方向在通道维进行组合,得到组合数据。
在得到特征信息之后,将该特征信息和目标视线方向在通道维进行组合,得到组合数据。在一个示例中,假设待矫正眼部图像的高为H,宽为W,H和W可以分别表示高度方向上的像素数量和宽度方向上的像素数量。那么待矫正眼部图像是一个H×W×3的三通道图像,将该待矫正眼部图像输入至视线矫正模型的编码网络,输出特征信息。之后,将特征信息和目标视线方向在通道维进行组合,得到组合数据。目标视线方向包括俯仰角(pitch)和偏航角(yaw),例如,在正视摄像头的情况下,定义俯仰角等于0°且偏航角也等于0°,实现将待矫正眼部图像的眼睛视线矫正为正视摄像头的方向。
步骤640,通过视线矫正模型的解码网络,对组合数据进行处理,得到视线矫正模型的输出数据。
步骤650,从输出数据中提取得到初步矫正后眼部图像和眼部轮廓掩码。
解码网络用于基于上述特征信息和目标视线方向的组合数据,对待矫正眼部图像进行视线矫正处理,得到初步矫正后眼部图像和眼部轮廓掩码。视线矫正模型的输出数据可以包括H×W×4的四通道图像,从中提取3个通道的数据H×W×3作为初步矫正后眼部图像,剩下一个通道的数据H×W×1作为眼部轮廓掩码。
步骤660,采用眼部轮廓掩码对初步矫正后眼部图像进行调整处理,生成矫正后眼部图像。
步骤670,基于矫正后眼部图像,生成经视线矫正后的人脸图像。
步骤660至670与图3实施例中的步骤340至350相同或类似,具体参见图3实施例中介绍说明,此处不再赘述。
请参考图7,从输入的人脸图像中截取得到待矫正眼部图像,将该待矫正眼部图像输入至视线矫正模型的编码网络(即图中所示的编码器E),得到特定眼神特征、眼神无关特征和环境相关特征等特征信息,然后将该特征信息和目标视线方向融合输入至视线矫正模型的解码网络(即图中所示的解码器D),由该解码网络输出初步矫正后眼部图像和眼部轮廓掩码,然后采用眼部轮廓掩码对初步矫正后眼部图像进行调整处理,生成矫正后眼部图像,最后将矫正后眼部图像与人脸图像进行整合处理,得到经视线矫正后的人脸图像。
综上所述,本申请实施例提供的技术方案,通过训练视线矫正模型,由视线矫正模型实现特征提取以及初步矫正后眼部图像和眼部轮廓掩码的生成,流程简单高效,使得视线矫正功能真正达到了实际可用的标准,适用于视频会议、视频通话、视频直播等场景。
下面,通过实施例对视线矫正模型的训练流程进行介绍说明,有关该视线矫正模型使用过程中涉及的内容和训练过程中涉及的内容是相互对应的,两者互通,如在一侧未作详细说明的地方,可以参考另一侧的描述说明。
请参考图8,其示出了本申请一个实施例提供的视线矫正模型的训练方法的流程图。该方法各步骤的执行主体可以是电脑、服务器等计算机设备。该方法可以包括如下几个步骤(810~840):
步骤810,获取视线矫正模型的训练样本,该训练样本包括待矫正眼部图像样本和目标矫正眼部图像。
视线矫正模型可以是一个神经网络模型。可选地,该模型的输入数据包括待矫正眼部图像样本,输出数据包括眼部运动流场和眼部轮廓掩码。
每个训练样本包括两张图像,分别是同一个人在同一个头部姿态角下拍摄得到的两张不同视线的图像,其中一张图像可以是任意视线方向的图像(如视线正视屏幕区域),该张图像作为待矫正眼部图像样本使用,另一张图像是视线正视摄像头的图像,该张图像作为目标矫正眼部图像使用。通过这样子的训练样本训练视线矫正模型,可以训练得到一个端到端的视线矫正模型,模型基于输入的待矫正眼部图像,输出一张视线正视摄像头的矫正后眼部图像。需要说明的是,不同的训练样本可以是不同的人物,也可以具有不同的头部姿态。也即,模型的训练样本集中可以包括多个训练样本,该多个训练样本可以包括具有不同人物的训练样本,包括具有不同头部姿态的训练样本,从而使得训练出的模型能够适应不同人物和不同头部姿态,提升模型的鲁棒性。
步骤820,通过视线矫正模型基于待矫正眼部图像样本、目标矫正眼部图像和目标视线方向,生成初步矫正后眼部图像样本和眼部轮廓掩码。
目标视线方向是指待矫正眼部图像样本中的眼部视线需要矫正至的视线方向。需要说明的是,在训练过程中,目标视线方向可以是正视摄像头的(0°,0°)方向,也可以是其他任意方向,从而使得模型具备将视线矫正至任意方向的能力。
眼部轮廓掩码用于指示待矫正眼部图像样本中的像素位置属于眼部区域的概率。
可选地,如图9所示,视线矫正模型包括第一编码网络、第二编码网络和解码网络。
通过第一编码网络对待矫正眼部图像样本进行特征提取处理,得到待矫正眼部图像样本对应的特征信息,包括特定眼神特征Z_i、眼神无关特征I_i和环境相关特征L_i。
通过第二编码网络对目标矫正眼部图像进行特征提取处理,得到目标矫正眼部图像对应的特征信息,包括特定眼神特征Z_g、眼神无关特征I_g和环境相关特征L_g。
通过解码网络基于待矫正眼部图像样本对应的特定眼神特征Z_i和眼神无关特征I_i、目标矫正眼部图像对应的环境相关特征L_g,以及目标视线方向(θ1,θ2),生成初步矫正后眼部图像样本和眼部轮廓掩码。
由于在训练过程中,每个训练样本包含的待矫正眼部图像样本和目标矫正眼部图像这两张图像,存在光线等环境噪声的差异,本申请通过编码器的学习过程中将特征信息解耦成特定眼神特征、眼神无关特征和环境相关特征,利用目标矫正眼部图像对应的环境相关特征输入解码网络,能够避免环境噪声带来的干扰。
步骤830,采用眼部轮廓掩码对初步矫正后眼部图像样本进行调整处理,生成矫正后眼部图像样本。
可选地,将眼部轮廓掩码与初步矫正后眼部图像样本中对应位置的像素值进行相乘,得到第三中间图像;将眼部轮廓掩码对应的映射图像与待矫正眼部图像样本中对应位置的像素值进行相乘,得到第四中间图像;将第三中间图像和第四中间图像中对应位置的像素值进行相加,得到矫正后眼部图像样本。该过程与上述步骤340相类似,具体可参见上文介绍说明,此处不再赘述。
步骤840,基于矫正后眼部图像样本和目标矫正眼部图像,确定视线矫正模型的损失,并基于该损失对视线矫正模型的参数进行调整。
视线矫正模型的损失用于衡量模型性能。可选地,基于该视线矫正模型的损失,采用梯度下降算法对视线矫正模型的参数进行调整,以优化模型参数。
在示例性实施例中,视线矫正模型的损失可以包括如下几个方面:
1、基于矫正后眼部图像样本和目标矫正眼部图像之间的像素差异,确定重构损失;
重构损失用于衡量两个图像在像素上的差异,该重构损失可以采用如下公式计算得到:
Reconstruction_loss=|fake_img–gt_img|;
其中,Reconstruction_loss表示重构损失,fake_img表示矫正后眼部图像样本,gt_img表示目标矫正眼部图像。该重构损失可以是L1损失、L2损失或者采用其他的一些距离算法得到,本申请实施例对此不作限定。
2、基于矫正后眼部图像样本和目标矫正眼部图像之间的图像特征差异,确定特征损失;
特征损失用于衡量两个图像在图像特征上的差异。可选地,特征损失包括LPIPS(Learned Perceptual Image Patch Similarity,感知图像块相似度学习)损失,LPIPS损失的优点是可以准确表征两图像之间的视觉感知差异,但是需要提前预训练生成一个损失计算模型。将矫正后眼部图像样本和目标矫正眼部图像输入至特征损失计算模型;通过特征损失计算模型输出矫正后眼部图像样本和目标矫正眼部图像之间的LPIPS损失。损失计算模型可以是一个预训练好的卷积神经网络模型,如VGG(Visual Geometry Group,视觉几何体编组)模型。
例如,将通过VGG模型从矫正后眼部图像样本fake_img中提取的图像特征记为vgg_feature(fake_img),将通过VGG模型从目标矫正眼部图像gt_img中提取的图像特征记为vgg_feature(gt_img)。假设:vgg_feature(fake_img)=fake_img_fea1,fake_img_fea2,fake_img_fea3,fake_img_fea4,vgg_feature(gt_img)=gt_img_fea1,gt_img_fea2,gt_img_fea3,gt_img_fea4,则LPIPS损失LPIPS_loss=|fake_img_fea1-gt_img_fea1|+|fake_img_fea2-gt_img_fea2|+|fake_img_fea3-gt_img_fea4|+|fake_img_fea4-gt_img_fea4|。
在本申请中,我们希望LPIPS损失表征的视觉感知信息是视线的方向,而不是眼睛的准确外观纹理信息,因此,可以采用软件仿真技术生成多个仿真图像对,每个仿真图像对包括一组对应的非正视眼部仿真图像和正视眼部仿真图像,然后采用上述仿真图像对训练损失计算模型。仿真数据虽然和真人眼睛的外观纹理信息有差异,但其视线方向和眼球位置的关系和真人没有区别,且其视线方向在数据生成时就已经知道了,完美契合了LPIPS损失函数,从而减少了大量的人工标注成本。通过仿真数据预训练出来的损失计算模型,可以直接用于真人眼睛数据训练中LPIPS损失的计算。
3、确定矫正后眼部图像样本和目标矫正眼部图像之间的生成对抗损失;
生成对抗网络(Generative Adversarial Network,简称GAN)是非监督式学习的一种方法,通过让两个神经网络相互博弈的方式进行学习。由一个生成网络与一个判别网络组成。生成网络从潜在空间(latent space)中随机取样作为输入,其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出,其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数,最终生成以假乱真的图片。
在本申请实施例中,上述包括第一编码网络、第二编码网络和解码网络的视线矫正模型可以看作是生成网络,另外还需要增加一个判别网络,如图9所示的判别器D,用于判别送入该判别器D的图像是生成网络生成的图像(即矫正后眼部图像样本),还是真实图像(即目标矫正眼部图像)。
可选地,该判别器D可以是一个多尺度判别器,例如其输入可以是原图、原图的1/2大小、原图的1/4大小等多个不同尺度的图像。其中,生成对抗损失包括生成网络的损失和判别网络的损失。判别网络的损失用于衡量判别网络的判别精度,生成网络的损失用于衡量生成出的矫正后眼部图像样本与目标矫正眼部图像之间的接近程度。
例如,判别网络的损失D_loss1/3*(-logD(gt_img)-log(1-D(fake_img))-logD(gt_img_1/2)-log(1-D(fake_img_1/2))-logD(gt_img_1/4)-log(1-D(fake_img_1/4)));生成网络的损失G_loss=log(1-D(fake_img))。其中,D(X)表示判别网络对输入图像X的判别结果。
最后,基于重构损失、特征损失和生成对抗损失,确定视线矫正模型的损失。例如,可以将上述重构损失Reconstruction_loss、特征损失LPIPS_loss和生成对抗损失(包括判别网络的损失D_loss和生成网络的损失G_loss)进行直接求和或者加权求和,得到视线矫正模型的损失。
可选地,如图9所示,视线矫正模型的损失还包括视线估计损失。在得到矫正后眼部图像样本之后,对矫正后眼部图像样本进行视线估计,得到矫正后眼部图像样本的视线方向;基于矫正后眼部图像样本的视线方向和目标视线方向,确定视线估计损失。其中,对矫正后眼部图像样本进行视线估计,得到矫正后眼部图像样本的视线方向,可以通过预训练一个具有视线估计能力的神经网络来实现。视线估计损失Gaze_loss=||θ1’-θ1||+||θ2’-θ2||;其中,(θ1’,θ2’)代表预估得到的矫正后眼部图像样本的视线方向,(θ1,θ2)代表目标视线方向。然后,基于视线估计损失Gaze_loss、重构损失Reconstruction_loss、特征损失LPIPS_loss、判别网络的损失D_loss和生成网络的损失G_loss,确定视线矫正模型的损失。例如,视线矫正模型的损失loss=Gaze_loss+Reconstruction_loss+LPIPS_loss+D_loss+G_loss。当然,在计算视线矫正模型的损失loss时,还可采用加权求和的方式进行计算,本申请实施例对此不作限定。
需要说明的一点是,在视线矫正模型完成训练之后,在其使用过程中,仅需使用第一编码网络作为编码网络使用即可,而不需要第二编码网络。
综上所述,本申请实施例提供的技术方案,由于在训练过程中,每个训练样本包含的待矫正眼部图像样本和目标矫正眼部图像这两张图像,存在光线等环境噪声的差异,本申请通过编码器的学习过程中将特征信息解耦成特定眼神特征、眼神无关特征和环境相关特征,利用目标矫正眼部图像对应的环境相关特征输入解码网络,能够避免环境噪声带来的干扰,从而提升最终训练得到的模型的鲁棒性。
另外,在模型损失的计算方面,引入了重构损失、特征损失、生成对抗损失、视线估计损失等多方面的损失,使得模型的参数调整地更优,在各方面都具有良好的表现性能。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图10,其示出了本申请一个实施例提供的人脸图像的视线矫正装置的框图。该装置具有实现上述人脸图像的视线矫正方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置1000可以包括:眼部图像获取模块1010、特征信息提取模块1020、视线矫正处理模块1030、图像调整处理模块1040和眼部图像整合模块1050。
眼部图像获取模块1010,用于从人脸图像中获取待矫正眼部图像。
特征信息提取模块1020,用于对所述待矫正眼部图像进行特征提取处理,得到所述待矫正眼部图像的特征信息。
视线矫正处理模块1030,用于基于所述特征信息和目标视线方向,对所述待矫正眼部图像进行视线矫正处理,得到初步矫正后眼部图像和眼部轮廓掩码;其中,所述目标视线方向是指所述待矫正眼部图像中的眼部视线需要矫正至的视线方向,所述眼部轮廓掩码用于指示所述待矫正眼部图像中的像素位置属于眼部区域的概率。
图像调整处理模块1040,用于采用所述眼部轮廓掩码对所述初步矫正后眼部图像进行调整处理,生成矫正后眼部图像。
眼部图像整合模块1050,用于基于所述矫正后眼部图像,生成所述经视线矫正后的人脸图像。
在示例性实施例中,所述特征信息提取模块1020,用于:
通过视线矫正模型的编码网络,对所述待矫正眼部图像进行特征提取处理,得到所述待矫正眼部图像的特定眼神特征、眼神无关特征和环境相关特征。
在示例性实施例中,所述视线矫正处理模块1030,用于:
对所述特征信息和所述目标视线方向在通道维进行组合,得到组合数据;
通过视线矫正模型的解码网络,对所述组合数据进行处理,得到所述视线矫正模型的输出数据;
从所述输出数据中提取得到所述初步矫正后眼部图像和所述眼部轮廓掩码。
在示例性实施例中,所述图像调整处理模块1040,用于:
将所述眼部轮廓掩码与所述初步矫正后眼部图像中对应位置的像素值进行相乘,得到第一中间图像;
将所述眼部轮廓掩码对应的映射图像与所述待矫正眼部图像中对应位置的像素值进行相乘,得到第二中间图像;
将所述第一中间图像和所述第二中间图像中对应位置的像素值进行相加,得到所述矫正后眼部图像。
在示例性实施例中,所述眼部图像整合模块1050,用于:
将所述矫正后眼部图像整合至所述待矫正眼部图像在所述人脸图像的图像截取框位置处,得到整合图像;
对所述整合图像中所述图像截取框位置处进行图像和谐化处理,得到所述经视线矫正后的人脸图像。
请参考图11,其示出了本申请一个实施例提供的视线矫正模型的训练装置的框图。该装置具有实现上述视线矫正模型的训练方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置1100可以包括:样本获取模块1110、模型处理模块1120、图像调整模块1130和参数调整模块1140。
样本获取模块1110,用于获取视线矫正模型的训练样本,所述训练样本包括待矫正眼部图像样本和目标矫正眼部图像。
模型处理模块1120,用于通过视线矫正模型基于所述待矫正眼部图像样本、所述目标矫正眼部图像和目标视线方向,生成初步矫正后眼部图像样本和眼部轮廓掩码;其中,所述目标视线方向是指所述待矫正眼部图像样本中的眼部视线需要矫正至的视线方向,所述眼部轮廓掩码用于指示所述待矫正眼部图像样本中的像素位置属于眼部区域的概率。
图像调整模块1130,用于采用所述眼部轮廓掩码对所述初步矫正后眼部图像样本进行调整处理,生成矫正后眼部图像样本。
参数调整模块1140,用于基于所述矫正后眼部图像样本和所述目标矫正眼部图像,确定所述视线矫正模型的损失,并基于所述损失对所述视线矫正模型的参数进行调整。
在示例性实施例中,所述视线矫正模型包括第一编码网络、第二编码网络和解码网络;
所述模型处理模块1120,用于:
通过所述第一编码网络对所述待矫正眼部图像样本进行特征提取处理,得到所述待矫正眼部图像样本对应的特定眼神特征、眼神无关特征和环境相关特征;
通过所述第二编码网络对所述目标矫正眼部图像进行特征提取处理,得到所述目标矫正眼部图像对应的特定眼神特征、眼神无关特征和环境相关特征;
通过所述解码网络基于所述待矫正眼部图像样本对应的特定眼神特征和眼神无关特征、所述目标矫正眼部图像对应的环境相关特征,以及所述目标视线方向,生成所述初步矫正后眼部图像样本和所述眼部轮廓掩码。
在示例性实施例中,所述参数调整模块1140,用于:
基于所述矫正后眼部图像样本和所述目标矫正眼部图像之间的像素差异,确定重构损失;
基于所述矫正后眼部图像样本和所述目标矫正眼部图像之间的图像特征差异,确定特征损失;
确定所述矫正后眼部图像样本和所述目标矫正眼部图像之间的生成对抗损失;
基于所述重构损失、所述特征损失和所述生成对抗损失,确定所述视线矫正模型的损失。
在示例性实施例中,所述参数调整模块1140,用于:
将所述矫正后眼部图像样本和所述目标矫正眼部图像输入至特征损失计算模型;
通过所述特征损失计算模型输出所述矫正后眼部图像样本和所述目标矫正眼部图像之间的LPIPS损失;
其中,所述特征损失包括所述LPIPS损失。
在示例性实施例中,所述参数调整模块1140,用于:
基于多尺度判别器对所述矫正后眼部图像样本和所述目标矫正眼部图像的判别结果,确定生成网络的损失和判别网络的损失。
在示例性实施例中,所述参数调整模块1140,还用于:
对所述矫正后眼部图像样本进行视线估计,得到所述矫正后眼部图像样本的视线方向;
基于所述矫正后眼部图像样本的视线方向和所述目标视线方向,确定视线估计损失;
基于所述视线估计损失、所述重构损失、所述特征损失和所述生成对抗损失,确定所述视线矫正模型的损失。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图12,其示出了本申请一个实施例提供的计算机设备的结构示意图。该计算机设备可以是任何具备数据计算、处理和存储功能的电子设备,如手机、平板电脑、PC(Personal Computer,个人计算机)或服务器等。该计算机设备用于实施上述实施例中提供的人脸图像的视线矫正方法或视线矫正模型的训练方法。具体来讲:
该计算机设备1200包括处理单元(如CPU(Central Processing Unit,中央处理器)、GPU(Graphics Processing Unit,图形处理器)和FPGA(Field Programmable GateArray,现场可编程逻辑门阵列)等)1201、包括RAM(Random-Access Memory,随机存储器)1202和ROM(Read-Only Memory,只读存储器)1203的系统存储器1204,以及连接系统存储器1204和中央处理单元1201的系统总线1205。该计算机设备1200还包括帮助服务器内的各个器件之间传输信息的基本输入/输出系统(Input Output System,I/O系统)1206,和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。
该基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中,该显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。该基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。
该大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。该大容量存储设备1207及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说,该大容量存储设备1207可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦写可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知该计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。
根据本申请实施例,该计算机设备1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1200可以通过连接在该系统总线1205上的网络接口单元1211连接到网络1212,或者说,也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述人脸图像的视线矫正方法或视线矫正模型的训练方法。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被计算机设备的处理器执行时实现上述实施例提供的人脸图像的视线矫正方法或视线矫正模型的训练方法。
可选地,该计算机可读存储介质可以包括:ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存储器)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行上述人脸图像的视线矫正方法或视线矫正模型的训练方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (14)
1.一种人脸图像的视线矫正方法,其特征在于,所述方法包括:
从人脸图像中获取待矫正眼部图像;
对所述待矫正眼部图像进行特征提取处理,得到所述待矫正眼部图像的特征信息;
基于所述特征信息和目标视线方向,对所述待矫正眼部图像进行视线矫正处理,得到初步矫正后眼部图像和眼部轮廓掩码;其中,所述目标视线方向是指所述待矫正眼部图像中的眼部视线需要矫正至的视线方向,所述眼部轮廓掩码用于指示所述待矫正眼部图像中的像素位置属于眼部区域的概率;
将所述眼部轮廓掩码与所述初步矫正后眼部图像中对应位置的像素值进行相乘,得到第一中间图像;
将所述眼部轮廓掩码对应的映射图像与所述待矫正眼部图像中对应位置的像素值进行相乘,得到第二中间图像;
将所述第一中间图像和所述第二中间图像中对应位置的像素值进行相加,得到矫正后眼部图像;
基于所述矫正后眼部图像,生成经视线矫正后的人脸图像。
2.根据权利要求1所述的方法,其特征在于,所述对所述待矫正眼部图像进行特征提取处理,得到所述待矫正眼部图像的特征信息,包括:
通过视线矫正模型的编码网络,对所述待矫正眼部图像进行特征提取处理,得到所述待矫正眼部图像的特定眼神特征、眼神无关特征和环境相关特征。
3.根据权利要求1所述的方法,其特征在于,所述基于所述特征信息和目标视线方向,对所述待矫正眼部图像进行视线矫正处理,得到初步矫正后眼部图像和眼部轮廓掩码,包括:
对所述特征信息和所述目标视线方向在通道维进行组合,得到组合数据;
通过视线矫正模型的解码网络,对所述组合数据进行处理,得到所述视线矫正模型的输出数据;
从所述输出数据中提取得到所述初步矫正后眼部图像和所述眼部轮廓掩码。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述矫正后眼部图像,生成经视线矫正后的人脸图像,包括:
将所述矫正后眼部图像整合至所述待矫正眼部图像在所述人脸图像的图像截取框位置处,得到整合图像;
对所述整合图像中所述图像截取框位置处进行图像和谐化处理,得到所述经视线矫正后的人脸图像;其中,所述图像和谐化处理用于消除所述图像截取框位置处的边界痕迹。
5.一种视线矫正模型的训练方法,其特征在于,所述方法包括:
获取视线矫正模型的训练样本,所述训练样本包括待矫正眼部图像样本和目标矫正眼部图像;
通过视线矫正模型基于所述待矫正眼部图像样本、所述目标矫正眼部图像和目标视线方向,生成初步矫正后眼部图像样本和眼部轮廓掩码;其中,所述目标视线方向是指所述待矫正眼部图像样本中的眼部视线需要矫正至的视线方向,所述眼部轮廓掩码用于指示所述待矫正眼部图像样本中的像素位置属于眼部区域的概率;
将所述眼部轮廓掩码与所述初步矫正后眼部图像样本中对应位置的像素值进行相乘,得到第三中间图像;
将所述眼部轮廓掩码对应的映射图像与所述待矫正眼部图像样本中对应位置的像素值进行相乘,得到第四中间图像;
将所述第三中间图像和所述第四中间图像中对应位置的像素值进行相加,得到矫正后眼部图像样本;
基于所述矫正后眼部图像样本和所述目标矫正眼部图像,确定所述视线矫正模型的损失,并基于所述损失对所述视线矫正模型的参数进行调整。
6.根据权利要求5所述的方法,其特征在于,所述视线矫正模型包括第一编码网络、第二编码网络和解码网络;
所述通过视线矫正模型基于所述待矫正眼部图像样本、所述目标矫正眼部图像和目标视线方向,生成初步矫正后眼部图像样本和眼部轮廓掩码,包括:
通过所述第一编码网络对所述待矫正眼部图像样本进行特征提取处理,得到所述待矫正眼部图像样本对应的特定眼神特征、眼神无关特征和环境相关特征;
通过所述第二编码网络对所述目标矫正眼部图像进行特征提取处理,得到所述目标矫正眼部图像对应的特定眼神特征、眼神无关特征和环境相关特征;
通过所述解码网络基于所述待矫正眼部图像样本对应的特定眼神特征和眼神无关特征、所述目标矫正眼部图像对应的环境相关特征,以及所述目标视线方向,生成所述初步矫正后眼部图像样本和所述眼部轮廓掩码。
7.根据权利要求5所述的方法,其特征在于,所述基于所述矫正后眼部图像样本和所述目标矫正眼部图像,确定所述视线矫正模型的损失,包括:
基于所述矫正后眼部图像样本和所述目标矫正眼部图像之间的像素差异,确定重构损失;
基于所述矫正后眼部图像样本和所述目标矫正眼部图像之间的图像特征差异,确定特征损失;
确定所述矫正后眼部图像样本和所述目标矫正眼部图像之间的生成对抗损失;
基于所述重构损失、所述特征损失和所述生成对抗损失,确定所述视线矫正模型的损失。
8.根据权利要求7所述的方法,其特征在于,所述基于所述矫正后眼部图像样本和所述目标矫正眼部图像之间的图像特征差异,确定特征损失,包括:
将所述矫正后眼部图像样本和所述目标矫正眼部图像输入至特征损失计算模型;
通过所述特征损失计算模型输出所述矫正后眼部图像样本和所述目标矫正眼部图像之间的感知图像块相似度学习LPIPS损失;
其中,所述特征损失包括所述LPIPS损失。
9.根据权利要求7所述的方法,其特征在于,所述确定所述矫正后眼部图像样本和所述目标矫正眼部图像之间的生成对抗损失,包括:
基于多尺度判别器对所述矫正后眼部图像样本和所述目标矫正眼部图像的判别结果,确定生成网络的损失和判别网络的损失。
10.根据权利要求7所述的方法,其特征在于,所述方法还包括:
对所述矫正后眼部图像样本进行视线估计,得到所述矫正后眼部图像样本的视线方向;
基于所述矫正后眼部图像样本的视线方向和所述目标视线方向,确定视线估计损失;
所述基于所述重构损失、所述特征损失和所述生成对抗损失,确定所述视线矫正模型的损失,包括:
基于所述视线估计损失、所述重构损失、所述特征损失和所述生成对抗损失,确定所述视线矫正模型的损失。
11.一种人脸图像的视线矫正装置,其特征在于,所述装置包括:
眼部图像获取模块,用于从人脸图像中获取待矫正眼部图像;
特征信息提取模块,用于对所述待矫正眼部图像进行特征提取处理,得到所述待矫正眼部图像的特征信息;
视线矫正处理模块,用于基于所述特征信息和目标视线方向,对所述待矫正眼部图像进行视线矫正处理,得到初步矫正后眼部图像和眼部轮廓掩码;其中,所述目标视线方向是指所述待矫正眼部图像中的眼部视线需要矫正至的视线方向,所述眼部轮廓掩码用于指示所述待矫正眼部图像中的像素位置属于眼部区域的概率;
图像调整处理模块,用于将所述眼部轮廓掩码与所述初步矫正后眼部图像中对应位置的像素值进行相乘,得到第一中间图像;将所述眼部轮廓掩码对应的映射图像与所述待矫正眼部图像中对应位置的像素值进行相乘,得到第二中间图像;将所述第一中间图像和所述第二中间图像中对应位置的像素值进行相加,得到矫正后眼部图像;
眼部图像整合模块,用于基于所述矫正后眼部图像,生成经视线矫正后的人脸图像。
12.一种视线矫正模型的训练装置,其特征在于,所述装置包括:
样本获取模块,用于获取视线矫正模型的训练样本,所述训练样本包括待矫正眼部图像样本和目标矫正眼部图像;
模型处理模块,用于通过视线矫正模型基于所述待矫正眼部图像样本、所述目标矫正眼部图像和目标视线方向,生成初步矫正后眼部图像样本和眼部轮廓掩码;其中,所述目标视线方向是指所述待矫正眼部图像样本中的眼部视线需要矫正至的视线方向,所述眼部轮廓掩码用于指示所述待矫正眼部图像样本中的像素位置属于眼部区域的概率;
图像调整模块,用于将所述眼部轮廓掩码与所述初步矫正后眼部图像样本中对应位置的像素值进行相乘,得到第三中间图像;将所述眼部轮廓掩码对应的映射图像与所述待矫正眼部图像样本中对应位置的像素值进行相乘,得到第四中间图像;将所述第三中间图像和所述第四中间图像中对应位置的像素值进行相加,得到矫正后眼部图像样本;
参数调整模块,用于基于所述矫正后眼部图像样本和所述目标矫正眼部图像,确定所述视线矫正模型的损失,并基于所述损失对所述视线矫正模型的参数进行调整。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至4任一项所述的人脸图像的视线矫正方法,或者实现如权利要求5至10任一项所述的视线矫正模型的训练方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至4任一项所述的人脸图像的视线矫正方法,或者实现如权利要求5至10任一项所述的视线矫正模型的训练方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110088338.7A CN112733794B (zh) | 2021-01-22 | 2021-01-22 | 人脸图像的视线矫正方法、装置、设备及存储介质 |
PCT/CN2022/072371 WO2022156640A1 (zh) | 2021-01-22 | 2022-01-17 | 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品 |
EP22742119.5A EP4198814A1 (en) | 2021-01-22 | 2022-01-17 | Gaze correction method and apparatus for image, electronic device, computer-readable storage medium, and computer program product |
JP2023528175A JP7476428B2 (ja) | 2021-01-22 | 2022-01-17 | 画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム |
US17/977,646 US20230049533A1 (en) | 2021-01-22 | 2022-10-31 | Image gaze correction method, apparatus, electronic device, computer-readable storage medium, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110088338.7A CN112733794B (zh) | 2021-01-22 | 2021-01-22 | 人脸图像的视线矫正方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733794A CN112733794A (zh) | 2021-04-30 |
CN112733794B true CN112733794B (zh) | 2021-10-15 |
Family
ID=75593798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110088338.7A Active CN112733794B (zh) | 2021-01-22 | 2021-01-22 | 人脸图像的视线矫正方法、装置、设备及存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230049533A1 (zh) |
EP (1) | EP4198814A1 (zh) |
JP (1) | JP7476428B2 (zh) |
CN (1) | CN112733794B (zh) |
WO (1) | WO2022156640A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733795B (zh) * | 2021-01-22 | 2022-10-11 | 腾讯科技(深圳)有限公司 | 人脸图像的视线矫正方法、装置、设备及存储介质 |
CN112733794B (zh) * | 2021-01-22 | 2021-10-15 | 腾讯科技(深圳)有限公司 | 人脸图像的视线矫正方法、装置、设备及存储介质 |
CN112818809B (zh) * | 2021-01-25 | 2022-10-11 | 清华大学 | 一种检测图像信息的方法、装置和存储介质 |
CN113222857A (zh) * | 2021-05-27 | 2021-08-06 | Oppo广东移动通信有限公司 | 图像处理方法、模型的训练方法及装置、介质和电子设备 |
CN113362243A (zh) * | 2021-06-03 | 2021-09-07 | Oppo广东移动通信有限公司 | 模型训练方法、图像处理方法及装置、介质和电子设备 |
CN113343931A (zh) * | 2021-07-05 | 2021-09-03 | Oppo广东移动通信有限公司 | 生成对抗网络的训练方法、图像视线校正方法与装置 |
CN113641247A (zh) * | 2021-08-31 | 2021-11-12 | 北京字跳网络技术有限公司 | 视线角度调整方法、装置、电子设备及存储介质 |
CN113703579B (zh) * | 2021-08-31 | 2023-05-30 | 北京字跳网络技术有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN114120412B (zh) * | 2021-11-29 | 2022-12-09 | 北京百度网讯科技有限公司 | 图像处理方法和装置 |
CN114449345B (zh) * | 2022-02-08 | 2023-06-23 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、设备及存储介质 |
CN116993929B (zh) * | 2023-09-27 | 2024-01-16 | 北京大学深圳研究生院 | 基于人眼动态变化的三维人脸重建方法、装置及存储介质 |
CN117523543B (zh) * | 2024-01-08 | 2024-03-19 | 成都大学 | 一种基于深度学习的金属压印字符识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103310186A (zh) * | 2012-02-29 | 2013-09-18 | 三星电子株式会社 | 校正图像中用户的注视方向的方法和便携式终端 |
CN103345619A (zh) * | 2013-06-26 | 2013-10-09 | 上海永畅信息科技有限公司 | 视频聊天中的人眼自然对视自适应矫正方法 |
CN107646112A (zh) * | 2015-03-20 | 2018-01-30 | 高等教育自主非营利组织斯科尔科沃科学和技术研究所 | 使用机器学习对眼睛图像进行校正的方法以及机器学习的方法 |
CN110740246A (zh) * | 2018-07-18 | 2020-01-31 | 阿里健康信息技术有限公司 | 一种图像矫正方法、移动设备和终端设备 |
CN111008929A (zh) * | 2019-12-19 | 2020-04-14 | 维沃移动通信(杭州)有限公司 | 图像矫正方法及电子设备 |
CN111339928A (zh) * | 2020-02-25 | 2020-06-26 | 苏州科达科技股份有限公司 | 眼神调节方法、装置及存储介质 |
CN111784604A (zh) * | 2020-06-29 | 2020-10-16 | 北京字节跳动网络技术有限公司 | 图像处理方法、装置、设备及计算机可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4962917B2 (ja) * | 2008-05-12 | 2012-06-27 | トヨタ自動車株式会社 | 運転状態推定装置、及び運転状態推定方法 |
US10664949B2 (en) | 2016-04-22 | 2020-05-26 | Intel Corporation | Eye contact correction in real time using machine learning |
RU2016138608A (ru) * | 2016-09-29 | 2018-03-30 | Мэджик Лип, Инк. | Нейронная сеть для сегментации изображения глаза и оценки качества изображения |
US11024002B2 (en) * | 2019-03-14 | 2021-06-01 | Intel Corporation | Generating gaze corrected images using bidirectionally trained network |
CN112733794B (zh) * | 2021-01-22 | 2021-10-15 | 腾讯科技(深圳)有限公司 | 人脸图像的视线矫正方法、装置、设备及存储介质 |
-
2021
- 2021-01-22 CN CN202110088338.7A patent/CN112733794B/zh active Active
-
2022
- 2022-01-17 JP JP2023528175A patent/JP7476428B2/ja active Active
- 2022-01-17 WO PCT/CN2022/072371 patent/WO2022156640A1/zh active Application Filing
- 2022-01-17 EP EP22742119.5A patent/EP4198814A1/en active Pending
- 2022-10-31 US US17/977,646 patent/US20230049533A1/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103310186A (zh) * | 2012-02-29 | 2013-09-18 | 三星电子株式会社 | 校正图像中用户的注视方向的方法和便携式终端 |
CN103345619A (zh) * | 2013-06-26 | 2013-10-09 | 上海永畅信息科技有限公司 | 视频聊天中的人眼自然对视自适应矫正方法 |
CN107646112A (zh) * | 2015-03-20 | 2018-01-30 | 高等教育自主非营利组织斯科尔科沃科学和技术研究所 | 使用机器学习对眼睛图像进行校正的方法以及机器学习的方法 |
CN110740246A (zh) * | 2018-07-18 | 2020-01-31 | 阿里健康信息技术有限公司 | 一种图像矫正方法、移动设备和终端设备 |
CN111008929A (zh) * | 2019-12-19 | 2020-04-14 | 维沃移动通信(杭州)有限公司 | 图像矫正方法及电子设备 |
CN111339928A (zh) * | 2020-02-25 | 2020-06-26 | 苏州科达科技股份有限公司 | 眼神调节方法、装置及存储介质 |
CN111784604A (zh) * | 2020-06-29 | 2020-10-16 | 北京字节跳动网络技术有限公司 | 图像处理方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
EyeGAN: Gaze–Preserving, Mask–Mediated Eye Image Synthesis;Harsimran Kaur 等;《IEEE》;20201231;第310-319页 * |
Also Published As
Publication number | Publication date |
---|---|
US20230049533A1 (en) | 2023-02-16 |
JP7476428B2 (ja) | 2024-04-30 |
EP4198814A1 (en) | 2023-06-21 |
JP2023548921A (ja) | 2023-11-21 |
CN112733794A (zh) | 2021-04-30 |
WO2022156640A1 (zh) | 2022-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112733794B (zh) | 人脸图像的视线矫正方法、装置、设备及存储介质 | |
CN112733795B (zh) | 人脸图像的视线矫正方法、装置、设备及存储介质 | |
CN112733797B (zh) | 人脸图像的视线矫正方法、装置、设备及存储介质 | |
US11830230B2 (en) | Living body detection method based on facial recognition, and electronic device and storage medium | |
US11908244B2 (en) | Human posture detection utilizing posture reference maps | |
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
US11232286B2 (en) | Method and apparatus for generating face rotation image | |
CN111488865B (zh) | 图像优化方法、装置、计算机存储介质以及电子设备 | |
JP2023545200A (ja) | パラメータ推定モデルの訓練方法、パラメータ推定モデルの訓練装置、デバイスおよび記憶媒体 | |
CN114648613B (zh) | 基于可变形神经辐射场的三维头部模型重建方法及装置 | |
CN113570684A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN112541422A (zh) | 光照和头部姿态鲁棒的表情识别方法、设备及存储介质 | |
CN113343878A (zh) | 基于生成对抗网络的高保真人脸隐私保护方法和系统 | |
CN115050064A (zh) | 人脸活体检测方法、装置、设备及介质 | |
CN112085835A (zh) | 三维卡通人脸生成方法、装置、电子设备及存储介质 | |
CN111401192A (zh) | 基于人工智能的模型训练方法和相关装置 | |
CN111898571A (zh) | 动作识别系统及方法 | |
WO2022148248A1 (zh) | 图像处理模型的训练方法、图像处理方法、装置、电子设备及计算机程序产品 | |
CN117372604B (zh) | 一种3d人脸模型生成方法、装置、设备及可读存储介质 | |
CN111915676B (zh) | 图像生成方法、装置、计算机设备和存储介质 | |
CN112257729A (zh) | 图像识别方法、装置、设备及存储介质 | |
CN113538254A (zh) | 图像恢复方法、装置、电子设备及计算机可读存储介质 | |
CN114898447A (zh) | 一种基于自注意力机制的个性化注视点检测方法及装置 | |
CN113706439A (zh) | 一种图像检测方法、装置、存储介质及计算机设备 | |
CN116958394A (zh) | 图像生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40042030 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |