CN108304765A - 用于人脸关键点定位与语义分割的多任务检测装置 - Google Patents

用于人脸关键点定位与语义分割的多任务检测装置 Download PDF

Info

Publication number
CN108304765A
CN108304765A CN201711310450.0A CN201711310450A CN108304765A CN 108304765 A CN108304765 A CN 108304765A CN 201711310450 A CN201711310450 A CN 201711310450A CN 108304765 A CN108304765 A CN 108304765A
Authority
CN
China
Prior art keywords
key point
semantic segmentation
face
module
default
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711310450.0A
Other languages
English (en)
Other versions
CN108304765B (zh
Inventor
赵昱程
唐帆
董未名
张晓鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201711310450.0A priority Critical patent/CN108304765B/zh
Publication of CN108304765A publication Critical patent/CN108304765A/zh
Application granted granted Critical
Publication of CN108304765B publication Critical patent/CN108304765B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Abstract

本发明涉及数字图像处理技术领域,具体提供了一种用于人脸关键点定位与语义分割的多任务检测装置,旨在解决如何同时提高人脸关键点定位和人脸语义分割准确性的技术问题。为此目的,本发明中的多任务深度模型可以采用深度学习算法对目标人脸图像进行语义分割,并获取目标人脸图像中的人脸关键点。具体地,关键点定位模块可以基于编码网络并依据人脸特征获取人脸关键点的位置信息,语义分割模块可以基于解码网络对特征图进行语义分割。本发明中多任务深度模型采用编解码网络结构,同时还通过信息增强单元将编码网络中的浅层信息引入到解码网络,因而能够兼顾人脸关键点定位与语义分割之间的协同信息,进而提供高人脸关键点定位和语义分割的准确性。

Description

用于人脸关键点定位与语义分割的多任务检测装置
技术领域
本发明涉及数字图像处理技术领域,具体涉及了一种用于人脸关键点定位与语义分割的多任务检测装置。
背景技术
人脸图像分析技术主要应用于情感识别和人脸识别等领域,其中,人脸关键点定位技术和人脸语义分割技术,作为人脸图像分析技术中的基础性分析技术,其检测结果将会极大地影响最终的人脸图像分析结果。当前,在人脸图像分析过程中主要采用单独处理的方式,即分别实施人脸关键点定位和人脸语义分割,但是这种处理方式未考虑人脸关键点定位与人脸语义分割之间的协同关系,因此会损失部分信息进而降低人脸图像分析结果的准确性。
发明内容
为了解决现有技术中的上述问题,即为了解决如何同时提高人脸关键点定位和人脸语义分割准确性的技术问题,本发明提供了一种用于人脸关键点定位与语义分割的多任务检测装置。
本发明中的多任务检测装置包括多任务深度模型,其配置为采用深度学习算法对目标人脸图像进行语义分割,并获取所述目标人脸图像中的人脸关键点;
所述多任务深度模型包括关键点定位模块和语义分割模块;
所述关键点定位模块,配置为基于编码网络提取所述目标人脸图像中的人脸特征,并依据所提取的人脸特征获取人脸关键点的位置信息;
所述语义分割模块,配置为基于解码网络对特征图进行语义分割;其中,所述特征图为所述关键点定位模块输出的包含人脸关键点的位置信息的图像;所述解码网络中每个解码单元分别与编码网络中对应的编码单元连接。
进一步地,本发明提供的一个优选技术方案为:
所述装置还包括第一模型训练模块,其配置为基于预设第一训练样本图像,并按照下式所示的损失函数lossL对所述关键点定位模块进行网络训练,其中,所述预设第一训练样本图像包含人脸关键点与五官语义分割标注信息;
其中,所述N和i分别为预设第一训练样本图像中人脸关键点的总数和序号,所述为采用所述关键点定位模块对所述预设第一训练样本图像检测得到的第i个人脸关键点的位置信息,所述(ai,bi)为对所述预设第一训练样本图像中第i个人脸关键点进行归一化处理后的位置信息,
并且所述(xi,yi)为所述第i个人脸关键点对应的像素位置信息,ω和h分别为所述预设第一训练样本图像的宽和高,(x,y)为所述预设第一训练样本图像的中点位置信息。
进一步地,本发明提供的一个优选技术方案为:
所述装置还包括第二模型训练模块,其配置为按照下式所示的损失函数lossS对所述语义分割模块进行网络训练:
其中,所述为特征图中第j个像素点对应的五官语义分割标注信息;所述所述中的“zj,c”为语义分割模块中输出层的第c个通道所输出的第j个像素点的像素值,所述为语义分割模块中输出层所输出的第j个像素点的像素累加值,所述中的zj为语义分割模块中输出层所输出的第j个像素点的最大像素值,所述n为语义分割模块中输出层所输出的特征图分辨率。
进一步地,本发明提供的一个优选技术方案为:
所述编码单元包括相连的卷积层和下采样层,其中,所述卷积层的输入端与所述下采样层的输出端分别为该编码单元的输入端与输出端;
所述解码单元包括依次连接的上采样层、信息增强单元与卷积层,并且所述信息增强单元还与对应编码单元中卷积层的输出端连接,其中,所述上采样层的输入端与所述卷积层的输出端分别为该解码单元的输入端与输出端。
进一步地,本发明提供的一个优选技术方案为:
所述信息增强单元包括第一增强子单元;
所述第一增强子单元包括两个卷积层和一个残差相加子单元,其中,所述第一增强子单元的一个输入端直接与所述残差相加子单元的一个输入端连接,所述第一增强子单元的另一个输入端通过一个所述卷积层与所述残差相加子单元的另一个输入端连接,所述第一增强子单元的输出端通过另一个所述卷积层与所述残差相加子单元的输出端连接。
进一步地,本发明提供的一个优选技术方案为:
所述信息增强单元包括第二增强子单元;
所述第二增强子单元包括两个卷积层和一个叠加子单元,其中,所述第二增强子单元的一个输入端通过一个所述卷积层与所述叠加子单元的一个输入端连接,所述第二增强子单元的另一个输入端直接与所述叠加子单元的另一个输入端连接,所述第二增强子单元的输出端通过另一个所述卷积层与所述叠加子单元的输出端连接。
进一步地,本发明提供的一个优选技术方案为:
所述解码网络中首个所述解码单元的信息增强单元为所述第一增强子单元,其他所述解码单元的信息增强单元为所述第二增强子单元。
进一步地,本发明提供的一个优选技术方案为:
所述装置还包括第三模型训练模块,其配置为基于预设第二训练样本图像,并按照下式所示的损失函数LossD对所述关键点定位模块进行初始化网络训练:
LossD=-(1-l)*log(1-p)-l*log(p)
其中,所述p为关键点定位模块预测所述预设第二训练样本图像为正样本的概率,所述l为所述预设第二训练样本图像的训练标注,当输入至关键点定位模块的预设第二训练样本图像为正样本时l=1,当输入至关键点定位模块的预设第二训练样本图像为负样本时l=0,所述正样本与负样本分别为包含与未包含人脸的图像。
与最接近的现有技术相比,上述技术方案至少具有以下有益效果:
1、本发明中的多任务深度模型可以对人脸关键点定位和语义分割同时进行深度学习,充分利用二者之间的协同关系,进而增大人脸关键点定位和语义分割的准确性。
2、本发明中的关键点定位模块基于欧氏距离损失函数,能够对人脸关键点进行准确定位。
3、本发明中的第三模型训练模块可以对关键点定位模块进行初始化网络训练,从而提高第一模型训练模块对关键点定位模块进行网络训练时的收敛速度。
4、本发明中的语义分割模块基于解码网络对特征图进行语义分割,并且该解码网络中设置有信息增强单元,可以将编码网络中的浅层信息引入解码网络,降低信息损失。
附图说明
图1是本发明实施例中一种多任务深度模型的主要结构示意图;
图2是本发明实施例中第一增强子单元的主要结构示意图;
图3是本发明实施例中第二增强子单元的主要结构示意图;
图4是本发明实施例中第一种语义分割效果示意图;
图5是本发明实施例中第二种语义分割效果示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本实施例中用于人脸关键点定位与语义分割的多任务检测装置主要包括多任务深度模型,该模型可以配置为采用深度学习算法对目标人脸图像进行语义分割,并获取目标人脸图像中的人脸关键点。
参阅附图1,图1示例性示出了本实施例中多任务深度模型的主要结构。如图1所示,本实施例中多任务深度模型主要包括关键点定位模块、语义分割模块、第一模型训练模块、第二模型训练模块和第三模型训练模块。
本实施例中关键点定位模块可以配置为基于编码网络提取目标人脸图像中的人脸特征,并依据所提取的人脸特征获取人脸关键点的位置信息。语义分割模块可以配置为基于解码网络对特征图进行语义分割,其中,特征图为关键点定位模块输出的包含人脸关键点的位置信息的图像。本实施例中首先可以采用第三模型训练模块对关键点定位模块进行初始化网络训练,以提高关键点定位模块的收敛速度。然后采用第一模型训练模块对经过初始化网络训练后的关键点定位模块进行网络训练,以及第二模型训练模块对语义分割模块进行网络训练。
具体地,本实施例中第三模型训练模块可以配置为基于预设第二训练样本图像,并按照下式(1)所示的损失函数LossD对关键点定位模块进行初始化网络训练:
LossD=-(1-l)*log(1-p)-l*log(p) (1)
公式(1)中各参数含义为:
p为关键点定位模块预测预设第二训练样本图像为正样本的概率,l为预设第二训练样本图像的训练标注,当输入至关键点定位模块的预设第二训练样本图像为正样本时l=1,当输入至关键点定位模块的预设第二训练样本图像为负样本时l=0,所述正样本与负样本分别为包含与未包含人脸的图像。
本实施例中第一模型训练模块可以配置为基于预设第一训练样本图像,并按照下式(2)所示的损失函数lossL对关键点定位模块进行网络训练,其中,预设第一训练样本图像包含人脸关键点与五官语义分割标注信息。
公式(2)中各参数含义为:
N和i分别为预设第一训练样本图像中人脸关键点的总数和序号,为采用关键点定位模块对预设第一训练样本图像检测得到的第i个人脸关键点的位置信息,(ai,bi)为对预设第一训练样本图像中第i个人脸关键点进行归一化处理后的位置信息,其中,该归一化处理后的位置信息如下式(3)所示:
公式(3)中各参数含义为:
(xi,yi)为第i个人脸关键点对应的像素位置信息,ω和h分别为预设第一训练样本图像的宽和高,(x,y)为预设第一训练样本图像的中点位置信息。
本实施例中第一模型训练模块采用上式(2)所示的欧式距离损失函数对人脸关键点进行定位,当人脸关键点的预测值与实际值相差较大时将关键点定位模块中待优化参数权重设置为较大值,当人脸关键点的预测值与实际值相差较小时将关键点定位模块中待优化参数权重设置为较小值。
本实施例中第二模型训练模块可以配置为按照下式(4)所示的损失函数lossS对语义分割模块进行网络训练:
公式(4)中各参数含义为:
为特征图中第j个像素点对应的五官语义分割标注信息; 中的“zj,c”为语义分割模块中输出层的第c个通道所输出的第j个像素点的像素值,为语义分割模块中输出层所输出的第j个像素点的像素累加值,中的zj为语义分割模块中输出层所输出的第j个像素点的最大像素值,n为语义分割模块中输出层所输出的特征图分辨率。
在本实施例的一个优选实施方案中,可以采用均衡采样的方法对不同种类的像素施加不同的权重值,避免不同种类的像素数量差距较大造成的语义分割误差。具体地,首先计算每种像素对应标签的频率freq(c),然后对该标签施加权重αc=median_freq/freq(c),其中,median_freq为所有种类像素对应标签的频率中值。例如,本实施例中可以采用参考资料《Eigen D,Fergus R.Predicting depth,surface normals and semanticlabels with a common multi-scale convolutional architecture[C]//Proceedingsof the IEEE International Conference on Computer Vision.2015:2650-2658.》公开的均衡采样方法。
进一步地,本实施例中图1所示的多任务深度模型基于编解码网络结构,其中,解码网络2中每个解码单元分别与编码网络1中对应的编码单元连接。
本实施例中编码单元包括相连的卷积层11和下采样层12,其中,卷积层11的输入端与下采样层12的输出端分别为该编码单元的输入端与输出端。如图1所示,本实施例中编码网络1包括三个编码单元,其中,位于编码网络1输入侧的前两个编码单元均包括一个卷积层,最后一个编码单元包括三个卷积层。
本实施例中解码单元包括依次连接的上采样层23、信息增强单元与卷积层21,并且信息增强单元还与对应编码单元中卷积层的输出端连接,其中,上采样层23的输入端与卷积层21的输出端分别为该解码单元的输入端与输出端。如图1所示,本实施例中解码网络2包括三个解码单元。具体地,位于解码网络输入侧的首个解码单元包括三个卷积层21、第一增强子单元221与一个上采样层23,其中,第一增强子单元221还与位于编码网络1输入侧的最后一个编码单元中的卷积层11的输出端连接。解码网络中的其他两个解码单元包括一个卷积层21、第二增强子单元222与一个上采样层23,其中,第二增强子单元还与编码单元中卷积层11的输出端连接。
继续参阅附图2和3,图2示例性示出了本实施例中第一增强子单元221的主要结构,图3示例性示出了本实施例中第二增强子单元222的主要结构。
如图2所示,本实施例中第一增强子单元221主要包括两个卷积层2211和一个残差相加子单元2212。具体地,第一增强子单元221的一个输入端直接与残差相加子单元2212的一个输入端连接,第一增强子单元221的另一个输入端通过一个卷积层2211与残差相加子单元2212的另一个输入端连接,第一增强子单元221的输出端通过另一个卷积层2211与残差相加子单元2212的输出端连接。
本实施例中图1所示模型采用第一增强子单元221时,其两路输入数据相似,因此无需对图像进行特征映射。同时,由于网络深层特征具有稀疏性,因此采用残差相加子单元2212能够减小计算量。
如图3所示,本实施例中第二增强子单元222主要包括两个卷积层2221和一个叠加子单元2222。具体地,第二增强子单元222的一个输入端通过一个卷积层2221与叠加子单元2222的一个输入端连接,第二增强子单元222的另一个输入端直接与叠加子单元2222的另一个输入端连接,第二增强子单元222的输出端通过另一个卷积层2221与叠加子单元2222的输出端连接。
本实施例中在第二增强子单元中利用卷积层对特征图像进行映射变换,能够降低多任务深度模型中不同层之间特征的差异性,例如可以采用卷积核为3×3的卷积层。
继续参阅附图4,图4示例性示出了本实施例中多种语义分割的实施效果。如图4所示,第一行三幅图像均为测试样本的原始图像。第二行三幅图为基于不采用信息增强单元的语义分割模块的输出结果。第三行三幅图为基于仅采用第二增强子单元222的语义分割模块的输出结果。第四行三幅图为将图1所示模型中解码网络的第一增强子单元221替换为第二语义增强子单元222后,语义分割模块的输出结果。第五行三幅图为图1所示模型中语义分割模块的输出结果,即语义分割模块对于的解码网络同时采用第一增强子单元221与第二增强子单元222。
通过图4可以得到,在不采用信息增强单元时语义分割模块的分割效果最差,尤其是对眼睛、眉毛和嘴唇等五官信息的丢失最多。当仅采用第二增强子单元222时分割图像的边缘仍存在一定的毛刺。当同时采用第一增强子单元221与第二增强子单元222时语义分割模块的分割效果最好。
本实施例中基于信息增强单元能够在解码网络2中引入对应编码网络1的浅层信息,细化图像分割边缘,弥补由于编码网络1下采样带来的信息损失。
继续参阅附图5,图5示例性示出了本实施例中语义分割模块与常规语义分割方法的实施效果。如图5所示,第一行六幅图像均为测试样本的原始图像。第二行六幅图像为采用图1所示模型得到的分割图像。第二行六幅图像为采用参考资料《Saito S,Li T,LiH.Real-Time Facial Segmentation and Performance Capture from RGB Input[M]//Computer Vision–ECCV 2016.Springer International Publishing,2016:524-534.》公开的方法得到的分割图像。
通过图5可以得到,本发明公开的语义分割模块能够对图像的细节和边缘处理地更好。
本领域技术人员可以理解,上述用于人脸关键点定位与语义分割的多任务检测装置还包括一些其他公知结构,例如处理器、控制器、存储器等,其中,存储器包括但不限于随机存储器、闪存、只读存储器、可编程只读存储器、易失性存储器、非易失性存储器、串行存储器、并行存储器或寄存器等,处理器包括但不限于CPLD/FPGA、DSP、ARM处理器、MIPS处理器等,为了不必要地模糊本公开的实施例,这些公知的结构未在图1中示出。
应该理解,图1中的各个模块的数量仅仅是示意性的。根据实际需要,各模块可以具有任意的数量。
本领域技术人员可以理解,可以对实施例中装置的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个装置中。可以把实施例中的模块或单元组合成一个模块或单元,以及此外可以把它们分成多个子模块或子单元。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在本发明的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的服务器、客户端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,PC程序和PC程序产品)。这样的实现本发明的程序可以存储在PC可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包括”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的PC来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (8)

1.一种用于人脸关键点定位与语义分割的多任务检测装置,其特征在于,所述装置包括多任务深度模型,其配置为采用深度学习算法对目标人脸图像进行语义分割,并获取所述目标人脸图像中的人脸关键点;
所述多任务深度模型包括关键点定位模块和语义分割模块;
所述关键点定位模块,配置为基于编码网络提取所述目标人脸图像中的人脸特征,并依据所提取的人脸特征获取人脸关键点的位置信息;
所述语义分割模块,配置为基于解码网络对特征图进行语义分割;其中,所述特征图为所述关键点定位模块输出的包含人脸关键点的位置信息的图像;所述解码网络中每个解码单元分别与编码网络中对应的编码单元连接。
2.根据权利要求1所述的多任务检测装置,其特征在于,所述装置还包括第一模型训练模块,其配置为基于预设第一训练样本图像,并按照下式所示的损失函数lossL对所述关键点定位模块进行网络训练,其中,所述预设第一训练样本图像包含人脸关键点与五官语义分割标注信息;
其中,所述N和i分别为预设第一训练样本图像中人脸关键点的总数和序号,所述为采用所述关键点定位模块对所述预设第一训练样本图像检测得到的第i个人脸关键点的位置信息,所述(ai,bi)为对所述预设第一训练样本图像中第i个人脸关键点进行归一化处理后的位置信息,
并且所述(xi,yi)为所述第i个人脸关键点对应的像素位置信息,ω和h分别为所述预设第一训练样本图像的宽和高,(x,y)为所述预设第一训练样本图像的中点位置信息。
3.根据权利要求1所述的多任务检测装置,其特征在于,所述装置还包括第二模型训练模块,其配置为按照下式所示的损失函数lossS对所述语义分割模块进行网络训练:
其中,所述为特征图中第j个像素点对应的五官语义分割标注信息;所述所述中的“zj,c”为语义分割模块中输出层的第c个通道所输出的第j个像素点的像素值,所述为语义分割模块中输出层所输出的第j个像素点的像素累加值,所述中的zj为语义分割模块中输出层所输出的第j个像素点的最大像素值,所述n为语义分割模块中输出层所输出的特征图分辨率。
4.根据权利要求1-3任一项所述的多任务检测装置,其特征在于,
所述编码单元包括相连的卷积层和下采样层,其中,所述卷积层的输入端与所述下采样层的输出端分别为该编码单元的输入端与输出端;
所述解码单元包括依次连接的上采样层、信息增强单元与卷积层,并且所述信息增强单元还与对应编码单元中卷积层的输出端连接,其中,所述上采样层的输入端与所述卷积层的输出端分别为该解码单元的输入端与输出端。
5.根据权利要求4所述的多任务检测装置,其特征在于,
所述信息增强单元包括第一增强子单元;
所述第一增强子单元包括两个卷积层和一个残差相加子单元,其中,所述第一增强子单元的一个输入端直接与所述残差相加子单元的一个输入端连接,所述第一增强子单元的另一个输入端通过一个所述卷积层与所述残差相加子单元的另一个输入端连接,所述第一增强子单元的输出端通过另一个所述卷积层与所述残差相加子单元的输出端连接。
6.根据权利要求5所述的多任务检测装置,其特征在于,
所述信息增强单元包括第二增强子单元;
所述第二增强子单元包括两个卷积层和一个叠加子单元,其中,所述第二增强子单元的一个输入端通过一个所述卷积层与所述叠加子单元的一个输入端连接,所述第二增强子单元的另一个输入端直接与所述叠加子单元的另一个输入端连接,所述第二增强子单元的输出端通过另一个所述卷积层与所述叠加子单元的输出端连接。
7.根据权利要求6所述的多任务检测装置,其特征在于,
所述解码网络中首个所述解码单元的信息增强单元为所述第一增强子单元,其他所述解码单元的信息增强单元为所述第二增强子单元。
8.根据权利要求1-3任一项所述的多任务检测装置,其特征在于,所述装置还包括第三模型训练模块,其配置为基于预设第二训练样本图像,并按照下式所示的损失函数LossD对所述关键点定位模块进行初始化网络训练:
LossD=-(1-l)*log(1-p)-l*log(p)
其中,所述p为关键点定位模块预测所述预设第二训练样本图像为正样本的概率,所述l为所述预设第二训练样本图像的训练标注,当输入至关键点定位模块的预设第二训练样本图像为正样本时l=1,当输入至关键点定位模块的预设第二训练样本图像为负样本时l=0,所述正样本与负样本分别为包含与未包含人脸的图像。
CN201711310450.0A 2017-12-11 2017-12-11 用于人脸关键点定位与语义分割的多任务检测装置 Active CN108304765B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711310450.0A CN108304765B (zh) 2017-12-11 2017-12-11 用于人脸关键点定位与语义分割的多任务检测装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711310450.0A CN108304765B (zh) 2017-12-11 2017-12-11 用于人脸关键点定位与语义分割的多任务检测装置

Publications (2)

Publication Number Publication Date
CN108304765A true CN108304765A (zh) 2018-07-20
CN108304765B CN108304765B (zh) 2020-08-11

Family

ID=62869845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711310450.0A Active CN108304765B (zh) 2017-12-11 2017-12-11 用于人脸关键点定位与语义分割的多任务检测装置

Country Status (1)

Country Link
CN (1) CN108304765B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985250A (zh) * 2018-07-27 2018-12-11 大连理工大学 一种基于多任务网络的交通场景解析方法
CN109614878A (zh) * 2018-11-15 2019-04-12 新华三技术有限公司 一种模型训练、信息预测方法及装置
CN109712144A (zh) * 2018-10-29 2019-05-03 百度在线网络技术(北京)有限公司 面部图像的处理方法、训练方法、设备和存储介质
CN109816670A (zh) * 2019-01-31 2019-05-28 北京字节跳动网络技术有限公司 用于生成图像分割模型的方法和装置
CN109829432A (zh) * 2019-01-31 2019-05-31 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109829520A (zh) * 2019-01-31 2019-05-31 北京字节跳动网络技术有限公司 图像处理方法和装置
CN109902641A (zh) * 2019-03-06 2019-06-18 中国科学院自动化研究所 基于语义对齐的人脸关键点检测方法、系统、装置
CN109948441A (zh) * 2019-02-14 2019-06-28 北京奇艺世纪科技有限公司 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质
CN110020658A (zh) * 2019-03-28 2019-07-16 大连理工大学 一种基于多任务深度学习的显著目标检测方法
CN110147776A (zh) * 2019-05-24 2019-08-20 北京百度网讯科技有限公司 确定人脸关键点位置的方法和装置
CN110189340A (zh) * 2019-06-03 2019-08-30 北京达佳互联信息技术有限公司 图像分割方法、装置、电子设备及存储介质
CN110363134A (zh) * 2019-07-10 2019-10-22 电子科技大学 一种基于语义分割的人脸遮挡区定位方法
CN110443813A (zh) * 2019-07-29 2019-11-12 腾讯医疗健康(深圳)有限公司 血管、眼底图像的分割方法、装置、设备及可读存储介质
CN110675421A (zh) * 2019-08-30 2020-01-10 电子科技大学 基于少量标注框的深度图像协同分割方法
WO2020098686A1 (zh) * 2018-11-16 2020-05-22 广州市百果园信息技术有限公司 人脸检测模型的训练方法、人脸关键点的检测方法和装置
CN111612807A (zh) * 2020-05-15 2020-09-01 北京工业大学 一种基于尺度和边缘信息的小目标图像分割方法
CN111612699A (zh) * 2019-02-22 2020-09-01 北京京东尚科信息技术有限公司 图像处理方法、装置和计算机可读存储介质
CN111695519A (zh) * 2020-06-12 2020-09-22 北京百度网讯科技有限公司 关键点定位方法、装置、设备以及存储介质
CN111881743A (zh) * 2020-06-23 2020-11-03 安徽清新互联信息科技有限公司 一种基于语义分割的人脸特征点定位方法
CN112069992A (zh) * 2020-09-04 2020-12-11 西安西图之光智能科技有限公司 一种基于多监督稠密对齐的人脸检测方法、系统及存储介质
CN112101205A (zh) * 2020-09-15 2020-12-18 东软睿驰汽车技术(沈阳)有限公司 基于多任务网络的训练方法和装置
CN112115860A (zh) * 2020-09-18 2020-12-22 深圳市威富视界有限公司 人脸关键点定位方法、装置、计算机设备和存储介质
CN112597944A (zh) * 2020-12-29 2021-04-02 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质
CN112749609A (zh) * 2020-07-23 2021-05-04 腾讯科技(深圳)有限公司 人体图像分割方法、装置、计算机设备及存储介质
CN113052369A (zh) * 2021-03-15 2021-06-29 北京农业智能装备技术研究中心 智能农机作业管理方法及系统
CN113516592A (zh) * 2020-04-10 2021-10-19 阿里巴巴集团控股有限公司 图像处理方法、模型训练方法、装置及设备
CN115345931A (zh) * 2021-12-15 2022-11-15 禾多科技(北京)有限公司 物体姿态关键点信息生成方法、装置、电子设备和介质
CN113052369B (zh) * 2021-03-15 2024-05-10 北京农业智能装备技术研究中心 智能农机作业管理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022264A (zh) * 2016-05-19 2016-10-12 中国科学院自动化研究所 基于多任务自编码器的交互式人脸活体检测方法和装置
CN106372577A (zh) * 2016-08-23 2017-02-01 北京航空航天大学 一种基于深度学习的交通标志自动识别与标注方法
CN106408562A (zh) * 2016-09-22 2017-02-15 华南理工大学 基于深度学习的眼底图像视网膜血管分割方法及系统
CN106845421A (zh) * 2017-01-22 2017-06-13 北京飞搜科技有限公司 基于多区域特征与度量学习的人脸特征识别方法及系统
CN107316307A (zh) * 2017-06-27 2017-11-03 北京工业大学 一种基于深度卷积神经网络的中医舌图像自动分割方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022264A (zh) * 2016-05-19 2016-10-12 中国科学院自动化研究所 基于多任务自编码器的交互式人脸活体检测方法和装置
CN106372577A (zh) * 2016-08-23 2017-02-01 北京航空航天大学 一种基于深度学习的交通标志自动识别与标注方法
CN106408562A (zh) * 2016-09-22 2017-02-15 华南理工大学 基于深度学习的眼底图像视网膜血管分割方法及系统
CN106845421A (zh) * 2017-01-22 2017-06-13 北京飞搜科技有限公司 基于多区域特征与度量学习的人脸特征识别方法及系统
CN107316307A (zh) * 2017-06-27 2017-11-03 北京工业大学 一种基于深度卷积神经网络的中医舌图像自动分割方法

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985250A (zh) * 2018-07-27 2018-12-11 大连理工大学 一种基于多任务网络的交通场景解析方法
CN109712144A (zh) * 2018-10-29 2019-05-03 百度在线网络技术(北京)有限公司 面部图像的处理方法、训练方法、设备和存储介质
CN109614878A (zh) * 2018-11-15 2019-04-12 新华三技术有限公司 一种模型训练、信息预测方法及装置
CN109614878B (zh) * 2018-11-15 2020-11-27 新华三技术有限公司 一种模型训练、信息预测方法及装置
US11922707B2 (en) 2018-11-16 2024-03-05 Bigo Technology Pte. Ltd. Method and apparatus for training face detection model, and apparatus for detecting face key point
WO2020098686A1 (zh) * 2018-11-16 2020-05-22 广州市百果园信息技术有限公司 人脸检测模型的训练方法、人脸关键点的检测方法和装置
CN109816670A (zh) * 2019-01-31 2019-05-28 北京字节跳动网络技术有限公司 用于生成图像分割模型的方法和装置
CN109829432A (zh) * 2019-01-31 2019-05-31 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109829520A (zh) * 2019-01-31 2019-05-31 北京字节跳动网络技术有限公司 图像处理方法和装置
CN109829520B (zh) * 2019-01-31 2021-12-21 北京字节跳动网络技术有限公司 图像处理方法和装置
CN109948441A (zh) * 2019-02-14 2019-06-28 北京奇艺世纪科技有限公司 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质
CN111612699B (zh) * 2019-02-22 2024-05-17 北京京东尚科信息技术有限公司 图像处理方法、装置和计算机可读存储介质
CN111612699A (zh) * 2019-02-22 2020-09-01 北京京东尚科信息技术有限公司 图像处理方法、装置和计算机可读存储介质
CN109902641A (zh) * 2019-03-06 2019-06-18 中国科学院自动化研究所 基于语义对齐的人脸关键点检测方法、系统、装置
CN110020658A (zh) * 2019-03-28 2019-07-16 大连理工大学 一种基于多任务深度学习的显著目标检测方法
CN110147776A (zh) * 2019-05-24 2019-08-20 北京百度网讯科技有限公司 确定人脸关键点位置的方法和装置
CN110189340A (zh) * 2019-06-03 2019-08-30 北京达佳互联信息技术有限公司 图像分割方法、装置、电子设备及存储介质
CN110189340B (zh) * 2019-06-03 2022-01-21 北京达佳互联信息技术有限公司 图像分割方法、装置、电子设备及存储介质
US11288807B2 (en) 2019-06-03 2022-03-29 Beijing Dajia Internet Information Technology Co., Ltd. Method, electronic device and storage medium for segmenting image
CN110363134B (zh) * 2019-07-10 2021-06-08 电子科技大学 一种基于语义分割的人脸遮挡区定位方法
CN110363134A (zh) * 2019-07-10 2019-10-22 电子科技大学 一种基于语义分割的人脸遮挡区定位方法
CN110443813A (zh) * 2019-07-29 2019-11-12 腾讯医疗健康(深圳)有限公司 血管、眼底图像的分割方法、装置、设备及可读存储介质
CN110443813B (zh) * 2019-07-29 2024-02-27 腾讯医疗健康(深圳)有限公司 血管、眼底图像的分割方法、装置、设备及可读存储介质
CN110675421B (zh) * 2019-08-30 2022-03-15 电子科技大学 基于少量标注框的深度图像协同分割方法
CN110675421A (zh) * 2019-08-30 2020-01-10 电子科技大学 基于少量标注框的深度图像协同分割方法
CN113516592A (zh) * 2020-04-10 2021-10-19 阿里巴巴集团控股有限公司 图像处理方法、模型训练方法、装置及设备
CN111612807A (zh) * 2020-05-15 2020-09-01 北京工业大学 一种基于尺度和边缘信息的小目标图像分割方法
CN111695519A (zh) * 2020-06-12 2020-09-22 北京百度网讯科技有限公司 关键点定位方法、装置、设备以及存储介质
CN111695519B (zh) * 2020-06-12 2023-08-08 北京百度网讯科技有限公司 关键点定位方法、装置、设备以及存储介质
CN111881743A (zh) * 2020-06-23 2020-11-03 安徽清新互联信息科技有限公司 一种基于语义分割的人脸特征点定位方法
CN112749609A (zh) * 2020-07-23 2021-05-04 腾讯科技(深圳)有限公司 人体图像分割方法、装置、计算机设备及存储介质
CN112749609B (zh) * 2020-07-23 2024-03-19 腾讯科技(深圳)有限公司 人体图像分割方法、装置、计算机设备及存储介质
CN112069992A (zh) * 2020-09-04 2020-12-11 西安西图之光智能科技有限公司 一种基于多监督稠密对齐的人脸检测方法、系统及存储介质
CN112101205A (zh) * 2020-09-15 2020-12-18 东软睿驰汽车技术(沈阳)有限公司 基于多任务网络的训练方法和装置
CN112115860A (zh) * 2020-09-18 2020-12-22 深圳市威富视界有限公司 人脸关键点定位方法、装置、计算机设备和存储介质
CN112597944A (zh) * 2020-12-29 2021-04-02 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质
CN113052369A (zh) * 2021-03-15 2021-06-29 北京农业智能装备技术研究中心 智能农机作业管理方法及系统
CN113052369B (zh) * 2021-03-15 2024-05-10 北京农业智能装备技术研究中心 智能农机作业管理方法及系统
CN115345931A (zh) * 2021-12-15 2022-11-15 禾多科技(北京)有限公司 物体姿态关键点信息生成方法、装置、电子设备和介质

Also Published As

Publication number Publication date
CN108304765B (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN108304765A (zh) 用于人脸关键点定位与语义分割的多任务检测装置
Li et al. Instance-level salient object segmentation
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN107564025B (zh) 一种基于深度神经网络的电力设备红外图像语义分割方法
CN108629306B (zh) 人体姿态识别方法及装置、电子设备、存储介质
CN110210513B (zh) 数据分类方法、装置及终端设备
CN110765882B (zh) 一种视频标签确定方法、装置、服务器及存储介质
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN110309811A (zh) 一种基于胶囊网络的高光谱图像分类方法
CN110222717A (zh) 图像处理方法和装置
CN110349082A (zh) 图像区域的裁剪方法和装置、存储介质及电子装置
CN109558892A (zh) 一种基于神经网络的目标识别方法及系统
CN111695463B (zh) 人脸面部杂质检测模型的训练方法、人脸面部杂质检测方法
CN113841161A (zh) 用于自动生成内容分发图像的可扩展体系架构
CN110414335A (zh) 视频识别方法、装置及计算机可读存储介质
CN110321892A (zh) 一种图片筛选方法、装置及电子设备
CN109409210A (zh) 一种基于ssd框架的人脸检测方法及系统
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN108566537A (zh) 用于对视频帧进行神经网络运算的图像处理装置
CN116503399A (zh) 基于yolo-afps的绝缘子污闪检测方法
Liu et al. Attentive semantic and perceptual faces completion using self-attention generative adversarial networks
CN112712068B (zh) 一种关键点检测方法、装置、电子设备及存储介质
CN107066980A (zh) 一种图像变形检测方法及装置
CN110909578A (zh) 一种低分辨率图像识别方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant