CN111274994A - 漫画人脸检测方法、装置、电子设备及计算机可读介质 - Google Patents

漫画人脸检测方法、装置、电子设备及计算机可读介质 Download PDF

Info

Publication number
CN111274994A
CN111274994A CN202010091173.4A CN202010091173A CN111274994A CN 111274994 A CN111274994 A CN 111274994A CN 202010091173 A CN202010091173 A CN 202010091173A CN 111274994 A CN111274994 A CN 111274994A
Authority
CN
China
Prior art keywords
image
face
feature
level
image features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010091173.4A
Other languages
English (en)
Other versions
CN111274994B (zh
Inventor
武文琦
叶泽雄
肖万鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010091173.4A priority Critical patent/CN111274994B/zh
Publication of CN111274994A publication Critical patent/CN111274994A/zh
Application granted granted Critical
Publication of CN111274994B publication Critical patent/CN111274994B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请实施例提供了一种漫画人脸检测方法、装置、电子设备及计算机可读介质,涉及计算机技术领域。该方法包括:获取包含漫画人脸区域的待识别图像;将待识别图像输入到漫画人脸检测模型的依次级联的各卷积处理层,得到各卷积处理层所提取的各层级的图像特征;对各卷积处理层所提取的各层级的图像特征进行特征融合,得到各层级的融合图像特征;基于各层级的融合图像特征,对待识别图像中的漫画人脸区域进行定位。本申请所提供的技术方案,通过对漫画人脸检测模型的各卷积处理层所提取的各层级的图像特征进行特征融合处理,使图像特征的表达能力更强,基于融合图像特征进行漫画人脸区域定位,提高了漫画人脸的检测精度。

Description

漫画人脸检测方法、装置、电子设备及计算机可读介质
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种漫画人脸检测方法、装置、电子设备及计算机可读介质。
背景技术
人脸识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部识别,通常也叫做人像识别、面部识别。
漫画人脸作为常规人脸的拓展,检测的难度明显增加,并且在现有技术中没有可参考的方法。不管是在学术界还是工业界,针对漫画人脸的研究都处于空缺状态,由于漫画人脸具有纹理弱化和五官夸张两大主要特点,因此采样普通的人脸检测器是不具备可行性的。而随着漫画的大量出现,对漫画版权保护上的需求或对特殊漫画人物的识别需求日益增长,那么如何能从漫画中准确的检测到漫画人脸已经逐步成为了漫画领域的主要需求。
发明内容
本申请实施例提供了一种漫画人脸检测方法、装置、电子设备及计算机可读介质,可以解决现有技术中存在的问题。
本申请实施例提供的具体技术方案如下:
第一方面,本申请实施例提供了一种漫画人脸检测方法,该方法包括:
获取包含漫画人脸区域的待识别图像;
将待识别图像输入到漫画人脸检测模型的依次级联的各卷积处理层,得到各卷积处理层所提取的各层级的图像特征;
对各卷积处理层所提取的各层级的图像特征进行特征融合,得到各层级的融合图像特征;
基于各层级的融合图像特征,对待识别图像中的漫画人脸区域进行定位。
第二方面,本申请实施例提供了一种漫画人脸检测装置,该装置包括:
图像获取模块,用于获取包含漫画人脸区域的待识别图像;
特征获取模块,用于将待识别图像输入到漫画人脸检测模型的依次级联的各卷积处理层,得到各卷积处理层所提取的各层级的图像特征;
特征融合模块,用于对各卷积处理层所提取的各层级的图像特征进行特征融合,得到各层级的融合图像特征;
图像定位模块,用于基于各层级的融合图像特征,对待识别图像中的漫画人脸区域进行定位。
第三方面,本申请实施例还提供了一种电子设备,该电子设备包括一个或多个处理器;存储器;一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序被配置用于执行如本申请的第一方面所示的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质用于存储计算机程序,当计算机程序在处理器上运行时,使得处理器可以执行如本申请的第一方面所示的方法。
本申请提供的技术方案带来的有益效果是:
本申请提供了一种漫画人脸检测方法、装置、电子设备及计算机可读介质,获取包含漫画人脸区域的待识别图像;将待识别图像输入到漫画人脸检测模型的依次级联的各卷积处理层,得到各卷积处理层所提取的各层级的图像特征;对各卷积处理层所提取的各层级的图像特征进行特征融合,得到各层级的融合图像特征;基于各层级的融合图像特征,对待识别图像中的漫画人脸区域进行定位。本申请所提供的技术方案,通过对漫画人脸检测模型的各卷积处理层所提取的各层级的图像特征进行特征融合处理,使图像特征的表达能力更强,基于融合图像特征进行漫画人脸区域定位,提高了漫画人脸的检测精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的漫画人脸检测模型的训练方法的流程图;
图2为本申请实施例提供的通过素描算法处理后的图像的效果图;
图3a-3b为本申请实施例提供的通过哈哈镜算法处理后的图像的效果图;
图4a-4b为将图3a-3b选择一部分人脸图像进行放大显示的效果图;
图5为本申请实施例提供的漫画人脸检测模型的训练过程的示意图;
图6为本申请实施例提供的金字塔特征提取模块的处理过程的示意图;
图7为本申请实施例提供的特征增强模块的处理过程的示意图;
图8为本申请实施例提供的漫画人脸检测方法对IIIT-CFW数据集的检测效果图;
图9为本申请实施例提供的漫画人脸检测方法对WebCaricature数据集的检测效果图;
图10为本申请实施例提供的漫画人脸检测装置的结构示意图;
图11为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请技术方案的执行主体为计算机设备,包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。计算机设备包括用户设备与网络设备。其中,用户设备包括但不限于电脑、智能手机、PAD等;网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,计算机设备可单独运行来实现本申请,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中,计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供了一种漫画人脸检测方法,本方法即可应用于服务器,也可以应用在终端,本实施例以该方法应用在终端来举例说明,如图1所示,该方法包括:
步骤S101,获取包含漫画人脸区域的待识别图像;
其中,待识别图像具体可以为包含漫画人脸区域的漫画图像,这些漫画图像具有纹理弱化和五官比例夸张等特点,现有技术中的人脸识别方法无法将这些漫画图像中的漫画人脸准确定位出来。
具体地,终端中存储有包含漫画人脸区域的图像,当接收到包含漫画人脸区域的图像的选择指令时,终端以选择指令所对应的包含漫画人脸区域的图像作为待识别图像。漫画人脸区域为显示漫画人物脸部的图像区域。
步骤S102,将待识别图像输入到漫画人脸检测模型的依次级联的各卷积处理层,得到各卷积处理层所提取的各层级的图像特征;
其中,漫画人脸检测模型可以通过卷积神经网络(Convolution NeutralNetwork,CNN)来实现。卷积神经网络可以包含多个级联的卷积处理层,除第一个卷积处理层之外,其他各卷积处理层的输入为该卷积处理层的前一个卷积处理层的输出,基于各卷积处理层的输出得到多个层级的图像特征。对于所得到的多个层级的图像特征,可以全部或者部分应用于后续处理,例如,由于较低层级的图像特征的数据量较大且包含的语义信息较少,表达能力较弱,因此,可以采用多个层级中层级较高的几个图像特征。
具体地,终端将待识别图像输入到漫画人脸检测模型的第一级卷积处理层,通过第一级卷积处理层得到第一级卷积处理层对应的图像特征,将第一级卷积处理层对应的图像特征输入到与第一级卷积处理层级联的第二级卷积处理层,通过第二级卷积处理层得到第二级卷积处理层对应的图像特征,直至得到漫画人脸检测模型中最后一级卷积处理层对应的图像特征。
步骤S103,对各卷积处理层所提取的各层级的图像特征进行特征融合,得到各层级的融合图像特征;
具体的,假设步骤S102中所得到的多个层级的图像特征包括三个层级的图像特征,分别记为第一层级的图像特征、第二层级的图像特征和第三层级的图像特征,其中,第二层级的图像特征是基于第一层级的图像特征进一步提取得到的,第三层级的图像特征是基于第二层级的图像特征提取得到的,则在这三个层级中的第三层级是最高层级,各层级的融合图像特征是融合了各自层级的图像特征和除了各自层级之外的其他层级的融合图像特征得到的。
终端将各卷积处理层分别对应的图像特征进行融合,得到各层级的融合图像特征,各层级的融合图像特征由于融合了其他层级的图像特征包含的语义信息更加丰富。
对于对各层级的图像特征进行融合的具体方式,见如下实施例。
在一种可能的实现方式中,对各卷积处理层所提取的各层级的图像特征进行特征融合,得到各层级的融合图像特征,包括:
将最高层级的图像特征作为最高层级的融合图像特征;
对于除最高层级之外的每一层级,将该层级的图像特征和该层级的下一层级的图像特征所对应的融合图像特征进行融合,得到该层级的融合图像特征。
在实际应用中,终端在得到多个层级的图像特征之后(可以是层级较高的几个初始特征图),将各层级对应的图像特征输入金字塔特征提取模块,金字塔特征提取模块可以通过卡通金字塔网络(Cartoon pyramid network,CPN)来实现,对于最高层级来说,将最高层级的图像特征作为最高层级的融合图像特征,对于除最高层级之外的其他层级的图像特征,对应的融合图像特征是通过融合当前层级的图像特征和下一层级的图像特征所对应的融合图像特征得到的,经过上述融合过程之后,得到每个层级对应的融合图像特征。
也就是说,最高层级的图像特征所对应的融合图像特征即为该图像特征本身,其他各层级的图像特征所对应的融合图像特征,是通过该层级的图像特征和该层级的下一层级的图像特征所对应的融合图像特征得到的,例如,假设采用的图像特征包括两个层级的图像特征,记为第一个层级的图像特征和第二个层级的图像特征,则第二个层级为最高层级,第二个层级的图像特征是通过对第一个层级的图像特征进行进一步的特征提取得到的,则第二个层级的图像特征所对应的融合图像特征即为该层级的图像特征,第一个层级的图像特征所对应的融合图像特征则是通过融合该层级的图像特征和第二个层级的图像特征所对应的融合图像特征(也就是第二个层级的图像特征)得到的。步骤S104,基于各层级的融合图像特征,对待识别图像中的漫画人脸区域进行定位。
具体的,终端基于漫画人脸检测模型的各卷积处理层所对应的融合图像特征,对待识别图像进行识别,定位出待识别图像中的漫画人脸区域。
通过对漫画人脸检测模型的各卷积处理层所提取的各层级的图像特征进行特征融合处理,使图像特征的表达能力更强,基于融合图像特征进行漫画人脸区域定位,提高了漫画人脸的检测精度。
基于融合图像特征对待识别图像中的漫画人脸区域进行定位的具体方式,见如下实施例。
在一种可能的实现方式中,基于各层级的融合图像特征,对待识别图像中的漫画人脸区域进行定位,包括:
对各层级的融合图像特征分别进行纹理增强处理,得到各层级各自所对应的纹理增强的图像特征;
基于各层级的纹理增强的图像特征,对待识别图像中的漫画人脸区域进行定位。
在实际应用中,由于待识别图像为包含漫画人脸区域的漫画图像,这些漫画图像具有纹理弱化的特性,为了便于进行漫画人脸区域定位,终端可以进一步将各层级的融合图像特征进行纹理增强处理,得到各层级的纹理增强的图像特征,然后基于纹理增强的图像特征进行漫画人脸区域定位,能够提高漫画人脸检测的准确性。
作为一可选实施例,可以通过以下方式对融合图像特征进行纹理增强处理。
在一种可能的实现方式中,对于一个层级的融合图像特征进行纹理增强处理,得到该层级所对应的纹理增强的图像特征,包括:
基于一个层级的融合图像特征,提取得到对应于至少两种感受野的特征图;
将至少两种感受野的特征图进行拼接,得到该层级所对应的纹理增强的图像特征。
在实际应用中,对于每一个层级对应的融合图像特征,终端按照不同的感受野提取得到对应于至少两种感受野的特征图,由于感受野不同,则得到的特征图的尺寸也不同,在进行特征拼接之前,需要将各特征图处理成相同尺寸,之后按照通道数的维度将融合图像特征对应的所有感受野的特征图进行拼接处理,得到每个融合图像特征对应的纹理增强的图像特征。本申请实施例中,通过多感受野特征的拼接,使得到的纹理增强的图像特征的语义信息更多,特征图的表达能力更强。
在一种可能的实现方式中,对于一个层级的融合图像特征,提取得到对应于至少两种感受野的特征图,包括:
对该层级的融合图像特征进行特征提取,得到两种第一图像特征;
对两种第一图像特征中的一种第一图像特征再次进行特征提取,得到至少一种第二图像特征,至少两种感受野的特征图包括两种第一图像特征中的另一种第一特征图与再次提取得到的至少一种第二特征图。
在实际应用中,对于一个层级的融合图像特征,一种感受野的特征图为,该卷积处理层所对应的融合图像特征,经过一个卷积处理层进行特征提取,得到的两种第一图像特征中的一种;另外至少一种感受野的特征图为,将其中另一种第一图像特征再次经过一个卷积处理层进行特征提取,得到的至少一种第二图像特征。也就是说,至少两种感受野的特征图为:将融合图像特征经过一个卷积处理层提取得到的一个特征图,以及在此基础上,再经过一个卷积处理层提取得到的至少一个特征图,后续将这些特征图进行拼接,得到纹理增强的图像特征。
具体的,对于一个层级的融合图像特征,终端可以通过两个并联的卷积处理层分别进行特征提取,得到两个图像特征,其中一个图像特征为一种感受野的特征图,对于两个图像特征中的一个再次进行特征提取,得到至少一种感受野的特征图,从而实现了由一个层级的融合图像特征得到至少两种感受野的特征图。
在一种可能的实现方式中,对两种第一图像特征中的一种图像特征再次进行特征提取,得到至少一种第二图像特征,包括:
对一种第一图像特征进行特征提取,得到两种第三图像特征;
对提取的两种第三图像特征中的一种图像特征再次进行特征提取,得到第四图像特征,再次进行特征提取得到的至少一种第二图像特征包括两种第三图像特征中的另一种图像特征以及第四图像特征。
在实际应用中,终端通过第一图像特征中的一种图像特征得到至少一种第二图像特征,具体处理方式为,对一种第一图像特征经过一个卷积处理层进行特征提取得到两种第三图像特征,将第三图像特征中的一种再次经过一个卷积处理层进行特征提取得到第四图像特征,也就是说,由一种第一图像特征得到的至少一种第二图像特征包括一种第三图像特征和第四图像特征。
具体的,对于一种第一图像特征,终端可以通过两个并联的卷积处理层分别进行特征提取,得到两个第三图像特征,第二图像特征包括其中一个第三图像,对于两个第三图像特征中的另一个再次通过一个卷积处理层进行特征提取,得到第四图像特征,第二图像特征还包括第四图像特征。
本实施例中,每次卷积处理都是一次非线性化过程,通过多次卷积处理,能够使得到的图像特征表达能力更强。
在一种可能的实现方式中,漫画人脸检测模型是通过以下方式训练的:获取训练样本,训练样本包括各样本漫画人脸图像,样本漫画人脸图像标注有标签,标签包括漫画人脸的第一位置标签、以及除漫画人脸之外的至少一个其他身体部位的第二位置标签;
基于训练样本对初始目标检测模型进行训练,直至初始目标检测模型的模型损失函数收敛,将模型损失函数收敛时的初始目标检测模型作为漫画人脸检测模型;
其中,初始目标检测模型的输入为样本漫画人脸图像,输出为样本漫画人脸图像的检测结果,检测结果包括漫画人脸的第一预测位置信息,以及各其他身体部位的第二预测位置信息,其中,模型损失函数包括分别对应于样本漫画人脸图像中各身体部位的部位损失函数,各身体部位包括漫画人脸和各其他身体部位,部位损失函数包括定位损失函数。
在实际应用中,在进行漫画人脸检测模型训练之前,首先获取训练样本,区别于现有技术中仅对漫画人脸图像中的漫画人脸进行位置标注,本申请技术方案在进行样本标注时,除了对漫画人脸图像中的漫画人脸位置进行标注之外,还对除了漫画人脸之外的其他身体部位进行标注,使得样本标签不仅包括漫画人脸的第一位置标签,还包括除漫画人脸之外的其他身体部位的第二位置标签。
对于获取训练样本的具体方式,见如下实施例。
在一种可能的实现方式中,获取训练样本的方式包括:
获取各初始样本人脸图像,其中,初始样本人脸图像包括非漫画人脸图像;
通过预设图像处理算法对各非漫画人脸图像进行处理,得到处理后的各图像;
获取处理后的各图像中人脸的位置信息、以及其他身体部位的位置信息;
基于人脸的位置信息和其他身体部位的位置信息对处理后的各图像进行标注,得到各样本漫画人脸图像。
在实际应用中,初始样本人脸图像也可以包括漫画人脸图像,如现有漫画人脸识别数据集中的漫画人脸图像,由于基于深度学习的网络结构参数量很大,因此需要大量的漫画人脸数据来对模型进行训练,但是现有漫画人脸识别数据集中的数据量明显不足,不足以支撑起漫画人脸检测模型的训练任务。因此,本申请实施例中,将非漫画人脸图像(也就是普通人脸的图像)通过预设的图像处理算法处理成漫画人脸图像,并对得到的漫画人脸图像进行人脸位置信息、以及其他身体部位的位置信息进行标注,从而得到样本漫画人脸图像。本申请实施例中的训练样本获取方式,能够弥补现有的漫画人脸识别数据集中的数据量不足的问题,为漫画人脸检测模型的训练提供充足的训练样本。
其中,预设图像处理算法包括以下至少一项:
素描算法、哈哈镜算法。
在实际应用中,针对漫画人脸的两个关键特性,即纹理弱化和五官比例夸张,可以利用上述能够产生相应效果的图像处理算法对常规的人脸图像进行处理,得到具有漫画人脸特性的人脸图像,作为样本漫画人脸图像。其中,常规的人脸图像即上述包含非漫画人脸的人脸图像的来源本申请实施例不做限定,如可以是常规人脸检测基准数据集Wider(WebImage Dataset for Event Recognition,用于事件识别的网络图像数据集)face数据集中的人脸图像,通过图像处理算法对该数据集中的数据进行处理,得到可以模拟漫画人脸关键特性的人脸图像,将这些处理后的人脸图像进行相应标注后作为样本漫画人脸图像。
以Widerface数据为例,针对纹理弱化的特点,可以采用素描算法生成素描化的Widerface数据,作为一个示例,对于Widerface数据集中的常规人脸图像,通过素描算法处理后的图像如图2所示,从图2中可以看出,通过素描算法处理实现了对图像的纹理弱化,采用纹理弱化之后的图像作为训练样本,有助于神经网络模型对纹理弱化之后的图像的特征学习。
针对五官比例夸张特点,可以通过哈哈镜算法对Widerface数据集中的图像进行处理,哈哈镜算法的特效处理方式可以包括但不限于:纵向拉长、纵向中轴外凸、纵向中轴内凹、中心点圆形内凹、中心点圆形外凸、横向拉长、横向中轴外凸、横纵向中轴内凹等。作为一些示例,通过哈哈镜算法中的中心点圆形内凹的特效处理方式处理后的图像如图3a所示;通过哈哈镜算法中的中心点圆形外凸的特效处理方式处理后的图像如图3b所示;在图3a中选择一部分人脸图像进行放大显示,如图4a所示;在图3b中选择一部分人脸图像进行放大显示,如图4b所示。从图3a、图3b、图4a、图4b中可以看出,处理后的图像的五官比例比较夸张,符合漫画人脸的特性,因此,采用五官比例夸张处理之后的图像作为训练样本,有助于神经网络模型对五官比例夸张的图像的特征学习。
需要说明的是,在实际应用中,上述素描算法和哈哈镜算法可以单独使用,也可以组合使用。此外,除了本申请实施例所示出的这两种算法之外,还可以采用其他具有类似效果或作用的图像处理算法。
通过预设图像处理算法对非漫画人脸图像进行处理之后,得到处理后的漫画人脸图像,当对漫画人脸图像进行标注时,需要确定图像中的漫画人脸位置,以及其他身体部位的位置,具体见如下实施例。
在一种可能的实现方式中,获取处理后的各图像中人脸的位置信息、以及其他身体部位的位置信息,包括:
获取人脸位置信息;
基于人脸位置信息、以及人脸位置与其他身体部位的位置的位置关系,确定其他身体部位的位置信息。
在实际应用中,可以通过人工标注的方式标注样本人脸图像中漫画人脸的位置信息,漫画人脸的位置信息一般可以包括标注框的四个顶点的位置坐标,或者漫画人脸的中心位置坐标,在进行标注时,可以框选出图像中的漫画人脸的位置,基于标注框的位置确定出中心位置坐标。预设人脸位置信息和其他身体部位的位置信息的关联关系,可以包括位置关联信息、比例关系等。其中,位置关联信息可以为图像中人脸的位置和其他身体部位的位置的偏差;比例关系可以为图像中的人脸的尺寸和其他身体部位的尺寸的比例关系。根据人脸的位置信息,以及人脸位置信息和其他身体部位的位置的关联关系,能够得到其他身体部位的位置信息。本申请实施例中,基于人脸的位置信息,能够确定出其他身体部位的位置信息,使得其他身体部位的位置不需要进行人工标注,提高了标注的效率。
需要说明的是,在实际应用中,如果训练样本中的样本漫画人脸图像包括已带有人脸位置标注的漫画人脸图像,如现有漫画人脸识别数据集中的图像,则该样本漫画人脸图像的漫画人脸位置信息可以直接采用已有的漫画人脸位置即可。
其中,对于样本漫画人脸图像的标注信息,也就是位置标签,漫画人脸的标注位置一般可以包括漫画人脸中心点的位置坐标(当然也可以是漫画人脸所占区域的左上角顶点、右上角顶点、左下角顶点或者右下角顶点的位置坐标),以及漫画人脸在漫画人脸图像中的区域大小,因此,位置标签通常可以为一标注位置,通过该标注位置可以得到图像中漫画人脸在图像中的中心点位置和所占区域的大小(也就是人脸区域的长和宽);同样,对其他身体部位进行标注时,标注位置一般也可以包括身体部位在图像中所占区域的中心点的位置坐标,也可以是所占区域的大小。也就是说,上述位置标签具体可以是各身体部位的位置标注框(通常为身体部位在图像中所占区域的最小外接矩形框)。
可以理解的是,如果标注位置为图像待标注部位的中心点位置,相应的预测位置为检测框的中心点位置;如果标注位置为覆盖图像待标注部位的标注框的一个顶点的坐标位置,相应的预测位置为检测框的对应顶点的坐标位置。
在得到标注后的各样本漫画人脸图像之后,即可利用标注了漫画人脸位置以及其他身体部位位置的训练样本图像对初始目标检测模型进行训练,当模型损失函数收敛时,得到训练完成的漫画人脸检测模型。
在实际应用中,初始目标检测模型具体采用哪种目标检测模型或者是基于哪种目标检测模型的网络结构实现的检测模型,本申请实施例不做限定,如可以采用多尺度的目标检测模型,作为一可选方式,目标检测模型的骨干网络可以采用基于VGG(VisualGeometry Group,视觉几何组)结构(如VGG16)的网络结构进行多尺度的图像特征提取,而深度特征的进一步提取可以采用金字塔特征提取结构,由金字体提取结构基于骨干网络所输出的多尺度的图像特征得到对应的金字塔结构的深层特征(也就是融合图像特征)。
需要说明的是,在实际应用中,对于不同的初始目标检测模型,模型损失函数的损失函数也可以不同,对于模型损失函数的具体函数形式本申请实施例不做限定,模型损失函数的具体形式可以选用现有常用的目标检测模型的损失函数,具体的,初始目标检测模型选用多尺度目标检测模型时(即基于多尺度的特征图进行目标检测),则可以采用多尺度目标检测模型常用的损失函数,例如,对于模型损失函数中的定位损失函数,本申请实施例中包括对应于各身体部分的定位损失函数,以漫画人脸对应的定位损失函数为例,在采用多尺度检测框(即预测框)进行目标检测时,定位损失函数的值则可以包含对应于各检测框的定位损失。
其中,初始目标检测模型输出的样本漫画人脸图像的检测结果还可以包括其他相关信息,具体见如下实施例。
在一种可能的实现方式中,上述标签还包括各身体部位的部位类别标签,检测结果还包括样本漫画人脸图像的分类结果,部位损失函数还包括分类损失函数。
在实际应用中,对于目标检测模型而言,目标检测模型输出的检测结果除了包括回归结果(也就是漫画人脸的预测位置信息以及其他身体部位的预测位置信息)还包括对应的分类结果,也就是各预测位置信息所对应的目标所属的类别,一般的,该分类结果为预测位置信息所对应的目标属于各类别目标的概率,例如,假设目标类别共有n个,分类结果可以是各预测位置信息所对应的目标的类别为这n个目标类别的概率。对于本申请实施例而言,假设各人体部位包括漫画人脸、身体和头部这三个部分,目标类别则可以设置为三个,在进行目标检测时,对于一预测位置信息,对应的分类结果则可以是图像中该预测位置信息所包含的目标分别是人脸、身体和头部这三个部位的概率。
相应的,分类损失则为分类结果对应的损失,该损失则表征了预测出的类别与标签对应的部位类别之间的差异。
在一种可能的实现方式中,除漫画人脸之外的其他身体部位具体可以包括头部或身体中的至少一种。
在实际应用中,作为一可选方案,除漫画人脸之外的其他身体部位可以同时包括头部和身体,此时,在训练初始目标检测模型时,训练样本采用标注有漫画人脸位置信息、头部的位置信息、以及身体的位置信息的漫画图像,采用该样本进行初始目标检测模型的训练时,除了考虑漫画人脸之外,同时还考虑与漫画人脸相关的漫画人的身体和/或头部等其他身体部位,从而在训练时,通过训练模型对漫画人脸、以及头部和/或身体等多个部位的位置信息的预测准确性,相比于只采用漫画人脸的位置信息,使得模型的检测结果能够有效提高,也就是说,采用身体和/或头部等其他位置信息实现了模型对漫画人脸检测的辅助,通过训练时采用更多的约束信息(即头部和/或身体等部位对应的部位损失函数)来提高漫画人脸的检测精度。
在一种可能的实现方式中,模型损失函数是通过以下方式确定的:
确定各身体部位的部位损失函数的权重;
基于各身体部位的部位损失函数的权重对各身体部位的部位损失函数进行加权求和,得到总定位损失函数。
在训练漫画人脸检测模型时,由于各身体部位的重要程度不同,因此,在实际应用中,可以对不同部位的损失函数赋予不同的权重,从而使得各部位对模型训练所起到的约束的重要性有所不同,此时,模型损失函数可以通过各身体部位的部位损失函数进行加权计算来得到。具体的,作为一可选方式,对于漫画人脸检测而言,漫画人脸该部位的重要程度相对较高,因此,相比于身体和/或头部等其他人体部位而言,可以为漫画人脸该部位的损失函数赋予较大的权重。
为了对本申请技术方案中的漫画人脸检测模型的训练过程进行详细描述,下面通过一个具体的实施例进行介绍。该示例中,各身体部位具体采用了漫画人脸、漫画人的头部及身体三个部位。
图5中示出了该实施例中的一种可选的目标检测模型的部分网络结构示意图,该图中具体示出了目标检测模型的各卷积处理层、金字塔特征提取模块(图中所示的金字塔层)、以及特征增强模块(图中所示的特征增强层),该图中还示出了在对模型进行训练时用于计算模型损失函数值的损失计算层(图中所示的金字塔损失层)。
如图5所示,首先将训练样本漫画人脸图像(即图中所示的输入,图像的长和宽均为640,640表示像素点的数量)输入初始特征提取模块,本示例中的初始特征提取模块基于卷积神经网络模型VGG16为基础来实现,图中Conv1、Conv2、Conv3、Conv4、Conv5、Conv6表示卷积神经网络的各个层级,图中所示的Conv1-1-2、Conv2-1-2、Conv3-1-3、Conv4-1-3和Conv5-1-3中的三个数值分别表示各卷积处理层的层级、卷积步长以及卷积核尺寸,以Conv2-1-2为例,第一个数值2则表示第二层的卷积处理层,第二数值1则表示卷积步长为1,第三个数值2则表示该层卷积处理层的卷积核的尺寸为2*2。由图中可以看出,本实施例在VGG16模型的Conv5 Block后增加Conv6卷积处理层,六层卷积处理层可以分别得到一个层级的图像特征,由前文描述可知,较低层级的图像特征的语义表达能力较弱,可以采用较高层级的几个图像特征进行后续处理,如图5中所示,本实施例中具体可以采用图中所示的卷积处理层Conv3、Conv4、Conv5、Conv6所对应的四个层级的图像特征用于后续处理。将Conv3、Conv4、Conv5、Conv6各层级对应的图像特征输入金字塔层,通过金字塔层对各层级的图像特征分别进行处理,得到各层级所对应的融合图像特征,由于融合图像特征对不同尺寸的特征图进行了融合,因此,融合图像特征相比于对应的图像特征,具有更强的特征表达能力,之后,将各层级对应的融合图像特征输入特征增强层,特征增强模块将各层级对应的融合图像特征分别进行纹理信息增强,得到各层级对应的纹理增强的图像特征,之后目标检测模块(图5中未示出,可以采用现有常用的基于多层级特征图的目标检测模块)即可以基于各层级的纹理增强的图像特征实现目标检测,即漫画人脸、身体及头部的检测。
在实际应用中,目标检测模型所对应的模型损失函数可以包括回归损失和分类损失。对于多尺度的目标检测模型而言,目标检测模块一般会包括初步目标检测模块和最终检测结果筛选模块(如NMS(Non-maximum suppression,非极大值抑制)模块),其中,各层级的纹理增强的图像特征通过初步目标检测模块得到各层级所对应的初步目标检测结果,最终检测结果筛选模块则用于从多个初始目标检测结果中确定出最终的目标检测结果。本实施例中,在采用多层级的纹理增强的图像特征实现多尺度的目标检测时,对应的损失函数具体也可以是计算各层级的纹理增强的图像特征所对应的各初始目标检测结果所对应的损失,基于每次训练对应的损失函数值进行反向传播,对模型的模型参数进行调整,通过不断地迭代训练,直至模型损失函数达到最小值收敛,收敛时的目标检测模型即为所需的漫画人脸检测模块。
本实施例中,模型损失函数可以包括定位损失函数和分类损失函数,具体可以包括人脸、身体和头部三个部位各自对应的定位损失函数和分类损失函数,进一步的,不同身体部位的损失函数还可以被赋予不同的权重。具体的,本实施例中,为了实现漫画人脸、人头和身体的联合优化,作为一可选方案,模型损失函数(可以称为金字塔损失函数)的表达式如下:
Figure BDA0002383773650000161
Figure BDA0002383773650000162
其中,上述两个表达式中,带有星号(*)标记的参数为标注的参数,也就是样本对应的标签,具体的,表达式(1)中,L({pk,i},{tk,i})表示模型损失函数,k为各身体部位的索引,如k的取值可以为0,1和2,当然也可以是其他数值,三个数值分别对应于漫画人脸、头部和身体三个部位,Lk({pk,i},{tk,i})表示第k个身体部位的部位损失函数,如k=0,则为漫画人脸对应的脸部损失函数,λk表示第k个身体部位的权重。表达式(2)中,λ为预配置的超参数,可以理解为定位损失和回归损失的一个平衡权重,
Figure BDA0002383773650000163
表示第k个身体部位的分类损失函数,
Figure BDA0002383773650000164
表示第k个身体部位定位损失函数,Nk,cls和Nk,reg分别表示第k个身体部位的分类损失函数的归一化参数和第k个身体部位的定位损失函数的归一化权重,均可以为预配置的经验值或实验值,i为目标检测模型的检测框(即anchor,也可以称为边界框)的索引,ik则表示第k个身体部位所对应的第i个anchor(可简称为anchori),pk,i表示anchor i被预测为第k个目标的概率,也就是anchor i所对应的图像区域中所包含的目标被预测为第k个目标的概率,也就是分类结果,
Figure BDA0002383773650000165
表示anchor i对应的真实结果,也就是标的真实标签,tk,i表示anchor i对应的预测位置信息,通常为一个四维(中心点或者顶点的坐标、以及框宽度和长度)的向量,
Figure BDA0002383773650000166
则为anchor i的标注结果,也就是位置标签对应的位置信息。其中,
Figure BDA0002383773650000171
通常被定义为:
Figure BDA0002383773650000172
一般的,对于模型的各anchor而言,如果检测框和标注框(一般称为groundtruth)之间的重叠度(Intersection over Union,IoU)大于设定值(通常为0.5),则检测框内认为是正样本检测框,如果重叠度不大于设定值,则被认为为负样本检测框。
作为一个示例,对于金字塔特征提取模块的具体处理过程,下面通过一个具体的实施例进行介绍。
图6中示出了一种通过金字塔特征提取模块提取金字塔特征(即多个层级的融合图像特征)的原理示意图。如图6所示,将Conv6的图像特征(如图中所示的卷积特征)作为该层级的融合图像特征(如图中所示的金字塔特征);将Conv6的融合图像特征与Conv5-3的图像特征进行融合,得到Conv5-3的融合图像特征;将Conv5-3的融合图像特征和Conv4-3的图像特征进行融合,得到Conv4-3的融合图像特征;将Conv4-3的融合图像特征和Conv3-3的图像特征进行融合,得到Conv3-3的融合图像特征;然后将Conv6的融合图像特征、Conv5-3的融合图像特征、Conv4-3的融合图像特征以及Conv3-3的融合图像特征(如图中所示的多层预测)分别输入特征增强模块(如图中所示的内容增强层)进行特征增强处理。其中,Conv6表示卷积处理层6,Conv5-3中的第一个数值5表示卷积处理层的层级为5,第二个数值3表示卷积核尺寸为3×3,Conv4-3中的第一个数值表示卷积处理层的层级为4,第二个数值3表示卷积核尺寸为3×3,Conv3-3中的第一个数值3表示卷积处理层的层级为3,第二个数值3表示卷积核尺寸为3×3。
对于特征增强模块的具体处理过程,下面通过一个具体的实施例进行介绍。
如图7所示,金字塔特征提取模块输出的每个层级的融合图像特征(图中所示的每个金字塔特征),输入多感受野特征提取模块,提取三种感受野对应的特征图,如图所示,进行Conv Block1处理,得到一个特征图;进行Conv Block1、Conv Block2处理,得到一个特征图;进行Conv Block1、Conv Block2、Conv Block2处理得到一个特征图,将得到的这三个特征图,处理成相同尺寸后,按照通道的维度进行拼接处理(如图中所示的拼接)得到每个融合图像特征对应的纹理增强的图像特征(如图中所示的拼接特征),将得到的各个纹理增强的图像特征输入目标检测模块(图7中未示出,可以采用现有常用的基于多层级特征图的目标检测模块),目标检测模块可以基于各层级的纹理增强的图像特征实现目标检测,即漫画人脸、身体及头部的检测。目标检测模型所对应的模型损失函数可以包括回归损失和分类损失,可以通过图中所示的金字塔损失层进行计算。其中,Conv Block1对应3个依次级联的卷积处理层Conv1、Conv2、Conv3,对应的输出通道数依次为1024、256、256;Conv Block2对应3个依次级联的卷积处理层Conv1、Conv2、Conv3,对应的输出通道数依次为1024、256、128。
本申请实施例提供的漫画人脸检测方法,获取包含漫画人脸区域的待识别图像;将待识别图像输入到漫画人脸检测模型的依次级联的各卷积处理层,得到各卷积处理层所提取的各层级的图像特征;对各卷积处理层所提取的各层级的图像特征进行特征融合,得到各层级的融合图像特征;基于各层级的融合图像特征,对待识别图像中的漫画人脸区域进行定位。本申请所提供的技术方案,通过对漫画人脸检测模型的各卷积处理层所提取的各层级的图像特征进行特征融合处理,使图像特征的表达能力更强,基于融合图像特征进行漫画人脸区域定位,提高了漫画人脸的检测精度。
下面分别针对两个漫画人脸数据集IIIT-CFW和WebCaricature中数据进行漫画人脸检测,并将检测结果与现有技术中的方法,包括:多任务卷积神经网络(Multi-taskconvolutional neural network,MTCNN)、快速区域卷积神经网络(Faster Region-CNN,Faster R-CNN)、单目多目标检测器(Single Shot MultiBox Detector,SSD)、单目尺度不变人脸检测器(Single shot scale-invariant face detector,SFD)、双射人脸探测器(Dual Shot Face Detector,DSFD)的检测结果进行比较。
(1)IIIT-CFW数据集
IIIT-CFW数据集中包含了8928个标注的漫画人脸,此外还包含1000个通过Photo2Cartoon算法将真实人脸生成的漫画人脸,在该数据集上对比不同方法在不同IoU下的检测准确率如表1和表2所示。其中表1为IoU=0.5时的对比实验,表2为IoU=0.7时的对比实验。由此可以看出本申请提出的方法(表1、2中的CPN)相较于其他常规人脸检测器在漫画人脸检测任务上具有显著的提升,CPN在该数据集的检测效果如图8所示,图中所示的各图像中的矩形框即为基于本申请实施例所提供的方法检测出的漫画人脸的位置信息,由表1、表2、以及图8中所示的检测效果可以看出,基于本申请实施例所提供的漫画人脸检测方法的检测精度明显高于现有的人脸检测方法。
检测方法 精度(%)
MTCNN 11.44
Faster R-CNN 12.94
SSD 10.05
SFD 21.87
DSFD 22.59
CPN 84.30
表1
检测方法 精度(%)
MTCNN 9.76
Faster R-CNN 8.64
SSD 14.81
SFD 18.23
DSFD 20.75
CPN 75.42
表2
(2)WebCaricature数据集
WebCaricature数据集中包含了从网络上获得的252个知名人物的6042个标注的漫画人脸,并且所有的漫画都是真实绘制的。在该数据集上对比不同方法在不同IoU下的检测准确率如表3和表4所示。其中表3为IoU=0.5时的对比实验,表4为IoU=0.7时的对比实验。由此可以看出本申请提出的方法(表3、4中的CPN)相较于其他常规人脸检测器在漫画人脸检测任务上具有显著的提升,CPN在该数据集的检测效果如图9所示,同样的,图中所示的各图像中的矩形框即为基于本申请实施例所提供的方法检测出的漫画人脸的位置信息,由表3、表4、以及图9中所示的检测效果可以看出,基于本申请实施例所提供的漫画人脸检测方法的检测精度明显高于现有的人脸检测方法。
检测方法 精度(%)
MTCNN 19.15
Faster R-CNN 20.29
SSD 18.75
SFD 18.09
DSFD 26.11
CPN 99.03
表3
检测方法 精度(%)
MTCNN 14.77
Faster R-CNN 29.20
SSD 16.09
SFD 19.74
DSFD 25.01
CPN 98.74
表4
由上述比较结果可知,本申请中的漫画人脸检测方法的检测精度明显高于现有技术中的方法。
基于与图1中所示方法相同的原理,本公开的实施例中还提供了一种漫画人脸检测装置30,如图10所示,该装置30包括:
图像获取模块31,用于获取包含漫画人脸区域的待识别图像;
特征获取模块32,用于将待识别图像输入到漫画人脸检测模型的依次级联的各卷积处理层,得到各卷积处理层所提取的各层级的图像特征;
特征融合模块33,用于对各卷积处理层所提取的各层级的图像特征进行特征融合,得到各层级的融合图像特征;
图像定位模块34,用于基于各层级的融合图像特征,对待识别图像中的漫画人脸区域进行定位。
在一种可能的实现方式中,特征融合模块33,用于:
将最高层级的图像特征作为所述最高层级的融合图像特征;
对于除最高层级之外的每一层级,将该层级的图像特征和该层级的下一层级的图像特征所对应的融合图像特征进行融合,得到该层级的融合图像特征。
在一种可能的实现方式中,图像定位模块34,用于:
对各层级的融合图像特征分别进行纹理增强处理,得到各层级各自所对应的纹理增强的图像特征;
基于各层级各自所对应的纹理增强的图像特征,对待识别图像中的漫画人脸区域进行定位。
在一种可能的实现方式中,图像定位模块34在对于一个层级的融合图像特征进行纹理增强处理,得到该层级的纹理增强的图像特征时,用于:
基于一个层级的融合图像特征,提取得到对应于至少两种感受野的特征图;
将至少两种感受野的特征图进行拼接,得到该层级的纹理增强的图像特征。
在一种可能的实现方式中,图像定位模块34在对于一个层级的融合图像特征,提取得到对应于至少两种感受野的特征图时,用于:
对该层级的融合图像特征进行特征提取,得到两种第一图像特征;
对两种第一图像特征中的一种第一图像特征再次进行特征提取,得到至少一种第二图像特征,至少两种感受野的特征图包括两种第一图像特征中的另一种第一特征图与再次提取得到的至少一种第二特征图。
在一种可能的实现方式中,图像定位模块34在对两种第一图像特征中的一种图像特征再次进行特征提取,得到至少一种第二图像特征时,用于:
对一种第一图像特征进行特征提取,得到两种第三图像特征;
对提取的两种第三图像特征中的一种图像特征再次进行特征提取,得到一种第四图像特征,再次进行特征提取得到的至少一种第二图像特征包括两种第三图像特征中的另一种图像特征以及第四图像特征。
在一种可能的实现方式中,漫画人脸检测模型是通过以下方式训练的:
获取训练样本,训练样本包括各样本漫画人脸图像,样本漫画人脸图像标注有标签,标签包括漫画人脸的第一位置标签、以及除漫画人脸之外的至少一个其他身体部位的第二位置标签;
基于训练样本对初始目标检测模型进行训练,直至初始目标检测模型的模型损失函数收敛,将模型损失函数收敛时的初始目标检测模型作为漫画人脸检测模型;
其中,初始目标检测模型的输入为样本漫画人脸图像,输出为样本漫画人脸图像的检测结果,检测结果包括漫画人脸的第一预测位置信息,以及各其他身体部位的第二预测位置信息,其中,模型损失函数包括分别对应于样本漫画人脸图像中各身体部位的部位损失函数,各身体部位包括漫画人脸和各其他身体部位,部位损失函数包括定位损失函数。
在一种可能的实现方式中,标签还包括各身体部位的部位类别标签,检测结果还包括样本漫画人脸图像的分类结果,部位损失函数还包括分类损失函数。
在一种可能的实现方式中,模型损失函数是通过以下方式确定的:
确定各身体部位的部位损失函数的权重;
基于各身体部位的部位损失函数的权重对各身体部位的部位损失函数进行加权求和,得到总定位损失函数。
在一种可能的实现方式中,除漫画人脸之外的其他身体部位包括头部或身体中的至少一种。
在一种可能的实现方式中,获取训练样本的方式包括:
获取各初始样本人脸图像,其中,初始样本人脸图像包括非漫画人脸图像;
通过预设图像处理算法对各非漫画人脸图像进行处理,得到处理后的各图像;
获取处理后的各图像中人脸的位置信息、以及其他身体部位的位置信息;
基于人脸的位置信息和其他身体部位的位置信息对处理后的各图像进行标注,得到各样本漫画人脸图像。
在一种可能的实现方式中,获取处理后的各图像中人脸的位置信息、以及其他身体部位的位置信息的方式,包括:
获取人脸位置信息;
基于人脸位置信息、以及人脸位置与其他身体部位的位置的位置关系,确定其他身体部位的位置信息。
本实施例提供的漫画人脸检测装置的具体工作过程与图1中所示方法中的各个步骤相对应,具体过程在方法实施例已经进行了详细描述,此处不再赘述。
本申请提供的漫画人脸检测装置,获取包含漫画人脸区域的待识别图像;将待识别图像输入到漫画人脸检测模型的依次级联的各卷积处理层,得到各卷积处理层所提取的各层级的图像特征;对各卷积处理层所提取的各层级的图像特征进行特征融合,得到各层级的融合图像特征;基于各层级的融合图像特征,对待识别图像中的漫画人脸区域进行定位。本申请所提供的技术方案,通过对漫画人脸检测模型的各卷积处理层所提取的各层级的图像特征进行特征融合处理,使图像特征的表达能力更强,基于融合图像特征进行漫画人脸区域定位,提高了漫画人脸的检测精度。
上述实施例从虚拟模块的角度介绍了漫画人脸检测装置,下述从实体模块的角度介绍一种电子设备,具体如下所示:
本申请实施例提供了一种电子设备,如图11所示,图11所示的电子设备9000包括:处理器9001和存储器9003。其中,处理器9001和存储器9003相连,如通过总线9002相连。可选地,电子设备9000还可以包括收发器9004。需要说明的是,实际应用中收发器9004不限于一个,该电子设备9000的结构并不构成对本申请实施例的限定。
处理器9001可以是CPU,通用处理器,GPU,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器9001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线9002可包括一通路,在上述组件之间传送信息。总线9002可以是PCI总线或EISA总线等。总线9002可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器9003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器9003用于存储执行本申请方案的应用程序代码,并由处理器9001来控制执行。处理器9001用于执行存储器9003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
本申请实施例提供了一种电子设备,本申请实施例中的电子设备包括:一个或多个处理器;存储器;一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序被处理器执行时,获取包含漫画人脸区域的待识别图像;将待识别图像输入到漫画人脸检测模型的依次级联的各卷积处理层,得到各卷积处理层所提取的各层级的图像特征;对各卷积处理层所提取的各层级的图像特征进行特征融合,得到各层级的融合图像特征;基于各层级的融合图像特征,对待识别图像中的漫画人脸区域进行定位。本申请所提供的技术方案,通过对漫画人脸检测模型的各卷积处理层所提取的各层级的图像特征进行特征融合处理,使图像特征的表达能力更强,基于融合图像特征进行漫画人脸区域定位,提高了漫画人脸的检测精度。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当计算机程序在处理器上运行时,使得处理器可以执行前述方法实施例中相应的内容。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (15)

1.一种漫画人脸检测方法,其特征在于,所述方法包括:
获取包含漫画人脸区域的待识别图像;
将所述待识别图像输入到漫画人脸检测模型的依次级联的各卷积处理层,得到各卷积处理层所提取的各层级的图像特征;
对所述各卷积处理层所提取的各层级的图像特征进行特征融合,得到各层级的融合图像特征;
基于所述各层级的融合图像特征,对所述待识别图像中的漫画人脸区域进行定位。
2.根据权利要求1所述的方法,其特征在于,所述对所述各卷积处理层所提取的各层级的图像特征进行特征融合,得到各层级的融合图像特征,包括:
将最高层级的图像特征作为所述最高层级的融合图像特征;
对于除最高层级之外的每一层级,将该层级的图像特征和该层级的下一层级的图像特征所对应的融合图像特征进行融合,得到该层级的融合图像特征。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述各层级的融合图像特征,对所述待识别图像中的漫画人脸区域进行定位,包括:
对所述各层级的融合图像特征分别进行纹理增强处理,得到各层级各自所对应的纹理增强的图像特征;
基于各层级各自所对应的纹理增强的图像特征,对所述待识别图像中的漫画人脸区域进行定位。
4.根据权利要求3所述的方法,其特征在于,对于一个层级的融合图像特征进行纹理增强处理,得到该层级所对应的纹理增强的图像特征,包括:
基于一个层级的融合图像特征,提取得到对应于至少两种感受野的特征图;
将所述至少两种感受野的特征图进行拼接,得到该层级所对应的纹理增强的图像特征。
5.根据权利要求4所述的方法,其特征在于,对于一个层级的融合图像特征,提取得到对应于至少两种感受野的特征图,包括:
对该层级的融合图像特征进行特征提取,得到两种第一图像特征;
对所述两种第一图像特征中的一种第一图像特征再次进行特征提取,得到至少一种第二图像特征,所述至少两种感受野的特征图包括所述两种第一图像特征中的另一种第一特征图与再次提取得到的至少一种第二特征图。
6.根据权利要求5所述的方法,其特征在于,对所述两种第一图像特征中的一种图像特征再次进行特征提取,得到至少一种第二图像特征,包括:
对所述一种第一图像特征进行特征提取,得到两种第三图像特征;
对提取的两种第三图像特征中的一种图像特征再次进行特征提取,得到一种第四图像特征,所述再次进行特征提取得到的至少一种第二图像特征包括两种第三图像特征中的另一种图像特征以及第四图像特征。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述漫画人脸检测模型是通过以下方式训练的:
获取训练样本,所述训练样本包括各样本漫画人脸图像,所述样本漫画人脸图像标注有标签,所述标签包括漫画人脸的第一位置标签、以及除漫画人脸之外的至少一个其他身体部位的第二位置标签;
基于所述训练样本对初始目标检测模型进行训练,直至所述初始目标检测模型的模型损失函数收敛,将模型损失函数收敛时的初始目标检测模型作为漫画人脸检测模型;
其中,所述初始目标检测模型的输入为所述样本漫画人脸图像,输出为所述样本漫画人脸图像的检测结果,所述检测结果包括漫画人脸的第一预测位置信息,以及各所述其他身体部位的第二预测位置信息,其中,所述模型损失函数包括分别对应于样本漫画人脸图像中各身体部位的部位损失函数,所述各身体部位包括所述漫画人脸和各所述其他身体部位,所述部位损失函数包括定位损失函数。
8.根据权利要求7所述的方法,其特征在于,所述标签还包括所述各身体部位的部位类别标签,所述检测结果还包括所述样本漫画人脸图像的分类结果,所述部位损失函数还包括分类损失函数。
9.根据权利要求7所述的方法,其特征在于,所述模型损失函数是通过以下方式确定的:
确定各身体部位的部位损失函数的权重;
基于各身体部位的部位损失函数的权重对各身体部位的部位损失函数进行加权求和,得到所述总定位损失函数。
10.根据权利要求7所述的方法,其特征在于,除漫画人脸之外的其他身体部位包括头部或身体中的至少一种。
11.根据权利要求7所述的方法,其特征在于,获取所述训练样本的方式包括:
获取各初始样本人脸图像,其中,所述初始样本人脸图像包括非漫画人脸图像;
通过预设图像处理算法对各所述非漫画人脸图像进行处理,得到处理后的各图像;
获取处理后的各图像中人脸的位置信息、以及所述其他身体部位的位置信息;
基于所述人脸的位置信息和所述其他身体部位的位置信息对处理后的各图像进行标注,得到各样本漫画人脸图像。
12.根据权利要求11所述的方法,其特征在于,所述获取处理后的各图像中人脸的位置信息、以及所述其他身体部位的位置信息,包括:
获取人脸位置信息;
基于人脸位置信息、以及人脸与其他身体部位的位置关系,确定其他身体部位的位置信息。
13.一种漫画人脸检测装置,其特征在于,所述装置包括:
图像获取模块,用于获取包含漫画人脸区域的待识别图像;
特征获取模块,用于将所述待识别图像输入到漫画人脸检测模型的依次级联的各卷积处理层,得到各卷积处理层所提取的各层级的图像特征;
特征融合模块,用于对所述各卷积处理层所提取的各层级的图像特征进行特征融合,得到各层级的融合图像特征;
图像定位模块,用于基于所述各层级的融合图像特征,对所述待识别图像中的漫画人脸区域进行定位。
14.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器;
一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被配置用于执行根据权利要求1~12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,当所述计算机程序在处理器上运行时,使得所述处理器可以执行权利要求1~12任一项所述的方法。
CN202010091173.4A 2020-02-13 2020-02-13 漫画人脸检测方法、装置、电子设备及计算机可读介质 Active CN111274994B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010091173.4A CN111274994B (zh) 2020-02-13 2020-02-13 漫画人脸检测方法、装置、电子设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010091173.4A CN111274994B (zh) 2020-02-13 2020-02-13 漫画人脸检测方法、装置、电子设备及计算机可读介质

Publications (2)

Publication Number Publication Date
CN111274994A true CN111274994A (zh) 2020-06-12
CN111274994B CN111274994B (zh) 2022-08-23

Family

ID=71003786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010091173.4A Active CN111274994B (zh) 2020-02-13 2020-02-13 漫画人脸检测方法、装置、电子设备及计算机可读介质

Country Status (1)

Country Link
CN (1) CN111274994B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633085A (zh) * 2020-12-08 2021-04-09 特斯联科技集团有限公司 一种基于注意力导向机制的人脸检测方法、系统、存储介质及终端
CN113095233A (zh) * 2021-04-15 2021-07-09 咪咕动漫有限公司 模型训练方法、动漫人脸的检测方法及电子设备
CN113537169A (zh) * 2021-09-16 2021-10-22 深圳市信润富联数字科技有限公司 手势识别方法、设备、存储介质和计算机程序产品
CN113688663A (zh) * 2021-02-23 2021-11-23 北京澎思科技有限公司 人脸检测方法、装置、电子设备以及可读存储介质
WO2023024779A1 (zh) * 2021-08-26 2023-03-02 西门子(中国)有限公司 人像检测方法、装置、电子设备和存储介质
CN116309623A (zh) * 2023-05-17 2023-06-23 广东电网有限责任公司湛江供电局 一种多源信息融合增强的建筑物分割方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871106A (zh) * 2016-09-26 2018-04-03 北京眼神科技有限公司 人脸检测方法和装置
CN110414378A (zh) * 2019-07-10 2019-11-05 南京信息工程大学 一种基于异质人脸图像融合特征的人脸识别方法
CN110555481A (zh) * 2019-09-06 2019-12-10 腾讯科技(深圳)有限公司 一种人像风格识别方法、装置和计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871106A (zh) * 2016-09-26 2018-04-03 北京眼神科技有限公司 人脸检测方法和装置
CN110414378A (zh) * 2019-07-10 2019-11-05 南京信息工程大学 一种基于异质人脸图像融合特征的人脸识别方法
CN110555481A (zh) * 2019-09-06 2019-12-10 腾讯科技(深圳)有限公司 一种人像风格识别方法、装置和计算机可读存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633085A (zh) * 2020-12-08 2021-04-09 特斯联科技集团有限公司 一种基于注意力导向机制的人脸检测方法、系统、存储介质及终端
CN113688663A (zh) * 2021-02-23 2021-11-23 北京澎思科技有限公司 人脸检测方法、装置、电子设备以及可读存储介质
CN113095233A (zh) * 2021-04-15 2021-07-09 咪咕动漫有限公司 模型训练方法、动漫人脸的检测方法及电子设备
CN113095233B (zh) * 2021-04-15 2024-04-09 咪咕动漫有限公司 模型训练方法、动漫人脸的检测方法及电子设备
WO2023024779A1 (zh) * 2021-08-26 2023-03-02 西门子(中国)有限公司 人像检测方法、装置、电子设备和存储介质
CN113537169A (zh) * 2021-09-16 2021-10-22 深圳市信润富联数字科技有限公司 手势识别方法、设备、存储介质和计算机程序产品
CN113537169B (zh) * 2021-09-16 2022-02-15 深圳市信润富联数字科技有限公司 手势识别方法、设备、存储介质和计算机程序产品
CN116309623A (zh) * 2023-05-17 2023-06-23 广东电网有限责任公司湛江供电局 一种多源信息融合增强的建筑物分割方法及系统
CN116309623B (zh) * 2023-05-17 2023-08-18 广东电网有限责任公司湛江供电局 一种多源信息融合增强的建筑物分割方法及系统

Also Published As

Publication number Publication date
CN111274994B (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
CN111274994B (zh) 漫画人脸检测方法、装置、电子设备及计算机可读介质
CN111291739B (zh) 面部检测、图像检测神经网络训练方法、装置和设备
US11367271B2 (en) Similarity propagation for one-shot and few-shot image segmentation
EP3971772B1 (en) Model training method and apparatus, and terminal and storage medium
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN111553267B (zh) 图像处理方法、图像处理模型训练方法及设备
CN111401216B (zh) 图像处理、模型训练方法、装置、计算机设备和存储介质
Said et al. Human emotion recognition based on facial expressions via deep learning on high-resolution images
JP7286013B2 (ja) ビデオコンテンツ認識方法、装置、プログラム及びコンピュータデバイス
CN111563502A (zh) 图像的文本识别方法、装置、电子设备及计算机存储介质
CN111696110B (zh) 场景分割方法及系统
CN111160225B (zh) 基于深度学习的人体解析方法和装置
US11501110B2 (en) Descriptor learning method for the detection and location of objects in a video
CN112257665A (zh) 图像内容的识别方法、图像识别模型的训练方法及介质
CN112101344B (zh) 一种视频文本跟踪方法及装置
CN112668638A (zh) 一种图像美学质量评估和语义识别联合分类方法及系统
CN115115969A (zh) 视频检测方法、装置、设备、存储介质和程序产品
Liao et al. FERGCN: facial expression recognition based on graph convolution network
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
Liu et al. Student behavior recognition from heterogeneous view perception in class based on 3-D multiscale residual dense network for the analysis of case teaching
CN114764870A (zh) 对象定位模型处理、对象定位方法、装置及计算机设备
CN113537187A (zh) 文本识别方法、装置、电子设备及可读存储介质
CN116977265A (zh) 缺陷检测模型的训练方法、装置、计算机设备和存储介质
CN115311518A (zh) 一种获取视觉属性信息的方法、装置、介质及电子设备
Jokela Person counter using real-time object detection and a small neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40023597

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant