CN111563466B - 人脸检测方法及相关产品 - Google Patents
人脸检测方法及相关产品 Download PDFInfo
- Publication number
- CN111563466B CN111563466B CN202010398720.3A CN202010398720A CN111563466B CN 111563466 B CN111563466 B CN 111563466B CN 202010398720 A CN202010398720 A CN 202010398720A CN 111563466 B CN111563466 B CN 111563466B
- Authority
- CN
- China
- Prior art keywords
- convolution
- target
- map
- feature
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种人脸检测方法及相关产品,所述方法包括:获取目标图片,对所述目标图片执行预处理操作得到预处理图片;将所述预处理图片进行人脸特征图提取操作,得到所述目标图片的第一特征图和第二特征图;将所述第一特征图输入第一特征提取通道,得到第一融合图,将所述第二特征图输入第二特征提取通道,得到第二融合图;基于所述第一融合图和所述第二融合图进行拼接计算操作,得到目标特征图;对所述目标特征图执行卷积计算得到目标人脸框中心点坐标概率图和目标偏移量;基于所述目标人脸框中心点坐标概率图和所述目标偏移量在所述目标图片中确定目标人脸框。本申请实施例依据特征提取确定目标人脸框,减少人脸检测计算量。
Description
技术领域
本申请涉及电子设备技术领域,具体涉及一种人脸检测方法及相关产品。
背景技术
随着电子商务等应用的发展,人脸识别成为最有潜力的生物身份验证手段,人脸检测是人脸识别中的一个重要环节。人脸检测是指对于任意一幅给定的图像,采用一定的策略对其进行搜索以确定其中是否含有人脸。
目前,主要通过大量的滑动窗口以及图像金字塔的变换覆盖人脸图像,然后通过特征提取操作与分类器实现人脸检测,但是,大量的计算导致运算速度慢,并且,通过图像金字塔变换覆盖人脸图像导致人脸检测的准确率不高,用户体验度低下。
发明内容
本申请实施例提供了一种人脸检测方法及相关产品,以期通过特征提取和卷积计算确定目标人脸框,实现无锚框人脸检测,减少人脸检测计算量,缩短人脸检测周期,有利于提高用户体验度。
第一方面,本申请实施例提供一种人脸检测方法,应用于人脸检测设备,所述方法包括:
获取目标图片,对所述目标图片执行预处理操作得到预处理图片;
将所述预处理图片进行人脸特征图提取操作,得到所述目标图片的第一特征图和第二特征图,所述第二特征图为根据所述第一特征图得到的特征图;
将所述第一特征图输入第一特征提取通道,得到第一融合图,将所述第二特征图输入第二特征提取通道,得到第二融合图;
基于所述第一融合图和所述第二融合图进行拼接计算操作,得到目标特征图;
对所述目标特征图执行卷积计算,得到目标人脸框中心点坐标概率图和目标偏移量;
基于所述目标人脸框中心点坐标概率图和所述目标偏移量,确定所述目标图片中目标人脸框。
第二方面,本申请实施例提供一种人脸检测装置,应用于电子设备,所述装置包括:处理单元和通信单元,其中,
所述处理单元,用于获取目标图片,对所述目标图片执行预处理操作得到预处理图片;以及用于将所述预处理图片进行人脸特征图提取操作,得到所述目标图片的第一特征图和第二特征图,所述第二特征图为根据所述第一特征图得到的特征图;以及用于将所述第一特征图输入第一特征提取通道,得到第一融合图,将所述第二特征图输入第二特征提取通道,得到第二融合图;以及用于基于所述第一融合图和所述第二融合图进行拼接计算操作,得到目标特征图;以及用于对所述目标特征图执行卷积计算,得到目标人脸框中心点坐标概率图和目标偏移量;以及用于基于所述目标人脸框中心点坐标概率图和所述目标偏移量,确定所述目标图片中目标人脸框。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
可以看出,本申请实施例对目标图片预处理、多次对预处理图片进行提取特征、反卷积计算操作和卷积计算操作确定目标人脸框,进而实现人脸检测,本申请实施例减少了人脸检测的计算量,提高了人脸检测的速度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A是本申请实施例提供的终端的一种结构示意图;
图1B是本申请实施例提供的终端的一种软硬件系统架构的示意图;
图1C是本申请实施例提供的终端的另一种结构示意图;
图2A是是本申请实施例提供的终端的一种人脸检测网络的网络架构图;
图2B是是本申请实施例提供的终端的一种人脸检测网络的网络架构图;
图3是本申请实施例提供的终端的一种特征图处理器的结构图;
图4A是本申请实施例提供的终端的一种第一特征图提取器的结构图;
图4B是本申请实施例提供的终端的一种残差计算模块的结构示意图;
图5是本申请实施例提供的终端的一种人脸检测方法的流程示意图;
图6是本申请实施例提供的终端的一种人脸检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了更好地理解本申请实施例的方案,下面先对本申请实施例可能涉及的相关术语和概念进行介绍。
(1)卷积核,是指在进行图像处理时,给定输入图像,输入图像中一个小区域中像素加权平均后成为输出图像中的每个对应像素,其中权值由一个函数定义,这个函数称为卷积核。
(2)步长,程序语言中的名词,让一个数值在每次运算中加上某个数(此即步长)重复执行此项运算。
(3)反卷积是信号处理中一类基本问题,广泛应用于信道均衡、图像恢复、语音识别、地震学、无损探伤等领域,也可应用于未知输入估计和故障辨识问题。
(4)深度残差网络(ResNet50)是指通过在深度学习网络中引入残差块从而解决深度学习网络由于网络深度增加导致学习速度变慢的网络。
(5)空洞卷积,又名扩张卷积(dilated convolutions),向卷积层引入了一个称为“扩张率(dilation rate)”的新参数,该参数定义了卷积核处理数据时各值的间距。
(6)输出特征图通道,一个通道是对某个特征的检测,通道中的某一处的强弱就是对当前特征强弱的反应。
(7)递归特征消除(Recursive feature elimination),主要思想是反复构建模型,然后选出最好的(或者最差的)特征(根据系数来选),把选出来的特征放到一边,然后在剩余的特征上重复这个过程,直到遍历了所有的特征。在这个过程中被消除的次序就是特征的排序。
(8)感受野,指卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小。
(9)非极大值抑制(Non-Maximum Suppression,NMS),顾名思义就是抑制不是极大值的元素,可以理解为局部最大搜索。这个局部代表的是一个邻域,邻域有两个参数可变,一是邻域的维数,二是邻域的大小。
下面分别从软硬件运行环境(第一部分)、示例应用场景(第二部分)、关键技术实现(第三部分)以及权利要求保护范围(第四部分)四个方面全面介绍本申请实施例。
第一部分,本申请所公开的界面显示技术的软硬件运行环境介绍如下。
请参考图1A,其示出了本申请一个示例性实施例提供的终端100的结构方框图。该终端100可以是具备通信能力的电子设备,该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(User Equipment,UE),移动台(Mobile Station,MS),终端设备(terminal device)等等。本申请中的终端100可以包括一个或多个如下部件:处理器110、存储器120和输入输出设备130。
处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个终端100内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行终端100的各种功能和处理数据。处理器110可以包括一个或多个处理单元,例如:处理器110可以包括中央处理器(CentralProcessing Unit,CPU)、应用处理器(application processor,AP)、调制解调处理器、图形处理器(graphics processing unit,GPU)、图像信号处理器(image signal processor,ISP)、控制器、视频编解码器、数字信号处理器(digital signal processor,DSP)、基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,控制器可以是终端100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当终端100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。视频编解码器用于对数字视频压缩或解压缩。终端100可以支持一种或多种视频编解码器。这样,终端100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现终端100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
处理器110中可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免重复存取,减少处理器110的等待时间,提高系统效率。
处理器110可以包括一个或多个接口,例如集成电路(inter-integratedcircuit,I2C)接口,集成电路内置音频(inter-integrated circuit sound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universalasynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobileindustry processor interface,MIPI),通用输入输出(general-purpose input/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。处理器110可以包含多组I2C接口,通过不同的I2C接口可以分别耦合触摸传感器,充电器,闪光灯,摄像头等。例如:处理器110可以通过I2C接口耦合触摸传感器,使处理器110与触摸传感器通过I2C接口通信,实现终端100的触摸功能。
I2S接口可以用于音频通信。处理器110可以包含多组I2S接口,通过I2S接口与音频模块耦合,实现处理器110与音频模块之间的通信。音频模块可以通过I2S接口向无线通信模块传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。音频模块与无线通信模块可以通过PCM接口耦合,具体可以通过PCM接口向无线通信模块传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。UART接口通常被用于连接处理器110与无线通信模块。例如:处理器110通过UART接口与无线通信模块中的蓝牙模块通信,实现蓝牙功能。音频模块可以通过UART接口向无线通信模块传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器110与显示屏、摄像头等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(display serialinterface,DSI)等。在一些实施例中,处理器110和摄像头通过CSI接口通信,实现终端100的拍摄功能。处理器110和显示屏通过DSI接口通信,实现终端100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器110与摄像头、显示屏、无线通信模块、音频模块、传感器模块等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口是符合USB标准规范的接口,具体可以是Mini USB接口、Micro USB接口、USB Type C接口等。USB接口可以用于连接充电器为终端100充电,也可以用于终端100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如AR设备等。
可以理解的是,上述处理器110在实际产品中可以映射为系统级芯片(System ona Chip,SOC),上述处理单元和/或接口也可以不集成到处理器110中,单独通过一块通信芯片或者电子元器件实现对应的功能。上述各模块间的接口连接关系,只是示意性说明,并不构成对终端100的结构的唯一限定。
存储器120可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选地,该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等,该操作系统可以是安卓(Android)系统(包括基于Android系统深度开发的系统)、苹果公司开发的IOS系统(包括基于IOS系统深度开发的系统)或其它系统。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
终端400的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的Android系统和IOS系统为例,示例性说明终端400的软件架构。
如图1B所示的设置有Android系统的软硬件系统的架构示意图,存储器120中可存储有Linux内核层220、系统运行库层240、应用框架层260和应用层280,其中,层与层之间通过软件接口通信,Linux内核层220、系统运行库层240和应用框架层260属于操作系统空间。
应用层280属于用户空间,应用层280中运行有至少一个应用程序,这些应用程序可以是操作系统自带的原生应用程序,也可以是第三方开发者所开发的第三方应用程序,具体可以包括密码、眼球追踪、相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等应用程序。
应用框架层260提供了构建应用层的应用程序可能用到的各种API,开发者也可以通过使用这些API来构建自己的应用程序,比如窗口管理器、内容提供器、视图系统、电话管理器、资源管理器、通知管理器、消息管理器、活动管理器、包管理器、定位管理。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供终端100的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,终端振动,指示灯闪烁等。
消息管理器可用于存储各个APP上报的消息的数据,并对各个APP上报的数据进行处理。具体地,消息的数据可包括消息的ID(message ID)、APP的ID(APPID)、消息的处理状态(status)、产生时间(happen time)、消息类型(msg type)及消息描述(description)。其中,消息的处理状态可包括两种:未处理、已处理。当消息的处理状态为未处理时,status字段为0;当消息的处理状态为已处理时,status字段为1。
在一种可能的实现方式中,消息管理器可以是通知管理器的一部分。
系统运行库层240通过一些C/C++库来为Android系统提供了主要的特性支持。如SQLite库提供了数据库的支持,OpenGL/ES库提供了3D绘图的支持,Webkit库提供了浏览器内核的支持等。在系统运行库层240中还提供有安卓运行时库(Android Runtime),它主要提供了一些核心库,能够允许开发者使用Java语言来编写Android应用。
Linux内核层220为终端100的各种硬件提供了底层的驱动,如显示驱动、音频驱动、摄像头驱动、蓝牙驱动、Wi-Fi驱动、电源管理等。
应理解,本申请实施例所述的界面显示方法既可以应用于安卓系统,也可以应用于其他操作系统,如IOS系统等,此处仅以安卓系统为例进行说明,但不构成限定。
下面结合图1C对目前常见的终端形态进行详细说明,可以理解的是,本申请实施例示意的结构并不构成对终端100的具体限定。在本申请另一些实施例中,终端100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
如图1C所示,终端400包括系统级芯片410,外部存储器接口420,内部存储器421,通用串行总线(universal serial bus,USB)接口430,充电管理模块440,电源管理模块441,电池442,天线1,天线2,移动通信模块450,无线通信模块460,音频模块470,扬声器470A,受话器470B,麦克风470C,耳机接口470D,传感器模块480,按键490,马达491,指示器492,摄像头493,显示屏494,红外发射器495,以及用户标识模块(subscriberidentification module,SIM)卡接口496等。其中传感器模块480可以包括压力传感器480A,陀螺仪传感器480B,气压传感器480C,磁传感器480D,加速度传感器480E,距离传感器480F,接近光传感器480G,指纹传感器480H,温度传感器480J,触摸传感器480K,环境光传感器480L,骨传导传感器480M等。
终端400的无线通信功能可以通过天线1,天线2,移动通信模块450,无线通信模块460,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。终端400中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块450可以提供应用在终端400上的包括2G/3G/4G/5G/6G等无线通信的解决方案。移动通信模块450可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块450可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块450还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块450的至少部分功能模块可以被设置于处理器440中。在一些实施例中,移动通信模块450的至少部分功能模块可以与处理器440的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器470A,受话器470B等)输出声音信号,或通过显示屏494显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器440,与移动通信模块450或其他功能模块设置在同一个器件中。
无线通信模块460可以提供应用在终端400上的包括无线局域网(wireless localarea networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequencymodulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块460可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块460经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器440。无线通信模块460还可以从处理器440接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,终端400的天线1和移动通信模块450耦合,天线2和无线通信模块460耦合,使得终端400可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code divisionmultiple access,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(globalnavigation satellite system,GLONASS),北斗卫星导航系统(beidou navigationsatellite system,BDS),准天顶卫星系统(quasi-zenith satellite system,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
充电管理模块440用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块440可以通过USB接口430接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块440可以通过终端400的无线充电线圈接收无线充电输入。充电管理模块440为电池442充电的同时,还可以通过电源管理模块441为终端供电。
电源管理模块441用于连接电池442,充电管理模块440与处理器440。电源管理模块441接收电池442和/或充电管理模块440的输入,为处理器440,内部存储器421,外部存储器,显示屏494,摄像头493,和无线通信模块460等供电。电源管理模块441还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块441也可以设置于处理器440中。在另一些实施例中,电源管理模块441和充电管理模块440也可以设置于同一个器件中。
终端400通过GPU,显示屏494,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏494和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器440可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏494用于显示图像,视频等。显示屏494包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,终端400可以包括1个或N个显示屏494,N为大于1的正整数。本申请实施例中,显示屏494可用于在各个APP的图标上显示红点或数量红点,用于提示用户有新消息待处理。
终端400可以通过ISP,摄像头493,视频编解码器,GPU,显示屏494以及应用处理器等实现拍摄功能。
ISP用于处理摄像头493反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头493中。
摄像头493用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,终端400可以包括1个或N个摄像头493,N为大于1的正整数。
外部存储器接口420可以用于连接外部存储卡,例如Micro SD卡,实现扩展终端400的存储能力。外部存储卡通过外部存储器接口420与处理器440通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器421可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器440通过运行存储在内部存储器421的指令,从而执行终端400的各种功能应用以及数据处理。内部存储器421可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储终端400使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器421可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。本申请实施例中,内部存储器421可以用于存储各个APP消息的数据,还可用于存储各个APP对应的红点消除策略。
终端400可以通过音频模块470,扬声器470A,受话器470B,麦克风470C,耳机接口470D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块470用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块470还可以用于对音频信号编码和解码。在一些实施例中,音频模块470可以设置于处理器440中,或将音频模块470的部分功能模块设置于处理器440中。
扬声器470A,也称“喇叭”,用于将音频电信号转换为声音信号。终端400可以通过扬声器470A收听音乐,或收听免提通话。
受话器470B,也称“听筒”,用于将音频电信号转换成声音信号。当终端400接听电话或语音信息时,可以通过将受话器470B靠近人耳接听语音。
麦克风470C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风470C发声,将声音信号输入到麦克风470C。终端400可以设置至少一个麦克风470C。在另一些实施例中,终端400可以设置两个麦克风470C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,终端400还可以设置三个,四个或更多麦克风470C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口470D用于连接有线耳机。耳机接口470D可以是USB接口430,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器480A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器480A可以设置于显示屏494。压力传感器480A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器480A,电极之间的电容改变。终端400根据电容的变化确定压力的强度。当有触摸操作作用于显示屏494,终端400根据压力传感器480A检测所述触摸操作强度。终端400也可以根据压力传感器480A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器480B可以用于确定终端400的运动姿态。在一些实施例中,可以通过陀螺仪传感器480B确定终端400围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器480B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器480B检测终端400抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消终端400的抖动,实现防抖。陀螺仪传感器480B还可以用于导航,体感游戏场景。
气压传感器480C用于测量气压。在一些实施例中,终端400通过气压传感器480C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器480D包括霍尔传感器。终端400可以利用磁传感器480D检测翻盖皮套的开合。在一些实施例中,当终端400是翻盖机时,终端400可以根据磁传感器480D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器480E可检测终端400在各个方向上(一般为三轴)加速度的大小。当终端400静止时可检测出重力的大小及方向。还可以用于识别终端姿态,应用于横竖屏切换,计步器等应用。
距离传感器480F,用于测量距离。终端400可以通过红外或激光测量距离。在一些实施例中,拍摄场景,终端400可以利用距离传感器480F测距以实现快速对焦。
接近光传感器480G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。终端400通过发光二极管向外发射红外光。终端400使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定终端400附近有物体。当检测到不充分的反射光时,终端400可以确定终端400附近没有物体。终端400可以利用接近光传感器480G检测用户手持终端400贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器480G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器480L用于感知环境光亮度。终端400可以根据感知的环境光亮度自适应调节显示屏494亮度。环境光传感器480L也可用于拍照时自动调节白平衡。环境光传感器480L还可以与接近光传感器480G配合,检测终端400是否在口袋里,以防误触。
指纹传感器480H用于采集指纹。终端400可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器480J用于检测温度。在一些实施例中,终端400利用温度传感器480J检测的温度,执行温度处理策略。例如,当温度传感器480J上报的温度超过阈值,终端400执行降低位于温度传感器480J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,终端400对电池442加热,以避免低温导致终端400异常关机。在其他一些实施例中,当温度低于又一阈值时,终端400对电池442的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器480K,也称“触控面板”。触摸传感器480K可以设置于显示屏494,由触摸传感器480K与显示屏494组成触摸屏,也称“触控屏”。触摸传感器480K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏494提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器480K也可以设置于终端400的表面,与显示屏494所处的位置不同。
骨传导传感器480M可以获取振动信号。在一些实施例中,骨传导传感器480M可以获取人体声部振动骨块的振动信号。骨传导传感器480M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器480M也可以设置于耳机中,结合成骨传导耳机。音频模块470可以基于所述骨传导传感器480M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器480M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键490包括开机键,音量键等。按键490可以是机械按键。也可以是触摸式按键。终端400可以接收按键输入,产生与终端400的用户设置以及功能控制有关的键信号输入。
马达491可以产生振动提示。马达491可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏494不同区域的触摸操作,马达491也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
第二部分,本申请实施例所公开的示例应用场景介绍如下。
图2A是示例性示出了终端100的一种人脸检测网络的网络架构图,如图2A所示,所示人脸检测神经网络包括:预处理卷积计算器、最大池化过滤器、第一特征图提取器、第二特征图提取器、预设的卷积计算器、预设的感受野增强层处理器、反卷积计算器、特征卷积计算器。
需要说明的是,如图2A所示的人脸检测网络仅作为一种人脸检测网络的示例,在具体的应用中,人脸检测网络还可以是如图2B所示的人脸检测网络的网络架构图,或者是以其他网络模型的形式存在的人脸检测网络。其中,如图2B所示,所示人脸检测神经网络包括:预处理卷积计算器、最大池化过滤器、第一特征图提取器、第二特征图提取器、第三特征图提取器、预设的卷积计算器、预设的感受野增强层处理器、反卷积计算器、特征卷积计算器。
图3是示例性示出了终端100的一种特征图处理器的结构图,如图3所示,所示特征图处理器包括:卷积特征计算器、第一特征模块、第二特征模块、第三特征模块、连接模块、卷积计算器、拼接器,其中,第一特征模块包括:n个卷积计算器和1个扩张率为m的空洞卷积计算器;第二特征模块包括:n个卷积计算器和1个扩张率为m+2的空洞卷积计算器;第三特征模块包括:n个卷积计算器和1个扩展率为m+4的空洞卷积计算器,其中,n为大于或等于2的整数,m为大于或等于2的整数;该n个卷积计算器可以包括:卷积核为3*3、步长为1、输出为输入1/4的卷积计算器。
图4A是示例性示出了终端100的一种第一特征图提取器的结构图,所示第一特征图提取器包括:多个残差计算模块,其中,如图4B所示,所示多个残差计算模块中任意一个残差计算模块包括:第一卷积计算器、第二卷积计算器、第三卷积计算器和拼接器。
第三部分,本申请实施例所公开的关键技术实现介绍如下。
结合前述实施例,以人脸检测网络的网络结构为例,示例性说明终端人脸检测的工作流程。
在一个可能的实施例中,终端基于在基于目标图片提取第一特征图、第二特征图的过程可以包括以下几个步骤:
S11,获取预处理配置,其中,所述预处理配置包括:预处理卷积核、预处理通道和预处理步长;
具体的,所述预处理卷积核可以包括:7*7卷积核,所述预处理通道可以包括:64,所述预处理步长可以包括:2。
S12,依据所述预处理配置更新预设的卷积计算器,得到预处理卷积计算器,将所述目标图片输入所述预处理卷积计算器,得到预处理卷积图片;
S13,将所述预处理卷积图片输入预设的最大池化过滤器,得到预处理图片;
具体的,所述最大池化过滤器对应的参数可以包括:池化框3*3,池化通道64,池化步长2;其中,将预处理卷积图片输入预设的最大池化过滤器即在预处理卷积图片上以池化步长2为基准遍历池化框,得到多个池化区域,针对池化通道64中任意一个通道执行最大池化计算,即基于所述多个池化区域执行最大值运算,基于池化通道64和所述多个池化区域得到所述最大池化过滤器的输出,即所述预处理图片。
S14,针对所述预处理图片执行特征图提取操作得到所述第一特征图和所述第二特征图。
具体的,所述第一特征图的获取步骤为:将预处理图片经过第一特征提取器进行特征提取,得到第一特征处理图;所述第二特征图的具体确定步骤为:将所述第一特征图经过第一特征提取器进行特征提取,得到第二特征图。
在一个可能的实施例中,终端基于人脸框中心点坐标概率图和目标偏移量在目标图片中确定目标人脸框的过程中,可以包括以下几个步骤:
S21、获取预设的第一阈值,在所述目标人脸框中心点坐标概率图中筛选大于所述第一阈值的一个或多个坐标;
S22、将所述一个或多个坐标代入预设的人脸框计算公式,确定一个或多个待选人脸框;
具体的,所述人脸框计算公式还可以以人脸框计算模型的方式呈现,其中,
S23、获取预设的第二阈值,基于所述第二阈值对所述一个或多个待选人脸框执行非极大值抑制操作,得到所述目标人脸框。
第四部分,本申请实施例所公开的权利要求保护范围介绍如下。
请参阅图5,图5是本申请实施例提供的一种人脸检测方法的流程示意图,如图所示,本方法包括以下操作:
S501、获取目标图片,对所述目标图片执行预处理操作得到预处理图片;
可选的,获取目标图片,可以包括:当接收到人脸检测指令时,启动所述终端100的摄像模组,通过所述摄像模组采集所述目标图片;或者,当接收到人脸检测指令时,从所述人脸检测指令中获取所述目标图片。
可选的,所述对所述目标图片执行预处理操作得到预处理图片,包括:获取预处理配置,其中,所述预处理配置包括:预处理卷积核、预处理通道和预处理步长;依据所述预处理配置更新预设的卷积计算器,得到预处理卷积计算器,将所述目标图片输入所述预处理卷积计算器,得到预处理卷积图片;将所述预处理卷积图片输入预设的最大池化过滤器,得到预处理图片。
其中,该预处理卷积核可以包括7*7卷积核,该预处理通道可以包括64,该预处理步长可以包括2,在此不作限定。
其中,该最大池化过滤器对应的池化配置可以包括:3*3池化框、池化通道64、池化步长2,在此不作限定。
具体的,获取预设的卷积计算器,其中,该卷积计算器为可配置的卷积计算器,即可以通过配置文本进行个更新的卷积计算器,获取该预处理配置,其中,该预处理配置可以以文本格式进行传输,依据该预处理配置对卷积计算器进行更新,得到预处理卷积计算器,该预处理卷积计算器用于对目标图片执行预处理卷积计算操作,得到预处理卷积图片。
S502、将所述预处理图片进行人脸特征图提取操作,得到所述目标图片的第一特征图和第二特征图,所述第二特征图为根据所述第一特征图得到的特征图;
S503、将所述第一特征图输入第一特征提取通道,得到第一融合图,将所述第二特征图输入第二特征提取通道,得到第二融合图;
S504、基于所述第一融合图和所述第二融合图进行拼接计算操作,得到目标特征图;
S505、对所述目标特征图执行卷积计算得到目标人脸框中心点坐标概率图和目标偏移量;
S506、基于所述目标人脸框中心点坐标概率图和所述目标偏移量在所述目标图片中确定目标人脸框。
可以看出,本申请实施例对目标图片预处理、多次对预处理图片进行提取特征、反卷积计算操作和卷积计算操作确定目标人脸框,进而实现人脸检测,本申请实施例减少了人脸检测的计算量,提高了人脸检测的速度。
在一个可能的示例中,所述通过特征图提取操作得到所述目标图片的第一特征图和第二特征图,包括:将所述预处理图片输入预设的第一特征图提取器,得到所述第一特征图;将所述第一特征图输入预设的第二特征图提取器,得到所述第二特征图。
具体实现过程中,所述第一特征图提取器可以包含:3个残差计算模块、特征提取通道256以及特征提取步长1,将所述预处理图片输入所述第一特征图提取器,假设所述预处理图片假设输入图片的空间大小为img_s*img_s,其中,则通过第一特征图提取器提取的第一特征图的空间大小为输入img_s/4*img_s/4;,所述第二特征图提取器可以包含:4个残差计算模块、特征提取通道512以及特征提取步长2,将所述第一特征图输入所述第二特征图提取器,通过第二特征图提取器提取的第二特征图的空间大小为img_s/8*img_s/8。
在一个可能的示例中,所述将所述第一特征图输入第一特征提取通道,得到第一融合图,将所述第二特征图输入第二特征提取通道,得到第二融合图,包括:获取预设的卷积计算器和预设的感受野增强层处理器;将所述第一特征图、所述第二特征图分别依次输入所述预设的卷积计算器和所述预设的感受野增强层处理器,得到第一特征处理图和第二特征处理图,所述第一特征处理图为所述第一融合图;将所述第二特征处理图输入预设的反卷积计算器,得到所述第二融合图,针对所述第三特征处理图和所述第一融合图执行融合相加操作,得到所述第二融合图。
其中,所述反卷积计算器可以包含:4*4反卷积核、反卷积通道256、反卷积步长0.5。
其中,所述预设的感受野增强层处理器如图3所示,可以包括:第一特征模块、第二特征模块、第三特征模块、连接模块、卷积计算器、拼接器。
在一个可能的示例中,将第二特征图输入第三特征提取器,得到第三特征图;所述第三特征图依次输入所述预设的卷积计算器和所述预设的感受野增强层处理器,得到第三特征处理图;将所述第三特征处理输入反卷积计算器,得到第四特征处理图;将所述第二特征处理图和所述第四特征处理图进行融合相加计算得到第五特征处理图;将所述第五特征处理图输入反卷积计算器,得到所述第二融合图。
其中,所述第一特征图提取器可以包含:3个残差计算模块、特征提取通道256以及特征提取步长1,将所述预处理图片输入所述第一特征图提取器,假设所述预处理图片假设输入图片的空间大小为img_s*img_s,其中,则通过第一特征图提取器提取的第一特征图的空间大小为输入img_s/4*img_s/4;,所述第二特征图提取器可以包含:4个残差计算模块、特征提取通道512以及特征提取步长2,将所述第一特征图输入所述第二特征图提取器,通过第二特征图提取器提取的第二特征图的空间大小为img_s/8*img_s/8;所述第三特征图提取器可以包含:6个残差计算模块、特征提取通道1024以及特征提取步长2,将所述第二特征图输入所述第三特征图提取器,通过第三特征图提取器提取的第三特征图的空间大小为img_s/16*img_s/16。
具体实现中,所述第二融合图还可以通过以下具体步骤确定:将第二特征图输入第三特征提取器,得到第三特征图;将所述第三特征图输入第四特征提取器,得到第六特征图;所述第三特征图和所述第四特征图分别依次输入所述预设的卷积计算器和所述预设的感受野增强层处理器,得到第六特征处理图和第七特征处理图;将第七特征处理图输入反卷积计算器,得到第八特征处理图;将所述第六特征处理图和第七特征处理图进行融合相加计算,得到第三特征处理图;将所述第三特征处理图输入反卷积计算器,得到第四特征处理图;将所述第二特征处理图和所述第四特征处理图进行融合相加计算得到第五特征处理图;将所述第五特征处理图输入反卷积计算器,得到所述第二融合图。
具体实现中,所述第二融合图还可以通过上述示例中确定第二融合图的类似的具体步骤的组合方式确定。
其中,所述第四特征图提取器可以包含:3个残差计算模块、特征提取通道2048以及特征提取步长2,将所述第三特征图输入所述第四特征图提取器,通过第四特征图提取器提取的第六特征图的空间大小为img_s/32*img_s/32。所述第一特征图提取器、所述第二特征处理器和所述第三特征处理器的具体内容参考前述示例中的描述,此处不再赘述。
可以看出,本申请实施例对目标图片预处理、多次对预处理图片进行提取特征、通过多通道对不同的提取特征的特征图进行图片处理,经过上述处理的图片进行反卷积计算操作和卷积计算操作,确定目标人脸框,进而实现人脸检测,本申请实施例提高人脸检测的精度,减少了人脸检测的计算量,提高了人脸检测的速度。
在一个可能的示例中,所述对所述目标特征图执行卷积计算得到目标人脸框中心点坐标概率图和目标偏移量,包括:获取预设的特征卷积配置,其中,所述特征卷积配置包括:特征卷积核、特征卷积通道和特征卷积步长;依据所述特征卷积更新所述卷积计算器,得到特征卷积计算器;基于所述目标特征图和所述特征卷积计算器,得到第一输出图和第二输出图;基于所述第一输出图和所述第二输出图计算所述目标人脸框中心点坐标概率图和所述目标偏移量。
其中,所述特征卷积配置可以包括:1*1特征卷积核、特征卷积通道256和特征卷积步长1。
在一个可能的示例中,所述基于所述第一输出图和所述第二输出图计算所述目标人脸框中心点坐标概率图和所述目标偏移量,包括:获取预设的第一输出卷积配置,其中,所述第一输出卷积配置包括:第一输出卷积核、第一输出卷积通道和第一输出卷积步长;获取预设的第二输出卷积配置,其中,所述第二输出卷积配置包括:第二输出卷积核、第二输出卷积通道和第二输出卷积步长;依据所述第一输出卷积配置更新所述卷积计算器得到第一输出卷积计算器,依据所述第二输出卷积配置更新所述卷积计算器得到第二输出卷积计算器;将所述第一输出图输入所述第一输出卷积计算器,得到所述目标人脸框中心点坐标概率图,将所述第二输出图作为所述第二输出卷积计算器的输入,得到所述中心点偏移量。
其中,所述第一输出卷积配置可以包括:1*1第一输出卷积核、第一输出卷积通道1以及第一输出卷积步长1;所述第二输出卷积配置可以包括:1*1第二输出卷积核、第二输出卷积通道4以及第二输出卷积步长1。
具体实现过程中,上述方法应用于如图2所示的人脸检测网络,在获取所述目标人脸之前,对所述人脸检测网络进行训练,得到训练好的人脸检测网络,其中,所述对人脸检测网络进行训练可以包括:获取预设的人脸训练集,对于所述人脸训练集中的人脸图像以及对应的人脸框标注(left,top,bottom,right),首先计算每个人脸框的中心点(cx,cy)以及每个人脸框的尺寸(h,w),将中心点映射到人脸框中心点概率图上对应的位置计算每个人脸框在人脸框中心点概率图上的尺寸在人脸框中心点概率图上以(cx_heat,cy_heat)为中心点,以(wheat/8,hheat/8)为二维高斯分布的参数,绘制满足高斯分布的椭圆,中心点值为1,其他点按照高斯分布进行递减。每个点的值计算公式如下所示:
在人脸框中心点概率图上每一个框的中心点位置的取值,设计为如下公式:
s0=log(hheat)
s1=log(wheat);
在人脸框中心点概率图上每一个框的中心点位置的取值,设计为如下公式:
其中,o0和o1的取值范围为[-0.5,0.5]。
进一步地,所述人脸框中心点概率图损失函数设计为加权L2损失函数:
所述中心点偏移量损失函数设计为L1损失函数:
LossL1=weight*||(Loctarget-Locpredict)||2
具体的,在对所述人脸检测网络进行训练200个轮次,其中,在第1-20个轮次训练时,人脸检测网络的学习率为1e-3,在第21-125个轮次训练时,人脸检测网络的学习率为5e-4,在第125-200个轮次训练时,人脸检测网络的学习率为1e-5,其中,所述人脸检测网络可以通过使用Adam优化器进行优化。
可以看出,本申请实施例在获取所述目标人脸之前,对所述人脸检测网络进行训练,得到训练好的人脸检测网络,并通过使用Adam优化器进行优化得到目标图片,对目标图片预处理、多次对预处理图片进行提取特征、通过多通道对不同的提取特征的特征图进行图片处理,经过上述处理的图片进行反卷积计算操作和卷积计算操作,确定目标人脸框,进而实现人脸检测,本申请实施例提高人脸检测的精度,减少了人脸检测的计算量,提高了人脸检测的速度。
在一个可能的示例中,所述基于所述目标人脸框中心点坐标概率图和所述目标偏移量在所述目标图片中确定目标人脸框,包括:获取预设的第一阈值,在所述目标人脸框中心点坐标概率图中筛选大于所述第一阈值的一个或多个坐标;将所述一个或多个坐标代入预设的人脸框计算公式,确定一个或多个待选人脸框;获取预设的第二阈值,基于所述第二阈值对所述一个或多个待选人脸框执行非极大值抑制操作,得到所述目标人脸框。
其中,所述第一阈值可以包含:0.5,在此不作限定。
其中,所述第二阈值可以包含:0.15,在此不作限定。
具体的,所述目标人脸框中心点坐标概率图中包含多个中心点坐标概率,其中,所述多个中心点坐标概率中任意一个中心点坐标概率表示所述任意一个中心点坐标概率对应的像素点成为所述目标人脸框中心点的概率,从所述多个中心点坐标概率中筛选出大于第一阈值的A个中心点坐标概率,确定所述A个中心点坐标概率对应的A个像素点,基于所述A个像素点计算A个待选人脸框,其中,A为大于0的整数,其中,其余所述A个像素点计算所述A个待选人脸框包括:针对所述A个像素点中任意一个像素点,计算所述任意一个像素点映射到所述目标人脸框中心点坐标概率图上对应的位置 获取目标偏移量中的第一偏移量s0、第二偏移量s1、第三偏移量o0以及第四偏移量o1,获取预设的人脸框计算公式计算所述任意一个像素点对应的人脸框尺寸(H,W)和中心点位置(cx,cy),H表示人脸框的长度,W表示人脸框的宽度,cx表示中心点位置的横坐标,cy标识中心点位置的纵坐标,其中所述人脸框计算公式可以包括:
H=exp(s0)*4,W=exp(s1)*4,cy=(o0+0.5+cy_heat)*4,cx=(o1+0.5+cx_heat)*4;
重复上述步骤,得到A个待选人脸框,计算所述A个待选人脸框对应的A个待选概率,基于第二阈值对所述A个待选概率进行筛选,得到所述目标人脸框。
可以看出,本申请实施例所述基于所述目标人脸框中心点坐标概率图和所述目标偏移量在所述目标图片中确定目标人脸框,进而实现人脸检测,本申请实施例提高人脸检测的精度,提高了人脸检测的速度。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
本申请实施例提供一种人脸检测装置,该界面显示装置可以为终端100。具体的,人脸检测装置用于执行以上人脸检测方法的步骤。本申请实施例提供的人脸检测装置可以包括相应步骤所对应的模块。
本申请实施例可以根据上述方法示例对界面显示装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图6示出上述实施例中所涉及的人脸检测装置的一种可能的结构示意图。如图6所示,人脸检测装置包括:处理单元601和通信单元602,
其中,所述处理单元601,用于获取目标图片,对所述目标图片执行预处理操作得到预处理图片;以及用于将所述预处理图片进行人脸特征图提取操作,得到所述目标图片的第一特征图和第二特征图,所述第二特征图为根据所述第一特征图得到的特征图;以及用于将所述第一特征图输入第一特征提取通道,得到第一融合图,将所述第二特征图输入第二特征提取通道,得到第二融合图;以及用于基于所述第一融合图和所述第二融合图进行拼接计算操作,得到目标特征图;以及用于对所述目标特征图执行卷积计算,得到目标人脸框中心点坐标概率图和目标偏移量;以及用于基于所述目标人脸框中心点坐标概率图和所述目标偏移量,确定所述目标图片中目标人脸框。
其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。当然,本申请实施例提供的人脸检测装置包括但不限于上述模块,例如:人脸检测装置还可以包括存储单元603。存储单元603可以用于存储该界面显示装置的程序代码和数据。
其中,上述方法实施例涉及的各场景的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括终端。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括终端。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (7)
1.一种人脸检测方法,其特征在于,应用于人脸检测设备,所述方法包括:
获取目标图片,对所述目标图片执行预处理操作得到预处理图片,包括:获取预处理配置,其中,所述预处理配置包括:预处理卷积核、预处理通道和预处理步长;依据所述预处理配置更新预设的卷积计算器,得到预处理卷积计算器,将所述目标图片输入所述预处理卷积计算器,得到预处理卷积图片;将所述预处理卷积图片输入预设的最大池化过滤器,得到预处理图片;
将所述预处理图片进行人脸特征图提取操作,得到所述目标图片的第一特征图和第二特征图,所述第二特征图为根据所述第一特征图得到的特征图;
将所述第一特征图输入第一特征提取通道,得到第一融合图,将所述第二特征图输入第三特征提取器,得到第三特征图;所述第三特征图依次输入所述预设的卷积计算器和预设的感受野增强层处理器,得到第三特征处理图;将所述第三特征处理图输入反卷积计算器,得到第四特征处理图;将第二特征处理图和所述第四特征处理图进行融合相加计算得到第五特征处理图,其中,所述第二特征处理图为将所述第二特征图依次输入所述预设的卷积计算器和所述预设的感受野增强层处理器得到的;将所述第五特征处理图输入反卷积计算器,得到第二融合图;
基于所述第一融合图和所述第二融合图进行拼接计算操作,得到目标特征图;
对所述目标特征图执行卷积计算,得到目标人脸框中心点坐标概率图和目标偏移量;
基于所述目标人脸框中心点坐标概率图和所述目标偏移量,确定所述目标图片中目标人脸框;
通过特征图提取操作得到所述目标图片的第一特征图和第二特征图,包括:
将所述预处理图片输入预设的第一特征图提取器,得到所述第一特征图;
将所述第一特征图输入预设的第二特征图提取器,得到所述第二特征图。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标特征图执行卷积计算得到目标人脸框中心点坐标概率图和目标偏移量,包括:
获取预设的特征卷积配置,其中,所述特征卷积配置包括:特征卷积核、特征卷积通道和特征卷积步长;
依据所述特征卷积配置更新所述卷积计算器,得到特征卷积计算器;
基于所述目标特征图和所述特征卷积计算器,得到第一输出图和第二输出图;
基于所述第一输出图和所述第二输出图计算所述目标人脸框中心点坐标概率图和所述目标偏移量。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一输出图和所述第二输出图计算所述目标人脸框中心点坐标概率图和所述目标偏移量,包括:
获取预设的第一输出卷积配置,其中,所述第一输出卷积配置包括:第一输出卷积核、第一输出卷积通道和第一输出卷积步长;
获取预设的第二输出卷积配置,其中,所述第二输出卷积配置包括:第二输出卷积核、第二输出卷积通道和第二输出卷积步长;
依据所述第一输出卷积配置更新所述卷积计算器得到第一输出卷积计算器,依据所述第二输出卷积配置更新所述卷积计算器得到第二输出卷积计算器;
将所述第一输出图输入所述第一输出卷积计算器,得到所述目标人脸框中心点坐标概率图,将所述第二输出图作为所述第二输出卷积计算器的输入,得到中心点偏移量。
4.根据权利要求1 所述的方法,其特征在于,所述基于所述目标人脸框中心点坐标概率图和所述目标偏移量在所述目标图片中确定目标人脸框,包括:
获取预设的第一阈值,在所述目标人脸框中心点坐标概率图中筛选大于所述第一阈值的一个或多个坐标;
将所述一个或多个坐标代入预设的人脸框计算公式,确定一个或多个待选人脸框;
获取预设的第二阈值,基于所述第二阈值对所述一个或多个待选人脸框执行非极大值抑制操作,得到所述目标人脸框。
5.一种人脸检测装置,其特征在于,应用于电子设备,所述装置包括:处理单元和通信单元,
所述处理单元,用于获取目标图片,对所述目标图片执行预处理操作得到预处理图片,包括:获取预处理配置,其中,所述预处理配置包括:预处理卷积核、预处理通道和预处理步长;依据所述预处理配置更新预设的卷积计算器,得到预处理卷积计算器,将所述目标图片输入所述预处理卷积计算器,得到预处理卷积图片;将所述预处理卷积图片输入预设的最大池化过滤器,得到预处理图片;以及用于将所述预处理图片进行人脸特征图提取操作,得到所述目标图片的第一特征图和第二特征图,所述第二特征图为根据所述第一特征图得到的特征图;以及用于将所述第一特征图输入第一特征提取通道,得到第一融合图,将所述第二特征图输入第三特征提取器,得到第三特征图;所述第三特征图依次输入所述预设的卷积计算器和预设的感受野增强层处理器,得到第三特征处理图;将所述第三特征处理图输入反卷积计算器,得到第四特征处理图;将第二特征处理图和所述第四特征处理图进行融合相加计算得到第五特征处理图,其中,所述第二特征处理图为将所述第二特征图依次输入所述预设的卷积计算器和所述预设的感受野增强层处理器得到的;将所述第五特征处理图输入反卷积计算器,得到所述第二融合图;以及用于基于所述第一融合图和所述第二融合图进行拼接计算操作,得到目标特征图;以及用于对所述目标特征图执行卷积计算,得到目标人脸框中心点坐标概率图和目标偏移量;以及用于基于所述目标人脸框中心点坐标概率图和所述目标偏移量,确定所述目标图片中目标人脸框,其中,所述处理单元将所述预处理图片进行人脸特征图提取操作,得到所述目标图片的第一特征图和第二特征图,包括:所述处理单元将所述预处理图片输入预设的第一特征图提取器,得到所述第一特征图;将所述第一特征图输入预设的第二特征图提取器,得到所述第二特征图。
6.一种终端,其特征在于,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-4任一项所述的方法中的步骤的指令。
7.一种计算机可读存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010398720.3A CN111563466B (zh) | 2020-05-12 | 2020-05-12 | 人脸检测方法及相关产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010398720.3A CN111563466B (zh) | 2020-05-12 | 2020-05-12 | 人脸检测方法及相关产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111563466A CN111563466A (zh) | 2020-08-21 |
CN111563466B true CN111563466B (zh) | 2023-10-10 |
Family
ID=72068203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010398720.3A Active CN111563466B (zh) | 2020-05-12 | 2020-05-12 | 人脸检测方法及相关产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111563466B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036339B (zh) * | 2020-09-03 | 2024-04-09 | 福建库克智能科技有限公司 | 人脸检测的方法、装置和电子设备 |
CN112465754B (zh) * | 2020-11-17 | 2021-09-03 | 云润大数据服务有限公司 | 基于分层感知融合的3d医疗图像分割方法、装置及存储介质 |
CN112508099A (zh) * | 2020-12-07 | 2021-03-16 | 国网河南省电力公司电力科学研究院 | 一种实时目标检测的方法和装置 |
CN112613401A (zh) * | 2020-12-22 | 2021-04-06 | 贝壳技术有限公司 | 一种人脸检测的方法、装置、电子设备及存储介质 |
CN112926463A (zh) * | 2021-03-02 | 2021-06-08 | 普联国际有限公司 | 一种目标检测方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537208A (zh) * | 2018-04-24 | 2018-09-14 | 厦门美图之家科技有限公司 | 一种多尺度的人脸检测方法及计算设备 |
CN109711332A (zh) * | 2018-12-26 | 2019-05-03 | 浙江捷尚视觉科技股份有限公司 | 一种基于回归算法的人脸跟踪方法及应用 |
CN109815789A (zh) * | 2018-12-11 | 2019-05-28 | 国家计算机网络与信息安全管理中心 | 在cpu上实时多尺度人脸检测方法与系统及相关设备 |
CN110569754A (zh) * | 2019-08-26 | 2019-12-13 | 江西航天鄱湖云科技有限公司 | 图像目标检测方法、装置、存储介质及设备 |
CN110598788A (zh) * | 2019-09-12 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN110688930A (zh) * | 2019-09-20 | 2020-01-14 | Oppo广东移动通信有限公司 | 人脸检测方法、装置、移动终端及存储介质 |
-
2020
- 2020-05-12 CN CN202010398720.3A patent/CN111563466B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537208A (zh) * | 2018-04-24 | 2018-09-14 | 厦门美图之家科技有限公司 | 一种多尺度的人脸检测方法及计算设备 |
CN109815789A (zh) * | 2018-12-11 | 2019-05-28 | 国家计算机网络与信息安全管理中心 | 在cpu上实时多尺度人脸检测方法与系统及相关设备 |
CN109711332A (zh) * | 2018-12-26 | 2019-05-03 | 浙江捷尚视觉科技股份有限公司 | 一种基于回归算法的人脸跟踪方法及应用 |
CN110569754A (zh) * | 2019-08-26 | 2019-12-13 | 江西航天鄱湖云科技有限公司 | 图像目标检测方法、装置、存储介质及设备 |
CN110598788A (zh) * | 2019-09-12 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN110688930A (zh) * | 2019-09-20 | 2020-01-14 | Oppo广东移动通信有限公司 | 人脸检测方法、装置、移动终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111563466A (zh) | 2020-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563466B (zh) | 人脸检测方法及相关产品 | |
CN113810601B (zh) | 终端的图像处理方法、装置和终端设备 | |
CN111510626B (zh) | 图像合成方法及相关装置 | |
CN113542580B (zh) | 去除眼镜光斑的方法、装置及电子设备 | |
US11889386B2 (en) | Device searching method and electronic device | |
CN111343326A (zh) | 获取测试日志的方法及相关装置 | |
CN111580671A (zh) | 视频图像处理方法及相关装置 | |
CN111556479B (zh) | 信息共享方法及相关装置 | |
CN111399659B (zh) | 界面显示方法及相关装置 | |
WO2022022319A1 (zh) | 一种图像处理方法、电子设备、图像处理系统及芯片系统 | |
CN115641867B (zh) | 语音处理方法和终端设备 | |
CN116321265B (zh) | 网络质量评估方法、电子设备以及存储介质 | |
CN117133311B (zh) | 音频场景识别方法及电子设备 | |
CN116703741B (zh) | 一种图像对比度的生成方法、装置和电子设备 | |
CN112579425B (zh) | 一种用于对小程序方法接口进行测试的方法、装置及介质 | |
CN116709018B (zh) | 一种变焦条分割方法及电子设备 | |
CN116709023B (zh) | 视频处理方法和装置 | |
CN114020186B (zh) | 健康数据的显示方法和显示装置 | |
CN113129220B (zh) | 图像处理方法及电子设备 | |
CN113626115A (zh) | 生成表盘的方法及相关装置 | |
CN117274663A (zh) | 一种目标检测方法和电子设备 | |
CN116419003A (zh) | 一种建筑物编码方法以及相关装置 | |
CN117714860A (zh) | 图像处理方法及电子设备 | |
CN116757259A (zh) | 网络模型处理方法、设备、存储介质和程序产品 | |
CN117133311A (zh) | 音频场景识别方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |