CN110647893A - 目标对象识别方法、装置、存储介质和设备 - Google Patents

目标对象识别方法、装置、存储介质和设备 Download PDF

Info

Publication number
CN110647893A
CN110647893A CN201910892639.8A CN201910892639A CN110647893A CN 110647893 A CN110647893 A CN 110647893A CN 201910892639 A CN201910892639 A CN 201910892639A CN 110647893 A CN110647893 A CN 110647893A
Authority
CN
China
Prior art keywords
point
packet
convolutional layer
feature
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910892639.8A
Other languages
English (en)
Other versions
CN110647893B (zh
Inventor
赵梦傲
张骞
王国利
苏治中
晏梦佳
徐梓宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Horizon Robotics Technology Research and Development Co Ltd
Original Assignee
Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Horizon Robotics Technology Research and Development Co Ltd filed Critical Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority to CN201910892639.8A priority Critical patent/CN110647893B/zh
Publication of CN110647893A publication Critical patent/CN110647893A/zh
Application granted granted Critical
Publication of CN110647893B publication Critical patent/CN110647893B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

公开了一种目标对象识别方法、装置、存储介质和设备。其中的识别方法包括:将待识别图像提供给用于目标对象识别的神经网络;在通过所述神经网络对所述待识别图像执行特征提取处理操作的过程中,根据所述神经网络中的分组卷积层对应的卷积分组数,对所述分组卷积层的输入特征进行分组卷积处理,得到所述分组卷积层的输出特征;其中,所述分组卷积层对应的卷积分组数是根据所述分组卷积层的输入特征通道数和分组基数确定的;根据该神经网络的输出,获得所述待识别图像的目标对象特征向量;基于所述特征向量,识别所述待识别图像中的目标对象。本公开有利于使神经网络具有较小的计算代价和较低的计算延迟。

Description

目标对象识别方法、装置、存储介质和设备
技术领域
本公开涉及计算机视觉技术,尤其是一种目标对象识别方法、目标对象识别装置、存储介质以及电子设备。
背景技术
在一些应用场景中,由于终端设备的硬件条件等因素,往往不仅要考虑部署在终端设备中的目标对象识别模型的识别准确性,还要同时考虑目标对象识别模型的计算量、计算时间以及计算过程中的参数量。如何在保证目标对象识别模型具有较好的识别准确性的同时,兼顾较小的计算量、较低的计算延迟以及较少的参数量,是一个值得关注的技术问题。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种目标对象识别方法、目标对象识别装置、存储介质和电子设备。
根据本公开实施例的一个方面,提供一种目标对象识别方法,包括:将待识别图像提供给用于目标对象识别的神经网络;在通过所述神经网络对所述待识别图像执行特征提取处理操作的过程中,根据所述神经网络中的分组卷积层对应的卷积分组数,对所述分组卷积层的输入特征进行分组卷积处理,得到所述分组卷积层的输出特征;其中,所述分组卷积层对应的卷积分组数是根据所述分组卷积层的输入特征通道数和分组基数确定的;根据所述神经网络的输出,获得所述待识别图像的目标对象特征向量;基于所述特征向量,识别所述待识别图像中的目标对象。
根据本公开实施例的另一个方面,提供一种目标对象识别装置,所述装置包括:输入模块,用于将待识别图像提供给用于目标对象识别的神经网络;分组卷积处理模块,用于在通过所述神经网络对所述输入模块提供的待识别图像执行特征提取处理操作的过程中,根据所述神经网络中的分组卷积层对应的卷积分组数,对所述分组卷积层的输入特征进行分组卷积处理,得到所述分组卷积层的输出特征;其中,所述分组卷积层对应的卷积分组数是根据所述分组卷积层的输入特征通道数和分组基数确定的;获得特征向量模块,用于根据所述神经网络的输出,获得所述待识别图像的目标对象特征向量;目标对象识别模块,用于基于所述获得特征向量所获得的特征向量,识别所述待识别图像中的目标对象。
根据本公开实施例的再一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述目标对象识别方法。
根据本公开实施例的又一方面,提供了一种电子设备,该电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述目标对象识别方法。
基于本公开上述实施例提供的一种目标对象识别方法和装置,通过在神经网络执行特征提取处理操作的分组卷积处理过程中,获取分组卷积层对应的卷积分组数,由于该卷积分组数是由分组卷积层的输入特征的通道数和分组基数确定的,因此,在每次进行分组卷积处理时,不同的分组卷积处理均对应相同的通道数,且每一个分组卷积处理对应的通道数均为多个,从而有利于提高乘法器的利用率。由此可知,本公开提供的技术方案有利于在保证神经网络具有较好的目标对象识别准确性的同时,使神经网络具有较小的计算代价和较低的计算延迟。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本公开所适用的一个场景示意图;
图2为本公开所适用的另一个场景示意图;
图3为本公开的目标对象识别方法一个实施例的流程示意图;
图4为本公开的通过第二神经网络对待识别图像执行特征提取处理的过程中的一处理过程的流程示意图;
图5为本公开的通过第二神经网络对待识别图像执行特征提取处理的过程中的另一处理过程的流程示意图;
图6为本公开的通过第二神经网络对待识别图像执行特征提取处理的过程中的又一处理过程的流程示意图;
图7为本公开的通过第二神经网络对待识别图像执行特征提取处理的过程中的再一处理过程的流程示意图;
图8为本公开的标准单元模块的一个例子的结构示意图;
图9为本公开的下采样模块的一个例子的结构示意图;
图10为本公开的头部模块的一个例子的结构示意图;
图11为本公开的尾部模块的一个例子的结构示意图;
图12为本公开的第二神经网络的一个例子的结构示意图;
图13为本公开的目标对象识别装置的一个例子的结构示意图;
图14为本公开的目标对象识别装置中的一部分结构示意图;
图15为本公开的目标对象识别装置中的另一部分结构示意图;
图16为本公开的目标对象识别装置中的又一部分结构示意图;
图17为本公开的目标对象识别装置中的再一部分结构示意图;
图18为本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或者两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅是一种描述关联对象的关联关系,表示可以存在三种关系,如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中,任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
本公开概述
在实现本公开的过程中,发明人发现,CPU在执行目标对象识别模型对应的运算的过程中往往会受到设备硬件条件的限制,例如,如果目标对象识别模型所消耗的计算资源较大,且目标对象识别模型所使用的参数量较大,则目标对象识别模型无法直接在智能移动电话或者智能车载系统等终端设备中执行。另外,如果目标对象识别模型的计算延迟较大,则目标对象识别模型很难应用在对实时性要求较高的任务中。
为了降低目标对象识别模型的计算量和参数量,以尽量避免设备的硬件条件的限制,一些神经网络使用DSC(Depthwise Separable Convolutions,深度可分离卷积)来取代目标对象识别模型中的传统卷积。深度可分离卷积通常包括两部分内容,即DC(DepthwiseConvolution,深度卷积)以及PC(Pointwise Convolution,逐点卷积)。
深度可分离卷积在实现卷积处理过程中,通常先考虑区域,然后,再考虑通道,实现了通道和区域的分离。深度可分离卷积所需要的参数数量小于传统卷积所需要的参数数量。然而,由于深度可分离卷积中的深度卷积的卷积分组数量等于深度卷积的输入特征通道数量,因此,在通过执行卷积运算的硬件设备在计算过程中,不仅会造成设备中的乘法器的利用率不足,而且,分组数量较多还会导致MAC(Memory Access Cost,内存访问成本)的增加,从而不利于降低目标对象识别模型的计算代价和计算延迟。
示例性概述
本公开的技术方案的适用场景的一个例子如图1所示。
图1中,用户100的智能移动电话101具有刷脸解锁功能。在智能移动电话101处于黑屏状态下,若用户100点亮智能移动电话101的屏幕,则智能移动电话101开始执行刷脸解锁操作。例如,智能移动电话101启动内置摄像头的拍摄功能,并针对摄像头拍摄获得的视频中的至少一视频帧分别执行人脸检测,并针对检测获得的人脸图像进行特征提取处理操作,获得每一人脸图像的人脸特征向量,智能移动电话101可以针对人脸特征向量继续执行后续的人脸识别操作,例如,识别视频帧中的人脸是否为活体以及该人脸是否为具有屏幕解锁功能的人脸等,智能移动电话101可以根据人脸识别结果,确定是否解锁屏幕。
另外,在智能移动电话101中的APP(Application,应用程序)具有刷脸支付功能的情况下,智能移动电话101中的APP在获得待支付账单后,可以根据人脸识别结果,确定是否支付该账单。
本公开的技术方案的适用场景的另一个例子如图2所示。
图2中,车辆200可以实现智能驾驶,例如,车辆200可以实现自动驾驶或者辅助驾驶等。车辆200的车载系统(图1中未示出)包括:控制系统(图1中未示出)以及摄像装置201。
在车辆200处于自动驾驶模式或者高级辅助驾驶模式的情况下,摄像装置201通过视频拍摄功能可以实时的获得车辆200所在路面的视频流,摄像装置201将其拍摄获得的视频流实时的提供给车辆200的车载系统中的控制系统。控制系统可以针对摄像装置201传输来的视频流中的至少一视频帧分别执行目标对象检测,并针对检测获得的目标对象图像进行特征提取处理操作,获得每一目标对象图像的目标对象特征向量,控制系统利用目标对象特征向量执行后续的目标对象识别操作,例如,识别目标对象中的目标对象是行人、车辆、交通标志或者建筑物等,之后,控制系统可以根据目标对象识别结果,实时产生并下发相应的控制指令,从而实现控制车辆200的驾驶状态。控制系统产生并下发的控制指令包括但不限于:速度保持控制指令、速度调整控制指令、方向保持控制指令、方向调整控制指令以及预警提示控制指令等。
需要特别说明的是,上述实现目标对象属性识别的操作也可以由摄像装置201执行,即摄像装置201对至少一视频帧分别执行目标对象检测,并针对检测获得的目标对象图像进行特征提取处理操作,获得每一目标对象图像的目标对象特征向量,摄像装置201可以将其获得的目标对象特征向量提供给控制系统,由控制系统利用目标对象特征向量执行后续的目标对象识别操作,摄像装置201也可以利用目标对象特征向量自己执行后续的目标对象识别操作,之后,摄像装置201将目标对象识别结果提供给控制系统,由控制系统根据接收到的目标对象识别结果,实时产生并下发相应的控制指令,从而实现控制车辆200的驾驶状态。
示例性方法
图3为本公开的目标对象识别方法一个实施例的流程图。如图3所示,该实施例的方法块包括步骤:S300、S301、S302以及S303。下面对各步骤分别进行说明。
S300、将待识别图像提供给用于目标对象识别的神经网络。
本公开中的待识别图像通常是指包括有目标对象的图像块或者图像区域。例如,将图像提供给用于检测目标对象的神经网络(下述简称为第一神经网络),经由该第一神经网络检测图像中是否包含有目标对象以及目标对象的包围框(bounding BOX),本公开可以利用检测到的包围框从图像中截取出图像块或者确定出图像中的包围框对应的图像区域,并将该图像块或者图像区域作为本公开的待识别图像。该待识别图像可以为基于RGB的图像。
本公开中的目标对象可以包括但不限于:人脸、机动车、行人、建筑物、交通标志牌、猫或者狗等。
S301、在通过该神经网络对待识别图像执行特征提取处理操作的过程中,根据神经网络中的分组卷积层对应的卷积分组数,对分组卷积层的输入特征进行分组卷积处理,得到分组卷积层的输出特征。
本公开中的用于目标对象识别的神经网络(下述简称为第二神经网络)所执行的操作包括:对待识别图像执行特征提取处理操作,以便于获得待识别图像的目标对象特征向量。
本公开中的第二神经网络可以包括至少一分组卷积层。本公开中的分组卷积层可以是指第二神经网络中的需要针对其输入特征,执行分组卷积处理的层。本公开中的分组卷积层的输入特征可以为Featuremap(特征图)。本公开中的分组卷积层的输出特征也可以为Featuremap。
本公开中的分组卷积处理可以认为是:分组卷积层的输入特征的通道数被划分为N组(N大于1),N即为卷积分组数,相应的,该分组卷积层中的卷积核的也被划分为N组,卷积核的大小保持不变,一组卷积核对应输入图像特征的一组通道数,一组卷积核根据其对应的通道数,对输入特征进行分组卷积处理。本公开中的分组卷积处理可以使分组卷积层的输出特征的通道数与输入特征的通道数相同,也可以使分组卷积层的输出特征的通道数与输入特征的通道数不相同,例如,本公开可以使分组卷积层的输出特征的通道数为输入特征的通道数的两倍或者更多倍等。
本公开中的卷积分组数是根据分组卷积层的输入特征通道数和分组基数(GroupBase)确定的。本公开中的分组基数通常为预先设置的已知值,且分组基数通常为大于1的整数。本公开可以将分组卷积层的输入特征通道数和分组基数的商作为分组卷积层对应的卷积分组数。对于不同的分组卷积层而言,如果不同的分组卷积层各自的输入特征通道数不相同,则针对不同的分组卷积层所获得的卷积分组数通常不相同。相对于现有技术的分组卷积而言,由于现有技术的分组卷积层的卷积分组数是固定不变的,而本公开中的卷积分组数通常是随着分组卷积层的输入特征通道数的变化而变化的,因此,本公开针对分组卷积层的输入特征所执行的分组卷积处理可称为可变式分组卷积(Variable GroupConvolution)处理,本公开中的分组卷积层可以称为可变式分组卷积层。另外,本公开中的可变式分组卷积处理可以应用在深度可分离卷积中,例如,深度可分离卷积中的深度卷积可以替换为本公开的可变式分组卷积处理,从而有利于避免深度分分离卷积由于深度卷积的分组数过多,而导致的乘法器的利用率不足以及内存访问成本(MAC)增加的现象。
S302、根据神经网络的输出,获得待识别图像的目标对象特征向量。
本公开中的目标对象特征向量可以是指目标对象的一维特征。
S303、基于目标对象特征向量,识别待识别图像中的目标对象。
本公开可以通过对目标对象特征向量进行分类处理,识别出待识别图像中的目标对象。例如,将目标对象特征向量提供给分类器,由分类器执行目标对象分类处理,本公开可以根据分类器的输出确定出待识别图像中的目标对象的类别。
本公开也可以通过计算目标对象特征向量与预设数据库(如人脸底库等)中的各记录的特征向量之间的相似度,识别出待识别图像中的目标对象。例如,计算目标对象特征向量与预设数据库中的各记录的特征向量之间的距离(如欧式距离等),并判断其中的最小距离和预设距离阈值确定预设数据库中与目标对象匹配的记录。
本公开通过在神经网络(即第二神经网络)执行特征提取处理操作的分组卷积处理过程中,获取分组卷积层对应的卷积分组数,由于该卷积分组数是由分组卷积层的输入特征的通道数和分组基数确定的,因此,在每次进行分组卷积处理时,不同的分组卷积处理均对应相同的通道数,且每一个分组卷积处理对应的通道数均为多个,从而有利于提高乘法器的利用率。由此可知,本公开提供的技术方案有利于在保证神经网络(即第二神经网络)具有较好的目标对象识别准确性的同时,使神经网络具有较小的计算代价和较低的计算延迟,从而有利于在终端设备中实现目标对象识别。
在一个可选示例中,本公开中的分组基数可以是根据执行目标对象识别的设备的数据处理器中的乘加单元的排布格式设置的。可选的,本公开中的分组基数可以为X的非零正整数倍,X通常可以为大于1的正整数。例如,分组基数可以为X、2X、3X、4X或者5X等,其中的X可以为4或8等。可选的,本公开中的分组基数通常为8或者8的正整数倍。在一实施例中,数据处理器可以为神经网络加速器(例如,BPU,Brain Processing Unit,大脑处理单元)、中央处理器(CPU,Central Processing Unit)等能够支持神经网络的卷积运算的处理器。
本公开通过根据设备中的乘加单元的排布格式确定分组基数,可以使分组卷积层在对输入特征进行分组卷积处理时,分组卷积层中的卷积核可以利用乘加单元中的所有乘法器进行卷积运算,从而可以避免乘加单元得不到充分利用的现象,而且还可以避免分组数量过多而导致的内存访问时间成本增加的现象。
在一个可选示例中,本公开在通过神经网络(即第二神经网络)对待识别图像执行特征提取处理操作的过程中,可以将分组卷积层的输出特征作为神经网络(即第二神经网络)中的逐点卷积层的输入特征,并对逐点卷积层的输入特征进行逐点卷积(PointwiseConvolution)处理操作,得到逐点卷积层的输出特征。也就是说,本公开在执行完神经网络中的任一分组卷积层的卷积运算之后,可以继续执行逐点卷积层的卷积运算。
可选的,本公开中的逐点卷积处理可以是指采用1×1×C的卷积核所进行的卷积运算,其中,C表示卷积核的通道数。本公开中的逐点卷积处理可以使分组卷积层的输出特征的通道数与逐点卷积层的输出特征的通道数不相同,例如,逐点卷积层的输出特征的通道数可以是逐点卷积层的输入特征的通道数的两倍。另外,本公开中的逐点卷积处理也可以使分组卷积层的输出特征的通道数与逐点卷积层的输出特征的通道数相同,即逐点卷积层可以保持其输入特征和输出特征的通道数不变。
可选的,本公开中的可变式分组卷积的计算量可以用下述公式(1)表示:
k2×hi×wi×S×ci+1 公式(1)
在上述公式(1)中,k表示第i层可变式分组卷积层的卷积核的大小;hi×wi表示第i层可变式分组卷积层的空间分辨率;ci+1表示第i层可变式分组卷积层的输出特征的通道数;S可以表示为下述公式(2)的形式:
Figure BDA0002209239960000091
在上述公式(2)中,ci表示第i层可变式分组卷积层的输入特征的通道数;ni表示第i层可变式分组卷积层的卷积分组数。
可选的,本公开中的逐点卷积的计算量可以使用下述公式(3)表示:
12×hi×wi×ci+1×ci+2 公式(3)
在上述公式(3)中,hi×wi表示与第i层可变式分组卷积层连接的第i层逐点卷积层的空间分辨率;ci+1表示第i层可变式分组卷积层的输出特征的通道数,即第i层逐点卷积层的输入特征的通道数;ci+2表示第i层逐点卷积层的输出特征的通道数。
由上述公式(1)至公式(3)可知,可变式分组卷积的计算量与逐点卷积的计算量的比值为:
Figure BDA0002209239960000101
在实际应用中,由于ci+2>>k2,且S>1,因此,下述公式(5)成立:
在上述公式(5)中,
Figure BDA0002209239960000103
为深度可分离卷积中的深度卷积的计算量与逐点卷积的计算量的比值。
由上述公式(5)可知,本公开中的可变式分组卷积层与逐点卷积层的计算量(如乘法累加运算量)更加平衡,从而有利于降低内存访问成本。
本公开通过对分组卷积处理后获得的分组卷积层的输出特征进行逐点卷积处理,可以将分组卷积处理得到的特征结合起来,从而有利于提高最终获得的目标对象特征向量的准确性。
在一个可选示例中,本公开中先后执行的可变式分组卷积层与逐点卷积层的卷积运算,可以认为是第二神经网络中的一种基本逻辑单元。也就是说,数据处理器先对一输入特征进行分组卷积处理,再对分组卷积处理的结果进行逐点卷积处理,可以认为是针对输入特征的一种基本处理方式。本公开可以根据实际需求对多个基本逻辑单元进行多种方式的组合,并使第二神经网络包括多种方式的组合的结果。
在一个可选示例中,在通过第二神经网络对待识别图像执行特征提取处理的过程中,本公开可以对一输入特征先后执行两次分组卷积处理以及逐点卷积处理,之后,对第二次逐点卷积处理结果进行压缩并激活处理,然后,将上述输入特征与压缩并激活处理后的特征进行逐元素相加(Elementwise Sum),获得第一特征,并对第一特征进行非线性变换(下述称为第一非线性变换),第一非线性变换的结果被作为第二特征,该第二特征可以被作为第二神经网络中的位于第一非线性变换之后的处理的输入特征。上述处理过程具体如图4所示。
S400、对第一分组卷积层的输入特征进行可变式分组卷积处理,获得第一分组卷积层的输出特征。
本公开中的第一分组卷积层可以认为是带有BN(Batch Normalization,批归一化)处理和非线性变换处理的可变式分组卷积层。第一分组卷积层所具有的非线性变换处理可以采用PReLU等激活函数。本公开中的第一分组卷积层的输出特征的空间分辨率与第一分组卷积层的输入特征的空间分辨率可以相同。本公开中的第一分组卷积层的输出特征的通道数与第一分组卷积层的输入特征的通道数可以不相同,例如,第一分组卷积层的输出特征的通道数可以是第一分组卷积层的输入特征的通道数的两倍。第一分组卷积层的步长可以为1。
S401、将第一分组卷积层的输出特征作为第一逐点卷积层的输入特征,对第一逐点卷积层的输入特征进行逐点卷积处理,获得第一逐点卷积层的输出特征。
本公开中的第一逐点卷积层可以认为是带有BN处理和非线性变换处理的逐点卷积层。同样的,第一逐点卷积层所具有的非线性变换处理可以采用PReLU等激活函数。本公开中的第一逐点卷积层的输出特征的空间分辨率与第一逐点卷积层的输入特征的空间分辨率可以相同。本公开中的第一逐点卷积层的输出特征的通道数与第一逐点卷积层的输入特征的通道数可以不相同,例如,第一逐点卷积层的输入特征的通道数可以是第一逐点卷积层的输出特征的通道数的两倍。
S402、将第一逐点卷积层的输出特征作为第二分组卷积层的输入特征,对第一逐点卷积层的输出特征进行可变式分组卷积处理,获得第二分组卷积层的输出特征。
本公开中的第二分组卷积层可以认为是带有BN处理和非线性变换处理的可变式分组卷积层。第二分组卷积层所具有的非线性变换处理可以采用PReLU等激活函数。本公开中的第二分组卷积层的输出特征的空间分辨率与第二分组卷积层的输入特征的空间分辨率可以相同。本公开中的第二分组卷积层的输出特征的通道数与第二分组卷积层的输入特征的通道数可以不相同,例如,本公开中的第二分组卷积层的输出特征的通道数可以是第二分组卷积层的输入特征的通道数的两倍。第二分组卷积层的步长可以为1。
S403、将第二分组卷积层的输出特征作为第二逐点卷积层的输入特征,对第二逐点卷积层的输入特征进行逐点卷积处理,获得第二逐点卷积层的输出特征。
本公开中的第二逐点卷积层可以认为是带有BN处理和非线性变换处理的逐点卷积层,只是第二逐点卷积层的非线性变换处理被移到了逐元素相加之后执行。当然,也可以认为第二逐点卷积层是带有BN处理的逐点卷积层。本公开中的第二逐点卷积层的输出特征的空间分辨率与第二逐点卷积层的输入特征的空间分辨率可以相同。本公开中的第二逐点卷积层的输出特征的通道数与第二逐点卷积层的输入特征的通道数可以不相同,例如,第二逐点卷积层的输入特征的通道数可以是第二逐点卷积层的输出特征的通道数的两倍。
S404、对第二逐点卷积层的输出特征进行SE(Squeeze and Excitation,压缩并激活)处理。
本公开中的SE处理通过学习获得的特征的各通道的重要程度,可以实现提升对目标对象识别有用的特征,并抑制对目标对象识别用处不大的特征。本公开中的SE处理前的特征的通道数与SE处理后的特征的通道数相同。另外,SE处理后的特征的通道数和空间分辨率分别与第一分组卷积层的输入特征的通道数和空间分辨率相同。
S405、将第一分组卷积层的输入特征与压缩并激活处理后的特征进行逐元素相加,获得第一特征。
本步骤中的逐元素相加可以是指:针对压缩并激活处理后的特征和第一分组卷积层的输入特征中的相同位置处的一特征点而言,将该压缩并激活处理后的特征中的该特征点的各通道的取值分别与第一分组卷积层的输入特征中的该特征点的相应通道的取值,进行相加。例如,将该压缩并激活处理后的特征中的该特征点的第一通道的取值与第一分组卷积层的输入特征中的该特征点的第一通道的取值,进行相加,以此类推,直到将该压缩并激活处理后的特征中的该特征点的最后一通道的取值与第一分组卷积层的输入特征中的该特征点的最后一通道的取值,进行相加。
本公开通过将第一分组卷积层的输入特征与压缩并激活处理后的特征进行逐元素相加,在可变式分组卷积处理和逐点卷积处理的基础上,形成了反项残差(InvertedResidual)结构,有利于避免第一特征的信息丢失现象。
S406、对第一特征进行第一非线性变换,获得第二特征。
本公开可以采用PReLU等激活函数,实现对第一特征的非线性变换。通过对第一特征进行非线性变换,可以使第二特征具有更强的拟合表达能力。
本公开通过对第二逐点卷积层的输出特征进行SE处理,并采用反项残差结构,有利于增强第二特征的判别能力。另外,本公开图4所示的处理过程可以认为是一种组合处理方式,该组合处理方式可以是第二神经网络中的一种块处理方式,第二神经网络可以包括至少一个该种块处理方式,有利于使第二神经网络的结构模块化,从而有利于提高第二神经网络的可维护性。
图4所示的块处理过程可以使其对应的输入通道数和空间分辨率与其对应的输出通道数和空间分辨率保持相同,因此,该块处理方式可以称为标准块处理方式,该块处理方式可以由标准单元模块(Normal Block)实现,该标准单元模块的结构可以如图8所示。
图8中,标准单元模块可以包括:第一分组卷积层、第一逐点卷积层、第二分组卷积层、第二逐点卷积层以及SE模块。标准单元模块的输入特征即为第一分组卷积层的输入特征,标准单元模块的输入特征的通道数为C。在对第一分组卷积层的输入特征进行可变式分组卷积处理(包括BN和PReLU等非线性变换)后,获得的第一分组卷积层的输出特征的通道数为2C。对第一分组卷积层的输出特征进行逐点卷积处理(包括BN和PReLU等非线性变换)后,获得的第一逐点卷积层的输出特征的通道数为C。对第一逐点卷积层的输出特征进行可变式分组卷积处理(包括BN和PReLU等非线性变换),获得的第二分组卷积层的输出特征的通道数为2C。对第二分组卷积层的输出特征进行逐点卷积处理(包括BN处理)后,获得的第二逐点卷积层的输出特征的通道数为C。对第二逐点卷积层的输出特征进行SE处理后,获得的特征的通道数仍为C。将第一分组卷积层的输入特征与SE处理后的特征进行逐元素相加,获得通道数为C的第一特征,对第一特征进行第一非线性变换,获得的第二特征的通道数为C。第二特征即为标准单元模块的输出特征。
在一个可选示例中,在通过第二神经网络对待识别图像执行特征提取处理的过程中,本公开可以对一输入特征并行执行三次分组卷积处理以及逐点卷积处理,之后,对其中的两个并行的逐点卷积处理结果进行逐元素相加,对本次逐元素相加后的特征进行非线性变换(下述称为第二非线性变换),并对第二非线性变换获得的特征执行分组卷积处理以及逐点卷积处理,之后,将第二非线性变换获得的特征与上述并行中的第三个并行的逐点卷积处理结果进行逐元素相加,并对本次逐元素相加后的特征进行非线性变换(下述称为第三非线性变换),第三非线性变换的结果被作为第六特征,该第六特征可以被作为第二神经网络中的位于第三非线性变换之后的处理的输入特征。上述处理过程具体如图5所示。
S500、对第三分组卷积层的输入特征进行可变式分组卷积处理,获得第三分组卷积层的输出特征。
本公开中的第三分组卷积层可以认为是带有BN处理和非线性变换处理的可变式分组卷积层。第三分组卷积层所具有的非线性变换处理可以采用PReLU等激活函数。本公开中的第三分组卷积层的输出特征的空间分辨率与第三分组卷积层的输入特征的空间分辨率可以不相同,例如,第三分组卷积层的输出特征的空间分辨率低于第三分组卷积层的输入特征的空间分辨率,从而实现下采样。本公开中的第三分组卷积层的输出特征的通道数与第三分组卷积层的输入特征的通道数可以不相同,例如,第三分组卷积层的输出特征的通道数可以是第三分组卷积层的输入特征的通道数的两倍。
可选的,第三分组卷积层的步长可以为2,即如果第三分组卷积层的输入特征的空间分辨率为2h×2w,则第三分组卷积层的输出特征的空间分辨率为h×w。
S501、将第三分组卷积层的输出特征作为第三逐点卷积层的输入特征,对第三逐点卷积层的输入特征进行逐点卷积处理,获得第三逐点卷积层的输出特征。
本公开中的第三逐点卷积层可以认为是带有BN处理和非线性变换处理的逐点卷积层。只是第三逐点卷积层的非线性变换处理被移到了逐元素相加之后执行。当然,也可以认为第三逐点卷积层是带有BN处理的逐点卷积层。第三逐点卷积层所具有的非线性变换处理可以采用PReLU等激活函数。本公开中的第三逐点卷积层的输出特征的空间分辨率和通道数可以与第三逐点卷积层的输入特征的空间分辨率和通道数相同。
S502、对第四分组卷积层的输入特征进行可变式分组卷积处理,获得第四分组卷积层的输出特征。
本公开中的第四分组卷积层可以认为是带有BN处理和非线性变换处理的可变式分组卷积层。第四分组卷积层所具有的非线性变换处理可以采用PReLU等激活函数。本公开中的第四分组卷积层的输出特征的空间分辨率与第四分组卷积层的输入特征的空间分辨率可以不相同,例如,第四分组卷积层的输出特征的空间分辨率低于第四分组卷积层的输入特征的空间分辨率,从而实现下采样。本公开中的第四分组卷积层的输出特征的通道数与第四分组卷积层的输入特征的通道数可以不相同,例如,第四分组卷积层的输出特征的通道数可以是第四分组卷积层的输入特征的通道数的两倍。
可选的,第四分组卷积层的步长可以为2,即如果第四分组卷积层的输入特征的空间分辨率为2h×2w,则第四分组卷积层的输出特征的空间分辨率为h×w。
S503、将第四分组卷积层的输出特征作为第四逐点卷积层的输入特征,对第四逐点卷积层的输入特征进行逐点卷积处理,获得第四逐点卷积层的输出特征。
本公开中的第四逐点卷积层可以认为是带有BN处理和非线性变换处理的逐点卷积层。只是第四逐点卷积层的非线性变换处理被移到了逐元素相加之后执行。当然,也可以认为第四逐点卷积层是带有BN处理的逐点卷积层。第四逐点卷积层所具有的非线性变换处理可以采用PReLU等激活函数。本公开中的第四逐点卷积层的输出特征的空间分辨率和通道数可以与第四逐点卷积层的输入特征的空间分辨率和通道数相同。
S504、对第五分组卷积层的输入特征进行可变式分组卷积处理,获得第五分组卷积层的输出特征。
本公开中的第五分组卷积层可以认为是带有BN处理和非线性变换处理的可变式分组卷积层。第五分组卷积层所具有的非线性变换处理可以采用PReLU等激活函数。本公开中的第五分组卷积层的输出特征的空间分辨率与第五分组卷积层的输入特征的空间分辨率可以不相同,例如,第五分组卷积层的输出特征的空间分辨率低于第五分组卷积层的输入特征的空间分辨率,从而实现下采样。本公开中的第五分组卷积层的输出特征的通道数与第五分组卷积层的输入特征的通道数可以不相同,例如,第五分组卷积层的输出特征的通道数可以是第五分组卷积层的输入特征的通道数的两倍。
可选的,第五分组卷积层的步长可以为2,即如果第五分组卷积层的输入特征的空间分辨率为2h×2w,则第五分组卷积层的输出特征的空间分辨率为h×w。
S505、将第五分组卷积层的输出特征作为第五逐点卷积层的输入特征,对第五逐点卷积层的输入特征进行逐点卷积处理,获得第五逐点卷积层的输出特征。
本公开中的第五逐点卷积层可以认为是带有BN处理和非线性变换处理的逐点卷积层。只是第五逐点卷积层的非线性变换处理被移到了逐元素相加之后执行。当然,也可以认为第五逐点卷积层是带有BN处理的逐点卷积层。第五逐点卷积层所具有的非线性变换处理可以采用PReLU等激活函数。本公开中的第五逐点卷积层的输出特征的空间分辨率和通道数可以与第五逐点卷积层的输入特征的空间分辨率和通道数相同。
需要特别说明的是,本公开中的第三分组卷积层、第四分组卷积层和第五分组卷积层的输入特征相同。
S506、将第三逐点卷积层的输出特征与第四逐点卷积层的输出特征进行逐元素相加,获得第三特征。
本步骤中的逐元素相加可以是指:针对第三逐点卷积层的输出特征和第四逐点卷积层的输出特征中的相同位置处的一特征点而言,将该第三逐点卷积层的输出特征中的该特征点的各通道的取值分别与第四逐点卷积层的输出特征中的该特征点的相应通道的取值,进行相加。
S507、对第三特征进行第二非线性变换,获得第四特征。
本公开可以采用PReLU等激活函数,实现对第三特征的非线性变换。通过对第三特征进行非线性变换,可以使第四特征具有更强的拟合表达能力。
S508、将第四特征作为第六分组卷积层的输入特征,对第五分组卷积层的输入特征进行可变式分组卷积处理,获得第六分组卷积层的输出特征。
本公开中的第六分组卷积层可以认为是带有BN处理和非线性变换处理的可变式分组卷积层。第六分组卷积层所具有的非线性变换处理可以采用PReLU等激活函数。本公开中的第六分组卷积层的输出特征的空间分辨率与第六分组卷积层的输入特征的空间分辨率可以相同。第六分组卷积层的步长可以为1。本公开中的第六分组卷积层的输出特征的通道数与第六分组卷积层的输入特征的通道数可以不相同,例如,第六分组卷积层的输出特征的通道数可以是第六分组卷积层的输入特征的通道数的两倍。
S509、将第六分组卷积层的输出特征作为第六逐点卷积层的输入特征,对第六逐点卷积层的输入特征进行逐点卷积处理,获得第六逐点卷积层的输出特征。
本公开中的第六逐点卷积层可以认为是带有BN处理和非线性变换处理的逐点卷积层。只是第六逐点卷积层的非线性变换处理被移到了逐元素相加之后执行。当然,也可以认为第六逐点卷积层是带有BN处理的逐点卷积层。第六逐点卷积层所具有的非线性变换处理可以采用PReLU等激活函数。本公开中的第六逐点卷积层的输出特征的空间分辨率可以与第六逐点卷积层的输入特征的空间分辨率相同,然而,第六逐点卷积层的输出特征的通道数可以与第六逐点卷积层的输入特征的通道数不相同。例如,第六逐点卷积层的输入特征的通道数可以是第六逐点卷积层的输出特征的通道数的两倍。
S510、将第五逐点卷积层的输出特征与第六逐点卷积层的输出特征进行逐元素相加,获得第五特征。
本步骤中的逐元素相加可以是指:针对第五逐点卷积层的输出特征和第六逐点卷积层的输出特征中的相同位置处的一特征点而言,将该第五逐点卷积层的输出特征中的该特征点的各通道的取值分别与第六逐点卷积层的输出特征中的该特征点的相应通道的取值,进行相加。通过对第五逐点卷积层的输出特征与第六逐点卷积层的输出特征进行逐元素相加,有利于避免第五特征的信息丢失现象。
S511、对第五特征进行第三非线性变换,获得第六特征。
本公开可以采用PReLU等激活函数,实现对第五特征的非线性变换。通过对第五特征进行非线性变换,可以使第六特征具有更强的拟合表达能力。
在图5所示的处理过程中,通过并行执行分组卷积处理和逐点卷积处理,并将并行处理获得图像特征逐元素相加,可以等效通道数增倍的效果,从而有利于降低在对特征进行下采样时,丢失的特征信息,进而有利于提高最终获得的待识别图像的目标对象特征向量的准确性。通过在分组卷积处理和逐点卷积处理的基础上,采用反项残差结构,可以进一步避免特征信息丢失现象,有利于增强第六特征的表达能力。本公开中的图5所示的处理过程可以认为是一种组合处理方式,该组合处理方式可以是第二神经网络中的一种块处理方式,第二神经网络可以包括至少一个该种块处理方式,有利于使第二神经网络的结构模块化,从而有利于提高第二神经网络的可维护性。
本公开中的第六特征的空间分辨率和通道数通常与第三分组卷积层、第四分组卷积层和第五分组卷积层的输入特征的空间分辨率和通道数不相同。例如,第六特征的空间分辨率可以是第三分组卷积层、第四分组卷积层和第五分组卷积层的输入特征的空间分辨率的一半,第六特征的通道数可以是第三分组卷积层、第四分组卷积层和第五分组卷积层的输入特征的通道数的一倍,从而本公开可以实现对第三分组卷积层、第四分组卷积层和第五分组卷积层的输入特征的下采样处理(即降采样处理)。
图5所示的块处理过程可以使其对应的输入通道数和空间分辨率与其对应的输出通道数和空间分辨率均不相同,该块处理方式可以称为基于下采样的块处理方式,该块处理方式可以由下采样模块(Down Sample Block)实现。该下采样模块的结构可以如图9所示。
图9中,下采样模块可以包括:第三分组卷积层、第三逐点卷积层、第四分组卷积层、第四逐点卷积层、第五分组卷积层、第五逐点卷积层、第六分组卷积层以及第六逐点卷积层。下采样模块的输入特征即为第三分组卷积层、第四分组卷积层和第五分组卷积层的输入特征,下采样模块的输入特征的通道数为C。
在对第三分组卷积层、第四分组卷积层和第五分组卷积层的输入特征分别进行可变式分组卷积处理(包括BN和PReLU等非线性变换)后,获得的第三分组卷积层、第四分组卷积层和第五分组卷积层的输出特征的通道数均为2C。对第三分组卷积层、第四分组卷积层和第五分组卷积层的输出特征分别进行逐点卷积处理(包括BN)后,获得的第三逐点卷积层、第四逐点卷积层和第五逐点卷积层的输出特征的通道数均为2C。将第三逐点卷积层的输出特征和第四逐点卷积层的输出特征进行逐元素相加,获得通道数为2C的第三特征,对第三特征进行第二非线性变换,获得的第四特征的通道数为2C。对第四特征进行可变式分组卷积处理,获得的第六分组卷积层的输出特征的通道数为4C。对第六分组卷积层的输出特征进行逐点卷积处理(包括BN)后,获得的第六逐点卷积层的输出特征的通道数均为2C。将第六逐点卷积层的输出特征和第五逐点卷积层的输出特征进行逐元素相加,获得通道数为2C的第五特征,对第五特征进行第三非线性变换,获得的第六特征的通道数为2C。第六特征即为下采样模块的输出特征。
在一个可选示例中,在通过第二神经网络对待识别图像执行特征提取处理的过程中,本公开可以对一特征并行执行两次分组卷积处理以及逐点卷积处理,之后,对其中的一个并行的逐点卷积处理结果执行分组卷积处理以及逐点卷积处理,之后,其中另一个并行的主动卷积处理结果与针对逐点卷积处理结果执行分组卷积处理以及逐点卷积处理的结果,进行逐元素相加,并对本次逐元素相加后的特征进行非线性变换(下述称为第四非线性变换),第四非线性变换的结果被作为第八特征,该第八特征可以被作为第二神经网络中的位于第四非线性变换之后的处理的输入特征。另外,上述被并行执行了两次分组卷积处理以及逐点卷积处理的特征可以是由待识别图像形成的特征,例如,可以是对待识别图像进行卷积操作,而获得的特征。上述处理过程具体如图6所示。
S600、对待识别图像进行卷积处理,获得第九特征。
可选的,本公开中的待识别图像可以是包括目标对象的图像块,例如,在人脸识别应用中,待识别图像为包括人脸的图像块。本公开可以利用卷积核为3×3的卷积层对待识别图像进行卷积处理,获得第九特征。第九特征的通道数(如C)通常大于待识别图像的通道数(如3),且第九特征的空间分辨率可以与待识别图像的空间分辨率(如112×112)相同。
S601、将第九特征作为第七分组卷积层的输入特征,对第七分组卷积层的输入特征进行可变式分组卷积处理,获得第七分组卷积层的输出特征。
本公开中的第七分组卷积层可以认为是带有BN处理和非线性变换处理的可变式分组卷积层。第七分组卷积层所具有的非线性变换处理可以采用PReLU等激活函数。本公开中的第七分组卷积层的输出特征的空间分辨率与第七分组卷积层的输入特征的空间分辨率可以不相同,例如,第七分组卷积层的输出特征的空间分辨率低于第七分组卷积层的输入特征的空间分辨率,从而实现下采样。本公开中的第七分组卷积层的输出特征的通道数与第七分组卷积层的输入特征的通道数可以相同。
可选的,第七分组卷积层的步长可以为2,即如果第七分组卷积层的输入特征的空间分辨率为2h×2w,则第七分组卷积层的输出特征的空间分辨率为h×w。
S602、将第七分组卷积层的输出特征作为第七逐点卷积层的输入特征,对第七逐点卷积层的输入特征进行逐点卷积处理,获得第七逐点卷积层的输出特征。
本公开中的第七逐点卷积层可以认为是带有BN处理和非线性变换处理的逐点卷积层。只是第七逐点卷积层的非线性变换处理被移到了逐元素相加之后执行。当然,也可以认为第七逐点卷积层是带有BN处理的逐点卷积层。第七逐点卷积层所具有的非线性变换处理可以采用PReLU等激活函数。本公开中的第七逐点卷积层的输出特征的空间分辨率和通道数可以与第七逐点卷积层的输入特征的空间分辨率和通道数相同。
S603、将第七逐点卷积层的输出特征作为第八分组卷积层的输入特征,对第八分组卷积层的输入特征进行可变式分组卷积处理,获得第八分组卷积层的输出特征。
本公开中的第八分组卷积层可以认为是带有BN处理和非线性变换处理的可变式分组卷积层。第八分组卷积层所具有的非线性变换处理可以采用PReLU等激活函数。本公开中的第八分组卷积层的输出特征的空间分辨率和通道数与第八分组卷积层的输入特征的空间分辨率和通道数可以相同。第八分组卷积层的步长可以为1。
S604、将第八分组卷积层的输出特征作为第八逐点卷积层的输入特征,对第八逐点卷积层的输入特征进行逐点卷积处理,获得第八逐点卷积层的输出特征。
本公开中的第八逐点卷积层可以认为是带有BN处理和非线性变换处理的逐点卷积层。只是第八逐点卷积层的非线性变换处理被移到了逐元素相加之后执行。当然,也可以认为第八逐点卷积层是带有BN处理的逐点卷积层。第八逐点卷积层所具有的非线性变换处理可以采用PReLU等激活函数。本公开中的第八逐点卷积层的输出特征的空间分辨率和通道数可以与第八逐点卷积层的输入特征的空间分辨率和通道数相同。
S605、将第九特征作为第九分组卷积层的输入特征,对第九分组卷积层的输入特征进行可变式分组卷积处理,获得第九分组卷积层的输出特征。
本公开中的第九分组卷积层可以认为是带有BN处理和非线性变换处理的可变式分组卷积层。第九分组卷积层所具有的非线性变换处理可以采用PReLU等激活函数。本公开中的第九分组卷积层的输出特征的空间分辨率与第九分组卷积层的输入特征的空间分辨率可以不相同,例如,第九分组卷积层的输出特征的空间分辨率低于第九分组卷积层的输入特征的空间分辨率,从而实现下采样。本公开中的第九分组卷积层的输出特征的通道数与第九分组卷积层的输入特征的通道数可以相同。
可选的,第九分组卷积层的步长可以为2,即如果第九分组卷积层的输入特征的空间分辨率为2h×2w,则第九分组卷积层的输出特征的空间分辨率为h×w。
S606、将第八逐点卷积层的输出特征与第九逐点卷积层的输出特征进行逐元素相加,获得第七特征。
本步骤中的逐元素相加可以是指:针对第八逐点卷积层的输出特征和第九逐点卷积层的输出特征中的相同位置处的一特征点而言,将该第八逐点卷积层的输出特征中的该特征点的各通道的取值分别与第九逐点卷积层的输出特征中的该特征点的相应通道的取值,进行相加。
S607、对第七特征进行第四非线性变换,获得第八特征。
本公开可以采用PReLU等激活函数,实现对第七特征的非线性变换。通过对第七特征进行非线性变换,可以使第八特征具有更强的拟合表达能力。
本公开中的第八特征的空间分辨率通常低于第七分组卷积层和第九分组卷积层的输入特征的空间分辨率,且第八特征的通道数通常与第七分组卷积层和第九分组卷积层的输入特征的通道数相同。例如,如果第八特征的空间分辨率为h×w,则第七分组卷积层和第九分组卷积层的输入特征的空间分辨率可以为2h×2w,从而本公开可以实现对第七分组卷积层和第九分组卷积层的输入特征的下采样处理(即降采样处理)。
图6所示的处理过程是在分组卷积处理和逐点卷积处理的基础上,采用反项残差结构,从而有利于降低在对特征进行下采样时,丢失的特征信息,从而有利于增强第八特征的表达能力,进而有利于提高最终获得的待识别图像的目标对象特征向量的准确性。
本公开中的图6所示的处理过程可以认为是一种组合处理方式,该组合处理方式可以是第二神经网络中的头部块处理方式,即头部块处理方式位于第二神经网络的开始位置处。头部块处理方式有利于使第二神经网络的结构模块化,从而有利于提高第二神经网络的可维护性。头部块处理方式可以由头部模块(Head setting)实现,该头部模块的结构可以如图10所示。
图10中,头部模块包括:卷积层(如卷积核为3×3×C的卷积层)、第七分组卷积层、第七逐点卷积层、第八分组卷积层、第八逐点卷积层、第九分组卷积层以及第九逐点卷积层。头部模块的输入特征即为卷积核为3×3×C的卷积层的输入特征,头部模块的输入通常为通道数为3的图像。在对该图像进行卷积核为3×3×C的卷积处理后,获得第七分组卷积层以及第九分组卷积层的输入特征,该输入特征的通道数为C。对卷积核为3×3×C的卷积层的输出特征分别进行可变式分组卷积处理(包括BN和PReLU等非线性变换)后,获得的第七分组卷积层和第九分组卷积层的输出特征的通道数均为2C。对第七分组卷积层的输出特征进行逐点卷积处理(包括BN和PReLU等非线性变换),获得的第七逐点卷积层的输出特征的通道数为C。对第九分组卷积层的输出特征进行逐点卷积处理(包括BN),获得的第九逐点卷积层的输出特征的通道数为C。对第七逐点卷积层的输出特征进行可变式分组卷积处理(包括BN和PReLU等非线性变换)后,获得的第八分组卷积层的输出特征的通道数为C。对第八分组卷积层的输出特征进行逐点卷积处理(包括BN),获得的第八逐点卷积层的输出特征的通道数为C。将第八逐点卷积层的输出特征和第九逐点卷积层的输出特征进行逐元素相加,获得通道数为C的第七特征,对第七特征进行第三非线性变换,获得的第八特征的通道数为C。第八特征即为头部模块的输出特征。
在一个可选示例中,在通过第二神经网络对待识别图像执行特征提取处理的过程中,本公开可以在对特征执行分组卷积处理以及逐点卷积处理后,将逐点卷积处理结果提供给全连接层(Fully-Connected layer,FC)进行处理,从而获得待识别图像的目标对象特征向量。上述处理过程具体如图7所示。
S700、对上述获得的第二特征进行逐点卷积处理,获得第十特征。
可选的,本公开可以利用卷积核为1×1×C的卷积层对第二特征进行逐点卷积处理,获得第十特征。第十特征的通道数(如1024)通常大于第二特征的通道数(如C),且第十特征的空间分辨率可以与第二特征的空间分辨率相同。
S701、将第十特征作为第十分组卷积层的输入特征,对第一分组卷积层的输入特征进行可变式分组卷积处理,获得第十分组卷积层的输出特征。
可选的,本公开中的第十分组卷积层可以认为是带有BN处理的可变式分组卷积层,第十分组卷积层不带有非线性变换处理。本公开中的第十分组卷积层的输出特征与第十分组卷积层的输入特征的空间分辨率可以不相同,而第十分组卷积层的输出特征的通道数与第十分组卷积层的输入特征的通道数可以相同。本公开中的第十分组卷积层的输出特征可以为一维特征向量。例如,第十分组卷积层的输入特征的空间分辨率可以为7×7×1024,而第十分组卷积层的输出特征的空间分辨率可以为1×1×1024。
可选的,第十分组卷积层的卷积核可以为7×7的卷积核。第十分组卷积层的步长可以为1。
S702、将第十分组卷积层的输出特征作为第十逐点卷积层的输入特征,对第十逐点卷积层的输入特征进行逐点卷积处理,获得第十逐点卷积层的输出特征。
本公开中的第十逐点卷积层可以认为是带有BN处理和非线性变换处理的逐点卷积层。同样的,第十逐点卷积层所具有的非线性变换处理可以采用PReLU等激活函数。本公开中的第十逐点卷积层的输出特征为一维特征向量,即本公开中的第十逐点卷积层的输出特征的空间分辨率与第十逐点卷积层的输入特征的空间分辨率相同。本公开中的第十逐点卷积层的输出特征的通道数与第十逐点卷积层的输入特征的通道数可以不相同,例如,第十逐点卷积层的输入特征的通道数(如1024)可以是第十逐点卷积层的输出特征的通道数(512)的两倍。
S703、将第十逐点卷积层输出的一维特征向量提供给第二神经网络中的全连接层,对第十逐点卷积层输出的以为特征向量进行全连接处理。
可选的,该全连接层可以是第二神经网络中的最后一层。
S704、根据全连接层的输出,获得待识别图像的目标对象特征向量。
本公开通过利用第十分组卷积层和第十逐点卷积层获得一维特征向量,并将一维特征向量提供给全连接层,在尽可能充分保留特征信息的情况下,显著的降低了需要进行全连接处理的参数量,一方面极大的降低了内存访问成本,另一方面极大的降低了全连接处理的计算量,从而有利于轻量化第二神经网络,有利于在终端设备中实现目标对象识别。另外,本公开中的图7所示的处理过程可以认为是一种组合处理方式,该组合处理方式可以是第二神经网络中的尾部块处理方式,即尾部块处理方式位于第二神经网络的最后位置处。尾部块处理方式有利于使第二神经网络的结构模块化,从而有利于提高第二神经网络的可维护性。尾部块处理方式可以由尾部模块(Embedding setting)实现,该尾部模块的结构可以如图11所示。
图11中,尾部模块包括:卷积层(如卷积核为1×1×C的卷积层)、第十分组卷积层、第十逐点卷积层以及全连接层。尾部模块的输入特征通常为标准单元模块的输出特征,尾部模块的输入特征即为卷积层的输入特征,尾部模块的输入特征的通道数可以为C(如512)。
在对尾部模块的输入特征进行卷积核为1×1×C的卷积处理后,获得第十特征,该第十特征的通道数可以为2C(如1024)。对第十特征进行可变式分组卷积处理(包括BN和PReLU等非线性变换)后,所获得的第十分组卷积层的输出特征的通道数为2C(如1024)。对第十分组卷积层的输出特征进行逐点卷积处理(包括BN和PReLU等非线性变换),获得的第十逐点卷积层的输出特征的通道数为C。对第十逐点卷积层的输出特征进行全连接处理,获得的待识别图像的目标对象特征向量的通道数为C(如512)。
本公开可以利用头部模块、至少一个标准单元模块、至少一个下采样模块以及尾部模块的组合形成第二神经网络。头部模块可以与标准单元模块连接,也可以与下采样模块连接,尾部模块通常只与标准单元模块连接。本公开中的第二神经网络的网络结构的一个例子如图12所示。
图12中,第二神经网络包括五个阶段。第一阶段包括:头部模块。第一阶段的输入可以为112×112×3的待识别图像,第一阶段的输出可以为56×56×40的特征。第二阶段包括:一个下采样模块和两个标准单元模块。第二阶段的输入可以为56×56×40的特征,第二阶段的输出可以为28×28×80的特征。第三阶段包括:一个下采样模块和六个标准单元模块。第三阶段的输入可以为28×28×80的特征,第三阶段的输出可以为14×14×160的特征。第四阶段包括:一个下采样模块和三个标准单元模块。第四阶段的输入可以为14×14×160的特征,第四阶段的输出可以为7×7×320的特征。第五阶段包括:尾部模块。第五阶段的输入可以为7×7×320的特征,第五阶段的输出可以为1×1×512的特征。
可选的,在本公开中的第二神经网络应用于人脸识别应用中时,该第二神经网络可以称为可变式分组卷积人脸识别神经网络(Variable Group Convolution Network forface recognition,VarGFaceNet)。
可选的,本公开中的第二神经网络的训练方式可以采用迁移学习的训练方式。即本公开的第二神经网络被作为学生模型,并根据学生模型和教师模型的输出结果,来调整第二神经网络的参数(如权值矩阵等)。其中的教师模型的模型规模(如网络深度以及计算量等)通常大于学生模型且已经成功训练完成的模型规模。训练过程中所采用的损失函数可以如下述公式(6)所示:
L=L1+αLs 公式(6)
在上述公式(6)中,L为第二神经网络的总损失;L1表示基于第二神经网络的分类损失;L1可以如下述公式(7)所示;α为常数,例如,α的取值可以为7;Ls表示第二神经网络的特征损失,Ls可以如下述公式(8)所示。
Figure BDA0002209239960000251
在上述公式(7)中,N表示训练样本数量;T表示矩阵转置;
Figure BDA0002209239960000252
表示分类器的权值矩阵中的第yi列的转置;xi表示第i个训练样本的目标对象特征向量;
Figure BDA0002209239960000257
表示第i个训练样本的目标对象所属类别的偏置;bj表示与第i个训练样本的目标对象所属类别不相同的类别中的第j个类别的偏置;n表示需要分类的类别总数量。
Figure BDA0002209239960000253
在上述公式(8)中,N表示训练样本数量;Ft i表示教师模型针对第i个训练样本输出的目标对象特征向量;
Figure BDA0002209239960000254
表示学生模型针对第i个训练样本输出的目标对象特征向量;||*||表示*的模值;表示欧式距离。
在本公开中的第二神经网络应用于人脸识别应用中时,在第二神经网络的训练过程中,上述公式(6)中的L1可以采用下述公式(9)的形式:
Figure BDA0002209239960000256
在上述公式(9)中,N表示训练样本数量;s表示缩放尺度;
在第二神经网络用于人脸识别应用中时,L1可以使用LArc表示,表示在目标对象特征向量属于类别yi时,目标对象特征向量与类别yi的中心之间的夹角;θj表示在目标对象特征向量属于类别j时,目标对象特征向量与类别j的中心之间的夹角;m表示加性角度惩罚,为已知值。
示例性装置
图13为本公开的目标对象识别装置的一个实施例的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。
如图13所示,该实施例的装置可以包括:输入模块1300、分组卷积处理模块1301、获得特征向量模块1302以及目标对象识别模块1303。可选的,该装置还可以包括:逐点卷积处理模块1304、压缩激活模块1305、第一逐元素相加模块1306、第一非线性变换模块1307、第二逐元素相加模块1308、第二非线性变换模块1309、第三逐元素相加模块1310、第三非线性变换模块1311、第四逐元素相加模块1312、第四非线性变换模块1313、卷积处理模块1314、第二逐点卷积处理模块1315以及全连接模块1316。
输入模块1300用于将待识别图像提供给用于目标对象识别的神经网络。
分组卷积处理模块1301用于在通过神经网络对输入模块1300提供的待识别图像执行特征提取处理操作的过程中,根据神经网络中的分组卷积层对应的卷积分组数,对分组卷积层的输入特征进行分组卷积处理,得到分组卷积层的输出特征;其中,分组卷积层对应的卷积分组数是根据分组卷积层的输入特征通道数和分组基数确定的。
获得特征向量模块1302用于根据神经网络的输出,获得待识别图像的目标对象特征向量。
目标对象识别模块1303用于基于获得特征向量1302所获得的特征向量,识别待识别图像中的目标对象。
第一逐点卷积处理模块1304用于在通过神经网络对待识别图像执行特征提取处理操作的过程中,将分组卷积处理模块1301得到的分组卷积层的输出特征作为神经网络中的逐点卷积层的输入特征,并对逐点卷积层的输入特征进行逐点卷积处理,得到逐点卷积层的输出特征。
图14中的压缩激活模块1305用于在通过神经网络对待识别图像执行特征提取处理操作的过程中,对第二逐点卷积层的输出特征进行压缩并激活处理。其中的第二逐点卷积层的输入特征为第二分组卷积层的输出特征,第二分组卷积层的输入特征为第一逐点卷积层的输出特征,第一逐点卷积层的输入特征为第一分组卷积层的输出特征。
图14中的第一逐元素相加模块1306用于将第一分组卷积层的输入特征与压缩激活模块1305获得的压缩并激活处理后的特征进行逐元素相加,获得第一特征。
图14中的第一非线性变换模块1307用于对第一逐元素相加模块1306获得的第一特征进行第一非线性变换,获得第二特征。其中,第二特征被作为神经网络中的位于所述第一非线性变换之后的处理的输入特征。其中的第一分组卷积层的输入特征的通道数与第一分组卷积层的输出特征的通道数不相同;第一逐点卷积层的输入特征的通道数与第一逐点卷积层的输出特征的通道数不相同;第二分组卷积层的输入特征的通道数与第二分组卷积层的输出特征的通道数不相同;第二逐点卷积层的输入特征的通道数与第二逐点卷积层的输出特征的通道数不相同;第二特征与第一分组卷积层的输入特征具有相同的空间分辨率和通道数。
图15中的第二逐元素相加模块1308用于在通过神经网络对待识别图像执行特征提取处理操作的过程中,将第三逐点卷积层的输出特征和第四逐点卷积层的输出特征进行逐元素相加,获得第三特征;其中,第三逐点卷积层的输入特征为第三分组卷积层的输出特征,第四逐点卷积层的输入特征为第四分组卷积层的输出特征。
图15中的第二非线性变换模块1309用于对第三特征进行第二非线性变换,获得第四特征。其中,第四特征被作为第六分组卷积层的输入特征,第六分组卷积层的输出特征被作为第六逐点卷积层的输入特征。
图15中的第三逐元素相加模块1310用于将第五逐点卷积层的输出特征和第六逐点卷积层的输出特征进行逐元素相加,获得第五特征。其中,第五逐点卷积层的输入特征为第五分组卷积层的输出特征,第三分组卷积层、第四分组卷积层和第五分组卷积层的输入特征相同。
图15中的第三非线性变换模块1311用于对第五特征进行第三非线性变换,获得第六特征。其中,第六特征被作为神经网络中的位于所述第三非线性变换之后的处理的输入特征。其中,第三分组卷积层、第四分组卷积层和第五分组卷积层的输入特征的空间分辨率高于第五特征的空间分辨率,第三分组卷积层、第四分组卷积层和第五分组卷积层的输入特征的通道数低于第五特征的通道数。
图16中的第四逐元素相加模块1312用于在通过神经网络对待识别图像执行特征提取处理操作的过程中,将第八逐点卷积层的输出特征和第九逐点卷积层的输出特征进行逐元素相加,获得第七特征;其中,第八逐点卷积层的输入特征为第八分组卷积层的输出特征,第八分组卷积层的输入特征为第七逐点卷积层的输出特征,第七逐点卷积层的输入特征为第七分组卷积层的输出特征,第九逐点卷积层的输入特征为第九分组卷积层的输出特征,第七分组卷积层和第九分组卷积层的输入特征相同。其中,第七分组卷积层和第九分组卷积层的输入特征的空间分辨率高于第八特征的空间分辨率,第七分组卷积层和第九分组卷积层的输入特征的通道数与第八特征的通道数相同。
图16中的第四非线性变换模块1313用于对第七特征进行第四非线性变换,获得第八特征。其中,第八特征被作为神经网络中的位于所述第四非线性变换之后的处理的输入特征。
图16中的卷积处理模块1314用于对待识别图像进行卷积操作,获得第九特征,并将第九特征分别作为第七分组卷积层和第九分组卷积层的输入特征。
图17中的第二逐点卷积处理模块1315用于在通过神经网络对所述待识别图像执行特征提取处理操作的过程中,对第二特征进行逐点卷积处理,获得第十特征。其中的第十特征被作为第十分组卷积层的输入特征,第十分组卷积层的输出特征被作为第十逐点卷积层的输入特征。
图17中的全连接模块1316用于将第十逐点卷积层输出的一维特征向量提供给神经网络中的全连接层。
获得特征向量模块1302用于根据全连接层的输出,获得待识别图像的目标对象特征向量。
示例性电子设备
下面参考图18来描述根据本公开实施例的电子设备。图18示出了根据本公开实施例的电子设备的框图。如图18所示,电子设备181包括一个或多个处理器1811和存储器1812。
处理器1811可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备181中的其他组件以执行期望的功能。
存储器1812可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器,例如,可以包括:随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器,例如,可以包括:只读存储器(ROM)、硬盘以及闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器1811可以运行所述程序指令,以实现上文所述的本公开的各个实施例的目标对象识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备181还可以包括:输入装置1813以及输出装置1814等,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外,该输入设备1813还可以包括例如键盘、鼠标等等。该输出装置1814可以向外部输出各种信息。该输出设备1814可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图18中仅示出了该电子设备181中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备181还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的目标对象识别方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的目标对象识别方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括:具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述,以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言,是非常显而易见的,并且在此定义的一般原理可以应用于其他方面,而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (14)

1.一种目标对象识别方法,包括:
将待识别图像提供给用于目标对象识别的神经网络;
在通过所述神经网络对所述待识别图像执行特征提取处理操作的过程中,根据所述神经网络中的分组卷积层对应的卷积分组数,对所述分组卷积层的输入特征进行分组卷积处理,得到所述分组卷积层的输出特征;其中,所述分组卷积层对应的卷积分组数是根据所述分组卷积层的输入特征通道数和分组基数确定的;
根据所述神经网络的输出,获得所述待识别图像的目标对象特征向量;
基于所述特征向量,识别所述待识别图像中的目标对象。
2.根据权利要求1所述的方法,其中,所述方法还包括:
在通过所述神经网络对所述待识别图像执行特征提取处理操作的过程中,将所述分组卷积层的输出特征作为所述神经网络中的逐点卷积层的输入特征,并对所述逐点卷积层的输入特征进行逐点卷积处理,得到所述逐点卷积层的输出特征。
3.根据权利要求2所述的方法,其中,所述方法还包括:
在通过所述神经网络对所述待识别图像执行特征提取处理操作的过程中,对第二逐点卷积层的输出特征进行压缩并激活处理,其中,所述第二逐点卷积层的输入特征为第二分组卷积层的输出特征,所述第二分组卷积层的输入特征为第一逐点卷积层的输出特征,所述第一逐点卷积层的输入特征为第一分组卷积层的输出特征;
将所述第一分组卷积层的输入特征与所述压缩并激活处理后的特征进行逐元素相加,获得第一特征;
对所述第一特征进行第一非线性变换,获得第二特征;
其中,所述第二特征被作为所述神经网络中的位于所述第一非线性变换之后的处理的输入特征。
4.根据权利要求3所述的方法,其中,
所述第一分组卷积层的输入特征的通道数与所述第一分组卷积层的输出特征的通道数不相同;
所述第一逐点卷积层的输入特征的通道数与所述第一逐点卷积层的输出特征的通道数不相同;
所述第二分组卷积层的输入特征的通道数与所述第二分组卷积层的输出特征的通道数不相同;
所述第二逐点卷积层的输入特征的通道数与所述第二逐点卷积层的输出特征的通道数不相同;
所述第二特征与所述第一分组卷积层的输入特征具有相同的空间分辨率和通道数。
5.根据权利要求2至4中任一项所述的方法,其中,所述方法还包括:
在通过所述神经网络对所述待识别图像执行特征提取处理操作的过程中,将第三逐点卷积层的输出特征和第四逐点卷积层的输出特征进行逐元素相加,获得第三特征;其中,所述第三逐点卷积层的输入特征为第三分组卷积层的输出特征,所述第四逐点卷积层的输入特征为第四分组卷积层的输出特征;
对所述第三特征进行第二非线性变换,获得第四特征;其中,所述第四特征被作为第六分组卷积层的输入特征,所述第六分组卷积层的输出特征被作为第六逐点卷积层的输入特征;
将第五逐点卷积层的输出特征和第六逐点卷积层的输出特征进行逐元素相加,获得第五特征;其中,所述第五逐点卷积层的输入特征为第五分组卷积层的输出特征,所述第三分组卷积层、第四分组卷积层和第五分组卷积层的输入特征相同;
对所述第五特征进行第三非线性变换,获得第六特征;
其中,所述第六特征被作为所述神经网络中的位于所述第三非线性变换之后的处理的输入特征。
6.根据权利要求5所述的方法,其中,所述第三分组卷积层、第四分组卷积层和第五分组卷积层的输入特征的空间分辨率高于所述第五特征的空间分辨率,所述第三分组卷积层、第四分组卷积层和第五分组卷积层的输入特征的通道数低于所述第五特征的通道数。
7.根据权利要求2至6中任一项所述的方法,其中,所述方法还包括:
在通过所述神经网络对所述待识别图像执行特征提取处理操作的过程中,将第八逐点卷积层的输出特征和第九逐点卷积层的输出特征进行逐元素相加,获得第七特征;其中,所述第八逐点卷积层的输入特征为第八分组卷积层的输出特征,所述第八分组卷积层的输入特征为第七逐点卷积层的输出特征,所述第七逐点卷积层的输入特征为第七分组卷积层的输出特征,所述第九逐点卷积层的输入特征为第九分组卷积层的输出特征,所述第七分组卷积层和第九分组卷积层的输入特征相同;
对所述第七特征进行第四非线性变换,获得第八特征;
其中,所述第八特征被作为所述神经网络中的位于所述第四非线性变换之后的处理的输入特征。
8.根据权利要求7所述的方法,其中,所述方法还包括:
对所述待识别图像进行卷积操作,获得第九特征;
将所述第九特征分别作为第七分组卷积层和第九分组卷积层的输入特征。
9.根据权利要求7或8所述的方法,其中,所述第七分组卷积层和第九分组卷积层的输入特征的空间分辨率高于所述第八特征的空间分辨率,所述第七分组卷积层和第九分组卷积层的输入特征的通道数与所述第八特征的通道数相同。
10.根据权利要求3至9中任一项所述的方法,其中,所述方法还包括:
在通过所述神经网络对所述待识别图像执行特征提取处理操作的过程中,对所述第二特征进行逐点卷积处理,获得第十特征;其中,所述第十特征被作为第十分组卷积层的输入特征,所述第十分组卷积层的输出特征被作为第十逐点卷积层的输入特征;
将第十逐点卷积层输出的一维特征向量提供给所述神经网络中的全连接层;
所述根据所述神经网络的输出,获得所述待识别图像的目标对象特征向量包括:
根据所述全连接层的输出,获得所述待识别图像的目标对象特征向量。
11.一种目标对象识别装置,包括:
输入模块,用于将待识别图像提供给用于目标对象识别的神经网络;
分组卷积处理模块,用于在通过所述神经网络对所述输入模块提供的待识别图像执行特征提取处理操作的过程中,根据所述神经网络中的分组卷积层对应的卷积分组数,对所述分组卷积层的输入特征进行分组卷积处理,得到所述分组卷积层的输出特征;其中,所述分组卷积层对应的卷积分组数是根据所述分组卷积层的输入特征通道数和分组基数确定的;
获得特征向量模块,用于根据所述神经网络的输出,获得所述待识别图像的目标对象特征向量;
目标对象识别模块,用于基于所述获得特征向量所获得的特征向量,识别所述待识别图像中的目标对象。
12.根据权利要求11所述的装置,其中,所述装置还包括:
第一逐点卷积处理模块,用于在通过所述神经网络对所述待识别图像执行特征提取处理操作的过程中,将所述分组卷积处理模块得到的分组卷积层的输出特征作为所述神经网络中的逐点卷积层的输入特征,并对所述逐点卷积层的输入特征进行逐点卷积处理,得到所述逐点卷积层的输出特征。
13.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-10中任一项所述的方法。
14.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-10中任一项所述的方法。
CN201910892639.8A 2019-09-20 2019-09-20 目标对象识别方法、装置、存储介质和设备 Active CN110647893B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910892639.8A CN110647893B (zh) 2019-09-20 2019-09-20 目标对象识别方法、装置、存储介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910892639.8A CN110647893B (zh) 2019-09-20 2019-09-20 目标对象识别方法、装置、存储介质和设备

Publications (2)

Publication Number Publication Date
CN110647893A true CN110647893A (zh) 2020-01-03
CN110647893B CN110647893B (zh) 2022-04-05

Family

ID=68992242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910892639.8A Active CN110647893B (zh) 2019-09-20 2019-09-20 目标对象识别方法、装置、存储介质和设备

Country Status (1)

Country Link
CN (1) CN110647893B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444884A (zh) * 2020-04-22 2020-07-24 万翼科技有限公司 图像中的构件识别方法、设备及计算机可读存储介质
CN111723719A (zh) * 2020-06-12 2020-09-29 中国科学院自动化研究所 基于类别外部记忆的视频目标检测方法、系统、装置
CN111738193A (zh) * 2020-06-29 2020-10-02 湖南国科微电子股份有限公司 人脸抓拍方法和人脸抓拍系统
CN111784555A (zh) * 2020-06-16 2020-10-16 杭州海康威视数字技术股份有限公司 图像处理方法、装置及设备
CN112184508A (zh) * 2020-10-13 2021-01-05 上海依图网络科技有限公司 一种用于图像处理的学生模型的训练方法及装置
CN112215840A (zh) * 2020-10-30 2021-01-12 上海商汤临港智能科技有限公司 图像检测、行驶控制方法、装置、电子设备及存储介质
CN112288028A (zh) * 2020-11-06 2021-01-29 神思电子技术股份有限公司 一种基于流卷积的图像识别方法
CN112580570A (zh) * 2020-12-25 2021-03-30 南通大学 人体姿态图像的关键点检测方法
CN112700362A (zh) * 2020-12-28 2021-04-23 北京达佳互联信息技术有限公司 一种图像处理方法、装置、电子设备和存储介质
CN113128345A (zh) * 2021-03-22 2021-07-16 深圳云天励飞技术股份有限公司 多任务属性识别方法及设备、计算机可读存储介质
CN113723377A (zh) * 2021-11-02 2021-11-30 南京信息工程大学 一种基于ld-ssd网络的交通标志检测方法
CN116703867A (zh) * 2023-06-09 2023-09-05 太原理工大学 残差网络与通道注意力协同驱动下的基因突变预测方法
CN116912888A (zh) * 2023-09-12 2023-10-20 深圳须弥云图空间科技有限公司 对象识别方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170220524A1 (en) * 2013-12-20 2017-08-03 Intel Corporation Processing device for performing convolution operations
CN107909148A (zh) * 2017-12-12 2018-04-13 北京地平线信息技术有限公司 用于执行卷积神经网络中的卷积运算的装置
CN108875904A (zh) * 2018-04-04 2018-11-23 北京迈格威科技有限公司 图像处理方法、图像处理装置和计算机可读存储介质
CN109740534A (zh) * 2018-12-29 2019-05-10 北京旷视科技有限公司 图像处理方法、装置及处理设备
CN109886209A (zh) * 2019-02-25 2019-06-14 成都旷视金智科技有限公司 异常行为检测方法及装置、车载设备
US20190266493A1 (en) * 2017-10-16 2019-08-29 Illumina, Inc. Deep Learning-Based Techniques for Pre-Training Deep Convolutional Neural Networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170220524A1 (en) * 2013-12-20 2017-08-03 Intel Corporation Processing device for performing convolution operations
US20190266493A1 (en) * 2017-10-16 2019-08-29 Illumina, Inc. Deep Learning-Based Techniques for Pre-Training Deep Convolutional Neural Networks
CN107909148A (zh) * 2017-12-12 2018-04-13 北京地平线信息技术有限公司 用于执行卷积神经网络中的卷积运算的装置
CN108875904A (zh) * 2018-04-04 2018-11-23 北京迈格威科技有限公司 图像处理方法、图像处理装置和计算机可读存储介质
CN109740534A (zh) * 2018-12-29 2019-05-10 北京旷视科技有限公司 图像处理方法、装置及处理设备
CN109886209A (zh) * 2019-02-25 2019-06-14 成都旷视金智科技有限公司 异常行为检测方法及装置、车载设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FRANCOIS CHOLLET: "Xception: Deep Learning with Depthwise Separable Convolutions", 《HTTPS://ARXIV.ORG/ABS/1610.02357》 *
SHANGJUN MA: "Lightweight Deep Residual CNN for Foult Diagnosis of Rotating Machinery Based on Depthwise Separable Convolutions", 《IEEE ACCESS》 *
YIN GUOBING: "卷积神经网络中的Separable Convolution", 《HTTPS://YINGUOBING.COM/SEPARABLE-CONVOLUTION/#FN2》 *
杨远飞: "基于优化的卷积神经网络在图像识别上的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444884A (zh) * 2020-04-22 2020-07-24 万翼科技有限公司 图像中的构件识别方法、设备及计算机可读存储介质
CN111723719A (zh) * 2020-06-12 2020-09-29 中国科学院自动化研究所 基于类别外部记忆的视频目标检测方法、系统、装置
CN111784555A (zh) * 2020-06-16 2020-10-16 杭州海康威视数字技术股份有限公司 图像处理方法、装置及设备
CN111784555B (zh) * 2020-06-16 2023-08-25 杭州海康威视数字技术股份有限公司 图像处理方法、装置及设备
CN111738193A (zh) * 2020-06-29 2020-10-02 湖南国科微电子股份有限公司 人脸抓拍方法和人脸抓拍系统
WO2022077646A1 (zh) * 2020-10-13 2022-04-21 上海依图网络科技有限公司 一种用于图像处理的学生模型的训练方法及装置
CN112184508B (zh) * 2020-10-13 2021-04-27 上海依图网络科技有限公司 一种用于图像处理的学生模型的训练方法及装置
CN112184508A (zh) * 2020-10-13 2021-01-05 上海依图网络科技有限公司 一种用于图像处理的学生模型的训练方法及装置
CN112215840A (zh) * 2020-10-30 2021-01-12 上海商汤临港智能科技有限公司 图像检测、行驶控制方法、装置、电子设备及存储介质
CN112288028A (zh) * 2020-11-06 2021-01-29 神思电子技术股份有限公司 一种基于流卷积的图像识别方法
CN112580570A (zh) * 2020-12-25 2021-03-30 南通大学 人体姿态图像的关键点检测方法
CN112700362A (zh) * 2020-12-28 2021-04-23 北京达佳互联信息技术有限公司 一种图像处理方法、装置、电子设备和存储介质
CN112700362B (zh) * 2020-12-28 2023-07-25 北京达佳互联信息技术有限公司 一种图像处理方法、装置、电子设备和存储介质
CN113128345A (zh) * 2021-03-22 2021-07-16 深圳云天励飞技术股份有限公司 多任务属性识别方法及设备、计算机可读存储介质
CN113723377A (zh) * 2021-11-02 2021-11-30 南京信息工程大学 一种基于ld-ssd网络的交通标志检测方法
CN116703867A (zh) * 2023-06-09 2023-09-05 太原理工大学 残差网络与通道注意力协同驱动下的基因突变预测方法
CN116703867B (zh) * 2023-06-09 2023-12-08 太原理工大学 残差网络与通道注意力协同驱动下的基因突变预测方法
CN116912888A (zh) * 2023-09-12 2023-10-20 深圳须弥云图空间科技有限公司 对象识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110647893B (zh) 2022-04-05

Similar Documents

Publication Publication Date Title
CN110647893B (zh) 目标对象识别方法、装置、存储介质和设备
EP3564854B1 (en) Facial expression recognition method, apparatus, electronic device, and storage medium
CN109271878B (zh) 图像识别方法、图像识别装置和电子设备
US20230087526A1 (en) Neural network training method, image classification system, and related device
EP3968179A1 (en) Place recognition method and apparatus, model training method and apparatus for place recognition, and electronic device
CN112949673A (zh) 一种基于全局注意力的特征融合目标检测与识别方法
CN110309836B (zh) 图像特征提取方法、装置、存储介质和设备
CN112183166A (zh) 确定训练样本的方法、装置和电子设备
US20230154157A1 (en) Saliency-based input resampling for efficient object detection
JP7483631B2 (ja) 情報処理方法及びプログラム
WO2022152104A1 (zh) 动作识别模型的训练方法及装置、动作识别方法及装置
CN115482141A (zh) 图像处理方法、装置、电子设备和存储介质
CN113449840A (zh) 神经网络训练方法及装置、图像分类的方法及装置
CN114863440A (zh) 订单数据处理方法及其装置、设备、介质、产品
CN114882465A (zh) 视觉感知方法、装置、存储介质和电子设备
CN114663871A (zh) 图像识别方法、训练方法、装置、系统及存储介质
CN114139630A (zh) 姿态识别方法、装置、存储介质和电子设备
KR101334858B1 (ko) 나비종 자동분류 시스템 및 방법, 이를 이용한 나비종 자동분류 기능이 구비된 휴대 단말기
CN114049502B (zh) 神经网络的训练、特征提取、数据处理方法和设备
CN108596068B (zh) 一种动作识别的方法和装置
CN113569860B (zh) 实例分割方法和实例分割网络的训练方法及其装置
CN113191364B (zh) 车辆外观部件识别方法、装置、电子设备和介质
CN115690438A (zh) 鸟瞰图特征的确定方法、目标检测方法、装置和电子设备
CN115862597A (zh) 人物类型的确定方法、装置、电子设备和存储介质
CN114463553A (zh) 图像处理方法和装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant