CN113536876A - 一种图像识别方法和相关装置 - Google Patents

一种图像识别方法和相关装置 Download PDF

Info

Publication number
CN113536876A
CN113536876A CN202110025048.8A CN202110025048A CN113536876A CN 113536876 A CN113536876 A CN 113536876A CN 202110025048 A CN202110025048 A CN 202110025048A CN 113536876 A CN113536876 A CN 113536876A
Authority
CN
China
Prior art keywords
model
initial
feature
downsampling
layers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110025048.8A
Other languages
English (en)
Inventor
宋梦凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110025048.8A priority Critical patent/CN113536876A/zh
Publication of CN113536876A publication Critical patent/CN113536876A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请实施例公开了一种图像识别方法和相关装置,主要涉及人工智能中的图像识别和深度学习,利用特征提取模型对目标图像进行N+M次下采样图像特征提取,得到下采样层对应的特征图。针对N个下采样层中第i个下采样层和第i+1个下采样层的初始输出特征进行融合,得到第i个下采样层的特征图,保证了对小尺寸对象的检测精度。基于尺寸阈值对特征提取模型的下采样层进行划分,确定出后M个下采样层,保证了对大尺寸对象的检测精度。在确定目标图像的候选检测框过程中,基于各下采样层的特征图分别进行候选检测框的识别,实现了对不同尺寸对象的兼顾,起到了自适应目标图像中不同尺寸待识别对象的作用,保证了对目标图像中不同尺寸对象的检测精度。

Description

一种图像识别方法和相关装置
技术领域
本申请涉及数据处理领域,特别是涉及一种图像识别方法和相关装置。
背景技术
通过网络模型可以对图像中包括的特定物体例如人脸进行检测、识别,这种图像物体检测的方式可以为很多应用场景提供参考数据。
然而,在很多场景中,待识别的图像里具有大小各异的特定物体,例如在视频、直播领域中,待识别的人脸经常会时大时小。目前的网络模型多是针对某一尺寸的特定物体的识别率较好,难以起到对不同尺寸的特定物体的准确识别。
发明内容
为了解决上述技术问题,本申请提供了图像识别方法和相关装置,提高了对于不同尺寸对象的识别精度。
本申请实施例公开了如下技术方案:
一方面,本申请实施例提供了一种图像识别方法,所述方法包括:
获取具有待识别对象的目标图像;
根据包括顺序连接的N个下采样层和M个下采样层的特征提取模型对所述目标图像进行图像特征提取,得到所述下采样层分别对应的特征图,所述M个下采样层中第一个下采样层所输出特征图的尺寸小于尺寸阈值;所述N个下采样层中的第i个下采样层和第i+1个下采样层为相邻的下采样层,第i个下采样层的初始输出特征与第i+1个下采样层的初始输出特征融合得到第i个下采样层的特征图;
根据所述下采样层分别确定出的特征图,确定不同尺寸的特征图对应的候选检测框,所述候选检测框用于标识所述目标图像中所述待识别对象的区域和非所述待识别对象的区域;
根据所述候选检测框,确定针对所述目标图像的所述待识别对象的检测结果。
另一方面,本申请实施例提供了一种图像识别装置,所述装置包括获取单元、提取单元和确定单元:
所述获取单元,用于获取具有待识别对象的目标图像;
所述提取单元,用于根据包括顺序连接的N个下采样层和M个下采样层的特征提取模型对所述目标图像进行图像特征提取,得到所述下采样层分别对应的特征图,所述M个下采样层中第一个下采样层所输出特征图的尺寸小于尺寸阈值;所述N个下采样层中的第i个下采样层和第i+1个下采样层为相邻的下采样层,第i个下采样层的初始输出特征与第i+1个下采样层的初始输出特征融合得到第i个下采样层的特征图;
所述确定单元,用于根据所述下采样层分别确定出的特征图,确定不同尺寸的特征图对应的候选检测框,所述候选检测框用于标识所述目标图像中所述待识别对象的区域和非所述待识别对象的区域;
所述确定单元,还用于根据所述候选检测框,确定针对所述目标图像的所述待识别对象的检测结果。
另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面所述的方法。
由上述方案可以看出,针对具有待识别对象的目标图像,利用特征提取模型对其顺序进行N+M次下采样图像特征提取,得到下采样层分别对应的特征图。由于对小尺寸对象的检测需要特征图具有较高的分辨率,而前N层的浅层下采样层获取的特征图可以作为识别小尺寸对象的依据,针对这N个下采样层中的第i个下采样层和第i+1个下采样层的初始输出特征进行融合,基于第i+1个下采样层所能获取目标图像中的强语义信息补强到了第i个下采样层所提取的特征中,得到第i个下采样层的特征图,增强了第i个下采样层的特征图中的语义信息,保证了基于该特征图对小尺寸对象的检测精度。另外,由于对大尺寸对象的检测需要特征图具有较强的语义信息,而不要求较高的分辨率,因此,基于尺寸阈值对特征提取模型的下采样层进行划分,从中确定出后M个下采样层,该尺寸阈值保证了这M个下采样层输出具有较强语义信息的特征图,保证了基于该特征图对大尺寸对象的检测精度。在确定目标图像的候选检测框过程中,基于前述各个下采样层输出的特征图分别进行候选检测框的识别,如此实现了对不同尺寸的待识别对象的兼顾,起到了自适应目标图像中不同尺寸待识别对象的作用,保证了对目标图像中不同尺寸对象的检测精度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种图像识别方法的应用场景示意图;
图2为本申请实施例提供的一种图像识别方法的流程示意图;
图3为本申请实施例提供的另一种图像识别方法的应用场景示意图;
图4为本申请实施例提供的另一种图像识别方法的流程示意图;
图5为本申请实施例提供的一种采用最大输出maxout网络进行多分类识别方法的流程示意图;
图6为本申请实施例提供的一种模型训练方法的流程示意图;
图7为本申请实施例提供的一种图像识别装置的流程示意图;
图8为本申请实施例提供的一种服务器的结构示意图;
图9为本申请实施例提供的一种终端设备的结构示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
在图像识别领域中,同一深度模型无法兼顾对于图像中不同尺寸对象的识别性能。以尺度不变人脸检测模型(Single Slot Scale-invariant Face Detector,S3FD)为例,S3FD模型直接采用不同层提取的特征进行预测,导致浅层特征语义较弱,而小尺寸对象主要在浅层检测得到,因此S3FD模型对小尺寸对象的识别效果欠佳。对小尺寸人脸具有较高识别精度的人脸检测模型(Dual Shot Face Detector,DSFD)而言,由于DSFD模型的模型参数量较大,这使得DSFD的检测速度较慢,对于具有实时检测的场景,如视频、直播等人脸检测场景,直接影响了用户的使用体验。
鉴于此,本申请实施例提供了一种图像识别方法和相关装置,实现了对不同尺寸的待识别对象的兼顾,起到了自适应目标图像中不同尺寸待识别对象的作用,保证了对目标图像中不同尺寸对象的检测精度。
本申请实施例提供的图像识别方法是基于人工智能实现的,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在本申请实施例中,主要涉及的人工智能软件技术包括上述计算机视觉技术、机器学习/深度学习等方向。例如可以涉及计算机视觉(Computer Vision)中的图像处理(Image Processing)、图像语义理解(Image Semantic Understanding,ISU)、图像识别(Image Recognition,IR)等。例如可以涉及机器学习(Machine learning,ML)中的深度学习(Deep Learning),包括各类人工神经网络(Artificial Neural Network,ANN)。
本申请实施例提供的图像识别方法可以应用于具有数据处理能力的图像识别设备,例如终端设备或服务器,该方法可以通过终端设备独立执行,也可以通过服务器独立执行,也可以应用于终端设备和服务器通信的网络场景,通过终端设备和服务器配合执行。其中,终端设备可以为手机、台式计算机、便携式计算机等;服务器可以理解为是应用服务器,也可以为Web服务器,在实际部署时,该服务器可以为独立服务器,也可以为集群服务器。为了便于描述,下述以服务器作为数据处理设备对本申请实施例进行介绍。
该图像识别设备可以具备实施计算机视觉技术的能力,计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、文字识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
在本申请实施例中,图像识别设备可以通过计算机视觉技术对目标图像进行图像处理、图像识别等。
该图像识别设备可以具备机器学习能力。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。
本申请实施例提供的图像识别方法主要涉及对各类人工神经网络的应用,以识别目标图像中的待识别对象。
为了便于理解,下面结合具体的应用场景,对本申请实施例提供的图像识别方法进行介绍。
参见图1,图1为本申请实施例提供的一种图像识别方法的应用场景示意图。在图1所示的场景中,包括服务器101,部署有特征提取模型102,用于执行本申请实施例提供的图像识别方法。其中,特征提取模型102包括顺序连接的N个下采样层和M个下采样层。
服务器101获取具有待识别对象的目标图像。在图1所示的人脸识别场景中,目标图像103包括的待识别对象为人脸。
在图像识别过程中,服务器101通过调用训练好的特征提取模型,对目标图像进行N+M次图像特征提取,得到下采样层分别对应的特征图。
由于在图像识别过程中,对于小尺寸对象的检测需要特征图具有较高的分辨率,而前N层的浅层下采样层获取的特征图可以作为识别小尺寸对象的依据,因此,针对这N个下采样层中的第i个下采样层和第i+1个下采样层的初始输出特征进行融合,得到第i个下采样层的特征图。其中,直接将第N个采样层的初始输出特征作为特征图输出。
以N=4为例,如图1所示,对于前4个下采样层中的第1个采样层,即取i=1,将第1个下采样层和第2个下采样层的初始输出特征进行融合,得到第1个下采样层的特征图A。基于该过程利用前4个下采样层对目标图像进行图像特征提取后分别输出对应的特征图A、B、C、D。
上述将两个下采样层进行融合的过程,就是将第i+1个下采样层所能获取目标图像中的强语义信息加入到了第i个下采样层所提取的特征中,以此增强了第i个下采样层的特征图中的语义信息,保证了基于该特征图对小尺寸对象的检测精度。
由于对大尺寸对象的检测需要特征图具有较强的语义信息,而不要求较高的分辨率,因此,基于尺寸阈值对特征提取模型的下采样层进行划分,确定出M个下采样层,该尺寸阈值保证了这M个下采样层输出具有较强的语义信息的特征图,保证了基于该特征图对大尺寸对象的检测精度。如图1所示,若M=2,则利用后2个下采样层继续进行图像特征提取后,分别输出对应的特征图E、F。
基于上述N+M个下采样层各自输出的特征图再确定对应的候选检测框,从而确定出目标图像中待识别对象的检测结果。如图1所示,基于特征提取模型102包括的6个下采样层各自输出的特征图A、B、C、D、E、F,分别确定出各自对应的候选检测框a、b、c、d、e、f后,再基于这些候选检测框识别出目标图像103中的人脸,并确定出该人脸在目标图像103中的位置。
上述特征提取模型的N+M个下采样层输出的特征图具有不同的尺寸,如图1所示的特征图A、B、C、D、E和F为不同尺寸的特征图,其中,前N个下采样层输出的特征图具有强分辨率,通过特征融合增强了其语义信息,保证了对于小尺寸对象的识别,后M个下采样层输出的特征图具有强语义信息,通过尺寸阈值保证了其具有较高分辨率,保证了对于大尺寸对象的识别,从而基于这些特征图分别进行候选检测框的识别,实现了对不同尺寸的待识别对象的兼顾,起到了自适应目标图像中不同尺寸待识别对象的作用,保证了对目标图像中不同尺寸对象的检测精度。
下面结合图2和图3本申请实施例提供的图像识别方法进行详细介绍,其中,图2为本申请实施例提供的一种图像识别方法的流程示意图,图3为在人脸识别场景中执行图像识别方法的流程示意图。如图2所示,该图像识别方法包括以下步骤:
S201:获取具有待识别对象的目标图像。
在图像识别过程中,服务器先获取待识别的目标图像,该目标图像具有待识别对象。其中,待识别对象是指待识别的目标对象,可以是不同类别的对象,如房屋、猫、人脸等,也可以是同类别的不同对象,如男性人脸、女性人脸等。在图3所示的人脸场景中,待识别对象为人脸。
对目标图像进行图像识别之前,可以对目标图像的像素值做归一化操作,即将目标图像的像素值由[0,255]区间变换到[-1,1],提高图像的识别速度。即图4所示的图像数据预处理401过程。
S202:根据包括顺序连接的N个下采样层和M个下采样层的特征提取模型对所述目标图像进行图像特征提取,得到所述下采样层分别对应的特征图。
本申请基于人工智能技术中的神经网络模型对目标图像进行针对待识别对象的图像识别。神经网络模型框架采用单阶段检测网络结合主干网络。单阶段检测网络用于生成和识别候选检测框,如单发多框检测(Single Shot Multi-box Detector,SSD)模型。主干网络,用于对目标图像进行针对待识别对象的图像特征提取,如移动网络(MobileNetV2)模型。其中,候选检测框是由矩形框根据目标图像生成的用于检测待识别对象的检测框。
前述S3FD模型是采用视觉几何层网络(Visual Geometry Network-16,VGG16)作为主干网络,而DSFD模型是采用深度残差网络(Deep residual network-50,ResNet50)作为主干网络,并结合了特征增强模块。由于模型的识别速度主要取决于主干网络的计算速度,VGG16的模型浮点数计算量为16GFLOPs,ResNet50为GFLOPs,此外,DSFD模型采用的特征增强模块在原模型基础上增大了一倍参数量,这就使得S3FD模型和DSFD的检测速度较慢,不适用于直播、视频等实时检测场景。其中,GFLOPs为千兆次浮点运算(Giga FloatingPoint of Operations),用于衡量模型复杂度。
由于VGG16和ResNet50的模型复杂度较高,即为重量级模型。为了提高图像识别速度,在本申请实施例中,主干网络采用轻量级的特征提取模型,该特征提取模型包括顺序连接的N个下采样层(基础卷积层)和M个下采样层(额外卷积层)的特征提取模型,对目标图像进行特征提取。其中,基础卷积层可以是MobileNetV2模型,MobileNetV2仅为0.57GFLOPs。由此采用轻量化的特征提取模型,降低了模型的复杂度,提升了图像识别速率。
在实际应用中,利用特征提取模型对目标图像进行图像特征提取,得到所述下采样层分别对应的特征图。如图3所示,特征提取模型300包括基础卷积层301和额外卷积层302。
可以理解的是,对于小尺寸对象的检测需要具有较高分辨率的特征图作为依据,而特征提取模型中包括了N个浅层下采样层的基础卷积层对目标图像进行特征提取获取的初始输出特征具有较高的分辨率,因此,可以用于识别目标图像中的小尺寸对象。其中,N为大于1的整数。在图3所示的场景中,基础卷积层301包括下采样层C1、C2、C4和C4,即N=4。
考虑到N个浅层下采样层的初始输出特征语义信息较弱,在本申请实施例中,通过特征融合的方式对做特征增强。即本申请实施例用于图像识别的神经网络模型还包括特征融合层,用于对基础卷积层的初始输出特征进行特征融合。
具体的,对于N个下采样层中相邻的第i个下采样层和第i+1下采样层,将第i个下采样层的初始输出特征和第i+1个下采样层的初始输出特征进行特征融合,得到融合特征作为第i个下采样层的特征图,即将第i个下采样层输出的特征图与第i+1个下采样层输出的特征图融合后得到的特征图作为第i个下采样层的特征图。对于第N个下采样层,直接将初始输出特征作为第N个下采样层的特征图进行输出。
在实际应用中,可以先将第i+1个下采样层输出的特征图进行上采样,上采样后的第i个下采样层输出的特征图与第i+1个下采样层输出的特征图尺寸一致,便于特征融合,如上采样操作可以是对第i+1个下采样层输出的特征图进行双向线性插值操作。然后与第i个下采样层输出的特征图相加求和,再利用激活层进行非线性处理,如线性整流函数(Rectified Linear Unit,ReLU),避免模型训练时梯度爆炸,提高模型的泛化能力,并得到第i个下采样层的特征图。用公式表示如下:
Fconvi=ReLU(convi+upsample(convi+1))
其中,i的取值为1,2,…,N-1,convi表示第i个下采样层的初始输出特征,convi+1表示第i+1个下采样层的初始输出特征,upsample表示双向线性插值操作,ReLU表示线性整流函数,Fconvi表示第i个下采样层对应的特征图。
如图3所示,将目标图像304输入到基础卷积层301中,经过基础卷积层301进行浅层图像特征提取后,通过特征融合层304对进行特征融合,并输出4个下采样层对应的特征图V1、V2和V3。其中,基础卷积层301中的第4个下采样层C4直接将初始输出特征作为该层对应的特征图V4进行输出。
上述特征提取模型为轻量化的主干网络,相较于重量级主干网络,降低了模型复杂度,提高图像识别速度,与此同时将前N个下采样层中相邻两个下采样层的初始输出特征进行拼接,增大了基础提取层感受野,增强了前N-1个浅层下采样层对应的特征图的语义信息,保证了对于目标图像中小尺寸对象的检测精度。
此外,对于大尺寸对象的检测需要具有较强语义信息的特征图作为依据。为此,上述特征提取模型在N个下采样层的基础上,增加M个下采样层。也就是,在基础卷积层之后,增加额外卷积层。由于深层下采样层输出的特征图具有强语义信息,而具有强语义信息的特征图尺寸较小。故此,通过尺寸阈值确定后M个下采样层,即M个下采样层中第一个下采样层所输出特征图的尺寸小于尺寸阈值,保证了M个深层下次采样层具有较强的语义信息,如此保证了对于目标图像中大尺寸对象的检测精度。
在图3所示的场景中,额外卷积层302包括下采样层C52和C62,即M=2。额外卷积层302以基础卷积层301的第4个下采样层C5的初始输出特征C51作为输入,利用下采样层C52和C62继续对目标图像304进行图像特征提取,分别输出特征图V5和V6。其中,C61为下采样层C52的初始输出特征。
上述通过尺寸阈值保证M个深层下采样层输出特征图的尺寸,即保证了M个深层下采样层输出的特征图具有较强语义信息,如此保证了对于目标图像中大尺寸对象的检测精度。由于识别目标图像中大尺寸对象不要求特征图具有高分辨率,因此,特征提取模型中的额外卷积层可以直接输出特征图,而不需要进行特征融合,如此在基础卷积层的基础上结合额外卷积层,既保证了对大尺寸对象的检测精度,也保证了对于小尺寸对象的检测精度,还实现了特征提取模型的轻量化设计,从而提高了图像识别速度。
基于上述特征提取模型输出的N+M个特征图具有不同的尺寸,可以作为后续图像识别的基础数据。在一种可能的实现方式中,特征提取模型中相邻下采样层所输出的特征图尺寸之比为1/2*1/2,即相邻的第i个下采样层和第i+1个下采样层,第i+1个下采样层输出的特征图尺寸为第i个下采样层输出的特征图尺寸的1/4。
在图3所示的场景中,每个下采样层对应的特征图尺寸为上一下采样层对应的特征图尺寸的1/2*1/2,如特征图B的尺寸为特征图A的尺寸的1/2*1/2,特征图F的尺寸为特征图E的尺寸的1/2*1/2。其中,第一层卷积累积步长仅为(4*4),保证了对于多尺寸对象的检测效果。
上述特征提取模型采用轻量级主干网络作为基础卷积层对目标图像进行图像特征提取,并通过特征融合增强浅层下采样层对应的特征图的语义信息,保证了对于小尺寸对象的检测精度,此外通过增加额外卷积层,对目标图像进行深层特征提取,得到具有强语义信息的特征图,保证了对于大尺寸对象的检测精度,由此实现了模型对多尺寸对象的检测精度以及模型的轻量化设计,从而提高了图像识别速率。
S203:根据所述下采样层分别确定出的特征图,确定不同尺寸的特征图对应的候选检测框。
基于上述特征提取模型的N+M个下采样层确定出的N+M个特征图,再分别确定出这N+M个不同尺寸特征图对应的候选检测框,该候选检测框用于标识所述目标图像中所述待识别对象的区域和非所述待识别对象的区域。其中,将目标图像中仅包括非待识别对象的区域或没有包括目标图像中待识别对象的区域作为负样本,将目标图像中包括了待识别对象的区域作为正样本。候选检测框的尺寸可以预先根据图像识别场景进行设定,在此不作限定。
需要说明的是,为了实现对于多尺寸对象的检测,在实际应用中,可以设计多种尺寸的矩形框,分别根据上述获取的N+M个不同尺寸的特征图生成多种尺寸的候选检测框,即每个特征图对应多种尺寸的候选检测框,基于候选检测框对目标图像中待识别对象进行识别,实现了自适应多尺寸对象的候选检测框生成机制,保证了对于多尺寸对象的检测精度。
本申请实施例用于图像识别的上述神经网络模型还包括预测层,用于生成和识别候选检测框,得到候选检测框对应的识别结果,该识别结果标识了候选检测框的类别以及针对待识别对象的预测位置。即图4所示的利用神经网络模型进行前向计算402的处理过程。
在实际应用中,预测层以上述特征提取模型的N+M个下采样层对应的特征图作为输入,采用全卷积网络对这N+M个特征图进行卷积操作,生成针对目标图像的候选检测框,然后对该候选检测框分别进行针对待识别对象的图像识别,得到候选检测框对应针对待识别对象的识别置信度以及针对待识别对象的预测位置。其中,全卷积网络采用的卷积核可以为3*3。
可以理解的是,由同一尺寸的矩形框,根据不同尺寸特征图生成的候选检测框中,基于尺寸较大的特征图确定出的候选检测框包括较多的负样本。由于正负样本数量不平衡会影响图像识别精度,因此在本申请实施例中,采用最大输出网络(maxout),对大尺寸特征图生成的候选检测框进行多分类识别,以降低由于正负样本数量不平衡对图像识别结果的影响。
具体的,针对目标下采样层,对目标下采样层的特征图进行基于至少三个分类的分类识别,根据该分类识别的识别结果,确定目标下采样层的特征图对应的候选检测框。其中,目标下采样层为上述特征提取模型中N个下采样层的前k个下采样层中的任意一个下采样层,k<N。上述至少三个分类包括待识别对象类别和至少两个背景类别,即非待识别对象类别。因此,识别结果包括待识别对象类别的识别结果和至少两个背景类别的识别结果。
在实际应用中,可以先针对目标下采样层生成候选检测框,然后对该候选检测框进行至少三个类别的图像识别,分别得到该候选检测框针对至少三个类别的识别置信度。通过最大值max函数选取至少两个背景类别中的识别置信度最大值作为该候选检测框针对目标图像中非待识别对象区域的识别置信度,由此将该识别置信度最大值和待识别对象类别的识别置信度用于确定目标图像在待识别对象的检测结果。
参见图5,图5为本申请实施例提供的一种利用maxout网络进行多分类识别的示意图。图5以图3所示的人脸识别场景为例,以目标下采样层为特征提取模型中N个下采样层的第1个下采样层,即k=1,针对该目标下采样层进行四分类为例对多分类识别过程进行介绍。如图5所示,该四分类包括待识别对象(即人脸)和三个背景类别(即背景1、背景2和背景3)。
在图像识别过程中,基于第1个下采样层输出的特征图A进行四分类识别,即针对特征图A进行人脸、背景1、背景2和背景3的分类识别,然后,通过max函数从背景1、背景2和背景3选出识别可信度最高的背景类别,假若为背景1,则根据该背景1和人脸这两个类别确定出该特征图对应的候选检测框,该候选检测框标识了目标图像中人脸的识别置信度和的预测位置以及背景1的识别置信度和的预测位置,从而根据该候选检测框确定目标图像中待识别对象的检测结果。
由于在二分类场景中,正负样本数量过于不平衡会影响图像识别精度,对于上述根据尺寸较大的特征图生成的候选检测框中负样本过多的情况,通过增加识别类别,有效的调节了候选检测框的样本比例,调整了不同样本间的比例,因此提高了对于目标图像中待识别对象的识别精度。
在图3所示的场景中,预测层305针对6个下采样层输出的特征图V1-V6,采用卷积核3*3的全卷积网络进行卷积操作,输出每个下采样层对应的候选检测框v1-v6。由于基础卷积层301的第1个下采样层C1确定出的候选检测框v1中负样本过多,因此采用maxout网络对特征图V1进行4分类识别,并将3个背景类别的识别置信度最大值作为背景类别的识别置信度。
上述基于特征图生成多尺寸候选检测框,实现了自适应多尺寸对象的候选检测框生成机制,保证了多尺寸对象都能匹配到对应尺寸的候选检测框,并采用多分类识别方式降低了正负样本不平衡对图像识别精度的影响,保证了对于多尺寸对象的识别精度。
S204:根据所述候选检测框,确定针对所述目标图像的所述待识别对象的检测结果。
基于上述确定的多个候选检测框及其各自针对待识别对象的识别置信度和预测位置,最终确定针对目标图像的待识别对象的检测结果,该识别结果标识了目标图像中是否包括待识别对象,以及若目标图像包括待识别对象时,待识别对象在目标图像中的位置。
由于上述确定出的候选检测框数量很多,若针对每个候选检测框都进行处理,则对于目标图像中待识别对象进行识别的计算量会很大,从而造成图像的识别速度较慢。
为了提高基于候选检测框进行图像识别的速度,在本申请实施例中,用于图像识别的上述神经网络模型还包括输出层,通过设定限定识别阈值移除低识别置信度的候选检测框,并采用非极大值抑制方法去除冗余的候选检测框,从而提高模型的识别速度。即图4中的限定识别阈值并非极大值抑制403的处理过程。
具体的,可以先利用限定识别阈值对候选检测框进行候选框移除,即比较候选检测框针对待识别对象的识别置信度和限定识别阈值,并将移除识别置信度小于限定识别阈值的候选检测框。然后对候选框移除后的检测框进行非极大值抑制(Non-MaximumSuppression,NMS),得到针对目标图像的待识别对象的检测结果。
若候选检测框候选检测框的识别可信度小于限定识别阈值,表明该候选检测框是不可信的,通过移除该候选框,提高图像的识别精度。若候选检测框候选检测框的识别可信度大于限定识别阈值,表明该候选检测框是可信的,可以作为识别目标图像待识别对象的依据。在实际应用中,可以预先设定限定识别阈值,例如限定识别阈值设为0.05在此不作限定。
非极大值抑制操作过程包括:根据候选检测框的识别置信度,即置信度得分进行排序,然后将识别置信度最高的候选检测框添加到输出列表中,并将其从候选检测框列表中删除。计算该识别置信度最高的候选检测框与其他候选检测框之间的重叠程度识别参数(如IOU),并将其他候选检测框中重叠程度识别参数大于预设阈值的删除。重复该过程,直至候选检测框列表为空。其中,交并比(Intersection Over Union,IOU)是指两个候选检测框的重叠面积与这两个候选检测框的总面积之比。
上述通过限定识别阈值将识别置信度较低的候选检测框进行移除,避免了对于低可信度候选检测框的识别,也降低了低可信度候选检测框对待识别对象的检测结果的影响。由于目标图像中同一位置的多个候选检测框存在重叠,因此通过非极大值抑制的方法对非极大值进行抑制,消除了冗余的候选检测框,避免了对于冗余候选检测框的处理过程,从而提高了图像识别速度。
在图3所示的输出层306中,设定限定识别阈值为0.05,将上述候选检测框v1-v6中识别置信度低于该限定识别阈值0.05的候选检测框移除,并对剩余候选检测框做非极大值抑制处理,得到并输出目标图像303针对人脸的检测结果,该检测结果标识了目标图像303包括人脸以及该人脸在目标图像303中的位置。
上述实施例提供的图像识别方法,针对具有待识别对象的目标图像,利用特征提取模型对其顺序进行N+M次下采样图像特征提取,得到下采样层分别对应的特征图。由于对小尺寸对象的检测需要特征图具有较高的分辨率,而前N层的浅层下采样层获取的特征图可以作为识别小尺寸对象的依据,针对这N个下采样层中的第i个下采样层和第i+1个下采样层的初始输出特征进行融合,基于第i+1个下采样层所能获取目标图像中的强语义信息补强到了第i个下采样层所提取的特征中,得到第i个下采样层的特征图,增强了第i个下采样层的特征图中的语义信息,保证了基于该特征图对小尺寸对象的检测精度。另外,由于对大尺寸对象的检测需要特征图具有较强的语义信息,而不要求较高的分辨率,因此,基于尺寸阈值对特征提取模型的下采样层进行划分,从中确定出后M个下采样层,该尺寸阈值保证了这M个下采样层输出具有较强语义信息的特征图,保证了基于该特征图对大尺寸对象的检测精度。在确定目标图像的候选检测框,基于前述各个下采样层输出的特征图分别进行候选检测框的识别,如此实现了对不同尺寸的待识别对象的兼顾,起到了自适应目标图像中不同尺寸待识别对象的作用,保证了对目标图像中不同尺寸对象的检测精度。
针对上述实施例提供的图像识别方法中使用的特征提取模型,本申请实施例提供了对应的特征提取模型训练方法,该训练方法包括以下步骤:
S501:确定用于训练第一初始模型的训练样本。
第一初始模型为预先建立的神经网络模型,第一初始模型包括初始特征子模型,该初始特征子模型包括顺序连接的N个下采样层和M个下采样层。训练样本包括具有待识别对象的样本图像和标注有待识别对象在样本图像中的真实检测框。
为了进一步提高模型的识别性能,在一种可能的实现方式中,对原始样本进行数据预处理,然后根据数据预处理后的原始样本确定用于训练第一初始模型的训练样本,即图6所示的模型过程所包括的图像数据增强预处理601的过程。
其中,原始样本包括具有待识别对象的原始图像和标注有待识别对象在原始图像中的真实检测框。数据预处理包括剪裁、外扩、缩放、模糊、亮度修改、对比度修改中的任意一项或多项的组合。
在实际处理过程中,可以对原始样本中的原始图像进行数据预处理,并适应性修改处理后的原始图像对应的真实检测框,以此作为训练样本对第一初始模型进行训练,提高了模型对应各种环境背景时的泛化能力,并提高了模型对于图像的识别性能。
此外,还可以对训练样本中样本图像的像素值做归一化操作,即将样本图像的像素值由[0,255]区间变换到[-1,1],加速模型训练时的收敛速度。
S502:通过所述初始特征子模型的下采样层分别确定针对所述训练样本的特征图。
以训练样本中的样本图像作为输入,通过初始特征子模型的N+M个下采样层分别确定出针对训练样本的特征图,该处理过程与上述S202相似,在此不再赘述。
S503:根据所述初始特征子模型的下采样层确定的特征图,确定所述训练样本中所述待识别对象的检测框识别结果。
在模型训练之前,需要设计用于识别待识别对象的候选检测框。在本申请实施例中,第一初始模型所采用候选检测框的尺寸包括N+M个,分别对应于所述第一初始模型的下采样层,如设定N+M个候选检测框的尺寸分别与N+M个下采样层对应的特征图尺寸成正比。
在应用过程中,根据初始特征子模型的N+M个下采样层确定的特征图,利用上述设计的候选检测框分别生成针对样本图像的候选检测框,该候选检测框标识了样本图像中待识别对象的区域和非待识别对象的区域。然后对这些候选检测框分别进行针对待识别对象的图像识别,确定出各自对应的识别置信度以及针对待识别对象的预测位置,并作为训练样本中待识别对象的检测框识别结果。
S504:根据所述检测框识别结果与所述真实检测框在位置上的重叠程度,对所述第一初始模型进行模型训练,将训练后的所述初始特征子模型作为所述特征提取模型。
在实际应用中,可以利用损失函数计算检测框识别结果与待识别对象在样本图像中的真实检测框之间的差异,并利用损失函数值对第一初始模型进行训练,并将训练后的初始特征子模型作为特征提取模型。其中,损失函数包括分类损失函数和位置损失函数,分类损失函数用于标识检测框识别结果与样本图像中待识别对象的类别差异,位置损失函数用于标识检测框识别结果所标识的待识别对象在样本图像中的预测位置与待识别对象在样本图像中真实位置之间的差异。
在本申请实施例中,分类损失函数为交叉熵函数(CrossEntropy),位置损失函数为绝对损失函数(Smooth L1),用公式表示如下:
Figure BDA0002889954950000161
Figure BDA0002889954950000171
其中yi表示第i个待识别对象类别的真实标签,pi表示第i个待识别对象类别的预测结果。x表示待识别对象在样本图像中真实位置与预测位置之间的差异。
在模型训练过程中,可以基于上述重叠程度识别参数IOU匹配候选检测框,对模型进行优化。即图6所示的候选检测框匹配602的过程。
具体的,根据重叠程度识别参数,确定所述检测框识别结果中与所述真实检测框对应的目标检测框,所述重叠程度识别参数包括依次降低的多个梯度参数,在确定过程中,若所述目标检测框的数量小于阈值,降低所述重叠程度识别参数所采用的梯度参数,然后,根据所述真实检测框与所述目标检测框的重叠程度,对所述第一初始模型进行模型训练。其中,梯度参数可以根据实际图像识别场景进行设定,在此不作任何限定。
以图3的人脸识别场景为例,由于人脸大小长宽比相对固定,因此将候选检测框的长宽比设置为1:1,其尺寸设置为[16,32,64,128,256,512],与每一层特征图的尺寸成正比。IOU的梯度参数设置为[0.5,0.35,0.1]。在匹配候选检测框时,首先从检测框识别结果中匹配出与真实检测框之间的IOU>0.5的目标检测框,若匹配出的目标检测框数量小于阈值,则将IOU降低至0.35,若匹配出的目标检测框数量仍然小于阈值,则按照IOU>0.1匹配目标检测框,使得不同尺度的人脸都能匹配到足够多的目标检测框,从而实现对于不同尺寸人脸的检测。在模型训练中,计算目标检测框与真实检测框之间的差异,作为检测位置的优化目标。
上述通过匹配出不同尺寸的目标检测框,对第一初始模型进行训练和优化,使得训练后的第一初始模型能够识别不同尺寸的待识别对象,实现了模型对于多尺寸对象的图像识别。
可以理解的是,由于本申请实施例用于图像识别的神经网络模型采用的是单阶段检测模型结合轻量级主干网络(如MobileNetV2),相较于采用了重量级主干网络(如ResNet50)的图像识别模型,降低了模型复杂度的同时也影响了模型的识别精度。
为了提高本申请实施例提供的神经网络模型的识别精度,可以采用模型蒸馏的训练方法对神经网络模型进行训练,即图6所示模型蒸馏训练603的过程。该模型蒸馏训练过程包括以下步骤:
S601:确定第二初始模型。
第二初始模型包括初始基准子模型,初始基准子模型与初始特征子模型具有相同数量的下采样层,即初始基准子模型包括顺序连接的N个下采样层和M个下采样层,且初始基准子模型的模型规模大于初始特征子模型。其中,模型规模是指模型的复杂程度,可以用模型参数、模型层数等进行衡量。在本申请实施例中,可以利用模型参数衡量模型规模。故此初始基准子模型与初始特征子模型具有相同层数的下采样层,但初始基准子模型的参数数量大于初始特征子模型。
S602:根据所述训练样本对所述第二初始模型进行训练,基于所述初始基准子模型得到基准特征提取模型。
该过程与上述S502-S504过程相似,在此不再赘述。
S603:获取所述初始特征子模型与所述基准特征提取模型的下采样层对所述训练样本分别确定的特征图。
S604:根据所获取特征图之间的差异,对所述初始特征子模型进行参数调整。
基于上述S602,将训练好的基准特征提取模型作为老师模型,对初始特征子模型进行训练。在训练过程中,针对训练样本,分别获取初始特征子模型中N+M个下采样层对应的特征图,和基准特征提取模型中N+M个下采样层对应的特征图。然后根据这两个模型对应同一下采样层输出的特征图之间的差异,对初始特征子模型进行参数调整。
若以MobileNetV2作为上述第一初始模型中初始特征子模型,ResNet50作为第二初始模型初始基准子模型为例。将MobileNetV2替换为ResNet50模型,先利用训练样本训练好ResNet50模型,作为老师模型,然后在训练MobileNetV2的过程中,通过最小化MobileNetV2确定的特征图与老师模型所确定的对应特征图之间的差异,提升特征提取模型的检测效果。
上述采用模型蒸馏训练方式获取特征提取模型,保证了用于图像识别的神经网络模型的轻量化的同时,进一步提升了神经网络模型对于图像的识别精度,达到了模型精度与效率之间的平衡。
本申请实施例提供的神经网络模型采用SSD作为单阶段检测网络结合轻量级MobileNetV2作为主干网络,在公开的人脸数据集Wider Face的三个验证集上人脸检测平均精确度的平均值(mean of Average Precision,mAP)分别达到0.932、0.922、0.855,并且单张尺寸为640*640的图像检测速度为200毫秒,检测速度快,满足了视频、直播等实时场景下的检测需求。
针对上述实施例提供的图像识别方法,本申请实施例还提供了一种数图像识别装置。
参见图7,图7为本申请实施例提供的一种图像识别装置的结构示意图。如图7所示,该图像识别装置700包括获取单元701、提取单元702和确定单元703:
所述获取单元701,用于获取具有待识别对象的目标图像;
所述提取单元702,用于根据包括顺序连接的N个下采样层和M个下采样层的特征提取模型对所述目标图像进行图像特征提取,得到所述下采样层分别对应的特征图,所述M个下采样层中第一个下采样层所输出特征图的尺寸小于尺寸阈值;所述N个下采样层中的第i个下采样层和第i+1个下采样层为相邻的下采样层,第i个下采样层的初始输出特征与第i+1个下采样层的初始输出特征融合得到第i个下采样层的特征图;
所述确定单元703,用于根据所述下采样层分别确定出的特征图,确定不同尺寸的特征图对应的候选检测框,所述候选检测框用于标识所述目标图像中所述待识别对象的区域和非所述待识别对象的区域;
所述确定单元703,还用于根据所述候选检测框,确定针对所述目标图像的所述待识别对象的检测结果。
在一种可能的实现方式中,目标下采样层为所述N个下采样层的前k个下采样层中的一个下采样层,k<N,针对所述目标下采样层,所述确定单元703,用于:
对所述目标下采样层的特征图进行基于至少三个分类的分类识别,所述至少三个分类包括待识别对象类别和至少两个背景类别;
根据所述分类识别的识别结果,确定所述目标下采样层的特征图对应的候选检测框。
在一种可能的实现方式中,所述确定单元703,还用于:
确定用于训练第一初始模型的训练样本,具有所述待识别对象的所述训练样本标注有所述待识别对象的真实检测框;所述第一初始模型中的初始特征子模型包括顺序连接的N个下采样层和M个下采样层;
通过所述初始特征子模型的下采样层分别确定针对所述训练样本的特征图;其中,所述第一初始模型所采用候选检测框的尺寸包括N+M个,分别对应于所述第一初始模型的下采样层;
根据所述初始特征子模型的下采样层确定的特征图,确定所述训练样本中所述待识别对象的检测框识别结果;
所述装置还包括训练单元:
所述训练单元,用于根据所述检测框识别结果与所述真实检测框在位置上的重叠程度,对所述第一初始模型进行模型训练,将训练后的所述初始特征子模型作为所述特征提取模型。
在一种可能的实现方式中,所述训练单元,用于:
根据重叠程度识别参数,确定所述检测框识别结果中与所述真实检测框对应的目标检测框,所述重叠程度识别参数包括依次降低的多个梯度参数,在确定过程中,若所述目标检测框的数量小于阈值,降低所述重叠程度识别参数所采用的梯度参数;
根据所述真实检测框与所述目标检测框的重叠程度,对所述第一初始模型进行模型训练。
在一种可能的实现方式中,所述确定单元703,还用于确定第二初始模型,所述第二初始模型中包括初始基准子模型,所述初始基准子模型与所述初始特征子模型具有相同数量的下采样层,所述初始基准子模型的模型规模大于所述初始特征子模型;
所述训练单元,还用于根据所述训练样本对所述第二初始模型进行训练,基于所述初始基准子模型得到基准特征提取模型;
所述获取单元701,还用于获取所述初始特征子模型与所述基准特征提取模型的下采样层对所述训练样本分别确定的特征图;
所述装置还包括调整单元:
所述调整单元,用于根据所获取特征图之间的差异,对所述初始特征子模型进行参数调整。
在一种可能的实现方式中,所述确定单元703,用于:
对原始样本进行数据预处理,所述数据预处理包括剪裁、外扩、缩放、模糊、亮度修改、对比度修改中任意一项或多项的组合;
根据所述数据预处理后的原始样本确定所述训练样本。
在一种可能的实现方式中,所述确定单元703,用于:
从候选检测框中基于限定识别阈值进行候选框移除;
对候选框移除后的候选检测框进行非极大值抑制操作,得到针对所述目标图像的所述待识别对象的检测结果。
在一种可能的实现方式中,所述特征提取模型中相邻下采样层所输出的特征图尺寸之比为1/2*1/2。
上述实施例提供的图像识别装置,针对具有待识别对象的目标图像,利用特征提取模型对其顺序进行N+M次下采样图像特征提取,得到下采样层分别对应的特征图。由于对小尺寸对象的检测需要特征图具有较高的分辨率,而前N层的浅层下采样层获取的特征图可以作为识别小尺寸对象的依据,针对这N个下采样层中的第i个下采样层和第i+1个下采样层的初始输出特征进行融合,基于第i+1个下采样层所能获取目标图像中的强语义信息补强到了第i个下采样层所提取的特征中,得到第i个下采样层的特征图,增强了第i个下采样层的特征图中的语义信息,保证了基于该特征图对小尺寸对象的检测精度。另外,由于对大尺寸对象的检测需要特征图具有较强的语义信息,而不要求较高的分辨率,因此,基于尺寸阈值对特征提取模型的下采样层进行划分,从中确定出后M个下采样层,该尺寸阈值保证了这M个下采样层输出具有较强语义信息的特征图,保证了基于该特征图对大尺寸对象的检测精度。在确定目标图像的候选检测框过程中,基于前述各个下采样层输出的特征图分别进行候选检测框的识别,如此实现了对不同尺寸的待识别对象的兼顾,起到了自适应目标图像中不同尺寸待识别对象的作用,保证了对目标图像中不同尺寸对象的检测精度。
本申请实施例还提供了一种计算机设备,下面将从硬件实体化的角度对本申请实施例提供的用于图像识别的计算机设备进行介绍。
参见图8,图8是本申请实施例提供的一种服务器结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)1422(例如,一个或一个以上处理器)和存储器1432,一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中,存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1422可以设置为与存储介质1430通信,在服务器1400上执行存储介质1430中的一系列指令操作。
服务器1400还可以包括一个或一个以上电源1426,一个或一个以上有线或无线网络接口1450,一个或一个以上输入输出接口1458,和/或,一个或一个以上操作系统1441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图8所示的服务器结构。
其中,CPU 1422用于执行如下步骤:
获取具有待识别对象的目标图像;
根据包括顺序连接的N个下采样层和M个下采样层的特征提取模型对所述目标图像进行图像特征提取,得到所述下采样层分别对应的特征图,所述M个下采样层中第一个下采样层所输出特征图的尺寸小于尺寸阈值;所述N个下采样层中的第i个下采样层和第i+1个下采样层为相邻的下采样层,第i个下采样层的初始输出特征与第i+1个下采样层的初始输出特征融合得到第i个下采样层的特征图;
根据所述下采样层分别确定出的特征图,确定不同尺寸的特征图对应的候选检测框,所述候选检测框用于标识所述目标图像中所述待识别对象的区域和非所述待识别对象的区域;
根据所述候选检测框,确定针对所述目标图像的所述待识别对象的检测结果。
可选的,CPU 1422还可以执行上述实施例提供的所述图像识别方法,在此不再赘述。
针对上文描述的图像识别方法,本申请实施例还提供了一种用于图像识别的终端设备,以使上述图像识别方法在实际中实现以及应用。
参见图9,图9为本申请实施例提供的一种终端设备的结构示意图。为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant,简称PDA)等任意终端设备,以终端设备为手机为例:
图9示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图9,该手机包括:射频(Radio Frequency,简称RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(wireless fidelity,简称WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解,图9中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图9对手机的各个构成部件进行具体的介绍:
RF电路1510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1580处理;另外,将设计上行的数据发送给基站。通常,RF电路1510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,简称LNA)、双工器等。此外,RF电路1510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,简称GSM)、通用分组无线服务(GeneralPacket Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。
存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而实现手机的各种功能应用以及图像识别。存储器1520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1530可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1531可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1580,并能接收处理器1580发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触控面板1531,输入单元1530还可以包括其他输入设备1532。具体地,其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1540可包括显示面板1541,可选的,可以采用液晶显示器(LiquidCrystal Display,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板1541。进一步的,触控面板1531可覆盖显示面板1541,当触控面板1531检测到在其上或附近的触摸操作后,传送给处理器1580以确定触摸事件的类型,随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图9中,触控面板1531与显示面板1541是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1531与显示面板1541集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1550,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1541的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1541和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1560、扬声器1561,传声器1562可提供用户与手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号,传输到扬声器1561,由扬声器1561转换为声音信号输出;另一方面,传声器1562将收集的声音信号转换为电信号,由音频电路1560接收后转换为音频数据,再将音频数据输出处理器1580处理后,经RF电路1510以发送给比如另一手机,或者将音频数据输出至存储器1520以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块1570,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1580是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1580可包括一个或多个处理单元;优选的,处理器1580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1580中。
手机还包括给各个部件供电的电源1590(比如电池),优选的,电源可以通过电源管理系统与处理器1580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该手机所包括的存储器1520可以存储程序代码,并将所述程序代码传输给所述处理器。
手机所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的所述图像识别方法,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行上述实施例提供的图像识别方法。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的图像识别方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (15)

1.一种图像识别方法,其特征在于,所述方法包括:
获取具有待识别对象的目标图像;
根据包括顺序连接的N个下采样层和M个下采样层的特征提取模型对所述目标图像进行图像特征提取,得到所述下采样层分别对应的特征图,所述M个下采样层中第一个下采样层所输出特征图的尺寸小于尺寸阈值其中,所述N个下采样层中的第i个下采样层和第i+1个下采样层为相邻的下采样层,第i个下采样层的初始输出特征与第i+1个下采样层的初始输出特征融合得到第i个下采样层的特征图;
根据所述下采样层分别确定出的特征图,确定不同尺寸的特征图对应的候选检测框,所述候选检测框用于标识所述目标图像中所述待识别对象的区域和非所述待识别对象的区域;
根据所述候选检测框,确定针对所述目标图像的所述待识别对象的检测结果。
2.根据权利要求1所述的方法,其特征在于,目标下采样层为所述N个下采样层的前k个下采样层中的一个下采样层,k<N,针对所述目标下采样层,所述根据所述下采样层分别确定出的特征图,确定不同尺寸的特征图对应的候选检测框,包括:
对所述目标下采样层的特征图进行基于至少三个分类的分类识别,所述至少三个分类包括待识别对象类别和至少两个背景类别;
根据所述分类识别的识别结果,确定所述目标下采样层的特征图对应的候选检测框。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定用于训练第一初始模型的训练样本,具有所述待识别对象的所述训练样本标注有所述待识别对象的真实检测框;所述第一初始模型中的初始特征子模型包括顺序连接的N个下采样层和M个下采样层;
通过所述初始特征子模型的下采样层分别确定针对所述训练样本的特征图;其中,所述第一初始模型所采用候选检测框的尺寸包括N+M个,分别对应于所述第一初始模型的下采样层;
根据所述初始特征子模型的下采样层确定的特征图,确定所述训练样本中所述待识别对象的检测框识别结果;
根据所述检测框识别结果与所述真实检测框在位置上的重叠程度,对所述第一初始模型进行模型训练,将训练后的所述初始特征子模型作为所述特征提取模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述检测框识别结果与所述真实检测框在位置上的重叠程度,对所述第一初始模型进行模型训练,包括:
根据重叠程度识别参数,确定所述检测框识别结果中与所述真实检测框对应的目标检测框,所述重叠程度识别参数包括依次降低的多个梯度参数,在确定过程中,若所述目标检测框的数量小于阈值,降低所述重叠程度识别参数所采用的梯度参数;
根据所述真实检测框与所述目标检测框的重叠程度,对所述第一初始模型进行模型训练。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
确定第二初始模型,所述第二初始模型中包括初始基准子模型,所述初始基准子模型与所述初始特征子模型具有相同数量的下采样层,所述初始基准子模型的模型规模大于所述初始特征子模型;
根据所述训练样本对所述第二初始模型进行训练,基于所述初始基准子模型得到基准特征提取模型;
获取所述初始特征子模型与所述基准特征提取模型的下采样层对所述训练样本分别确定的特征图;
根据所获取特征图之间的差异,对所述初始特征子模型进行参数调整。
6.根据权利要求3所述的方法,其特征在于,所述确定用于训练第一初始模型的训练样本,包括:
对原始样本进行数据预处理,所述数据预处理包括剪裁、外扩、缩放、模糊、亮度修改、对比度修改中任意一项或多项的组合;
根据所述数据预处理后的原始样本确定所述训练样本。
7.根据权利要求1-6任意一项所述的方法,其特征在于,所述根据所述候选检测框,确定针对所述目标图像的所述待识别对象的检测结果,包括:
从候选检测框中基于限定识别阈值进行候选框移除;
对候选框移除后的候选检测框进行非极大值抑制操作,得到针对所述目标图像的所述待识别对象的检测结果。
8.根据权利要求1-6任意一项所述的方法,其特征在于,所述特征提取模型中相邻下采样层所输出的特征图尺寸之比为1/2*1/2。
9.一种图像识别装置,其特征在于,所述装置包括获取单元、提取单元和确定单元:
所述获取单元,用于获取具有待识别对象的目标图像;
所述提取单元,用于根据包括顺序连接的N个下采样层和M个下采样层的特征提取模型对所述目标图像进行图像特征提取,得到所述下采样层分别对应的特征图,所述M个下采样层中第一个下采样层所输出特征图的尺寸小于尺寸阈值;所述N个下采样层中的第i个下采样层和第i+1个下采样层为相邻的下采样层,第i个下采样层的初始输出特征与第i+1个下采样层的初始输出特征融合得到第i个下采样层的特征图;
所述确定单元,用于根据所述下采样层分别确定出的特征图,确定不同尺寸的特征图对应的候选检测框,所述候选检测框用于标识所述目标图像中所述待识别对象的区域和非所述待识别对象的区域;
所述确定单元,还用于根据所述候选检测框,确定针对所述目标图像的所述待识别对象的检测结果。
10.根据权利要求9所述的装置,其特征在于,目标下采样层为所述N个下采样层的前k个下采样层中的一个下采样层,k<N,针对所述目标下采样层,所述确定单元,用于:
对所述目标下采样层的特征图进行基于至少三个分类的分类识别,所述至少三个分类包括待识别对象类别和至少两个背景类别;
根据所述分类识别的识别结果,确定所述目标下采样层的特征图对应的候选检测框。
11.根据权利要求9所述的装置,其特征在于,所述确定单元,还用于:
确定用于训练第一初始模型的训练样本,具有所述待识别对象的所述训练样本标注有所述待识别对象的真实检测框;所述第一初始模型中的初始特征子模型包括顺序连接的N个下采样层和M个下采样层;
通过所述初始特征子模型的下采样层分别确定针对所述训练样本的特征图;其中,所述第一初始模型所采用候选检测框的尺寸包括N+M个,分别对应于所述第一初始模型的下采样层;
根据所述初始特征子模型的下采样层确定的特征图,确定所述训练样本中所述待识别对象的检测框识别结果;
所述装置还包括训练单元:
所述训练单元,用于根据所述检测框识别结果与所述真实检测框在位置上的重叠程度,对所述第一初始模型进行模型训练,将训练后的所述初始特征子模型作为所述特征提取模型。
12.根据权利要求11所述的装置,其特征在于,所述训练单元,用于:
根据重叠程度识别参数,确定所述检测框识别结果中与所述真实检测框对应的目标检测框,所述重叠程度识别参数包括依次降低的多个梯度参数,在确定过程中,若所述目标检测框的数量小于阈值,降低所述重叠程度识别参数所采用的梯度参数;
根据所述真实检测框与所述目标检测框的重叠程度,对所述第一初始模型进行模型训练。
13.根据权利要求11所述的装置,其特征在于,所述确定单元,还用于确定第二初始模型,所述第二初始模型中包括初始基准子模型,所述初始基准子模型与所述初始特征子模型具有相同数量的下采样层,所述初始基准子模型的模型规模大于所述初始特征子模型;
所述训练单元,还用于根据所述训练样本对所述第二初始模型进行训练,基于所述初始基准子模型得到基准特征提取模型;
所述获取单元,还用于获取所述初始特征子模型与所述基准特征提取模型的下采样层对所述训练样本分别确定的特征图;
所述装置还包括调整单元:
所述调整单元,用于根据所获取特征图之间的差异,对所述初始特征子模型进行参数调整。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-8任意一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-8任意一项所述的方法。
CN202110025048.8A 2021-01-08 2021-01-08 一种图像识别方法和相关装置 Pending CN113536876A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110025048.8A CN113536876A (zh) 2021-01-08 2021-01-08 一种图像识别方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110025048.8A CN113536876A (zh) 2021-01-08 2021-01-08 一种图像识别方法和相关装置

Publications (1)

Publication Number Publication Date
CN113536876A true CN113536876A (zh) 2021-10-22

Family

ID=78124242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110025048.8A Pending CN113536876A (zh) 2021-01-08 2021-01-08 一种图像识别方法和相关装置

Country Status (1)

Country Link
CN (1) CN113536876A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113870320A (zh) * 2021-12-06 2021-12-31 北京建筑大学 一种基于深度神经网络的行人追踪监控方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113870320A (zh) * 2021-12-06 2021-12-31 北京建筑大学 一种基于深度神经网络的行人追踪监控方法及系统
CN113870320B (zh) * 2021-12-06 2022-06-10 北京建筑大学 一种基于深度神经网络的行人追踪监控方法及系统

Similar Documents

Publication Publication Date Title
US20220051061A1 (en) Artificial intelligence-based action recognition method and related apparatus
EP3940638A1 (en) Image region positioning method, model training method, and related apparatus
US20210326574A1 (en) Face detection method, apparatus, and device, and storage medium
CN111209423B (zh) 一种基于电子相册的图像管理方法、装置以及存储介质
CN107895192B (zh) 深度卷积网络压缩方法、存储介质和终端
CN112101329B (zh) 一种基于视频的文本识别方法、模型训练的方法及装置
CN112820299B (zh) 声纹识别模型训练方法、装置及相关设备
CN107909583A (zh) 一种图像处理方法、装置及终端
CN112203115B (zh) 一种视频识别方法和相关装置
CN110516113B (zh) 一种视频分类的方法、视频分类模型训练的方法及装置
CN110147532B (zh) 编码方法、装置、设备及存储介质
CN113723378B (zh) 一种模型训练的方法、装置、计算机设备和存储介质
CN111581958A (zh) 对话状态确定方法、装置、计算机设备及存储介质
CN114418069A (zh) 一种编码器的训练方法、装置及存储介质
CN111507094B (zh) 基于深度学习的文本处理模型训练方法、装置及设备
CN113822427A (zh) 一种模型训练的方法、图像匹配的方法、装置及存储介质
CN114722937A (zh) 一种异常数据检测方法、装置、电子设备和存储介质
CN113269279B (zh) 一种多媒体内容分类方法和相关装置
CN113536876A (zh) 一种图像识别方法和相关装置
CN112270238A (zh) 一种视频内容识别方法和相关装置
CN110674294A (zh) 一种相似度确定方法及电子设备
CN112464831B (zh) 视频分类方法、视频分类模型的训练方法及相关设备
CN113723168A (zh) 一种基于人工智能的主体识别方法、相关装置及存储介质
CN116453005A (zh) 一种视频封面的提取方法以及相关装置
CN114462539A (zh) 一种内容分类模型的训练方法、内容分类的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40056105

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination