CN110348318A

CN110348318A - 图像识别方法、装置、电子设备及介质

Info

Publication number: CN110348318A
Application number: CN201910524616.1A
Authority: CN
Inventors: 刘立真; 赵明明; 谢文珍
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2019-10-18

Abstract

本申请公开了一种图像识别方法、装置、电子设备及介质。其中，本申请中，当获取目标图像之后，可以基于MobileNet网络以及识别窗口，对目标图像中的目标物体进行特征提取，得到待检测特征，并利用区域候选网络中的可分离卷积结构，对待检测特征进行计算，生成目标图像的识别结果。通过应用本申请的技术方案，可以利用MobileNet网络以及基于目标物体分类而获取的识别窗口，对待检测特征进行计算，从而得到针对图像的识别结果。进而可以避免相关技术中存在的利用普通网络型提取目标物体特征而导致的耗时较长的弊端。

Description

图像识别方法、装置、电子设备及介质

技术领域

本申请中涉及图像处理技术，尤其是一种图像识别方法、装置、电子设备及介质。

背景技术

目前，深度学习算法已经随着越来越多用户的使用而不断发展。

其中，深度学习算法的主要应用场景即为获取在多个图像中用户所兴趣的目标，从而可以知道目标物体的类别以及具体位置。在计算机视觉里，我们将这类任务称为目标检测(object detection)或物体检测。进一步的，在一些特定领域需要对拍摄得到的图片中的目标对象利用识别窗口进行标注从而完成对目标的检测，例如：在自动驾驶领域，需要对车辆、行人、三轮车、自行车、电动车、摩托车等进行标注。在网络在线教育等领域需要对老师或者学生等进行标注。

然而，在利用深度学习算法识别图像中的目标物体时，常常存在对目标物体识别准确率不高的问题。

发明内容

本发明的实施例提供一种图像识别方法、装置、电子设备及介质。

其中，根据本申请实施例的一个方面，提供的一种图像识别方法，其特征在于，包括：

获取目标图像；

基于MobileNet网络以及识别窗口，对所述目标图像中的目标物体进行特征提取，得到待检测特征，所述识别窗口为基于所述目标物体的第一分类得到的识别窗口；

基于区域候选网络中的可分离卷积结构，对所述待检测特征进行计算，生成所述目标图像的识别结果。

可选地，在基于本申请上述方法的另一个实施例中，所述基于MobileNet网络以及识别窗口，对所述目标图像中的目标物体进行特征提取，得到待检测特征，包括：

确定所述目标物体的第一分类；

基于所述目标物体的第一分类，确定所述识别窗口；

基于所述MobileNet网络，利用所述识别窗口，对所述目标图像中的目标物体进行特征提取，得到待检测特征。

可选地，在基于本申请上述方法的另一个实施例中，所述基于所述MobileNet网络，利用所述识别窗口，对所述目标图像中的目标物体进行特征提取，得到待检测特征，包括：

基于所述MobileNet网络以及所述识别窗口，获取所述目标图像的Feature map；

基于所述Feature map，得到所述待检测特征，所述待检测特征中包含所述待检测特征的类别。

可选地，在基于本申请上述方法的另一个实施例中，在所述基于所述Featuremap，得到所述待检测特征之后，还包括：

基于所述区域候选网络中的可分离卷积结构，对所述Feature map进行位置敏感层卷积，得到位置敏感得分映射图；

基于所述位置敏感得分映射图，对所述待检测特征进行池化操作，生成所述目标图像的识别结果。

可选地，在基于本申请上述方法的另一个实施例中，所述基于所述位置敏感得分映射图，对所述待检测特征进行池化操作，生成所述目标图像的识别结果，还包括：

基于所述位置敏感得分映射图，对所述待检测特征进行位置敏感ROI池化操作，得到所述目标图像中的所述目标物体的第二分类以及待检测区域；

基于所述第二分类以及待检测区域，生成所述目标图像的识别结果。

可选地，在基于本申请上述方法的另一个实施例中，所述基于所述目标物体，确定所述识别窗口，包括：

确定所述目标物体的第一分类；

基于所述第一分类，确定所述目标物体的长宽比例；

基于所述目标物体的长宽比例，获取所述识别窗口，所述识别窗口为具备所述长宽比例的识别窗口。

可选地，在基于本申请上述方法的另一个实施例中，所述基于所述目标物体的长宽比例，获取所述识别窗口，包括：

获取所述目标物体在所述目标图像中的所占区域比例；

基于所述所占区域比例，确定所述识别窗口的面积；

基于所述识别窗口的面积以及所述长宽比例，获取所述识别窗口。

可选地，在基于本申请上述方法的另一个实施例中，所述基于MobileNet网络以及所述识别窗口，对所述目标图像中的目标物体进行特征提取，包括：

识别所述目标图像中的目标物体，获取所述目标物体对应的待检测参数，所述待检测参数包括待检测区域以及待检测水平位置，所述待检测区域为在所述目标图像中的区域，所述待检测水平位置为在所述目标图像中，所述目标物体的水平位置；

基于所述MobileNet网络、所述识别窗口以及所述待检测参数，对所述目标图像中的目标物体进行特征提取。

根据本申请实施例的另一个方面，提供的一种图像识别装置，包括：

获取模块，被配置为获取目标图像；

提取模块，被配置为基于MobileNet网络以及识别窗口，对所述目标图像中的目标物体进行特征提取，得到待检测特征，所述识别窗口为基于所述目标物体的第一分类得到的识别窗口；

计算模块，被配置为基于区域候选网络中的可分离卷积结构，对所述待检测特征进行计算，生成所述目标图像的识别结果。

根据本申请实施例的又一个方面，提供的一种电子设备，包括：

存储器，用于存储可执行指令；以及

显示器，用于与所述存储器显示以执行所述可执行指令从而完成上述任一所述图像识别方法的操作。

根据本申请实施例的还一个方面，提供的一种计算机可读存储介质，用于存储计算机可读取的指令，所述指令被执行时执行上述任一所述图像识别方法的操作。

本申请中，当获取目标图像之后，可以基于MobileNet网络以及识别窗口，对目标图像中的目标物体进行特征提取，得到待检测特征，并利用区域候选网络中的可分离卷积结构，对待检测特征进行计算，生成目标图像的识别结果。通过应用本申请的技术方案，可以利用MobileNet网络以及基于目标物体分类而获取的识别窗口，对待检测特征进行计算，从而得到针对图像的识别结果。进而可以避免相关技术中存在的利用普通网络型提取目标物体特征而导致的耗时较长的弊端。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1为本申请图像识别方法的系统架构示意图。

图2为识别窗口在图像中的标注示意图。

图3为本申请图像识别方法另一个实施例的流程图。

图4为本申请图像识别方法另一个实施例的流程图。

图5a-图5c为在图像中标注识别窗口的示意图。

图6为本申请图像识别装置的结构示意图。

图7为本申请显示电子设备结构示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

需要说明，本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本申请中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本申请中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

另外，本申请各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

下面结合图1至图5来描述根据本申请示例性实施方式的用于进行图像识别方法。需要注意的是，下述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

本申请还提出一种图像识别方法、装置、目标终端及介质。

图1示意性地示出了根据本申请实施方式的一种图像识别方法的流程示意图。如图1所示，该方法包括：

S101，获取目标图像。

首先需要说明的是，本申请中，不对获取第一分类的设备做具体限定，例如，本申请可以由智能设备获取第一分类，也可以由服务器获取第一分类。

另外，本申请中，不对智能设备做具体限定，即智能设备可以为任意的智能设备，例如，手机，电子笔记本，PDA等等。

可选的，本申请中不对目标图像做具体限定，即目标图像可以为任意的图像。例如，可以为网络在线教育领域的教学图像。目标图像的具体变化并不会影响本申请的保护范围。

S102，基于MobileNet网络以及识别窗口，对目标图像中的目标物体进行特征提取，得到待检测特征，识别窗口为基于目标物体的第一分类得到的识别窗口。

其中，MobileNet网络是基于一个流线型的架构，并使用深度可分离的卷积来构建而成的轻量级的深层神经网络。MobileNet网络可以将标准卷积分解成一个深度卷积和一个点卷积(1×1卷积核)。深度卷积将每个卷积核应用到每一个通道，而1×1卷积用来组合通道卷积的输出。进一步的，其具备有效减少计算量，降低模型大小等优点。

其中，本申请中的待检测的第一分类用于反映在目标图像中，目标物体的类别。例如，以网络在线教育领域而言，当检测者想要识别图像中老师的手部动作以判断其授课效率时，目标物体即为老师的手部特征。进一步的，第一分类即为手部肢体。同样的，当检测者想要识别图像中学生的面部动作以判断其听课状态时，目标物体即为学生的面部特征。进一步的，第一分类即为面部器官。

进一步的，在利用深度学习算法实现的目标检测里，我们通常使用识别窗口(bounding box)来描述目标位置。其中，识别窗口是一个矩形框，可以由矩形左上角的x和y轴坐标与右下角的x和y轴坐标确定。用户可以根据目标图像中的坐标信息来定义图像中目标物体识别窗口。如图2所示，为在网络在线教育中，老师进行授课时的一帧图像。当检测者想要通过神经网络识别图像中老师的手部动作以判断其授课效率时，可以将识别窗口加载在老师的手部肢体中，从而实现识别窗口将目标物体的整体轮廓进行框选，以使后续利用预设的神经网络模型，自动对识别窗口选中的目标物体进行计算，以达到自动识别目标物体的目的。

更进一步的，本申请中，可以在确定识别窗口之后，基于MobileNet网络对目标图像中的目标物体进行特征提取，进而得到待检测特征。在此需要说明的是，由于MobileNet网络具备使用深度可分离的卷积而构建的轻量级的深层神经网络，因此利用MobileNet网络提取待检测特征的过程中相比相关技术中使用卷积网络进行特征提取而言，可以极大加快对目标图像的特征提取时间。

S103，基于区域候选网络中的可分离卷积结构，对待检测特征进行计算，生成目标图像的识别结果。

区域候选网络(Region Proposal Network区域生成网络)。其中，RPN是一种完全卷积网络(FCN)，可以为特定的任务进行端到端的训练来产生推荐。进一步的，为了解决相关技术中的在RCNN和Fast RCNN等物体检测架构中，用来提取候选框的方法通常是通过Selective Search，由于其需要在CPU上耗费2秒提取一张图，导致识别结果较长。而区域候选网络则可以专门用来提取候选框，进而节省了图像识别时间。

进一步的，本申请中不对基于区域候选网络中的可分离卷积结构，对待检测特征进行计算的具体计算方式做限定。在一种可能的实施方式中，本申请可以通过对目标图像进行卷积得到Feature map(公共特征图)，例如Feature map的面积大小是N x 16x 16。进一步的，本申请可以通过进入区域候选网络，将该Feature map首先经过一个3x 3的卷积，得到一个256x 16x 16的特征图，也可以看作16x 16个256维特征向量，然后经过两次1x 1的卷积，分别得到一个18x 16x 16的特征图，和一个36x 16x 16的特征图，也就是16x 16x9个结果，每个结果包含2个分数和4个坐标，再结合预先定义的Anchors后处理，就可以得到相应的计算结果，进而生成目标图像的识别结果。

进一步可选的，在本申请的一种实施方式中，在S102(基于MobileNet网络以及识别窗口，对目标图像中的目标物体进行特征提取，得到待检测特征)中，还包括一种具体的实施方式，如图3所示，包括：

S201,获取目标图像。

S202,确定目标物体。

S203,基于目标物体，确定识别窗口。

进一步的，在相关技术中，利用识别窗口对目标物体进行图像识别的过程中，常常存在因为识别窗口的选取不合适而导致计算结果不准确的问题。本申请中，在获取到目标物体后，可以根据该目标物体的第一分类，选取与该分类相匹配的识别窗口。

需要说明的是，本申请中在确定目标物体的第一分类后，可以从数据库中，获取与之匹配的识别窗口。也可以根据该第一分类，自动生成与之匹配的识别窗口。本申请对此不做限定。

进一步可选的，本申请同样不对识别窗口做具体限定，即识别窗口可以为与第一分类尺寸相匹配的识别窗口，识别窗口也可以为与第一分类面积相匹配的识别窗口。本申请对此不做限定。

S204,基于所述MobileNet网络，利用所述识别窗口，对所述目标图像中的目标物体进行特征提取，得到待检测特征。

其中，本申请可以通过MobileNet网络，并利用识别窗口，对目标图像中的目标物体进行特征提取。进一步的，本申请可以利用MobileNet网络结构作为Backbone对图像进行特征提取，得到图像的Feature map。并在后续通过该Feature map对目标图像中的目标物体进行特征提取，得到待检测特征。

在本申请一种可能的实施方式，可以通过以下方式实现对目标图像中的目标物体进行特征提取：

基于MobileNet网络以及识别窗口，获取目标图像的Feature map；

基于Feature map，得到待检测特征，待检测特征中包含所述待检测特征的类别。

S205，基于区域候选网络中的可分离卷积结构，对Feature map进行位置敏感层卷积，得到位置敏感得分映射图；

进一步的，对于获取到的Feature map，可以经过预先设定的卷积方式的区域候选网络结构获取多组proposals和相对应的类别分类。同时经过二次提取特征的Feature map进行两次位置敏感层卷积获取位置敏感得分映射分别进行类别分类和位置回归。以使后续在位置敏感得分映射图上针对proposals进行计算，获取图像中目标物体的类别和具体位置。

其中，本申请中可以利用区域候选网络，生成图像对应的anchor，并利用分类分支(cls)和边框回归分支(bbox、reg)分别对该anchor进行计算。进而通过该计算结果，来实现对anchor的初步筛除(例如可以先剔除越界的anchor，再根据cls结果通过NMS算法去重)和初步偏移(例如可以根据bbox、reg的技术结果结果)，进而生成对应的Proposal组。

S206，基于位置敏感得分映射图，对待检测特征进行池化操作，生成目标图像的识别结果。

其中，在基于位置敏感得分映射图，对待检测特征进行池化操作，生成目标图像的识别结果的过程中，可以通过以下方式实现：

基于位置敏感得分映射图，对待检测特征进行位置敏感ROI池化操作，得到目标图像中的目标物体的第二分类以及待检测区域；

基于第二分类以及待检测区域，生成目标图像的识别结果。

进一步的，区域候选网络从位置敏感得分图映射出多组proposals的时候，可以将proposals分成不同的块数据,不同的块数据代表在目标图像中的不同位置的proposals。可以理解的，不同的块数据对应不同的位置敏感得分层。其中，本申请中不对块数据的生成方式做具体限定，即块数据可以根据proposals进行任意分割而成的数据。

可选的，在基于位置敏感得分映射图上针对Proposals进行计算，并获取图像中目标物体的类别和具体区域位置后，便可以进一步的根据该类别和具体区域位置，生成目标图像的识别结果。

进一步可选的，在本申请的一种实施方式中，在S102(基于MobileNet网络以及识别窗口，对目标图像中的目标物体进行特征提取，得到待检测特征)中，还包括一种具体的实施方式，如图4所示，包括：

S301,获取目标图像。

S302,确定目标物体的第一分类。

S303,基于第一分类，确定目标物体的长宽比例。

本申请中，在获取目标物体对应的待检测第一分类后，可以根据该第一分类，确定目标物体的长宽比例。其中，目标物体的长宽比例即为该物体的长度与宽度的长度比。例如，对于一个长度为120cm，宽度为40cm的黑板来说，其长宽比例即为3:1。

在本申请一种可能的实施方式，可以根据第一分类以及预设的策略，确定目标物体的长宽比例。例如，当第一分类为用户的手部肢体时，可以根据查询预设策略，确定对应的手部的长宽比例为2:1。当第一分类为用户的面部器官时，可以根据查询预设策略，确定对应的面部器官的长宽比例为1.5:1。又或，当第一分类为教室的黑板时，可以根据查询预设策略，确定对应的面部器官的长宽比例为3:1。

S304,基于目标物体的长宽比例，获取识别窗口，识别窗口为具备长宽比例的识别窗口。

其中，在本申请一种可能的实施方式，还可以通过以下方式实现基于目标物体的长宽比例，获取识别窗口：

获取目标物体在目标图像中的所占区域比例；

进一步的，在确定目标物体的长宽比例后，为了确保能够选择合适的识别窗口，还需要进一步的确定目标物体的大小。可以理解的，如图5a所示，可以看出图像中包含了两个用户的面部，且两个用户的面部器官大小各不相同。也即虽然两个用户面部的第一分类相同(可以选取具有相同长宽比例的识别窗口)，但是由于两个目标物体的面积大小不同，因此如果选择两个相同的识别窗口容易出现其中面积较大的目标物体无法被识别窗口覆盖完全的问题。更进一步的，只有在确定目标物体的比例以及大小之后，才可以为其选择完全框住目标物体的识别窗口。

可选的，在确定目标物体在目标图像中的面积大小的实施方式中，需要首先获取目标物体在目标图像中的所占区域比例。例如，当目标物体占用了目标图像一半的区域时，则判定目标物体在目标图像中的所占区域比例为50％。同样的，当目标物体占用了目标图像4分之一的区域时，则判定目标物体在目标图像中的所占区域比例为25％。

基于所占区域比例，确定识别窗口的面积；

基于识别窗口的面积以及长宽比例，获取识别窗口；

进一步的，由于每张目标图像的尺寸基本是固定的，因此本申请在确定目标物体在目标图像中的所占区域比例之后，便可以根据该所占区域比例，确定目标物体的面积大小。进一步的，以使后续在选取识别窗口的过程中，选择可以覆盖该目标物体的识别窗口。

S305,基于MobileNet网络以及识别窗口，对目标图像中的目标物体进行特征提取。

进一步的，在基于MobileNet网络以及识别窗口，实现对目标图像中的目标物体进行特征提取的过程中，可以通过以下方式完成：

识别目标图像中的目标物体，获取目标物体对应的待检测参数，待检测参数包括待检测区域以及待检测水平位置，待检测区域为在目标图像中的区域，待检测水平位置为在所述目标图像中，目标物体的水平位置。

本申请中，在获取到识别窗口之后，还可以进一步的识别在目标图像中，目标物体的区域以及目标物体所在目标图像中的水平位置。以使后续根据该待检测区域以及水平位置，利用标识别窗口，对目标图像进行计算。

基于MobileNet网络、识别窗口以及待检测参数，对目标图像中的目标物体进行特征提取。

可选的，为了避免虽然有合适的识别窗口，但是由于识别窗口没有自动框住目标物体的所有轮廓而导致的识别结果不准确的问题。本申请中，可以首先检测目标物体在目标图像中的区域，并同时利用多个与目标物体相同水平位置识别窗口，对目标物体进行标注。其中需要说明的是，各个识别窗口在目标图像中的位置各不相同。

以目标物体为图像中老师的面部器官为例，由于相关技术中常常存在识别窗口无法准确对目标物体进行完全标注的问题。例如由图5b可以看出，识别窗口的标定位置没有将老师的面部器官完全进行标注。从而会导致由于图像识别不到位而出现的识别结果不准确的问题。

为了解决这一问题，本申请中可以同时获取多个识别窗口，并将该多个识别窗口在目标物体的区域周围，以同一水平位置多次对目标物体进行标注。如图5c为例，可以看出识别窗口1、识别窗口2、识别窗口3、识别窗口4为在目标图像中具备同一水平位置的多个识别窗口，且各个识别窗口均在距离待检测区域预设距离所标注。进一步的，以在后续根据多个识别窗口对目标图像进行图像识别的结果中，选择识别结果最准确的结果发生给用户。从而可以提高计算的准确率。

需要说明的是，本申请中不对预设距离做具体限定，即预设距离的具体变化并不会影响本申请的保护范围。

S306,基于区域候选网络中的可分离卷积结构，对待检测特征进行计算，生成目标图像的识别结果。

本申请中，当获取第一分类之后，可以获取与第一分类相匹配的识别窗口，并在基于MobileNet网络的基础上，利用目标物体在目标图像中的待检测区域、待检测水平位置以及多个识别窗口，对待检测特征进行计算，得到目标图像的识别结果。通过应用本申请的技术方案，可以根据目标物体的在目标图像中的待检测区域以及待检测水平位置，利用多个识别窗口对目标图像进行深度学习计算。进而可以避免由于识别窗口在图像中的标注位置不准确而导致的降低识别准确率的弊端。

在本申请的另外一种实施方式中，如图6所示，本申请还提供一种图像识别装置，该装置包括获取模块401，提取模块402，计算模块403，其中，

获取模块401，被配置为获取目标图像；

提取模块402，被配置为基于MobileNet网络以及识别窗口，对所述目标图像中的目标物体进行特征提取，得到待检测特征，所述识别窗口为基于所述目标物体的第一分类得到的识别窗口；

计算模块403，被配置为基于区域候选网络中的可分离卷积结构，对所述待检测特征进行计算，生成所述目标图像的识别结果。

可选的，在本申请的另一种实施方式中，提取模块402，还包括，确定单元，提取单元，其中：

确定单元，被配置为确定所述目标物体的第一分类；

确定单元，被配置为基于所述目标物体的第一分类，确定所述识别窗口；

提取单元，被配置为以所述MobileNet网络作为第一优先级计算网络，利用所述识别窗口，对所述目标图像中的目标物体进行特征提取，得到待检测特征。

在本申请的另一种实施方式中，提取模块402，还包括，获取单元，生成单元，其中：

获取单元，被配置为基于所述MobileNet网络以及所述识别窗口，获取所述目标图像的Feature map；

生成单元，被配置为基于所述Feature map，得到所述待检测特征，所述待检测特征中包含所述待检测特征的类别。

在本申请的另一种实施方式中，提取模块402，还包括：

生成单元，被配置为基于所述区域候选网络中的可分离卷积结构，对所述Featuremap进行位置敏感层卷积，得到位置敏感得分映射图；

生成单元，被配置为基于所述位置敏感得分映射图，对所述待检测特征进行池化操作，生成所述目标图像的识别结果。

在本申请的另一种实施方式中，提取模块402，还包括：

生成单元，被配置为基于所述位置敏感得分映射图，对所述待检测特征进行位置敏感ROI池化操作，得到所述目标图像中的所述目标物体的第二分类以及待检测区域；

生成单元，被配置为基于所述第二分类以及待检测区域，生成所述目标图像的识别结果。

在本申请的另一种实施方式中，提取模块402，还包括：

确定单元，被配置为确定所述目标物体的第一分类；

确定单元，被配置为基于所述第一分类，确定所述目标物体的长宽比例；

获取单元，被配置为基于所述目标物体的长宽比例，获取所述识别窗口，所述识别窗口为具备所述长宽比例的识别窗口。

在本申请的另一种实施方式中，提取模块402，还包括：

获取单元，被配置为获取所述目标物体在所述目标图像中的所占区域比例；

确定单元，被配置为基于所述所占区域比例，确定所述识别窗口的面积；

获取单元，被配置为基于所述识别窗口的面积以及所述长宽比例，获取所述识别窗口。

在本申请的另一种实施方式中，提取模块402，还包括，识别模块，其中：

识别模块，被配置为识别所述目标图像中的目标物体，获取所述目标物体对应的待检测参数，所述待检测参数包括待检测区域以及待检测水平位置，所述待检测区域为在所述目标图像中的区域，所述待检测水平位置为在所述目标图像中，所述目标物体的水平位置；

提取模块，被配置为基于所述MobileNet网络、所述识别窗口以及所述待检测参数，对所述目标图像中的目标物体进行特征提取。

图7是根据一示例性实施例示出的一种电子设备的逻辑结构框图。例如，电子设备500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，电子设备500可以包括以下一个或多个组件：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器501所执行以实现本申请中方法实施例提供的互动特效标定方法。

在一些实施例中，电子设备500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、触摸显示屏505、摄像头506、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置电子设备500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在电子设备500的不同表面或呈折叠设计；在再一些实施例中，显示屏505可以是柔性显示屏，设置在电子设备500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位电子设备500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源509用于为电子设备500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器511可以检测以电子设备500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制触摸显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测电子设备500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对电子设备500的3D动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在电子设备500的侧边框和/或触摸显示屏505的下层。当压力传感器513设置在电子设备500的侧边框时，可以检测用户对电子设备500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在触摸显示屏505的下层时，由处理器501根据用户对触摸显示屏505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹，由处理器501根据指纹传感器514采集到的指纹识别用户的身份，或者，由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置电子设备500的正面、背面或侧面。当电子设备500上设置有物理按键或厂商Logo时，指纹传感器514可以与物理按键或厂商Logo集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器515采集的环境光强度，控制触摸显示屏505的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏505的显示亮度；当环境光强度较低时，调低触摸显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器515采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器516，也称距离传感器，通常设置在电子设备500的前面板。接近传感器516用于采集用户与电子设备500的正面之间的距离。在一个实施例中，当接近传感器516检测到用户与电子设备500的正面之间的距离逐渐变小时，由处理器501控制触摸显示屏505从亮屏状态切换为息屏状态；当接近传感器516检测到用户与电子设备500的正面之间的距离逐渐变大时，由处理器501控制触摸显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对电子设备500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由电子设备500的处理器520执行以完成上述图像识别方法，该方法包括：获取目标图像；基于MobileNet网络以及识别窗口，对所述目标图像中的目标物体进行特征提取，得到待检测特征，所述识别窗口为基于所述目标物体的第一分类得到的识别窗口；基于区域候选网络中的可分离卷积结构，对所述待检测特征进行计算，生成所述目标图像的识别结果。可选地，上述指令还可以由电子设备500的处理器520执行以完成上述示例性实施例中所涉及的其他步骤。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种应用程序/计算机程序产品，包括一条或多条指令，该一条或多条指令可以由电子设备500的处理器520执行，以完成上述图像识别方法，该方法包括：获取目标图像；基于MobileNet网络以及识别窗口，对所述目标图像中的目标物体进行特征提取，得到待检测特征，所述识别窗口为基于所述目标物体的第一分类得到的识别窗口；基于区域候选网络中的可分离卷积结构，对所述待检测特征进行计算，生成所述目标图像的识别结果。可选地，上述指令还可以由电子设备500的处理器520执行以完成上述示例性实施例中所涉及的其他步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种图像识别方法，其特征在于，包括：

获取目标图像；

2.如权利要求1所述的方法，其特征在于，所述基于MobileNet网络以及识别窗口，对所述目标图像中的目标物体进行特征提取，得到待检测特征，包括：

确定所述目标物体的第一分类；

基于所述目标物体的第一分类，确定所述识别窗口；

3.如权利要求2所述的方法，其特征在于，所述基于所述MobileNet网络，利用所述识别窗口，对所述目标图像中的目标物体进行特征提取，得到待检测特征，包括：

4.如权利要求3所述的方法，其特征在于，在所述基于所述Feature map，得到所述待检测特征之后，还包括：

5.如权利要求4所述的方法，其特征在于，所述基于所述位置敏感得分映射图，对所述待检测特征进行池化操作，生成所述目标图像的识别结果，还包括：

6.如权利要求2所述的方法，其特征在于，所述基于所述目标物体，确定所述识别窗口，包括：

确定所述目标物体的第一分类；

基于所述第一分类，确定所述目标物体的长宽比例；

7.如权利要求6所述的方法，其特征在于，所述基于所述目标物体的长宽比例，获取所述识别窗口，包括：

获取所述目标物体在所述目标图像中的所占区域比例；

基于所述所占区域比例，确定所述识别窗口的面积；

8.如权利要求7所述的方法，其特征在于，所述基于MobileNet网络以及所述识别窗口，对所述目标图像中的目标物体进行特征提取，包括：

9.一种图像识别装置，其特征在于，包括：

获取模块，被配置为获取目标图像；

10.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；以及，

显示器，用于与所述存储器显示以执行所述可执行指令从而完成权利要求1-8中任一所述图像识别方法的操作。

11.一种计算机可读存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1-8中任一所述图像识别方法的操作。