CN112818743A

CN112818743A - 图像识别的方法、装置、电子设备及计算机存储介质

Info

Publication number: CN112818743A
Application number: CN202011599503.7A
Authority: CN
Inventors: 陈超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-05-18
Anticipated expiration: 2040-12-29
Also published as: CN112818743B

Abstract

本申请公开了一种图像识别的方法、装置、电子设备及计算机存储介质，该方法包括：通过在获取连续拍摄得到的多张图像后，组合多张图像，得到多张图像的组合图像，其中，组合图像中的目标对象以外的区域被模糊化，目标对象指代多张图像中共有、且所处位置固定的对象；最后，将组合图像输入至目标检测模型中，得到组合图像中的每一个物体的定位信息和类别信息，以达到可以对图像中的物体进行精准识别精确度的目的，还提高目前计算机视觉技术中对图像中物体的进行识别的精准度。

Description

图像识别的方法、装置、电子设备及计算机存储介质

技术领域

本申请涉及人工智能领域，特别涉及一种图像识别的方法、装置、电子设备及计算机存储介质。

背景技术

随着人工智能技术研究和进步，人工智能技术在越来越多的领域得到应用，并发挥越来越重要的价值。

目前，车内的智能后视镜在拍摄图片、录像的过程中，由于后视镜在车驾驶室中位置位于司机右上方，即车辆正中高点；所以，录制的视频、拍摄的照片中往往会拍摄到少量车头或者车辆前挡风玻璃上的证件或者其他遮挡物。因此，在后续对拍摄的图片中的物体进行识别的过程中，很难识别出哪些物体是车内的，哪些物体是车外的。

发明内容

基于上述现有技术的不足，本申请提出了一种图像识别的方法、装置、电子设备及计算机存储介质，以达到可以对图像中的物体进行精准识别的目的。

为了实现上述目的，现提出的方案如下：

本申请第一方面公开了一种图像识别的方法，包括：

获取连续拍摄得到的多张图像；

组合所述多张图像，得到所述多张图像的组合图像；其中，所述组合图像中的目标对象以外的区域被模糊化，所述目标对象指代所述多张图像中共有、且所处位置固定的对象；

将所述组合图像输入至目标检测模型中，得到所述组合图像中的每一个物体的定位信息和类别信息；其中，所述目标检测模型由多个训练样本图像、所述训练样本图像中的所有物体的真实定位信息和真实类型信息对卷积神经网络模型进行训练得到。

可选的，所述组合所述多张图像，得到所述多张图像的组合图像；其中，所述组合图像中的目标对象以外的区域被模糊化，包括：

解析每一张所述图像，得到所述图像的每一个像素点的颜色通道值；

对所述多张图像中位于相同位置的像素点的颜色通道值分别进行均值计算，得到所述组合图像的每一个像素点的颜色通道值。

可选的，所述获取连续拍摄得到的多张图像之后，还包括：

判断获取的多张图像的位置差是否在预设阈值内，其中，每两张图像之间的位置差由拍摄图像时的抖动造成；

若判断出所述获取的多张图像的位置差未在预设阈值内，则对所述获取的多张图像进行除抖动处理，得到除抖动处理后的图像，并对所述除抖动处理后的图像，执行所述组合所述多张图像，得到所述多张图像的组合图像；

若判断出所述获取的多张图像的位置差在预设阈值内，则执行所述组合所述多张图像，得到所述多张图像的组合图像。

可选的，所述对所述获取的多张图像进行除抖动处理，得到除抖动处理后的图像，包括：

在所述多张图像中确定一张图像为目标图像；

在每一张所述图像中分别选定目标像素块；其中，所述目标像素块为包含且有明显特征的像素块；所述像素块由多个相邻像素点组成；

将每一张非目标图像中的目标像素块与所述目标图像中的目标像素块对齐。

可选的，所述目标检测模型的构建方法，包括：

构建训练样本集；其中，所述训练样本集包括多个训练样本图像以及每一个所述训练样本图像中的所有物体的真实定位信息和真实类型信息；

将每一个所述训练样本图像，分别输入至卷积神经网络模型，得到所述训练样本图像中的每一个物体的预测定位信息和预测类型信息；

利用每一个所述训练样本图像中的每一个物体的预测定位信息和预测类型信息与所述训练样本图像中的每一个物体的真实定位信息和真实类型信息之间的误差，对所述卷积神经网络模型的参数进行不断调整，直至调整后的卷积神经网络模型输出的训练样本图像中的每一个物体的预测定位信息和预测类型信息与所述训练样本图像中的每一个物体的真实定位信息和真实类型信息之间的误差满足预设的收敛条件时，将所述调整后的卷积神经网络模型确定为所述目标检测模型。

本申请第二方面公开了一种图像识别的装置，包括：

获取单元，用于获取连续拍摄得到的多张图像；

组合单元，用于组合所述多张图像，得到所述多张图像的组合图像；其中，所述组合图像中的目标对象以外的区域被模糊化，所述目标对象指代所述多张图像中共有、且所处位置固定的对象；

第一输入单元，用于将所述组合图像输入至目标检测模型中，得到所述组合图像中的每一个物体的定位信息和类别信息；其中，所述目标检测模型由多个训练样本图像、所述训练样本图像中的所有物体的真实定位信息和真实类型信息对卷积神经网络模型进行训练得到。

可选的，所述组合单元，包括：

解析单元，用于解析每一张所述图像，得到所述图像的每一个像素点的颜色通道值；

计算单元，用于对所述多张图像中位于相同位置的像素点的颜色通道值分别进行均值计算，得到所述组合图像的每一个像素点的颜色通道值。

可选的，所述图像识别的装置，还包括：

判断单元，用于判断获取的多张图像的位置差是否在预设阈值内，其中，每两张图像之间的位置差由拍摄图像时的抖动造成；

除抖动单元，用于若所述判断单元判断出，所述获取的多张图像的位置差未在预设阈值内，则对所述获取的多张图像进行除抖动处理，得到除抖动处理后的图像，并触发所述组合单元对所述除抖动处理后的图像，执行所述组合所述多张图像，得到所述多张图像的组合图像；

执行单元，用于若所述判断单元判断出，所述获取的多张图像的位置差在预设阈值内，则触发所述组合单元执行所述组合所述多张图像，得到所述多张图像的组合图像。

可选的，所述除抖动单元，包括：

确定单元，用于在所述多张图像中确定一张图像为目标图像；

选定单元，用于在每一张所述图像中分别选定目标像素块；其中，所述目标像素块为包含且有明显特征的像素块；所述像素块由多个相邻像素点组成；

对齐单元，用于将每一张非目标图像中的目标像素块与所述目标图像中的目标像素块对齐。

可选的，所述目标检测模型的构建单元，包括：

训练样本构建单元，用于构建训练样本集；其中，所述训练样本集包括多个训练样本图像以及每一个所述训练样本图像中的所有物体的真实定位信息和真实类型信息；

第二输入单元，用于将每一个所述训练样本图像，分别输入至卷积神经网络模型，得到所述训练样本图像中的每一个物体的预测定位信息和预测类型信息；

调整单元，用于利用每一个所述训练样本图像中的每一个物体的预测定位信息和预测类型信息与所述训练样本图像中的每一个物体的真实定位信息和真实类型信息之间的误差，对所述卷积神经网络模型的参数进行不断调整，直至调整后的卷积神经网络模型输出的训练样本图像中的每一个物体的预测定位信息和预测类型信息与所述训练样本图像中的每一个物体的真实定位信息和真实类型信息之间的误差满足预设的收敛条件时，将所述调整后的卷积神经网络模型确定为所述目标检测模型。

本申请第三方面公开了一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如第一方面任意一项所述的方法。

本申请第四方面公开了一种计算机存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如第一方面任意一项所述的方法。

从上述的技术方案可以看出，本申请提供的图像识别的方法中，通过在获取连续拍摄得到的多张图像后，组合所述多张图像，得到所述多张图像的组合图像，其中，所述组合图像中的目标对象以外的区域被模糊化，所述目标对象指代所述多张图像中共有、且所处位置固定的对象；最后，将所述组合图像输入至目标检测模型中，得到所述组合图像中的每一个物体的定位信息和类别信息；其中，所述目标检测模型由多个训练样本图像、所述训练样本图像中的所有物体的真实定位信息和真实类型信息对卷积神经网络模型进行训练得到，以达到可以对图像中的物体进行精准识别的目的。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种图像识别的方法的流程示意图；

图2为本申请实施例公开的连续拍摄得到的多张图像中的一张图像的展示图；

图3为本申请实施例公开的一种组合图像的展示图；

图4为本申请实施例公开的图像识别的方法中组合图像过程的流程示意图；

图5为本申请实施例公开的Faster-RCNN模型的网络结构的示意图；

图6为本申请实施例公开的Faster-RCNN模型中的VGG-16的主干网络的示意图；

图7为本申请实施例公开的区域候选网络的示意图；

图8为本申请实施例公开的兴趣池化层以及连接层的示意图；

图9为本申请实施例公开的一种目标检测模型的构建方法的流程示意图；

图10为本申请实施例公开的另一种图像识别的方法的流程示意图；

图11为本申请实施例公开的一种除抖动的具体实施方式的流程示意图；

图12为本申请实施例公开的一种图像识别的装置的结构示意图；

图13为本申请实施例公开的另一种图像识别的装置的结构示意图；

图14为本申请实施例提供的一种用于实现图像识别的方法的电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

先需要说明的是，本申请实施例公开的图像识别的方法，可以应用于计算机视觉技术(Computer Vision,CV)。计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。当计算机视觉技术的相关应用中需要对图像进行识别时，可通过本申请实施例所提出的图像识别的方法快速准确的识别出图像中的物体。

参阅图1，本申请实施例公开了一种图像识别的方法，具体包括以下步骤：

S101、获取连续拍摄得到的多张图像。

需要说明的是，连续拍摄得到的多张图像，一般是拍摄设备，如手机、照相机、摄像机等，针对同一个场景在一段时间内拍摄得到，并且，图像的间隔时间不应过长，且保证具有相同的宽度和高度。若将本申请实施例提供的图像识别的方法，应用于识别车内外的物体时，需要利用拍摄设备连续拍摄包含有车内环境和车外环境的多张图像，当然可以利用手机、照相机、摄像机、车载摄像头、车辆的智能后视镜、带有拍照功能的倒车镜等进行拍摄。

还需要说明的是，连续拍摄的间隔可以是用户预先设置的拍摄间隔，用户通过在设备上提前设置，从而进行连续拍摄；也可以是用户手动进行拍摄时，多次按下拍摄键进行拍照时，产生的拍摄间隔，此处不做限定。

S102、组合多张图像，得到多张图像的组合图像。

其中，组合图像中的目标对象以外的区域被模糊化，目标对象指代多张图像中共有、且所处位置固定的对象。

在识别车内外物体的场景中，利用车载摄像头在汽车行驶的过程中连续拍摄得到多张图像，将汽车行驶过程中拍摄的多张图像组合成了一张组合图像，由于汽车窗外的景物相对车载摄像头以及车内的物体来说，是相对运动的，因此，在将多张图片合成一张组合图像后，汽车窗外的景物会变得模糊，而车内的物体相对于车载摄像头来说是一直保持相对静止的，所以车内的物体的图像在进行组合后依旧会保持清晰。

以本申请实施例提供的图像识别的方法，应用于识别车内外的物体为例，参阅图2，以汽车玻璃上黑框区域为例，由于汽车玻璃反光原因，并不能分辨出黑框区域内的物体是车内物体，还是车外物体。但是，在将多张图像进行组合，得到多张图像的组合图像后，参阅图3，车外物体均变得模糊化，黑框区域内的物体的图像依旧清晰，因此，可以判断出黑框区域内的物体为车内物体。

具体的，由于是通过同一个拍摄设备进行连续拍摄，因此，图像的都是一样的，如5cm×5cm大小的图像，所以可以直接将多张图像进行叠加组合，从而得到多张图像的组合图像。

可选的，在本申请的一具体实施例中，执行步骤S102的一种实施方式，参阅图4，具体包括以下步骤：

S401、解析每一张图像，得到图像的每一个像素点的颜色通道值。

其中，每一个像素点都以16进制进行存储，例如：0×67843380，其中0×表示这是一个16进制的数，在0×后边的8位数字，每两位一组从前向后依次存储了像素点的红色分量、绿色分量、蓝色分量和透明度值。该16进制的数也可以理解为该像素点的颜色通道值。

可以理解的是，在0×后边的8位数字，不一定是按照像素点的红色分量、绿色分量、蓝色分量和透明度值这个顺序进行存储的，上述仅为举例说明。

具体的，在获取得到每一张图像后，分别对每一张图像的每一个像素点的数据进行查询，得到每一个像素点的颜色通道值。

S402、对多张图像中位于相同位置的像素点的颜色通道值分别进行均值计算，得到组合图像的每一个像素点的颜色通道值。

具体的，将多张图像中处于相同位置的像素点X的颜色通道值中红色分量、绿色分量、蓝色分量和透明度值，求出红色分量的均值、绿色分量的均值、蓝色分量的均值和透明度值的均值后，将红色分量的均值、绿色分量的均值、蓝色分量的均值和透明度值按照原来的像素通道值的组合方式进行组合，最终得到组合图像中像素点X的颜色通道值。同理，分别求出组合图像中的每一个像素点的颜色通道值。

例如：将3张图像进行组合，第一张图像中位于第二行第三列的像素点的像素通道值为0×11114480；第二张图像中位于第二行第三列的像素点的像素通道值为0×22112280；第三张图像中位于第二行第三列的像素点的像素通道值为0×66443380；那么，红色分量的均值为(11+22+66)/3＝33，绿色分量的均值为(11+11+44)/3＝22，蓝色分量的均值为(44+22+33)/3＝33，透明度值为80，那么组合图像中位于第二行第三列的像素点的像素通道值为0×33223380。同理，分别求出组合图像中的每一个像素点的颜色通道值。

S103、将组合图像输入至目标检测模型中，得到组合图像中的每一个物体的定位信息和类别信息。

其中，目标检测模型由多个训练样本图像、训练样本图像中的所有物体的真实定位信息和真实类型信息对卷积神经网络模型进行训练得到。

目标检测模型可以是但不限于基于卷积神经网络模型的Faster-RCNN模型。如图5所示，具体包括通过转换层对目标图像(即组合图像)进行特征提取，得到至少一个特征图；然后，通过候选区域网络在目标图像中产生候选区域，并对候选区域进行分类三个步骤。可以实现对目标图像中物体的定位，并对物体类别进行分类。

具体的，在组合图像输入至Faster-RCNN后，首先，将组合图像输入至转换层，转换层可以是采用VGG-16的主干网络，如图6所示，VGG-16的主干网络中包括13个卷积(conv)层，13个激活(relu)层以及4个池化层(Pooling)层。目标图像在经过主干网络后，可以得到组合图像的至少一个特征图。其中，目标图像在被送入转换层后，不论目标图像的原始尺寸的大小，都会被缩放至固定尺寸M*N(M和N为大于0的任意数字，以1000*600为例)，以满足后续卷积层计算需求，然后将缩放后的组合图像输入至卷积层中，通过预设的卷积计算公式：

(M+2*padding-kernel_size+1)*(N+2*padding-kernel_size+1)/stride＝M*N对组合图像进行计算，其中，kernel_size＝3、padding＝1、stride＝1，可知卷积层不会改变组合图像尺寸大小；接着经过激活层，激活函数也不会改变组合图像尺寸大小；最后经过池化层，池化层的参数设置为kernel_size＝2、padding＝0、stride＝2，通过池化计算方式可知池化层使得输出的图像的尺寸减半。一张组合图像从输入到输出，一共经过4个池化层，M*N大小的组合图像变为(M/16)*(N/16)的特征图，即特征图上的1个点对应着原始的组合图像上16个像素点，输出的特征图大小为60*40，数量为512。

然后，将计算得到的特征图输入至区域候选网络(Region Proposal Networks，RPN)中，RPN用来生成候选区域，且包含两个分支，一个是分类预测层，一个是检测框回归层。如图7所示，RPN在获取得到特征图后，首先，特征图先经过3*3的卷积滑动窗口，然后再接入2个1*1全卷积层，该层的参数设置为kernel_size＝1、padding＝0、stride＝1，输出特征图仍为60*40*512。每个滑动窗口都会预测9个候选框(3个尺度*3个长宽比，anchorbox)，因此对于每个滑动窗口，分类预测层会有9*2＝18个输出，其输出表明候选框属于前景和背景的概率(即候选框中是否为物体)，即rpn_cls：60*40*512-d⊕1*1*512*18＝＝>60*40*9*2，逐像素对其9个anchor box进行二分类，其中二分类具体包括：通过过滤层将边界超过1000*600的anchor box过滤掉，然后，通过softmax逻辑回归模型对剩下的anchorbox进行判断，判断anchor box中的东西是物体和不是物体的概率，然后再通过过滤层将anchor box中的东西不是物体的anchor box过滤掉。检测框回归层会有9*4＝36个输出，其输出表明候选框的定位坐标，即rpn_bbox：60*40*512-d⊕1*1*512*36＝＝>60*40*9*4，逐像素得到其9个anchor box的四个坐标信息。针对最终生成的60*40*9个anchor box，经过训练后得到更加准确的候选区域，采用非最大值抑制(Non-Maximum Suppression，NMS)和越界框剔除后，最后留下约2000个候选区域，取分数前300个候选区域输入至兴趣池化(region of interest Pooling，ROI Pooling)层。

如图8所示，通过ROI Pooling层将300个候选区域进行归一化为固定尺寸的目标识别区域，输入至全连接层，全连接层通过softmax函数计算每个目标识别区域的类别(即物体的类型信息)后，还可以再次通过分类预测层进行预测。同时，全连接层还可以再次利用检测框回归层计算每一个目标识别区域的位置偏移量，从而得到更加精确的目标识别区域(即物体的定位信息)。

可选的，在本申请的一具体实施例中，目标检测模型的构建方法的一种实施方式，参阅图9，具体包括以下步骤：

S901、构建训练样本集。

其中，训练样本集包括多个训练样本图像以及每一个训练样本图像中的所有物体的真实定位信息和真实类型信息。

S902、将每一个训练样本图像，分别输入至卷积神经网络模型，得到训练样本图像中的每一个物体的预测定位信息和预测类型信息。

S903、判断每一个训练样本图像中的每一个物体的预测定位信息和预测类型信息与训练样本图像中的每一个物体的真实定位信息和真实类型信息之间的误差是否满足预设的收敛条件。

具体的，若判断出每一个训练样本图像中的每一个物体的预测定位信息和预测类型信息与训练样本图像中的每一个物体的真实定位信息和真实类型信息之间的误差满足预设的收敛条件，则执行步骤S905；若判断处每一个训练样本图像中的每一个物体的预测定位信息和预测类型信息与训练样本图像中的每一个物体的真实定位信息和真实类型信息之间的误差不满足预设的收敛条件，则执行步骤S904。

S904、对卷积神经网络模型的参数进行调整。

具体的，在对卷积神经网络模型的参数进行调整后，返回执行步骤S502，直至每一个训练样本图像中的每一个物体的预测定位信息和预测类型信息与训练样本图像中的每一个物体的真实定位信息和真实类型信息之间的误差满足预设的收敛条件。

S905、将调整后的卷积神经网络模型确定为目标检测模型。

本申请提供的图像识别的方法中，通过在获取连续拍摄得到的多张图像后，组合多张图像，得到多张图像的组合图像，其中，组合图像中的目标对象以外的区域被模糊化，目标对象指代多张图像中共有、且所处位置固定的对象；最后，将组合图像输入至目标检测模型中，得到组合图像中的每一个物体的定位信息和类别信息；其中，目标检测模型由多个训练样本图像、训练样本图像中的所有物体的真实定位信息和真实类型信息对卷积神经网络模型进行训练得到。以达到可以对图像中的物体进行精准识别的目的。

可选的，参阅图10，在本申请一实施例中，图像识别的方法的一种实施方式，包括：

S1001、获取连续拍摄得到的多张图像。

本实施例中，步骤S1001的具体实现方式可相应地参考上述方法实施例中的步骤S101的内容，此处不再赘述。

S1002、判断获取的多张图像的位置差是否在预设阈值内。

其中，每两张图像之间的位置差由拍摄图像时的抖动造成。预设阈值为技术人员经过多次试验得到的一个基础数值，且是可以根据不同的应用场景、不同的使用情况对预设阈值进行调整的，此处不做限定。

需要说明的是，位置差可以但不限于通过两张图像中某一共同的区域所在位置之间的差值。例如：图像x和图像y具有共同区域K，图像x的K区域的中心点的坐标为(2,6)；图像x的K区域的中心点的坐标为(4,8)，那么对于图像x和图像y之间的位置差可以是，将图像x与图像y的横坐标的差值，和图像x和图像y的纵坐标的差值进行相加得到：(4-2)+(8-6)＝4；也可以是将图像x与图像y的横坐标的差值，和图像x和图像y的纵坐标的差值求均值得到：(4-2)+(8-6)/2＝2。

可以理解的是，不同计算得到位置差的方法，所对应的预设阈值可能不同。

例如：在步骤S1001中获取了连续拍摄的图像a、图像b、图像c和图像d，那么，分别判断图像a与图像b、图像a与图像c、图像a与图像d、图像b与图像c、图像b与图像d、图像c与图像d之间的位置差是否在于预设阈值内。

具体的，可以是若判断出获取的多张图像中任意两张图像的位置差未在预设阈值内，则针对多张图像中的所有图像执行步骤S1003，也可以是若判断出获取的多张图像中任意两张图像的位置差未在预设阈值内，则针对位置差未在预设阈值的两张图像执行步骤S1003；若判断出获取的多张图像中每两个图像之间的位置差均在预设阈值内，则执行S1004。

S1003、对获取的多张图像进行除抖动处理，得到除抖动处理后的图像。

若步骤S1002中为若判断出获取的多张图像中任意两张图像的位置差未在预设阈值内，则针对多张图像中的所有图像进行除抖动处理，除抖动处理可以理解为将多张图像中每两个图像之间的位置差均调整至在预设阈值内，即小于或等于预设阈值；若步骤S1002中为若判断出获取的多张图像中任意两张图像的位置差未在预设阈值内，则针对位置差未在预设阈值的两张图像进行除抖动处理，那么，除抖动处理可以理解为，将位置差未在预设阈值内的两张图像的位置差调整至满足预设阈值，即小于或等于预设阈值。

可选的，在本申请的一具体实施例中，执行步骤S1003的一种实施方式，参阅图11，具体包括以下步骤：

S1101、在多张图像中确定一张图像为目标图像。

需要说明的是，可以是在多张图像中随机确定一张为目标图像，也可以是将多张图像最后一张图像确定为目标图像等，此处不做限定。

S1102、在每一张图像中分别选定目标像素块。

其中，目标像素块为包含且有明显特征的像素块，像素块由多个相邻像素点组成。

在选定目标像素块时，可以是在多张图像中选取每一张图像中均有的物体，且有着明显特征的物体所处的像素块，例如：在对室内进行连续拍照时，电视机所处位置，车载摄像头在对车内进行拍照时，座椅所处位置等。可以理解的是，所选定的物体在图像中的数量越少，后续的除抖动处理的效果越好，精确度越高。

需要说明的是，在每一张图像中选定的目标像素块均为相同的目标像素块。例如：目标像素块为图像中的手表，虽然，手表在每张图像中所处的位置可能不同，但每一张图像选定的目标像素块都为图像中的手表所处的像素块。

S1103、将每一张非目标图像中的目标像素块与目标图像中的目标像素块对齐。

以目标图像M、非目标图像N以及目标像素块为图像中手表所处的像素块为例，首先，确认目标图像M中的手表所处的像素块的位置信息以及非目标图像N中的手表所处的像素块的位置信息，然后可以通过但不限于将目标图像M中的手表所处的像素块的中心点以及非目标图像N中的手表所处的像素块的中心点进行重合的方式，达到将目标图像M中的手表所处的像素块于非目标图像N中的手表所处的像素块对齐的目的。

S1004、组合多张图像，得到多张图像的组合图像。

本实施例中，步骤S1004的具体实现方式可相应地参考上述方法实施例中的步骤S102的内容，此处不再赘述。

S1005、将组合图像输入至目标检测模型中，得到组合图像中的每一个物体的定位信息和类别信息。

其中，目标检测模型由多个训练样本图像、训练样本图像中的所有物体的真实定位信息和真实类型信息对卷积神经网络模型进行训练得到。目标检测模型的构建方法可以参阅图9对应实施例的内容，此处不在赘述。

本实施例中，步骤S1005的具体实现方式可相应地参考上述方法实施例中的步骤S103的内容，此处不再赘述。

本申请提供的图像识别的方法中，通过在获取连续拍摄得到的多张图像后，判断获取的多张图像的位置差是否在预设阈值内，若判断出获取的多张图像的位置差未在预设阈值内，对获取的多张图像进行除抖动处理，得到除抖动处理后的图像后，组合多张图像，得到多张图像的组合图像；若判断出获取的多张图像的位置差在预设阈值内，则直接组合多张图像，得到多张图像的组合图像，其中，组合图像中的目标对象以外的区域被模糊化，目标对象指代多张图像中共有、且所处位置固定的对象；最后，将组合图像输入至目标检测模型中，得到组合图像中的每一个物体的定位信息和类别信息；其中，目标检测模型由多个训练样本图像、训练样本图像中的所有物体的真实定位信息和真实类型信息对卷积神经网络模型进行训练得到。以达到可以对图像中的物体进行精准识别的目的。

参阅图12，基于上述本申请实施例提出的图像识别的方法，本申请实施例还对应公开了一种图像识别的装置1200，包括：获取单元1201、组合单元1202和第一输入单元1203。

获取单元1201，用于获取连续拍摄得到的多张图像。

组合单元1202，用于组合多张图像，得到多张图像的组合图像。

可选的，在本申请一具体实施例中，组合单元1202，包括：解析单元和计算单元。

解析单元，用于解析每一张图像，得到图像的每一个像素点的颜色通道值。

计算单元，用于对多张图像中位于相同位置的像素点的颜色通道值分别进行均值计算，得到组合图像的每一个像素点的颜色通道值。

第一输入单元1203，用于将组合图像输入至目标检测模型中，得到组合图像中的每一个物体的定位信息和类别信息。

可选的，在本申请一具体实施例中，目标检测模型的构建单元，包括：训练样本构建单元、第二输入单元和调整单元。

训练样本构建单元，用于构建训练样本集。

第二输入单元，用于将每一个训练样本图像，分别输入至卷积神经网络模型，得到训练样本图像中的每一个物体的预测定位信息和预测类型信息。

调整单元，用于利用每一个训练样本图像中的每一个物体的预测定位信息和预测类型信息与训练样本图像中的每一个物体的真实定位信息和真实类型信息之间的误差，对卷积神经网络模型的参数进行不断调整，直至调整后的卷积神经网络模型输出的训练样本图像中的每一个物体的预测定位信息和预测类型信息与训练样本图像中的每一个物体的真实定位信息和真实类型信息之间的误差满足预设的收敛条件时，将调整后的卷积神经网络模型确定为目标检测模型。

上述本申请实施例公开的图像识别的装置1200中的具体的原理和执行过程，与上述本申请实施例公开的图像识别的方法相同，可参见上述本申请实施例公开的图像识别的方法中相应的部分，这里不再进行赘述。

本申请提供的图像识别的装置中，通过获取单元1201在获取连续拍摄得到的多张图像后，组合单元1202组合多张图像，得到多张图像的组合图像，其中，组合图像中的目标对象以外的区域被模糊化，目标对象指代多张图像中共有、且所处位置固定的对象；最后，第一输入单元1203将组合图像输入至目标检测模型中，得到组合图像中的每一个物体的定位信息和类别信息；其中，目标检测模型由多个训练样本图像、训练样本图像中的所有物体的真实定位信息和真实类型信息对卷积神经网络模型进行训练得到。以达到可以对图像中的物体进行精准识别的目的。

参阅图13，基于上述本申请实施例提出的图像识别的方法，本申请实施例还对应公开了一种图像识别的装置1300，包括：获取单元1301、判断单元1302、除抖动单元1303、组合单元1304和第一输入单元1305。

获取单元1301，用于获取连续拍摄得到的多张图像。

判断单元1302，用于判断获取的多张图像的位置差是否在预设阈值内。

其中，每两张图像之间的位置差由拍摄图像时的抖动造成。

除抖动单元1303，用于若判断单元1302判断出获取的多张图像的位置差未在预设阈值内，则对获取的多张图像进行除抖动处理，得到除抖动处理后的图像。

可选的，在本申请的一具体实施例中，除抖动单元1303，包括：确定单元、选定单元合对齐单元。

确定单元，用于在多张图像中确定一张图像为目标图像。

选定单元，用于在每一张图像中分别选定目标像素块。

对齐单元，用于将每一张非目标图像中的目标像素块与目标图像中的目标像素块对齐。

组合单元1304，用于组合多张图像，得到多张图像的组合图像。

第一输入单元1305，用于将组合图像输入至目标检测模型中，得到组合图像中的每一个物体的定位信息和类别信息。

上述本申请实施例公开的图像识别的装置1300中的具体的原理和执行过程，与上述本申请实施例公开的图像识别的方法相同，可参见上述本申请实施例公开的图像识别的方法中相应的部分，这里不再进行赘述。

本申请提供的图像识别的装置中，通过获取单元1301在获取连续拍摄得到的多张图像后，判断单元1302判断获取的多张图像的位置差是否在预设阈值内，若判断单元1302判断出获取的多张图像的位置差未在预设阈值内，除抖动单元1303对获取的多张图像进行除抖动处理，得到除抖动处理后的图像后，组合单元1304组合多张图像，得到多张图像的组合图像；若判断单元1302判断出获取的多张图像的位置差在预设阈值内，则组合单元1304直接组合多张图像，得到多张图像的组合图像，其中，组合图像中的目标对象以外的区域被模糊化，目标对象指代多张图像中共有、且所处位置固定的对象；最后，第一输入单元1305将组合图像输入至目标检测模型中，得到组合图像中的每一个物体的定位信息和类别信息；其中，目标检测模型由多个训练样本图像、训练样本图像中的所有物体的真实定位信息和真实类型信息对卷积神经网络模型进行训练得到。以达到可以对图像中的物体进行精准识别的目的。

本申请另一实施例提供了一种电子设备，如图14所示，包括：

一个或多个处理器1401。

存储装置1402，其上存储有一个或多个程序。

当所述一个或多个程序被所述一个或多个处理器1401执行时，使得所述一个或多个处理器1401实现以上各方法实施例提供的图像识别的方法。

本申请实施例提供了一种计算机存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现以上各方法实施例提供的图像识别的方法。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，存储介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。本申请中所涉及的申请范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述申请构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种图像识别的方法，其特征在于，包括：

获取连续拍摄得到的多张图像；

2.根据权利要求1所述的方法，其特征在于，所述组合所述多张图像，得到所述多张图像的组合图像；其中，所述组合图像中的目标对象以外的区域被模糊化，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取连续拍摄得到的多张图像之后，还包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述获取的多张图像进行除抖动处理，得到除抖动处理后的图像，包括：

在所述多张图像中确定一张图像为目标图像；

5.根据权利要求1所述的方法，其特征在于，所述目标检测模型的构建方法，包括：

6.一种图像识别的装置，其特征在于，包括：

获取单元，用于获取连续拍摄得到的多张图像；

7.根据权利要求6所述的装置，其特征在于，所述组合单元，包括：

8.根据权利要求6所述的装置，其特征在于，所述目标检测模型的构建单元，包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至5中任一所述的方法。

10.一种计算机存储介质，其特征在于，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至5中任一所述的方法。