CN107316035A

CN107316035A - 基于深度学习神经网络的对象识别方法及装置

Info

Publication number: CN107316035A
Application number: CN201710669780.2A
Authority: CN
Inventors: 冯备战; 艾国; 张韵东
Original assignee: Vimicro Corp
Current assignee: Beijing Vimicro Ai Chip Technology Co Ltd
Priority date: 2017-08-07
Filing date: 2017-08-07
Publication date: 2017-11-03

Abstract

本发明提供了一种基于深度学习神经网络的对象识别方法及装置。该对象识别方法包括：获取图像数据，该图像数据为对象所处场景的图像数据；利用场景识别模型确定图像数据对应的场景；利用场景对应的对象识别模型对对象进行识别。通过采用本发明的对象识别方法，提高了对象识别准确率，具有较好的应用前景。

Description

基于深度学习神经网络的对象识别方法及装置

技术领域

本发明涉及神经网络技术领域，特别是一种基于深度学习神经网络的对象识别方法及装置。

背景技术

目前，在神经网络领域，由浅层的人工神经网络所获取的特征来进行分类和识别。在复杂环境条件下，这些浅层特征对识别来说是不够的。同时，图像识别效果容易受到环境的影响。在不同的场景下，图像匹配的相似度会出现波动，某些场景下，识别的正确率会急剧下降。目前，输入的图像通常被直接输入到对象识别模块进行识别，识别准确率较低。

发明内容

鉴于上述情况，本发明的一个方面提供了一种基于深度学习神经网络的对象识别方法和装置，能够提高识别准确率。

一方面，本发明提供了一种基于深度学习神经网络的对象识别方法，包括：获取图像数据，所述图像数据为对象所处场景的图像数据；利用场景识别模型确定所述图像数据对应的场景；利用所述场景对应的对象识别模型对所述对象进行识别。

在一个实施例中,所述对象识别方法还包括:获取不同场景的样本数据；对所述不同的场景的样本数据进行学习,获得所述场景模型。

在一个实施例中，在所述利用场景识别模型确定所述图像数据对应的场景之前，还包括：存储所获取的图像数据；对所述图像数据进行预处理，得到预处理后的图像数据，所述预处理包括缩放处理、压缩处理和挖框中的至少一个，其中，所述利用场景识别模型确定所述图像数据对应的场景，包括：将所述预处理后图像数据输入到所述场景识别模型，以确定所述预处理后的图像数据对应的场景；其中所述利用场景对应的对象识别模型对所述对象进行识别，包括：利用所述场景对应的对象识别模型对所述存储的图像数据中包含的对象进行识别。

在一个实施例中，所述利用场景识别模型确定所述图像数据对应的场景，包括：将所述图像数据输入到所述场景识别模型中；根据预设的场景阈值确定所述图像数据对应的场景。

在一个实施例中，不同场景对应的对象识别模型的权重和偏置中的至少一个不相同，其中所述利用所述场景对应的对象识别模型对所述对象进行识别，包括：调用与所述场景对应的对象识别模型的权重和偏置对所述对象进行识别。

在一个实施例中，所述对象为人脸。

在一个实施例中，所述场景包括晴天、雨天、雾天、夜晚、早晨、黄昏、雪天等场景、室内、室外、强光、弱光、暗光。

本发明的另一方面提供了一种基于深度学习神经网络的对象识别装置，所述装置包括：获取单元，用于获取图像数据，所述图像数据为对象所处场景的图像数据；确定单元，用于利用场景识别模型确定所述图像数据对应的场景；识别单元，用于利用所述场景对应的对象识别模型对所述对象进行识别。

在一个实施例中，所述获取单元还用于获取不同场景的样本数据，并对所述不同的场景的样本数据进行学习，获得所述场景识别模型。

在一个实施例中，所述对象识别装置还包括：存储单元，用于存储所获取的图像数据；预处理单元，用于对所存储的图像数据进行预处理，得到预处理后的图像数据，所述预处理包括缩放处理、压缩处理和挖框中的至少一个，其中，所述识别单元还被配置为利用所述场景对应的对象识别模型对所述存储的图像数据中包含的对象进行识别，其中，所述确定单元将所述预处理后图像数据输入到所述场景识别模型，以确定所述预处理后的图像数据对应的场景。

在一个实施例中，所述确定单元还被配置为将所述图像数据输入到所述场景识别模型中，以及根据预设的场景阈值确定所述图像数据对应的场景。

在一个实施例中，不同场景对应的对象识别模型的权重和偏置中的至少一个不相同，其中所述识别单元还被配置为调用与所述场景对应的对象识别模型的权重和偏置对所述对象进行识别。

在一个实施例中，所述对象为人脸。

本发明的又一方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述对象识别方法。

通过采用本发明的对象识别方法，首先确定图像数据对应的场景，然后根据所确定的场景对应的对象识别模型对图像数据中包括的对象进行识别，提高了对象识别准确率。

附图说明

从下面结合附图对本发明实施例的详细描述中，本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解，其中：

图1为本发明的一个实施例的基于深度学习神经网络的对象识别方法的示意性流程图；

图2为本发明的另一实施例的基于深度学习神经网络的对象识别方法的示意性流程图；

图3为本发明的一个实施例的基于深度学习神经网络的对象识别装置的示意性功能结构图；

图4为本发明的另一实施例的基于深度学习神经网络的对象识别装置的示意性功能结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是根据本发明的一个实施例的基于深度学习神经网络的对象识别方法的示意性流程图。图1的方法可以由服务器或图像处理器来执行。该方法包括如下内容。

S110：获取图像数据，该图像数据为对象所处场景的图像数据。

例如，图像数据可以是包含人脸或物体和背景的画面，也可以是只包括背景的画面。

S120：利用场景识别模型确定图像数据对应的场景及该场景对应的对象识别模型。

场景识别模型可以是利用分类器对各种场景的样本数据进行训练而生成的识别模型，用于识别不同的场景。例如，可以采用模式识或机器学习中的分类器来建立上述场景识别模型。

具体而言，可以预先设计各种场景与对象识别模型的对应关系，例如，与晴天场景对应的晴天对象识别模型，与雪天场景对应的雪天对象识别模型、与早晨场景对应的早晨对象识别模型等等。

S130：利用场景对应的对象识别模型识别对象。

具体而言，图像数据可以包括静态图像数据或动态图像数据(诸如图片或视频之类的图像数据)。

如果上述图像数据中包含对象，则可以将该上述图像数据输入到对象识别模型中进行对象识别。如果上述图像数据中不包含对象，则可以另外获取包含对象的图像数据进行图像识别。换句话说，可以先获取对象当前所处场景的图像数据进行场景的识别，再获取对象在当前场景下的图像数据进行对对象识别。

场景指待识别的对象所处的环境，例如，场景可以包括晴天、雨天、雾天、夜晚、早晨、黄昏、雪天等场景、室内、室外、强光、弱光、暗光等。当然，本发明的实施例的场景不限于以上场景。对象可以是物体或人脸，当然，本发明的实施例并不限于上述对象，例如，对象也可以是其它动物或物体。

具体而言，当确定待识别的对象处于某种场景下时，可以利用该场景对应的对象识别模型来进行图像识别。例如，当对处于晴天场景下的人脸进行人脸识别时，可以选择晴天人脸模型进行图像识别。

例如，人脸在不同的场景下可能会呈现不同的颜色或光泽或清晰度，如果采用一种场景下学习得到的对象识别模型去识别另一场景下的对象，可能会造成识别的准确率降低。例如，用早晨场景下学习得到的人脸识别模型来识别处于黄昏场景下的人脸，可能会有识别错误的情况发生。

现有的分类模型可以被用作场景识别模型。例如，当场景不多于10类时，可以使用mnist模型；如果场景大于10类小于1000类时，可以使用alexnet模型。现有的对象识别模型可以用于对象识别，例如SSD(Single Shot MultiBox Detector)和yolo模型。目前，通常使用基于SSD简化的Light SSD模型。这些模型比较小，在设备里运行速度较快。

通过采用本发明的对象识别方法，首先确定图像数据对应的场景，然后根据所确定的场景对应的对象识别模型对图像数据中包括的对象进行识别，提高了对象识别的准确率。

图2是根据本发明的另一实施例的基于深度学习神经网络的对象识别方法的流程图。图2的方法是图1的方法的例子，在此适当省略详细的描述。

S210：获取图像数据，该图像数据为对象所处场景的图像数据。

S220：存储所获取的图像数据。

S230：对所存储的图像数据进行预处理，得到预处理后的图像数据预处理包括缩放处理、压缩处理和挖框中的至少一个。

S240：将预处理后的图像数据输入到场景识别模型，以确定预处理后的图像数据对应的场景。

S250：利用所确定的场景对应的对象识别模型对所存储的图像数据中包含的对象进行识别。图像数据可以包括静态图像数据或动态图像数据(诸如图片或视频之类的图像数据)。

现有的分类模型可以被用作场景识别模型。例如，当场景不多于10类时，使用mnist模型；如果场景大于10类小于1000类时，可以使用alexnet模型。现有的对象识别模型可以用于对象识别，例如SSD(Single Shot MultiBox Detector)和yolo模型。目前，通常使用基于SSD简化的Light SSD模型。这些模型比较小，在设备里运行速度较快。

在上述实施例中，获取不同场景的样本数据，对不同的场景的样本数据进行学习，获得场景识别模型。例如，使用分类模型对大量标注有场景信息的图像进行训练，从而得到场景识别模型以及场景模型对应的权重和偏置。换言之，不同场景的图像被进行分类训练，从而得到不同场景对应的权重和偏置。不同场景对应的对象识别模型的权重和偏置中的至少一个不相同。具体地，当不同场景对应的对象识别模型不同时，不同的对象识别模型的权重和偏置中的至少一个也不同。当不同场景对应的对象识别模型相同时，相同的对象识别模型的权重和偏置中可以相同或不同。

在一个实施例中，利用场景识别模型确定图像数据对应的场景，包括：将图像数据输入到场景识别模型中；根据预设的场景阈值确定图像数据对应的场景。不同的场景对应不同的阈值。

在一个实施例中，利用场景对应的对象识别模型对该对象进行识别，包括：调用与该场景对应的对象识别模型的权重和偏置对该对象进行识别。

图3为本发明一个实施例的基于深度学习神经网络的对象识别装置3的功能结构图。该对象识别装置包括：获取单元310，用于获取图像数据，该图像数据为对象所处场景的图像数据；确定单元320，用于利用场景识别模型确定图像数据对应的场景；识别单元330，用于利用场景对应的对象识别模型对对象进行识别。获取单元310可以是摄像头、数码相机、摄像机等。图像数据可以包括静态图像数据(诸如图片)或动态图像数据(诸如视频数据)。场景包括晴天、雨天、雾天、夜晚、早晨、黄昏、雪天等场景、室内、室外、强光、弱光、暗光等。现有的分类模型可以被用作场景识别模型。例如，当场景不多于10类时，使用mnist模型；如果场景大于10类小于1000类时，可以使用alexnet模型。现有的对象识别模型可以用于对象识别，例如SSD(Single Shot MultiBox Detector)和yolo模型。目前，通常使用基于SSD简化的Light SSD模型。这些模型比较小，在设备里运行速度较快。通过采用本发明的对象识别装置，首先确定图像数据对应的场景，然后根据所确定的场景对应的对象识别模型对图像数据中包括的对象进行识别，提高了对象识别准确率，具有较好的应用前景。

图4为本发明一个实施例的基于深度学习神经网络的对象识别装置4的功能结构图。该对象识别装置包括：获取单元410，用于获取图像数据，图像数据为对象所处场景的图像数据；存储单元420，用于存储所获取的图像数据；预处理单元430，用于对所存储的图像数据进行预处理，得到预处理后的图像数据，预处理包括缩放处理、压缩处理和挖框中的至少一个；确定单元440，用于将预处理后的图像数据输入到场景识别模型，以确定预处理后的图像数据对应的场景；识别单元450，用于利用场景对应的对象识别模型对存储的图像数据中包含的对象进行识别。图像数据可以被存储为不同的格式。

在上述实施例中，获取不同场景的样本数据，对不同的场景的样本数据进行学习，获得场景识别模型。例如，使用分类模型对大量标注有场景信息的图像进行训练，从而得到场景识别模型以及场景模型对应的权重和偏置。换言之，不同场景的图像被进行分类训练，从而得到不同场景对应的权重和偏置。不同场景对应的对象识别模型的权重和偏置中的至少一个不相同。

在一个实施例中，确定单元还被配置为将图像数据输入到场景识别模型中，以及根据预设的场景阈值确定图像数据对应的场景。不同的场景对应不同的阈值。

在一个实施例中，识别单元还被配置为调用与场景对应的对象识别模型的权重和偏置对对象进行识别。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。本发明的各个实施例在不违反逻辑的基础上均可相互组合。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习神经网络的对象识别方法，其特征在于，所述方法包括以下步骤：

获取图像数据，所述图像数据为对象所处场景的图像数据；

利用场景识别模型确定所述图像数据对应的场景；

利用所述场景对应的对象识别模型对所述对象进行识别。

2.根据权利要求1所述的对象识别方法，其特征在于，还包括：

获取不同场景的样本数据；

对所述不同的场景的样本数据进行学习，获得所述场景识别模型。

3.根据权利要求1所述的对象识别方法，其特征在于，在所述利用场景识别模型确定所述图像数据对应的场景之前，还包括：

存储所获取的图像数据；

对所述图像数据进行预处理，得到预处理后的图像数据，所述预处理包括缩放处理、压缩处理和挖框中的至少一个，

其中，所述利用场景识别模型确定所述图像数据对应的场景，包括：

将所述预处理后图像数据输入到所述场景识别模型，以确定所述预处理后的图像数据对应的场景；

其中所述利用场景对应的对象识别模型对所述对象进行识别，包括：

利用所述场景对应的对象识别模型对所述存储的图像数据中包含的对象进行识别。

4.根据权利要求1所述的对象识别方法，其特征在于，所述利用场景识别模型确定所述图像数据对应的场景，包括：

将所述图像数据输入到所述场景识别模型中；

根据预设的场景阈值确定所述图像数据对应的场景。

5.根据权利要求1所述的对象识别方法，其特征在于，不同场景对应的对象识别模型的权重和偏置中的至少一个不相同，

其中所述利用所述场景对应的对象识别模型对所述对象进行识别，包括：

调用与所述场景对应的对象识别模型的权重和偏置对所述对象进行识别。

6.根据权利要求1所述的对象识别方法，其特征在于，所述对象为人脸。

7.根据权利要求1至6中的任一项所述的对象识别方法，其特征在于，所述场景包括晴天、雨天、雾天、夜晚、早晨、黄昏、雪天等场景、室内、室外、强光、弱光、暗光。

8.一种基于深度学习神经网络的对象识别装置，其特征在于，所述装置包括：

获取单元，用于获取图像数据，所述图像数据为对象所处场景的图像数据；

确定单元，用于利用场景识别模型确定所述图像数据对应的场景；

识别单元，用于利用所述场景对应的对象识别模型对所述对象进行识别。

9.根据权利要求1所述的对象识别装置，其特征在于，所述获取单元还用于获取不同场景的样本数据，并对所述不同的场景的样本数据进行学习，获得所述场景识别模型。

10.根据权利要求9所述的对象识别装置，其特征在于，还包括：

存储单元，用于存储所获取的图像数据；

预处理单元，用于对所存储的图像数据进行预处理，得到预处理后的图像数据，所述预处理包括缩放处理、压缩处理和挖框中的至少一个，

其中，所述识别单元还被配置为利用所述场景对应的对象识别模型对所述存储的图像数据中包含的对象进行识别，其中，所述确定单元将所述预处理后的图像数据输入到所述场景识别模型，以确定所述预处理后的图像数据对应的场景。

11.根据权利要求9所述的对象识别装置，其特征在于，所述确定单元还被配置为将所述图像数据输入到所述场景识别模型中，以及根据预设的场景阈值确定所述图像数据对应的场景。

12.根据权利要求9所述的对象识别装置，其特征在于，不同场景对应的对象识别模型的权重和偏置中的至少一个不相同，

其中所述识别单元还被配置为调用与所述场景对应的对象识别模型的权重和偏置对所述对象进行识别。

13.根据权利要求9至12中的任一项所述的对象识别装置，其特征在于，所述场景包括晴天、雨天、雾天、夜晚、早晨、黄昏、雪天等场景、室内、室外、强光、弱光、暗光。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述的对象识别方法。