CN105654103A

CN105654103A - 一种图像识别方法及电子设备

Info

Publication number: CN105654103A
Application number: CN201410645606.0A
Authority: CN
Inventors: 孙林
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2014-11-12
Filing date: 2014-11-12
Publication date: 2016-06-08
Anticipated expiration: 2034-11-12
Also published as: CN105654103B

Abstract

本发明公开了一种图像识别方法及电子设备，所述方法包括：获取目标图像的像素图像数据及深度图像数据；对所述像素图像数据及所述深度图像数据进行特征数据提取，得到所述目标图像的特征向量数据；利用所述特征向量数据确定所述目标图像中的目标物类别。本发明实施例通过将目标图像的深度图像数据与像素图像数据一同作为目标物类别识别的基础，使得提取到的图像特征向量数据能够具有更多的含有目标图像的特征，进而使得最终识别到的目标物类别具有更高的准确性。

Description

一种图像识别方法及电子设备

技术领域

本发明涉及图像识别技术领域，特别涉及一种图像识别方法及电子设备。

背景技术

现有的图像识别方案中，通常是对图像的RGB图像进行特征学习，进而识别出图像类别。这种图像识别方案中进行特征分析的基础为单一的RGB图像，因此会使得图像识别的准确率较低。

发明内容

本发明的目的在于提供一种图像识别方法及电子设备，用以解决现有技术中图像识别方案中进行特征分析的基础为单一的RGB图像，使得图像识别的准确率较低的技术问题。

本发明提供了一种图像识别方法，所述方法包括：

获取目标图像的像素图像数据及深度图像数据；

对所述像素图像数据及所述深度图像数据进行特征数据提取，得到所述目标图像的特征向量数据；

利用所述特征向量数据确定所述目标图像中的目标物类别。

上述方法，优选的，所述对所述像素图像数据及所述深度图像数据进行特征数据提取，得到所述目标图像的特征向量数据，包括：

将所述像素图像数据与所述深度图像数据分别通过预设卷积核的卷积计算，得到像素特征数据及深度特征数据；

将所述像素特征数据与所述深度特征数据进行融合，得到融合特征数据；

依据所述融合特征数据，生成所述目标图像的特征向量数据。

上述方法，优选的，所述将所述像素特征数据与所述深度特征数据进行融合，得到融合特征数据，包括：

将所述像素特征数据与所述深度特征数据进行像素组合，得到组合特征数据，所述组合特征数据中包括多个像素组，每个像素组分别包括多个像素；

对所述组合特征数据中每个像素组中的多个像素进行统计合并计算处理，得到所述合并特征数据对应的融合特征数据。

上述方法，优选的，利用所述特征向量数据确定所述目标图像中的目标物类别，包括：

确定预设类别矩阵，所述类别矩阵中的每项值为预设的类别权值；

对所述类别矩阵与所述特征向量数据进行矩阵计算，得到一维的类别向量；

选取所述类别向量中满足预设选取条件的值所对应的类别作为所述目标图像中的目标物类别。

对所述特征向量数据按照预设的向量分类器进行目标物识别，得到所述目标图像中的目标物类别。

本发明还提供了一种电子设备，包括：

数据获取单元，用于获取目标图像的像素图像数据及深度图像数据；

特征提取单元，用于对所述像素图像数据及所述深度图像数据进行特征数据提取，得到所述目标图像的特征向量数据；

类别确定单元，用于利用所述特征向量数据确定所述目标图像中的目标物类别。

上述电子设备，优选的，所述特征提取单元包括：

数据卷积子单元，用于将所述像素图像数据与所述深度图像数据分别通过预设卷积核的卷积计算，得到像素特征数据及深度特征数据；

特征融合子单元，用于将所述像素特征数据与所述深度特征数据进行融合，得到融合特征数据；

向量生成子单元，用于依据所述融合特征数据，生成所述目标图像的特征向量数据。

上述电子设备，优选的，所述特征融合子单元包括：

像素组合模块，用于将所述像素特征数据与所述深度特征数据进行像素组合，得到组合特征数据，所述组合特征数据中包括多个像素组，每个所述像素组包括多个像素；

统计合并模块，用于对所述组合特征数据中每个像素组中的多个像素进行统计合并计算处理，得到所述合并特征数据对应的融合特征数据。

上述电子设备，优选的，所述类别确定单元包括：

矩阵确定子单元，用于确定预设类别矩阵，所述类别矩阵中的每项值为预设的类别权值；

矩阵计算子单元，用于对所述类别矩阵与所述特征向量数据进行矩阵计算，得到一维的类别向量；

值选取子单元，用于选取所述类别向量中满足预设选取条件的值对应的类别作为所述目标图像中的目标物类别。

上述电子设备，优选的，所述类别确定单元包括：

分类器识别子单元，用于对所述特征向量数据按照预售的向量分类器进行目标物识别，得到所述目标图像中的目标物类别。

由上述方案可知，本发明提供的一种图像识别方法及电子设备，将目标图像的像素图像数据即RGB图像数据及深度图像数据共同作为目标物类别识别的基础，通过对像素图像数据及深度图像数据进行特征数据提取之后，得到该目标图像的特征向量数据，再利用该特征向量数据得到目标图像的目标物类别，实现本发明目的。本发明区别于现有技术的方案，将目标图像的深度图像数据与像素图像数据一同作为目标物类别识别的基础，使得提取到的图像特征向量数据能够具有更多的含有目标图像的特征，进而使得最终识别到的目标物类别具有更高的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种图像识别方法实施例一的流程图；

图2为本发明实施例的应用示例图；

图3为本发明提供的一种图像识别方法实施例二的部分流程图；

图4为本发明实施例的另一应用示例图；

图5为本发明提供的一种图像识别方法实施例三的部分流程图；

图6为本发明实施例的又一应用示例图；

图7为本发明提供的一种图像识别方法实施例四的部分流程图；

图8为本发明提供的一种图像识别方法实施例五的流程图；

图9为本发明提供的一种电子设备实施例六的结构示意图；

图10为本发明提供的一种电子设备实施例七的部分结构示意图；

图11为本发明提供的一种电子设备实施例八的部分结构示意图；

图12为本发明提供的一种电子设备实施例九的部分结构示意图；

图13为本发明提供的一种电子设备实施例十的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考图1，为本发明提供的一种图像识别方法实施例一的流程图，其中，所述图像识别方法适用于对某一图像中的目标物的识别应用中，例如，风景图像中的建筑或动物类别的识别等。

在本实施例中，所述图像识别方法可以包括以下步骤实现：

步骤101：获取目标图像的像素图像数据及深度图像数据。

其中，所述像素图像数据即RGB图像数据可以利用RGB传感器得到，而所述深度图像数据可以利用深度传感器得到；本实施例中，也可以通过双目摄像头对目标场景进行图像数据采集计算，以得到目标图像的像素值及深度值，进而得到像素图像数据及深度图像数据。

步骤102：对所述像素图像数据及所述深度图像数据进行特征数据提取，得到所述目标图像的特征向量数据。

其中，所述目标图像的特征向量数据可以理解为，基于所述像素图像数据及所述深度图像数据中各自的特征数据得到，因此，所述特征向量数据要相对于现有技术中单只基于所述像素图像数据所得到的特征向量所含有的关于所述目标图像有价值的信息较多。

步骤103：利用所述特征向量数据确定所述目标图像中的目标物类别。

其中，前文中所述可知，本实施例中所得到的特征向量数据所含有的关于所述目标图像有价值的信息明显多于单基于像素图像数据所得到的特征向量，因此，在经过所述步骤103中的执行方案之后，所确定的目标物类别的准确性更高。

由上述方案可知，本发明提供的一种图像识别方法实施例一中，将目标图像的像素图像数据即RGB图像数据及深度图像数据共同作为目标物类别识别的基础，通过对像素图像数据及深度图像数据进行特征数据提取之后，得到该目标图像的特征向量数据，再利用该特征向量数据得到目标图像的目标物类别，实现本实施例目的。本实施例的实现方案区别于现有技术的方案，将目标图像的深度图像数据与像素图像数据一同作为目标物类别识别的基础，使得提取到的图像特征向量数据能够具有更多的含有目标图像的特征，进而使得最终识别到的目标物类别具有更高的准确性。

在上述实施例中所述步骤102的实现中，可以将所述像素图像数据及所述深度图像数据经过预先设置的卷积神经网络，以得到相应的输出，也就是所述目标图像的特征向量数据。其中，所述卷积神经网络的结构可以参考图2，这里的卷积神经网络的实现层次划分为C1、S2、C3、S4及光栅化层，也就是说，输入数据经过这几层的计算出来之后，得到向量输出。

参考图3，为本发明提供的一种图像识别方法实施例二种所述步骤102的实现流程图，其中，所述步骤102可以通过以下步骤实现：

步骤121：将所述像素图像数据与所述深度图像数据分别通过预设卷积核的卷积计算，得到像素特征数据及深度特征数据。

其中，所述卷积核可以由用户根据需求预先进行设定，且这里的卷积核是大小一定的。

需要说明的是，在本实施例中，可以通过对所述像素图像数据及所述深度图像数据经过可训练的滤波器之后，再进行加偏置进行卷积，以得到两个图像数据中各自的最显著的特征数据，也就是说，在所述卷积神经网络中，将所述像素图像数据及所述深度图像数据作为输入数据经过滤波器及加偏置进行卷积之后得到的像素特征数据及深度特征数据，即处于C1层的数据。

例如，所述像素图像数据为RGB图像，如3个通道每个通道分别为256*256的像素图，所述深度图像数据为256*256，将这两个图像数据进行卷积核大小一定的卷积，得到相应的特征图(特征数据)：所述像素图像数据的特征数据为96个通道每个通道分别为55*55的特征图，所述深度图像数据的特征数据为32个55*55的特征图，如图4中的a1过程所示。

步骤122：将所述像素特征数据与所述深度特征数据进行融合，得到融合特征数据。

其中，所述融合特征数据是指，将所述像素特征数据与所述深度特征数据进行特征融合得到的。这里的融合特征数据具有代表所述目标图像最显著的特征。例如，96个通道每个通道分别为55*55的像素特征数据与32个55*55的深度特征数据进行融合统计，得到128个27*27的融合特征数据，如图4中的a2过程所示。

也就是说，在所述卷积神经网络中，将所述像素特征数据及深度特征数据进行融合，即处于S2层的数据。

步骤123：依据所述融合特征数据，生成所述目标图像的特征向量数据。

其中，所述步骤123中，可以通过对所述融合特征数据继续通过卷积神经网络后续的C3及S4的计算，如图4中所示的a3过程所示，即：再次卷积及融合得到特征数据，这些特征数据再被光栅化之后，进行连接，得到一个向量数据，即所述目标图像的特征向量数据。

基于前述实施例，参考图5，为本发明提供的一种图像识别方法实施例三中所述步骤122的实现流程图，其中，所述步骤122可以通过以下步骤实现：

步骤501：将所述像素特征数据与所述深度特征数据进行像素组合，得到组合特征数据，所述组合特征数据中包括多个像素组，每个像素组分别包括多个像素。

其中，这里的像素组合动作，可以理解为，将所述像素特征数据及所述深度特征数据关于其像素值进行拼接组合。得到的组合特征数据中具有多个像素组，每个像素组的多个像素具有相同或相似的像素值，使得在将每个像素组中的像素进行统计合并之后得到的像素具有与其对应像素组所形成区域相同或相似的区域特征。以所述像素组中具有4个像素为例，这四个像素以正方形(即角对角)的结构进行布局，如图6a中所示，像素x1、像素x2、像素x3及像素x4成角对角排布结构。

步骤502：对所述组合特征数据中每个像素组中的多个像素进行统计合并计算处理，得到所述合并特征数据对应的融合特征数据。

其中，所述步骤502中可以通过对每个所述像素组中的多个像素进行求和、加权值、加偏置等处理之后，再经过一个变换函数之后得到所述融合特征数据，这一过程可以理解为pooling过程，如图6b中所示，像素x1、像素x2、像素x3及像素x4进行pooling成为一个像素y1，像素x5、像素x6、像素x7及像素x8进行pooling成为一个像素y2，像素x9、像素x10、像素x11及像素x12进行pooling成为一个像素y3，像素x13、像素x14、像素x15及像素x16进行pooling成为一个像素y4，依次类推，完成这个组合特征数据的像素统计合并计算处理。例如，对一寸的证件图像进行图像像素融合，即为：对空白、红色或者蓝色等背景像素区域中具有相似像素值的像素进行统计合并，以得到保留有该一寸证件图像中人物头像等最显著的区域的图像。

参考图7，为本发明提供的一种图像识别方法实施例四中所述步骤103的实现流程图，其中，所述步骤103可以通过以下步骤实现：

步骤131：确定预设类别矩阵，所述类别矩阵中的每项值为预设的类别权值。

在本实施例中，以所述特征向量数据中4096*1的向量维度为例，可以设置所述类别矩阵为4096*1000的矩阵，而所述类别矩阵中具有4096*1000个类别权值。而这里的类别权值可以由用户决定设置。

步骤132：对所述类别矩阵与所述特征向量数据进行矩阵计算，得到一维的类别向量。

其中，在所述步骤132中，以所述特征向量数据4096*1对所述类别矩阵4096*1000进行矩阵计算，得到一维的类别向量1*1000。

需要说明的是，所述类别向量中的所有数值项的值表明所述类别矩阵中的各个类别与所述目标图像中的目标物的相似度。

步骤133：选取所述类别向量中满足预设选取条件的值所对应的类别作为所述目标图像中的目标物类别。

其中，所述预设选取条件可以为：选取值最大的项等。例如，在所述步骤133中，可以选取所述类别向量中的每个数值项中，值最大的项也就是相似度最高的项所对应的类别作为所述目标图像中的目标物类别。

参考图8，为本发明提供的一种图像识别方法实施例五的流程图，其中，所述步骤103也可以通过以下步骤实现：

步骤134：对所述特征向量数据按照预设的向量分类器进行目标物识别，得到所述目标图像中的目标物类别。

其中，在本实施例中，对得到的特征向量数据，利用向量分类器进行类别判断，以得到所述目标图像中的目标物类别。需要说明的是，所述向量分类器是通过训练确定判决规则的方案，这种类别判断规则进行分类应用时，错误率较低。

参考图9，为本发明提供的一种电子设备实施例六的结构示意图，其中，所述电子设备可以为手机、pad、一体机及台式机等能够进行图像获取及处理的设备，所述电子设备可以实现对某一图像中的目标物的识别应用，例如，风景图像中的建筑或动物类别的识别等。

在本实施例中，所述电子设备可以包括以下结构实现：

数据获取单元901，用于获取目标图像的像素图像数据及深度图像数据。

特征提取单元902，用于对所述像素图像数据及所述深度图像数据进行特征数据提取，得到所述目标图像的特征向量数据。

类别确定单元903，用于利用所述特征向量数据确定所述目标图像中的目标物类别。

其中，前文中所述可知，本实施例中所得到的特征向量数据所含有的关于所述目标图像有价值的信息明显多于单基于像素图像数据所得到的特征向量，因此，在经过所述类别确定单元903中的执行方案之后，所确定的目标物类别的准确性更高。

由上述方案可知，本发明提供的一种电子设备实施例六中，将目标图像的像素图像数据即RGB图像数据及深度图像数据共同作为目标物类别识别的基础，通过对像素图像数据及深度图像数据进行特征数据提取之后，得到该目标图像的特征向量数据，再利用该特征向量数据得到目标图像的目标物类别，实现本实施例目的。本实施例的实现方案区别于现有技术的方案，将目标图像的深度图像数据与像素图像数据一同作为目标物类别识别的基础，使得提取到的图像特征向量数据能够具有更多的含有目标图像的特征，进而使得最终识别到的目标物类别具有更高的准确性。

在上述实施例中所述特征提取单元902的实现方案中，可以将所述像素图像数据及所述深度图像数据经过预先设置的卷积神经网络，以得到相应的输出，也就是所述目标图像的特征向量数据。其中，所述卷积神经网络的结构可以参考如2，这里的卷积神经网络的实现层次划分为C1、S2、C3、S4及光栅化层，也就是说，输入数据经过这几层的计算出来之后，得到向量输出。

参考图10，为本发明提供的一种电子设备实施例七中所述特征提取单元902的结构示意图，其中，所述特征提取单元902可以包括以下结构：

数据卷积子单元921，用于将所述像素图像数据与所述深度图像数据分别通过预设卷积核的卷积计算，得到像素特征数据及深度特征数据。

特征融合子单元922，用于将所述像素特征数据与所述深度特征数据进行融合，得到融合特征数据。

其中，所述融合特征数据是指，将所述像素特征数据与所述深度特征数据进行特征融合得到的。这里的融合特征数据具有代表所述目标图像最显著的特征。例如，96个通道每个通道分别为55*55的像素特征数据与32个55*55的深度特征数据进行融合，得到128个27*27的融合特征数据，如图4中的a2过程所示。

向量生成子单元923，用于依据所述融合特征数据，生成所述目标图像的特征向量数据。

其中，所述向量生成子单元923中，可以通过对所述融合特征数据继续通过卷积神经网络后续的C3及S4的计算，如图4中所示的a3过程所示，即：再次卷积及融合得到特征数据，这些特征数据再被光栅化之后，进行连接，得到一个向量数据，即所述目标图像的特征向量数据。

基于前述实施例，参考图11，为本发明提供的一种电子设备实施例八中所述特征融合子单元922的结构示意图，其中，所述特征融合子单元922可以包括以下结构实现：

像素组合模块1101，用于将所述像素特征数据与所述深度特征数据进行像素组合，得到组合特征数据，所述组合特征数据中包括多个像素组，每个所述像素组包括多个像素。

其中，这里的像素组合动作，可以理解为，将所述像素特征数据及所述深度特征数据关于其像素值进行拼接组合。得到的组合特征数据中具有多个像素组，每个像素组的多个像素具有相同或相似的像素值，使得在将每个像素组中的像素进行统计合并之后得到的像素具有与其对应像素组所形成区域相同或相似的区域特征。以所述像素组中具有4个像素为例，这四个像素以正方形(即角对角)的结构进行布局，如图6中所示。

统计合并模块1102，用于对所述组合特征数据中每个像素组中的多个像素进行统计合并计算处理，得到所述合并特征数据对应的融合特征数据。

其中，所述统计合并模块1102可以通过对每个所述像素组中的多个像素进行求和、加权值、加偏置等处理之后，再经过一个变换函数之后得到所述融合特征数据，这一过程可以理解为pooling过程。

参考图12，为本发明提供的一种电子设备实施例九中所述类别确定单元903的结构示意图，其中，所述类别确定单元903可以包括以下结构：

矩阵确定子单元931，用于确定预设类别矩阵，所述类别矩阵中的每项值为预设的类别权值。

矩阵计算子单元932，用于对所述类别矩阵与所述特征向量数据进行矩阵计算，得到一维的类别向量。

其中，所述矩阵计算子单元932可以以所述特征向量数据4096*1对所述类别矩阵4096*1000进行矩阵计算，得到一维的类别向量1*1000。

值选取子单元933，用于选取所述类别向量中满足预设选取条件的值对应的类别作为所述目标图像中的目标物类别。

其中，所述预设选取条件可以为：选取值最大的项等。例如，所述值选取子单元933可以选取所述类别向量中的每个数值项中，值最大的项也就是相似度最高的项所对应的类别作为所述目标图像中的目标物类别。

参考图13，为本发明提供的一种电子设备实施例十的结构示意图，其中，所述类别确定单元903也可以由以下结构实现：

分类器识别子单元934，用于对所述特征向量数据按照预售的向量分类器进行目标物识别，得到所述目标图像中的目标物类别。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

最后，还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种图像识别方法及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像识别方法，所述方法包括：

获取目标图像的像素图像数据及深度图像数据；

利用所述特征向量数据确定所述目标图像中的目标物类别。

2.根据权利要求1所述的方法，其特征在于，所述对所述像素图像数据及所述深度图像数据进行特征数据提取，得到所述目标图像的特征向量数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述像素特征数据与所述深度特征数据进行融合，得到融合特征数据，包括：

4.根据权利要求1所述的方法，其特征在于，利用所述特征向量数据确定所述目标图像中的目标物类别，包括：

5.根据权利要求1所述的方法，其特征在于，利用所述特征向量数据确定所述目标图像中的目标物类别，包括：

6.一种电子设备，包括：

7.根据权利要求6所述的电子设备，其特征在于，所述特征提取单元包括：

8.根据权利要求7所述的电子设备，其特征在于，所述特征融合子单元包括：

9.根据权利要求6所述的电子设备，其特征在于，所述类别确定单元包括：

10.根据权利要求6所述的电子设备，其特征在于，所述类别确定单元包括：