CN107766864A

CN107766864A - 提取特征的方法和装置、物体识别的方法和装置

Info

Publication number: CN107766864A
Application number: CN201610712507.9A
Authority: CN
Inventors: 易东; 曹恩华; 楚汝峰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Banma Zhixing Network Hongkong Co Ltd
Priority date: 2016-08-23
Filing date: 2016-08-23
Publication date: 2018-03-06
Anticipated expiration: 2036-08-23
Also published as: CN107766864B

Abstract

本申请提供了一种提取特征的方法和装置、物体识别的方法和装置。所述提取特征的方法包括：对物体图像或对物体图像进行卷积得到的特征图进行卷积；将对物体图像或特征图卷积的结果进行线性变换；将所述线性变换的结果作为三维形变模型的输入，三维形变模型的输出为在物体图像中待提取特征的位置点；按照三维形变模型输出的位置点，在物体图像或对物体图像进行卷积得到的特征图上提取特征。本申请降低了物体识别成本，提高了物体识别效率。

Description

提取特征的方法和装置、物体识别的方法和装置

技术领域

本发明涉及图像识别技术领域，尤其涉及一种在物体图像中提取特征的方法和装置、物体识别的方法和装置。

背景技术

目前，物体识别技术获得了广泛的应用。这里的物体是指有稳定轮廓的物体，如人脸、汽车车牌等。物体识别是基于物体特征信息进行身份识别的一种识别技术。以人脸识别为例，用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像或视频流中跟踪人脸，进而对跟踪到的人脸进行脸部的特征提取，与样本人脸集中各个人脸的特征进行比对等，从而进行人脸识别。

物体的识别一般分为四步：1)物体的定位，即在带有物体的待识别图像中定位出物体；2)在定位出的物体的中标出待提取特征的位置点；3)在标出的位置点处提取特征，例如在标出的位置点附近按一定规则提取若干个像素的像素值；4)将各位置点提取的特征与样本物体图像集中的样本物体图像中提取的特征进行比对，从而识别出物体。现有技术中在第2步在定位出的物体中标出待提取特征的位置点需构建一个训练集，并对训练中的样本按照某种规则逐一标注，例如规定在图像的左侧眉毛的距左侧眉毛的最左端1/6、1/3、1/2、2/3处分别都一个待提取特征的位置点，则需逐一测量并标注，标注成本极高，精度不高，影响物体的识别的准确率。

发明内容

本发明解决的技术问题之一是降低物体识别成本，提高物体识别效率。

根据本申请的一个实施例，提供了一种在物体图像中提取特征的方法，包括：对物体图像或对物体图像进行卷积得到的特征图进行卷积；将对物体图像或特征图卷积的结果进行线性变换；将所述线性变换的结果作为三维形变模型的输入，三维形变模型的输出为在物体图像中待提取特征的位置点；按照三维形变模型输出的位置点，在物体图像或对物体图像进行卷积得到的特征图上提取特征。

根据本申请的一个实施例，提供了一种物体的识别方法，包括：获取物体图像；在获取的物体图像中、以及在样本物体图像集合的样本物体图像中提取特征，其中所述特征是在对待提取特征的物体图像或对待提取特征的物体图像的卷积后的特征图进行卷积、线性变换、并经三维形变模型处理得到的位置点上提取出的；基于获取的物体图像中提取的特征和样本物体图像中提取的特征的比较，识别获取的物体图像中的物体。

根据本申请的一个实施例，提供了一种在物体图像中提取特征的装置，包括：存储器，用于存储计算机可读程序指令；处理器，用于执行存储器中存储的计算机可读程序指令，以执行：对物体图像或对物体图像进行卷积得到的特征图进行卷积；将对物体图像或特征图卷积的结果进行线性变换；将所述线性变换的结果作为三维形变模型的输入，三维形变模型的输出为在物体图像中待提取特征的位置点；按照三维形变模型输出的位置点，在物体图像或对物体图像进行卷积得到的特征图上提取特征。

根据本申请的一个实施例，提供了一种物体的识别装置，包括：存储器，用于存储计算机可读程序指令；处理器，用于执行存储器中存储的计算机可读程序指令，以执行：获取物体图像；在获取的物体图像中、以及在样本物体图像集合的样本物体图像中提取特征，其中所述特征是在对待提取特征的物体图像或对待提取特征的物体图像的卷积后的特征图进行卷积、线性变换、并经三维形变模型处理得到的位置点上提取出的；基于获取的物体图像中提取的特征和样本物体图像中提取的特征的比较，识别获取的物体图像中的物体。

根据本申请的一个实施例，提供了一种在物体图像中提取特征的装置，包括：

第一卷积层单元，对物体图像或对物体图像进行卷积得到的特征图进行卷积；

第一全连接层单元，对第一卷积层单元卷积的结果进行线性变换；

三维形变模型，其输入为所述线性变换的结果，输出为在物体图像中待提取特征的位置点；

采样器，按照三维形变模型输出的位置点，在物体图像或对物体图像进行卷积得到的特征图上提取特征。

根据本申请的一个实施例，提供了一种物体的识别装置，包括：

物体图像获取单元，获取物体图像；

特征提取单元，用于在获取的物体图像中、以及在样本物体图像集合的样本物体图像中提取特征，其中所述特征是在对待提取特征的物体图像或对待提取特征的物体图像的卷积后的特征图进行卷积、线性变换、并经三维形变模型处理得到的位置点上提取出的；

物体识别单元，基于获取的物体图像中提取的特征和样本物体图像中提取的特征的比较，识别获取的物体图像中的物体。

由于本申请实施例不需照一定规则逐一标注待提取特征的位置点，而是直接把物体图像自动进行卷积、再线性变换、再通过三维形变模型处理形变得到待提取特征的位置点，再按照位置点提取特征，这样一系列自动化的过程免除了一一标注待提取特征的位置点的负担，提高了在物体图像中定位出待提取特征的位置点从而根据特征识别物体的效率。由于三维形变模型本身的特点，对姿态(包括方位、拍摄角度、卷曲度等)具有鲁棒性，即受输入的物体图像中物体的姿态影响很小，与卷积和线性变换结合又具有了强分类能力，这样，保障了对不同物体具有区分性，并提升识别结果对物体的姿态的鲁棒性，提高识别精度。

本领域普通技术人员将了解，虽然下面的详细说明将参考图示实施例、附图进行，但本发明并不仅限于这些实施例。而是，本发明的范围是广泛的，且意在仅通过后附的权利要求限定本发明的范围。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是根据本申请的一个实施例的在物体图像中提取特征的方法的流程图。

图2是根据本申请的另一个实施例的在物体图像中提取特征的方法的流程图。

图3是根据本申请的一个实施例的物体的识别方法的流程图。

图4a是根据本申请的一个实施例的在物体图像中提取特征的装置的模块框图。

图4b是根据本申请的另一个实施例的在物体图像中提取特征的装置的模块框图。

图4c是根据本申请的另一个实施例的在物体图像中提取特征的装置的模块框图。

图5是根据本申请的一个实施例的物体的识别装置的模块框图。

图6是根据本申请的一个实施例的在物体图像中提取特征的装置的硬件框图。

图7是根据本申请的一个实施例的物体的识别装置的硬件框图。

具体实施方式

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

所述计算机设备包括用户设备与网络设备。其中，所述用户设备包括但不限于电脑、智能手机、PDA等；所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，所述计算机设备可单独运行来实现本发明，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中，所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

需要说明的是，所述用户设备、网络设备和网络等仅为举例，其他现有的或今后可能出现的计算机设备或网络如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时，用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。

这里所公开的具体结构和功能细节仅仅是代表性的，并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现，并且不应当被解释成仅仅受限于这里所阐述的实施例。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

应当理解的是，当一个单元被称为“连接”或“耦合”到另一单元时，其可以直接连接或耦合到所述另一单元，或者可以存在中间单元。与此相对，当一个单元被称为“直接连接”或“直接耦合”到另一单元时，则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”，“与...邻近”相比于“与...直接邻近”等等)。

这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指，否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是，这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在，而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

还应当提到的是，在一些替换实现方式中，所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说，取决于所涉及的功能/动作，相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。

下面结合附图对本发明的技术方案作进一步详细描述。

如图1所示，根据本申请一个实施例的一种在物体图像中提取特征的方法包括：

S109、对物体图像或对物体图像进行卷积得到的特征图进行卷积；

S111、将对物体图像或特征图卷积的结果进行线性变换；

S120、将所述线性变换的结果作为三维形变模型(3DMM)的输入，三维形变模型的输出为在物体图像中待提取特征的位置点；

S130、按照三维形变模型输出的位置点，在物体图像或对物体图像进行卷积得到的特征图上提取特征。

本文中的物体是指有稳定轮廓的物体，具体是指在图像中其内部轮廓和外部轮廓稳定、不会随图像拍摄的光线、以及姿态变化的物体。例如人脸，其内部轮廓是五官的轮廓，外部轮廓是脸的轮廓，都是不容易随拍摄角度、光线等影响而变化的。再例如，车牌，其内部轮廓是车牌中各个数字的外边缘，外部轮廓的整个车牌的外边缘，都是不容易随拍摄角度、光线、车牌的卷曲度等变化的。物体图像是指物体的图像，一般是指电子版，根据其来源可以分为手机拍照、相机拍照、监控画面、屏幕截图、扫描照片得到的物体图像。

为了简便，后续将“有稳定轮廓的物体”简称为“物体”，将“物体的图像”简称为“物体图像”。

特征是在物体上提取出的、使该物体区别于其他物体的特性，例如在定位出的各位置点附近按一定规则提取的若干个像素的像素值。定位出的各位置点是指为了识别物体，在物体图像中物体上找到的、待提取特征的点。现有技术中在物体图像中定位待提取特征的位置点采取按照一定规则一一标注的方式，标注成本高，易受物体的姿态(包括方位、拍摄角度、卷曲度等)影响，不准确。本申请实施例直接把物体图像输入到预先训练好的串联的进行卷积操作的单元(卷积层单元)、线性变换的单元(全连接层单元)、三维形变模型。这样，将物体图像输入后，从三维形变模型直接输出了待提取特征的位置点，然后按照位置点提取特征，提高了提取特征的效率，提高对物体识别对姿态的鲁棒性。

下面对上述步骤分别描述。

步骤S109、对物体图像或对物体图像进行卷积得到的特征图进行卷积。

该步骤的卷积通过卷积层单元完成。线性变换通过全连接层单元完成。卷积层单元和全连接层单元是深度学习网络的基本单元。深度学习网络是一种特殊的多层前馈神经网络，其神经元的响应只与输入信号的局部区域有关。其在图像和视频分析中应用非常广泛。卷积层单元是深度学习网络的基本组成单元，其一般用在深度学习网络的前部和中部，使用多个滤波器对输入信号进行卷积操作，输出多通道信号。全连接层是深度学习网络的基本组成单元，其一般用在深度学习网络的后部，使用权重矩阵(投影矩阵)和输入向量相乘(执行线性变换)，得到输出向量。由于深度学习网络已有成熟技术，因此对这一部分不再赘述。

在卷积操作中，可能会用多个滤波器分别对物体图像的不同部分进行卷积操作，输出多通道信号，每个通道的信号表达了物体图像的不同部分的特征，这样就得到了物体图像的特征图。对这种特征图还可以再进行卷积操作，在该特征图的基础上进一步抽象出不同部分的特征，得到进一步的特征图，这是深度学习领域已知的。因此，步骤S110对物体图像或对物体图像进行卷积得到的特征图进行卷积操作，得到的是从物体图像抽象出的不同程度的特征图，其中对物体图像进行卷积操作得到的是从物体图像抽象出的低层的特征图，对物体图像进行卷积得到的特征图进行卷积操作得到的是从物体图像抽象出的更高层的特征图，它们都能表达物体图像的不同程度的特征。

步骤S111、将对物体图像或特征图卷积的结果进行线性变换。

线性变换可以通过如上所述的全连接层单元完成。全连接层单元会以卷积层单元卷积操作的结果为输入，对多个滤波器输出的多通道信号进行线性变换。卷积层单元的各滤波器抽象出的特征可能是抽象的、不能被人理解的，经过全连接层单元的组合可能成为具体的、能被人理解的特征，例如下面步骤S120涉及的正交投影T、和物体的的各形状主分量系数α_i，其中i为自然数。

步骤S120、将步骤S111的结果作为三维形变模型(3DMM)的输入，三维形变模型(3DMM)的输出为在物体图像中待提取特征的位置点。

三维形变模型(3D morphable model,3DMM)是一种能参数化地表达三维物体的刚体和非刚体几何变化的已知模型，通常采用旋转、平移和正交投影来表达刚体变换，采用主成分分析(Principle component analysis,PCA)来表达非刚体形变。

3DMM的表达式为：

其中，S是3DMM输出的形状(即采样网格，即表示出定位出的在物体图像中待提取特征的位置点在物体图像上的位置的网格)；m为平均人脸形状；w_i为3DMM的形状主分量(Principle components)；T为一个2x4的矩阵(正交投影)，它表达的是上面所述的刚体变换；α_i为物体图像的各主分量系数，它表达的是上面所述的非刚体变换；n为主分量的个数。该模型中m和w_i为已知变量，T和α_i为未知参数，T表示物体的刚体变换，α_i表示物体的非刚体变换。S、m和w_i均为矩阵，他们的维度相等，如：32x32。该公式中各变量或参数的物理意义是已知的，因此不再赘述。m和w_i为已知变量，T和α_i是3DMM的输入。在3DMM中输入表示物体图像的刚体变形的正交投影T、以及表示物体图像的非刚体变形的物体图像的各主分量系数α_i后，就得到了消除刚体变形和非刚体变形后的物体图像上应提取特征的位置点的位置组成的网格S。该实施例中，让卷积层单元和全连接层单元合起来获得物体图像的正交投影T、各主分量系数α_i，然后将T和α_i输入3DMM，得到的就是采样网格，即表示出定位出的在物体图像中待提取特征的位置点在物体图像上的位置的网格。

卷积层单元和全连接层单元是深度学习网络的常见单元，3DMM也是已知技术，但现有技术从未尝试过将这些元素组合在一起，从而消除物体的的姿态对于在物体图像中定位待提取特征的位置点的影响，本申请的发明人首次提出基于3DMM的空间变换层(STL)的概念，即3DMM-STL，其将卷积层单元、全连接层单元、3DMM组合在一起。利用卷积层单元、全连接层单元得到表示物体图像的刚体变形的正交投影T、以及表示物体图像的非刚体变形的物体图像的各主分量系数α_i，再利用3DMM能消除刚体变形和非刚体变形的特点，将T和α_i输入3DMM，得到消除刚体变形和非刚体变形的物体图像上待提取特征的位置点的位置网格，从而消除物体的姿态对定位在物体图像中待提取特征的位置点的影响。

步骤S130、按照三维形变模型(3DMM)输出的位置点，在物体图像或对物体图像进行卷积得到的特征图上提取特征。

提取特征可以在物体图像上进行，也可以在对物体图像进行卷积得到的特征图上进行，这是因为对物体图像进行卷积得到的特征图上同样具有待提取的特征，而且可能是待提取的更高层的特征。

步骤S120定位出的待提取特征的位置点是3DMM输出的，其位置点坐标未必是像素的整数倍，它可能落在四个像素之间。例如，从3DMM输出的网格中的一个位置点是(3.7,6.5)，横纵坐标的单位都是像素，坐标系的原点是物体图像的左下角像素的中心，即物体图像最下面一排从左数第二个像素的坐标为(1,0)，物体图像最左面一列从下数第二个像素的坐标为(0,1)。那么，位置点(3.7,6.5)就落在了像素(3,6)，(3,7)，(4,6)，(4,7)之间。

在定位出的待提取特征的位置点的位置落在四个像素之间的情况下，在该位置点处提取的特征可以通过近邻的四个像素的像素值使用双线性(Bilinear)插值得到，插值时每个通道独立操作。插值方法是现有技术，故不赘述。插值操作可使用任意可导的插值方式，如：最近邻插值、双线性插值、双三次插值、样条插值等，其中，优先采用双线性插值，因为其精度和速度较为平衡。

由于卷积层单元包括多个滤波器，全连接层单元包括投影矩阵，滤波器有参数，投影矩阵中也有参数，这些参数叫做卷积和线性变换中的系数。这些系数需要预先训练出。训练的方式是：对样本物体图像集合中的各样本物体图像，分别顺序进行S109、S111、S120、S130的操作，调整所述卷积、线性变换中的系数，使得对于样本物体图像集合中的同一物体的多个样本物体图像，提取的特征之间的特征距离小于第一特征距离阈值；对于样本物体图像集合中的不同物体的样本物体图像，提取的特征之间的特征距离大于第二特征距离阈值。

样本物体图像是为了训练卷积、线性变换中的系数而采用的各种物体(对于人脸来说，即不同人的人脸)的图像。样本物体图像集合即多个样本物体图像组成的集合，通常在集合中对于同一种物体(如同一个人的人脸)，有多个样本物体图像。

对于样本物体图像集合中的同一物体的多个样本物体图像，提取的特征之间的特征距离小于第一特征距离阈值的目的是使对于同一物体的不同样本物体图像提取出的特征的差别最小化。以人脸图像为例，假设样本人脸图像集合有1000个样本人脸图像，分别属于100个人，每个人有10个样本人脸图像。对于其中一个人来说，其10个样本人脸图像中最后得到的特征应该是基本一致的。对于同一个人来说不应因为照了不同的照片而特征有差别。

由于最后得到的特征可以是一长串的像素值(每个定位点按一定规则取若干像素值)，可以表示为向量，每个像素值作为向量的一个维度，可以通过让对于样本物体图像集合中的同一物体的多个样本物体图像，提取的特征的特征向量之间的距离，即提取的特征之间的特征距离，小于第一特征距离阈值来体现特征的差别最小化。提取的特征之间的特征距离即把提取的特征表示成向量后这些向量之间的向量距离，如欧式距离、余弦相似度等。

对于样本物体图像集合中的不同物体的多个样本物体图像，提取的特征之间的特征距离大于第二特征距离阈值的目的是使对于不同物体的样本物体图像提取出的特征的差别最大化。以人脸图像为例，假设样本人脸图像集合有1000个样本人脸图像，分别属于100个人，每个人有10个样本人脸图像。其中甲的人脸图像提取出的特征应当与乙的人脸图像提取出的特征有很大不同，因为是两个不同的人。

由于最后得到的特征可以是一长串的像素值(每个定位点按一定规则取若干像素值)，可以表示为向量，每个像素值作为向量的一个维度，可以通过让对于样本物体图像集合中的不同物体的样本物体图像，提取的特征的特征向量之间的距离，即提取的特征之间的特征距离，大于第二特征距离阈值来体现特征的差别最大化。提取的特征之间的特征距离即把提取的特征表示成向量后这些向量之间的向量距离，如欧式距离、余弦相似度等。

通过使得对于样本物体图像集合中的同一物体的多个样本物体图像，提取的特征之间的特征距离小于第一特征距离阈值；对于样本物体图像集合中的不同物体的样本物体图像，提取的特征之间的特征距离大于第二特征距离阈值，就能不断训练卷积、线性变换中的系数，使其日臻符合让同一物体提取的特征差别小、不同物体提取的特征差别大的要求，提高物体识别效果。

该实施例对应的装置构架如图4a所示，相应的装置100包括：

第一卷积层单元109，对物体图像或对物体图像进行卷积(通过虚线所示的可选的前置卷积层单元105)得到的特征图进行卷积；

第一全连接层单元111，对第一卷积层单元卷积的结果进行线性变换；

三维形变模型120，其输入为所述线性变换的结果，输出为在物体图像中待提取特征的位置点；

采样器130，按照三维形变模型输出的位置点，在物体图像或对物体图像进行卷积得到的特征图上提取特征。

如图2所示，根据本申请的一个实施例，该方法包括：步骤S140、对提取的特征进行一次或多次卷积、以及一次或多次线性变换，得到变换后的特征。

图4b示出了进行一次卷积(通过第二卷积层单元239)、再进行一次线性变换(通过第二全连接层单元241)的装置构架。图4c示出了进行两次卷积(通过第二卷积层单元239)、再进行两次线性变换(通过第二全连接层单元241)的装置构架。

如前所述，卷积层单元和全连接层单元是深度学习网络的基本单元，它们起到的作用是增加对物体的分类能力。因此，步骤S140进一步在提取出特征之后，又对特征进行一次或多次卷积、一次或多次线性变换，使得得到的特征对物体识别具有更强的分类能力，提高识别效果。

在有进一步的一次或多次卷积、一次或多次线性变换的情况下，这些进一步的一次或多次卷积、一个或多次线性变换中也会有一些系数，这些系数与步骤S110中卷积、线性变换中的系数往往是联合进行训练的，即：对样本物体图像集合中的各样本物体图像，分别顺序进行步骤S109、S111、S120、S130、S140的操作，调整步骤S109、S111和S140中各卷积、线性变换中的系数，使得对于样本物体图像集合中的同一物体的多个样本物体图像，变换后的特征之间的特征距离小于第一特征距离阈值；对于样本物体图像集合中的不同物体的样本物体图像，变换后的特征之间的特征距离大于第二特征距离阈值。关于上述使得对于样本物体图像集合中的同一物体的多个样本物体图像，变换后的特征之间的特征距离小于第一特征距离阈值，而对于样本物体图像集合中的不同物体的样本物体图像，变换后的特征之间的特征距离大于第二特征距离阈值的部分，前面已经介绍过，故不赘述。

将步骤S140中的卷积、线性变换中的系数与步骤S109、S111中卷积、线性变换中的系数联合训练的好处是：已有方法在训练特征点定位模块时，对样本物体图像集合中的样本物体图像需要一一标注定位点，成本较高。而本实施例联合训练定位部分和后续的加强特征处理部分(进一步的卷积、线性变换)，样本物体图像集合仅需要标注物体类别信息(例如哪张人脸图片属于哪个人的人脸)，标注成本明显更低。

由于本实施例不需按照一定规则逐一标注待提取特征的位置点，而是直接把物体图像输入到串联的卷积层单元、全连接层单元、三维形变模型、采样器，可选地再经过额外的一个或多个卷积层单元、一个或多个全连接层单元，最后得到需要的特征，大大提高了提取特征的效率。由于三维形变模型本身的特点，对姿态具有鲁棒性，因而提升了物体识别对物体姿态的鲁棒性。

如图3所示，提供了一种物体的识别方法，包括：

S310、获取物体图像；

S320、在获取的物体图像中、以及在样本物体图像集合的样本物体图像中提取特征，其中所述特征是在对待提取特征的物体图像或对待提取特征的物体图像的卷积后的特征图进行卷积、线性变换、并经三维形变模型处理得到的位置点上提取出的；

S330、基于获取的物体图像中提取的特征和样本物体图像中提取的特征的比较，识别获取的物体图像中的物体。

下面对这些步骤进行详细描述。

步骤S310、获取物体图像。

在一个实施例中，步骤S310包括：

接收带有物体的的待识别图像；

根据待识别图像中物体的轮廓极限位置，产生物体检测框；

对物体检测框内的图像进行物体配准，得到获取的物体图像。

待识别图像是要从中识别出物体的的图像，包括照片、截图等。对于照片来说，一般要预扫描成电子图像以便后续处理。待识别图像中除了物体之外，一般含有背景。例如，人的照片中除了人脸外、可能含有人周围的环境，也含有人的身体部分等。在物体识别中，图像中对识别最关键的地方是物体。例如，在人脸识别中，有稳定轮廓的人脸，相比于身体、环境等，可能对于识别出人物的身份更有意义。因此，在接收到带物体的待识别图像后，要根据待识别图像中物体的轮廓极限位置，产生物体检测框，其中物体检测框的上框线正好与物体的轮廓最上部齐平；物体检测框的下框线正好与物体的轮廓最下部齐平；物体检测框的左框线正好与物体的轮廓最左部齐平；物体检测框的右框线正好与物体的轮廓最右部齐平。具体的做法是：检测出物体的轮廓最上一点的坐标位置，穿过该坐标位置作水平线，即为上框线；检测出物体的轮廓最下一点的坐标位置，穿过该坐标位置作水平线，即为下框线；检测出物体的轮廓最左一点的坐标位置，穿过该坐标位置作垂直线，即为左框线；检测出物体的轮廓最右一点的坐标位置，穿过该坐标位置作垂直线，即为右框线。上框线、下框线、左框线、右框线围成的框即为物体检测框。产生物体检测框的意义在于尽量排除物体的之外的背景的图像对物体识别的干扰。

配准的含义是使用某种几何方法将物体图像变换到特定的坐标系下，以矫正物体的位置、尺度、姿态。如在待识别图像中，某个人是笑的表情，经配准后变换成一个正常、不笑时的表情。又如在待识别图像中，某个人的脸稍微有点偏，经配准后变换成一个正角度的脸。配准可采用已知技术实现。

对物体检测框内的图像进行物体配准，就得到了去掉很多无关的背景的、物体的角度比较正、去除了各种因素(例如表情)对物体识别的干扰的物体图像。这种尝试物体检测框的方式和配准的方式有利于提高物体识别的精度。

步骤S320、在获取的物体图像中、以及在样本物体图像集合的样本物体图像中提取特征。

所述特征是在对待提取特征的物体图像或对待提取特征的物体图像的卷积后的特征图进行卷积、线性变换、并经三维形变模型处理得到的位置点上提取出的，也就是说，是按照如前面结合图1或2所述的在物体图像中提取特征的方法提取的。

样本物体图像是物体在正常光线、正常姿态下的标准图像。样本物体图像的集合是由这些不同样本物体图像组成的集合。例如，一个小学有1000个孩子，为了识别出照片中的孩子是这1000个孩子中的哪个孩子，可以将这1000个孩子在正常光线、正常姿态(包括表情)下的人脸图像作为样本人脸的集合。

然后，对获取的物体图像、以及在样本物体图像的集合中的每个样本物体图像分别提取特征，提取的方法是如前面结合图1、2描述过的在物体图像中提取特征的方法。如前所述，对每个图像提取出的特征可能是一连串的像素值等，在一个实施例中，为了表示该特征，可以采用向量的形式，提取出的每个像素值作为向量的一个分量。

步骤S330、基于获取的物体图像中提取的特征和样本物体图像中提取的特征的比较，识别获取的物体图像中的物体。

在步骤S320中提取出的特征采用向量的形式的情况下，步骤S330可包括：

确定获取的物体图像中提取的特征向量和样本物体图像中提取的特征向量的相似度；

基于确定的相似度，识别获取的物体图像中的物体。

向量的相似度是已知概念，是表示向量的近似程度的物理量，也可以认为是表示向量在多维度坐标系中的距离。相似度包括欧式距离或余弦相似度，等等。

物体识别有两种：一种是识别物体图像中的物体的身份，即识别其属于样本物体图像中的哪个样本物体图像；另一种是识别物体图像中的物体是否是某一指定物体。

对于前一种情况，基于确定的相似度识别获取的物体图像中的物体包括：将获取的物体图像中提取的特征向量和每一样本物体图像中提取的特征向量的相似度最大者对应的样本物体图像中的动物确定为识别出的动物。例如，求一个孩子脸的图像中提取的特征向量与学校中1000个孩子中每一个孩子的脸的图像中提取的特征向量的相似度，在1000个相似度中，发现最大的一个相似度对应1000个孩子脸的图像中的小明的脸的图像，则识别出该孩子是小明。

对于后一种情况下，基于确定的相似度识别获取的物体图像中的物体包括：判断获取的物体图像中提取的特征向量和该指定物体图像中提取的特征向量的相似度是否大于预先设置的阈值，如大于，则识别出该物体图像的物体就是该指定物体。例如，求一个孩子脸的图像中提取的特征向量与从小明的脸的图像中提取的特征向量的相似度是否大于95％，如大于95％，就识别出该孩子就是小明。

如图6所示，根据本申请的一个实施例，提供了一种在物体图像中提取特征的装置100，包括：

存储器1001，用于存储计算机可读程序指令；

处理器1002，用于执行存储器中存储的计算机可读程序指令，以执行：

对物体图像或对物体图像进行卷积得到的特征图进行卷积；

将对物体图像或特征图卷积的结果进行线性变换；

将所述线性变换的结果作为三维形变模型的输入，三维形变模型的输出为在物体图像中待提取特征的位置点；

按照三维形变模型输出的位置点，在物体图像或对物体图像进行卷积得到的特征图上提取特征。

在一个实施例中，所述卷积、线性变换中的系数通过以下方式训练：

对样本物体图像集合中的各样本物体图像，分别顺序进行上述卷积、线性变换、输入三维形变模型、提取特征的操作，调整所述卷积、线性变换中的系数，使得对于样本物体图像集合中的同一物体的多个样本物体图像，提取的特征之间的特征距离小于第一特征距离阈值；对于样本物体图像集合中的不同物体的样本物体图像，提取的特征之间的特征距离大于第二特征距离阈值。

在一个实施例中，所述处理器还执行存储器中存储的计算机可读程序指令，以便：

在物体图像或对物体图像进行卷积得到的特征图上提取特征后，对提取的特征进行一次或多次卷积、以及一次或多次线性变换，得到变换后的特征。

在一个实施例中，各卷积、线性变换中的系数通过以下方式训练：

对样本物体图像集合中的各样本物体图像，分别顺序进行上述卷积、线性变换、输入三维形变模型、提取特征、以及对提取的特征进行一次或多次卷积、以及一个或多次线性变换的操作，调整各卷积、各线性变换中的系数，使得对于样本物体图像集合中的同一物体的多个样本物体图像，变换后的特征之间的特征距离小于第一特征距离阈值；对于样本物体图像集合中的不同物体的样本物体图像，变换后的特征之间的特征距离大于第二特征距离阈值。

如图7所示，根据本申请的一个实施例，还提供了一种物体的识别装置3，包括：

存储器301，用于存储计算机可读程序指令；

处理器302，用于执行存储器中存储的计算机可读程序指令，以执行：获取物体图像；在获取的物体图像中、以及在样本物体图像集合的样本物体图像中提取特征，其中所述特征是在对待提取特征的物体图像或对待提取特征的物体图像的卷积后的特征图进行卷积、线性变换、并经三维形变模型处理得到的位置点上提取出的；基于获取的物体图像中提取的特征和样本物体图像中提取的特征的比较，识别获取的物体图像中的物体。

在一个实施例中，所述特征是根据如上结合图1或2所述的在物体图像中提取特征的方法提取的。

在一个实施例中，获取物体图像，包括：

接收带有物体的待识别图像；

根据待识别图像中物体的轮廓极限位置，产生物体检测框；

在一个实施例中，获取的物体图像中提取的特征和样本物体图像中提取的特征分别采取向量的形式。基于获取的物体图像中提取的特征和样本物体图像中提取的特征的比较识别获取的物体图像中的物体，包括：确定获取的物体图像中提取的特征向量和样本物体图像中提取的特征向量的相似度；基于确定的相似度，识别获取的物体图像中的物体。

如图4a所示，根据本申请的一个实施例，提供了一种在物体图像中提取特征的装置100，包括：

第一卷积层单元109，对物体图像或对物体图像进行卷积(通过前置卷积层单元105)得到的特征图进行卷积；

三维形变模型(3DMM)120，其输入为所述线性变换的结果，输出为在物体图像中待提取特征的位置点；

可选地，所述卷积、线性变换中的系数通过以下方式训练：

对样本物体图像集合中的各样本物体图像，分别顺序输入上述第一卷积层单元，使得对于样本物体图像集合中的同一物体的多个样本物体图像，提取的特征之间的特征距离小于第一特征距离阈值；对于样本物体图像集合中的不同物体的样本物体图像，提取的特征之间的特征距离大于第二特征距离阈值。

如图4b和图4c所示，所述装置还包括：一个或多个第二卷积层单元239，对采样器提取的特征进行一次或多次卷积；一个或多个第二全连接层单元241，对所述一个或多个第二卷积层单元卷积的结果进行一次或多次线性变换，得到变换后的特征。

可选地，各卷积、线性变换中的系数通过以下方式训练：

对样本物体图像集合中的各样本物体图像，分别顺序输入上述第一卷积层单元，调整各卷积、线性变换中的系数，使得对于样本物体图像集合中的同一物体的多个样本物体图像，变换后的特征之间的特征距离小于第一特征距离阈值；对于样本物体图像集合中的不同物体的样本物体图像，变换后的特征之间的特征距离大于第二特征距离阈值。

根据本申请的一个实施例，提供了一种物体的识别装置3，包括：

物体图像获取单元310，获取物体图像；

特征提取单元320，在获取的物体图像中、以及在样本物体图像集合的样本物体图像中提取特征，其中所述特征是在对待提取特征的物体图像或对待提取特征的物体图像的卷积后的特征图进行卷积、线性变换、并经三维形变模型处理得到的位置点上提取出的；

物体识别单元330，基于获取的物体图像中提取的特征和样本物体图像中提取的特征的比较，识别获取的物体图像中的物体。

可选地，所述特征是根据前面结合图1、2描述的在物体图像中提取特征的方法提取的。

可选地，所述物体图像获取单元310用于：

接收带有物体的待识别图像；

根据待识别图像中物体的轮廓极限位置，产生物体检测框；

可选地，获取的物体图像中提取的特征和样本物体图像中提取的特征分别采取向量的形式。所述物体识别单元330用于：

基于确定的相似度，识别获取的物体图像中的物体。

可选地，所述物体为人脸。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种在物体图像中提取特征的方法，其特征在于，包括：

对物体图像或对物体图像进行卷积得到的特征图进行卷积；

将对物体图像或特征图卷积的结果进行线性变换；

2.根据权利要求1所述的方法，其特征在于，所述卷积、线性变换中的系数通过以下方式训练：

3.根据权利要求1所述的方法，其特征在于，在物体图像或对物体图像进行卷积得到的特征图上提取特征的步骤后，所述方法还包括：

对提取的特征进行一次或多次卷积、以及一次或多次线性变换，得到变换后的特征。

4.根据权利要求3所述的方法，其特征在于，各卷积、线性变换中的系数通过以下方式训练：

5.一种物体的识别方法，其特征在于，包括：

获取物体图像；

在获取的物体图像中、以及在样本物体图像集合的样本物体图像中提取特征，其中所述特征是在对待提取特征的物体图像或对待提取特征的物体图像的卷积后的特征图进行卷积、线性变换、并经三维形变模型处理得到的位置点上提取出的；

基于获取的物体图像中提取的特征和样本物体图像中提取的特征的比较，识别获取的物体图像中的物体。

6.根据权利要求5所述的方法，其特征在于，所述特征是根据权利要求2-4中任一个的方法提取出的。

7.根据权利要求5所述的方法，其特征在于，所述获取物体图像的步骤包括：

接收带有物体的待识别图像；

根据待识别图像中物体的轮廓极限位置，产生物体检测框；

8.根据权利要求5所述的方法，其特征在于，获取的物体图像中提取的特征和样本物体图像中提取的特征分别采取向量的形式，

所述基于获取的物体图像中提取的特征和样本物体图像中提取的特征的比较识别获取的物体图像中的物体的步骤包括：

基于确定的相似度，识别获取的物体图像中的物体。

9.根据权利要求5所述的方法，其特征在于，所述物体为人脸。

10.一种在物体图像中提取特征的装置，其特征在于，包括：

存储器，用于存储计算机可读程序指令；

处理器，用于执行存储器中存储的计算机可读程序指令，以执行：

对物体图像或对物体图像进行卷积得到的特征图进行卷积；

将对物体图像或特征图卷积的结果进行线性变换；

11.根据权利要求10所述的装置，其特征在于，所述卷积、线性变换中的系数通过以下方式训练：

12.根据权利要求10所述的装置，其特征在于，所述处理器还执行存储器中存储的计算机可读程序指令，以便：

13.根据权利要求12所述的装置，其特征在于，各卷积、线性变换中的系数通过以下方式训练：

14.一种物体的识别装置，其特征在于，包括：

存储器，用于存储计算机可读程序指令；

获取物体图像；

15.根据权利要求14所述的装置，其特征在于，所述特征是根据权利要求2-4中任一个的方法提取出的。

16.根据权利要求14所述的装置，其特征在于，获取物体图像，包括：

接收带有物体的待识别图像；

根据待识别图像中物体的轮廓极限位置，产生物体检测框；

17.根据权利要求14所述的装置，其特征在于，获取的物体图像中提取的特征和样本物体图像中提取的特征分别采取向量的形式，

基于获取的物体图像中提取的特征和样本物体图像中提取的特征的比较识别获取的物体图像中的物体，包括：

基于确定的相似度，识别获取的物体图像中的物体。

18.一种在物体图像中提取特征的装置，其特征在于，包括：

19.一种物体的识别装置，其特征在于，包括：

物体图像获取单元，用于获取物体图像；

物体识别单元，用于基于获取的物体图像中提取的特征和样本物体图像中提取的特征的比较，识别获取的物体图像中的物体。