CN105631398A

CN105631398A - 识别对象的方法和设备以及训练识别器的方法和设备

Info

Publication number: CN105631398A
Application number: CN201510823759.4A
Authority: CN
Inventors: 俞炳仁; 金楠隼; 李昶教; 崔昌圭; 韩在濬
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-11-24
Filing date: 2015-11-24
Publication date: 2016-06-01
Anticipated expiration: 2035-11-24
Also published as: EP3023911A1; EP3023911B1; US20160148080A1; KR102734298B1; US20180181799A1; CN105631398B; KR20230021043A; US9928410B2

Abstract

公开了识别对象的方法和设备以及训练识别器的方法和设备。识别方法包括：接收输入图像；使用被预训练为同时识别多个元素的单个识别器识别与输入图像相关联的多个元素。

Description

识别对象的方法和设备以及训练识别器的方法和设备

本申请要求于2014年11月24日提交到韩国知识产权局的第10-2014-0164232号韩国专利申请和2015年6月18日提交到韩国知识产权局的第10-2015-0086658号韩国专利申请的优先权权益，所述申请的全部内容通过引用完整地包含于此。

技术领域

至少一些示例实施例涉及一种用于识别对象的方法和设备，以及一种用于训练识别器的方法和设备。

背景技术

随着脸部识别技术的应用变得广泛，通过将主成分分析(PCA)应用于脸部图像来识别脸部的技术正被使用。PCA指的是在最小化图像的本征信息的损失的同时通过在低维特征向量空间将图像数据投影来减少信息的技术。作为使用PCA的脸部识别方法，提取脸部的主特征向量并通过使用从预登记的图像提取的主成分向量而训练的模式分类器来识别脸部的方法被广泛应用。

发明内容

至少一些示例实施例针对用于训练和/或使用识别器来识别输入图像的多个元素的方法和/或设备。

根据至少一些示例实施例，识别方法可包括：接收输入图像；使用被预训练为同时识别多个元素的单个识别器识别与输入图像相关联的多个元素。

所述多个元素可包括：标识(ID)，标识输入图像；至少一个属性，与输入图像相关联。ID可标识包括在输入图像中的至少一个对象。所述至少一个属性可包括以下至少一项：与包括在输入图像中的脸部区域相应的性别；与所述脸部区域相应的年龄；与所述脸部区域相应的种族；与所述脸部区域相应的吸引力；与所述脸部区域相应的面部表情；与所述脸部区域相应的情感。所述至少一个属性可包括性别、年龄、种族、吸引力、面部表情和情感中的至少两个不同的属性。所述识别器可包括神经网络，所述识别的步骤可包括基于包括在神经网络中的节点之间的预学习的权重计算与多个元素对应的特征值。所述识别的步骤可包括基于输入图像产生多个特征图像。所述多个特征图像可包括以下至少一项：去除光照噪声的颜色通道图像；方向梯度大小通道图像；皮肤概率通道图像；局部二元模式通道图像。所述识别的步骤可包括：对多个特征图像进行滤波；基于滤波模块的输出将与多个元素相应的特征值输出。所述识别的步骤还可包括基于特征值识别多个元素。所述识别的步骤可包括：获取与包括在训练图像中的脸部的部件相应的多个部件图像；产生与所述多个部件图像中的每个相应的多个特征图像。所述识别的步骤可包括：基于多个部件识别模块的输出将与所述多个元素相应的特征值输出，其中，所述多个部件识别模块中的每个包括对相应的部件图像的特征图像进行滤波；基于滤波模块的输出将与与相应的部件图像相关联的元素相应的特征值输出。所述识别的步骤还可包括：基于第一元素特征输出模块的输出识别多个元素。所述识别方法还可包括：将所述多个元素和与参考图像相关联的多个元素进行比较；基于比较的结果确定输入图像是否与参考图像匹配。所述比较的步骤可包括：基于所述多个元素产生特征向量；将所述特征向量与参考图像的参考向量进行比较。

根据至少一些示例实施例，训练识别器的方法可包括：接收训练图像；基于训练图像和在训练图像中标记的多个元素训练被配置为从输入图像识别多个元素的识别器。

所述多个元素可包括：标识(ID)，标识训练图像；至少一个属性，与训练图像相关联。ID可包括标识包括在训练图像中的至少一个对象的信息。所述至少一个属性可包括以下至少一项：与包括在训练图像中的脸部区域相应的性别；与所述脸部区域相应的年龄；与所述脸部区域相应的种族；与所述脸部区域相应的吸引力；与所述脸部区域相应的面部表情；与所述脸部区域相应的情感。所述至少一个属性可包括性别、年龄、种族、吸引力、面部表情和情感中的至少两个不同的属性。所述训练的步骤可包括计算与所述多个元素相应的损失。所述识别器可包括神经网络，所述训练的步骤可包括基于所述损失训练识别器学习包括在神经网络中的节点之间的权重。所述识别器可包括神经网络，所述训练的步骤可包括基于随机分段线性(PWL)模型激活包括在神经网络中的节点。所述训练的步骤可包括基于训练图像产生多个特征图像。所述多个特征图像可包括以下至少一项：去除光照噪声的颜色通道图像；方向梯度大小通道图像；皮肤概率通道图像；局部二元模式通道图像。所述训练的步骤可包括：训练识别器对多个特征图像进行滤波；基于对多个特征图像进行滤波的输出训练识别器输出与多个元素相应的特征值。所述训练的步骤还可包括基于元素特征输出模块的输出识别多个元素。所述训练的步骤可包括：获取与包括在训练图像中的脸部的部件相应的多个部件图像。不同元素可在所述多个部件图像中被标记。所述训练的步骤还可包括：产生与所述多个部件图像中的每个相应的多个特征图像。所述训练的步骤可包括：基于与所述多个部件图像相应的多个部件识别模块的输出训练识别器输出与多个元素相应的特征值；针对多个部件识别模块中的每个，训练部件识别模块对相应的部件图像的特征图像进行滤波，并基于滤波模块的输出训练部件识别模块输出与与相应的部件图像相关联的元素相应的特征值。所述训练的步骤还可包括：基于第一元素特征输出模块的输出训练识别器识别多个元素。

根据至少一个示例实施例，非暂时性计算机可读介质包括：程序代码，当由处理器执行所述程序代码时，使处理器执行包括接收训练图像、基于训练图像和在训练图像中标记的多个元素训练被配置为从输入图像识别多个元素的识别器的操作。

根据至少一个示例实施例，识别设备包括：存储器，存储指令；一个或多个处理器，被配置为执行指令以使所述一个或多个处理器被配置为接收输入图像并使用预训练的单个识别器识别与输入图像相关联的多个元素。

根据至少一个示例实施例，用于训练识别器的设备包括：存储器，存储指令；一个或多个处理器，被配置为执行指令以使所述一个或多个处理器被配置为接收训练图像并基于训练图像和在训练图像中标记的多个元素训练被配置为识别输入图像的多个元素的识别器。

根据至少一个示例实施例，一种方法包括：接收多个训练图像，所述多个图像中的每个包括一个或多个标记的元素；基于多个训练图像和包括在多个训练图像中的标记的元素，训练一个或多个卷积神经网络(CNN)以使所述训练的一个或多个CNN从输入图像识别至少两个不同的元素。

所述训练的步骤可包括：训练所述一个或多个CNN对图像标识(ID)和至少一个图像属性二者来执行识别。所述至少一个属性可包括以下至少一项：与包括在输入图像中的脸部区域相应的性别；与所述脸部区域相应的年龄；与所述脸部区域相应的种族；与所述脸部区域相应的吸引力；与所述脸部区域相应的面部表情；与所述脸部区域相应的情感。所述训练的步骤可包括：针对多个训练图像中的每个产生多个类型的通道图像，并基于所述多个类型的通道图像中的至少两个训练所述一个或多个CNN来执行识别。所述至少两个类型的通道图像可包括第一类型和第二类型，第一类型和第二类型可以不同，并且第一类型和第二类型中的每个可以是以下项之一：去除光照噪声的颜色类型的通道图像；方向梯度大小类型的通道图像；皮肤概率类型的通道图像；局部二元模式类型的通道图像。所述一个或多个CNN可包括单个CNN，所述训练的步骤可包括基于至少第一类型和第二类型训练单个CNN来执行识别。所述一个或多个CNN可至少包括第一CNN和第二CNN，所述训练的步骤可包括基于第一类型训练第一CNN执行识别和基于第二类型训练第二CNN执行识别。所述方法还可包括：融合响应于第一CNN的训练产生的第一CNN的输出和响应于第二CNN的训练产生的第二CNN的输出。

根据至少一个示例实施例，一种方法包括：接收输入图像；使用一个或多个训练的卷积神经网络(CNN)从输入图像识别至少两个不同的元素，所述一个或多个训练的CNN每个均为基于多个训练图像和包括在多个训练图像中的标记的元素而训练的CNN。

所述识别的步骤可包括：使用所述一个或多个训练的CNN对图像标识(ID)和至少一个图像属性执行识别。所述至少一个属性可包括以下至少一项：与包括在输入图像中的脸部区域相应的性别；与所述脸部区域相应的年龄；与所述脸部区域相应的种族；与所述脸部区域相应的吸引力；与所述脸部区域相应的面部表情；与所述脸部区域相应的情感。所述识别的步骤可包括：针对输入图像产生多个类型的通道图像，并且使用所述一个或多个训练的CNN基于多个类型的通道图像中的至少两个来执行识别。所述至少两个类型的通道图像可包括第一类型和第二类型，第一类型和第二类型可以不同，并且第一类型和第二类型中的每个可以是以下项之一：去除光照噪声的颜色类型的通道图像；方向梯度大小类型的通道图像；皮肤概率类型的通道图像；局部二元模式类型的通道图像。所述一个或多个CNN可以是单个CNN，所述识别的过程可包括使用单个CNN基于至少第一类型和第二类型来执行识别。所述一个或多个CNN可至少包括第一CNN和第二CNN，所述识别的步骤可包括使用第一CNN基于第一类型来执行第一识别和使用第二CNN基于第二类型来执行第二识别。所述方法还可包括：融合响应于第一识别产生的第一CNN的输出和响应于第二识别产生的第二CNN的输出。

至少一些示例实施例的另外的方面将会部分地在以下描述中阐述，并且部分从描述将是清楚的，或可通过本公开的实践而获知。

附图说明

本发明构思的示例实施例的以上和其它特征和优点将会通过参考附图详细描述本发明构思的示例实施例变得更为清楚。附图意在描述本发明构思的示例实施例，而不应被解释为限制权利要求的意图范围。除非明确说明，否则附图将不会被视为按比例绘制。

图1是示出根据至少一些示例实施例的训练设备的框图；

图2示出根据至少一些示例实施例的多任务训练；

图3示出根据至少一些示例实施例的通过共同学习元素提高识别准确度的识别器的原理；

图4示出根据至少一些示例实施例的多任务训练的原理；

图5示出根据至少一些示例实施例的深度卷积神经网络(DCNN)的示例；

图6示出根据至少一些示例实施例的多通道训练；

图7示出根据至少一些示例实施例的多通道训练的原理；

图8和图9示出根据至少一些示例实施例的用于多通道训练的DCNN；

图10示出根据至少一些示例实施例的多部件训练；

图11示出根据至少一些示例实施例的用于多部件训练的DCNN；

图12示出根据至少一些示例实施例的多部件训练和多通道训练的结合；

图13示出根据至少一些示例实施例的随机分段线性(PWL)激活模型和一般确定性PWL激活模型之间的比较；

图14是示出根据至少一些示例实施例的识别设备的框图；

图15A至图15D示出根据至少一些示例实施例的识别器的操作；

图16示出根据至少一些示例实施例的用户界面(UI)；

图17至图24示出根据至少一些示例实施例的脸部识别设备；

图25至图30示出根据至少一些示例实施例的属性。

具体实施方式

在这里公开了本发明构思的具体示例实施例。然而，这里公开的具体的结构和功能的细节仅是代表描述本发明构思的示例实施例的目的。然而，本发明构思的示例实施例可以许多替代形式被实施，并且不应被解释为仅限于这里阐述的实施例。

因此，虽然本发明构思的示例实施例能够做出各种修改和替代形式，但是本发明构思的实施例以在附图中的示例的方式被示出，并将会在这里被详细描述。然而，应该理解，不意图将本发明构思的示例实施例限制于所公开的特定形式，而正相反，本发明构思的示例实施例将覆盖落入本发明构思的示例实施例范围内的所有修改、等同物和替代物。贯穿附图的描述，相同的标号指示相同的元件。

将理解的是，虽然术语第一、第二等可在这里使用以描述各种元件，但是这些元件不应被这些术语限制。这些术语仅用于将一个元件与另一元件区分。例如，在不脱离本发明构思的示例实施例的范围的情况下，第一元件可被称为第二元件，类似地，第二元件可被称为第一元件。如在这里使用的，术语“和/或”包括一个或多个关联的所列项的任何和所有组合。

将理解的是，当元件被表示为“连接”或者“耦合”到另一元件时，该元件可能直接连接到或者耦合到所述另一元件，或者可能存在中间元件。与此相反，当元件被表示为“直接连接”或者“直接耦合”到另一元件时，不存在中间元件。用来描述元件之间的关系的其它词语应以同样的方式被解释(例如，“在……之间”与“直接在……之间”、“相邻”与“直接相邻”等)。

在这里使用的技术仅为描述特定实施例的目的，而并非意图限制本发明构思的示例实施例。如在这里使用的，除非上下文明确地另有指示，否则单数形式也意图包括复数形式。还将理解，当在这里使用术语“包括”和/或“包含”时，指定所述的特征、整数、步骤、操作、元件和/或组件的存在，但不排除一个或多个其它特征、整数、步骤、操作、元件、组件和/或其群组的存在或添加。

还应注意，在一些可选实现中，提及的功能/作用可不以图中提到的顺序发生。例如，根据涉及的功能/作用，相继示出的两幅图实际可以实质上同时被执行或有时可以以相反的顺序被执行。

在这里参照作为本发明构思的理想化的实施例的示意图(和中间结构)来描述本发发明构思的示例实施例。因此，由于例如制造技术和/或偏差的来自于示意图的形状的改变是可预期的。因此，本发明构思的示例实施例不应被解释为限制于这里示出的区域的具体形状，而应包括由于例如制造所产生的形状上的偏差。

虽然可能未示出某些剖视图的相应的俯视图和/或透视图，但是这里示出的装置结构的剖视图向多个装置结构提供支持，所述多个装置结构如同会在俯视图中示出的一样沿着两个不同的方向扩展，和/或如同会像在透视图中示出的一样沿着三个不同的方向扩展。所述两个不同的方向可能是或可能不是相互正交的。所述三个不同的方向可包括可能与所述两个不同的方向正交的第三方向。所述多个装置结构可被集成在同一个电子装置中。例如，当在剖视图中示出装置结构(例如，存储器单元结构或晶体管结构)时，如同会由电子装置的俯视图示出的一样，该电子装置可包括多个装置结构(例如，存储器单元结构或晶体管结构)。所述多个装置结构可以以阵列和/或二维图案被布置。

在下文中，将对实施例做出详细参考，这些实施例的示例被示出在附图中，其中，相同的标号始终指示相同的元件。以下的至少一些示例实施例可被应用于识别对象(例如，脸部)的技术。例如，至少一些示例实施例可被应用于用户识别、多媒体的(例如，照片)搜索和管理。

图1是示出根据至少一些示例实施例的训练设备的框图。参照图1，根据至少一些示例实施例的训练设备100可包括接收器110和训练器120。接收器110可接收训练图像。训练器120可使用接收的训练图像训练识别器。例如，训练设备100可训练被配置为识别脸部的识别器。训练设备100可接收包括脸部的训练图像，并基于接收到的训练图像训练被配置为识别脸部的识别器。接收器110和训练器120可被实施为软件模块、硬件模块、或它们的组合。可以以各种计算装置和/或系统(例如，智能电话、平板计算机、膝上型计算机、台式计算机、电视、可穿戴装置、安全系统以及智能家居系统)提供训练设备100。例如，根据本发明构思的至少一个示例实施例，训练设备100可包括一个或多个电路或电路装置(例如，硬件)或者可由一个或多个电路或电路装置实现，其中，所述一个或多个电路或电路装置被专门构造为：当这里描述的一些或全部操作被训练设备100(或它的元件)执行时，实现这里描述的一些或全部操作。根据本发明构思的至少一个示例实施例，训练设备100可包括存储器和一个或多个处理器或者可由存储器和一个或多个处理器实现，其中，当这里描述的一些或全部操作被训练设备100(或它的元件)执行时，所述一个或多个处理器可执行存储在存储器中的包括与这里描述的一些或所有操作相应的指令的计算机可读代码(例如，软件)。根据本发明构思的至少一个示例实施例，训练设备100可被例如以上提到的硬件和执行计算机可读代码的处理器的组合实现。

如在这里使用的，术语“处理器”可表示例如具有被物理构造为执行期望的操作的电路的硬件实现的数据处理装置，其中，所述期望的操作包括例如被表示为包括在程序中的代码和/或指令的操作。以上提到的硬件实现的数据处理装置的示例包括(但不限于)微处理器、中央处理单元(CPU)、处理器核、多核处理器、多处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)。执行程序代码的处理器是已编程处理器，因此也是专用计算机。

多个元素可在训练图像中被标记。多个元素可包括：标识(ID)，被配置为确定训练图像；属性，与训练图像相关联。ID可以是将用来标识包括在训练图像中的对象的信息，例如，将用来标识包括在训练图像中的用户的信息。属性可以是被配置为表达包括在训练图像中的对象的信息，可包括例如性别、年龄、种族、吸引力、面部表情、以及与包括在训练图像中的用户的脸部区域相应的情感。

训练器120可基于在训练图像中标记的多个元素训练识别器从训练图像中识别多个元素。与由一般的脸部识别方案训练的识别器不同，由训练器120训练的识别器可从输入图像识别多个元素。例如，由一般的脸部识别方案训练的识别器可能仅从输入图像中识别ID，而由训练器120训练的识别器可从输入图像中同时识别ID、性别、年龄、种族、吸引力、面部表情和情感。由训练器120训练的识别器可以是被配置为执行多个元素的多任务识别的单个识别器。

图2示出根据至少一些示例实施例的多任务训练。参照图2，训练器120可训练识别器130从脸部图像识别ID和属性。脸部图像可以是从训练图像提取的脸部区域的图像。训练器120可训练识别器130同时识别多个元素。因此，图2的训练器120的操作可被称为多任务训练。与训练设备100类似，这里描述的识别器和训练器可被实现为例如硬件、执行计算机可读代码的处理器、或以上提到的硬件和执行计算机可读代码的处理器的组合。在基于例如不同的光照、姿势、面部表情和各种视角之间的遮挡的特定情况下，同一用户的脸部(例如，同一用户脸部的两个不同的视角或照片)可能看起来不同。在这个示例中，即使不同视角均为同一用户的脸部的视角，从不同视角提取的特征之间也可形成不同的属性。相反地，在基于例如相似的光照、姿势、面部表情和各种视角之间的遮挡的特定情况下，不同用户的脸部(例如，两个不同用户的脸部的各自的两个视角或照片)可能看起来相似。在这个示例中，即使不同视角为不同用户的脸部的视角，从不同视角提取的特征之间也可形成相似的属性。

由训练器120训练的识别器可同时识别多个元素，因此提高识别准确度。例如，多个元素可包括中级属性(例如，眼睛颜色和鼻子形状)。中级属性可以对光照、姿势、面部表情和遮挡的改变具有鲁棒性。因此，识别器可通过共同学习ID和中级属性提高识别准确度。识别器还可通过共同学习ID和准确地区分不同用户的属性(例如，性别和发型)来提高识别准确度。

图3示出根据至少一些示例实施例的通过共同学习元素提高识别准确度的识别器的原理。参照图3，存在有各种脸部的分布可由多个高斯模型的混合310表示。多个高斯模型的混合310可按中级属性进行分类。与每个中级属性相应的脸部的分布可由多个高斯模型320表示。例如，多个高斯模型的混合310可被分类为h＝1(其中，性别对应为男性)的情况的高斯模型、h＝2(其中，性别对应为女性)的情况的高斯模型、h＝3(其中，种族对应为非洲人)的情况的高斯模型、h＝4(其中，种族对应为亚洲人)的情况的高斯模型、以及h＝5(其中，种族对应为白种人)的情况的高斯模型。

中级属性可比低级属性(例如，像素值)更稳定。因此，通过针对每个中级属性执行强化学习(intensivelearning)，可提高识别准确度。

图4示出根据至少一些示例实施例的多任务训练的原理。参照图4，训练器120可将脸部图像410输入至到目前为止训练的识别器420。例如，训练器120可从脸部图像410提取特征向量，并将提取的特征向量输入到识别器420中。

识别器420可基于输入值产生与多个元素相应的输出值。识别器420可包括人工神经网络(例如，深度卷积神经网络(DCNN))。稍后将参考图5详细描述DCNN。

人工神经网络可包括输入层、隐藏层和输出层。每个层可包括多个节点，相邻层之间的节点可基于连接权重彼此连接。每个节点可基于激活模型进行操作。与输入值相应的输出值可基于激活模型被确定。预定的或者期望的节点的输出值可被输入到与相应节点连接的下一层的节点中。下一层的节点可接收从多个节点输出的值。在将预定的或者期望的节点的输出值输入到下一层的节点的过程中，可应用连接权重。下一层的节点可基于激活模型将与输入值相应的输出值输出到与相应节点连接的下一层之下的层的节点。

输出层可包括与多个元素相应的节点。输出层的节点可输出与多个元素相应的特征值。如将在以下描述的，从人工神经网络输出的特征值可通过用于所述多个元素的线性分类器被转换为元素。训练器120可知道在脸部图像410中标记的实际元素。因此，训练器120可计算实际元素与通过识别器420预测的元素之间的损失(loss)430。

训练器120可通过使用反向传播更新识别器420以减少损失430。例如，训练器120可以沿反方向从识别器420中的人工神经网络的输出层经由隐藏层向输入层传播损失430。当损失430沿反方向被传播时，节点之间的连接权重可被更新以减少损失430。如上所述，训练器120可基于与多个元素相应的损失430来训练识别器420。更新后的识别器440可用于下一训练期(epoch)，并且以上描述的多任务训练操作可被迭代地执行，直至损失430少于预定的或者期望的阈值。

图5示出根据至少一些示例实施例的DCNN的示例。参照图5，根据至少一些示例实施例的DCNN可包括卷积层510、全连接层520、损失层530。卷积层510可对应于识别器的滤波模块，滤波模块被配置为对输入图像进行滤波。卷积层510可包括卷积滤波层、池化(pooling)层，或者它们的组合。例如，卷积层510可包括第一卷积滤波层、第一池化层、第二卷积滤波层、第二池化层、第三卷积滤波层、以及第三池化层。

在第一卷积滤波层中，卷积滤波可通过使用8×8大小的64个滤波器来执行。这64个滤波器中的每个可对预定的或者期望的边缘进行滤波。作为卷积滤波的结果，可产生与所述滤波器相应的64个滤波图像。第一卷积滤波层可包括包括在64个滤波图像中的节点。包括在第一卷积滤波层中的每个节点可接收从输入图像的8×8大小的区域过滤的值。修正线性单元(ReLU)可被用作包括在第一卷积滤波层中的每个节点的激活模型。ReLU可针对低于“0”的输入输出“0”，并针对超过或等于“0”的输入输出线性比例值。

在第一池化层中，可通过池化从64个滤波图像提取代表值。例如，在第一池化层中，当针对每个滤波图像将3×3大小的窗口滑动两格时，该窗口内的最大值可被提取。作为池化的结果，可产生与滤波图像相应的64个池化图像。第一池化层可包括包括在64个池化图像中的节点。包括在第一池化层中的每个节点可接收从相应的滤波图像的3×3大小的区域池化的值。如上所述，可从第一卷积滤波层和第一池化层提取输入图像的最基本特征。

在第二卷积滤波层中，卷积滤波可通过使用4×4大小的128个滤波器来执行。这128个滤波器中的每个可对预定的或者期望的边缘进行滤波。当与第一卷积滤波层的滤波器相比时，第二卷积滤波层的滤波器可对相对复杂的边缘进行滤波。作为卷积滤波的结果，可从池化图像产生128个滤波图像。第二卷积滤波层可包括包括在所述128个滤波图像中的节点。包括在第二卷积滤波层中的每个节点可接收从相应的池化图像的4×4大小的区域过滤的值。

在第二池化层中，可通过池化从128个滤波图像中提取代表值。例如，在第二池化层中，当针对每个滤波图像按两列滑动3×3大小的窗口时，该窗口中的最大值可被提取。作为池化的结果，可产生与滤波图像相应的128个池化图像。第二池化层可包括包括在128个池化图像中的节点。包括在第二池化层中的每个节点可接收从相应的滤波图像的3×3大小的区域池化的值。如上所述，可从第二卷积滤波层和第二池化层提取输入图像的中复杂度特征。

在第三卷积滤波层中，卷积滤波可通过使用3×3大小的196个滤波器来执行。这196个滤波器中的每个可对预定的或者期望的边缘进行滤波。当与第二卷积滤波层的滤波器相比时，第三卷积滤波层的滤波器可对相对复杂的边缘进行滤波。作为卷积滤波的结果，可从池化图像产生196个滤波图像。第三卷积滤波层可包括包括在这196个滤波图像中的节点。包括在第三卷积滤波层中的每个节点可接收从相应的池化图像的3×3大小的区域过滤的值。

在第三池化层中，可通过池化从196个滤波图像中提取代表值。例如，在第三池化层中，当针对每个滤波图像将3×3大小的窗口滑动两格时，该窗口内的平均值可被提取。作为池化的结果，可产生与滤波图像相应的196个池化图像。第三池化层可包括包括在196个池化图像中的节点。包括在第三池化层中的每个节点可接收从相应的滤波图像的3×3大小的区域池化的值。如上所述，可从第三卷积滤波层和第三池化层提取输入图像的复杂特征。

在卷积层510中，相邻层之间的节点可部分连接，它们之间可共享连接权重。相反地，在全连接层520中，相邻层之间的节点可全部连接，并各自地设置连接权重。全连接层520可对应于识别器的元素特征输出模块，元素特征输出模块被配置为基于识别器的滤波模块的输出来输出与多个元素相应的特征值。

全连接层520可包括多个层，并且每个层可包括2048个节点。此外，一种模型正则化算法“退出”(Dropout)可被应用于全连接层520。退出可表示用于从当前训练期随机放弃预定的或者期望的比例的节点(例如，50％节点)的算法。

损失层530可计算与多个元素相应的损失。损失层530可对应于识别器的线性分类模块，线性分类模块被配置为基于识别器的元素特征输出模块的输出识别多个元素。损失层530可包括与多个元素相应的多个线性分类器。损失层530可使用线性分类器从全连接层520的输出预测多个元素，并通过将预测的元素与实际元素进行比较来计算损失。

可通过使用反向传播将损失反向传播至全连接层520和卷积层510。基于被反向传播的损失，卷积层510和全连接层520内的连接权重可被更新。参考图5描述的层的配置、节点的数量、滤波器的尺寸、激活模型以及相关算法仅作为用于更好地理解的示例被提供。根据数据的类型和实现的目的可以对其做出各种修改。

图6示出根据至少一些示例实施例的多通道训练。参照图6，训练器120可从脸部图像产生特征图像。脸部图像可以是从训练图像提取的脸部区域的图像。特征图像可以是表现脸部图像的单个特征的图像，例如，与颜色相关联的红、绿蓝(RGB)图像、与皮肤概率相关联的皮肤图像、与轮廓相关联的边缘图像。训练器120可通过从脸部图像去除噪声(例如，影响颜色的光照成分)来产生RBG图像。训练器120可通过计算包括在脸部图像中的像素对应于皮肤的概率来产生皮肤图像。训练器120可使用已知算法产生皮肤图像。例如，训练器120可使用用于产生皮肤图像的确定性方法。确定性方法可通过使用针对来自输入图像的每个通道的每个像素值的预定皮肤颜色范围提取像素来检测皮肤颜色。作为另一示例，训练器120可使用用于产生皮肤图像的概率方法。概率方法可基于皮肤排他概率产生概率皮肤模型。概率皮肤模型被在线训练以分离出脸部的成分并从分离出的成分提取形状上下文。基于点之间的角度提取特征，以形成形状上下文。根据至少一些示例实施例，当使用概率皮肤模型时训练器120的提取特征的特征提取能力即使在旋转、缩放和变换的情况下仍然很强。

训练器120可通过计算脸部图像中的方向梯度大小产生边缘图像。

根据至少一些示例实施例，除RGB图像之外，或取代RGB图像，训练器120可产生包括例如YUV、YCbCr和HSV的其它类型的颜色通道图像。

训练器120可训练识别器130从特征图像识别ID和属性。训练器120可使用多个特征图像训练识别器130。所述多个特征图像的类型可以是不同的，并且表现不同的特征。因此，图6的训练器120的操作可被称为多通道训练。此外，训练器120可训练识别器130同时识别多个元素。因此，图6的训练器120的操作也可对应于多任务训练。

图7示出根据至少一些示例实施例的多通道训练的原理。参照图7，训练器120可从脸部图像710产生多个特征图像720。训练器120可从多个特征图像720提取每个图像的特征730。训练器120可将每个图像的特征730输入至到目前为止训练的识别器740中。

识别器740可基于输入值预测多个元素。识别器740可包括DCNN。DCNN可使用卷积层、全连接层和损失层预测多个元素。训练器120可知道在脸部图像710中标记的实际元素。因此，训练器120可计算通过识别器740预测的元素和实际元素之间的损失750。

训练器120可使用反向传播更新识别器740以减少损失750。例如，当损失750沿反方向传播时，训练器120可更新DCNN中的节点之间的连接权重以减少损失750。如上所述，训练器120可基于与多个元素相应的损失750训练识别器740。更新后的识别器760可用于下一训练期，并且以上描述的多通道训练操作可被迭代地执行，直至损失750少于预定的或者期望的阈值。

图8示出根据至少一些示例实施例的用于多通道训练的DCNN。参照图8，根据至少一些示例实施例的DCNN可学习多个通道作为单个统一架构。例如，每个通道的特征图像可在卷积层810中被独立学习，并且可在全连接层820中被共同地连接和学习。通过前述，针对具有不同特征的通道的卷积滤波器可在卷积层810中被分开学习，并且分开学习的特征可在全连接层820中被共同地连接和学习，其中，在全连接层820中，流形特征空间(manifoldfeaturespace)被充分地展开(unfold)。

图8的结构仅被提供作为示例。根据DCNN的结构和识别的目标，多个通道彼此连接的时间点可以改变，而不是被限制。

例如，参照图9，多个通道可在多个单个DCNN中被分别学习，并且可由等式1执行后期融合。

[等式1]

P (y = k | x) = \frac{1}{M} Σ_{m}^{M = 3} \frac{e^{x^{T} w_{k}}}{Σ_{k}^{K = 1888} e^{x^{T} e_{k}}}

在等式1中，M表示DCNN的数量，K表示与每个DCNN的类的数量相应的输出节点的数量，x表示输入数据，x^T表示输入数据x被转置的数据，y表示输出数据。P(y＝k|x)表示当将输入数据x输入时输出数据y等于k的概率。此外，m表示单个DCNN的索引，k表示相应DCNN的类，w_k表示到目前为止训练的DCNN的第k个类的权重。

图10示出根据至少一些示例实施例的多部件训练。参照图10，训练器120可从脸部图像提取多个部件图像。脸部图像可以是从训练图像提取的脸部区域的图像。部件图像可以是表现脸部图像中的单个组成元素的图像，并可包括例如眼部图像、鼻部图像和嘴部图像。

训练器120可训练识别器130识别脸部ID、脸部属性、和来自脸部图像的每个部件图像的属性、以及部件图像。脸部ID可以是用来标识用户的信息。脸部属性可与每个部件图像的属性不同。例如，脸部属性可包括性别、年龄、种族、吸引力和面部表情。眼睛属性可包括眼睛形状、眉毛形状和眼睛颜色。鼻子属性可包括鼻子形状，下巴/下颌属性可包括下巴/下颌形状，嘴部属性可包括嘴部形状。头发属性可包括发色和发型。

脸部属性和每个部件图像的属性可在训练图像中被一同标记。

训练器120可使用多个部件图像训练识别器130。所述多个部件图像可以是不同的，表示不同的部件。因此，图10的训练器120的操作可被称为多部件训练。此外，训练器120可训练识别器130同时识别多个元素。因此，图10的训练器120的操作也可对应于多任务训练。多部件训练对应于使用部件图像的通道增强，并因此也可被广义地看作是多通道训练。

图11示出根据至少一些示例实施例的用于多部件训练的DCNN。参照图11，多个部件可通过多个单个DCNN分别学习。通过等式1可对多个部件的输出执行后期融合。当在每个单独的DCNN中产生180维度的特征时，与其组合相应的1440维度的特征可用于识别。

图12示出根据至少一些示例实施例的多部件训练和多通道训练的结合。参照图12，训练器120可从脸部图像提取多个部件图像。训练器120可从每个部件图像以及脸部图像产生特征图像。训练器120可训练识别器130从由每个部件图像以及脸部图像产生的特征图像识别脸部ID、脸部属性和每个部件图像的属性。训练器120可通过使用多个部件训练识别器来提供仅使用部件(例如，眼睛或鼻子)识别脸部ID的技术。

在一个示例中，训练器120可通过随机地控制包括在DCNN的每层中的节点的激活模型在更多样的环境中训练识别器130。节点的激活模型可以指基于输入到该节点的值确定从该节点输出的值的模型。训练器120可使用随机分段线性(PWL)激活模型来随机控制DCNN中的节点的激活模型。图13示出根据至少一些示例实施例的PWL激活模型和一般确定性PWL激活模型之间的比较。

参照图13，一般确定性PWL激活模型1310可由等式2表达。在确定性PWL激活模型1310中，x轴表示输入值，y轴表示输出值。针对x轴的区分区域的输出值可使用不同的线性函数表达。

[等式2]

h_i(x)＝max_j∈[1，k]Z_ij

其中，Z_ij＝x^TW_...ij+b_ij

在等式2中，h_i(x)表示在第i区域的输出函数，k表示单个DCNN的索引，W_...ij和b_ij是分段线性函数z_ij的参数。在这里，W_...ij表示第i神经元的第j分段线性函数的训练权重，b_ij表示偏置项。

根据至少一些示例实施例的随机PWL激活模型1320可由等式3表达。在随机PWL激活模型1320中，x轴表示输入值，y轴表示输出值。

[等式3]

h_i(x)＝max_j∈[1，k]Z_ij

其中，Z_ij＝x^TW′_...ij+b_ij

W′_...ij＝W_...ij+N(0，σ(x))

在等式3中，N(0,σ(x))表示概率噪声，σ(x)表示x的标准方差。W_...ij表示第i神经元的第j分段线性函数的训练权重，b_ij表示偏置项。

与确定性PWL激活模型1310不同，随机PWL激活模型1320可向PWL函数加入随机噪声N。由于随机噪声N，当与确定性PWL激活模型1310被使用的情况相比较时，在随机PWL激活模型1320被使用的情况下识别器130可在更多样化的环境中被训练。因此，在以后的识别操作中，识别器130识别新数据的性能可提升。

图14是示出根据至少一些示例实施例的识别设备的框图。参照图14，根据至少一些示例实施例的识别设备1400可包括接收器1410和识别器1420。接收器1410可接收输入图像。与训练图像不同，输入图像可不包括标记的信息。识别器1420可使用预训练的识别器识别与接收的输入图像相关联的多个元素。预训练的识别器可对应于由图1的训练设备100训练的识别器。

识别设备1400可以是用于识别脸部的设备。例如，识别设备1400可接收包括脸部的输入图像，并使用预训练的识别器从接收的输入图像识别脸部ID和脸部属性。

与训练设备100类似，这里描述的识别设备(或它的元件)可由例如硬件、执行计算机可读代码的处理器、或者以上提到的硬件和执行计算机可读代码的处理器的组合实现。例如，接收器1410和识别器1420可被实施为软件模块、硬件模块、或它们的组合。可以以各种计算机装置和/或系统(例如，智能电话、平板计算机、膝上型计算机、台式计算机、电视、可穿戴装置、安全系统以及智能家居系统)提供识别设备1400。

图15A至图15D示出根据至少一些示例实施例的识别器的操作。参照图15A，识别器1420可从脸部图像识别ID和属性。脸部图像可以是从输入图像提取的脸部区域的图像。识别器1420可以是通过参考图2描述的多任务训练而训练的识别器。

参照图15B，识别器1420可从脸部图像产生多个特征图像。例如，识别器1420可从脸部图像产生RGB图像、皮肤图像和边缘图像。识别器1420可从多个特征图像识别ID和属性。识别器1420可以是通过参考图6描述的多通道训练而训练的识别器。

参照图15C，识别器1420可从脸部图像提取多个部件图像。例如，识别器1420可从脸部图像提取眼部图像、鼻部图像和嘴部图像。识别器1420可从脸部图像和多个部件图像识别ID和属性。在一些情况下，识别器1420还可识别部件图像的ID和属性。识别器1420可以是通过参考图10描述的多部件训练而训练的识别器。

参照图15D，识别器1420可从脸部图像提取多个部件图像。识别器1420可从每个部件图像和脸部图像产生特征图像。识别器1420可从由每个部件图像和脸部图像产生的特征图像识别ID和属性。在一些情况下，识别器1420还可识别部件图像的ID和属性。识别器1420可以是通过参考图12描述的多部件训练和多通道训练的组合而训练的识别器。

图16示出根据至少一些示例实施例的用户界面(UI)。参照图16，识别设备1400可从输入图像1610提取脸部区域1620。识别设备1400可使用预训练的识别器从脸部区域1620识别多个元素。UI1630可显示识别的多个元素。例如，多个元素可包括年龄、性别、种族、吸引力、面部表情和情感。UI1630可针对每个元素显示候选值和候选值的各个识别信度。UI1630可针对每个元素显示具有最高识别信度的候选值加以强调。图16的UI1630仅作为示例被提供，可对UI1630做出各种修改。

图17至图24示出根据至少一些示例实施例的脸部识别设备。参照图17，根据至少一些示例实施例的脸部识别设备可执行ID和相貌属性1770的多任务识别。脸部识别设备可包括脸部提取器1720、脸部部件分割器1730、多通道产生器1740和多任务识别器1760。脸部提取器1720可从输入图像1710提取脸部图像。脸部部件分割器1730可将脸部图像分割为多个部件图像。多通道产生器1740可将每个部件图像增强为多通道图像。多任务识别器1760可使用多训练的识别器从多通道图像执行ID和相貌属性1770的多任务识别。

脸部识别设备还可包括用于针对ID和相貌属性1770进行多任务训练的多任务训练器1750。多任务训练器1750可训练识别器执行从多通道图像的ID和相貌属性1770的多任务识别。

参照图18，脸部提取器1720可包括脸部检测器1721、突出标志(landmark)检测器1722和姿势归一化器1723。脸部检测器1721可在输入图像1710中检测脸部区域。突出标志检测器1722可在检测的脸部区域中检测突出标志。突出标志可以是呈现在显著的轮廓上的特征点(例如，眉毛、眼睛、鼻子和嘴)。姿势归一化器1723可使用突出标志沿预定的或期望的方向(例如，沿朝向前的方向)对图像的姿势进行归一化。

参照图19，脸部部件分割器1730可包括内脸部区域分割器1731、脸部成分分割器1732和外脸部区域分割器1733。内脸部区域分割器1731可从脸部图像划分出包括主要部件(例如，眼睛、鼻子和嘴)的内部区域。例如，参照图25，内脸部区域分割器1731可从脸部图像划分并提取与整个脸部相应的区域。脸部成分分割器1732可将内部区域分割为主要部件。例如，参照图25，脸部成分分割器1732可从与整个脸部相应的区域分割并提取与主要部件(例如，眼睛、鼻子、嘴、下巴/下颌、颧骨、人中)相应的区域。外脸部区域分割器1733可从脸部图像分割出外部区域(例如，头发)。例如，参照图25，外脸部区域分割器1733可从脸部图像分割并提取与头发相应的区域。

参照图20，多通道产生器1740可包括光照增加颜色通道单元1741、方向梯度大小通道单元1742、皮肤概率通道单元1743和局部二元模式通道单元1744。光照增强颜色通道单元1741可通过从脸部图像或部件图像去除光照噪声来产生颜色通道。方向梯度大小通道单元1742可通过计算脸部图像或部件图像中的方向梯度大小来产生边缘通道。皮肤概率通道单元1743可通过计算脸部图像或部件图像中的皮肤概率来产生皮肤通道。局部二元模式通道单元1744可通过从脸部图像或部件图像提取纹理模式或形状模式来产生模式通道。

参照图21，多任务训练器1750可包括模型参数初始化器1751、训练批次选择器1752、传播器1753、损失计算器1754和反向传播器1755。模型参数初始化器1751可将模型参数(例如，初始连接权重、偏置)进行初始化以训练DCNN。偏置可以是将用于确定包括在DCNN中的节点是否将被激活的阈值信息。训练批次选择器1752可选择用于训练的训练数据。训练数据可包括标记的信息(例如，ID和属性)和由多通道产生器1740产生的多通道数据。传播器1753可将训练数据输入到DCNN，DCNN可输出基于当前设置的模型参数计算的结果值。损失计算器1754可通过使用等式4来计算损失。

[等式4]

L(f_DCNN(x)，l_attr，l_ID)＝L_attr(f_DCNN(x)，l_attr)+λ×L_ID(f_DCNN(x)，l_ID)

在等式4中，x表示输入，f_DCNN(x)表示DCNN的输出，l_attr表示实际属性，l_ID表示实际ID，L_attr()表示用于获取属性损失的函数，L_ID()表示用于获取ID损失的函数，λ表示用于控制ID损失对属性损失的贡献率的系数，L()表示用于计算总损失的函数。

等式4的L_attr()，L_ID()和L()是损失函数的示例。根据至少一些示例实施例，例如，可根据等式5使用交叉熵作为损失函数，。

[等式5]

E = - \frac{1}{N} Σ_{n = 1}^{N} l_{n} \log {\hat{P}}_{n}

参照等式5，N表示小批次中的输入的数量(例如，在每次训练迭代使用的训练数据的数量)，l_n表示第n输入的标记，表示第n输入的预测概率。例如，ln(l_attr,l_ID)可以是针对每个训练图像的真实(groundtruth)标记，并且可以是响应于将训练图像输入到网络的估计概率。E是被输出为结果的损失值。

计算损失的方法并不限于等式4。只要保持使用相貌属性和ID这二者计算损失的技术想法，可对计算损失的方法做出各种修改。例如，根据目标，可使用铰链损失、平方损失、柔性最大损失、交叉熵损失、绝对损失和不敏感损失。

反向传播器1755可通过损失的反向传播更新DCNN的模型参数。在DCNN的模型参数被更新后，可迭代地执行训练批次选择器1752、传播器1753、损失计算器1754和反向传播器1755的操作，直至完成训练。

参照图22，DCNN可包括卷积滤波层2210、池化层2220、全连接层2230和随机PWL激活层2240。每层可根据目标被重复配置。在一个示例中，卷积滤波层2210的输出可被发送到池化层2220，池化层2220的输出可被发送到全连接层2230。在另一示例中，卷积滤波层2210的输出可经由随机PWL激活层2240被发送到池化层2220，池化层2220的输出可经由随机PWL激活层2240被发送到全连接层2230。层的前述配置仅作为示例被提供，可对层的配置做出各种修改。

参照图23，多任务识别器1760可包括传播器1761、ID分类器1762和属性分类器1763。传播器1761可将多通道数据正向传播到训练的识别器。ID分类器1762和属性分类器1763可使用从识别器输出的特征值将ID和属性分别分类。

参照图24，多任务识别器1760可包括传播器2410、ID分类器2420、属性分类器2430、特征产生器2440和验证器2450。多任务识别器1760可使用训练的识别器验证两个输入图像是否匹配。传播器2410可将这两个输入图像的多通道数据正向传播到训练的识别器。ID分类器2420和属性分类器2430可使用从识别器输出的特征值将这两个输入图像中的每个的ID和属性分别分类。

特征产生器2440可通过将ID分类器2420和属性分类器2430的输出进行组合来产生针对这两个输入图像中的每个的特征向量。验证器2450可计算产生的特征向量之间的相似距离。当计算的相似距离相对较短时，可确定真实性为真。相反地，当计算的相似距离相对较长时，可确定真实性为假。

在一些情况下，可使用特征产生器2440的输出训练单独的识别器(例如，支持向量机(SVM)、随机森林和联合贝叶斯网络)。在这个示例中，验证器2450可通过将特征产生器2440的输出应用于单独的预训练的识别器来执行验证。

图25至图30示出根据至少一些示例实施例的属性。参照图25，可针对脸部的每个部件设置不同的属性。参照图26至图30，每个属性可以以至少一维来表示，并可用于训练上述的DCNN。

至少一些示例实施例可通过基于相貌将脸部分割为内脸部、眼睛、鼻子、耳朵、嘴、以及外脸部并识别每个部件的属性来提供有利于脸部识别的技术。至少一些示例实施例可提供根据基于训练的特征(而非手动生成的特征)进行最优识别实际图像(而非训练数据)的技术。至少一些示例实施例可提供使用单个识别器基于与中级特征相应的相貌执行脸部属性的多任务识别和脸部识别的技术。

至少一些示例实施例可在训练脸部识别器时通过考虑脸部属性提高识别性能，并且同时提高识别准确度。至少一些示例实施例可通过使用多个随机线性函数的组合作为激活函数来针对实际数据提高识别性能。

至少一些示例实施例可通过不使用手动生成的特征来归纳特征。因此，以能够执行专为实际图像而不是训练数据的识别的形式提供技术优势。此外，至少一些示例实施例通过不使用手动生成的特征而可在训练过程期间不需要特征的最佳组合。结果，至少一些示例实施例与现有图像识别技术相比提供降低的复杂度。此外，使用手动特征的现有图像识别方法可能更适合搜索图像而不是识别脸部。另一方面，至少一些示例实施例提供与现有图像识别方法相比更适合识别脸部的图像识别方法。此外，至少一些现有图像识别方法受一定数量的训练数据的限制。例如，至少一些现有方法使用大约100000元素的训练数据或更少执行训练。另一方面，至少一些示例实施例能够使用多于100000000个元素的训练数据执行训练。此外，至少一些现有图像识别方法不能通用于解决图像识别的各种问题。一些现有图像识别方法被限于使用特定的特征解决特定的图像识别问题。例如，局部二元模式(LBP)可以是用于脸部识别的期望特征，而方向梯度直方图(HoG)或尺度不变特征变换(SIFT)可以是用于对象识别的期望特征。另一方面，至少一些示例实施例能够提供通过使用例如一个或多个DCNN来深度学习特征表示而通用于解决图像识别(例如，ID识别和属性识别)的多重、各种问题的技术优势。

可使用硬件组件和软件组件来实现这里所描述的单元和/或模块。例如，硬件组件可包括麦克风、放大器、带通滤波器、音频数字转换器和处理装置。可使用一个或多个被配置为通过执行算数、逻辑和输入/输出操作来运行和/或执行程序代码的硬件装置来实现处理装置。处理装置可包括处理器、控制器和算术逻辑单元、数字信号处理器、微型计算机、现场可编程阵列、可编程逻辑单元、微型处理器或能够以限定的方式响应并执行指令的任何其它装置。处理装置可运行操作系统(OS)和运行在OS上的一个或多个软件应用。处理装置也可响应于软件的执行来访问、存储、操控、处理和创建数据。为了简单起见，使用单数来描述处理装置。然而，本领域技术人员将理解：处理装置可包括多个处理元件和多种类型的处理元件。例如，处理装置可包括多个处理器或一个处理器以及一个控制器。此外，可具有不同的处理配置(诸如，并行处理器)。

软件可包括用于独立地或共同地指示和/或配置处理装置以如所期望的一样操作的计算机程序、一段代码、指令或它们的组合，从而使处理装置转变为专用处理器。软件和数据可在任何类型的机器、组件、物理的或虚拟的设备、计算机存储介质或装置中、或能够将指令或数据提供给处理装置或由处理装置解释的传播信号波中永久地或临时地被实施。软件也可被分布在联网的计算机系统上，使得软件按照分布方式被存储并被执行。软件和数据可由一个或多个非暂时性计算机可读记录介质进行存储。

根据上述示例实施例的方法可被记录在包括程序指令以执行上述示例实施例的各种操作的非暂时性计算机可读介质中。所述介质还可包括单独的或与所述程序指令结合的数据文件、数据结构等。根据至少一些示例实施例，在所述介质上记录的程序指令可以是针对示例实施例的目的而专门设计和构建的那些程序指令。非暂时性计算机可读介质的示例包括磁介质(诸如硬盘、软盘和磁带)、光学介质(诸如CDROM盘、DVD和/或蓝光盘)、磁光介质(诸如光盘)和专门被配置为存储并执行程序指令的硬件装置(诸如只读存储器(ROM)、随机存取存储器(RAM)、闪存(例如，USB闪存驱动器、存储卡、记忆棒)等)。程序指令的示例包括机器代码(诸如由编译器产生的机器代码)和包含可由计算机使用解释器来执行的更高级代码的文件两者。上述装置可被配置为充当一个或多个软件模块以便执行上述示例实施例的操作，或者反之亦然。根据至少一个示例实施例，一个或多个软件模块可被存储在存储器上，并且由例如与存储器连接的一个或多个处理器执行，以使一个或多个处理器执行以上提到的示例实施例的一个、一些或全部的操作。

本发明构思的示例实施例已经如此被描述，显然，可以许多方式改变本发明构思的示例实施例。这些改变不应被视为脱离本发明构思的示例实施例所意图的精神和范围，并且所有这种对于本领域技术人员将是明显的修改意图被包括在权利要求的范围内。

Claims

1.一种识别方法，包括：

接收输入图像；

使用被预训练为同时识别多个元素的单个识别器识别与输入图像相关联的多个元素。

2.如权利要求1所述的识别方法，其中，所述多个元素包括：

标识ID，标识输入图像；

至少一个属性，与输入图像相关联。

3.如权利要求2所述的识别方法，其中，ID标识包括在输入图像中的至少一个对象。

4.如权利要求2所述的识别方法，其中，所述至少一个属性包括以下至少一项：

与包括在输入图像中的脸部区域相应的性别；

与所述脸部区域相应的年龄；

与所述脸部区域相应的种族；

与所述脸部区域相应的吸引力；

与所述脸部区域相应的面部表情；

与所述脸部区域相应的情感。

5.如权利要求4所述的识别方法，其中，所述至少一个属性包括所述性别、所述年龄、所述种族、所述吸引力、所述面部表情和所述情感中的至少两个不同的属性。

6.如权利要求1所述的识别方法，其中，所述识别器包括神经网络,

所述识别的步骤包括：基于包括在神经网络中的节点之间的预学习的权重来计算与所述多个元素对应的特征值。

7.如权利要求1所述的识别方法，其中，所述识别的步骤包括：基于输入图像产生多个特征图像。

8.如权利要求7所述的识别方法，其中，所述多个特征图像包括以下至少一项：

去除光照噪声的颜色通道图像；

方向梯度大小通道图像；

皮肤概率通道图像；

局部二元模式通道图像。

9.如权利要求7所述的识别方法，其中，所述识别的步骤包括：

对所述多个特征图像进行滤波；

基于所述滤波的输出来输出与所述多个元素相应的特征值。

10.如权利要求9所述的识别方法，其中，所述识别的步骤还包括：

基于所述特征值识别所述多个元素。

11.如权利要求1所述的识别方法，其中，所述识别的步骤包括：

获取与包括在训练图像中的脸部的部件相应的多个部件图像；

产生与所述多个部件图像中的每个相应的多个特征图像。

12.如权利要求11所述的识别方法，其中，所述识别的步骤包括：

基于多个部件识别处理的输出来输出与所述多个元素相应的特征值，

其中，所述多个部件识别处理中的每个包括：

对相应的部件图像的特征图像进行滤波；

基于所述滤波的输出来输出与与相应的部件图像相关联的元素相应的特征值。

13.如权利要求12所述的识别方法，其中，所述识别的步骤还包括：

基于所述特征值识别所述多个元素。

14.如权利要求1所述的识别方法，还包括：

将所述多个元素和多个与参考图像相关联的元素进行比较；

基于比较的结果确定输入图像是否与参考图像匹配。

15.如权利要求14所述的识别方法，其中，所述比较的步骤包括：

基于所述多个元素产生特征向量；

将所述特征向量与参考图像的参考向量进行比较。

16.一种训练识别器的方法，所述方法包括：

接收训练图像；

基于训练图像和在训练图像中标记的多个元素，训练被配置为从输入图像识别多个元素的识别器。

17.如权利要求16所述的方法，其中，所述多个元素包括：

标识ID，标识训练图像；

至少一个属性，与训练图像相关联。

18.如权利要求17所述的方法，其中，ID包括标识包括在训练图像中的至少一个对象的信息。

19.如权利要求17所述的方法，其中，所述至少一个属性包括以下至少一项：

与包括在训练图像中的脸部区域相应的性别；

与所述脸部区域相应的年龄；

与所述脸部区域相应的种族；

与所述脸部区域相应的吸引力；

与所述脸部区域相应的面部表情；

与所述脸部区域相应的情感。

20.如权利要求19所述的方法，其中，所述至少一个属性包括所述性别、所述年龄、所述种族、所述吸引力、所述面部表情和所述情感中的至少两个不同的属性。

21.如权利要求16所述的方法，其中，所述训练的步骤包括：计算与所述多个元素相应的损失。

22.如权利要求21所述的方法，其中，所述识别器包括神经网络，

所述训练的步骤包括：基于所述损失来训练识别器学习包括在神经网络中的节点之间的权重。

23.如权利要求16所述的方法，其中，所述识别器包括神经网络，

所述训练的步骤包括：基于随机分段线性(PWL)模型激活包括在神经网络中的节点。

24.如权利要求16所述的方法，其中，所述训练的步骤包括：基于训练图像产生多个特征图像。

25.如权利要求24所述的方法，其中，所述多个特征图像包括以下至少一项：

去除光照噪声的颜色通道图像；

方向梯度大小通道图像；

皮肤概率通道图像；

局部二元模式通道图像。

26.如权利要求24所述的方法，其中，所述训练的步骤包括：

训练识别器对所述多个特征图像进行滤波；

基于对所述多个特征图像进行滤波的输出来训练识别器输出与所述多个元素相应的特征值。

27.如权利要求26所述的方法，其中，所述训练的步骤还包括：

基于输出的特征值来训练识别器识别所述多个元素。

28.如权利要求16所述的方法，其中，所述训练的步骤包括：

获取与包括在训练图像中的脸部的部件相应的多个部件图像。

29.如权利要求28所述的方法，其中，不同元素在所述多个部件图像中被标记。

30.如权利要求28所述的方法，其中，所述训练的步骤还包括：

产生与所述多个部件图像中的每个相应的多个特征图像。

31.如权利要求30所述的方法，其中，所述训练的步骤包括：

基于与所述多个部件图像相应的多个部件识别处理的输出来训练识别器输出与所述多个元素相应的特征值；

所述多个部件识别处理中的每个包括：

训练识别器对相应的部件图像的特征图像进行滤波；

基于所述滤波的输出来训练识别器输出与与相应的部件图像相关联的元素相应的特征值。

32.如权利要求31所述的方法，其中，所述训练的步骤还包括：

基于输出的特征值来训练识别器识别所述多个元素。

33.一种识别设备，包括：

存储器，存储指令；

一个或多个处理器，被配置为执行指令以使所述一个或多个处理器被配置为：

接收输入图像；

使用预训练的单个识别器识别与输入图像相关联的多个元素。

34.一种用于训练识别器的设备，所述设备包括：

存储器，存储指令；

接收训练图像；

基于训练图像和在训练图像中标记的多个元素来训练被配置为从输入图像识别多个元素的识别器。