CN107038405A

CN107038405A - 识别对象的方法和设备以及训练识别模型的方法和设备

Info

Publication number: CN107038405A
Application number: CN201611009586.3A
Authority: CN
Inventors: 俞炳仁; 郭荣竣; 金亭培; 李宣旼; 韩承周; 韩在濬; 黃元俊
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2015-11-16
Filing date: 2016-11-16
Publication date: 2017-08-11
Anticipated expiration: 2036-11-16
Also published as: US11544497B2; EP3168781A1; CN107038405B; US20170140247A1; US10860887B2; US20210073582A1

Abstract

公开一种识别对象的方法和设备以及训练识别模型的方法和设备。所述设备可使用单个识别模型从输入图像提取多个特征，并基于提取的所述多个特征在输入图像中识别对象。单个识别模型可包括：至少一个压缩层，被配置为对输入信息进行压缩；至少一个解压缩层，被配置为对压缩的信息进行解压缩，以确定所述多个特征。

Description

识别对象的方法和设备以及训练识别模型的方法和设备

本申请要求于2015年11月16日提交到韩国知识产权局的第10-2015-0160481号韩国专利申请以及于2016年7月5日提交到韩国知识产权局的第10-2016-0084932号韩国专利申请的优先权，所述韩国专利申请中的每一申请的全部内容通过整体引用包含于此。

技术领域

至少一个示例实施例涉及用于识别对象的方法和/或设备以及用于训练识别模型的方法和/或设备。

背景技术

基于使用数学表达式模仿人类神经元的生物学特性的人工神经网络来设计可使用用户的脸部或指纹执行用户认证的识别模型。人工神经网络可被用于输出与输入信息的输入图案对应的识别结果，并且响应于不用于训练的输入图案，人工神经网络被配置为：通过训练生成输入图案与输出图案之间的映射，并基于训练的结果生成相对正确的输出值。

发明内容

至少一个示例实施例涉及识别对象的方法。

在至少一个示例实施例中，所述方法可包括：使用单个识别模型从输入图像提取多个特征；基于提取的所述多个特征在输入图像中识别对象。

单个识别模型可包括：至少一个压缩层，被配置为对输入图像的输入信息进行压缩；至少一个解压缩层，被配置为对压缩的信息进行解压缩，以确定所述多个特征。

提取所述多个特征的步骤可包括：在输入图像中确定多个区域；将关于所述多个区域的信息输入到单个识别模型；基于输入信息使用单个识别模型来确定所述多个区域的各自的特征。

单个识别模型可包括：单个输入层；多个输出层，被配置为输出提取的所述多个特征。

所述方法还包括：在单个输入层接收关于输入图像的信息。

接收的步骤在单个输入层接收关于输入图像中的多个区域的信息。

单个识别模型可包括：多个输入层；多个输出层，被配置为输出提取的所述多个特征。

所述方法还包括：在所述多个输入层接收关于输入图像中的多个区域的信息。

提取的步骤包括：在单个识别模型的第一压缩层对所述多个区域之中的相关联的区域的信息进行压缩；基于从第一压缩层传递的信息对关于所述多个区域的整体的信息进行压缩。

识别对象的步骤可包括：使用单个识别模型，确定所述多个区域之中的当前区域中的遮挡的存在的概率；将权重施加到当前区域的特征，所述权重基于确定的概率。

至少一个示例实施例涉及用于识别对象的设备。

在至少一个示例实施例中，所述设备可包括：存储器，存储计算机可执行的指令；至少一个处理器，被配置为执行指令，使得处理器可使用单个识别模型从输入图像提取多个特征，并且基于提取的所述多个特征在输入图像中识别对象。

示例实施例的额外的方面将在下面的描述中部分阐述，并且部分从该描述将是清楚的，或者可通过公开的实践而获知。

附图说明

从下面的结合附图的示例实施例的描述，这些和/或其他方面将变得清楚并且更容易理解，其中：

图1是示出根据至少一个示例实施例的识别对象的方法的流程图；

图2是示出根据至少一个示例实施例的从输入图像提取多个特征的处理的流程图；

图3A至图6C是示出根据至少一个示例实施例的单个识别模型的架构的示例的示图；

图7是示出根据至少一个示例实施例的在存在遮挡的情况下使用单个识别模型确定特征的处理的示图；

图8是示出根据至少一个示例实施例的用于识别对象的设备的配置的示图；

图9是示出根据至少一个示例实施例的训练识别模型的方法的流程图；

图10是示出根据至少一个示例实施例的使用指导特征(guide feature)训练单个识别模型的处理的示图；

图11是示出根据至少一个示例实施例的针对遮挡属性训练单个识别模型的处理的示图；

图12是示出根据至少一个示例实施例的训练设备的配置的示图；

图13示出根据至少一个示例实施例的用于在设置视听内容的系统中识别对象的设备；

图14示出根据至少一个示例实施例的用于在执行停车的系统中识别对象的设备；

图15是根据至少一个示例实施例的包括用于识别对象的设备的认证系统的示图；

图16示出根据至少一个示例实施例的用户服务系统的示图。

具体实施方式

在下文中，将参照附图详细描述一些示例实施例。关于在附图中为元件分配的参考标号，应该注意：在任何可行的情况下，即使相同的元件在不同的附图中被示出，它们也将通过相同的参考标号来指示。此外，在实施例的描述中，当认为公知的相关结构或功能的详细描述将导致本公开的说明模糊时，将省略公知的相关结构或功能的详细描述。

然而，应理解，不意在将本公开限制于所公开的具体示例实施例。相反地，示例实施例将涵盖落入示例实施例的范围内的所有修改、等同物和替代物。贯穿附图的描述，相同的标号表示相同的元件。

在此使用的术语仅为了描述具体实施例的目的，不意在限制。除非上下文另外明确地指示，否则如在此使用的单数形式也意在包括复数形式。还将理解，当在此使用术语“包括”和/或“包含”时，表明存在所叙述的特征、整体、步骤、操作、元件和/或组件，但是不排除存在或添加一个或多个其他的特征、整体、步骤、操作、元件、组件和/或它们的组。

此外，在此可使用诸如第一、第二、A、B、(a)、(b)等的术语来描述组件。这些术语中的每个术语不用于限定相应组件的本质、顺序或次序，而仅用于将相应组件与其他组件进行区分。应该注意，如果在说明书描述了一个组件“连接”、“结合”或“接合”至第二组件，则虽然第一组件可直接地连接、结合或接合至第二组件，但第三组件可“连接”、“结合”或“接合”在第一组件和第二组件之间。

还应注意，在一些可选的实现中，提出的功能/动作可不按附图中指出的顺序发生。例如，连续示出的两个图可实际上基本同时被执行或有时可以以相反的顺序被执行，这取决于所涉及的功能/动作。

现在将参照示出一些示例实施例的附图更全面地描述各种示例实施例。在附图中，为了清楚，夸大层和区域的厚度。

除非另外定义，否则在此使用的所有术语(包括技术术语和科学术语)具有与示例实施例所属领域的普通技术人员通常理解的含义相同的含义。还将理解，除非在此明确地定义，否则，例如在通用字典中定义的术语应被解释为具有与在相关领域的上下文中的含义一致的含义，而将不被解释为理想化或过于形式化的含义。

根据对计算机存储器内的数据位的操作的软件或者算法以及符号表示来呈现示例实施例中的部分和相应的详细描述。通过这些描述和表示，本领域普通技术人员将他们工作的实质有效地传达给本领域的其他普通技术人员的描述和表示。如在此使用的并且普遍使用的术语一样，算法被构思为导致期望的结果的自相一致的一系列步骤。这些步骤是需要物理量的物理操作的步骤。通常(尽管不是必须地)，这些物理量采用能够被存储、传递、组合、比较和其他操作的光学、电子或磁信号的形式。

在下面的描述中，将参照操作的动作和符号表示(例如，以流程图的形式)，来描述说明性实施例，其中，操作可被实现为包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等的程序模块或功能处理，并且可使用现有的硬件来实现该操作。

除非另外特别说明，否则如通过本讨论而清楚的，诸如“处理”或“运算”或“计算”或“确定”或“显示”等的术语表示计算机系统或类似的电子计算装置的动作和处理，其中，所述动作和处理操纵被表示为计算机系统的寄存器和存储器内的物理量、电子量的数据，并将该数据转换为被类似地表示为计算机系统存储器或寄存器他这样的信息存储、传输或显示装置内的物理量的其他数据。

还应注意，软件实现的示例实施例的方面可被编码于一些形式的非暂时性计算机可读介质(例如，易失性存储器或非易失性存储器)上。

将在下文中描述的一个或多个示例实施例可应用于从输入图像识别对象。示例实施例可应用于使用单个识别模型替代多个识别模型(例如，识别器或分类器)从输入图像提取多个特征，并基于提取的特征来识别对象。识别可包括(例如)用户的脸部的识别、来自图像的场景和来自指纹图像的用户的指纹的识别。

识别可包括通过识别对象来验证对象或标识对象(例如，认证)。验证可包括确定识别的对象是否为注册的对象，标识可包括确定识别的对象对应于注册的对象之中的哪个。

在下文中，将参照附图详细描述一个或多个示例实施例。附图中相同的参考标号表示相同的元件，在此将省略已知的功能或配置。

图1是示出根据至少一个示例实施例的识别对象的方法的流程图。识别对象的方法可由用于识别对象的设备来执行，其中，识别对象的方法在下文中被称为对象识别方法，用于识别对象的设备在下文中被称为对象识别设备。

参照图1，在操作110中，对象识别设备使用单个识别模型从输入图像提取多个特征。例如，对象识别设备可从包括用户的脸部的脸部图像提取与用户的脸部相关联的多个特征(或者可互换地被称为多特征)，或者从包括用户的指纹信息的指纹图像提取与用户的指纹相关联的多特征。

单个识别模型可(例如)基于包括多个层的深度神经网络。深度神经网络中的每一层可包括基于数学模型的人工神经元，并且每一人工神经元可连接到另一人工神经元。单个识别模型可基于来自人工神经元的处理结果从输入信息提取多特征。基于单个识别模型的输入结构，对象识别设备可将关于包括在输入图像中的一个区域的信息输入到单个识别模型，或者将关于包括在输入图像中的多个区域的信息输入到单个识别模型。单个识别模型可从输入信息(例如，整个脸部区域的片区域(patch area)、放大的片区域和鼻子片区域)提取多个特征。将参照图3A至图6C提供单个识别模型的功能和架构的详细描述。

可基于训练图像预先训练单个识别模型。将参照图9至图12提供单个识别模型的训练的详细描述。

在操作120中，对象识别设备基于在操作110中提取的特征来识别对象。对象识别设备可识别用户的脸部或指纹，或者输入图像中的场景，但是可由对象识别设备识别的对象不限于前述的示例。

对象识别设备可基于从单个识别模型输出的多特征，来确定包括在输入图像中的对象是否是注册的对象，或者哪个注册的对象对应于输入图像中的对象。对象识别设备可基于提取的特征来确定包括在输入图像中的对象与每一注册的对象之间的相似度，并基于确定的相似度来确定对象的识别是成功还是不成功。

图2是示出根据至少一个示例实施例的从输入图像提取多个特征的处理的流程图。参照图2，在操作210中，对象识别设备在输入图像中确定多个区域。例如，当输入图像是脸部图像时，对象识别设备可在脸部图像中确定整个脸部区域的片区域，以及通过放大脸部区域的某一区域获得的放大的片区域(例如，放大的鼻子片区域)。确定的区域可在输入图像中彼此重叠。

在操作220中，对象识别设备使用单个识别模型来确定每个区域的特征。对象识别设备可将关于在操作210中确定的区域的信息输入到单个识别模型，并且从单个识别模型提取与每个区域对应的特征。

图3A至图6C是示出根据至少一个示例实施例的单个识别模型的架构的示例的示图。

参照图3A，以单个输入和多特征输出的结构来实现单个识别模型320。单个识别模型320接收关于输入图像310的信息或关于输入图像310中的一个区域的信息，并输出多个特征370。在此使用的输入图像310被假设为脸部图像。尽管关于输入图像310中的一个区域的信息被输入到单个识别模型320，但是单个识别模型320还可输出除了该一个区域的特征以外的另一区域的特征。

可以以多个层被连接的结构来实现单个识别模型320，每一层可包括多个人工神经元。例如，单个识别模型320可以以硬件、被配置为执行软件的处理器、固件或它们的任意组合来实现。当单个识别模型320为硬件时，这样的现有硬件可包括：被配置为用于执行单个识别模型320的功能的专用机器的一个或多个中央处理器(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)计算机等。CPU、DSP、ASIC和FPGA可被统称为处理装置。

当单个识别模型320是执行软件的处理器时，处理器被配置为用于执行在存储介质(例如，存储器)中存储的软件的专用机器，以执行单个识别模型320的功能。在这样一个实施例中，处理器可包括一个或多个中央处理器(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)计算机。

如在图3A中所示，单个识别模型320包括：被配置为接收关于输入图像310的信息或关于输入图像310中的一个区域的信息的单个输入层330、被配置为将基于从单个输入层330传递的信息所计算的输出值传递到多个第二中间层350的第一中间层340，被配置为基于第一中间层340的输出值实现将被输出的特征的第二中间层350，被配置为输出基于第二中间层350的输出值确定的特征370的多个输出层360。这里，术语“中间层”还可被称为隐藏层。

参照图3B，以多输入和多特征输出的结构来实现单个识别模型320。对象识别设备在输入图像310中确定多个区域315，并使用单个识别模型320从关于多个区域315的信息来提取多个特征370。例如，可在输入图像310中确定多个片区域，并且可将关于片区域的信息输入到单个识别模型320的单个输入层330。单个识别模型320可提取与多个区域315分别对应的特征370，并且对象识别设备可基于提取的特征370使用参数(诸如，提取的特征与注册的特征之间的相似度和/或距离)来识别对象。例如，当关于鼻子区域、放大区域和整个区域的信息被输入到单个识别模型320时，将从单个识别模型320输出的特征370可包括：鼻子区域的特征、放大区域的特征和整个区域的特征。

参照图3C，包括用户的指纹信息的指纹图像380被输入到单个识别模型320。指纹图像380可为与用户的整个指纹的一部分对应的局部图像。对象识别设备可在指纹图像380中确定多个区域390，并将关于确定的多个区域390的信息输入到单个识别模型320。多个区域390可通过块区域单元(block area unit)来确定。单个识别模型320可基于与输入的多个区域390相关联的指纹信息，来提取与指纹信息相关联的多个特征370。

参照图4，以多输入和多特征输出的结构来实现单个识别模型420。对象识别设备在输入图像410中确定多个区域415，并且关于确定的多个区域415的信息被输入到单个识别模型420。对象识别设备使用单个识别模型420来确定多个区域415的各自的特征480。

单个识别模型420包括：将输入关于多个区域415的信息的多个输入层430、被配置为对从输入层430输出的信息进行压缩的多个压缩层440、被配置为将基于从压缩层440输出的信息所计算的结果值传递到多个解压缩层460的中间层450、解压缩层460、以及多个输出层470。解压缩层460被配置为对从中间层450输出的信息进行解压缩，以确定多个区域415的各自的特征，多个输出层470被配置为输出基于从解压缩层460传递的信息所确定的特征480。在压缩层440中，可对多个区域415之中的相关联的区域的信息进行压缩。在中间层450中，可基于从压缩层440传递的信息对关于多个区域415的整体的信息进行压缩，并且可对各个特征发起解压缩。

参照图5，单个识别模型520包括：被配置为接收关于输入图像510的信息或关于输入图像510中的至少一个区域的信息的输入层530、被配置为对从输入层530传递的信息进行压缩并输出压缩的信息的多个压缩层540、被配置为将基于从压缩层540输出的信息所计算的结果值传递到多个解压缩层560的中间层550、解压缩层560、以及多个输出层570。解压缩层560被配置为对从中间层550输出的信息进行解压缩以确定特征，多个输出层570被配置为输出基于从解压缩层560输出的信息所确定的多个特征580。

参照图6A，对象识别设备将关于在输入图像610中确定的多个区域615的信息输入到单个识别模型620，并使用单个识别模型620来确定多个区域615的各自的特征630。单个识别模型620包括：用于从关于多个区域615的信息确定特征630的多个层625，多个层625中的每一层被连接到上一层。多个层625之间的连接可被相对密集地实现为图6A中所示的单个识别模型620，或者被相对稀疏地实现为图6B中所示的单个识别模型640。

参照图6C，单个识别模型650包括：被配置为接收关于在输入图像610中确定的多个区域615的信息的输入层660、被配置为将基于从输入层660传递的信息所计算的结果值输出到多个第二中间层670的第一中间层665、被配置为将基于第一中间层665的输出所计算的结果值输出到多个第三中间层675的第二中间层670、被配置为将基于第二中间层670的输出所计算的结果值传递到多个输出层680的第三中间层675、以及被配置为输出基于第三中间层675的输出所确定的多个特征690的输出层680。

上面参照图3A至图6C描述了单个识别模型的示例结构。然而，单个识别模型不限于图3A至图6C中示出的示例结构，因此可做出各种改变和修改。例如，包括在单个识别模型中的层之间的连接以及层的数量不限于图3A至图6C中示出的示例，因此可做出各种改变和修改。

当使用多个独立的识别模型来提取多个特征时，计算量或操作量以及将被消耗的资源的量可能增加，因此可能降低识别速度。然而，当使用如上所述的单个识别模型时，与从独立的识别模型获得的特征相似的多个特征可被获得，计算量或操作量以及将被消耗的资源的量可在不降低识别率的情况下被减小，因此可提高识别速度。

图7是示出根据至少一个示例实施例的在存在遮挡的情况下使用单个识别模型确定特征的处理的示图。

对象识别设备可在输入图像中识别遮挡(例如，太阳眼镜和面具)，并且对这样的遮挡具有鲁棒性地识别对象。参照图7，假设关于输入图像中的第一区域710的信息和关于输入图像中的包括遮挡(例如，太阳眼镜)的第二区域720的信息被输入到单个识别模型730。当关于第一区域710的信息和关于第二区域720的信息被输入到单个识别模型730时，可从单个识别模型730输出第一区域710的特征F₁和第二区域720的特征F₂，还可从单个识别模型730输出第二区域720中的遮挡存在的概率P₂(例如，大小)。这里，概率P₂可为0与1之间的值。

对象识别设备可基于从单个识别模型730输出的概率P₂来确定权重或权重值，并可将确定的权重施加到特征F₁和特征F₂。例如，对象识别设备可将概率P₂的权重施加到特征F₁，将(1-P₂)的权重施加到特征F₂。当概率P₂增加时，存在遮挡的第二区域720的特征F₂对整个特征F的影响可相对降低。相反，不存在遮挡的第一区域710的特征F₁的影响可相对增加。通过如上所述的这样的处理，尽管包括遮挡的输入图像被输入，但是对象识别设备也可对遮挡具有鲁棒性地识别对象。

根据另一示例实施例，对象识别设备可生成与输入图像相关联的遮挡图，并使用生成的遮挡图来确定输入图像中的不存在遮挡的区域。对象识别设备可将关于不存在遮挡的区域的信息输入到单个识别模型730，以提取特征。

图8是示出根据至少一个示例实施例的对象识别设备800的配置的示图。

参照图8，对象识别设备800包括：处理器810和存储器820。例如，对象识别设备800可被设置在智能电话、智能电视(TV)、台式计算机、膝上型计算机、平板个人计算机(PC)、可穿戴装置、智能车辆、安全系统、智能家庭系统和智能家电中。

处理器810可执行参照图1至图7描述的一个或多个操作。例如，处理器810可使用单个识别模型830从输入图像提取多特征，并通过执行在存储器820中存储的计算机可读指令，基于提取的多特征在输入图像中识别对象。处理器810可通过输出接口(未示出)(例如，显示器和扬声器)来输出识别结果。处理器810可被实现为逻辑门阵列，但是处理器810不限于此，并可以以另一形式的硬件来实现。

存储器820可存储用于执行参照图1至图7描述的一个或多个操作的指令，并存储在对象识别设备800的操作期间获得的数据和结果。根据至少一个示例实施例，存储器820可包括：非暂时性计算机可读介质(例如，高速随机存取存储器)和/或非易失性计算机可读记录介质(例如，至少一个磁盘装置和闪存装置)或其他非易失性固态存储装置。

图9是示出根据至少一个示例实施例的训练单个识别模型的方法的流程图。

参照图9，在操作910中，训练设备使用多个单独的识别模型从训练图像提取多个特征。训练设备可输入关于训练图像的信息或关于在训练图像中确定的多个区域的信息，以获得特征。训练图像可包括例如包括用户的脸部的脸部图像或包括用户的指纹信息的指纹图像。多个训练图像可被提供作为训练图像。在这样的情况下，训练图像可包括例如包括不同用户的脸部的多个脸部图像和包括不同用户的多条指纹信息的多个指纹图像。

在操作920中，训练设备基于在操作910中提取的特征来训练单个识别模型。训练设备可将分别从单独的识别模型输出的特征确定为用于训练单个识别模型的指导特征(guide features)，并基于指导特征训练单个识别模型。通过训练，将被应用于单个识别模型的参数可被更新。训练设备可更新单个识别模型的参数，以最小化从单个识别模型输出的特征与从单独的识别模型确定的指导特征之间的差异。通过反复的训练处理，将从单个识别模型输出的特征可变得相似于使用单独的识别模型提取的特征。

将参照图10更详细地描述通过训练设备训练单个识别模型的处理。

图10是示出根据至少一个示例实施例的使用指导特征训练单个识别模型的处理的示图。

参照图10，在阶段1010中，训练设备针对在训练图像中确定的多个区域中的每个区域(例如，区域1015、区域1025和区域1035)学习或训练单独的识别模型，例如，识别模型1020、识别模型1030和识别模型1040。在阶段1050中，训练设备从学习的识别模型1020、识别模型1030和识别模型1040提取多个指导特征1055。例如，指导特征1055可为通过识别模型1020、识别模型1030和识别模型1040从关于区域1015、区域1025和区域1035分别输出的特征。当训练单个识别模型1070时，指导特征1055可被用作地面实况标签(ground truthlabel)。

当训练单个识别模型1070时，关于所有区域1015、1025和1035的信息可被输入到单个识别模型1070，或者关于区域1015、区域1025和区域1035中的至少一个区域的信息可被输入到单个识别模型1070。例如，当关于一个区域(例如，区域1035)的信息被输入到单个识别模型1070时，尽管仅关于区域1035的信息被输入到单个识别模型1070，但是单个识别模型1070也可输出除了区域1035的特征之外的其他区域(例如，区域1015和区域1025)的各自的特征。

在阶段1060中，训练设备基于指导特征1055训练单个识别模型1070。训练设备存储从识别模型1020、识别模型1030和识别模型1040提取的指导特征1055，然后训练单个识别模型1070，使得从单个识别模型1070提取的多个特征1080可变得相似于指导特征1055。通过这样的基于指导特征1055的训练，从单个识别模型1070提取的特征1080之间的正交性可增加。

训练设备可计算指导特征1055与通过单个识别模型1070预测的特征1080之间的损失。例如，训练设备可基于指导特征1055确定损失函数，如下面等式1所示。损失函数可为用于计算当前状态下单个识别模型1070可能发生的差异或误差的函数。

[等式1]

在等式1中，W表示将被应用于单个识别模型1070的每一层的当前参数，L_GL(W)表示基于W的损失函数，GL为指导分对数(logit)的缩写。T表示训练图像的数量，t表示用于标识训练图像的索引。x^t表示当前的训练图像，z^t表示在x^t中确定的指导特征。f表示近似于单个识别模型1070的学习函数。

另外，训练设备可基于互熵损失函数来将与对象识别相关联的损失函数定义为如下面等式2所示。

[等式2]

在等式2中，P_t表示用于标识对象的地面实况标签，L_ID(W)表示互熵损失函数，其中，ID是标识(identification)的缩写。T表示所有训练图像的数量，t表示用于标识训练图像的索引。表示基于从单个识别模型1070输出的特征所确定的预测值。

与对象识别相关联的损失函数不限于在前面描述的示例，因此各种损失函数可被使用。例如，训练设备可基于(例如)铰链损失、平方损失、softmax损失、绝对损失或不敏感损失，来定义与对象识别相关联的损失函数。

训练设备可基于单个识别模型1070的参数来确定对象函数L(W)，如下面基于等式1和等式2的等式3所示。训练设备可更新单个识别模型1070的参数，以最小化对象函数L(W)的结果值。

[等式3]

L(W)＝L_ID(W)+λ·L_GL(W)

在等式3中，λ表示将被施加到L_GL(W)的权重。训练设备可确定最小化目标函数L(W)的单个识别模型1070的参数W，并将确定的参数应用于单个识别模型1070。通过这样的训练处理，单个识别模型1070的参数可被调整，以允许从单个识别模型1070输出的特征1080相似于从识别模型1020、识别模型1030和识别模型1040提取的指导特征1055，并且单个识别模型1070输出与输入图像中的对象的特征高度相关的特征。

在单独的识别模型的训练中，关于某一区域(例如，鼻子)的信息被输入到识别模型，并且基于输出特征(例如，鼻子的特征)的结果来调整识别模型的参数。相反，在单个识别模型的训练中，尽管关于某一区域(例如，鼻子)的信息被输入，但是除了鼻子的特征之外的另一区域的特征也被输出。将各个输出特征与对应于每一特征的单独的识别模型的特征进行比较，并且基于比较的结果来调整单个识别模型的参数。

图11是示出根据至少一个示例实施例的针对遮挡属性训练单个识别模型的处理的示图。

参照图11，在阶段1120中，训练设备确定是否在训练图像1110中或训练图像1110的一个区域中设置遮挡属性。例如，训练设备可以以随机概率在训练图像1110中设置遮挡属性。

当训练设备设置遮挡属性时，训练设备可通过将遮挡属性应用于训练图像1110，来生成包括遮挡(例如，太阳眼镜和面具)的训练图像1130。并且生成的包括遮挡的训练图像1130可被输入到单个识别模型1140。相反，当训练设备不设置遮挡属性时，训练图像1110被输入到单个识别模型1140。单个识别模型1140可从训练图像1110或训练图像1130输出特征和遮挡属性值，并且在阶段1150，训练设备可基于特征和遮挡属性值来训练单个识别模型1140。遮挡属性值可指示在训练图像中是否存在遮挡。例如，遮挡属性值可在不存在遮挡时被指示为0，在存在遮挡时被指示为1。当在输入到单个识别模型1140的训练图像中存在遮挡时，训练设备可训练单个识别模型1140以从单个识别模型1140输出指示在训练图像中存在遮挡的遮挡属性值。

图12是示出根据至少一个示例实施例的训练设备1200的配置的示图。参照图12，训练设备1200包括：处理器1210和存储器1220。

处理器1210可执行参照图9至图11描述的一个或多个操作。例如，处理器120可通过执行在存储器1220中存储的计算机可读指令，基于包括在训练图像数据库1230中的训练图像，来训练单个识别模型1240。处理器1210可计算或确定通过单独的识别模型获得的指导特征与从单个识别模型1240输出的特征之间的差异，并更新单个识别模型1240的参数以减小差异。处理器1210可被实现为逻辑门阵列，但是处理器1210不限于此，并可以以另一形式的硬件来实现。

存储器1220可存储用于执行参照图9至图11描述的一个或多个操作的指令，并存储在训练设备1200的操作期间获得的数据和结果。根据至少一个示例实施例，存储器1220可包括：非暂时性计算机可读介质(例如，高速随机存取存储器)和/或非易失性计算机可读记录介质(例如，至少一个磁盘装置和闪存装置)或其他非易失性固态存储装置。

图13示出根据至少一个示例实施例的用于在设置视听内容的系统中识别对象的设备。

如在图13中所示，接收器2001接收视听内容2002。视听内容2002可被存储在经由网络2003(例如，互联网)连接到接收器的服务器上。接收器包括：存储器2005。该存储器2005能够存储接收的视听内容2002。视听内容2002还可被存储在物理介质2004(例如，蓝光盘)上。接收器2001包括处理器2007，当接收到存储器2005上存储的适当的指令集时，处理器2007被配置为在渲染视听内容2002前对视听内容2002进行解码。可选地，接收器2001包括适合于读取在物理介质2004(例如，蓝光盘)上存储的视听内容2002的介质读取器2006。存储器2005还存储用于处理器2007的计算机可读指令，以执行如在图1至图8中所描述的用于识别对象的设备的功能。系统包括用于渲染视听内容2002的装置，例如，显示装置2008。显示装置2008包括图像传感器2010。图像传感器2010获得使用显示装置2008的用户的图像。此外，处理器2007和图像传感器2010可形成用于识别对象的设备。处理器2007通过执行在存储器2005中存储的计算机可读指令，来执行用于识别对象的设备的功能和参照图1至图8描述的功能。

视听内容2002包括：与观看等级相关联的帧。观看等级是指示视听内容2002的部分有多令人不适的指示(诸如，暴力等级)。观看等级可基于视听内容2002的图像、音频部分、字幕的文本或它们的任意组合。例如，观看等级可采取这样的形式：一方面，不适内容的类别(例如，暴力、性、恐怖)，另一方面，与该类别相关联的值(例如，该值可为包括在1与10之间的值：该值越大，相关联的内容根据选择的类别就越令人不适)。

视听内容2002可包含：分别与观看等级相关联的视听段和/或帧；帧和段二者应该代表视听内容2002的部分或全部的不适程度。观看等级可为视听内容2002的元数据的一部分。还可在产生视听内容2002的处理中较早地手动注释观看等级。段或帧还可以以自动的方式与观看等级相关联。例如，如果观看等级对应于暴力级别，则将根据暴力级别对与暴力场景相关的视听段和/或帧进行检测和分级。允许这样的检测的方法和技术是已知的，并且能在例如下面的文献中被找到：Gong等，《通过听觉和视觉线索在电影中检测暴力场景》(Detecting Violent Scenes in Movies by Auditory and Visual Cues)，第9届环太平洋多媒体会议，台湾台南国立成功大学，2008年12月9日-13日，第317-326页，该文献的全部内容通过引用包含于此。

视听内容2002一旦被接收器2001接收到，处理器2007就执行在存储器2005上存储的指令。处理器2007一旦已经分析了视听内容2002，至少两帧(每一帧分别与一个观看等级相关联)就被允许显示在显示装置2008上。然后，处理器2007选择显示与使用显示装置2008的认证的用户(例如，注册的用户)对应的帧。如参照图1至图8所描述的，通过使用单个识别模型的用于识别对象的设备来认证用户。

更具体地说，存储器2005存储与认证的用户相关联的期望的观看等级。处理器2007选择帧，使得与选择的帧相关联的观看等级不超过与使用显示装置2008的认证的用户相关联的期望的观看等级。

图14示出根据至少一个示例实施例的用于在执行停车的系统中识别对象的设备。

如在图14中所示，停车位执行系统2110使用用于识别对象的设备(例如，处理器2128、相机2116和存储器2130)和接近传感器2120(例如，一个或多个超声传感器)来检测被指定为由残疾人使用的停车位或者预留的停车位内的车辆进入并且认证该车辆的驾驶者或乘客。处理器2128通过执行在存储器2130中存储的计算机可读指令，来执行用于识别对象的设备的功能和参照1至图8所描述的功能。

警报器2126还可放置在停车位附近，例如，如果驾驶者和/或乘客未被认证，则警报器2126被驱动预设的一段时间(诸如，30秒)。警报器2126可以为任何合适类型的警报器，诸如，声音警报器(诸如，由扬声器生成警报)或者视觉警报器(诸如，由光源生成视觉警报)或者它们的组合。为了捕捉驾驶者和/或乘客的摄影图像，还在停车位附近设置相机2116。此外，系统可包括定时器2131。

应当理解，例如，可以使用各种合适的类型的相机中的任意相机，就这一点而言，还可使用各种类型的视觉传感器或图像传感器。警报器2126、相机2116、接近传感器2120和线传感器2122、线传感器2124(将在下面进行描述)均与控制器2118进行电通信。

如上面参照图1至图8所描述的，由相机2116拍摄的图片被处理器2128和存储器2130使用，以认证驾驶者和/或乘客。此外，设置线传感器2122、线传感器2124来检测车辆是否在停车位的指定的边界内合适地停车或正在停车。如果车辆越过标线之一停车(即，部分停在相邻的位置中)，则例如警报器2126可被驱动。

应当理解，接近传感器2120和线传感器2122、线传感器2124可为用于检测车辆的存在的各种合适类型的传感器中的任意传感器。

图15是包括用于识别对象的设备2200的认证系统2300的示图。用于识别对象的设备2200可根据用于根据图1至图8的描述识别对象的设备进行操作。用于识别对象的设备2200可用作用于移动支付的装置、用于安全解决方案的装置或用于认证解决方案的装置。用于识别对象的设备2200可使用无线通信模块与汽车2330、门2350的数码门锁2355、支付终端2310和物联网装置2370进行无线信号通信。

用于识别对象的设备2200的处理器可执行在存储器中存储的移动支付应用程序或软件。移动支付的用户支付信息可根据处理器的控制被安全地存储在存储器的安全区域中。此时，用户支付信息可被编码并且存储在存储器的安全区域中。

移动支付应用程序可使用在存储器的安全区域中存储的用户支付信息，来执行与支付终端2310相关联的移动支付。用户支付信息可包括：标识用于识别对象的设备2200的认证用户的标识信息(例如，信用卡信息、密码和注册的图像)。可通过用于识别对象的设备2200的认证用户使用移动支付应用程序将标识信息注册在存储器的安全区域中。

图16示出根据至少一个示例实施例的用户服务系统的示图。

图16示出用户服务系统2610的示例实施例。系统2610包括服务用户2622的拾取设备，诸如，锁柜(locker cabinet)2620。锁柜2620与用户接口2634和认证器2626连接。如在图1至图8中所描述的，认证器2626使用用于识别对象的设备2626a来认证用户2622。在图16中，认证器2626可包括：用于生成输入图像的传感器2626b(例如，指纹传感器和/或图像传感器)和用于识别对象的设备2626a。

控制器2628连同可选的通信模块2630也被连接到锁柜2620。配送服务提供者将配送物品(delivery item)配送到锁柜2620，并从锁柜2620接收配送物品。

用于服务机制的示例实施被描述为包括锁柜2620的带锁系统。然而，其他实施例可包括：电话亭、自动售货机、无人机或服务机器。例如，实施例可包括：航运中心、服装店、饮料商店、普通的自动售货机、复印机等以及它们的组合。当拾取设备为无人机时，认证器2626可被包括在无人机中。

锁柜2620可被用户和配送服务提供者访问，以将物品配送到柜2620中的安全箱或安全“室”，或者从储物柜2620中的安全箱或安全“室”取回物品。物品可包括：包裹、信件、期刊等。配送服务提供者可在特定的室中为特定的用户留下特定的物品。室可被手动地或电子地上锁。具有核准访问的人(诸如，用户)或配送服务提供者可访问室。通过认证器2626来认证具有核准访问的人(诸如，用户)或配送服务提供者。

配送服务提供者可使用认证器2626卸下或取回物品。用户也可卸下或取回物品。用户可使用认证器2626获得锁柜2620的室的访问。

中央计算机系统2624也可与带锁系统连接和交互。可由公司(诸如，配送服务提供者、自动售货公司或任何其他企业或实体)来操作中央计算机系统2624。如果需要，则中央计算机系统2624可诸如通过控制相机、麦克风、室、监视器和包括在系统2610中的其他组件或者与系统2610相关的其他组件，来操作系统2610。中央计算机系统2624可将指令发送到系统2610并从系统2610接收指令，反之亦然。中央计算机系统2624还可与和锁柜2620通信的实体(诸如，用户和配送服务提供者)交互和通信。

例如，控制器2628和中央计算机系统2624中的每个可以以硬件、被配置为执行软件的处理器、固件或它们的任意组合来实现。当控制器2628和中央计算机系统2624中的至少一个为硬件时，这样的现有硬件可包括：被配置为用于执行控制器2628和中央计算机系统2624中的至少一个的功能的专用机器的一个或多个中央处理器(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)计算机等。

如果控制器2628和中央计算机系统2624中的至少一个是执行软件的处理器，则处理器被配置为用于执行在存储介质中存储的软件的专用机器，以执行控制器2628和中央计算机系统2624中的至少一个的功能。在这样一个实施例中，处理器可包括一个或多个中央处理器(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)计算机。

在此描述的单元和/或模块可使用硬件组件和执行软件组件的硬件来实现。例如，硬件组件可包括麦克风、放大器、带通滤波器、音频数字转换器和处理装置。可使用被配置为通过执行算术的、逻辑的和输入/输出操作实现和/或执行程序代码的一个或多个硬件装置来实现处理装置。处理装置可包括：处理器、控制器和算术逻辑单元、数字信号处理器、微型计算机、现场可编程阵列、可编程逻辑单元、微处理器或能够以限定的方式响应并执行指令的任何其他装置。处理装置可运行操作系统(OS)和在OS上运行的一个或多个软件应用。处理装置还可响应于软件的执行，来访问、存储、操纵、处理和创建数据。为了简明起见，处理装置的描述被作用单数；然而，本领域技术人员将理解：处理装置可包括多个处理元件和多种类型的处理元件。例如，处理装置可包括多个处理器或者一个处理器和一个控制器。此外，不同的处理配置是可行的，如并行处理器。

软件可包括计算机程序、代码段、指令或者它们的一些组合，以独立地或共同地指示或配置处理装置按照期望进行操作，从而将处理装置转换为专用处理器。可以以任何类型的机器、组件、物理或虚拟设备、计算机存储介质或装置，或者以能够将指令或数据提供给处理装置或者由处理装置解释的传播的信号波，来实现软件和数据。软件还可分布在联网的计算机系统上，从而软件以分布式方式被存储和执行。可通过一个或者多个非暂时性计算机可读记录介质来存储软件和数据。

根据上述示例实施例的方法可被记录在包括用于实现上述示例实施例的各种操作的程序指令的非暂时性计算机可读介质中。介质还可单独包括程序指令、数据文件、数据结构等，或者还可包括程序指令、数据文件、数据结构等的组合。记录在介质上的程序指令可为为了示例实施例的目的而特别设计和构造的程序指令，或者可为对计算机软件领域的技术人员公知或可用的程序指令。非暂时性计算机可读介质的示例包括：磁介质(诸如，硬盘、软盘和磁带)；光介质(诸如，CD-ROM光盘、DVD和/或蓝光盘)；磁光介质(诸如，光盘)；被专门配置为存储和执行程序指令的硬件装置，诸如，只读存储器(ROM)、随机存取存储器(RAM)、闪存(例如，USB闪存驱动器、存储卡、记忆棒等)等。程序指令的示例包括：机器代码(诸如，由编译器产生的)和包括可通过计算机使用解释器执行的高级代码的文件二者。为了执行上述示例实施例的操作，上述装置可被配置为用作一个或多个软件模块，反之亦然。

上面已经描述了一些示例实施例。然而，应当理解，可对这些示例实施例进行各种修改。例如，如果描述的技术以不同的顺序被执行，和/或如果描述的系统、架构、装置或电路中的组件以不同的方式来组合和/或由其他组件或它们的等同物替换或补充，则可获得结果。因此，其他实施方式在权利要求的范围内。

Claims

1.一种识别对象的方法，所述方法包括：

使用单个识别模型从输入图像提取多个特征；

基于提取的所述多个特征在输入图像中识别对象。

2.如权利要求1所述的方法，其中，单个识别模型包括：

至少一个压缩层，被配置为：对输入图像的输入信息进行压缩；

至少一个解压缩层，被配置为：对压缩的信息进行解压缩，以确定提取的所述多个特征。

3.如权利要求1所述的方法，其中，提取所述多个特征的步骤包括：

在输入图像中确定多个区域；

将关于所述多个区域的信息输入到单个识别模型；

基于输入信息使用单个识别模型来确定所述多个区域的各自的特征。

4.如权利要求1所述的方法，其中，单个识别模型包括：

单个输入层；

多个输出层，被配置为：输出提取的所述多个特征。

5.如权利要求4所述的方法，还包括：

在单个输入层接收关于输入图像的信息。

6.如权利要求5所述的方法，其中，接收的步骤包括：在单个输入层接收关于输入图像中的多个区域的信息。

7.如权利要求1所述的方法，其中，单个识别模型包括：

多个输入层；

多个输出层，被配置为：输出提取的所述多个特征。

8.如权利要求7所述的方法，还包括：

在所述多个输入层接收关于输入图像中的多个区域的信息。

9.如权利要求3所述的方法，其中，提取的步骤包括：

在单个识别模型的第一压缩层对所述多个区域之中的相关联的区域的信息进行压缩；

基于从第一压缩层传递的信息，对关于所述多个区域的整体的信息进行压缩。

10.如权利要求3所述的方法，其中，识别对象的步骤包括：

基于从提取的所述多个特征的所述多个区域提取的特征，来识别对象。

11.如权利要求3所述的方法，其中，识别对象的步骤包括：

使用单个识别模型，确定在所述多个区域之中的当前区域中的遮挡的存在的概率；

将权重施加到当前区域的特征，所述权重基于确定的概率。

12.如权利要求3所述的方法，其中，提取的步骤包括：

使用单个识别模型中的多个层，从关于所述多个区域中的每个区域的信息确定所述多个特征，

其中，所述多个层中的至少一个层连接到所述多个层中的另一层。

13.如权利要求1所述的方法，其中，提取所述多个特征的步骤包括：

使用单个识别模型，从输入图像中的确定的区域提取所述多个特征。

14.如权利要求1所述的方法，其中，单个识别模型是基于与输入图像的所述多个特征相关联的各个识别模型的识别结果预先训练的模型。

15.如权利要求1所述的方法，其中，输入图像是脸部图像或指纹图像。

16.一种在由处理器执行时被配置为使得处理器执行权利要求1所述的方法的在非暂时性计算机可读介质上实现的计算机程序。

17.一种用于识别对象的设备，所述设备包括：

存储器，存储计算机可执行的指令；

至少一个处理器，被配置为执行指令，使得处理器被配置为：

使用单个识别模型从输入图像提取多个特征；

基于提取的所述多个特征在输入图像中识别对象。

18.如权利要求17所述的设备，其中，单个识别模型包括：

19.如权利要求17所述的设备，其中，所述设备图像包括单个识别模型，并且单个识别模型包括：

单个输入层；

多个输出层，被配置为输出提取的所述多个特征，单个输入层连接到所述多个输出层。

20.如权利要求19所述的设备，其中，单个输入层被配置为接收输入图像。

21.如权利要求19所述的设备，其中，单个输入层被配置为接收关于输入图像中的多个区域的信息。

22.如权利要求17所述的设备，其中，所述设备包括单个识别模型，并且单个识别模型包括：

多个输入层；

多个输出层，被配置为输出提取的所述多个特征，所述多个输入层连接到所述多个输出层。

23.如权利要求22所述的设备，其中，所述多个输入层被配置为接收关于输入图像的信息。

24.如权利要求17所述的设备，其中，所述至少一个处理器被配置为执行计算机可执行的指令，以：

在输入图像中确定多个区域；

将关于所述多个区域的信息输入到单个识别模型，

使用单个识别模型确定所述多个区域的各自的特征。

25.如权利要求24所述的设备，其中，所述设备包括单个识别模型，并且单个识别模型包括：

至少一个第一压缩层，被配置为：对所述多个区域之中的相关联的区域的信息进行压缩；

第二压缩层，被配置为：基于从所述至少一个第一压缩层传递的信息，对关于所述多个区域的整体的信息进行压缩。