CN113454647A

CN113454647A - 用于识别图像中的对象的电子设备及其操作方法

Info

Publication number: CN113454647A
Application number: CN201980092313.5A
Authority: CN
Inventors: 金叡薰; 徐钻源
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-12-20
Filing date: 2019-08-16
Publication date: 2021-09-28
Also published as: US20220067368A1; KR20200084395A; US11954595B2; EP3879449A1; WO2020130274A1; EP3879449A4; KR102697346B1

Abstract

提供了一种用于在电子设备中识别图像中包括的对象的方法，其包括：从第一图像中包括的第一对象提取第一对象信息；获得用于从第一对象信息生成包括第二对象的图像的学习模型；通过将第一对象信息输入到学习模型来生成包括第二对象的第二图像；将第一图像与第二图像进行比较；以及基于比较结果将第一对象识别为第一图像中的第二对象。

Description

用于识别图像中的对象的电子设备及其操作方法

技术领域

本公开涉及用于识别图像中的对象的电子设备及其操作方法。

背景技术

在各个领域中，使用用于从包括相机的各种拍摄设备捕获的图像中识别人的技术。例如，存在将相机拍摄的人与预先存储的图像进行比较以识别该人然后根据识别结果批准该人进入的入口安保系统、将出现在捕获图像中的嫌疑人与预先存储的图像进行比较以识别该嫌疑人的系统、以及通过捕获图像执行用户认证的系统。

然而，捕获图像中出现的人的外观(诸如姿势、服装、发型等)可能根据各种因素(诸如时间的流逝、周围环境的变化等)而改变。尽管当前捕获的图像中出现的人与预先存储用于图像中的人识别的图像中包括的人相同，但是由于外观的差异，可能无法正确地识别图像中出现的人。

因此，需要即使当人的外观改变时也能够以高精度识别图像中出现的人的技术。

发明内容

为了克服上述问题，本公开旨在提供一种识别图像中的对象的电子设备及其操作方法。

此外，本公开旨在提供一种计算机程序产品，该计算机程序产品包括存储用于在计算机上执行该方法的程序的计算机可读记录介质。需要说明的是，本实施方式的技术目的不限于上述技术目的，通过以下实施方式，本领域技术人员将清楚其他技术目的。

附图说明

图1是示出根据实施例的识别图像中的对象的方法的框图。

图2示出了根据实施例的在识别图像中的对象的方法中可被处理的图像的示例。

图3是示出根据实施例的生成用于生成第二图像的学习模型的方法的框图。

图4示出了根据实施例的作为用于识别对象的图像的通过拍摄人获得的图像的示例。

图5和图6是用于描述根据实施例的电子设备的内部配置的框图。

图7是示出根据实施例的识别图像中的对象的方法的流程图。

图8示出了根据实施例的识别图像中的对象的方法以及可通过使用该方法处理的图像的示例。

图9示出了根据实施例的应用识别图像中的对象的方法的示例。

图10示出了根据实施例的使用识别图像中的对象的方法的示例。

具体实施方式

作为用于实现上述技术目的的技术手段，根据本公开的第一方面，提供了一种由电子设备执行的识别图像中包括的对象的方法，该方法包括：从第一图像中包括的第一对象提取第一对象信息；获得用于从第一对象信息生成包括第二对象的图像的学习模型；通过将第一对象信息输入到学习模型来生成包括第二对象的第二图像；将第一图像与第二图像进行比较；以及基于比较结果将第一对象识别为第一图像中的第二对象。

此外，根据本公开的第二方面，提供了一种识别图像中包括的对象的电子设备，该电子设备包括：存储器，存储第一图像和学习模型；至少一个处理器，被配置为从第一图像中包括的第一对象提取第一对象信息、获得用于从第一对象信息生成包括第二对象的图像的学习模型、通过将第一对象信息输入到学习模型来生成包括第二对象的第二图像、将第一图像与第二图像进行比较、以及基于比较结果将第一对象识别为第一图像中的第二对象；以及输出器，被配置为输出关于在第一图像中识别的第二对象的识别结果。

此外，根据本公开的第三方面，提供了一种计算机程序产品，其包括存储用于执行根据第一方面或第二方面的方法的程序的记录介质。

在下文中，将参照附图详细描述本公开的实施例，使得本领域技术人员可以容易地实施本公开。然而，本公开不限于本公开的这些实施例，并且可以以各种其他形式来体现。此外，为了本公开的明确描述，与描述无关的部分未在附图中示出，并且贯穿说明书，相似的部件被分配相似的附图标记。

在本说明书中，将理解，某一部分“连接”到另一部分的情况包括该部分“电连接”到该另一部分且其间有另一设备的情况、以及该部分“直接连接”到该另一部分的情况。此外，将理解，当某一部分“包括”某一部件时，该部分不排除另一部件而是可以进一步包括另一部件，除非上下文清楚地另行指示。

根据本公开，与人工智能相关的功能可以通过处理器和存储器进行操作。处理器可以用单个处理器或多个处理器来配置。单个处理器或多个处理器中的每个可以是通用处理器(例如，中央处理单元(CPU)、应用处理器(AP)和数字信号处理器(DSP))、图形专用处理器(例如，图形处理单元(GPU)和视觉处理单元(VPU))或人工智能专用处理器(例如，神经处理单元(NPU))。单个处理器或多个处理器可以根据预先存储在存储器中的预定义的操作规则或人工智能模型来执行处理输入数据的控制操作。此外，当单个处理器或多个处理器中的每个是人工智能专用处理器时，人工智能专用处理器可以被设计为用于处理预定义的人工智能模型的专用硬件结构。

预定义的操作规则或人工智能模型可以通过训练来创建。通过训练来创建预定义的操作规则或人工智能模型是指当基础人工智能模型通过学习算法用多条训练数据来训练时，创建设置为执行期望特征(或目的)的预定义的操作规则或人工智能模型。训练可以由根据本公开执行人工智能的装置或由单独的服务器和/或系统来执行。学习算法可以是监督学习、无监督学习、半监督学习或强化学习，但不限于上述示例。

人工智能模型可以配置有多个神经网络层。多个神经网络层中的每一层可以具有多个权重，并通过前一层的算术运算结果与所述多个权重之间的算术运算来执行神经网络算术运算。多个神经网络层的多个权重可以通过人工智能模型的训练结果来优化。例如，可以更新多个权重，使得人工智能模型在训练过程期间获得的损失值或成本值减小或最小化。人工神经网络可以包括深度神经网络(DNN)，人工神经网络可以是例如卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向循环深度神经网络(BRDNN)或深度Q网络，但不限于上述示例。

在下文中，将参照附图详细描述本公开。

图1是示出根据实施例的识别图像中的对象的方法的框图。

根据实施例，识别图像中的对象的电子设备100可以通过使用关于对象的预存储数据来识别图像中包括的对象。根据实施例，能被电子设备1000识别的对象可以是预先决定的特定对象。此外，电子设备1000可以执行图1所示的操作110至140以输出图像中的对象的识别结果。

根据实施例，关于对象的预存储数据可以包括针对对象预先训练的学习模型。根据实施例，可以基于包括对象的至少一个源图像和从至少一个源图像提取的信息中的至少一个来训练学习模型。

根据实施例，电子设备1000可以通过使用学习模型来生成包括要识别的对象的新图像。电子设备1000可以通过使用新图像来识别图像中的对象。

根据实施例，可从图像识别的对象还可以包括其外观可改变的动物/植物、机器、结构等，以及人。然而，可从图像识别的对象不限于上述示例，根据实施例，可以从图像识别其外观可根据各种条件改变的各种对象。

根据实施例的电子设备1000可以被实现为各种设备之一，诸如智能电视(TV)、机顶盒、蜂窝电话、智能电话、平板个人计算机(PC)、数码相机、膝上型计算机、台式计算机、电子书终端、数字广播终端、个人数字助理(PDA)、便携式多媒体播放器(PMP)、导航系统、MP3播放器、可穿戴设备等。然而，根据实施例的电子设备1000不限于上述示例，并且可以被实现为其他各种电子设备之一。

参照图1，在操作110中，电子设备1000可以获得包括第一对象的第一图像。根据实施例，第一对象可以是第一图像中包括的对象，第二对象可以代表需要从第一图像识别的对象。第二对象可以是在执行根据实施例的识别图像中的对象的方法之前预先确定的特定对象。

根据实施例的电子设备1000可以确定第一图像中包括的第一对象是否对应于第二对象，从而将第一对象识别为第一图像中的第二对象。根据实施例，电子设备1000可以通过使用针对要识别的第二对象训练的学习模型来识别第一图像中的第二对象。

根据实施例，要处理的“图像”可以包括可在显示设备上显示的部分或全部屏幕。在本说明书中，为了便于描述，总体地使用术语“图像”，然而，下面将描述的“图像”可以包括可显示的屏幕(诸如用户界面或网页)以及如其原始含义的图片或视频。

根据实施例的第一图像可以包括通过各种方法拍摄的各种图像，诸如二维(2D)图像、三维(3D)图像等。此外，第一图像可以是由电子设备1000中包括的拍摄设备拍摄的图像，但不限于此。然而，第一图像可以是从外部设备(未示出)接收的图像。然而，第一图像不限于上述示例，并且可以是由电子设备1000通过各种方法获得的图像。

根据实施例，电子设备1000可以对通过这样的各种方法获得的图像执行用于执行对象识别的预处理，从而获得第一图像。例如，电子设备1000可以从图像中确定要处理以识别对象的区域，并获得所确定区域的图像作为第一图像。例如，电子设备1000可以在从图像中删除背景区域之后获得剩余区域的图像作为第一图像。此外，当多个对象被包括在图像中时，电子设备1000可以获得包括所述多个对象之一的区域的图像作为第一图像。

在操作120中，电子设备1000可以从第一图像中包括的第一对象提取第一对象信息。根据实施例的第一对象信息可以包括关于第一对象的外观的信息，第一对象的外观可以根据各种条件而改变。关于对象外观的信息可以包括关于可改变为各种形状的对象的状态、结构、颜色、姿势等的信息。

根据实施例，当第一对象是人或动物时，电子设备1000可以提取姿势信息和风格信息中的至少之一(其是关于第一对象的可变外观的信息)作为第一图像的第一对象信息。

姿势信息可以包括关于第一对象的外观的信息，该外观可以通过第一对象的各种运动而改变。例如，姿势信息可以包括通过骨架分析技术获得的关于骨架属性的信息。关于骨架属性的信息可以包括基于代表关节部位的关键点生成的一组骨架线。然而，姿势信息不限于上述示例，并且姿势信息可以包括通过各种方法获得的关于第一对象的姿势的信息。

风格信息可以包括关于第一对象穿戴或拥有的服装、配饰、鞋子、帽子、发型等的信息。

根据实施例，当第一对象是其形状可变的结构时，电子设备1000可以提取关于可变结构的形状的信息作为第一对象信息。可以通过与获得姿势信息的上述方法类似的方法来获得关于可变结构的形状的信息。

然而，根据实施例的第一对象的第一对象信息不限于上述示例，并且关于第一对象的可变外观的信息可以包括通过各种方法可从第一图像提取的各种信息。

在操作130中，电子设备1000可以基于在操作120中提取的第一对象信息来生成第二图像。第二图像可以包括需要从第一图像识别的第二对象。根据实施例，电子设备1000可以确定第一图像的第一对象是否与第二对象相同，从而从第一图像识别第二对象。

可以基于在操作120中提取的第一对象信息和关于第二对象的预存储数据独立于在操作110中获得的第一图像新生成根据实施例的第二图像。例如，第二图像可以包括具有与第一对象信息对应的外观的第二对象。

预先存储的数据可以包括用于通过使用第一对象信息作为输入值来生成包括第二对象的图像的机器学习算法。根据实施例，可以通过将第一对象信息输入到用于第二对象的机器学习算法来生成第二图像。

例如，预先存储的数据可以是生成模型，其是能够通过使用第一对象信息作为输入值来生成新图像的学习模型，预先存储的数据可以是例如生成对抗网络(GAN)。

根据实施例的用于生成第二图像的学习模型可以通过训练包括具有各种外观的第二对象的至少一个图像和对应于所述至少一个图像的对象信息来生成。例如，可以通过训练包括第二对象的至少一个图像以及对应于所述至少一个图像的姿势信息和风格信息来生成学习模型。

根据实施例，可以存在为各个对象生成的不同学习模型。例如，可以存在针对第一人的学习模型，其通过训练第一人的图像和对应于该图像的对象信息来生成。此外，可以存在针对第二人的学习模型，其通过训练第二人的图像和对应于该图像的对象信息来生成。因此，电子设备1000可以使用针对需要识别的对象的学习模型来识别第一图像中的对象。

预先存储的数据不限于上述示例，并且包括可以基于从第一图像的第一对象提取的第一对象信息来生成包括第二对象的新的第二图像的各种数据。

因此，根据实施例生成的第二图像可以包括具有与在操作120中提取的第一对象信息对应的外观的第二对象。电子设备1000可以通过使用包括具有与第一对象信息对应的外观的第二对象的第二图像，考虑到关于图像中包括的对象的外观的信息来识别图像中的对象。

此外，预存储的数据可以是预先存储在电子设备1000中的数据或者在执行根据实施例的用于识别图像中的对象的操作之前从外部接收并存储在电子设备1000中的数据。例如，在执行根据实施例的用于识别图像中的对象的操作之前，通过训练包括第二对象的至少一个图像生成的数据可能已经预先存储在电子设备1000中。

在操作140中，电子设备1000可以将在操作110中获得的第一图像与在操作130中生成的第二图像进行比较。例如，电子设备1000可以通过提取分别包括在第一图像和第二图像中的第一对象和第二对象的一条或更多条特征信息并确定多条特征信息之间的相似度来将第一图像与第二图像进行比较。

例如，特征值可以是用于确定两个图像的对象是否彼此相同的值，并且特征值可以包括代表对象的特征(诸如骨架、高度、体型等)的各种值。

因为第二图像是基于第一图像的第一对象信息(其是关于可变外观的信息)生成的图像，所以第二图像可以包括第一图像中关于可变外观的信息反映到其的第二对象。因此，第一图像的对象信息和第二图像的对象信息之间可能几乎没有区别。因此，电子设备1000可以通过使用第二图像考虑到作为关于可变外观的信息的对象信息来识别第一图像中的第二对象。

根据实施例，当作为第一图像和第二图像的特征值之间的比较结果的在第一图像和第二图像之间的相似度大于或等于参考值时，电子设备1000可以根据实施例确定第一图像中包括的第一对象与需要识别的第二对象相同。

图2所示的图像可以对应于图1所示的操作。图2的图像211可以对应于图1的操作110。图2的图像221、222和223可以对应于图1的操作120。图2的图像231可以对应于图1的操作130。图2的图像211和231之间的比较可以对应于图1的操作140。

图2的图像211示出了可由电子设备1000在图1的操作110中获得的第一图像的示例。根据实施例的电子设备1000可以确定第一图像中包括的第一人是否与第二人相同。

图2的图像221、222和223可以示出在图1的操作120中提取的对象信息的示例。图像221可以是姿势信息的示例，并且示出了根据骨架分析技术获得的一组骨架线。根据实施例，姿势信息可以包括关于在图像221中示出的一组骨架线的信息。图像222和223可以是风格信息的示例，并且示出了与图像211对应的人所穿的服装。根据实施例，风格信息可以包括关于图像222和223所示的服装的信息。

图2的图像231可以是在图1的操作130中生成的第二图像的示例。第二图像231可以是包括第二人并基于图像221、222和223所示的姿势信息和风格信息中的至少一条信息生成的图像。例如，第二图像231可以是根据图像221、222和223所示的姿势信息和风格信息生成的图像，并且第二图像231可以是具有图像221、222和223所示的姿势和风格的第二人的图像。此外，根据实施例的第二图像231可以包括第二人，因为第二图像231是基于针对第二人的学习模型和从第一图像提取的对象信息生成的。

可以在图1的操作140中将图2的第一图像211与图2的第二图像231进行比较。根据实施例，电子设备1000可以提取分别包括在第一图像和第二图像中的第一人和第二人的一个或更多个特征值，并确定特征值之间的相似度，从而确定第一图像和第二图像之间的相似度。

因为第二图像231可以基于关于第一图像211所示的姿势和风格的信息来生成，所以第二图像231所示的姿势和风格可以与关于第一图像211所示姿势和风格的信息相同或相似。因此，除了第二图像231的姿势和风格以外的其他特征值(例如，骨架、高度、体型等)之间的差异可以对确定第一图像和第二图像之间的相似度具有较大影响。

根据图3所示的方法生成的学习模型可以用于在图1的操作130中基于第一对象信息生成第二图像。

图3所示的方法可以由电子设备1000或外部设备执行以生成学习模型，并且该学习模型可以被发送到电子设备1000，但不限于此。然而，图3所示的方法可以由各种设备执行，并且作为执行结果生成的学习模型可以被发送到电子设备1000。

在下文中，为了便于描述，将描述图3的方法由电子设备1000执行的情况。电子设备1000可以执行图3所示的操作310至330以基于第一对象信息生成用于生成包括第二对象的图像的学习模型。

图3所示的图像311至331可以对应于图3所示的操作。图3的图像311至313可以对应于图3的操作310。图3的图像(也称为对象信息)321至327可以对应于图3的操作320。图3的图像(也称为学习模型)331可以对应于图3的操作330。

参照图3，在操作310中，电子设备1000可以获得包括第二对象的一个或更多个源图像311至313。电子设备1000可以基于一个或更多个源图像311至313生成针对第二对象的学习模型。

根据实施例的源图像311至313可以包括通过在各种条件下拍摄第二对象而获得的图像。例如，源图像311至313可以包括通过拍摄其姿势根据时间流逝而改变的第二对象获得的图像。此外，源图像311至313可以包括通过拍摄穿着不同服装的第二对象获得的图像。源图像311至313可以是2D静止图像，但不限于此。然而，源图像311至313可以包括通过拍摄第二对象获得的各种图像，诸如视频、3D图像等。

在操作320中，电子设备1000可以从在操作310中获得的一个或更多个源图像311至313提取对象信息321至327。像在图1的操作120中提取的对象信息一样，在操作320中提取的对象信息321至327可以包括关于可根据各种原因或条件而改变的对象外观的信息。例如，对象信息321至327可以包括关于可改变为各种形式的对象的状态、结构、颜色、姿势等的信息。

图像321至323所示的对象信息可以是根据实施例的关于姿势的信息，并且可以是根据骨架分析技术获得的基于代表对象的关节部位的关键点生成的骨架线组。图像321、322和323可以分别对应于作为源图像示出的图像311、312和313。根据实施例的对象信息321至327的姿势信息可以包括关于图像321至312所示的骨架线组的信息。

对象信息324至327可以是根据实施例的关于风格的信息，并且可以包括关于对象所穿戴的服装、配饰、鞋子、帽子、发型等的信息。

在操作330中，电子设备1000可以基于在操作310中获得的源图像311至313和在操作320中获得的对象信息321至327来执行机器学习以生成学习模型331。

可根据实施例生成的学习模型331可以是神经网络模型，其使用在图1的操作120中获得的第一对象信息作为输入值，并且输出包括第二对象并在图1的操作130中生成的第二图像作为输出值。例如，学习模型331可以是能够通过使用对象信息作为输入值来生成新图像的生成模型，并且学习模型331可以是GAN。

然而，学习模型331不限于上述示例，并且电子设备1000可以通过使用在操作310中获得的源图像311至313和在操作320中获得的对象信息321至327生成各种数据，所述各种数据可以基于对象信息来生成包括要识别的对象的新图像。

图4所示的图像410至440可以是通过拍摄第一人获得的图像，然而，鉴于诸如姿势、服装、鞋子、配饰、发型等的外观，图像410至440可以彼此不同。此外，图像450可以是关于与图像410至440所示的第一人不同的第二人的图像。

例如，关于第一人的图像410至430可以具有不同的多条姿势信息，同时具有相同的风格信息，诸如相同的服装、鞋子、发型、配饰等。此外，关于第一人的图像440的风格信息和姿势信息可以不同于其他图像的风格信息和姿势信息。然而，图像410至440所示的人可以优选地被识别为同一人。

根据实施例的电子设备1000可以考虑到关于可能因各种因素(诸如时间的流逝、地点的改变等)而改变的外观的信息来识别图像中的人。因此，根据实施例的电子设备1000可以将图像410至440所示的人识别为相同的第一人，尽管图像410至440的姿势信息和风格信息彼此不同。

当电子设备1000识别出图像410中的第一人时，电子设备1000可以基于图像410的姿势信息和风格信息新生成具有与图像410的姿势和风格相同或相似的姿势和风格的第一人的图像。因为由电子设备1000生成的图像中的第一人的姿势和风格与图像410所示的人的姿势和风格相同或相似，所以除了姿势和风格以外的其他特征(例如，骨架、高度、体型等)之间的差异可以对确定两个图像之间的相似度有较大影响。可以根据两个图像之间的相似度来确定图像410所示的人是否为第一人。

尽管图像420和430在姿势方面不同于图像410并且图像440在风格和姿势方面不同于图像410，但是由电子设备1000基于图像410至440的姿势信息和风格信息生成的图像可以在姿势和风格方面与图像420至440相同或相似。因此，除了姿势和风格以外的其他特征值之间的差异可以对确定所生成的图像与图像420至440之间的相似度有较大影响。

此外，图像450所示的人可以在服装、鞋子、发型、配饰等方面与图像410至430所示的人相似，并且还可以在姿势方面与图像430所示的人相似。然而，基于图像450所示的人的姿势信息和风格信息生成的图像中包括的人可以在姿势和风格方面与图像430中包括的人相同或相似。因此，除了姿势和风格以外的其他特征值之间的差异可以对确定所生成的图像和图像430之间的相似度有较大影响。因此，根据实施例，图像450的人可以被识别为与图像410至440的人不同的第二人。

图5和图6是用于描述根据实施例的电子设备1000的内部配置的框图。

参照图5，电子设备1000可以包括处理器1300、存储器1700和输出器1200。然而，图5所示的部件不是电子设备1000的必要部件。电子设备1000可以用比图5所示的部件更多或更少的部件来实现。

例如，如图6所示，除了处理器1300、存储器1700和输出器1200之外，根据一些实施例的电子设备1000还可以包括用户输入器1100、感测设备1400、音频/视频(A/V)输入器1600和存储器1700。

用户输入器1100可以是使用户能够输入用于控制电子设备1000的数据的机构。例如，用户输入器1100可以是键板、圆顶开关、触摸板(电容类型、电阻、红外光束类型、表面声波类型、积分应变仪类型、压电效应类型等)、缓动轮、缓动开关等，但不限于此。

根据实施例，用户输入器1100可以接收用于执行识别图像中的对象的操作的用户输入。此外，根据实施例，用户输入器1100可以接收用于执行基于源图像和源图像的对象信息生成学习模型的操作的用户输入。

输出器1200可以输出音频信号、视频信号或振动信号，并包括显示器1210、声音输出器1220和振动电机1230。

根据实施例的输出器1200可以将通过执行识别图像中的对象的操作而获得的结果输出到外部。

显示器1210可以显示和输出由电子设备1000处理的信息。根据实施例，显示器1210可以显示要在其中识别对象的图像。此外，显示器1210可以显示通过执行识别图像中的对象的操作而获得的结果。

同时，当显示器1210和触摸板形成层结构以被配置为触摸屏时，显示器1210可以用作输入器以及输出器。显示器1210可以包括以下至少一种：液晶显示器、薄膜晶体管-液晶显示器、薄膜晶体管-液晶显示器、有机发光二极管、柔性显示器、3D显示器和电泳显示器。根据电子设备1000的实现形式，电子设备1000可以包括两个或更多个显示器1210。

声音输出器1220可以输出从通信单元1500接收或存储在存储器1700中的音频数据。根据实施例，声音输出器1220可以输出通过执行识别图像中的对象的操作而获得的结果。

振动电机1230可以输出振动信号。此外，当触摸被输入到触摸屏时，振动电机1230可以输出振动信号。根据实施例，振动电机1230可以输出通过执行识别图像中的对象的操作而获得的结果。

处理器1300可以控制电子设备1000的整体操作。例如，控制器1300可以运行存储在存储器1700中的程序以控制用户输入器1100、输出器1200、感测设备1400、通信单元1500、A/V输入器1600等的整体操作。电子设备1000可以包括至少一个处理器1300。

处理器1300可以被配置为执行基础算术运算、逻辑运算和输入/输出操作以处理计算机程序的指令。指令可以从存储器1700被提供给处理器1300，或者通过通信器1500接收并疲提供给处理器1300。例如，处理器1300可以被配置为根据存储在记录设备(诸如存储器)中的程序代码来运行指令。根据实施例的处理器1300可以包括至少一个处理器1300。

根据实施例的处理器1300可以从要在其中识别对象的第一图像提取关于第一对象的第一对象信息，并通过使用学习模型从第一对象信息生成包括第二对象的第二图像。第二对象可以是预先决定的特定对象。处理器1300可以基于第一图像和第二图像之间的比较结果来识别第一图像中的第二对象。

此外，处理器1300可以附加地从第一图像的第一对象提取第二对象信息，并基于第二对象信息从第二图像生成第三图像。像第一对象信息一样，第二对象信息可以包括关于可根据各种条件改变的对象外观的信息，并且可以包括与第一对象信息不同种类的信息。处理器1300可以基于第一图像和第三图像之间的比较结果来识别第一图像中的第二对象。

此外，处理器1300可以从第一图像和第二图像提取对应于对象的区域，并基于从各个区域提取的特征信息之间的比较结果来识别第一图像中的对象。特征信息可以是用于确定第一图像和第二图像的对象是否彼此相同的值，并且可以包括代表对象的特征(诸如骨架、高度、体型等)的各种值。

感测设备1400可以感测电子设备1000的状态或电子设备1000的周围环境的状态，并将感测到的信息传送给处理器1300。

感测设备1400可以包括以下至少一种：磁性传感器1410、加速度传感器1420、温度/湿度传感器1430、红外传感器1440、陀螺仪传感器1450、位置传感器(例如，全球定位系统(GPS))1460、大气压力传感器1470、接近传感器1480和RGB传感器(照度传感器)1490，但不限于此。

根据实施例的感测设备1400可以用于生成要在其中识别对象的第一图像、或用于生成学习模型的源图像。例如，根据实施例的源图像或第一图像可以由感测设备1400中的可通过感测外部环境来生成图像的传感器(诸如红外传感器1440和RGB传感器1490)生成。然而，感测设备1400不限于上述例子，并且根据实施例，感测设备1400可以通过经由各种传感器感测外部环境来获得各种图像，并使用所获得的图像之一作为源图像或第一图像。

通信器1500可以包括使电子设备1000能够与服务器2000或外部设备(未示出)通信的一个或更多个部件。例如，通信器1500可以包括短距离无线通信单元1510、移动通信单元1520和广播接收器1530。

短距离无线通信单元1510可以包括蓝牙通信器、低功耗蓝牙(BLE)通信器、近场通信(NFC)单元、无线局域网(WLAN)通信器、紫蜂通信器、红外数据协会(IrDA)通信器、Wi-Fi直连(WFD)通信器、超宽带(UWB)通信器、Ant+通信器等，但不限于此。

移动通信单元1520可以向/从移动通信网络上的基站、外部终端或服务器中的至少一个发送/接收无线信号。根据文本/多媒体消息的发送/接收，无线信号可以包括语音呼叫信号、视频呼叫信号或各种格式的数据。

广播接收器1530可以通过广播频道从外部接收广播信号和/或广播相关信息。广播频道可以包括卫星频道和地面频道。根据实现示例，电子设备1000可以不包括广播接收器1530。

根据实施例，通信器1500可以从外部接收第一图像和学习模型中的至少一个。此外，通信器1500可以将根据实施例的关于在图像中识别的对象的识别结果发送到外部。

A/V输入器1600可以用于音频信号或视频信号的输入，并且可以包括相机1610和麦克风1620。相机1610可以在视频呼叫模式或拍摄模式下通过图像传感器获取图像帧，诸如静止图像或运动图像。由图像传感器捕获的图像可以由处理器1300或单独的图像处理器(未示出)处理。

根据实施例的A/V输入器1600可以生成要在其中识别对象的第一图像或用于生成学习模型的源图像。

麦克风1620可以从外部接收声音信号，并将声音信号处理成电语音数据。

存储器1700可以存储用于处理器1300的处理和控制的程序，并存储输入到电子设备1000或将从电子设备1000输出的数据。

根据实施例的存储器1700可以存储在识别图像中的对象的操作中处理的数据。此外，存储器1700可以存储由电子设备1000获得的第一图像或源图像。此外，存储器1700可以存储用于生成第二图像的学习模型。例如，在执行根据实施例的用于识别图像中的对象的操作之前，存储器1700可以已经预先存储了学习模型。

存储器1700可以包括以下至少一种类型的存储介质：闪存类型、硬盘类型、多媒体卡微型类型、卡类型存储器(例如，安全数字(SD)或极限数字(XD))、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘或光盘。

存储在存储器1700中的程序可以根据其功能分为多个模块，例如，程序可以分为UI模块1710、触摸屏模块1720、通知模块1730等。

UI模块1710可以为每个应用提供与电子设备1000交互的专用用户界面(UI)或图形用户界面(GUI)。触摸屏模块1720可以感测用户在触摸屏上做出的触摸手势，并将关于用户触摸手势的信息传送给处理器1300。根据实施例的触摸屏模块1720可以识别和分析触摸代码。触摸屏模块1720可以配置有包括控制器的单独硬件。

各种传感器可以安装在触摸屏内部或周围以感测在触摸屏上进行的触摸或接近触摸。用于感测在触摸屏上进行的触摸的传感器的示例是触觉传感器。触觉传感器可以是用于感测特定对象的接触的传感器，该接触可以被人感觉到。触觉传感器可以感测各种信息，诸如接触表面的粗糙度、接触对象的刚度、接触点的温度等。

用户的触摸手势可以包括轻敲、触摸并保持、双击、拖动、平移、轻弹、拖放、滑动等。

通知模块1730可以生成用于通知电子设备1000的事件发生的信号。

图7是示出根据实施例的识别图像中的对象的方法的流程图。如图7所示的识别图像中的对象的方法可以对应于如图1所示的识别图像中的对象的方法。

参照图7，在操作710，电子设备1000可以从要在其中识别对象的第一图像中包括的第一对象提取第一对象信息。电子设备1000可以确定第一图像的第一对象是否对应于第二对象，从而识别第一图像中的第二对象。

根据实施例的第二对象可以是预先决定的特定对象。此外，第二对象可以已经被预先确定为其外观可根据各种条件改变的各种对象。

此外，根据实施例的第一图像可以包括通过各种方法拍摄的各种图像。

此外，根据实施例的第一对象信息可以包括关于第一对象的外部特征的信息，该外部特征可以根据各种条件而改变。例如，第一对象信息可以包括可改变为各种形式的第一对象的姿势信息和风格信息中的至少之一。

在操作720中，电子设备1000可以基于在操作710中提取的第一对象信息来获得用于生成包括第二对象的图像的学习模型。根据实施例，可以从包括第二对象的至少一个源图像生成学习模型，并且根据实施例，在执行识别图像中的对象的操作之前，学习模型可以已经预先存储在了电子设备1000中。

根据实施例的学习模型可以是能通过使用第一对象信息作为输入值来生成包括第二对象的新图像的生成模型，学习模型可以是例如GAN。然而，学习模型不限于上述示例，并且学习模型可以包括能基于对象信息生成包括需要识别的对象的新图像的各种数据。此外，根据实施例，可以为可由电子设备1000识别的每个对象提供学习模型。

在操作730中，电子设备1000可以将第一对象信息输入到学习模型以生成包括第二对象的第二图像。第二图像可以是基于第一对象信息新生成的图像，并且第二图像可以包括需要由电子设备1000在第一图像中识别的第二对象。

因为根据实施例的第二图像是基于第一对象信息生成的图像，所以第二图像可以包括具有与第一对象信息相同或相似的对象信息的第二对象。因此，根据实施例，考虑到关于对象的可变特征的信息，电子设备1000可以识别图像中的对象。

在操作740中，电子设备1000可以将第一图像与第二图像进行比较。根据实施例，电子设备1000可以提取第一图像和第二图像中包括的对象的一个或更多个特征值，并确定特征值之间的相似度，从而确定第一图像和第二图像之间的相似度。

当第一图像中包括的第一对象不同于需要由电子设备1000识别的第二对象时，第一图像的关于除了与第一对象信息相关的特征(例如，姿势和风格)以外的其他特征(例如，骨架、高度、和体型)的特征值可以与第二图像的特征值极大地不同。原因可以是因为第二图像是由基于包括需要被电子设备1000识别的第二对象的图像训练的模型生成的图像。

在操作750中，电子设备1000可以基于在操作740中执行的比较的结果将第一图像中包括的第一对象识别为第二对象。根据实施例，当第一图像和第二图像的特征值之间的相似度大于或等于参考值时，电子设备1000可以确定第一图像的第一对象与第二对象相同。同时，当第一图像和第二图像的特征值之间的相似度小于参考值时，电子设备1000可以确定第一对象与第二对象不同。

图8示出了根据实施例的识别图像中的对象的方法以及可通过该方法处理的图像的示例。

尽管如图8所示的识别图像中的对象的方法对应于图1、图2和图7所示的方法，但是图8所示的方法还可以包括从第一图像提取第二对象信息的操作和基于第二对象信息生成第三图像的操作。

参照图8，在操作810中，电子设备1000可以获得用于识别对象的第一图像811。根据实施例的第一图像811不限于图8所示的示例，并且可以包括通过各种方法拍摄的各种图像。

在操作820中，电子设备1000可以从第一图像811提取第一对象信息821。根据实施例的第一对象信息821可以包括关于对象的外部特征的信息，该外部特征可以根据各种条件而改变。

像第一对象信息821一样，稍后将描述的第二对象信息841和842可以包括关于可根据各种条件而改变的对象的外部特征的信息，并且可以包括与第一对象信息821不同种类的信息。例如，第一对象信息821可以包括姿势信息，第二对象信息841和842可以包括风格信息。

在操作830中，电子设备1000可以将在操作820中提取的第一对象信息821输入到预先存储的学习模型以生成第二图像831。在实施例中，第二图像831可以是基于第一对象信息821生成并包括需要识别的第二对象的图像。此外，可以独立于在操作110中获得的第一图像811通过使用在操作120中提取的第一对象信息821来新生成第二图像831。

学习模型可以是能通过使用第一对象信息821作为输入值来生成新图像的生成模型，学习模型可以是例如GAN。学习模型可以是基于包括第二对象的源图像和从每个源图像提取的对象信息中的至少一个预先训练的模型。

因此，学习模型可以从包括第二对象的至少一个源图像生成，并且可以在执行根据实施例的识别图像中的对象的操作之前已经预先存储在了电子设备1000中。

在操作840中，电子设备1000可以从第一图像811提取第二对象信息841和842。第二对象信息841和842可以是例如风格信息，并包括关于第一张图811的对象所穿服装的信息。

然而，第二对象信息841和842不限于图8所示的示例，并且可以包括除了第一对象信息821以外的关于第一图像811的对象的可变外部特征的各种信息。

在操作850中，电子设备1000可以基于在操作830中生成的第二图像831以及在操作840中提取的第二对象信息841和842来生成第三图像851。根据实施例，电子设备1000可以将第二图像831的第二对象与第二对象信息841和842的服装组合以生成第三图像851。因此，根据实施例，关于第三图像851的对象的可变特征的信息可以与关于第一图像811的对象的可变特征的信息相同或相似。例如，第三图像851的姿势信息和风格信息中的至少之一可以包括与第一图像811的姿势信息和风格信息中的至少之一相同或相似的信息。

在操作860中，电子设备1000可以将第一图像811与第三图像851进行比较。根据实施例，电子设备1000可以提取第一图像和第三图像中包括的对象的一个或更多个特征值，并确定特征值之间的相似度，从而确定第一图像和第三图像之间的相似度。根据实施例，除了第三图像851的姿势和风格以外的其他特征值(例如，骨架、高度、体型等)之间的差异可以对确定第一图像和第三图像之间的相似度具有较大影响。

参照图9，当用户901喊“来这里”以呼叫机器人904时，位于位置906的机器人904可以检查呼叫了自己的用户901的位置，并拍摄呼叫了自己的用户901(905)。机器人904可以基于通过拍摄(905)用户901而获得的图像和用户901说出的关于“来这里”的语音信息中的至少之一来识别用户901。然而，由机器人904执行的识别用户901的方法不限于上述示例，并且机器人904可以通过各种方法在预先注册的用户中识别谁是呼叫了自己的用户901。

根据实施例，所识别的用户901可以被确定为第二对象。

机器人904可以获得针对被确定为第二对象的用户901的学习模型。机器人904可以通过使用针对用户901的学习模型在稍后将拍摄的图像中识别用户901。

此后，机器人904可以绕过障碍物903并移动到位置907，以便根据用户901的命令移动到用户901的位置。然而，在位置907，因为障碍物903挡住了机器人904的视线，所以机器人904可能无法连续地拍摄用户901。在这种情况下，机器人904可以越过障碍物903并移动到机器人904可确保视野910以拍摄用户901的位置909。此时，用户901可以根据时间的推移从位置902移动到位置911，或者用户901可以在位置911处保持与在位置902所保持的姿势不同的姿势。。

机器人904可以在位置911拍摄用户901以获得用户901的图像，并基于针对用户901的学习模型从拍摄的图像生成第二图像。机器人904可以将拍摄的图像与第二图像进行比较，以确定在位置911拍摄的用户901是否与在位置902呼叫了自己的用户901相同。

因此，尽管用户901的姿势已经改变，但是机器人904可以在位置909处拍摄的图像中以高精度识别被确定为第二对象的用户901。

图10示出了根据实施例的应用识别图像中的对象的方法的示例。

参照图10，监控相机1001的系统可以分析由监控相机1001拍摄的图像以感测新人1002的出现。监控相机1001的系统可以基于预先存储的数据在预先注册的人中识别谁是感测到的人1002。此外，当监控相机1001的系统确定感测到的人1002不对应于预先注册的任何人时，监控相机1001的系统可以将人1002注册为新人，然后识别注册的人1002。然而，由监控相机1001的系统执行的识别人1002的方法不限于上述示例，并且监控相机1001的系统可以通过各种方法来识别人1002。根据实施例，所识别的人1002可以被确定为第二对象。

监控相机1001的系统可以获得针对被确定为第二对象的人1002的学习模型。针对人1002的学习模型可以通过训练包括人1002的至少一个图像来获得。监控相机1001的系统可以通过使用针对人1002的学习模型来识别稍后将拍摄的图像中的人1002。

当人1002越过障碍物1003并移动时，由于障碍物1003，监控相机1001可能无法在预设时间内拍摄人1002。在预设时间内，人1002可能戴着头盔并骑着自行车(1004)，或者可能换了服装然后移动到另一个位置。

监控相机1001可以拍摄人1002戴着头盔并骑着自行车的状态1004或人1002换了衣服的状态1005。监控相机1001的系统可以过使用针对人1002的学习模型，从通过拍摄人1002戴着头盔并骑着自行车的状态1004或人1002换了服装的状态1005而获得的图像识别被确定为第二对象的人1002。

因此，尽管人1002的服装或姿势已经改变，但是监控相机1001的系统可以以高精度识别被确定为第二对象的人1002。

根据实施例，尽管图像中包括的对象的外部特征以各种方式改变，但是可以以高精度从图像识别对象。

实施例可以以包括可由计算机运行的指令(诸如由计算机运行的程序模块)的计算机可读记录介质的形式来实现。计算机可读记录介质可以是能够被计算机访问的任意可用介质，并且可以包括易失性或非易失性介质以及可分离或不可分离介质。此外，计算机可读记录介质可以包括计算机存储介质和通信介质。计算机存储介质可以包括通过任意方法或技术实现以存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的易失性和非易失性介质以及可分离和不可分离介质。通信介质一般可以包括计算机可读指令、数据结构或程序模块，并且可以包括任意信息传输介质。

此外，在本公开中，术语“部分”、“模块”等可以是硬件部件(诸如处理器或电路)和/或由硬件部件(诸如处理器)运行的软件部件。

上述描述仅是出于说明的目的，对于本领域普通技术人员将明显的是，在不改变本公开的技术精神和基本特征的情况下，可以对其进行各种修改。因此，应理解，上述示例性实施例在所有方面仅是出于说明的目的而不是出于限制的目的。例如，被描述为单一类型的每个部件可以以分布式类型来实现，并且被描述为分布式的部件可以以组合形式来实现。

本公开的范围将由稍后将描述的权利要求、权利要求的精神和范围以及将从旨在包括在本公开的范围内的等同概念得出的所有此类修改指示。

Claims

1.一种由电子设备执行的识别图像中包括的对象的方法，该方法包括：

从第一图像中包括的第一对象提取第一对象信息；

获得用于从第一对象信息生成包括第二对象的图像的学习模型；

通过将第一对象信息输入到学习模型来生成包括第二对象的第二图像；

将第一图像与第二图像进行比较；以及

基于比较结果将第一对象识别为第一图像中的第二对象。

2.根据权利要求1所述的方法，其中第二图像包括具有与第一对象信息对应的外观的第二对象。

3.根据权利要求1所述的方法，其中第一对象信息包括关于第一对象的可变外观的信息。

4.根据权利要求1所述的方法，其中第一对象信息包括关于第一图像中包括的第一对象的姿势的信息和关于第一图像中的第一对象的风格的信息中的至少之一。

5.根据权利要求1所述的方法，其中将第一图像与第二图像进行比较包括：

从第一图像中包括的第一对象提取第二对象信息；

基于第二对象信息从第二图像生成第三图像；以及

将第一图像与第三图像进行比较，

其中第二对象基于第一图像与第三图像的比较结果在第一图像中被识别。

6.根据权利要求5所述的方法，其中第一对象信息包括关于第一对象的姿势的信息，以及

第二对象信息包括关于第一对象的风格的信息。

7.根据权利要求1所述的方法，其中将第一图像与第二图像进行比较包括：

从第一图像和第二图像提取关于第一对象的特征信息和关于第二对象的特征信息；以及

将关于第一对象的特征信息与关于第二对象的特征信息进行比较，

其中第二对象基于关于第一对象的特征信息与关于第二对象的特征信息的比较结果在第一图像中被识别。

8.一种用于识别图像中包括的对象的电子设备，该电子设备包括：

存储器，存储第一图像和学习模型；

至少一个处理器，被配置为从第一图像中包括的第一对象提取第一对象信息、获得用于从第一对象信息生成包括第二对象的图像的学习模型、通过将第一对象信息输入到学习模型来生成包括第二对象的第二图像、将第一图像与第二图像进行比较、以及基于比较结果将第一对象识别为第一图像中的第二对象；以及

输出器，被配置为输出关于在第一图像中识别的第二对象的识别结果。

9.根据权利要求8所述的电子设备，其中第二图像包括具有与第一对象信息对应的外观的第二对象。

10.根据权利要求8所述的电子设备，其中第一对象信息包括关于第一对象的可变外观的信息。

11.根据权利要求8所述的电子设备，其中第一对象信息包括关于第一图像中包括的第一对象的姿势的信息和关于第一图像中的第一对象的风格的信息中的至少之一。

12.根据权利要求8所述的电子设备，其中所述至少一个处理器还被配置为从第一图像中包括的第一对象提取第二对象信息、基于第二对象信息从第二图像生成第三图像、以及将第一图像与第三图像进行比较，

13.根据权利要求12所述的电子设备，其中第一对象信息包括关于第一对象的姿势的信息，以及

第二对象信息包括关于第一对象的风格的信息。

14.根据权利要求8所述的方法，其中所述至少一个处理器还被配置为：

15.一种计算机可读记录介质，其存储用于实现根据权利要求1至7中任一项所述的方法的程序。