CN110998565A

CN110998565A - 电子装置和用于控制该电子装置的方法

Info

Publication number: CN110998565A
Application number: CN201880050428.3A
Authority: CN
Inventors: 金元植; 崔闰熙
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-08-01
Filing date: 2018-08-01
Publication date: 2020-04-10
Also published as: KR102469717B1; KR20190013427A; EP3596667A1; EP3596667A4

Abstract

一种利用机器学习算法的人工智能(AI)系统用于：接收图像中的区域；通过使用经过训练的模型，使用描述区域中的对象的第一文本信息来提供第一搜索结果，并且通过使用所述经过训练的模型，使用描述第二区域中的对象的第二文本信息来提供第二搜索结果。

Description

电子装置和用于控制该电子装置的方法

技术领域

与示例实施例一致的设备和方法涉及一种电子装置和用于控制该电子装置的方法，并且更具体地，涉及一种基于描述所选对象的文本信息来提供针对所选对象的搜索结果的电子装置和用于控制该电子装置的方法。

此外，与本公开一致的设备和方法涉及一种用于使用机器学习算法来模拟诸如人脑的认知、决策等的功能的人工智能(AI)系统和该人工智能系统的应用。

背景技术

近来，人工智能(AI)已被用于各种领域。与以前的基于规则的智能系统不同，AI是一种机器自行学习、做出决策并变得智能以模仿人类智慧的功能的系统。随着AI系统的发展，识别率已经提高，并且因此，例如，用户的品味被更准确地理解。因此，以前的基于规则的智能系统已逐渐被深度学习AI系统取代。

AI技术包括机器学习(例如，深度学习)和使用机器学习的元技术(elementtechnology)。

机器学习是一种自行对输入数据的特征进行分类和学习的算法技术。元技术是一种使用机器学习算法(诸如深度学习等)来模拟诸如人脑的认知、决策等的功能，并且可实现语言理解、视觉理解、推理/预测、知识表达、运动控制等的技术。

语言理解是一种识别人类语音的语言和特性并对人类语音的语言和特性进行应用和处理的技术，该技术包括自然语言处理、机器翻译、对话系统、问答、语音识别与合成等。视觉理解是一种类似于人类视觉来对对象进行识别和处理的技术，该技术包括对象识别、对象跟踪、图像搜索、人体识别、场景理解、空间理解、图像改善等。推理预测是一种确定信息并做出逻辑推理和预测的技术，该技术包括基于知识/概率的推理、优化预测、基于偏好的计划、推荐等。知识表达是一种用知识数据对人类的经验信息执行自动化处理的技术，该技术包括知识构建(数据生成/分类)、知识管理(数据使用)等。运动控制是一种控制车辆的自动驾驶和机器人的运动的技术，该技术包括运动控制(导航、碰撞、驱动)、操纵控制(行为控制)等。

近年来，为了搜索与图像相关的信息，用户可在搜索窗口中直接输入针对图像的搜索词以搜索与图像相关的信息，或者通过使用图像的元信息来搜索与图像相关的信息。

在用户直接输入搜索词以搜索与图像相关的信息的情况下，需要用户精确地输入搜索词，这带来不便。此外，在用户通过使用图像的元信息来搜索与图像相关的信息的情况下，可能存在用户不期望的搜索结果被返回的问题。

发明内容

技术问题

一个或更多个示例实施例提供了一种电子装置和用于控制该电子装置的方法，其中，所述电子装置能够通过使用经过训练的模型来获得描述由用户选择的对象的文本信息以获得针对所选对象的特定搜索结果。

解决方案

根据示例实施例的一方面，提供了一种电子装置，其中，所述电子装置包括：显示器；通信接口；处理器，被配置为控制显示器和通信接口；以及存储器，被配置为存储由处理器执行的至少一个程序。处理器可被配置为：控制显示器显示图像；接收指示显示器的区域的用户输入；如果显示器的所述区域指示显示器的显示图像中的第一对象的第一区域，则通过使用经过训练的模型，使用描述第一对象的第一文本信息来获得第一搜索结果；并且如果显示器的所述区域指示显示器的显示图像中的第二对象的第二区域，则通过使用经过训练的模型，使用描述第二对象的第二文本信息来获得第二搜索结果。

根据示例实施例的一方面，提供了一种用于存储程序的计算机可读记录介质，其中，所述程序实现电子装置的提供搜索结果的方法。所述方法包括：在电子装置上显示图像；接收指示在电子装置上显示的区域的用户输入；如果显示器的所述区域指示显示器的显示图像中的第一对象的第一区域，则通过使用经过训练的模型，使用描述第一对象的第一文本信息来获得第一搜索结果；如果显示器的所述区域指示显示器的显示图像中的第二对象的第二区域，则通过使用经过训练的模型，使用描述第二对象的第二文本信息来获得第二搜索结果。

从以下结合附图公开了本公开的各种实施例的详细描述，本公开的其他方面、优点和显著特征对本领域技术人员将变得显而易见。

有益效果

根据上述各种示例实施例，用户可更快且更方便地获得针对用户从包括在图像中的对象之中选择的对象的详细搜索结果。

附图说明

从以下结合附图的描述中，本公开的特定实施例的上述和其他方面将变得更加显而易见，其中：

图1是示出根据示例实施例的用于获得针对由用户选择的对象的文本信息并提供针对图像的搜索结果的电子装置的示图；

图2A是示出根据示例实施例的电子装置的框图；

图2B是示出根据示例实施例的电子装置的框图；

图3是示出根据示例实施例的经过训练的模型和获得针对由用户选择的对象的文本信息的框图；

图4是示出根据示例实施例的提供搜索结果的方法的流程图；

图5是示出根据示例实施例的提供搜索结果的方法的流程图；

图6是示出根据示例实施例的根据搜索类别获得对象的文本信息的示图；

图7是示出根据示例实施例的根据对象的类型获得对象的文本信息的示图；

图8是示出根据示例实施例的对项描述进行修改的示图；

图9和图10是示出根据示例实施例的对项描述进行修改的示图；

图11是示出根据示例实施例的使用UI来搜索与图像相关的信息的示图；

图12是示出根据示例实施例的控制电子装置的方法的流程图；

图13是根据示例实施例的电子装置的框图；

图14A和图14B是根据示例实施例的电子装置的框图；

图15和图16是根据示例实施例的经过训练的模型的流程图；

图17是示出根据示例实施例的用于控制电子装置以提供搜索结果的方法的流程图；以及

图18是示出根据示例实施例的提供搜索结果的流程图。

在所有附图中，相同的附图标号被用于表示相同的元件。

具体实施方式

参照附图详细描述了本公开的示例实施例。然而，应理解，本公开不限于在下文中描述的特定实施例，而是包括本公开的实施例的各种修改形式、等同形式和/或替代形式。关于附图的解释，相似的附图标号可被用于相似的构成元件。

在说明书中，术语“具有”、“可具有”、“包括”或“可包括”指示相应特征(例如，数值、功能、操作或诸如组件的构成元件)的存在，但不排除附加特征的存在。

在说明书中，术语“A或B”、“A或/和B中的至少一个”或“A或/和B中的一个或更多个”可包括一起列举的项的所有可能的组合。例如，术语“A或B”或“A或/和B中的至少一个”可指明(1)至少一个A、(2)至少一个B、或者(3)至少一个A和至少一个B两者。

如这里所使用的表述“1”、“2”、“第一”或“第二”可修饰各种元件，而不考虑其顺序和/或重要性，并且仅将一个元件与另一元件区分开。因此，所述表述不限制相应元件。

如果描述特定元件(例如，第一元件)与另一元件(例如，第二元件)“可操作地或通信地结合”或者特定元件(例如，第一元件)“可操作地或通信地结合到”另一元件(例如，第二元件)或“连接到”另一元件(例如，第二元件)，则应理解所述特定元件可被直接连接到所述另一元件，或者通过又一元件(例如，第三元件)被连接到所述另一元件。另外，当一个元件(例如，第一元件)与另一元件(例如，第二元件)“直接结合”或者一个元件(例如，第一元件)“被直接连接到”另一元件(例如，第二元件)时，可理解在所述元件与所述另一元件之间不存在元件(例如，第三元件)。

在说明书中，术语“被配置为”在特定情况下可被改变为例如“适合于”、“具有……能力”、“被设计为”、“被适配为”、“被制造为”或“能够”。术语“被配置为(被设置为)”不一定意味着在硬件层面“被专门设计为”。在特定情况下，术语“被配置为……的装置”可指“能够”与另一装置或组件一起做某事“的装置”。例如，短语“被配置为执行A、B和C的处理器”可表示或可指用于执行相应操作的专用处理器(例如，嵌入式处理器)或者可通过存储在存储装置中的一个或更多个软件程序的运行来执行相应操作的通用处理器(例如，CPU或应用处理器)。

根据本公开的各种实施例的电子装置可包括例如智能电话、平板PC、移动电话、视频电话、电子书阅读器、台式PC、膝上型PC、上网本计算机、工作站、便携式多媒体播放器(PMP)、MP3播放器、医疗装置、相机和可穿戴装置中的至少一个。可穿戴装置可包括附件类型(例如，手表、戒指、手链、脚链、项链、眼镜、隐形眼镜或头戴式装置(HMD))、织物或衣物嵌入类型(例如，电子衣服)、身体附着类型(例如，皮肤垫或纹身)或生物植入电路中的至少一个。在一些示例实施例中，电子设备可包括例如电视、数字视频盘(DVD)播放器、音响、冰箱、空调、清洁器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、家庭自动化控制面板、安全控制面板、媒体盒(例如，Samsung HomeSyncM、Apple TVTM或Google TVTM)、游戏机(例如，XboxTM、PlayStationTM)、电子词典、电子钥匙、便携式摄像机或电子相框中的至少一个。

在另一示例实施例中，电子设备可包括各种医疗装置(例如，各种便携式医疗测量装置(血糖监测仪、心率监测仪、血压测量装置或体温测量装置等)、磁共振血管造影(MRA)、磁共振成像(MRI)、计算机断层扫描(CT)、照相装置或超声装置等)、导航仪、全球导航卫星系统(GNSS)、事件数据记录器(EDR)、飞行数据记录器(FDR)、车辆信息娱乐装置、用于船舶的电子装置(例如，船舶导航装置、回转罗盘等)、航空电子设备、安全装置、汽车头单元、工业或家用机器人、无人机、金融机构的ATM、商店的销售点(POS)或物联网装置(例如，灯泡、传感器、洒水器、火警报警器、温度控制器、路灯、烤面包机、体育用品、热水箱、加热器、锅炉等)。

此外，术语“用户”可指使用电子设备的人或使用该电子设备的设备(例如，人工智能(AI)电子设备)。

将参照附图详细地描述一个或更多个示例实施例。

图1是示出根据示例实施例的用于获得针对由用户选择的对象的文本信息并提供针对图像的搜索结果的电子装置的示图。如图1的部分(a)中所示，电子装置100可显示图像(例如，照片)。就这一点而言，图像可包括多个对象(例如，自行车、汽车、骑自行车的人等)。

接下来，如图1的部分(b)中所示，电子装置100可检测用于选择包括对象(例如，自行车)的区域(或对象)的用户输入。例如，电子装置100可检测触摸对象的一个点达预设时间的长按触摸。此外，电子装置100可检测用于对对象进行多点触摸、根据施加到显示屏的特定大小的压力来触摸对象、依靠手指、电子笔等在对象周围绘制线条或绘制穿过对象的至少一部分的对角线的用户输入。此外，电子装置100可检测在按压设置在电子装置100中的按钮(例如，执行人工智能功能的按钮)之后(或者在按压设置在电子装置100中的按钮(例如，执行人工智能功能的按钮)的同时)触摸对象的用户输入。此外，电子装置100可检测使用预定义动作来选择对象的用户输入。

接下来，电子装置100可依靠经过训练的模型来获得用于描述在图像中选择的对象的文本信息。详细地，通过使用被训练为接收一个或更多个图像作为输入并获得与包括在图像中的所述一个或更多个对象和/或多个对象相关的信息的第一模型(例如，卷积神经网络(CNN)模型等)，电子装置100可获得与包括在图像中的所述一个或更多个对象和/或所述多个对象相关的信息。例如，电子装置100可根据用户输入通过使用第一模型从图1的部分(a)中示出的图像获得与对象(诸如“自行车”、“汽车”、“人”、“道路”等)相关的信息。此外，电子装置100可输入与多个对象相关的信息和与由用户选择的区域相关的信息(例如，坐标值等)，并且依靠被训练为获得针对所述多个对象之中的包括在所选区域中的对象的文本信息的第二模型(例如，递归神经网络(RNN)等)，获得用于描述图像中的对象之中的包括在所选区域中的对象的文本信息。就这一点而言，针对包括在所选区域中的对象的文本信息可包括与包括在所选区域中的对象与另一对象之间的关系相关的信息、针对包括在所选区域中的对象的详细描述信息以及针对包括在所选区域中的对象的行为信息中的至少一个。例如，电子装置100可依靠第二模型来获得“在汽车前面有人骑自行车”作为针对包括在图1的部分(b)的所选区域中的对象的文本信息。

因此，在从包括在图像中的对象之中选择了自行车对象的情况下，电子装置100可识别出对象“自行车”。但是，在本公开中，可通过经过训练的第一模型和经过训练的第二模型来获得指示所选对象与另一对象之间的关系的信息“在汽车前面有人骑自行车”。

具体地，当区域被用户选择时，电子装置100可通过使用经过训练的模型(即，第一模型和第二模型)来获得描述从图像获取的区域内的对象的第一文本信息。此外，当区域被用户选择时，电子装置100可通过使用经过训练的模型来获得指示从图像获取的区域内的对象的第二文本信息。换句话说，电子装置100可根据用户选择的区域来获得与包括在所选区域中的对象相关的信息。

此外，电子装置100可获得图像的包括与图像相关的信息的标签信息。此外，电子装置100可输入与多个对象相关的信息、与用户选择的区域相关的信息和标签信息，并且获得用于描述包括在所选区域中的对象的文本信息。例如，电子装置100可获得图像的标签信息，并且可获得图像被捕获的时间信息和位置信息，并且基于获得的时间信息产生文本信息“于dd/mm/yyyy在xxx骑自行车”

此外，电子装置100可基于根据用户输入设置的搜索类别来获得文本信息。例如，在搜索类别是新闻类别的情况下，电子装置100可获得文本信息“在汽车前面有人骑自行车”以提供针对包括在所选区域中的对象的事实信息。在搜索类别是购物类别的情况下，电子装置100可获得文本信息“棕色自行车”以提供针对包括在所选区域中的对象的购物信息。

如图1的部分(c)中所示，在获得了文本信息情况下，电子装置100可在搜索窗口中输入获得的文本信息。根据示例实施例，当用于搜索请求的用户输入被接收到时，电子装置100可基于获得的文本信息来产生针对搜索的查询。此外，电子装置100可将产生的查询发送到外部搜索服务器并接收搜索结果，并且提供接收到的搜索结果。根据另一示例实施例，当用于搜索请求的用户输入被接收到时，电子装置100可基于获得的文本信息在预存储的图像之中搜索与所选对象相关联的图像。此外，电子装置100可提供搜索结果。

根据各种示例实施例，电子装置100可在识别模型中使用图像和与检测到针对电子装置100的屏幕上显示的图像的用户输入的点相关的信息作为输入数据，并且获得与对象相关的信息。详细地，电子装置100可通过将图像和与检测到用户输入的点相关的信息输入到被训练为识别对象的对象识别模型来识别对象。在本公开中，可考虑识别模型的适用领域、装置的计算机性能等来构造经过训练的第一模型或经过训练的第二模型。例如，第一模型可被训练为接收图像和/或图像中的对象作为输入，并且估计与包括在图像中的对象相关的信息。第二模型可被训练为接收与多个对象相关的信息和与所选区域相关的信息作为输入，并且获得针对所述多个对象之中的包括在所选区域中的对象的文本信息。经过训练的模型可以是例如基于神经网络的模型。识别模型可被设计为在计算机上模拟人脑结构，并且包括具有权重值并模拟人类神经网络的神经元的多个网络节点。所述多个网络节点中的每个网络节点可形成连接关系，使得神经元模拟它们的通过突触来交换信号的突触活动。就这一点而言，可将第一模型实现为CNN模型，并且可将第二模型实现为RNN模型。然而，这仅是示例性的，并且可将第一模型和第二模型实现为其他模型。在本公开中，第一模型和第二模型被单独构造。然而，这仅是示例，第一模型和第二模型可不被单独构造，并且CNN模型和RNN模型可彼此组合并被实现为单个经过训练的模型。

此外，电子装置100可使用人工智能代理来搜索如上所述的与由用户选择的对象相关的信息。就这一点而言，人工智能代理可以是专用于提供基于人工智能(AI)的服务(例如，语音识别服务、秘书服务、翻译服务、搜索服务等)的程序，并且可由现有的通用处理器(例如，CPU)或附加的AI专用处理器(例如，GPU)运行。具体地，人工智能代理可控制各种模块。

详细地，在图像上的对象通过预设用户输入(例如，长按等)被选择或者在设置在电子装置100中的按钮(例如，用于运行人工智能代理的按钮)被激活之后包括对象的区域被选择的情况下，可操作人工智能代理。此外，人工智能代理可获得针对包括在通过用户输入选择的区域中的对象的文本信息，并且基于文本信息来获得与所选对象相关的图像。

当屏幕上的特定图标被触摸或者设置在电子装置100中的按钮(例如，用于运行人工智能代理的按钮)被激活时，也可操作人工智能代理。可选择地，在针对包括对象的区域的预设用户输入被检测到之前，或者在设置在电子装置100中的按钮被选择之前，人工智能代理可处于预执行状态。就这一点而言，在针对包括对象的区域的预设用户输入被检测到之后，或者在设置在电子装置100中的按钮被选择之后，电子装置100的人工智能代理可针对所选对象执行搜索功能，并且返回与所选对象相关的信息作为搜索功能的结果。此外，在针对对象的预设用户输入被检测到之前，或者设置在电子装置100中的按钮被选择之前，人工智能代理可处于待机状态。就这一点而言，待机状态可以是检测用于控制人工智能代理的操作的启动的预定用户输入的接收的状态。在人工智能代理处于待机状态时，当针对对象的预设用户输入被检测到或者设置在电子装置100中的按钮被选择时，电子装置100可对人工智能代理进行操作，并且搜索针对所选对象的相关信息并提供找到的信息。

另外，人工智能代理可控制各种模块。

图2A和图2B是示出根据示例实施例的电子装置的框图。

如图2A中所示，电子装置100可包括显示器110、通信接口120、用户输入130、存储器140和处理器150。图2A中示出的元件可实现本公开的示例实施例，并且对本领域技术人员显而易见的合适的硬件/软件元件也可被包括在电子装置100中。

显示器110可在其上显示各种屏幕。具体地，显示器110可显示包括多个对象的图像。此外，显示器110可接收用于使用获得的文本信息来执行搜索的搜索窗口的用户输入和用于修改文本信息的各种用户界面(UI)的用户输入。此外，显示器110可显示搜索结果。

通信接口120可以以各种通信方法与外部装置进行通信。例如，通信接口120可与外部搜索服务器执行通信并接收响应于基于文本信息而产生的查询的搜索结果。此外，在经过训练的模型被存储在附加的人工智能服务器中的情况下，通信接口120可与人工智能服务器执行通信并接收针对包括在所选区域中的对象的文本信息。

用户输入130可接收各种用户输入并将接收到的用户输入发送到处理器150。具体地，用户输入130可包括触摸传感器、(数字)笔传感器、压力传感器、键或麦克风。触摸传感器可使用例如电容性方法、电阻性方法、红外方法和超声方法中的至少一种，并且触摸传感器可与显示器110配合或者可与显示器110集成以获得用户输入。(数字)笔传感器可以是例如触摸面板的部分或者包括用于识别使用的附加片，并且可与显示器110配合或者可与显示器110集成以获得用户输入。键可包括例如物理按钮、光学键或按键。麦克风可以是用于接收用户语音的构造，其中，所述麦克风可被设置在电子装置100的内部。然而，这仅是示例，麦克风可被设置在电子装置100的外部并被电连接到电子装置100。

例如，用户输入130可根据用于选择对象的预设用户触摸来获得输入信号或者根据用于选择设置在电子装置100外部的按钮的用户输入来获得输入信号。此外，用户输入130可将输入信号发送到处理器150。

存储器140可存储关于电子装置100的其他元件中的至少一个的命令或数据。可将存储器140实现为非易失性存储器、易失性存储器、闪存存储器、硬盘驱动器(HDD)或固态驱动器(SDD)。存储器140由处理器150访问，并且可由处理器150执行数据的读取/记录/修改/删除/更新。根据本公开的示例实施例，存储器可包括存储器140、处理器150内的只读存储器(ROM)和随机存取存储器(RAM)以及附接到电子装置100的存储卡(例如，微型安全数字(SD)卡或记忆棒)。此外，存储器140可存储用于构成将在显示器110的显示区域中显示的各种类型的屏幕的程序、数据等。

例如，存储器140可存储用于执行人工智能代理的程序。就这一点而言，人工智能代理可以是用于为电子装置100提供各种服务的个性化程序。

此外，存储器140可存储用于获得描述在图像中选择的对象的文本信息的第一模型和第二模型。

处理器150可被电连接到显示器110、通信接口120、用户输入130和存储器140，并且控制电子装置100的整体操作和功能。例如，当处理器150运行存储在存储器140中的指令、程序和/或数据时，处理器150可通过使用经过训练的人工智能模型来获得针对在图像中选择的对象的文本信息，并且基于获得的文本信息执行搜索操作。

详细地，处理器150可控制显示器110提供包括多个对象的图像。当通过用户输入130接收到用于选择所述多个对象中的一个对象的用户输入时，可使用经过训练的模型来获得用于描述图像中的所选区域中所包括的对象的文本信息。此外，处理器150可基于获得的文本信息来产生查询，并且控制通信接口120将产生的查询发送到外部搜索服务器。此外，处理器150可经由通信接口120从外部搜索服务器接收响应于查询的搜索结果，并且控制显示器110提供接收到的搜索结果。

图2B是示出根据示例实施例的电子装置100的框图。

如图2B中所示，电子装置100可包括显示器110、通信接口120、用户输入130、存储器140、处理器150、相机160和音频输出接口170。由于在图2A中描述了显示器110、存储器140和用户输入130，因此将省略其重复解释。

通信接口120可根据各种通信方式来与各种类型的外部装置进行通信。通信接口120可包括Wi-Fi芯片120-1、蓝牙芯片120-2和无线通信芯片120-3中的至少一个。处理器150可通过使用通信接口120来与外部聊天服务器或各种类型的外部装置执行通信。此外，通信接口120可通过各种通信芯片(诸如NFC通信模块等)与外部装置进行通信。

相机160可捕获包括至少一个对象的图像。就这一点而言，相机160可被设置在电子装置100的前侧和后侧中的至少一侧上。另外，相机160可被设置在电子装置100的内部。然而，这仅是示例，相机160可存在于电子装置100的外部，并且被无线连接到电子装置100或者经由有线线缆被连接到电子装置100。

音频输出接口170可包括各种音频输出电路，并且被配置为除了输出被音频处理器(未显示)执行了各种处理操作(诸如解码、放大和噪声滤波)的各种音频数据之外还输出各种类型的警报声音或语音消息。特别地，可将音频输出接口170实现为扬声器；这仅是本公开的各种示例实施例中的一个。可将音频输出接口170实现为可输出音频数据的输出组件。

处理器150(或控制器)可通过使用存储在存储器140中的各种类型的程序来控制电子装置100的整体操作。

处理器150可包括RAM 151、ROM 152、图形处理器153(GPU)、主中央处理器(CPU)154、第一接口155-1至第n接口155-n以及总线156。RAM 151、ROM 152、图形处理器153、主CPU 154以及第一接口155-1至第n接口155-n可通过总线156被互连。

图3是示出根据示例实施例的经过训练的模型和获得针对由用户选择的对象的文本信息的框图。

如图3中所示，电子装置100可包括图像获得模块310、第一模型320、标签信息获得模块330、第二模型340、第三模型345、文本信息编辑模块350、查询产生模块360、搜索模块370和搜索结果提供模块380。

图像获得模块310可获得包括多个对象的图像。详细地，图像获得模块310可经由相机160获得图像，并且经由通信接口120从外部装置或外部服务器获得图像。

第一模型320可以是被训练为通过使用图像作为输入数据来获得(或估计)与包括在图像中的对象相关的信息的人工智能模型。例如，第一模型320可通过使用图像作为输入数据来获得与包括在图像中的多个对象相关的信息。就这一点而言，第一模型320可以是卷积神经网络(CNN)模型，但这仅是示例。可将第一模型320实现为能够识别包括在图像中的对象的另一模型。

标签信息获得模块330可获得包括在图像数据中的标签信息。例如，标签信息获得模块330可获得各种标签信息，其中，所述标签信息包括详细的图像信息(例如，图像尺寸、文件格式、压缩形式等)、图像捕获日期、图像捕获位置、图像捕获者、图像捕获装置、与包括在图像中的对象相关的信息等。

第二模型340可以是被训练为通过使用与多个对象相关的信息和与用户选择的区域相关的信息作为输入数据来获得针对所述多个对象之中的包括在由用户选择的区域中的对象的文本信息的模型。具体地，可使用从第一模型320获得的与所述多个对象相关的信息、与用户选择的区域相关的信息和从标签信息获得模块330获得的标签信息作为第二模型340的输入数据，来获得针对包括在由用户选择的区域中的对象的文本信息。就这一点而言，可将第二模型340实现为能够将多条信息处理为包括多个词语的文本信息的递归神经网络(RNN)模型。然而，这仅是示例，可将第二模型340实现为能够将多条信息处理为包括多个词语的文本信息的不同模型。

具体地，第二模型340可根据用户选择的区域，获得包括在所选区域中的对象的文本信息。例如，在用户选择的区域是第一区域的情况下，第二模型340可获得包括在第一区域中的第一对象的文本信息。在用户选择的区域是第二区域的情况下，第二模型340可获得包括在第二区域中的第二对象的文本信息。

就这一点而言，第二模型340可被训练为使得根据对象的类型来获得与不同描述项相关的信息。此外，第二模型340可被训练为使得根据搜索类别来获得不同的文本信息。

文本信息编辑模块350可以是用于编辑从第二模型340获得的文本信息的模块。具体地，文本信息编辑模块350可提供用于改变文本信息中所包括的多个项中的至少一项中包括的词语或描述的UI。此外，文本信息编辑模块350可提供用于为文本信息中所包括的多个描述项中的至少一个描述项中包括的词语设置权重值的UI。

此外，文本信息编辑模块350可通过使用第三模型345来产生图像和与经过编辑的文本信息对应的新图像。就这一点而言，第三模型345可以是被训练为通过使用图像和经过编辑的文本信息作为输入数据来产生新图像的模型，并且可将第三模型345实现为生成式对抗网络(GAN)。

查询产生模块360可产生查询，其中，所述查询包括从文本信息编辑模块350编辑的文本信息和从第三模型345产生的新图像。

搜索模块370可基于产生的查询来搜索与所选对象或相关图像相关的信息。在示例实施例中，搜索模块370可将产生的查询发送到外部搜索服务器，并且从外部搜索服务器接收响应于查询的搜索结果，并且搜索与所选对象或相关图像相关的信息。在另一示例实施例中，搜索模块370可将包括在预存储的图像中的标签信息(或文本信息)与包括在查询中的文本信息进行比较并搜索存储在电子装置100中的图像。

搜索结果提供模块380可向用户提供由搜索模块370返回的搜索结果(即，与所选对象或相关图像相关的信息)。就这一点而言，搜索结果提供模块380可在电子装置的显示器上的搜索结果窗口中提供搜索结果，但这仅是示例。搜索结果提供模块380可在屏幕的任何区域中提供搜索结果。

在上述示例实施例中，描述了第一模型至第三模型被存储在电子装置100中。然而，这仅是示例，第一模型至第三模型可被存储在外部服务器中。在这种情况下，电子装置100可通过与外部服务器进行的通信来执行上述操作。

图4是示出根据示例实施例的提供搜索结果的方法的流程图。

首先，在操作S410，电子装置100可在其上显示图像。图像可包括多个对象。

在操作S420，电子装置100可接收用于选择对象的用户输入。可将用户输入实现为各种触摸输入，诸如触摸包括对象的区域的一个点达预定时间的长按触摸输入、用手指、电子笔等对对象进行多点触摸的多点触摸输入、用力触摸的力触摸输入以及在对象的外围区域进行绘图的绘图触摸输入，并且可将用户输入实现为在设置在电子装置100中的按钮(例如，执行人工智能功能的按钮)被按压之后(或设置在电子装置100中的按钮(例如，执行人工智能功能的按钮)被按压的同时)触摸对象的用户输入。

在操作S430，电子装置100可通过使用经过训练的模型来获得所选对象的文本信息。详细地，电子装置100可将图像输入到第一模型320，并且获得与包括在图像中的多个对象相关的信息。此外，电子装置100可通过输入与所述多个对象相关的信息和与所选区域相关的信息来获得针对所选对象的文本信息。此外，除了输入通过第一模型320获得的与所述多个对象相关的信息和与所选区域相关的信息之外，电子装置100还可通过输入图像的标签信息来获得针对所选对象的文本信息。第二模型340可根据搜索类别来获得不同的文本信息。

在操作S440，电子装置100可基于获得的文本信息来产生用于搜索的查询。具体地，电子装置100可根据用户命令来编辑获得的文本信息并产生查询。详细地，电子装置100可将针对包括在获得的文本信息中的多个描述项中的至少一个描述项的词语改变为另一词语或者设置权重值。

在操作S450，电子装置100可将获得的查询发送到搜索服务器200。

在操作S460，搜索服务器200可基于查询来执行搜索。详细地，搜索服务器200可基于包括在查询中的文本信息来搜索与所选对象相关的信息或图像。可选择地，搜索服务器200可根据用户设置的搜索类别来执行搜索。例如，在用户设置了新闻类别的情况下，搜索服务器200可响应于查询来搜索包括在新闻类别中的新闻内容。

在操作S470，搜索服务器200可将搜索结果返回到电子装置100，并且在操作S480，电子装置100可提供搜索结果。就这一点而言，电子装置100可与图像相分离地或与图像一起提供搜索结果。

图5是示出根据示例实施例的提供搜索结果的方法的流程图。

在操作S510，电子装置100可存储针对预存储的图像的文本信息。详细地，电子装置100可向第一模型320和第二模型340提供输入并获得针对包括在图像中的对象的文本信息。电子装置100可获得针对多个对象中的每个对象的文本信息。此外，电子装置100可将图像与针对所述多个对象中的每个对象的文本信息进行匹配，并且存储与对象相关的匹配文本信息。

在操作S520，电子装置100可提供图像。也就是说，电子装置100可提供预存储的图像或从外部装置接收到的图像中的一个。就这一点而言，多个对象可被包括在提供的图像中。

在操作S530，电子装置100可接收用于选择对象的用户输入。可将用户输入实现为各种触摸输入，诸如长按触摸输入、多点触摸输入、力触摸输入和绘图触摸输入，并且可将用户输入实现为在设置在电子装置100中的按钮(例如，执行人工智能功能的按钮)被按压之后(或者设置在电子装置100中的按钮(例如，执行人工智能功能的按钮)被按压的同时)触摸对象的用户输入。

在操作S540，电子装置100可通过使用经过训练的模型来获得所选对象的文本信息。详细地，电子装置100可将图像输入到第一模型320并获得与包括在图像中的多个对象相关的信息。此外，电子装置100可通过输入与所述多个对象相关的信息和与所选区域相关的信息来获得针对所选对象的文本信息。此外，除了输入通过第一模型320获得的所述多个对象之外，电子装置100还可通过输入图像的标签信息来获得针对所选对象的文本信息。电子装置100可根据用户输入来编辑文本信息。

在操作S550，电子装置100可将获得的文本信息与预存储的文本信息进行比较并执行搜索。详细地，电子装置100可将获得的文本信息与预存储的文本信息进行比较，并且搜索具有与获得的文本信息相同或相似的文本信息的图像。作为另一示例，电子装置100可将获得的文本信息与图像的标签信息进行比较并搜索该图像。

在操作S560，电子装置100可将搜索结果提供给用户。换句话说，电子装置100可基于文本信息从预存储的图像搜索与所选对象相关的图像，并且向用户提供该图像。

图6是示出根据示例实施例的获得对象的文本信息的示图。

首先，如图6的部分(a)中所示，电子装置100可显示包括多个对象的图像。图像可包括穿着白色网球服的网球运动员的对象(以下被称为“运动员对象”)610。

此外，如图6的部分(a)中所示，电子装置100可接收用于选择运动员对象610的用户输入。用于选择运动员对象610的用户输入可以是按压显示有运动员对象的区域超过预设时间的长按触摸输入，但不限于此。可通过不同的用户输入来选择运动员对象。

如图6的部分(b)中所示，当接收到用于选择运动员对象610的用户输入时，电子装置100可在显示器的一个区域中显示用于设置搜索类别的第一UI 630。如图6的部分(b)中所示，电子装置100可在检测到用户输入的点处显示第一UI 630，但这仅是示例。电子装置100可在显示屏的预设区域(例如，屏幕的上方区域或下方区域)中显示第一UI 630。

在通过第一UI 630设置了搜索类别的情况下，电子装置100可基于设置的搜索类别来产生文本信息。详细地，电子装置100可根据设置的搜索类别的属性来调整第二模型340的参数并产生不同的文本信息。

详细地，在用户从第一UI 630中选择新闻类别的情况下，电子装置100可设置第二模型340的参数以获得包括针对运动员对象610的事实信息的文本信息。因此，电子装置100可获得包括针对运动员对象610的事实信息的文本信息“网球运动员A”，并且如图6的部分(c)中所示，电子装置100可在搜索窗口620中显示获得的文本信息“网球运动员A”。

另外，在用户从第一UI 630中选择购物类别的情况下，电子装置100可设置第二模型340的参数，以获得包括针对运动员对象610的事实信息的购物信息。购物信息可以是诸如对象穿戴的衣服、配饰和道具的信息。此外，电子装置100可获得包括针对运动员对象610的购物信息的文本信息“白色网球连衣裙”，并且如图6的部分(d)中所示，电子装置100可在搜索窗口620中显示获得的文本信息“白色网球连衣裙”。

电子装置100可根据用户输入来编辑在搜索窗口620中显示的文本信息。例如，电子装置100可根据用户输入来将图6的部分(d)中示出的“白色网球连衣裙”编辑为“白色无袖网球连衣裙”。

当接收到用于选择包括在搜索窗口620中的搜索图标的用户输入时，电子装置100可基于获得的文本信息来产生查询，并且将产生的查询发送到外部搜索服务器200。电子装置100可通过第一UI 630将与设置的搜索类别相关的信息包括在查询中，并且将查询发送到外部搜索服务器200。外部搜索服务器200可基于包括在查询中的文本信息和搜索类别来获得搜索结果。外部搜索服务器200可从包括在设置的搜索类别中的信息之中搜索与文本信息对应的信息。例如，在设置的搜索类别是新闻类别的情况下，外部搜索服务器200可搜索与新闻类别内的文本信息对应的新闻。在设置的搜索类别是购物类别的情况下，外部搜索服务器200可搜索与购物类别内的文本信息对应的购物项。

当从外部搜索服务器200接收到搜索结果时，电子装置100可提供接收到的搜索结果。

在上述示例实施例中，描述了用户经由第一UI 630设置搜索类别，但这仅是示例。电子装置100可针对所有搜索类别中的每个类别产生文本信息，并且基于产生的文本信息来获得针对所有搜索类别的搜索结果。

图7是示出根据示例实施例的根据对象的类型来获得对象的文本信息的示图。

电子装置100可根据对象的类型来获得对象的文本信息。也就是说，电子装置100可根据对象的类型存储将获得的项的描述。也就是说，当获得对象的文本信息时，可根据对象的类型将第一模型320和第二模型340训练为获得与将获得的项的描述或属性相关的信息。

例如，在对象的类型是连衣裙类型的情况下，电子装置100可基于针对衣服的颜色、布料图案、衣服的类型、整体形状、衣服的特点等的描述来获得对象的描述。在如图7的部分(a)中所示的第一连衣裙对象被选择的情况下，电子装置100可获得“黑色、白色”作为与衣服的颜色相关的信息、获得“部分圆点花样”作为与布料图案相关的信息、获得“连衣裙”作为与衣服的类型相关的信息、获得“A字形”作为与整体形状相关的信息、并且获得“中间和下部”作为与衣服的特点相关的信息。此外，电子装置100可将与每项相关的信息输入到第二模型200，并且获得第一连衣裙对象的文本信息“在中间和下部具有部分圆点花样和特色的黑白A字形连衣裙”。在如图7的部分(b)中所示的第二连衣裙对象被选择的情况下，电子装置100可获得“黑色、白色”作为与衣服的颜色相关的信息、获得“部分花边”作为与布料图案相关的信息、获得“连衣裙”作为与衣服的类型相关的信息、获得“A字形”作为与整体形状相关的信息并获得“上部”作为与衣服的特点相关的信息。此外，电子装置100可将与每项相关的信息输入到第二模型200，并且获得第二连衣裙对象的文本信息“在上部具有部分花边和特色的黑白A字形连衣裙”。在如图7的部分(c)中所示的第三连衣裙对象被选择的情况下，电子装置100可获得“黑色、金色”作为与衣服的颜色相关的信息、获得“部分光泽”作为与布料图案相关的信息、获得“连衣裙”作为与衣服的类型相关的信息、获得“A字形”作为与整体形状相关的信息并获得“下部”作为与衣服的特点相关的信息。此外，电子装置100可将与每项相关的信息输入到第二模型200，并且获得第三连衣裙对象的文本信息“在下部具有部分光泽和特色的黑金A字形连衣裙”。

在上述示例实施例中，描述了连衣裙对象的特点，但这仅是示例。针对每种对象类型的描述可被存储。例如，对于包对象，可存储包对象的描述类别和值，诸如包的类型、包的纹理、包的尺寸和包的颜色等。对于鞋对象，可存储鞋对象的特点和值，诸如鞋的类型、鞋的样式、鞋的质量和鞋的颜色等。

图8是示出根据示例实施例的对项描述进行修改的示图。

首先，如图8的部分(a)中所示，电子装置100可提供包括钱包对象810的图像，并且接收用于选择钱包对象810的用户输入。

在接收到用于选择钱包对象810的用户输入的情况下，电子装置100可通过使用第一模型320和第二模型340来获得针对钱包对象810的文本信息。电子装置100可基于与钱包对象810的类型对应的描述项来获得针对钱包对象810的文本信息。例如，电子装置100可获得针对钱包对象810的文本信息“具有不规则图案的棕色钱包”。

具体地，如图8的部分(b)中所示，电子装置100可显示第二UI，其中，所述第二UI包括用于改变针对钱包对象810的多个特点的词语的多个菜单820、830和840。例如，如图8的部分(b)中所示，第二UI可包括用于改变对象的类型的第一菜单820、用于改变对象的纹理的第二菜单830和用于改变对象的颜色的第三菜单840。可根据用于选择预设图标(例如，设置的改变图标)的用户命令来显示第二UI，并且可在显示屏的整个区域中显示第二UI，但这仅是示例。第二UI可与图像一起显示。

当通过第二UI接收到用于改变针对多个项特点或类别中的至少一个特点或类别的词语的用户输入时，电子装置100可根据接收到的用户输入来改变文本信息。例如，当通过第一菜单820接收到将对象的类型改变为“手提包”的用户输入时，电子装置100可获得改变后的文本信息“具有不规则图案的棕色手提包”。改变后的文本信息可被显示在搜索窗口815中。

当改变后的文本信息在搜索窗口815中被显示的同时接收到用于执行搜索的用户输入时，电子装置100可基于改变后的文本信息来产生查询，并且将产生的查询发送到外部搜索服务器200。

外部搜索服务器200可基于包括在查询中的文本信息“具有不规则图案的棕色手提包”来获得搜索结果，并且将搜索结果发送到电子装置100。

如图8的部分(c)中所示，电子装置100可提供从外部搜索服务器200接收到的搜索结果850。图像信息、购物信息等可被包括在搜索结果中。

此外，电子装置100可通过各种UI来改变(或编辑)项的特点的值并产生新的搜索图像。

图9和图10是示出根据示例实施例的对项描述进行修改的示图。

在示例实施例中，如图9的部分(a)中所示，电子装置100可提供包括钱包对象910的图像，并且接收用于选择钱包对象910的用户输入。

在接收到用于选择钱包对象910的用户输入的情况下，电子装置100可通过使用第一模型320和第二模型340来获得针对钱包对象910的文本信息。例如，电子装置100可获得针对钱包对象910的文本信息“具有不规则图案的棕色钱包”。

具体地，电子装置100可显示用于改变针对钱包对象910的多个描述项(类别、特点)中的一个描述性的词语的菜单。例如，如图9的部分(b)中所示，电子装置100可显示用于改变针对项的对象类型的词语的菜单920。

电子装置100可根据通过菜单920输入的用户命令来编辑由用户选择的对象的文本对象。例如，在用户选择“包”作为将通过菜单920来改变的对象的类型的情况下，电子装置100可将对象的文本信息编辑为“具有不规则图案的棕色包”。

电子装置100可通过使用第三模型345来产生图像和与编辑的文本信息对应的新图像。就这一点而言，第三模型345可以是通过使用图像和经过编辑的文本信息作为输入数据来产生新图像的模型，并且可将第三模型345实现为生成对抗网络(GAN)。例如，电子装置100可将针对钱包对象的图像和经过编辑的文本信息输入到第三模型345并获得图9的部分(c)中示出的新的包图像。

当接收到用于执行搜索的用户输入时，电子装置100可产生包括新的包图像的查询，并且将产生的查询发送到外部搜索服务器200。所述查询可将经过编辑的文本信息与新的包图像一起发送。

外部搜索服务器200可基于接收到的包图像来执行搜索，并且将搜索结果发送到电子装置100。

电子装置100可提供接收到的搜索结果。例如，如图9的部分(d)中所示，电子装置100可在新屏幕上显示搜索结果。

在另一示例实施例中，如图10的部分(a)中所示，电子装置100可提供包括鞋对象1010的图像，并且接收用于选择鞋对象1010的用户输入。

在接收到用于选择鞋对象1010的用户输入的情况下，电子装置100可通过使用第一模型320和第二模型340来获得针对鞋对象1010的文本信息。例如，电子装置100可获得针对鞋对象1010的文本信息“黑色皮革齐踝短靴”。

具体地，电子装置100可显示用于改变文本信息的搜索窗口1020。例如，如图10的部分(a)中所示，电子装置100可在包括鞋对象1010的图像的上端显示搜索窗口1020。

电子装置100可根据通过搜索窗口1020输入的用户命令来编辑所选对象的文本信息。例如，在用户通过搜索窗口1020输入“棕色”的情况下，电子装置100可将对象的文本信息编辑为“黑色皮革齐踝短靴”。

电子装置100可通过使用第三模型345来产生图像和与经过编辑的文本信息对应的新图像。例如，电子装置100可将针对鞋对象1010的图像和经过编辑的文本信息输入到第三模型345，并且获得图10的部分(b)中示出的新的包图像。

当接收到用于执行搜索的用户输入时，电子装置100可产生包括新的鞋图像的查询，并且将产生的查询发送到外部搜索服务器200。所述查询可将经过编辑的文本信息与新的鞋图像一起发送。

外部搜索服务器200可基于接收到的鞋图像来执行搜索，并且将搜索结果发送到电子装置100。

电子装置100可提供接收到的搜索结果。例如，如图10的部分(c)中所示，电子装置100可在新屏幕上显示搜索结果。

图11是示出根据示例实施例的使用UI来搜索与图像相关的信息的示图。

如图11的部分(a)中所示，电子装置100可提供包括连衣裙对象1110的图像，并且接收用于选择连衣裙对象1110的用户输入。

在接收到用于选择连衣裙对象1110的用户输入的情况下，电子装置100可通过使用第一模型320和第二模型340来获得针对连衣裙对象1110的文本信息。例如，电子装置100可获得针对连衣裙对象1110的文本信息“带图案的系带黑色连衣裙”。

电子装置100可显示用于设置包括在文本信息中的描述项的优先级的UI。例如，如图11的部分(b)中所示，电子装置100可显示菜单1120，其中，所述菜单1120包括针对包括在文本信息中的描述项的词语。所述菜单可包括项“黑色”、“图案”、“系带”和“连衣裙”作为描述项(类别、特点)的值。

当接收到用于选择多个项中的至少一项的用户命令时，电子装置100可产生针对所选项的权重值信息。例如，在“黑色”和“图案”被选择的情况下，电子装置100可生成用于对词语“黑色”和“图案”设置权重值的第一权重值信息。作为另一示例，在“图案”、“系带”和“连衣裙”被选择的情况下，电子装置100可产生用于对词语“图案”、“系带”和“连衣裙”设置权重值的第二权重值信息。

当接收到用于执行搜索的用户输入时，电子装置100可产生包括产生的文本信息和产生的权重值信息的查询，并且将产生的查询发送到外部搜索服务器200。外部搜索服务器200可基于产生的文本信息和产生的权重值信息来搜索图像。例如，如图11的部分(c)中所示，在接收到产生的文本信息和第一权重值信息的情况下，外部搜索服务器200可搜索“带图案的黑色衣服”。如图11的部分(d)中所示，在接收到产生的文本信息和产生的第二权重值信息的情况下，外部搜索服务器200可搜索“带图案的系带连衣裙”。也就是说，外部搜索服务器200可搜索具有文本信息之中的包括在权重信息中的词语的图像。

电子装置100可从外部搜索服务器200接收搜索结果并提供接收到的搜索结果。

在上述示例实施例中，具有包括在权重信息中的词语的图像被搜索出，但这仅是示例。可获得与文本信息对应的多个图像，并且可基于权重信息来匹配多个图像。

图12是示出根据示例实施例的用于控制电子装置的方法的流程图。

首先，在操作S1210，电子装置100可提供包括多个对象的图像。

在操作S1220，电子装置100可接收用于选择多个对象中的一个对象的用户输入。可将用户输入实现为各种输入(诸如长按触摸输入、多点触摸输入、力触摸输入和绘图触摸输入等)中的一个输入。

在操作S1230，电子装置100可依靠经过训练的模型来获得用于描述在图像中选择的对象的文本信息。详细地，电子装置100可通过使用被训练为接收图像的输入并估计与包括在图像中的对象相关的信息的第一模型来获得与包括在图像中的多个对象相关的信息，并且通过使用被训练为接收与多个对象相关的信息的输入并获得与所述多个对象相关的文本信息的第二模型来获得用于描述所述多个对象之中的所选对象的文本信息。第一模型可以是卷积神经网络(CNN)模型。第二模型可以是递归神经网络(RNN)模型。此外，电子装置100可将与多个对象相关的信息、与所选区域相关的信息和图像的标签信息一起输入到第二模型，并且获得用于描述所选对象的文本信息。

在操作S1240，电子装置100可基于文本信息来产生查询。电子装置100可根据用户输入来编辑文本信息，并且产生包括经过编辑的文本信息的查询。

在操作S1250，电子装置100可将产生的查询发送到外部搜索服务器200，并且在操作S1260，电子装置100可从外部搜索服务器200接收响应于查询的搜索结果。

在操作S1270，电子装置100可提供从外部搜索服务器200接收到的搜索结果。

图13是根据示例实施例的电子装置的框图。

参照图13，处理器1300可包括学习部1310和识别部1320中的至少一个。图13的处理器1300可与图2A和图2B的电子装置100的处理器150和数据学习服务器的处理器对应。

学习部1310可依靠学习数据来产生或训练用于识别包括在图像中的多个对象的第一模型以及用于获得对象的文本信息的第二模型。学习部1310可通过使用收集的学习数据来产生具有识别标准的经过训练的模型。

例如，学习部1310可通过使用图像作为输入数据来生成、训练或更新用于获得与包括在图像中的多个对象相关的信息的第一模型。此外，学习部1310可通过使用与多个对象相关的信息、与所选区域相关的信息和图像的标签信息中的至少一个信息作为输入数据来生成、训练或更新用于获得针对对象的文本信息的第二模型。学习部1310可将第二模型训练为基于根据对象的类型而确定的描述项来获得与对象相关的文本信息。此外，学习部1310可通过使用图像和经过编辑的文本信息作为输入数据来生成、训练或更新用于获得新图像的第三模型。根据另一示例实施例，可将第一模型和第二模型实现为集成模型。也就是说，集成模型可使用图像作为输入数据并获得与包括在图像中的对象相关的文本信息。

识别部1310可使用预定数据作为经过训练的模型的输入数据并获得各种信息。

例如，识别部1320可使用图像作为经过训练的第一模型的输入数据，并且识别(或者估计或推断)包括在图像中的多个对象。此外，识别部1320可使用与多个对象相关的信息、与所选区域相关的信息以及图像的标签信息作为经过训练的第二模型的输入数据，并且识别(或者估计、推断或获得)针对多个对象之中的包括在由用户选择的区域中的对象的文本信息。此外，识别部1320可使用图像和经过编辑的文本信息作为输入数据，并且产生与经过编辑的文本信息对应的新图像。

学习部1310的至少一部分和识别部1320的至少一部分可被实现为软件或者以实现学习部1310的至少一部分和识别部1320的至少一部分的功能的至少一个硬件芯片的形式被制造，并且被安装在电子装置中。例如，学习部1310和识别部1320中的至少一个可以以用于人工智能(AI)的专用硬件芯片的形式被制造，或者可被制造为以前的通用处理器(例如，CPU或应用处理器)的一部分或图形专用处理器(例如，GPU)的一部分，并且学习部1310和识别部1320中的至少一个可被安装在上述各种电子装置中。就这一点而言，用于人工智能的专用硬件芯片可以是专用于概率运算的专用处理器，并且与以前的通用处理器相比可表现出更高的性能，以便于促进人工智能领域(诸如机器学习)中计算运算的处理。当学习部1310和识别部1320被实现为软件模块(或包括指令的程序模块)时，所述软件模块可被存储在非暂时性计算机可读介质中。就这一点而言，所述软件模块可被操作系统(OS)作为预定应用执行。可选择地，部分软件模块可由操作系统(OS)提供，并且至少一个软件模块中的一些可由预定应用提供。

在这种情况下，学习部1310和识别部1320可被安装在一个电子装置上或分别安装在分离开的电子装置上。例如，学习部1310和识别部1320中的一个可被安装在电子装置100中，而另一个可被安装在外部服务器中。学习部1310和识别部1320可经由有线或无线方式将由学习部1310构造的模型信息提供给识别部1320，或者可将输入到学习部1320的数据作为附加的学习数据提供给学习部1310。

图14A和图14B是根据示例实施例的电子装置的框图。

参照图14A的部分(a)，学习部1310可包括学习数据获得部1310-1和模型学习部1310-4。此外，学习部1310还可选择性地包括学习数据预处理器1310-2、学习数据选择部1310-3和模型评估部1310-5中的至少一个。

学习数据获得部1310-1可获得第一模型至第三模型所需的学习数据。在示例实施例中，学习数据获得部1310-1可获得图像、与多个对象相关的信息以及文本信息作为学习数据。学习数据可以是由学习部1310或学习部1310的制造者收集或测试的数据。

模型学习部1310-4可通过使用学习数据来训练模型，以识别包括在图像中的对象、获得针对对象的文本信息并基于经过编辑的文本信息产生新图像。例如，模型学习部1310-4可使用学习数据的至少一部分作为用于识别的标准，通过监督学习来训练人工智能模型。此外，模型学习部1310-4可在没有附加指令的情况下使用学习数据来训练自身，并且通过发现用于识别情况的识别标准的无监督学习来训练人工智能模型。此外，模型学习单元1310-4可使用例如关于基于学习的情况判断的结果是否正确的反馈，通过强化学习来训练人工智能模型。此外，模型训练单元1310-4可通过使用例如包括误差反向传播方法或梯度下降方法的学习算法来教导人工智能模型。

如果存在多个预构建的人工智能模型，则模型学习部1310-4可将在输入的学习数据与基本学习数据之间具有高相关度的人工智能模型识别为要学习的人工智能模型。在这种情况下，可根据数据的类型对基本学习数据进行预分类，并且可根据数据的类型对人工智能模型进行预建立。例如，可通过各种标准(诸如产生学习数据的区域、产生学习数据的时间、学习数据的大小、学习数据的类型、学习数据的创建者、学习数据中的对象的类型等)对基本学习数据进行预分类。

当训练人工智能模型时，模型学习部1310-4可存储经过训练的人工智能模型。就这一点而言，模型学习部1310-4可将经过训练的人工智能模型存储在电子装置100的存储器130中。可选择地，模型学习部1310-4可将经过训练的人工智能模型存储在经由有线网络或无线网络连接到电子装置100的服务器(例如，私人秘书聊天服务器1100)的存储器中。

数据学习部1310还可包括学习数据预处理器1310-2和学习数据选择部1310-3，以改善人工智能模型的识别结果或节约产生人工智能模型所需的资源或时间。

学习数据预处理器1310-2可对获得的数据进行预处理，使得获得的数据可被用于对象识别和文本信息生成的学习中。学习数据预处理器1310-2可以以预定格式对获得的数据进行处理，使得模型学习部1310-4可将获得的数据用于对象识别和文本信息生成的学习。例如，学习数据预处理器1310-2可从输入的文本信息之中去除对人工智能模型不必要的文本(例如，谚语、感叹词等)。

学习数据选择部1310-3可从在学习数据预处理器1310-2中预处理的数据或从学习数据获得部1310-1获得的数据之中选择学习所需的数据。可将选择的学习数据提供给模型学习部1310-4。学习数据选择部1310-3可根据预设的选择标准从获得的或预处理的数据之中选择学习所需的学习数据。学习数据选择部1310-3还可根据通过模型学习部1310-4进行学习的预设选择标准来选择学习数据。

学习部1310还可包括模型评估单元1310-5，以改善人工智能模型的识别结果。

模型评估部1310-5可将评估数据输入到人工智能模型，并且当从评估数据输出的识别结果不满足预定标准时，模型评估部1310-5控制模型学习部1010-4再次学习。在这种情况下，评估数据可以是用于评估人工智能模型的预定数据。

例如，在针对评估数据的经过训练的人工智能模型的识别结果之中的识别结果不准确的评估数据的数量或比例超过预设阈值的情况下，模型评估部131-5可评估出预定标准未被满足。

另一方面，在存在多个经过训练的人工智能模型的情况下，模型评估部1310-5可评估经过训练的人工智能模型中的每个人工智能模型是否满足预定标准，并将满足预定标准的模型确定为最终的人工智能模型。在这种情况下，在存在多个满足预定标准的模型的情况下，模型评估部1310-5可将任意一个模型或以评估得分的降序设置的前预设数量个模型确定为最终的人工智能模型。

参照图14A的部分(b)，根据一些示例实施例的识别部1320可包括输入数据获得部1320-1和识别结果提供部1320-4。

此外，识别部1320还可选择性地包括输入数据预处理器1320-2、输入数据选择部1320-3和模型更新部1320-5中的至少一个。

输入数据获得部1320-1可识别包括在图像中的对象和获得针对对象的文本信息所需的数据。识别结果提供部1320-4可将在输入数据获得部1320-1中获得的输入数据作为输入值应用于经过训练的人工智能模型并识别包括在图像中的对象，并且获得针对对象的文本信息。识别结果提供部1320-4可将由输入数据预处理器1320-2和输入数据选择部1320-3选择的数据作为输入值应用于人工智能模型并获得识别部。识别结果可由人工智能模型确定。

在示例实施例中，识别结果提供部1320-4可将在输入数据获得部1320-1中获得的图像数据应用于经过训练的第一模型，并且识别(或估计)包括在图像中的对象。

在另一示例实施例中，识别结果提供部1320-4可将在输入数据获得部1320-1中获得的与对象相关的信息、与所选区域相关的信息以及图像的标签信息应用于经过训练的第二模型，并且获得(或估计)包括在所选区域中的对象的文本信息。

在另一示例实施例中，识别结果提供部1320-4可将在输入数据获得部1320-1中获得的图像以及经过编辑的文本信息应用于经过训练的第三模型，并且获得(或估计)与经过编辑的文本信息对应的新图像。

数据识别部1320还可包括输入数据预处理器1320-2和输入数据选择部1020-3，以改善人工智能模型的识别结果或者节约提供识别结果的资源或时间。

输入数据预处理器1320-2可对获得的数据进行预处理，使得获得的将被输入到第一模型至第三模型的数据可被使用。输入数据预处理器1320-2可以以预定义格式对获得的数据进行处理，使得识别结果提供部1320-4可使用获得的用于识别对象并获得文本信息的数据。

输入数据选择部1320-3可从在输入数据获得部1320-1中获取的数据或在输入数据预处理器1320-2中预处理的数据之中选择用于情况确定所需的数据。可将选择的数据提供给识别结果提供部1320-4。输入数据选择部1320-3可根据用于情况确定的预设选择标准来选择获得的或预处理的数据中的一些数据或全部数据。输入数据选择部1320-3还可根据通过模型学习部1310-4进行学习的预设选择标准来选择数据。

模型更新部1320-5可基于由识别结果提供部1320-4提供的识别结果的评估来控制人工智能模型更新。例如，模型更新部1320-5可将由识别结果提供部1320-4提供的识别结果提供给模型学习部1310-4，从而请求模型学习部1310-4进一步训练或更新人工智能模型。

在图14B中，电子装置A和外部服务器S彼此互锁以学习和确定数据。

参照图14B，外部服务器S可识别包括在图像中的对象，并且学习用于获得对象的文本信息的标准。电子装置A可通过使用基于服务器S的学习结果而产生的模型来识别包括在图像中的对象，并且获得对象的文本信息。

服务器S的模型学习部1310-4可执行图13中示出的学习部的功能。服务器S的模型学习部1310-4可学习针对第一模型至第三模型的确定标准(或识别标准)。

此外，电子装置100的识别结果提供部1320-4可通过将由输入数据选择部1320-3选择的数据应用于服务器S产生的人工智能模型来识别包括在图像中的对象，并且获得对象的文本信息。可选择地，电子装置100的识别结果提供部1320-4可从服务器接收由服务器产生的人工智能模型，通过使用接收到的人工智能模型来识别包括在图像中的对象，并且获得图像的文本信息。

图15和图16是示出根据示例实施例的经过训练的模型的流程图。

在图15和图16中，使用经过训练的人工智能模型的网络系统可包括第一元件1501和1601、第二元件1502和1602以及第三元件1503。

第一元件1501和1601可以是电子装置A，并且第二元件1502和1602可以是存储人工智能模型的服务器S。可选择地，第一元件1501和1601可以是通用处理器，并且第二元件1502和1602可以是专用于人工智能的处理器。可选择地，第一元件1501和1601可以是至少一个应用，并且第二元件1502和1602可以是操作系统(OS)。也就是说，第二元件1502和1602可以是比第一元件1501和1601更集成、更专用、具有更少延迟、具有更好性能或具有更多资源的元件，并且第二元件1502和1602能够比第一元件1501和1601更快且更有效地处理产生、更新或应用数据识别模型所需的大量操作。

可定义用于在第一元件1501和1601与第二元件1502和1602之间发送和接收数据的接口。

例如，所述接口可以是使学习数据作为要素值(或者中间值或转换值)被应用于识别模型的应用程序接口(API)。API可被定义为子例程或功能集，其中，在所述子例程或功能集中，任意一个协议(例如，在电子装置A中定义的协议)可调用另一协议(例如，在服务器S中定义的协议)的特定处理。也就是说，可通过API提供可在任意一个协议中执行另一协议的操作的环境。

第三元件1503可基于从第一元件1501和1601以及第二元件1502和1602中的至少一个接收到的数据来获得与对象相关联的搜索结果。第三元件1503可与例如外部搜索服务器200对应。通过第三元件1503接收到的数据可以是例如图像、经过编辑的文本信息等。根据示例实施例，第三元件1503可与第二元件1502一起被实现为一个装置。

在图15中，在操作S1505，第一元件1501可提供图像。图像可包括多个对象。此外，在操作S1510，第一元件1501可接收用于选择对象的用户输入。

在操作S1515，第一元件1501可将与图像和第一区域相关的信息发送到第二元件1502。与第一区域相关的信息可以是与接收到用户输入的触摸坐标相关的信息。此外，第一元件1501可将与图像相关的标签信息与图像一起发送。

在操作S1520，第二元件1502可通过使用第一模型来获得与对象相关的信息。详细地，第二元件1502可将图像输入到第一模型，并且获得与包括在图像中的多个对象相关的信息。

在操作S1525，第二元件1502可通过使用第二模型来获得针对所选对象的文本信息。详细地，第二元件1502可将与多个对象相关的信息和与所选区域相关的信息输入到第二模型，并且获得针对所述多个对象之中的包括在由用户选择的区域中的对象的文本信息。此外，第二元件1502可将图像的标签信息以及与所述多个对象相关的信息和与所选区域相关的信息一起输入到第二模型，并且获得针对包括在所选区域中的对象的文本信息。

在操作S1530，第二元件1502可将获得的文本信息发送到第一元件1501。在上述示例实施例中，第二元件1502可将文本信息发送到第一元件，但这仅是示例。第二元件1502可直接将文本信息发送到第三元件。

在操作S1535，第一元件1501可基于接收到的文本信息来产生查询。所述查询可容纳所接收到的文本信息。然而，根据另一示例实施例，所述查询可包括由用户编辑的文本信息或通过第三模型产生的新图像。

在操作S1540，第一元件1501可将产生的查询发送到外部的第三元件，并且在操作S1545，第三元件1503可基于查询来执行搜索。

在操作S1550，第三元件1503可将搜索结果发送到第三元件1501。在操作S1555，第一元件1501可将接收到的搜索结果提供给用户。

在图16中，在操作S1610，第一元件1601可提供图像。图像可包括多个对象。此外，在操作S1620，第一元件1601可接收用于选择对象的用户输入。

在操作S1630，第一元件1601可将与图像和第一区域相关的信息发送到第二元件1602。与第一区域相关的信息可以是与接收到用户输入的触摸坐标相关的信息。此外，第一元件1601可将与图像相关的标签信息与图像一起发送。

在操作S1640，第二元件1602可通过使用第一模型来获得与对象相关的信息。详细地，第二元件1502可将图像输入到第一模型，并且获得与包括在图像中的多个对象相关的信息。

在操作S1650，第二元件1602可通过使用第二模型来获得针对所选对象的文本信息。详细地，第二元件1602可将与多个对象相关的信息和与所选区域相关的信息输入到第二模型，并且获得针对所述多个对象之中的包括在所选区域中的对象的文本信息。此外，第二元件1602可将图像的标签信息以及与多个对象相关的信息和与所选区域相关的信息一起输入到第二模型，并且获得针对包括在所选区域中的对象的文本信息。

在操作S1660，第二元件1602可将获得的文本信息发送到第一元件1601。

在操作S1670，电子装置1601可基于接收到的文本信息来执行搜索。详细地，第一元件1601可将接收到的文本信息与预存储的文本信息进行比较，并且搜索具有与接收到的文本信息相同或相似的文本信息的图像。

在操作S1680，第一元件1601可将搜索结果提供给用户。

根据上述各种示例实施例，用户可更快且更方便地获得针对包括在图像中的多个对象之中的由用户选择的对象的详细搜索结果。

图17是示出根据示例实施例的用于控制电子装置以提供搜索结果的方法的流程图。

首先，在操作S1710，电子装置100可提供图像。图像可包括多个对象。

在操作S1720，电子装置100可根据用户输入来确定图像的部分区域是否被选择。

在第一区域被选择的情况下，在操作S1730，电子装置100可获得描述包括在第一区域中的对象的文本信息。详细地，电子装置100可将图像和与选择的第一区域相关的信息输入到经过训练的模型(例如，第一模型320和第二模型340)，并且获得描述包括在第一区域中的对象的文本信息。

在第二区域被选择的情况下，在操作S1740，电子装置100可获得描述包括在第二区域中的对象的文本信息。详细地，电子装置100可将图像和与选择的第二区域相关的信息输入到经过训练的模型(例如，第一模型320和第二模型340)，并且获得描述包括在第二区域中的对象的文本信息。

在操作S1750，电子装置100可基于描述包括在第一区域中的对象的文本信息和描述包括在第二区域中的对象的文本信息来获得搜索结果。详细地，电子装置100可基于输入的文本信息来产生查询并将产生的查询发送到外部搜索服务器，并且从外部搜索服务器接收响应于所述文本信息的搜索结果。

图18是示出根据示例实施例的提供搜索结果的流程图。

可将服务器200实现为一个服务器，但这仅是示例。服务器200可包括执行搜索的服务器和获得文本信息的服务器。

首先，在操作S1810，电子装置100可显示网页。网页可包括多个图像或对象。

电子装置100可接收用于选择网页的一个区域的用户命令。

在操作S1830，电子装置100可将与网页和所选区域相关的信息发送到服务器200。电子装置100可发送网页的捕获图像和所选区域的坐标信息，但这仅是示例。电子装置100可将网页的地址和所选区域的坐标信息发送到服务器200。

在操作S1840，服务器200可获得针对包括在所选区域中的对象的文本信息。详细地，服务器200可将捕获图像的图像和与所选区域相关的信息输入到经过训练的模型(例如，第一模型320和第二模型340)，并且获得针对包括在所选区域中的对象的文本信息。

在操作S1850，服务器200可将文本信息发送到电子装置100。

在操作S1860，电子装置100可提供文本信息，并且在操作S1870，电子装置100可根据用户命令将针对文本信息的搜索命令发送到服务器200。如上所述，电子装置100可将针对用户编辑的文本信息的搜索命令发送到服务器200。

在操作S1880，服务器200可基于文本信息来执行搜索，并且在操作S1890，服务器200可将搜索结果发送到电子装置100。

在操作S1895，电子装置100可提供接收到的搜索结果。

可将上述示例实施例实现为包括存储在机器(例如，计算机)可读存储介质上的指令的软件程序。所述机器是能够从存储介质调用存储的指令并根据调用的指令进行操作的装置，并且可包括根据上述示例实施例的电子装置(例如，电子装置100)。当处理器执行命令时，处理器可直接执行与所述命令对应的功能或者在处理器的控制下使用其他组件来执行与所述命令对应的功能。所述命令可包括由编译器或解释器产生或执行的代码。可以以非暂时性存储介质的形式提供机器可读存储介质。在这里，术语“非暂时性”仅表示存储介质不包括信号而是有形的，并且不在数据被半永久性地存储在存储介质中的情况与数据被临时存储在存储介质中的情况之间进行区分。

根据示例实施例，可将根据上述各种示例实施例的方法提供为被包括在计算机程序产品中。计算机程序产品可作为产品在卖方和买方之间进行交易。可以以机器可读存储介质(例如，紧凑盘只读存储器(CD-ROM))的形式或通过应用商店(例如，Play Store TM)在线发布计算机程序产品。在在线发布的情况下，可在制造商的服务器、应用商店的服务器或存储介质(诸如存储器)中至少临时存储或临时产生所述计算机程序产品的至少一部分。

根据各种示例实施例的每个组件(例如，模块或程序)可包括单个实体或多个实体，并且可省略上述相应的子组件中的一些子组件，或者还可将另一子组件添加到各种示例实施例中。可选择地或另外地，一些组件(例如，模块或程序)可被组合以形成执行与在被组合之前的相应的元件的功能相同或相似的功能的单个实体。根据各种示例性实施例，可迭代地或启发式地顺序、并行或顺序并行一起执行由模块、程序或其它组件所执行的操作，或者可以以不同的顺序执行至少一些操作，省略至少一些操作，或者可添加其它操作。

Claims

1.一种电子装置，包括：

显示器；

通信接口；

处理器，被配置为控制所述显示器和所述通信接口；以及

存储器，被配置为存储由所述处理器执行的至少一个程序，

其中，当所述处理器执行所述至少一个程序时，所述处理器被配置为进行以下操作：

控制所述显示器显示图像；

接收指示所述显示器的区域的用户输入；

如果所述显示器的所述区域指示所述显示器的显示所述图像中的第一对象的第一区域，则通过使用经过训练的模型，使用描述所述第一对象的状态的第一文本信息来获得第一搜索结果；并且

如果所述显示器的所述区域指示所述显示器的显示所述图像中的第二对象的第二区域，则通过使用所述经过训练的模型，使用描述所述第二对象的状态的第二文本信息来获得第二搜索结果。

2.如权利要求1所述的电子装置，其中，所述第一文本信息和所述第二文本信息是使用第一模型和第二模型获得的，其中，所述第一模型被训练为接收图像的输入并获得与包括在所述图像中的多个对象相关的信息，所述第二模型被训练为接收由所述第一模型获得的与多个对象相关的信息的输入和与由用户选择的区域相关的信息的输入，并获得描述包括在由用户选择的区域中的对象的文本信息。

3.如权利要求2所述的电子装置，其中，所述第一模型是卷积神经网络(CNN)，并且所述第二模型是递归神经网络(RNN)。

4.如权利要求2所述的电子装置，其中，所述处理器被配置为获得所述图像的标签信息，并且

其中，通过将与所述多个对象相关的信息、与由所述用户选择的区域相关的信息和所述标签信息输入到所述第二模型来获得所述第一文本和所述第二文本。

5.如权利要求1所述的电子装置，其中，所述第一文本信息和所述第二文本信息包括以下信息中的至少一个信息：与包括在所述区域中的对象与另一对象之间的关系相关的信息、针对包括在所述区域中的对象的详细描述信息以及针对包括在所述区域中的对象的行为信息。

6.如权利要求1所述的电子装置，其中，所述处理器被配置为根据用户输入来设置搜索类别，并且

其中，所述第一文本信息和所述第二文本信息是基于设置的搜索类别而被获得的。

7.如权利要求1所述的电子装置，其中，所述处理器被配置为识别包括在所述区域中的对象的类型，并且

其中，所述第一文本信息是基于与识别的对象的类型对应的描述项而被获得的。

8.如权利要求7所述的电子装置，其中，所述第一文本信息包括与多个描述项对应的多个词语，并且

其中，所述处理器被配置为：

控制显示器提供用于改变所述第一文本信息中所包括的多个描述项中的至少一项中所包括的词语的用户界面(UI)；

基于通过所述UI接收到用于改变针对所述多个描述项中的至少一项的词语的用户输入，根据所述用户输入来改变所述第一文本信息；并且

控制所述通信接口将改变后的第一文本信息发送到外部搜索服务器。

9.如权利要求8所述的电子装置，其中，所述处理器被配置为：通过使用被训练为接收图像和文本信息的输入并产生不同图像的第三模型来产生与所述改变后的第一文本信息对应的新图像，并且控制所述通信接口将所述新图像发送到所述外部搜索服务器。

10.如权利要求7所述的电子装置，其中，所述处理器被配置为：控制所述显示器提供用于设置所述多个描述项中的至少一项的优先级的用户界面(UI)，并且基于通过所述UI设置的至少一个描述项的权重值，产生针对设置有所述权重值的至少一个描述项的词语。

11.一种用于存储程序的计算机可读记录介质，其中，所述程序实现电子装置的提供搜索结果的方法，其中，所述方法包括：

在所述电子装置上显示图像；

接收指示在所述电子装置上显示的区域的用户输入；

12.如权利要求11所述的计算机可读记录介质，其中，所述第一文本信息和所述第二文本信息是使用第一模型和第二模型来获得的，其中，所述第一模型被训练为接收图像的输入并获得与包括在所述图像中的多个对象相关的信息，所述第二模型被训练为接收由所述第一模型获得的与多个对象相关的信息的输入和与由用户选择的区域相关的信息的输入，并获得描述包括在由用户选择的区域中的对象的文本信息。

13.如权利要求12所述的计算机可读记录介质，其中，所述第一模型是卷积神经网络(CNN)，并且所述第二模型是递归神经网络(RNN)。

14.如权利要求12所述的计算机可读记录介质，其中，所述方法还包括：获得所述图像的标签信息，

15.如权利要求11所述的计算机可读记录介质，其中，所述第一文本信息和所述第二文本信息包括以下信息中的至少一个信息：与包括在所述区域中的对象与另一对象之间的关系相关的信息、针对包括在所述区域中的对象的详细描述信息和针对包括在所选区域中的对象的行为信息。