CN111247536A - 用于搜索相关图像的电子装置及其控制方法 - Google Patents

用于搜索相关图像的电子装置及其控制方法 Download PDF

Info

Publication number
CN111247536A
CN111247536A CN201880067738.6A CN201880067738A CN111247536A CN 111247536 A CN111247536 A CN 111247536A CN 201880067738 A CN201880067738 A CN 201880067738A CN 111247536 A CN111247536 A CN 111247536A
Authority
CN
China
Prior art keywords
information
image
electronic device
search
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880067738.6A
Other languages
English (en)
Other versions
CN111247536B (zh
Inventor
高炫睦
吴馨来
金泓澈
全思拉
黄寅喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Priority to CN202311346826.9A priority Critical patent/CN117493596A/zh
Priority to CN202311341684.7A priority patent/CN117421437A/zh
Publication of CN111247536A publication Critical patent/CN111247536A/zh
Application granted granted Critical
Publication of CN111247536B publication Critical patent/CN111247536B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/54Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning

Abstract

本公开涉及一种使用诸如深度学习等机器学习算法的人工智能(AI)系统及其应用。具体地,提供了用于搜索图像的电子装置的控制方法,该方法包括:显示包括至少一个对象的图像;检测用于选择对象的用户输入;通过使用识别模型识别在检测到用户输入的点处显示的对象,并且获取与所识别的对象有关的信息,其中该识别模型训练成获取与对象有关的信息;显示包括与对象有关的信息的列表;以及根据从列表中所包括的与对象有关的信息中选择一条信息,提供通过基于所选择的信息进行搜索所得的相关图像。

Description

用于搜索相关图像的电子装置及其控制方法
技术领域
本公开涉及电子装置及其控制方法,更具体地,涉及用于搜索与用户选择的对象相关的图像并向用户提供相关图像的电子装置及其控制方法。
此外,本公开涉及使用机器学习算法来模拟人脑的诸如识别、确定等之类的功能的人工智能(AI)系统及其应用。
背景技术
随着电子装置的通信技术和用户接口的发展,用户可以在不受到任何地点和时间的限制的情况下容易地通过电子装置接收必要的信息。
当电子装置提供包括对象的屏幕时,用户可能希望搜索与所提供的对象有关的相关信息。
为此,用户可以单独地存储对象,并通过直接输入与该对象相关的文本来使用所存储的对象作为搜索关键字或文本搜索执行图像搜索。
此外,实现人类智能水平的人工智能系统最近被用于各种领域。与基于规则的系统不同,人工智能系统是这样一种系统,在该系统中,机器自己进行训练、确定并且变得智能。由于使用了人工智能系统,提高了识别率并且能够更准确地理解用户的偏好,从而使现有的基于规则的系统逐渐被基于深度学习的人工智能系统所取代。
人工智能技术包括机器学习(例如,深度学习)和使用机器学习的元素技术(element technology)。
机器学习是输入数据的自分类/自训练特征的算法技术;元素技术是利用诸如深度学习等机器学习算法模拟人脑的诸如识别或确定之类的功能的技术,并且包括语言理解、视觉理解、推理/预测、知识表示、操作控制等技术领域。
应用有人工智能技术的各种领域如下。语言理解是识别人类的语言/字词并应用/处理它的技术,并且包括自然语言处理、机器翻译、转换系统、问答、语音识别/合成等。视觉理解是以人类视野识别对象并对其进行处理的技术,并且包括对象识别、对象跟踪、图像搜索、人类识别、场景理解、空间理解、图像改进等。推理/预测是识别信息并逻辑地推理和预测信息的技术,并且包括基于知识/可能性的推理、优化预测、基于偏好的规划、推荐等。知识表示是执行将人类的实验信息自动处理成知识数据的技术,包括知识构建(数据生成/分类)、知识管理(数据应用)等。操作控制是控制车辆的自动驾驶或机器人的运动的技术,并且包括运动控制(导航、碰撞或行进)、操纵控制(行为控制)等。
另一方面,最近的电子装置提供了搜索存储在该设备中的图像的功能。用户使用诸如拍摄照片的日期、用户输入的名称或拍摄照片的位置之类的索引来搜索照片。
然而,这种搜索方法对搜索具有与用户当前正在观看的照片相关的特征的照片具有限制。
发明内容
技术问题
本公开可以提供一种电子装置及其控制方法,该电子装置用于确认与用户所选择的对象相关的信息并且搜索与用户从所确认的信息中选择的信息相关的图像。
技术方案
根据本公开的实施方式,提供了电子装置的控制方法,其包括:显示包括至少一个对象的图像;检测用于选择对象的用户输入;利用识别模型识别在检测到用户输入的点处显示的对象并获取与所识别的对象有关的信息,其中识别模型训练成获取与对象有关的信息;显示包括与对象有关的信息的列表;以及根据从列表中所包括的与对象有关的信息中选择一条信息,基于所选择的信息搜索并提供相关图像。
根据本公开的另一个实施方式,提供了一种电子装置,其包括:显示器、用户输入单元、电连接到显示器和用户输入单元的处理器、以及电连接到处理器的存储器,其中,处理器配置成:通过使用用户输入单元根据用于选择对象的用户输入获取输入信号;在包括至少一个对象的图像被显示在显示器上时,通过使用识别模型识别在检测到用户输入的点处显示的对象并且获取与所识别的对象有关的信息,其中识别模型训练成响应于输入信号获取与对象有关的信息;控制显示器显示包括与对象有关的信息的列表,并且根据经由用户输入单元从列表中所包括的与对象有关的信息中选择一条信息,基于所选择的信息搜索并提供相关图像。
公开的效果
根据上述实施方式,用户可以更方便和更详尽地搜索与用户当前正在观看的图像类似的图像。
此外,用户可以通过基于各种对象的信息创建搜索式来搜索图像,从而执行更精确的图像搜索。
因此,可以提高在搜索用户所需的图像时的多样性和精确度,从而提高用户的满意度和方便性。
附图说明
图1是示出根据实施方式的用于搜索与用户选择的对象相关的图像的电子装置的用法的视图;
图2A是示意性地示出根据实施方式的电子装置的配置的框图;
图2B是具体示出根据实施方式的电子装置的配置的框图;
图2C是根据实施方式的包括用于搜索与用户选择的对象相关的图像的各种模块的框图;
图3、图4和图5是用于解释根据实施方式的用于搜索与用户选择的对象相关的图像的方法的流程图;
图6是用于解释根据实施方式的用于在电子装置中的图像之中搜索与用户选择的对象相关的图像的实施方式的图;
图7是用于解释根据实施方式的用于搜索与用户选择的对象相关的外部图像的实施方式的图;
图8是用于解释根据实施方式的用于选择对象的用户输入的图;
图9A和图9B是用于解释根据实施方式的通过使用搜索式来搜索相关图像的方法的图;
图10A和图10B是用于解释根据实施方式的通过使用搜索历史或推荐关键字来搜索相关图像的方法的图;
图11是用于解释根据实施方式的通过使用相关图像来生成相册的方法的图;
图12是示出根据实施方式的用于训练和使用识别模型的电子装置的配置的框图;
图13A和图13B是示出根据实施方式的学习单元和识别单元的特定配置的框图;
图14是用于解释根据实施方式的用于搜索与用户选择的对象相关的图像的方法的流程图;
图15至图17是使用根据实施方式的识别模型的网络系统的流程图。
具体实施方式
在下文中,将参考附图描述本公开的各实施方式。应当注意,本公开中公开的技术不是用于将本公开的范围限制为特定实施方式,而是应当将它们解释为包括本公开的实施方式的所有修改案、等同物和/或替换物。关于附图的解释,类似的附图标记可以用于类似的元件。
在本公开中,诸如“包括”、“可包括”或“由……组成”的术语在本文中用于指定相应特征(例如,诸如数字、功能、操作或部件的组成元素)的存在,而不排除附加特征的存在。
在本公开中,诸如“A或B”、“A【和/或】B中的至少一个”或“A【和/或】B中的一个或多个”的表述包括所列项目的所有可能的组合。例如,“A或B”、“A和B中的至少一个”或“A或B中的至少一个”包括以下中的任一种:(1)至少一个A;(2)至少一个B;或(3)至少一个A和至少一个B。
在本公开中使用的表述“第一”、“第二”等可以表示各种元件,而不管顺序和/或重要性如何,并且可以用于将一个元件与另一个元件区分开,并且不限制这些元件。
如果描述了某一个元件(例如,第一元件)与另一个元件(例如,第二元件)可操作地或通信地联接或可操作地或通信地联接到另一个元件(例如,第二元件)或者连接到另一个元件(例如,第二元件),则应当理解,这某一个元件可以直接或通过又一个元件(例如,第三元件)连接到该另一个元件。另一方面,如果描述了某一个元件(例如,第一元件)直接联接到或直接连接到另一个元件(例如,第二元件),则可以理解,在这某一个元件和该另一个元件之间不存在元件(例如,第三元件)。
此外,本公开中使用的表述“配置成”可以根据情况与诸如“可适于”、“具有能力”、“设计成”、“适于”、“制造成”和“能够”之类的其它表述互换使用。另一方面,表述“配置成”不一定意味着设备在硬件方面被“专门设计为”。相反,在某些情况下,表述“配置成……的设备”可以意味着该设备能够与另一设备或组件一起执行操作。例如,短语“配置(或设置)成执行A、B和C的处理器”可以意味着用于执行相应操作的专用处理器(例如,嵌入式处理器),或者可以通过执行存储在存储器设备中的一个或多个软件程序来执行相应操作的通用处理器(例如,中央处理单元(CPU)或应用处理器)。
根据本公开的各实施方式的电子装置可以包括例如智能电话、平板个人计算机(PC)、移动电话、视频电话、电子书阅读器、台式个人计算机(PC)、膝上型个人计算机(PC)、上网本计算机、工作站、服务器、个人数字助理(PDA)、。便携式多媒体播放器(PMP)、MP3播放器、移动医疗设备、相机或可穿戴设备中的至少之一。根据各实施方式、可穿戴装置可包括以下至少之一:附件类型(例如、手表、戒指、手镯、脚镯、项链、一副眼镜、隐形眼镜或头戴设备(HMD));织物或服饰嵌入型(例如,电子服饰);皮肤附着类型(例如,皮垫或纹身);或生物植入类型(可植入电路)。此外、在一些实施方式中,电子装置可以包括以下至少之一:例如,电视、数字视频盘(DVD)播放器、音频系统、冰箱、空调、真空吸尘器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、家庭自动化控制面板、安全控制面板、媒体盒(例如,SAMSUNGHOMESYNCM、APPLE TVTM或GOOGLE TVTM)、游戏控制台(例如,XBOXTM、PLAYSTATIONTM)、电子词典、电子钥匙、摄像机、或电子框架。
在其它实施方式中,电子装置可以包括以下至少之一:各种医疗设备(例如,诸如血糖仪、心率仪、血压计或温度测量设备之类的各种便携式医疗测量设备)、磁共振血管造影设备(MRA)、磁共振成像设备(MRI)、或计算机断层摄影(CT)扫描仪、或超声波设备等、导航系统、全球导航卫星系统(GNSS)、事件数据记录器(EDR)、飞行数据记录器(FDR)、车载信息娱乐设备、船用电子设备(例如,船舶导航设备、陀螺仪等)、航空电子设备、安全设备、车头单元、工业或家用机器人、无人机、金融机构的ATM、商店的销售点(POS)、或物联网(IoT)设备(例如,灯泡、传感器、洒水装置、火警报警器、恒温器、路灯、烤面包机、锻炼器材、热水箱、加热器、锅炉等)。
在本公开中,术语“用户”可以指使用电子装置的人或者使用电子装置的装置(例如,人工智能电子装置)。
首先,如图1的(a)所示,电子装置100可以显示包括对象O(例如,小孩)的图像(例如,照片)。所选择的对象O可以是图像中所包括的多个对象中的一个。
为了搜索与对象O相关的图像,如图1的(a)所示,电子装置100可以检测用于选择对象O的用户输入。例如,电子装置100可以检测敲击对象O的一个点并向下保持一段预定时间的长按触摸。或者,电子装置100可以检测这样的用户输入,该用户输入是使用手指或电子笔进行的对于对象O的多点触摸、力触摸(force touch)、在对象O周边绘图或者对角地拖动以经过对象O的至少一部分。或者,电子装置100可以检测在按下设置在电子装置100上的按钮(例如,用于执行人工智能功能的按钮)之后(或者在按下的同时)敲击对象O的用户输入。或者,电子装置100可以使用在词典中限定的动作来检测用于选择对象O的用户输入。
接下来,电子装置100可以基于与检测到用户输入的点有关的信息,通过图像分析来标识(检测)其中显示对象O的对象区域。所识别的对象区域可以被显示为突出显示的部分或者被显示为弹出屏幕。例如,显示为突出显示的部分可以包括:利用不同的阴影、不同的亮度或互补颜色进行显示,通过用虚线或实线将对象区域的边界分隔开来进行显示,或显示指示对象区域的指示符。
接下来,电子装置100可以识别包括在对象区域中的对象O。电子装置100可以使用训练成识别对象的识别模型(例如,对象识别模型)来识别对象区域中的对象O。电子装置100可以识别对象O的类型、颜色、尺寸等。
此外,电子装置100可以识别与所识别的对象O有关的上下文信息。电子装置100可以使用训练成识别对象的上下文的识别模型(例如,上下文识别模型)来获取对象O的上下文信息。利用对象O的上下文信息,可以识别对象O的情绪、面部表情、位置、运动、服饰等。对象O的上下文信息可以通过与对象O本身有关的分析来获取,并且可以利用显示在图像中的对象O附近的不同对象来获取。
如图1的(b)所示,当电子装置100获取与对象有关的信息(即,包括对象的识别信息和对象的上下文信息两者)时,电子装置100可以显示包括所获取的与对象有关的信息的列表L。列表L可以显示在用户选择的对象O的附近,但是这仅仅是一个实施方式,并且列表L可以显示在单独的区域中。
此外,电子装置100可以生成包括列表L的其它图像的层,并且可以根据用户输入在图像中移动列表L。即,除了包括原始显示的图像的图形层之外,电子装置100还可以生成包括列表L的图形层,并且通过将这些图形层进行层叠来显示这两个图形层。
接下来,电子装置100可以检测用于从包括在列表L中的与对象有关的信息中选择一条信息的用户输入。用户输入可以是触摸来自列表中所包括的与对象有关的信息的一条信息的用户输入。
如图1的(c)所示,当检测到用户的触摸时,电子装置100可以搜索同所选择的与与对象有关的信息相关的图像,并在特定区域中提供搜索结果R。如图1的(c)所示,电子装置100可以通过缩小原始显示的图像的尺寸并生成新的区域来提供搜索结果R,但是这仅仅是一个实施方式,并且搜索结果R可以以其它方法来提供。例如,电子装置100可以在原始显示的图像上生成单独的弹出窗口,并在弹出窗口中提供搜索结果。搜索结果R可以作为缩略图像提供。
特别地,在从存储于电子装置100中的图像之中搜索同所选择的与对象有关的信息相关的图像的情况下,电子装置100可以基于所存储的图像的标签信息和所选择的与对象有关的信息来搜索同所选择的与对象有关的信息相关的图像。或者,在从外部服务器搜索同所选择的与对象有关的信息相关的图像的情况下,电子装置100可以将包括所选择的与对象有关的信息的查询发送到外部服务器。电子装置100可以响应于该查询从外部服务器接收搜索结果。
此外,当选择了多条与对象有关的信息时,电子装置100可以使用搜索式搜索同所选择的多条与对象有关的信息相关的图像。此外,电子装置100可以通过选择搜索到的相关图像中的至少一些来生成相册。
另一方面,根据本公开的各实施方式,电子装置100可以通过在识别模型中使用图像或与检测到用户输入的点有关的信息作为输入数据来获取与对象有关的信息。具体地,电子装置100可以通过将图像和与检测到用户输入的点有关的信息输入到训练成识别对象的对象识别模型来识别对象。此外,电子装置100可以通过将图像和与所识别的对象有关的信息输入到训练成识别对象的上下文信息的上下文识别模型来识别对象的上下文。
在本公开中,可以通过考虑识别模型的应用领域或设备的计算机的性能来构建经训练的对象识别模型或上下文识别模型。例如,经训练的上下文识别模型可以设置为通过使用图像和与所识别的对象有关的信息作为输入数据来预测对象的上下文。经训练的识别模型可以是基于神经网络的模型。识别模型可以设计成在计算机上模拟人的脑结构,并且可以包括多个网络节点,其中网络节点包括权重和人的神经网络的模拟神经元。多个网络节点可以彼此形成连接,以模拟神经元通过突触发送和接收信号的突触活动。此外,对象识别模型例如可以包括神经网络模型或从神经网络模型发展所得的深度学习模型。在深度学习模型中,多个网络节点可以位于彼此不同的深度处(或层上),并且可以根据卷积连接来发送和接收数据。对象识别模型的示例包括深度神经网络(DNN)、递归神经网络(RNN)和双向递归深度神经网络(BRDNN),但不限于此。
此外,电子装置100可以使用人工智能代理来如上所述那样搜索与由用户选择的对象相关的信息。人工智能代理是用于提供基于AI(人工智能)的服务(例如,语音识别服务、辅助服务、翻译服务或搜索服务)的专用程序,并且可以由公知的通用处理器(例如,CPU)或单独的AI专用处理器(例如,GPU等)执行。特别地,人工智能代理可以控制将在后面描述的各种模块。
具体地,当通过预定用户输入(例如,长按等)在图像上选择对象O时,或者当在按下设置于电子装置100上的按钮(例如,用于执行人工智能代理的按钮)之后选择对象O时,可以操作人工智能代理。人工智能代理可以基于用户输入来标识对象区域,通过基于所标识的对象区域识别对象来获取对象的识别信息,并且通过识别模型来获取对象的上下文信息。人工智能代理可以生成包括列表L的单独的图形层,并且将该图形层在包括原始显示的图像的图形层上显示,其中该列表L包括所获取的与对象有关的信息。当通过列表L选择与对象有关的信息时,人工智能代理可以基于所选择的与对象有关的信息来搜索相关图像。
当在屏幕上敲击特定图标或者按下设置在电子装置100上的按钮(例如,用于执行人工智能代理的按钮)时,也可以操作人工智能代理。或者,可以在检测到针对对象O的预定用户输入或者按下设置在电子装置100上的按钮之前操作人工智能代理。在这种情况下,在检测到针对对象O的预定用户输入或者按下设置在电子装置100上的按钮之后,电子装置100的人工智能代理可以执行针对所选择的对象的相关图像搜索功能。此外,人工智能代理可以在检测到针对对象O的预定用户输入或者按下设置在电子装置100上的按钮之前处于待机状态。这里的待机状态是用于检测对这样的用户输入的接收的状态,其中该用户输入是为了控制人工智能代理的操作启动而预先限定的。当在人工智能代理处于待机状态的情况下检测到针对对象O的预定用户输入或者设置在电子装置100上的按钮被选择时,电子装置100可以操作人工智能代理并且搜索和提供与所选择的对象相关的图像。
另一方面,人工智能代理可以控制稍后将描述的各种模块。这将在后面详细描述。
此外,使用经训练的识别模型在电子装置100和服务器之间获取与对象相关的搜索结果的具体示例将在后面结合各实施方式进行描述。
图2A是示出根据各实施方式的电子装置100的框图。如图2A所示,电子装置100包括显示器110、存储器120、用户输入单元130和处理器140。图2所示的组件是用于实现本公开的实施方式的示例,并且电子装置100中还可以包括本领域技术人员清楚知道的合适的硬件/软件组件。
显示器110可以提供各种屏幕。特别地,显示器110可以显示包括至少一个对象的图像(例如,照片)。此外,显示器110可以在至少一个对象之中的通过用户输入选择的对象附近,显示包括与对象相关的信息的列表。此外,显示器110可以显示图像以及同用户所选择的与对象有关的信息相关的至少一个图像。
存储器120可存储与电子装置100的至少一个其它组件有关的指令或数据。特别地,存储器120可以实现为非易失性存储器、易失性存储器、闪速存储器、硬盘驱动器(HDD)或固态驱动器(SDD)。存储器120可以由处理器140存取,并且可以由处理器140执行对数据的读取、记录、编辑、删除或更新。本公开中的术语存储器可以包括存储器120、处理器140中的ROM(未示出)或RAM(未示出)或者安装在电子装置100上的存储卡(未示出)(例如,微型SD卡或记忆棒)。此外,存储器120可以存储用于配置要在显示器110的显示区域中显示的各种屏幕的程序和数据。
存储器120可以存储用于搜索同与对象有关的信息相关的图像的人工智能代理,并且可以存储本公开的识别模型(例如,对象识别模型或上下文识别模型)。
此外,如图2C所示,存储器120可以存储图像获取模块121、标签信息获取模块122、搜索动作检测模块123、屏幕捕获/坐标采集模块124、对象识别模块125、上下文识别模块126、搜索模块127和搜索结果提供模块128。
当通过相机150捕获图像时,图像获取模块121可以通过处理所捕获的图像来获取可显示形式的图像。此外,图像获取模块121可以将所捕获的图像存储在存储器120中。
标签信息获取模块122可以获取关于所捕获的图像的标签信息。特别地,如图2C所示,标签信息获取模块122可以使用训练成预测标签信息的第一识别模型(例如,标签信息识别模型)210来获取标签信息。也就是说,标签信息获取模块122可以通过将所捕获的图像作为输入数据输入到第一识别模型210中来获取关于所捕获的图像的标签信息。这里的标签信息可以包括与图像中所包括的至少一个对象有关的信息或上下文信息。可以与相应图像匹配地存储标签信息。
搜索动作检测模块123可以根据通过用户输入单元130进行的用于选择显示在显示器110上的图像中所包括的对象的用户输入(例如,长按触摸、多点触摸、笔动作等)获取输入信号。
当搜索动作检测模块123获取输入信号时,屏幕捕获/坐标采集模块124可以采集与显示器110上的检测到用户输入的点(或区域)对应的坐标。在另一个示例中,通过边框上的、作为用户输入单元130的物理按钮或触摸传感器来获取输入信号,并且屏幕捕获/坐标采集模块124可以根据经由用户输入单元130另外获取的输入信号采集与显示器110上的由用户选择的点(或区域)对应的坐标。
此外,屏幕捕获/坐标采集模块124可捕获屏幕并生成所捕获的图像。例如,在通过连接到外部设备来搜索相关图像的情况下,屏幕捕获/坐标采集模块124可以捕获当前显示的图像,并将所捕获的图像发送到外部上下文识别设备。
对象识别模块125可以识别在用户选择的点处显示的对象。具体地,对象识别模块125可以基于用户选择的点的坐标值来标识其中显示对象的对象区域。此外,对象识别模块125可以通过将与对象区域有关的数据输入到训练成预测对象的第二识别模型220(例如,对象识别模型)来识别对象。此时,对象识别模块125不仅可以获取对象的类型,而且可以获取关于对象本身的信息,例如对象的颜色、对象的尺寸、对象的名称、对象的性别等。
上下文识别模块126可识别与对象有关的上下文信息。具体地,上下文识别模块126可以通过将图像和与对象区域有关的数据输入到训练成预测对象的上下文信息的第三识别模型230(例如,上下文识别模型)来获取与对象有关的上下文信息。与对象有关的上下文信息不仅可以包括关于对象本身的上下文信息,例如对象的情绪、对象的面部表情、对象的位置、对象的运动以及对象的服饰,还可以包括诸如对象和对象的环境之间的关系的上下文信息。
在上述实施方式中,描述了对象识别模块125和上下文识别模块126是单独的组件并且使用不同的识别模型获取与对象有关的信息,但是这仅仅是实施方式,并且这些可以实现为一个组件(例如,对象/上下文识别模块),并且在这种情况下,对象/上下文识别模块可以通过一个识别模型获取包括对象的识别信息和对象的上下文信息二者的与对象有关的信息。
搜索模块127可以基于用户从所获取的与对象有关的信息中选择的信息来搜索相关图像。在一个示例中,搜索模块127可以基于与存储在存储器120中的多个图像有关的标签信息和所选择的信息来搜索相关图像。也就是说,搜索模块127可以搜索具有与所选择的信息相同的标签信息的图像或者具有与所选择的信息相关的标签信息的图像。在另一个示例中,搜索模块127可以生成包括所选择的与对象有关的信息的查询,并且将该查询发送到外部搜索服务器。搜索模块127可以从外部搜索服务器接收搜索结果作为对查询的应答。
搜索结果提供模块128可以在显示器110上提供由搜索模块127搜索的相关图像(或搜索结果)。特别地,搜索结果提供模块128可以在与显示在显示器110上的图像分离的区域中显示搜索到的相关图像,但是这仅仅是一个实施方式,并且搜索结果提供模块128可以生成包括搜索到的相关图像的弹出窗口,并且在图像上提供弹出窗口。此外,搜索结果提供模块128可以经由诸如扬声器或触觉提供单元的输出设备提供与搜索结果有关的信息。
上述的第一识别模型210、第二识别模型220和第三识别模型230可以存储在电子装置100中,但是这仅仅是一个实施方式,并且这些可以存储在外部服务器中。此外,多个识别模型210至230中的至少两个可以实现为集成的识别模型。例如,对象识别模型和上下文识别模型可以整体实现为对象/上下文识别模型。稍后将参考附图详细描述使用用于识别的输入数据来训练多个识别模型的方法。
回到图2A,用户输入单元130可以接收各种用户输入,并将用户输入发送到处理器140。特别地,用户输入单元130可以包括触摸传感器、(数字)笔传感器、压力传感器或按键。触摸传感器可以使用例如,静电类型、压敏类型、红外类型或超声波类型中的至少一种类型。(数字)笔传感器例如可以是触摸面板的一部分,或者包括用于识别的单独的片。按键例如可以包括物理按钮、光学按键或小键盘。
特别地,用户输入单元130可以在预定用户触摸(例如,长按触摸)或按下用于选择对象的特定按钮(例如,用于执行人工智能服务的按钮)之后,根据正在沿着对象进行的用户输入来获取输入信号。用户输入单元130可以将输入信号发送到处理器140。
处理器140可以电连接到显示器110、存储器120和用户输入单元130,并且可以控制电子装置100的一般操作和功能。特别地,处理器140可以通过使用图像获取模块121、标签信息获取模块122、搜索动作检测模块123、屏幕捕获/坐标采集模块124、对象识别模块125、上下文识别模块126、搜索模块127和搜索结果提供模块128来执行用于搜索与用户选择的对象相关的图像的功能。特别地,处理器140可以:当在显示器110上显示包括至少一个对象的图像时,通过使用用户输入单元130根据用于选择对象的用户输入获取输入信号;通过使用训练成响应于输入信号获取与对象有关的信息的识别模型,识别在检测到用户输入的点处显示的对象并且获取所识别的对象;控制显示器110显示包括与对象有关的信息的列表;以及根据经由用户输入单元从列表中所包括的与对象有关的信息中选择一条信息,基于所选择的信息搜索相关图像。稍后将详细描述由处理器140搜索相关图像的方法。
图2B是具体示出根据本公开的实施方式的电子装置100的配置的框图。如图2B所示,电子装置100可以包括显示器110、存储器120、用户输入单元130、处理器140、相机150、通信器160和音频输出单元170。已经结合图2B描述了显示器110、存储器120和用户输入单元130,因此将省略重叠的描述。
相机150可以捕获包括至少一个对象的图像。相机150可以设置在电子装置100的前侧或后侧中的至少一者处。相机150可以设置在电子装置100中,但是这仅仅是一个实施方式,并且电子装置100可以存在于外部并且以有线或无线方式连接到电子装置100。
通信器160可以根据各种类型的通信方法执行与各种类型的外部设备的通信。通信器160可以包括Wi-Fi芯片161、蓝牙芯片162、无线通信芯片163和NFC芯片164中的至少一种。处理器140可以使用通信器160与外部服务器或各种外部设备执行通信。
特别地,通信器160可以与外部上下文识别设备、外部搜索服务器或外部云服务器执行通信。
音频输出单元170不仅可以输出通过由音频处理器(未示出)执行诸如解码、放大或噪声过滤之类的各种处理而获得的各种音频数据的片段,还可以输出各种警报或语音消息。特别地,音频输出单元170可以实现为扬声器,但是这仅仅是实施方式,并且音频输出单元170可以实现为能够输出音频数据的输出终端。
特别地,音频输出单元170可以以声音的形式向用户提供与搜索结果有关的信息。
处理器140(或控制器)可以使用存储在存储器120中的各种程序来控制电子装置100的一般操作。
处理器140可以包括RAM 141、ROM 142、图形处理器143、主CPU 144、第一至第n接口145-1至145-n以及总线146。RAM 141、ROM 142、图形处理器143、主CPU 144和第一至第n接口145-1至145-n可以经由总线146彼此连接。
图3是用于解释由根据本公开的实施方式的电子装置搜索与对象相关的图像的方法的图。特别地,在该实施方式中,当在执行相册应用的情况下显示图像时,可以搜索与图像中所包括的对象相关的图像。
首先,电子装置100可以存储包括标签信息的多个图像(S310)。具体地,当获取图像时,电子装置100可以通过将所捕获的图像输入到标签信息识别模型来识别与图像中所包括的对象有关的信息和上下文信息,并且获取所识别的与对象有关的信息和上下文信息作为标签信息并将该信息与图像一起存储。或者,当从外部获取图像时,电子装置100可以接收和存储关于图像的标签信息。
电子装置100可以显示多个图像之中的、包括至少一个对象的图像(S320)。电子装置100可以执行相册应用,并且在执行相册应用时显示包括至少一个对象的图像。
电子装置100可以检测用于选择对象的用户输入(S330)。用于选择对象的用户输入可以是:敲击显示对象的区域的点并向下保持一段特定时间或更长时间的长按触摸、多次敲击显示对象的区域的点的多点触摸、或者在显示对象的区域上进行绘画的绘画触摸(drawing touch)。特别地,当检测到用于选择对象的用户输入时,电子装置100可以执行人工智能代理。
电子装置100可以通过使用识别模型,识别在检测到用户输入的点处所显示的对象并且获取与所识别的对象有关的信息(S340)。具体地,电子装置100可以基于检测到用户输入的点的坐标值来标识显示对象的对象区域,并且通过将所标识的对象区域输入到对象识别模型来识别显示在对象区域中的对象。此时,电子装置100可以获取对象的识别信息(例如,对象的类型、颜色、尺寸、性别、名称等)。此外,电子装置100可以通过将对象区域和图像数据输入到上下文识别模型来获取对象的上下文信息(例如,对象的情绪、面部表情、服饰、运动等)。
电子装置100可以显示包括与对象有关的信息的列表(S350)。此时,电子装置100可以在所选择的对象的附近显示包括与对象有关的信息的列表。此外,电子装置100可以通过生成与包括至少一个对象的图像不同的图形层来显示列表。
电子装置100可以检测用于从列表中所包括的与对象有关的信息中选择一条信息的用户输入(S360)。
电子装置100可以在多个存储图像中搜索具有同与所选择的与对象有关的信息相关的标签信息的相关图像(S370)。具体地,电子装置100可以搜索具有同所选择的与对象有关的信息相同的标签信息或者具有同所选择的与对象有关的信息相关的标签信息的相关图像。例如,当用户所选择的与对象有关的信息是“微笑的小孩”时,电子装置100可以搜索具有与“微笑的小孩”相同的标签信息或具有与“微笑的小孩”相关的标签信息的相关图像(例如,小孩的笑声、小孩的微笑等)。
电子装置100可以提供搜索到的相关图像(S380)。具体地,电子装置100可以通过缩小当前显示的图像的尺寸并生成用于显示搜索到的相关图像的搜索区域来在搜索区域中显示搜索到的相关图像。
图4是用于解释根据本公开的实施方式的通过上下文识别设备获取与对象有关的信息的实施方式的图。上下文识别设备10可以是连接到电子装置100以进行通信的外部服务器。
电子装置100可以显示多个图像之中的包括至少一个对象的图像(S410)。电子装置100可以在执行相册应用时显示包括至少一个对象的图像,或者可以在执行web应用时显示包括在web页面中的图像。
电子装置100可以检测用于选择对象的用户输入(S420)。用于选择对象的用户输入可以是敲击显示对象的区域的点并向下保持一段特定时间或更长时间的长按触摸、多次敲击显示对象的区域的点的多点触摸、或者在显示对象的区域上进行绘画的绘画触摸,但不限于此。
电子装置100可以将图像和与检测到用户输入的点有关的信息发送到上下文识别设备10(S430)。具体地,电子装置100可以将图像数据和检测到用户输入的点的坐标值信息发送到外部上下文识别设备10,以便获取与对象有关的信息。
上下文识别设备10可以通过使用第一识别模型(例如,对象识别模型)来识别针对其检测到用户输入的对象(S440)。具体地,上下文识别设备10可以基于图像和与检测到用户输入的点有关的信息来标识检测到用户输入的对象区域。当对象区域被标识时,上下文识别设备10可以通过将对象区域中的图像数据输入到对象识别模型来识别对象。上下文识别设备10可以通过识别对象来获取与对象有关的识别信息(例如,对象的类型、对象的颜色、对象的尺寸、对象的名称、对象的性别等)。
在另一个实施方式中,电子装置100可以标识对象区域,并且将图像数据和与对象区域有关的信息发送到上下文识别设备10,并且上下文识别设备10可以基于图像数据和与对象区域有关的信息来获取与对象有关的信息。
上下文识别设备10可以使用第二识别模型(例如,上下文识别模型)来获取对象的上下文信息(S450)。具体地,上下文识别设备10可以通过将图像数据和与对象有关的识别信息输入到上下文识别模型来获取对象的上下文信息(例如,对象的面部表情、情绪、服饰和运动、与相邻对象的关系等)。
上下文识别设备10可以将所获取的与对象有关的信息发送到电子装置100(S460)。与对象有关的信息可以包括与对象有关的识别信息和与对象有关的上下文信息。
电子装置100可以显示包括与对象有关的信息的列表(S470)。电子装置100可以在所选择的对象附近显示包括与对象有关的信息的列表。
电子装置100可以检测用于从列表中所包括的与对象有关的信息中选择一条信息的用户输入(S480)。
电子装置100可以基于所选择的与对象有关的信息来搜索相关图像(S490)。具体地,电子装置100可以从多个存储图像之中搜索具有同所选择的与对象有关的信息相关的标签信息的相关图像,并且可以通过向外部搜索服务器发送包括所选择的与对象有关的信息的查询来搜索相关图像。
图5是用于解释根据本公开的实施方式的通过上下文识别设备获取与对象有关的信息以及通过内容搜索设备搜索相关图像的实施方式的图。特别地,在该实施方式中,当在执行web应用的情况下显示图像时,可以搜索与图像中所包括的对象相关的图像。上下文识别设备10和内容搜索设备20可以是连接到电子装置100以进行通信的外部服务器,并且可以实现为单独的服务器,但是这仅仅是实施方式,并且这些可以实现为一个服务器。
电子装置100可以显示多个图像之中的包括至少一个对象的图像(S505)。当执行web应用时,电子装置100可以显示包括在web页面中的图像。
电子装置100可以检测用于选择对象的用户输入(S510)。如上,用于选择对象的用户输入可以是长按触摸、多点触摸或绘图触摸,但不限于此。在另一个实施方式中,当检测到用于选择对象的用户输入时,电子装置100可以捕获当前显示的页面并获取所捕获的图像。
电子装置100可以将图像和与检测到用户输入的点有关的信息发送到上下文识别设备10(S515)。具体地,电子装置100可以将所捕获的图像和检测到用户输入的点的坐标值信息发送到外部上下文识别设备10,以便获取与对象有关的信息。
上下文识别设备10可以通过使用第一识别模型(例如,对象识别模型)来识别针对其检测到用户输入的对象(S520)。具体地,上下文识别设备10可以基于所捕获的图像和与检测到用户输入的点有关的信息来标识检测到用户输入的对象区域,并且通过将对象区域中的图像数据输入到对象识别模型来识别对象。
上下文识别设备10可以使用第二识别模型(例如,上下文识别模型)来获取对象的上下文信息(S525)。具体地,上下文识别设备10可以通过将所捕获的图像和与对象有关的识别信息输入到上下文识别模型来获取对象的上下文信息(例如,对象的面部表情、情绪、服饰和移动、对象与相邻对象的关系等)。上下文识别设备10不仅可以使用与所捕获的图像中所包括的对象有关的信息而且可以使用环境信息(例如,文本等)来获取对象的上下文信息。
上下文识别设备10可以将所获取的与对象有关的信息发送到电子装置100(S530)。与对象有关的信息可以包括与对象有关的识别信息和与对象有关的上下文信息。
电子装置100可以显示包括与对象有关的信息的列表(S535)。电子装置100可以在所选择的对象附近显示包括与对象有关的信息的列表。
电子装置100可以检测用于从列表中所包括的与对象有关的信息中选择一条信息的用户输入(S540)。
电子装置100可以将包括所选择的与对象有关的信息的查询发送到内容搜索设备20(S545)。
内容搜索设备20可以响应于查询来搜索内容(S550)。内容搜索设备20可以搜索具有同所选择的与对象有关的信息相关的名称、文本或标签信息的图像内容,但不限于此,并且内容搜索设备20可以搜索诸如视频内容或音乐内容的各种内容。
内容搜索设备20可以将搜索结果发送到电子装置100(S555),并且电子装置100可以提供接收到的搜索结果(S560)。电子装置100可以作为单独的网页提供接收到的搜索结果,但是这仅仅是一个实施方式,并且电子装置100可以通过弹出窗口提供搜索结果。
图6是用于解释根据本公开的实施方式的用于在电子装置中的图像之中搜索与用户选择的对象相关的图像的实施方式的图。
电子装置100可以根据用户输入执行相册应用。电子装置100可以在执行相册应用时显示存储在电子装置100中的多个图像中的一个。所显示的图像可以包括至少一个对象。例如,如图6的(a)所示,图像可以包括小孩对象、小狗对象和太阳对象。
如图6的(a)所示,电子装置100可以检测用于从包括在图像中的多个对象中选择小孩对象610的用户输入。用户输入可以是敲击某一点并向下保持一段特定时间或更长时间的长按触摸、在一段预定时间内多次敲击某一点的多点触摸、或者在包括对象的区域上进行绘画的绘画触摸,但不限于此。当检测到用于从多个对象中选择一个对象的用户输入时,电子装置100可以执行用于搜索相关图像的人工智能代理(例如,BixbyTM等)。
如图6的(b)所示,电子装置100可以基于检测到用户输入的坐标值来标识包括所选择的对象610的对象区域。
电子装置100可以通过对象识别模块125利用与对象区域有关的信息来识别显示在对象区域中的对象610。特别地,对象识别模块125可以将与对象区域有关的数据作为输入数据输入到对象识别模型,并作为输入结果获取对象的识别信息。对象的识别信息可以包括对象的类型、颜色、尺寸、名称、性别等。例如,电子装置100可以通过将在图6的(b)中识别的与对象区域有关的信息输入到对象识别模型识别出包括在对象区域中的对象610是“小孩”。
电子装置100可以通过上下文识别模块126使用对象的识别信息和与图像有关的数据来获取对象的上下文信息。特别地,上下文识别模块126可以将对象的识别信息和与图像有关的数据输入到上下文识别模型,并作为输入的结果获取对象的上下文信息。对象的上下文信息可以包括对象的面部表情、对象的情绪、对象的服饰、对象的运动、对象的位置、对象与另一对象的关系等。例如,电子装置100可以通过上下文识别模块126获取“微笑的小孩”、“奔跑的小孩”和“小狗和小孩”作为对象的上下文信息。
如图6的(c)所示,电子装置100可以在所选择的对象附近显示包括所获取的与对象有关的信息的列表620。例如,列表620可以包括“小孩”、“微笑的小孩”、“奔跑的小孩”和“小狗和小孩”,它们是通过上述对象识别模块125和上下文识别模块126获取的与对象有关的信息。列表620可以包括在与原始显示的图像分开地生成的图形层中。
电子装置100可以检测用于从所获取的与对象有关的信息中选择一条信息的用户输入。用于从包括在列表620中的与对象有关的信息中选择一条信息的用户输入可以是敲击,但不限于此。例如,电子装置100可以检测到用于选择与对象有关的信息的用户输入“微笑的小孩”。
电子装置100可以基于所选择的与对象有关的信息来搜索相关图像。具体地,电子装置100可以从存储在电子装置100中的多个图像之中搜索具有同所选择的与对象有关的信息相同或相似的标签信息的图像。例如,电子装置100可以搜索具有与“微笑的小孩”(其是所选择的与对象有关的信息)相同的标签信息的图像,或者具有例如“小孩的微笑”、“小孩的笑声”和“微笑的小孩”(其是与“微笑的小孩”相似的标签信息)的标签信息的图像。
如图6的(d)所示,电子装置100可以提供搜索结果630。电子装置100可以通过缩小原始显示的图像的尺寸来在单独的区域中提供搜索结果630。电子装置100可以在与原始显示的图像分离的区域中提供搜索结果630,但是这仅仅是一个实施方式,并且电子装置100可以生成包括搜索结果的弹出窗口。
图7是用于解释根据本公开的实施方式的用于搜索与用户选择的对象相关的外部图像的实施方式的图。
电子装置100可以在执行web应用时显示包括图像的网站。可以在图像中显示至少一个对象。
电子装置100可以检测用于从网页上的图像中选择“人物对象”710的用户输入。用户输入可以是长按触摸、多点触摸或绘图触摸,但不限于此。
在本公开的实施方式中,电子装置100可以响应于用户输入,捕获包括对象710的网页并且生成捕获的图像。电子装置100可以通过后台线程执行网页的捕获。
电子装置100可以将图像(例如,所捕获的图像)和与检测到用户输入的点有关的信息(例如,坐标值信息)发送到对象识别设备10。
对象识别设备10可以基于图像和与检测到用户输入的点有关的信息来标识(提取)对象区域,并且可以通过将所识别的对象区域输入到对象识别模型来获取对象的识别信息。例如,对象识别设备10可以获取作为对象的识别信息的名称“XXX”。
对象识别设备10可以通过将图像和与对象区域有关的信息输入到上下文识别模型来获取对象的上下文信息。对象识别设备10不仅可以使用与对象区域有关的信息而且可以使用包括在所捕获的图像(例如,文本)中的其它信息来获取对象的上下文信息。例如,对象识别设备10可以获取对象710的上下文信息,例如“微笑的XXX”、“跳舞的XXX”和“XXX的舞台”。
对象识别设备10可以将与对象有关的信息(对象的识别信息和对象的上下文信息)发送到电子装置100。
如图7的(b)所示,电子装置100可以在所选择的对象710附近显示包括所获取的与对象有关的信息的列表720。例如,列表720可以包括“XXX”、“微笑的XXX”、“跳舞的XXX”和“XXX的舞台”,它们是通过上述对象识别设备10获取的与对象有关的信息。列表720可以包括在与原始显示的图像分开生成的图形层中。
电子装置100可以检测用于从所获取的与对象有关的信息中选择一条信息的用户输入。用于从包括在列表720中的与对象有关的信息中选择一条信息的用户输入可以是敲击,但不限于此。例如,电子装置100可以检测用于选择与对象“微笑的小孩”有关的信息的用户输入。
电子装置100可以向外部内容搜索设备20发送包括所选择的与对象有关的信息的查询。
内容搜索设备20可以响应于该查询来搜索同所选择的与对象有关的信息相关的图像。例如,内容搜索设备20可以搜索具有诸如“微笑的XXX”的名称、文本或标签信息的图像或网页。
内容搜索设备20可以将搜索到的结果发送到电子装置100。
如图7的(c)所示,电子装置100可以将搜索结果730提供为单独的弹出窗口。然而,将搜索结果730提供为单独的弹出窗口仅仅是一个实施方式,并且可以通过生成单独的网页来提供搜索结果730。
图8是用于解释根据本公开的实施方式的用于选择对象的用户输入的图。
根据本公开的实施方式,如图8的(a)所示,用户可以敲击(例如,长按触摸或多点触摸)图像中的显示对象的点801,以便选择对象。或者,如图8的(b)所示,用户可以通过使用电子笔在显示对象的显示区域的一部分803上进行绘画。
或者,如图8的(c-1)所示,电子装置100可以提供用于在屏幕上提供与对象相关的搜索结果的UI(例如,图标)805。例如,当用户从电子装置100移除电子笔时,电子装置100可以显示这样的UI 805,该UI 805基于根据电子笔的移除而发生的事件来提供相关图像搜索功能。在另一个示例中,电子装置100可以显示这样的UI 805,该UI 805根据从显示区域的一侧(例如,边缘区域)拖到中央的用户输入来提供相关图像搜索功能。在又一个示例中,电子装置100可以显示这样的UI 805,该UI 805根据选择设置在电子装置100的一个区域中的按钮的用户输入来提供相关图像搜索功能。
在这种状态下,当用户选择UI 805时,电子装置100捕获包括在UI显示之前显示在显示区域中的对象的屏幕,并且如图8的(c-2)所示,电子装置100可以将所捕获的图像显示为屏幕捕获结果。例如,当显示所捕获的图像时,用户可以通过使用电子笔对所捕获的图像的一个区域807进行绘画来选择对象。
图9A和9B是用于解释根据本公开的实施方式的通过使用搜索式来搜索相关图像的方法的图。
首先,如图9A的(a)所示,电子装置100可以显示包括通过上述方法获取的与对象有关的信息的列表910。例如,电子装置100可以获取诸如“小孩”、“微笑的小孩”和“白色的小孩”之类的信息作为列表910中的与对象有关的信息。
电子装置100可以检测用于从列表中所包括的与对象有关的信息中选择“微笑的小孩”的用户输入。
当检测到用于选择“微笑的小孩”的用户输入时,如图9A的(b)所示,电子装置100可以显示包括图像显示区域920、搜索框930和搜索结果显示区域940的屏幕。可以在图像显示区域920中显示图9A的(a)中所示的缩小图像,可以在搜索框930中显示用户所选择的与对象有关的信息(即,“微笑的小孩”),并且可以在搜索结果显示区域940中显示基于所选择的与对象有关的信息搜索所得的相关图像940-1至940-4。
如图9A的(c)所示,电子装置100可以输入“+”作为符号,以输入用于根据用户输入将特定条件添加到搜索框930的搜索条件“和”。用户可以针对搜索条件“和”输入“+”,但是这仅仅是实施方式,并且可以输入诸如“*”之类的符号或诸如“和”之类的文本。
在另一个实施方式中,用户可以输入“-”或“非”作为符号,以输入用于从搜索结果中排除特定条件的搜索条件“非”。在另一个实施方式中,用户可以输入“+”、“*”和“或”作为“或”的搜索条件。然而,搜索条件不限于以上描述,并且可以将其它搜索条件应用于本公开的技术构思。
在输入搜索条件“和”之后,当检测到用于选择小狗对象的用户输入时,如图9A的(d)所示,电子装置100可以在图像显示区域920中显示包括与小狗对象有关的信息的列表950。例如,列表950可以包括诸如“小狗”、“奔跑的小狗”和“马耳他犬”的信息。
如图9A的(e)所示,当从列表950中所包括的信息中选择“小狗”时,电子装置100可以在搜索框930中显示搜索式(微笑的小孩+小狗),并且在搜索结果提供区域940中显示通过搜索式搜索到的相关图像940-5至940-7。当从列表950中所包括的信息中选择“小狗”时,电子装置100可以直接更新搜索式和通过搜索式搜索到的相关图像940-5至940-7,但是这仅仅是实施方式,并且电子装置100可以当在完成搜索式之后在搜索框930中选择用于执行搜索的图标时,通过执行对相关图像的搜索来更新搜索结果提供区域940。
在上述实施方式中,描述了用户直接输入在搜索式中使用的符号或文本以用于写入搜索式,但是这仅仅是实施方式,如图9B所示,电子装置100可以生成包括搜索条件的列表960。具体地,列表960可以包括用于添加或排除与对象有关的信息中的每一个的图标,并且当选择多个图标中的一个时,电子装置100可以将与对象有关的信息和与所选择的图标对应的搜索条件输入到搜索框。例如,当选择显示在微笑的小孩旁边的图标“+”时,电子装置100可以向搜索框930输入“+微笑的小孩”。
图10A和10B是用于解释根据本公开的实施方式的通过使用搜索历史或推荐关键字来搜索相关图像的方法的图。
具体地,为了帮助用户进行相关图像搜索,电子装置100可以如图10A所示那样显示包括最近使用的历史信息(或最近使用的搜索式)的区域1020,或者如图10B所示那样显示包括用户推荐信息的区域1040。如图10A和10B所示,可以一起显示图像显示区域1010和搜索结果提供区域1030。
特别地,最近使用的历史信息可以包括用户从与对象有关的信息中选择预定次数或更多次的信息,并且用户推荐信息可以包括存储在电子装置100中的图像的标签信息之中的具有预定频率或更多次的标签信息,或者由外部服务器推荐的信息。
此外,为了选择历史信息或用户推荐信息,如图10A和10B所示,可以显示复选框,但是这仅仅是一个实施方式,并且可以显示包括历史信息或用户推荐信息的列表。
图11是用于解释根据本公开的实施方式的通过使用相关图像来生成相册的方法的图。
电子装置100可以根据用户输入通过使用相关图像来生成相册。具体地,如图11的(a)所示,电子装置100可以显示图像显示区域1110、搜索框1120和搜索结果提供区域1130。电子装置100可以显示用于选择所有相关图像的图标1140和用于在搜索结果提供区域1130中生成相册的图标1150。
具体地,当通过用户输入(即,触摸输入)选择显示在搜索结果提供区域1130中的多个相关图像中的至少一个时,电子装置100可以突出显示所选择的相关图像。或者,当选择了用于选择所有相关图像的图标1140时,电子装置100可突出显示所有相关图像。
当在已经从多个相关图像之中选择了至少一个相关图像的情况下选择用于生成相册的图标1150时,电子装置100可以生成包括所选择的相关图像的相册。如图11的(b)所示,电子装置100可以显示表示在搜索结果提供区域1130中新生成的相册的图标1170。新生成的相册的名称可以是用于搜索相关图像的“与对象有关的信息”,但不限于此。
图12是示出根据本公开的实施方式的用于训练和使用识别模型的电子装置(特别是处理器)的配置的框图。
参照图12,处理器1200可以包括学习单元1210和识别单元1220中的至少一个。图12的处理器1200可对应于图2A和2B的电子装置100的处理器140或数据学习服务器(未示出)的处理器。
学习单元1210可以生成或训练具有用于识别对象的标准的识别模型和具有用于预测对象的上下文信息的标准的识别模型。学习单元1210可以通过使用所采集的学习数据来生成具有确定标准的识别模型。
在一个示例中,学习单元1210可以通过使用包括至少一个对象的图像作为学习数据来生成、训练或完善对象识别模型,该对象识别模型用于确定用于预测图像中所包括的对象的标准。
在另一个示例中,学习单元1210可以通过使用包括至少一个对象的图像作为学习数据来生成、训练或完善上下文识别模型,该上下文识别模型用于确定用于预测图像中所包括的对象的上下文的标准。
在又一个示例中,学习单元1210可以通过使用包括至少一个对象的图像作为学习数据来生成、训练或完善用于获取标签信息的标签信息识别模型。
识别单元1220可以通过使用预定数据作为经训练的识别模型的输入数据来预测预定数据中所包括的识别目标或场景。
在一个示例中,识别单元1220可以通过使用包括对象的对象区域(或图像)作为经训练的识别模型的输入数据来获取(或预测或推理)与用户所选择的对象有关的信息。
在另一个示例中,识别单元1220可以通过将图像和与对象有关的信息应用到经训练的识别模型来获取(或预测或推理)对象的上下文信息。
学习单元1210的至少一部分和识别单元1220的至少一部分可以实现为软件模块,或者可以以至少一个硬件芯片的形式制造并且安装在电子装置上。例如,学习单元1210和识别单元1220中的至少一个可以以用于人工智能(AI)的专用硬件芯片的形式来制造,或者可以作为现有的通用处理器(例如,CPU或应用处理器)或图形处理器(例如,GPU)的一部分来制造,并且安装在各种电子装置或对象识别设备上。用于人工智能的专用硬件芯片是专用于可能性计算的专用处理器,并且由于比现有的通用处理器的并行处理性能更高的并行处理性能,可以在人工智能领域中快速地处理计算操作,例如机器学习。当学习单元1210和识别单元1220实现为软件模块(或包括指令的程序模块)时,软件模块可以存储在非暂时性计算机可读介质中。在这种情况下,软件模块可以由操作系统(OS)或预定应用提供。或者,软件模块的一部分可以由操作系统(OS)提供,而其另一部分可以由预定应用提供。
在这种情况下,学习单元1210和识别单元1220可以安装在一个电子装置上,或者可以分别安装在单独的电子装置上。例如,学习单元1210和识别单元1220中的一个可以包括在电子装置100中,或者其中的另一个可以包括在外部设备中。此外,对于学习单元1210和识别单元1220,由学习单元1210构造的模型信息可以以有线或无线方式提供到识别单元1220,或者由识别单元1220输入的数据可以作为附加学习数据以有线或无线方式提供到学习单元1210。
图13A是根据实施方式的学习单元1210和识别单元1220的框图。
参照图13A的(a),根据实施方式的学习单元1210包括学习数据获取单元1210-1和模型学习单元1210-4。此外,学习单元1210还可以选择性地包括学习数据预处理单元1210-2、学习数据选择单元1210-3和模型评估单元1210-5中的至少一个。
学习数据获取单元1210-1可以获取由识别模型预测识别目标所需的学习数据。根据本公开的实施方式,学习数据获取单元1210-1可以获取包括对象的整个图像、与对象区域对应的图像、对象信息和对象的上下文信息中的至少一个作为学习数据。学习数据可以是由学习单元1210或学习单元1210的制造商采集或测试的数据。
模型学习单元1210-4可以通过使用学习数据来训练识别模型以使其具有关于如何确定预定识别目标的确定标准。在一个示例中,模型学习单元1210-4可以通过以下来构造识别模型:提取整个输入图像或与对象区域对应的图像的特征,将特征投影到向量空间中,以及对每个向量中的对象的信息或上下文信息进行索引。
特别地,模型学习单元1210-4可以通过使用学习数据的至少一部分作为确定标准的监督学习来训练识别模型。或者,模型学习单元1210-4可以通过无监督地学习用于确定场景的确定标准来训练识别模型,其可以通过以下来实现:例如,在无需特定的监督的情况下,通过使用学习数据进行自训练。此外,模型学习单元1210-4可以利用关于根据学习的场景确定的结果是否准确的反馈,例如通过加强学习来训练识别模型。此外,模型学习单元1210-4可以例如通过使用包括误差反向传播或梯度下降的学习算法来训练识别模型。
此外,模型学习单元1210-4可以训练关于使用哪些学习数据来通过使用输入数据预测识别目标的选择标准。
当存在预先构建的多个识别模型时,模型学习单元1210-4可以将具有与输入学习数据最相关的基本学习数据的识别模型确定为要训练的识别模型。在这种情况下,可以针对每种类型的数据将基本学习数据条目预先分类,并且可以针对每种类型的数据预先构建识别模型。例如,可以基于诸如生成学习数据的区域、生成学习数据的时间、学习数据的尺寸、学习数据的流派、学习数据的创建者、学习数据中的对象的类型等各种标准来对基本学习数据条目预先分类。
当训练识别模型时,模型学习单元1210-4可以存储经训练的识别模型。在这种情况下,模型学习单元1210-4可以将经训练的识别模型存储在电子装置100的存储器130中。或者,模型学习单元1210-4可以将经训练的识别模型存储在以有线方式或经由无线网络连接到电子装置100的服务器的存储器中。
学习单元1210还可以包括学习数据预处理单元1210-2和学习数据选择单元1210-3,以便改进识别模型的分析结果或节省生成识别模型所需的资源或时间。
学习数据预处理单元1210-2可以预处理所获取的数据,使得所获取的数据可以在训练中用于场景确定。学习数据预处理单元1210-2可以将所获取的数据处理成预定格式,使得模型学习单元1210-4可以使用所获取的数据进行训练以用于场景确定。
学习数据选择单元1210-3可以从由学习数据获取单元1210-1获取的数据或者由学习数据预处理单元1210-2预处理的数据中选择训练所需的数据。所选择的学习数据可以提供到模型学习单元1210-4。学习数据选择单元1210-3可以根据预先确定的选择标准从所获取的或经预处理的数据中选择训练所需的学习数据。此外,学习数据选择单元1210-3可以根据通过对模型学习单元1210-4的训练而预先确定的选择标准来选择学习数据。
学习单元1210还可以包括模型评估单元1210-5,以便改进识别模型的分析结果。
模型评估单元1210-5可以将评估数据输入到识别模型,并且当根据评估数据输出的分析结果不满足预定标准时,使模型学习单元1210-4再次执行训练。在这种情况下,评估数据可以是为了评估识别模型而预限定的数据。
例如,当经训练的识别模型的关于评估数据的分析结果之中的、具有不准确分析结果的评估数据条目的数量或比率超过预定阈值时,模型评估单元1210-5可以评估出不满足预定标准。
另一方面,经训练的识别模型的数量多于一个,模型评估单元1210-5可以评估每个经训练的识别模型是否满足预定标准,并将满足预定标准的模型确定为最终识别模型。在这种情况下,当满足预定标准的模型的数量多于一个时,模型评估单元1210-5可以按照高评估等级的顺序预先确定任何一个或预定数量的模型集作为最终识别模型。
参照图13A的(b),根据实施方式的识别单元1220可以包括识别数据获取单元1220-1和识别结果提供单元1220-4。此外,识别单元1220还可以选择性地包括识别数据预处理单元1220-2、识别数据选择单元1220-3和模型完善单元1220-5中的至少一个。
识别数据获取单元1220-1可以获取场景确定或对象识别所需的数据。识别结果提供单元1220-4可以通过将识别数据获取单元1220-1获取的数据作为输入值应用到经训练的识别模型来确定场景。识别结果提供单元1220-4可以根据数据的分析目的提供分析结果。识别结果提供单元1220-4可以通过将由识别数据预处理单元1220-2或识别数据选择单元1220-3(将在后面描述)选择的数据作为输入值应用到识别模型来获取分析结果。分析结果可以由识别模型确定。
在一个示例中,识别结果提供单元1220-4可以通过将由识别数据获取单元1220-1获取的包括对象的图像(例如,整个图像或与对象区域对应的图像)应用到经训练的识别模型来获取(或预测)与对象有关的识别信息。
在另一个示例中,识别结果提供单元1220-4可以通过将由识别数据获取单元1220-1获取的图像数据和与对象有关的信息中的至少一个应用到经训练的识别模型来获取(或预测)对象的上下文信息。
识别单元1220还可以包括识别数据预处理单元1220-2和识别数据选择单元1220-3,以便改进识别模型的分析结果或节省提供分析结果所需的资源或时间。
识别数据预处理单元1220-2可以预处理所获取的数据,使得所获取的数据可以用于场景确定。识别数据预处理单元1220-2可以将所获取的数据处理成预定格式,使得分析结果提供单元1220-4可以将所获取的数据用于场景确定。
识别数据选择单元1220-3可以从由识别数据获取单元1220-1获取的数据或者由识别数据预处理单元1220-2预处理的数据中选择用于场景确定所需的数据。所选择的数据可以提供到分析结果提供单元1220-4。识别数据选择单元1220-3可以根据用于场景确定的预定选择标准来选择所获取的或预处理的数据条目中的一部分或全部。此外,识别数据选择单元1220-3可以根据通过由模型学习单元1210-4执行训练而预先确定的选择标准来选择数据。
模型完善单元1220-5可以基于对由识别结果提供单元1220-4提供的分析结果的评估来控制要完善的识别模型。例如,模型完善单元1220-5可以通过向模型学习单元1210-4提供由识别结果提供单元1220-4提供的分析结果来请求模型学习单元1210-4额外地训练或完善识别模型。
图13B是示出通过将根据实施方式的电子装置100和外部服务器50彼此连接来训练和识别数据的示例的图。
参照图13B,外部服务器50可以对用于识别对象或对象的上下文信息的标准执行训练,并且电子装置100可以基于服务器50的学习结果来确定场景。
在这种情况下,服务器50的模型学习单元1210-4可以执行图12所示的学习单元1210的功能。服务器50的模型学习单元1210-4可以对关于使用哪个图像或对象图像来确定预定场景以及如何通过使用上述数据来确定对象或对象的上下文信息的标准执行训练。
此外,电子装置100的识别结果提供单元1220-4可以通过将识别数据选择单元1220-3选择的数据应用到由服务器50生成的识别模型来确定与对象有关的信息(即,对象的识别信息和对象的上下文信息)。或者,电子装置100的识别结果提供单元1220-4可以从服务器50接收由服务器50生成的识别模型,并且通过使用所接收的识别模型来识别对象或对象的上下文。在这种情况下,电子装置100的识别结果提供单元1220-4可以通过将由识别数据选择单元1220-3选择的图像应用到从服务器50接收的识别模型来获取与图像中所包括的对象有关的信息。
图14是用于解释根据本公开的实施方式的用于搜索与用户选择的对象相关的图像的方法的流程图。
首先,电子装置100可以显示包括至少一个对象的图像(S1410)。图像可以是在执行相册应用时提供的照片,但不限于此,并且可以是在执行web应用时提供的web图像。
电子装置100可以检测用于选择对象的用户输入(S1420)。用户输入可以是敲击显示对象的区域的一个点并向下保持一段特定时间或更长时间的长按触摸、以预定压力或更大压力敲击显示对象的区域的一个点的力触摸、在一段预定时间内多次敲击显示对象的区域的一个点的多点触摸、或者在显示对象的区域上进行绘画的绘画触摸,但是不限于此。
电子装置100可以通过使用经训练的识别模型来识别在检测到用户输入的点处所显示的对象,并且获取与所识别的对象有关的信息(S1430)。电子装置100可以基于与检测到用户输入的点有关的信息(例如,坐标值)来标识对象区域,并且通过将对象区域作为输入数据输入到对象识别模型来识别对象。电子装置100可以获取对象的识别信息(例如,对象的类型、对象的颜色、对象的尺寸、对象的名称或对象的性别)。此外,电子装置100可以通过将图像和与对象有关的信息作为输入数据输入到上下文识别模型来识别对象的上下文信息。电子装置100可以检测对象的面部表情、对象的情绪、对象的服饰、对象的运动、对象与其它对象的关系等作为对象的上下文信息。
电子装置100可以显示包括所获取的与对象有关的信息的列表(S1440)。列表可以显示在所选择的对象的附近。
电子装置100可以检测用于从列表中所包括的与对象有关的信息中选择一条信息的用户输入(S1450)。
电子装置100可以基于所选择的信息搜索相关图像(S1460)。具体地,电子装置100可以从存储在电子装置100中的多个图像之中搜索具有与所选择的信息相同或相关的标签信息的图像,并且通过生成包括所选择的信息的查询并将其发送到外部搜索服务器来搜索图像。
根据上面描述的本公开的实施方式,用户可以更方便和更详尽地搜索与用户当前正在观看的图像类似的图像。
图15至图17是根据本公开的实施方式的使用识别模型的网络系统的流程图。
在图15至图17中,使用识别模型的网络系统可以包括第一元件1501、1601或1701、第二元件1502、1602或1702以及第三元件1703中的至少两者。
第一元件1501、1601或1701可以是电子装置100,第二元件1502、1602或1702可以是其中存储有识别模型的服务器。或者,第一元件1501、1601或1701可以是通用处理器,而第二元件1502、1602或1702可以是人工智能专用的处理器。或者,第一元件1501、1601或1701可以是至少一个应用,而第二元件1502、1602或1702可以是操作系统(OS)。也就是说,与第一元件1501、1601或1701相比,第二元件1502、1602或1702是更集成或更排他或者具有更少的延迟、更改进的性能或更多的资源的元件;并且与第一元件1501相比,第二元件1502、1602或1702可以是能够更快速和有效地处理在生成、完善和应用数据识别模型时所需的各种计算的元件。
在这种情况下,可以限定用于在第一元件1501、1601或1701与第二元件1502、1602或1702之间发送/接收数据的接口。
例如,可以限定以将应用到识别模型的学习数据作为因子值(或中间值或传递值)的应用程序接口(API)。API可以用一组子例程或函数来限定,该子例程或函数可以从另一协议(例如,在服务器中限定的协议)中的用于某个进程的某个协议(例如,在电子装置A中限定的协议)被调用。也就是说,可以向API提供在另一协议中执行某一协议的操作的环境。
第三元件1703可以基于从第一元件1501、1601或1701和第二元件1502、1602或1702中的至少一者接收的数据来获取包括与对象相关的相关图像的搜索结果。第三元件1703可以对应于例如图5的内容搜索设备20。由第三元件1703接收的数据例如可以是用户所选择的与对象有关的信息。
在一个示例中,在图15中,首先,第一元件1501可以显示包括对象的图像(S1505)。
在显示包括对象的图像时,第一元件1501可以检测用于选择对象的用户输入(S1510)。
响应于用户输入,第一元件1501可以将图像和与触摸点有关的信息(例如,触摸坐标值)发送到第二元件1502(S1515)。
第二元件1502可以基于接收到的图像和与触摸点有关的信息来标识由用户选择的对象所显示的对象区域(S1520)。
第二元件1502可以通过将所标识的对象区域输入到对象识别模型来识别对象区域中的对象(S1525)。第二元件1503可以获取关于对象的类型、对象的颜色、对象的尺寸、对象的名称、对象的性别等的对象识别信息,作为与对象有关的信息。
第二元件1502可以通过将图像和与对象有关的信息输入到上下文识别模型来识别对象的上下文信息(S1530)。第二元件1503可以获取关于对象的面部表情、对象的情绪、对象的服饰、对象的运动、对象和另一对象之间的关系等的对象的上下文信息,作为与对象有关的信息。
第二元件1502可以将与对象有关的信息发送到第一元件1501(S1535)。
第一元件1501可以显示包括与对象有关的信息的列表(S1540)。第一元件1501可以在检测到针对其的用户输入的对象附近显示列表。
第一元件1501可以检测用于选择与对象有关的信息的用户输入(S1545),并且第一元件1501可以基于所选择的信息搜索相关图像(S1550)。
在另一个示例中,在图16中,第一元件1601可以检测用于从包括对象的图像中选择对象的用户输入(S1605和S1610)。与其对应的操作对应于图15的操作S1505至S1510,因此将省略重叠的描述。
第一元件1601可以基于所接收的检测到针对其的用户输入的图像和与触摸点有关的信息来标识由用户选择的对象所显示的对象区域(S1615)。
第一元件1601可以将图像和所识别的对象区域发送到第二元件1602(S1620)。
下面的操作S1625到S1650对应于图15的操作S1525和S1550,因此将省略重叠的描述。
在另一个示例中,在图17中,第一元件1701可以通过连接到第二元件1702来显示包括与用户所选择的对象有关的信息的列表,并且检测用于从与对象有关的信息中选择一条信息的用户输入(S1705至S1745)。与其对应的操作对应于与图15的操作S1505至S1545,因此将省略重叠的描述。
第一元件1701可以将用户选择的信息发送到第三元件1703(S1750)。第一元件1701可以生成包括用户所选择的信息的查询,并将该查询发送到第三元件1703。
第三元件1703可以基于用户所选择的信息搜索相关内容(S1755)。第三元件1703可以从存储在第三元件1703或连接到第三元件1703的元件中的内容之中搜索具有与用户所选择的信息相同或相关的名称或文本的内容。此时,第三元件1703可以仅搜索内容之中的图像内容,但是这仅仅是实施方式,并且内容可以包括诸如视频内容、音频内容和web内容的各种内容。
第三元件1703可以将搜索结果发送到第一元件1701(S1760),并且第一元件1701可以提供接收到的搜索结果(S1765)。
本公开的各实施方式可以实现为包括存储在机器(例如,计算机)可读存储介质中的指令的软件。机器是调用存储在存储介质中的指令并根据所调用的指令进行操作的装置,并且可以包括根据所公开的实施方式的电子装置(例如,电子装置100)。在指令被处理器执行的情况下,处理器可以直接执行与指令对应的功能或者在处理器的控制下使用其它元件执行与指令对应的功能。该指令可以包括由编译器生成或由解释器执行的代码。机器可读存储介质可以以非暂时性存储介质的形式提供。这里,术语“非暂时性”仅仅是指存储介质是有形的而不包括信号,并且它不区分数据半永久地或是暂时地存储在存储介质中。
根据实施方式,可以将根据本公开中所披露的各实施方式的方法提供为包括在计算机程序产品中。计算机程序产品可以在卖方和买方之间作为市场上可买到的产品进行交换。计算机程序产品可以以机器可读存储介质(例如,光盘只读存储器(CD-ROM))的形式分发或者通过应用存储装置(例如,PlayStoreTM)在线分发。在在线分发的情况下,计算机程序产品的至少一部分可以至少临时存储在存储介质中或者临时在存储介质中被生成,该存储介质例如制造商的服务器、应用存储装置的服务器或中继服务器的存储器。
根据上述各实施方式的每个元件(例如,模块或程序)可以由单个实体或多个实体组成,并且上述子元件中的一些子元件可以被省略,或者在各实施方式中可以进一步包括其它子元件。可替换地或附加地,一些元件(例如,模块或程序)可以集成到一个实体中,以执行与在集成之前由每个相应元件执行的功能相同或类似的功能。根据各实施方式,可以顺序地执行或者以并行、重复或试探的方式执行由模块、程序或其它元件执行的操作,或者可以以不同的顺序执行或者省略至少一些操作,或者可以添加不同的操作。

Claims (15)

1.用于控制搜索图像的电子装置的方法,所述方法包括:
显示包括至少一个对象的图像;
检测用于选择对象的用户输入;
通过使用识别模型识别在检测到所述用户输入的点处所显示的对象,并且获取与所识别的对象有关的信息,其中所述识别模型训练成获取与所述对象有关的信息;
显示包括与所述对象有关的信息的列表;以及
根据从所述列表中所包括的与所述对象有关的信息中选择一条信息,基于所选择的信息搜索并提供相关图像。
2.根据权利要求1所述的方法,其中,所述获取包括:
基于检测到所述用户输入的点的坐标值,标识所述对象所显示的对象区域;以及
通过将所标识的对象区域输入到所述识别模型,识别所述对象并获取与所述对象有关的信息。
3.根据权利要求1所述的,其中,所述获取包括:
通过使用训练成识别对象的第一识别模型来识别所述对象;以及
通过使用训练成预测对象的上下文信息的第二识别模型来获取所述对象的上下文信息。
4.根据权利要求1所述的方法,其中,与所述对象有关的所述信息包括以下至少之一:对象的类型、对象的颜色、对象的尺寸、对象的名称、对象的性别、对象的运动、对象的情绪和对象的服饰。
5.根据权利要求1所述的方法,
其中,所述电子装置将多个图像和所述多个图像的标签信息存储成彼此匹配,以及
其中,所述提供包括:搜索并提供存储在所述电子装置中的所述多个图像之中的、具有与所选择的信息对应的标签信息的相关图像。
6.根据权利要求5所述的方法,还包括:
根据通过选择至少一个所述相关图像输入用于生成相册的用户命令,生成包括至少一个所述相关图像的相册。
7.根据权利要求5所述的方法,还包括:
通过将捕获的图像输入到训练成预测与对象有关的信息的识别模型,基于所述捕获的图像获取与所述捕获的图像中所包括的对象有关的信息;以及
将所获取的与所述对象有关的信息作为标签信息存储成与所述捕获的图像匹配。
8.根据权利要求1所述的方法,其中,所述提供包括:
生成包括所选择的信息的查询;
将所生成的查询发送到外部的搜索服务器;
从所述搜索服务器接收响应于所述查询的、包括与所选择的信息对应的相关图像的搜索结果;以及
提供所述搜索结果。
9.根据权利要求1所述的方法,其中,所述提供包括:
根据用户指令从与第一对象有关的信息中选择第一信息,并且从与第二对象有关的信息中选择第二信息;
根据用户指令,基于所述第一信息和所述第二信息生成搜索式;以及
通过使用所生成的搜索式搜索并提供所述相关图像。
10.根据权利要求1所述的方法,其中,显示所述列表包括:在所识别的对象附近显示所述列表。
11.电子装置,包括:
显示器;
用户输入单元;
处理器,电连接到所述显示器和所述用户输入单元;以及
存储器,电连接到所述处理器,
其中,所述处理器配置成:
当在所述显示器上显示包括至少一个对象的图像时,通过使用所述用户输入单元、根据用于选择对象的用户输入获取输入信号;
通过使用识别模型识别在检测到所述用户输入的点处所显示的对象,并且获取与所识别的对象有关的信息,其中所述识别模型训练成响应于所述输入信号获取与对象有关的信息,
控制所述显示器显示包括与所述对象有关的信息的列表;以及
根据经由所述用户输入单元从所述列表中所包括的与所述对象有关的信息中选择一条信息,基于所选择的信息搜索并提供相关图像。
12.根据权利要求11所述的装置,其中,所述处理器配置成:
基于检测到所述用户输入的点的坐标值,标识显示所述对象的对象区域;以及
通过将所标识的对象区域输入到所述识别模型,识别所述对象并获取与所述对象有关的信息。
13.根据权利要求11所述的装置,其中,所述处理器配置成:
通过使用训练成识别对象的第一识别模型来识别所述对象;以及
通过使用训练成预测对象的上下文信息的第二识别模型来获取所述对象的上下文信息。
14.根据权利要求11所述的装置,其中,与所述对象有关的所述信息包括以下至少之一:对象的类型、对象的颜色、对象的尺寸、对象的名称、对象的性别、对象的运动、对象的情绪和对象的服饰。
15.根据权利要求11所述的装置,
其中,所述存储器将多个图像和所述多个图像的标签信息存储成彼此匹配,以及
其中,所述处理器配置成:搜索并提供存储在所述电子装置中的所述多个图像之中的、具有与所选择的信息对应的标签信息的相关图像。
CN201880067738.6A 2017-10-27 2018-10-24 用于搜索相关图像的电子装置及其控制方法 Active CN111247536B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202311346826.9A CN117493596A (zh) 2017-10-27 2018-10-24 用于搜索相关图像的电子装置及其控制方法
CN202311341684.7A CN117421437A (zh) 2017-10-27 2018-10-24 用于搜索相关图像的电子装置及其控制方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020170140805A KR102599947B1 (ko) 2017-10-27 2017-10-27 관련 이미지를 검색하기 위한 전자 장치 및 이의 제어 방법
KR10-2017-0140805 2017-10-27
PCT/KR2018/012640 WO2019083275A1 (ko) 2017-10-27 2018-10-24 관련 이미지를 검색하기 위한 전자 장치 및 이의 제어 방법

Related Child Applications (2)

Application Number Title Priority Date Filing Date
CN202311341684.7A Division CN117421437A (zh) 2017-10-27 2018-10-24 用于搜索相关图像的电子装置及其控制方法
CN202311346826.9A Division CN117493596A (zh) 2017-10-27 2018-10-24 用于搜索相关图像的电子装置及其控制方法

Publications (2)

Publication Number Publication Date
CN111247536A true CN111247536A (zh) 2020-06-05
CN111247536B CN111247536B (zh) 2023-11-10

Family

ID=66246911

Family Applications (3)

Application Number Title Priority Date Filing Date
CN202311346826.9A Pending CN117493596A (zh) 2017-10-27 2018-10-24 用于搜索相关图像的电子装置及其控制方法
CN201880067738.6A Active CN111247536B (zh) 2017-10-27 2018-10-24 用于搜索相关图像的电子装置及其控制方法
CN202311341684.7A Pending CN117421437A (zh) 2017-10-27 2018-10-24 用于搜索相关图像的电子装置及其控制方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202311346826.9A Pending CN117493596A (zh) 2017-10-27 2018-10-24 用于搜索相关图像的电子装置及其控制方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202311341684.7A Pending CN117421437A (zh) 2017-10-27 2018-10-24 用于搜索相关图像的电子装置及其控制方法

Country Status (5)

Country Link
US (2) US11853108B2 (zh)
EP (1) EP3663990A1 (zh)
KR (2) KR102599947B1 (zh)
CN (3) CN117493596A (zh)
WO (1) WO2019083275A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307163A (zh) * 2020-08-14 2021-02-02 新颖数位文创股份有限公司 对象识别装置和对象识别方法
WO2023035893A1 (zh) * 2021-09-08 2023-03-16 腾讯科技(深圳)有限公司 一种搜索处理方法、装置、设备、介质及程序产品

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102116264B1 (ko) * 2018-04-02 2020-06-05 카페24 주식회사 대표이미지 추천 방법 및 장치, 및 시스템
WO2020142640A1 (en) * 2019-01-03 2020-07-09 Lucomm Technologies, Inc. Robotic devices
KR102030027B1 (ko) * 2019-05-09 2019-10-08 (주)엠폴시스템 라벨링 데이터 정제방법, 장치 및 프로그램
JP6590329B1 (ja) * 2019-06-26 2019-10-16 株式会社ラディウス・ファイブ 画像表示システム及びプログラム
CN110609833A (zh) * 2019-09-19 2019-12-24 广东小天才科技有限公司 一种书本页码的识别方法、装置、家教机及存储介质
JP6800453B1 (ja) * 2020-05-07 2020-12-16 株式会社 情報システムエンジニアリング 情報処理装置及び情報処理方法
CN115428465A (zh) * 2020-05-22 2022-12-02 英特尔公司 用于在后处理操作中使用视频源上下文信息的技术
KR102310585B1 (ko) * 2021-02-10 2021-10-13 주식회사 인피닉 용이하게 객체를 지정할 수 있는 어노테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102310595B1 (ko) * 2021-02-10 2021-10-13 주식회사 인피닉 제안된 정보를 이용하여 객체 속성을 설정할 수 있는 어노테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102356909B1 (ko) * 2021-05-13 2022-02-08 주식회사 인피닉 인공지능 학습용 데이터의 객체를 지정하고 속성을 설정하는 어노테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
CN113449135B (zh) * 2021-08-31 2021-11-19 阿里巴巴达摩院(杭州)科技有限公司 图像生成系统与方法
US20230152946A1 (en) * 2021-11-17 2023-05-18 Google Llc Methods and apparatus for search of an area rendered within a browser
US20230326048A1 (en) * 2022-03-24 2023-10-12 Honda Motor Co., Ltd. System, information processing apparatus, vehicle, and method

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101553831A (zh) * 2006-09-18 2009-10-07 诺基亚公司 用于使用便携式设备查看虚拟数据库的方法、装置和计算机程序产品
US20100260426A1 (en) * 2009-04-14 2010-10-14 Huang Joseph Jyh-Huei Systems and methods for image recognition using mobile devices
CN102625937A (zh) * 2009-08-07 2012-08-01 谷歌公司 用于对视觉查询作出响应的体系结构
WO2012176317A1 (ja) * 2011-06-23 2012-12-27 サイバーアイ・エンタテインメント株式会社 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム
CN103336769A (zh) * 2012-01-26 2013-10-02 现代自动车株式会社 使用多个兴趣空间对象的搜索方法
US20130330008A1 (en) * 2011-09-24 2013-12-12 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers
US20140003714A1 (en) * 2011-05-17 2014-01-02 Microsoft Corporation Gesture-based visual search
CN103870535A (zh) * 2012-12-14 2014-06-18 三星电子株式会社 信息搜索方法和装置
EP2843510A2 (en) * 2013-09-03 2015-03-04 Samsung Electronics Co., Ltd Method and computer-readable recording medium for recognizing an object using captured images
CN104767871A (zh) * 2014-01-08 2015-07-08 Lg电子株式会社 移动终端及其控制方法
EP2996023A1 (en) * 2014-09-15 2016-03-16 Samsung Electronics Co., Ltd Method and electronic device for providing information
US20160224591A1 (en) * 2015-02-03 2016-08-04 Samsung Electronics Co., Ltd. Method and Device for Searching for Image
CN106570015A (zh) * 2015-10-09 2017-04-19 杭州海康威视数字技术股份有限公司 图像搜索方法和装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080071770A1 (en) * 2006-09-18 2008-03-20 Nokia Corporation Method, Apparatus and Computer Program Product for Viewing a Virtual Database Using Portable Devices
KR100930249B1 (ko) 2008-02-29 2009-12-09 한국과학기술원 영상으로부터 얻은 정보를 이용하여 인터넷을 검색하는장치 및 그 방법
EP2518641A4 (en) 2009-12-24 2013-07-24 Nikon Corp RESEARCH MANAGEMENT SYSTEM, RESEARCH MANAGEMENT METHOD, AND RESEARCH MANAGEMENT PROGRAM
KR101730367B1 (ko) 2010-05-07 2017-04-26 엘지전자 주식회사 이동 단말기 및 그 제어방법
KR101698096B1 (ko) 2010-10-08 2017-01-19 엘지전자 주식회사 단말기의 드로잉을 이용한 검색 방법 및 그 단말기
KR101993241B1 (ko) 2012-08-06 2019-06-26 삼성전자주식회사 이미지에 대한 부가 정보 태깅 및 검색 방법과 시스템, 기기와 그 기록 매체
KR102059913B1 (ko) 2012-11-20 2019-12-30 삼성전자주식회사 태그 정보 저장 방법 및 장치와 태그 정보를 이용한 이미지 검색 방법 및 장치
US9367625B2 (en) 2013-05-03 2016-06-14 Facebook, Inc. Search query interactions on online social networks
KR102065416B1 (ko) * 2013-09-23 2020-01-13 엘지전자 주식회사 이동단말기 및 그 제어방법
US10515110B2 (en) 2013-11-12 2019-12-24 Pinterest, Inc. Image based search
US9426568B2 (en) 2014-04-15 2016-08-23 Harman International Industries, LLC Apparatus and method for enhancing an audio output from a target source
US9489401B1 (en) * 2015-06-16 2016-11-08 My EyeSpy PTY Ltd. Methods and systems for object recognition
KR101768521B1 (ko) * 2016-05-02 2017-08-17 네이버 주식회사 이미지에 포함된 객체에 대한 정보 데이터를 제공하는 방법 및 시스템

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101553831A (zh) * 2006-09-18 2009-10-07 诺基亚公司 用于使用便携式设备查看虚拟数据库的方法、装置和计算机程序产品
US20100260426A1 (en) * 2009-04-14 2010-10-14 Huang Joseph Jyh-Huei Systems and methods for image recognition using mobile devices
CN102625937A (zh) * 2009-08-07 2012-08-01 谷歌公司 用于对视觉查询作出响应的体系结构
US20140003714A1 (en) * 2011-05-17 2014-01-02 Microsoft Corporation Gesture-based visual search
WO2012176317A1 (ja) * 2011-06-23 2012-12-27 サイバーアイ・エンタテインメント株式会社 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム
US20130330008A1 (en) * 2011-09-24 2013-12-12 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers
CN103336769A (zh) * 2012-01-26 2013-10-02 现代自动车株式会社 使用多个兴趣空间对象的搜索方法
CN103870535A (zh) * 2012-12-14 2014-06-18 三星电子株式会社 信息搜索方法和装置
WO2014092451A1 (en) * 2012-12-14 2014-06-19 Samsung Electronics Co., Ltd. Information search method and device and computer readable recording medium thereof
EP2843510A2 (en) * 2013-09-03 2015-03-04 Samsung Electronics Co., Ltd Method and computer-readable recording medium for recognizing an object using captured images
CN104767871A (zh) * 2014-01-08 2015-07-08 Lg电子株式会社 移动终端及其控制方法
EP2996023A1 (en) * 2014-09-15 2016-03-16 Samsung Electronics Co., Ltd Method and electronic device for providing information
US20160224591A1 (en) * 2015-02-03 2016-08-04 Samsung Electronics Co., Ltd. Method and Device for Searching for Image
CN106570015A (zh) * 2015-10-09 2017-04-19 杭州海康威视数字技术股份有限公司 图像搜索方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307163A (zh) * 2020-08-14 2021-02-02 新颖数位文创股份有限公司 对象识别装置和对象识别方法
WO2023035893A1 (zh) * 2021-09-08 2023-03-16 腾讯科技(深圳)有限公司 一种搜索处理方法、装置、设备、介质及程序产品

Also Published As

Publication number Publication date
CN111247536B (zh) 2023-11-10
US20240152548A1 (en) 2024-05-09
CN117421437A (zh) 2024-01-19
US20210191971A1 (en) 2021-06-24
WO2019083275A1 (ko) 2019-05-02
CN117493596A (zh) 2024-02-02
KR102599947B1 (ko) 2023-11-09
US11853108B2 (en) 2023-12-26
KR20190047214A (ko) 2019-05-08
EP3663990A4 (en) 2020-06-10
KR20230157274A (ko) 2023-11-16
EP3663990A1 (en) 2020-06-10

Similar Documents

Publication Publication Date Title
CN111247536B (zh) 用于搜索相关图像的电子装置及其控制方法
KR102644088B1 (ko) 인공지능 학습모델을 이용하여 요약 정보를 제공하기 위한 전자 장치 및 이의 제어 방법
US10956007B2 (en) Electronic device and method for providing search result thereof
CN111226193B (zh) 电子设备及改变聊天机器人的方法
KR102542049B1 (ko) 인공지능 학습모델을 이용하여 요약 정보를 제공하기 위한 전자 장치 및 이의 제어 방법
US11954150B2 (en) Electronic device and method for controlling the electronic device thereof
US20190042574A1 (en) Electronic device and method for controlling the electronic device
US20150130716A1 (en) Audio-visual interaction with user devices
KR102469717B1 (ko) 오브젝트에 대한 검색 결과를 제공하기 위한 전자 장치 및 이의 제어 방법
CN110998507B (zh) 电子装置及其用于提供搜索结果的方法
EP3757817A1 (en) Electronic device and control method therefor
US9588635B2 (en) Multi-modal content consumption model
CN112806022A (zh) 电子装置和用于控制该电子装置的方法
CN111902812A (zh) 电子装置及其控制方法
US20200364413A1 (en) Electronic device and control method thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant