CN112106042A - 电子设备及其控制方法 - Google Patents

电子设备及其控制方法 Download PDF

Info

Publication number
CN112106042A
CN112106042A CN201980030966.0A CN201980030966A CN112106042A CN 112106042 A CN112106042 A CN 112106042A CN 201980030966 A CN201980030966 A CN 201980030966A CN 112106042 A CN112106042 A CN 112106042A
Authority
CN
China
Prior art keywords
artificial intelligence
sketch
content
image
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980030966.0A
Other languages
English (en)
Inventor
赵恩爱
金镇铉
朴己勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN112106042A publication Critical patent/CN112106042A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/203Drawing of straight lines or curves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

公开了一种用于控制电子设备的方法。用于控制电子设备的方法包括:接收由用户绘制的草图;通过使用由人工智能算法学习的人工智能模型,基于草图获取至少一个机器生成的图像;显示所获取的至少一个机器生成的图像;接收用于选择至少一个显示的机器生成的图像中的一个的用户命令,并且搜索与根据用户命令选择的图像对应的至少一个内容;以及提供搜索到的至少一个内容。

Description

电子设备及其控制方法
技术领域
本公开涉及一种电子设备及其控制方法,尤其涉及一种用于使用由用户绘制的草图来更有效更方便地搜索内容的电子设备及其控制方法。
本公开还涉及一种使用机器学习算法来模拟人类大脑诸如识别或确定之类的功能的人工智能(AT)系统、及其应用。
背景技术
最近,具有人类水平的智能的人工智能系统被用于各种领域。在人工智能系统中,与现有技术的基于规则的智能系统不同,机器训练、确定并使其自身智能化。由于使用了人工智能系统,提高了识别率,可以更准确地了解用户的偏好。因此,现有技术的基于规则的智能系统正逐渐被基于深度学习的人工智能系统取代。
人工智能技术可以包括机器学习(例如,深度学习)和使用机器学习的基本技术。
机器学习可以指例如输入数据的自分类/自训练特征的算法技术,以及基本技术可以指例如使用诸如深度学习之类的机器学习算法来模拟人脑的诸如识别或确定之类的功能的技术,并且包括语言理解、视觉理解、推断/预测、知识表示、操作控制等的技术领域。
应用人工智能技术的各个领域如下。语言理解可以指识别人类的语言/字母表并应用/处理它的技术,并且可以包括自然语言处理、机器翻译、转换系统、问答、语音识别/合成等。视觉理解可以指识别人的视野中的对象并对其进行处理的技术,并且可以包括对象识别、对象跟踪、图像搜索、人识别、场景理解、空间理解、图像改进等。推断/预测可以指识别信息并逻辑地推断和预测它的技术,并且可以包括基于知识/可能性的推断、优化预测、基于偏好的规划、推荐等。知识表示可以指执行将人的实验信息自动处理为知识数据的技术,并且包括知识构建(数据生成/分类)、知识管理(数据应用)等。操作控制可以指控制车辆的自动驾驶或机器人的移动的技术,并且可以包括移动控制(导航、碰撞或行驶)、操纵控制(行为控制)等。
同时,在现有技术中,为了在设备上搜索内容,需要使用诸如文件名之类的关键字来搜索内容,或者使用预览以用户自己的眼睛来搜索内容。另外,用户需要通过使用被逐个地标记的信息生成元数据来搜索内容。
然而,在这种关键字搜索方法中,仅使用用户指定的文件的日期或名称来表示内容。因此,难以搜索图像/照片的气氛或颜色,并且由用户逐个标记信息的方法不方便。
发明内容
[技术问题]
鉴于上述问题而提出本公开,以及本公开的目的是提供一种用于使用由用户绘制的草图来更有效和方便地搜索内容的电子设备及其控制方法。
[技术方案]
根据本公开的一个方面,提供了一种用于控制电子设备的方法,该方法包括:接收由用户绘制的草图;使用由人工智能算法训练的人工智能模型,基于该草图获取至少一个机器生成的图像;显示至少一个获取的机器生成的图像;接收用于选择至少一个显示的机器生成的图像中的一个的用户命令,并且搜索与根据用户命令选择的图像对应的至少一个内容;以及提供至少一个搜索到的内容。
搜索可以包括:在电子设备中存储的多个内容中搜索与所选择的图像对应的至少一个内容。
根据实施例的用于控制电子设备的方法还可以包括:基于通过对多个内容进行分类而获取的信息来显示用于选择类别的至少一个UI元件,以及获取可以包括:将关于与用户从至少一个UI元件中选择的UI元件对应的类别和草图的信息输入到人工智能模型,并且获取从草图细化的至少一个图像作为属于与所选择的UI元件对应的类别的目标。
搜索可以包括:搜索与关于与所选择的UI元件对应的类别的信息和所选择的图像对应的至少一个内容。
获取可以包括:将关于通过对多个内容进行分类而获取的多个类别的信息和草图输入到人工智能模型,以及关于多个类别中的每一个获取从草图细化的多个图像。
显示可以包括:显示针对每个类别的多个获取的图像。
人工智能模型可以由生成性对抗网络(GAN)或变化自动编码器(VAE)训练的。
搜索可以包括:使用由人工智能算法训练的用于内容搜索的人工智能模型来搜索与根据用户命令选择的图像对应的至少一个内容。
根据实施例的用于控制电子设备的方法还可以包括:基于由用户在至少一个所提供的内容中选择的内容,重新训练用于内容搜索的人工智能模型。
接收由用户绘制的草图可以包括:接收与遥控器的移动对应的信号,并且基于接收到的信号获取关于草图的信息。
根据本公开的另一方面,提供了一种电子设备,包括存储计算机可执行指令的存储器、显示器和处理器。处理器通过执行计算机可执行指令,被配置为:使用由人工智能算法训练的人工智能模型基于由用户绘制的草图来获取至少一个机器生成的图像,控制显示器显示至少一个获取的机器生成的图像,接收用于选择至少一个显示的机器生成的图像中的一个的用户命令,以及搜索与根据用户命令选择的图像对应的至少一个内容,并且提供至少一个搜索到的内容。
处理器可以被配置为在存储在电子设备中的多个内容中搜索与所选择的图像对应的至少一个内容。
处理器可被配置为控制显示器显示至少一个UI元件,该至少一个UI元件用于基于通过对多个内容进行分类而获取的信息来选择类别,将关于与用户从至少一个UI元件中选择的UI元件对应的类别和草图的信息输入到人工智能模型,并且获取从草图细化的至少一个图像作为属于与所选择的UI元件对应的类别的目标。
处理器可被配置为搜索与关于对应于所选择的UI元件的类别的信息和所选择的图像对应的至少一个内容。
处理器可以被配置为将关于通过对多个内容进行分类而获取的多个类别的信息和草图输入到人工智能模型,并且关于多个类别中的每一个获取从草图细化的多个图像。
处理器可以被配置为控制显示器显示针对每个类别的多个获取的图像。
人工智能模型可以由生成性对抗网络(GAN)或变化自动编码器(VAE)来训练。
处理器可被配置为使用由人工智能算法训练的用于内容搜索的人工智能模型来搜索与根据用户命令选择的图像对应的至少一个内容。
处理器可被配置为基于由用户在至少一个所提供的内容中选择的内容,重新训练用于内容搜索的人工智能模型。
根据实施例的电子设备还可以包括通信器,以及处理器可以被配置为经由通信器接收与遥控器的移动对应的信号,并且基于接收到的信号获取关于草图的信息。
附图说明
图1是用于示出根据实施例的内容提供方法的视图;
图2是用于示出根据实施例的用于控制电子设备的方法的流程图;
图3和图4是用于示出其中电子设备接收草图的本公开的各种实施例的视图;
图5至图8是用于示出根据各种实施例的由电子设备提供的用户界面(UI)的视图;
图9是用于示出根据实施例的电子设备的配置的框图;
图10是根据实施例的使用识别模型的网络系统的流程图;
图11是用于示出根据实施例的用于训练和使用识别模型的电子设备的框图;以及
图12和13是用于示出根据各种实施例的学习单元和确定单元的框图。
具体实施例
在下文中,将参考附图描述本公开的各种实施例。应当注意的是,本公开中所公开的技术并非用于将本公开的范围限于特定实施例,而是其应被解释为包括本公开的实施例的所有修改、等效物和/或替代方案。关于附图的解释,类似的附图标记可以用于类似的元件。
在本公开中,诸如“包括”、“可以包括”、“由其组成”或“可以由其组成”的术语在本文中用于指定对应的特征(例如,诸如数量、功能、操作或部分之类的组成元件)的存在,并且不排除附加特征的存在。
在本公开中,诸如“A或B”、“A[和/或]B中的至少一个”或“A[和/或]B中的一个或多个”的表达包括所列出的项的所有可能的组合。例如,“A或B”、“A和B中的至少一个”、或“A或B中的至少一个”包括(1)至少一个A、(2)至少一个B、或(3)至少一个A和至少一个B中的任一个。
在本公开中使用的表达“第一”、“第二”等可以表示各种元件,而不管顺序和/或重要性,并且可以用于将一个元件与另一元件区分,而不限制这些元件。例如,第一用户设备和第二用户设备可以表示彼此不同的用户设备,而不管顺序和/或重要性。例如,第一元件可以被称为第二元件,以及第二元件也可以类似地被称为第一元件,而不脱离本公开的权利的范围。
本公开中的诸如“模块”、“单元”或“部分”的术语用于指定执行至少一个功能或操作的组件,并且这样的组件可以被实现为硬件、软件或硬件和软件的组合。另外,除了当多个“模块”、“单元”、“部分”等中的每一个需要在单独的特定硬件中实现时,组件可以集成在至少一个模块或芯片中,并且可以在至少一个处理器中实现。
如果描述了特定元件(例如,第一元件)“可操作地或通信地耦接/耦接到”或“连接到”另一元件(例如,第二元件),则应当理解的是,该特定元件可以直接或通过又一元件(例如,第三元件)连接到另一元件。另一方面,如果描述了特定元件(例如,第一元件)“直接耦接到”或“直接连接到”另一元件(例如,第二元件),则可以理解的是,在该特定元件和另一元件之间不存在元件(例如,第三元件)。
另外,本公开中使用的表达“被配置为”可以与其他表达互换使用,例如“适合于”、“具有能力”、“被设计为”、“适于”、“被做成”和“能够”,这取决于情况。表达“被配置为”不一定是指在硬件方面被“专门设计为”的设备。相反,在一些情况下,表达“设备被配置为”可以指该设备“能够”与另一设备或组件一起执行操作。例如,短语“处理器被配置(或设置)为执行A、B和C”可以指例如但不限于专用处理器(例如,嵌入式处理器)用于执行对应的操作、通用处理器(例如,中央处理单元(CPU)或应用处理器)等可以通过执行存储在存储器设备中的一个或多个软件程序来执行对应的操作。
本公开中使用的术语仅用于描述特定实施例,而不用于限制其它实施例的范围。除非另有明确定义,单数表达可以包括复数表达。本文所使用的包括技术或科学术语的术语可以指本公开的技术领域中的本领域技术人员通常理解的相同的术语。在本公开中使用的术语中的在普通词典中限定的术语可以被解释为在现有技术中的相同或相似的含义,而不被解释为理想的或过于正式的含义。在一些情况下,本公开中限定的术语可能不被解释为排除本公开的实施例。
根据本公开的各种实施例的电子设备可以包括以下中的至少一个,例如,智能电话、平板个人计算机(PC)、移动电话、视频电话、电子书阅读器、台式个人计算机(PC)、膝上型个人计算机(PC)、上网本计算机、工作站、服务器、个人数字助理(PDA)、便携式多媒体播放器(PMP)、MP3播放器、移动医疗设备、相机、可穿戴设备等。根据各种实施例,可穿戴设备可以包括以下中的至少一个:配件类型(例如,手表、戒指、手镯、脚镯、项链、眼镜、隐形眼镜或头戴式设备(HMD));织物或衣服嵌入式类型(例如:电子布);皮肤贴附型(例如,皮肤垫或纹身);或者生物植入型(可植入电路)。
在一些实施例中,电子设备可以是家用电器。家用电器可以包括以下中的至少一个,例如,电视机、数字视频盘(DVD)播放器、音频系统、冰箱、空调、真空吸尘器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、家庭自动化控制面板、安全控制面板、媒体盒(例如,SAMSUNGHOMESYNCTM、SAMSUNG One Connect BoxTM、APPLE TVTM或GOOGLE TVTM)、游戏控制台(例如,XBOXTM、PLATIYSTONTM)、电子词典、电子钥匙、摄像机、电子相框等。
在其它实施例中,电子设备可以包括以下中的至少一个:各种医疗设备(例如,各种便携式医疗测量设备,诸如血糖仪、心率计、血压计或温度测量设备、磁共振血管造影(MRA)、磁共振成像(MRI)或计算机断层摄影(CT)扫描仪或超声波设备等)、导航系统、全球导航卫星系统(GNSS)、事件数据记录器(EDR)、飞行数据记录器(FDR)、汽车信息娱乐设备、海洋电子设备(例如,海洋导航设备、陀螺罗盘等)、航空电子设备、安全设备、车头单元、工业机器人或家用机器人、金融机构的自动柜员机(ATM)、商店的销售点(POS)、或物联网(IoT)设备(例如,灯泡、传感器、洒水设备、火警钟、恒温器、路灯、烤箱、锻炼设备、热水罐、加热器、锅炉等)。
根据一些实施例,电子设备可以包括以下中的至少一个:家具的一部分、建筑物/结构、电子板、电子签名接收设备、投影仪或各种测量设备(例如,水、电、气或波测量设备)。根据各种实施例,电子设备可以是上述各种设备中的一个或上述各种设备中的两个或多个的组合。根据一些实施例的电子设备可以是柔性电子设备。另外,根据本公开的实施例的电子设备不限于上述设备,并且可以包括根据技术发展的新的电子设备。
在下文中,将根据本公开的各种实施例描述用于基于由用户粗略绘制的草图来搜索内容的方法。图1是用于示出根据本公开的内容提供方法的示例的视图。
参照图1,输入由用户粗略绘制的草图。草图可以由轮廓(虚线)和颜色(在虚线上方示出)中的至少一个形成。可以输入图像文件,或者用户可以使用电子笔在电子设备上直接绘制草图。
机器生成的图像可以使用由人工智能算法训练的人工智能模型基于由用户绘制的草图来获取。可以训练人工智能模型以具有用于生成从草图细化的图像的准则。基于用户的草图在图1所示的机器生成的图像中表达山和天空,该草图指定了轮廓,该轮廓向上尖锐并且在该轮廓上方具有颜色(例如,天蓝色)。
可以提供与机器生成的图像对应的内容。例如,参考图1,可以搜索通过捕获与机器生成的图像相似的天空和山脉而获取的照片内容。
对于内容搜索,可以使用基于文本的图像检索(TBIR)和基于内容的图像检索(CBIR)中的至少一个。基于文本的图像检索方法可以包括例如用于从机器生成的图像提取特征、识别与所提取的特征对应的关键字、以及搜索具有文件名和包括所识别的关键字的元数据的内容的方法。基于内容的图像检索方法可以包括例如用于数字化和比较诸如图像的颜色、纹理、形状等的视觉元素的方法。基于内容的图像检索方法可以用于视频内容检索。例如,视频内容的特定场景可以与机器生成的图像进行比较,并且在另一示例中,视频内容的代表性图像(例如,电影海报,如果视频内容是电影)可以与机器生成的图像进行比较。
在内容搜索中,可以使用由人工智能算法训练的人工智能模型。通过将机器生成的图像输入到人工智能模型,可搜索与机器生成的图像对应的内容。
根据本公开的各种实施例的内容搜索方法可以经由电子设备来实现。以下,将参考图2描述根据本公开的实施例的用于控制电子设备的方法。
图2是用于示出根据实施例的用于控制电子设备的方法的流程图。
参考图2,电子设备可以接收由用户绘制的草图(S210)。
根据本公开的实施例的电子设备可以从外部设备接收由用户在外部设备上绘制的草图。例如,根据本公开的实施例的电子设备是TV,以及TV可以接收由用户在诸如智能电话之类的外部设备上绘制的草图。
根据本公开的另一实施例的电子设备可以直接从用户接收草图。例如,可以通过触摸输入方法或使用鼠标、键盘、操纵杆、遥控器等的输入方法来输入草图。
图3和图4是用于示出根据本公开的一些实施例的草图输入方法的视图。
图3示出根据本公开的实施例的电子设备100通过触摸输入方法接收草图的示例。
参考图3,电子设备100可以包括触摸屏并且可以提供画布用户界面(UI)。画布UI可以包括各种UI元件。例如,画布UI可以包括轮廓绘制UI元件31、颜色涂装UI元件33、移除器UI元件35、图像文件上传UI元件37和搜索执行UI元件39。
用户可以使用手指或笔(例如,触笔)在电子设备100的触摸屏上绘制草图。例如,在选择轮廓绘制UI元件31之后,可以使用触摸绘制轮廓310,以及在选择颜色涂装UI元件33之后,可以使用触摸来涂装颜色330。当使用笔,例如触笔绘制草图时,可以使用笔上提供的按钮来选择轮廓、颜色涂装、移除器等。
当在完成草图之后选择搜索执行UI元件39时,可以基于草图获取机器生成的图像,并且可以执行内容搜索。
同时,当选择图像文件上传UI元件37并且选择在电子设备100中存储的图像文件时,可以基于所选择的图像文件执行内容搜索。换句话说,可以在用户不直接绘制草图的情况下执行内容搜索。另外,可以在画布UI上显示上传的图像文件,用户可以通过使用移除器UI元件35添加草图或移除图像的一部分来额外地编辑图像,并且可以基于额外编辑的图像来执行内容搜索。
内容搜索可以在电子设备100上或在外部设备(例如,服务器)上执行。在后一种情况下,电子设备100可以将关于输入的草图或上传的图像文件的信息发送到外部设备,并且可以在外部设备上执行内容搜索。
图4示出根据本公开的另一实施例的远程输入草图到电子设备100的示例。
参照图4,电子设备100可以与遥控器200通信。遥控器200可以检测遥控器200在XYZ空间中的移动,并且将关于所检测的三维移动的信号发送到电子设备100。
在这种情况下,遥控器200可基于用于计算相对于预定的参考绝对移动的遥控器200的位置的绝对坐标方法、或用于使用当前位置作为参考来计算相对移动的遥控器200的位置的相对坐标方法,来提供指向模式。
遥控器200可以包括以下中的至少一个:加速度传感器、陀螺仪传感器和地磁传感器。包括在遥控器200中的各种传感器可以使用其中的一个、或两个或多个的组合来检测遥控器200的空间移动。
例如,加速度传感器可以检测当由用户移动遥控器200时发生的加速度的改变和角加速度的改变中的至少一个,陀螺仪传感器可以检测遥控器200的旋转角速度,以及地磁传感器可以检测在球体的南北方向上形成的磁场并测量方位角。
遥控器200可以通过诸如蓝牙(BT)、无线保真(Wi-Fi)、红外(IR)、串行接口、通用串行总线(USB)等的各种通信方法将与遥控器200的移动对应的信号发送到电子设备100。
参照图4,电子设备100可以基于从遥控器200接收的信号来接收草图。
如上参考图3所述,图4的电子设备100可以提供诸如轮廓绘制UI元件、颜色涂装UI元件、移除器UI元件、搜索执行UI元件等的UI元件,并且用户可以通过经由遥控器200选择提供给电子设备100的UI元件来绘制草图。例如,用户可以通过移动遥控器200或选择箭头键来选择在电子设备100上显示的轮廓绘制UI元件,并且可以通过移动遥控器200在电子设备100上绘制轮廓。另外,遥控器200可以包括用于轮廓绘制、颜色涂装等的按钮(经由物理按钮或遥控器200上提供的触摸屏所提供的软按钮),并且用户可以通过选择遥控器200上提供的按钮并且然后移动遥控器200来在电子设备100上绘制草图。
已经接收到由用户绘制的草图的电子设备可以使用由人工智能算法训练的人工智能模型来基于草图获取至少一个机器生成的图像(S220)。
人工智能模型可以由生成性对抗网络(GAN)或变化自动编码器(VAE)来训练。
根据本公开的实施例,电子设备可以使用存储在电子设备中的人工智能模型来获取机器生成的图像。根据另一实施例,电子设备可使用存储在外部服务器中的人工智能模型获取机器生成的图像。在后一种情况下,电子设备可以将关于用户绘制的草图的信息发送到外部服务器,并且从外部服务器接收机器生成的图像。
电子设备可以显示至少一个机器生成的图像(S230)。根据本公开的实施例的电子设备可以经由其自身的显示器显示至少一个机器生成的图像,或者可以将至少一个机器生成的图像发送到外部显示设备,使得至少一个机器生成的图像被显示在外部显示设备上。
电子设备可以接收用于选择至少一个机器生成的图像中的一个的用户命令,并且搜索与根据用户命令选择的图像对应的至少一个内容(S240)。电子设备可以提供至少一个搜索到的内容(S250)。
根据又一实施例,可以省略显示至少一个机器生成的图像并且由用户选择这些图像中的任一个图像的处理。换句话说,当接收到由用户绘制的草图时,电子设备可以基于此直接获取机器生成的图像,并且搜索与机器生成的图像对应的至少一个内容。
对待搜索的内容没有限制。作为非限制性示例,可搜索并提供类似于机器生成的图像的照片、具有类似于机器生成的图像的场景的视频剪辑、关于具有类似于机器生成的图像的面部的人的信息、关于类似于机器生成的图像的地点的信息、通过基于机器生成的图像的因特网搜索获取的结果、具有类似于机器生成的图像的海报的戏剧、电影或动画等。
待搜索的内容可以是存储在电子设备中的内容。根据实施例,用户可以自己指定用于执行内容搜索的文件夹。根据另一实施例,待搜索的内容可以是未存储在电子设备中的外部源的内容。例如,可以搜索从因特网提供的内容。
根据本公开的实施例的电子设备可以自己执行搜索。根据本公开的另一实施例的电子设备可以通过将关于机器生成的图像的信息发送到外部设备来搜索外部设备。
根据本公开的实施例的电子设备可以使用由人工智能算法训练的用于内容搜索的人工智能模型来搜索与机器生成的图像对应的内容。
可以基于用户在搜索和提供的至少一个内容中选择的内容来重新训练用于内容搜索的人工智能模型。例如,权重值可以被应用于由用户选择的内容,并且用于内容搜索的人工智能模型可以使用该权重值来被重新训练。可以存储关于用户选择了哪个内容的历史信息。由于基于这样的历史信息来重新训练用于内容搜索的人工智能模型,所以人工智能模型可以是针对用户而专用的(或个性化的),并且随着其被使用,准确度可以增加。
图5至图8是用于示出根据各种实施例的由电子设备100提供的用户界面(UI)的视图,该UI提供了基于草图搜索内容的功能。
参考图5,由电子设备100提供的UI可以包括用于绘制草图的区域和用于显示至少一个机器生成的图像的区域。电子设备100可以使用由人工智能算法训练的人工智能模型基于由用户绘制的草图510来显示至少一个机器生成的图像520。
可以根据在用于绘制草图的区域中绘制的草图来实时地显示至少一个机器生成的图像。因此,当编辑草图时,所编辑的部分可以被实时输入到人工智能模型,并且图像可以被实时编辑和显示。
可以按照从最高得分开始的顺序(或者按照从最高相似性开始的顺序)来布置和显示至少一个机器生成的图像520。
当接收到用于选择至少一个机器生成的图像520中的一个的用户命令时,可以在用户选择的图像521上显示与其他图像不同的图形效果。例如,参照图5,可以在所选择图像521的外围显示粗体轮廓。
当用户选择UI元件530用于执行搜索时,可搜索并提供与所选择的图像521对应的至少一个内容540。例如,当用户选择搜索到的内容540中的任一个时,可以放大并显示对应的内容。如果用户选择的内容是视频内容,则可以再现该视频。同时,用户在搜索到的内容540中选择的针对内容的信息可用于再训练用于内容搜索的人工智能算法。
图6是用于示出根据本公开的另一实施例的由电子设备提供的UI的视图。
参考图6,电子设备100可以使用由人工智能算法训练的人工智能模型基于由用户绘制的草图610来显示至少一个机器生成的图像620。
在这种情况下,可以基于取决于类别不同的准则来训练人工智能模型。因此,虽然输入了相同的草图,但是人工智能模型可以根据类别生成不同的图像。例如,参考图6,可以生成从草图610细化的作为属于自然类别的目标的图像、和从草图610细化的作为属于建筑物类别的目标的图像。
根据实施例,用户可以预先指定待生成的类别的图像。换句话说,电子设备100可以将关于多个类别的信息和由用户绘制的草图输入到人工智能模型,并且关于多个类别中的每一个获取从草图细化的多个图像。在这种情况下,可以通过对待搜索的内容进行分类来获取关于多个类别的信息。例如,如果待搜索的目标是存储在电子设备100中的内容,则可以基于通过对存储在电子设备100中的多个内容进行分类而获取的信息来获取关于多个类别的信息。
例如,电子设备100可以基于存储在电子设备100中的内容的元数据将内容分类为自然类别和建筑物类别,将关于这种分类的类别的信息和草图610输入到人工智能模型,并且获取被细化为属于自然类别的目标的图像和被细化为属于建筑物类别的目标的图像。
电子设备100可以显示针对每个类别的图像。换句话说,参考图6,电子设备100可以区分和显示被示出为属于自然类别的目标的图像、和被示出为属于建筑物类别的目标的图像。
当用户选择至少一个机器生成的图像620中的任一个图像621并选择搜索执行UI元件630时,可搜索并提供与所选择的图像621对应的至少一个内容640。
图7是用于示出根据本公开的又一实施例的由电子设备提供的UI的视图。
参考图7,电子设备100可以显示用于选择类别的至少一个UI元件720。
用于选择类别的至少一个UI元件720可基于待搜索的内容的分类的结果来显示。例如,当待搜索的目标是存储在电子设备100中的内容时,可以基于通过对存储在电子设备100中的多个内容进行分类而获取的信息来显示至少一个UI元件720。例如,参照图7,当存储在电子设备100中的照片内容被分类为自然类别、建筑物类别和人物类别时,可以显示与自然类别对应的UI元件、与建筑物类别对应的UI元件和与人物类别对应的UI元件。
电子设备100可以将关于与由用户从至少一个UI元件720中选择的UI元件721对应的类别的信息以及草图710输入到人工智能模型,并且获取从草图710细化的至少一个图像730作为属于与所选择的UI元件721对应的类别的目标。
当用户从至少一个机器生成的图像730中选择任一个图像731并选择用于搜索执行的UI元件740时,可搜索与关于与由用户选择的UI元件721对应的类别的信息对应的至少一个内容750、以及所选择的图像731。换句话说,与用户选择的UI元件721对应的类别信息可被用于过滤搜索到的结果。因此,可以从与所选择的图像731相似的照片内容中搜索并提供与自然类别对应的照片内容750。当在外部没备(例如,服务器)上搜索内容时,可将关于类别的信息和关于所选择的图像的信息发送到外部设备,并且外部设备可使用关于类别的信息搜索与所选择的图像对应的内容。
图8是用于示出根据本公开的再一实施例的由电子设备提供的UI的视图。
参考图8,电子设备100可以使用由人工智能算法训练的人工智能模型基于由用户绘制的草图810来显示机器生成的图像820。
当用户选择UI元件830以用于搜索执行时,可搜索并提供与机器生成的图像820对应的至少一个内容。
在这种情况下,可以搜索各种源的内容。例如,当电子设备100是用于使用因特网协议向消费者提供数字电视服务的因特网协议电视(IPTV)时,可以搜索并提供视频点播(VOD)内容、实时流内容、应用、因特网内容(例如,在GOOGLETM上搜索的结果)等。
根据实施例,参考图8,可以为每个内容源提供搜索结果。可以显示与视频点播(VOD)内容对应的UI元件841、与实时流内容对应的UI元件843、与应用对应的UI元件845、以及与因特网内容对应的UI元件847。在本文中,例如,当选择与视频点播(VOD)内容对应的UI元件841时,可以提供搜索到的VOD 850。当选择了搜索到的VOD 850中的任一个时,可以再现所选择的VOD,或者可以提供用于支付VOD的屏幕。
图9是用于示出根据本公开的实施例的电子设备100的配置的框图。电子设备100可以执行参照图1至图8的示例的操作。
参照图9,电子设备100可以包括存储器110、显示器120和处理器130。虽然根据实施例未示出,但是电子设备100还可以包括对于本领域技术人员显而易见的合适的硬件/软件元件。
存储器110可以包括例如内部存储器或外部存储器。内部存储器的示例可以包括以下中的至少一个:易失性存储器(例如,动态RAM(DRAM)、静态RAM(SRAM)或同步动态RAM(SDRAM))和非易失性存储器(例如,一次可编程ROM(OTPROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、掩模ROM、闪存(例如,NAND闪存或NOR闪存)、硬盘驱动器或固态驱动器(SSD))。
外部存储器可以包括闪存驱动器,例如,紧凑型闪存(CF)、安全数字(SD)、微安全数字(微SD)、迷你安全数字(迷你SD)、极限数字(xD)、多媒体卡(MMC)或记忆棒。外部存储器可以经由各种接口功能性地和/或物理地连接到电子设备100。
存储器110可以由处理器130访问,并且可以执行由处理器130对数据的读取、记录、编辑、删除或更新。在本公开中,术语“存储器”可以包括存储器110、处理器130中的ROM和RAM、或者安装在电子设备100上的存储卡(例如,微SD卡或记忆棒)。
存储器110可以存储计算机可执行指令用于执行根据参照图2至图8的实施例的电子设备的控制方法。
存储器110可存储参照图1至图8的根据实施例的人工智能模型。人工智能模型可以在外部服务器上被训练并且被提供到电子设备100。电子设备100可从外部服务器下载人工智能模型并将人工智能模型存储在存储器110中,并且当人工智能模型被更新(或重新训练)时,电子设备100可从外部服务器接收更新的人工智能模型并存储人工智能模型。电子设备100可以经由局域网(LAN)或因特网网络连接到这样的外部服务器。
根据实施例,存储器110可以被实现为电子设备100的外部服务器,例如云服务器。
显示器120可以是用于显示图像的元件。例如,显示器120可以显示用于接收草图并提供草图的搜索结果的UI屏幕。UI屏幕可以包括UI元件,例如文本、图像、图标、符号等。
显示器120可以包括例如液晶显示器(LCD)、发光二极管(LED)显示器、有机发光二极管(OLED)显示器(例如,有源矩阵有机发光二极管(AMOLED)、无源矩阵OLED(PMOLED)、微机电系统(MEMS)显示器或电子纸。
显示器120可以包括触摸屏,并且可以接收例如使用电子笔或用户的身体的一部分的触摸、手势、近似或悬停输入。
同时,在电子设备100中可以省略显示器120。在这种情况下,电子设备100可以将图像信号发送到外部显示设备以在外部显示设备上显示图像。
电子设备100可以包括输入设备并且经由输入设备接收各种用户输入。输入设备可以包括例如按钮、触摸面板、用于接收运动输入的传感器或相机、用于接收语音输入的麦克风等。
根据又一实施例,电子设备100可以连接到外部输入设备以经由外部输入设备接收各种用户输入。例如,外部输入设备可以包括键盘、鼠标、智能电话、遥控器等。电子设备100可以以有线或无线方式连接到外部输入设备。例如,电子设备100可以经由USB端口等以有线方式连接到外部输入设备。作为另一示例,电子设备100可以通过诸如红外数据协会(IrDA)、射频识别(RFID)、无线保真(Wi-Fi)、Wi-Fi直连、蓝牙(例如,蓝牙经典、蓝牙低功耗)和Zigbee之类的通信方法以无线方式连接到外部输入设备。
电子设备100可以包括用于与外部设备通信的通信器。通信器可以经由无线通信或有线通信连接到网络。在无线通信中,以下中的至少一个可以用作蜂窝通信协议,例如长期演进(LTE)、LTE高级(LTE-A)、码分多址(CDMA)、宽带CDMA(WCDMA)、通用移动电信系统(UMTS)、无线宽带(WiBro)或全球移动通信系统(GSM)。另外,无线通信可以包括例如局域通信。局域通信可以包括以下中的至少一个,例如无线保真直接(Wi-Fi直接)、蓝牙、近场通信(NFC)和Zigbee。有线通信可以包括以下中的至少一个,例如通用串行总线(USB)、高清晰度多媒体接口(HDMI)、推荐标准232(RS-232)或普通老式电话服务(POTS)。网络是通信网络,并且可以包括以下中的至少一个,例如计算机网络(例如,LAN或WAN)、因特网或电话网络。
电子设备100可以经由通信器与遥控器通信。该遥控器是能够接收运动输入的设备,并且电子设备100可以从遥控器接收与遥控器的移动对应的信号。处理器130可以基于接收到的信号来获取关于草图的信息。换句话说,可以将用户使用遥控器在空中绘制的草图输入到电子设备100。这样的草图可以经由显示器120来显示。
处理器130可以是用于控制电子设备100的一般操作的元件。例如,处理器130可以操作系统或应用程序以控制连接到处理器130的多个硬件或软件元件,并且执行各种数据处理和操作。处理器130可以是中央处理单元(CPU)或图形处理单元(GPU)或两者。处理器130可以实现为以下中的至少一个:通用处理器、数字信号处理器、专用集成电路(ASIC)、片上系统(SoC)、微型计算机(MICOM)等。
处理器130可以通过执行存储在存储器120中的计算机可执行指令来执行根据本公开的各种实施例的电子设备100的操作。处理器130可以使得电子设备100能够执行根据参照图1至图8描述的实施例的功能。
作为示例,处理器130可以通过执行存储在存储器110中的计算机可执行指令来执行下一操作。具体地,处理器130可以获取关于由用户绘制的草图的信息并且控制显示器120显示草图。例如,处理器130可以控制显示器120显示草图,如图3至图8所示。
处理器130可以使用由人工智能算法训练的人工智能模型,基于由用户绘制的草图来获取至少一个机器生成的图像。
处理器130可以控制显示器120显示至少一个获取的机器生成的图像。例如,处理器130可以控制显示器120显示机器生成的图像,如图5至8所不。
处理器130可以接收用于选择在显示器120上显示的至少一个机器生成的图像中的一个的用户命令,并且搜索与根据用户命令选择的图像对应的至少一个内容。
处理器130可以使用由人工智能算法训练的用于内容搜索的人工智能模型来搜索与机器生成的图像对应的内容。
处理器130可以搜索存储在电子设备100的存储器110中的内容或者从因特网提供的内容。待搜索的内容可以是任何数字信息,例如照片、视频、应用、新闻、电子书、电影、动画等。
根据实施例,用户可以指定搜索范围。例如,处理器130可以从用户接收文件夹指定命令,并且在与文件夹指定命令对应的文件夹中搜索内容。作为另一示例,处理器130可以从用户接收内容类型指定命令,并且从指定的内容类型搜索内容。
处理器130可以控制显示器120显示至少一个UI元件,用于基于通过对待搜索的多个内容进行分类而获取的信息选择类别。例如,处理器130可以控制显示器120显示如图7所示的UI元件720。处理器130可以将关于与用户在至少一个UI元件中选择的UI元件对应的类别的信息以及显示在显示器120上的由用户绘制的草图输入到人工智能模型,并且获取从草图细化的至少一个图像作为属于与所选择的UI元件对应的类别的目标。
在这种情况下,处理器130可搜索与关于对应于由用户选择的UI元件的类别和由用户选择的机器生成的图像的信息对应的至少一个内容。例如,处理器130可将关于与由用户选择的UI元件对应的类别和由用户选择的机器生成的图像的信息输入到人工智能模型以进行内容搜索,并搜索属于与由用户选择的UI元件对应的类别的内容。
另外,处理器130可将关于通过对待搜索的多个内容进行分类而获取的多个类别和由用户绘制的草图的信息输入到人工智能模型,并且关于多个类别中的每一个获取从草图细化的多个图像。处理器130可以控制显示器120显示如上所述针对每个类别获取的多个图像。
处理器130可以提供至少一个搜索到的内容。例如,处理器130可以控制显示器120显示搜索到的内容,如图5至图8所示。
同时,如果在内容搜索中使用人工智能模型,则处理器130可基于用户关于至少一个搜索和提供的内容中的任一个的选择来重新训练在内容搜索中使用的人工智能模型。
上述实施例的操作可以经由多个设备来实现。将参考图10描述关于这一点的描述。
图10是根据各种实施例的使用另一人工智能模型的网络系统的流程图。
参考图10,使用人工智能模型的网络系统可以包括以下中的至少两个:第一元件1000、第二元件2000和第三元件3000。例如,第一元件1000可以是诸如台式PC、智能电话、平板PC等的电子设备,第二元件2000可以是存储用于获取机器生成的图像的人工智能模型、数据库等的服务器,以及第三元件3000可以是存储用于基于图像搜索内容的人工智能模型、数据库等的服务器。可替换地,第一元件1000可以是通用处理器,以及第二元件2000和第三元件3000可以是人工智能专用处理器。可替换地,第一元件1000可以是至少一个应用,以及第二元件2000和第三元件3000可以是操作系统(OS)。换句话说,第二元件2000和第三元件3000可以是比第一元件1000集成或专用的元件,或者具有比第一元件1000少的延迟、改进的性能或大量的资源,以及可以是例如与第一元件1000相比能够有效地快速地处理在生成、更新或应用模型时所需的大量进程的元件。
可以限定用于在第一元件1000、第二元件2000和第三元件3000之间发送和接收数据的接口。
例如,可以限定应用程序接口(API),API包括要应用于模型作为因子值(或中间值或转移值)的学习数据。API可以被限定为子例程或函数的集合,可以被调用用于来自任一个协议(例如,在第一元件1000上限定的协议)的另一协议(例如,在第二元件2000上限定的协议)的特定处理。换句话说,可以通过API提供能够对任一个协议执行另一个协议的操作的环境。
参照图10,首先,第一元件1000可以接收草图(S1110)。第一元件1000可经由诸如键盘、触摸屏、遥控器等各种输入设备来接收草图。另外,第一元件1000可接收类别的选择。
第一元件1000可以将关于输入草图的信息发送到第二元件2000(S1120)。另外,第一元件1000可以将关于草图的信息和关于所选择的类别的信息发送到第二元件2000。
第二元件2000可以将草图输入到由人工智能算法训练的人工智能模型,并且基于草图获取至少一个机器生成的图像(S1130)。第二元件2000可以存储人工智能模型和包括图像生成所需的各种数据的数据库。当从第一元件1000接收到关于类别的信息时,第二元件2000可以获取从草图细化的图像作为属于与关于类别的信息对应的类别的目标。
第二元件2000可以将关于至少一个机器生成的图像的信息发送到第一元件1000(S1140)。在这种情况下,例如,第二元件2000可以以文件形式将机器生成的图像发送到第一元件1000。在另一示例中,第二元件2000可以将关于机器生成的图像的存储地址(例如URL地址)的信息发送到第一元件1000。
第一元件1000可以接收关于从第二元件2000接收的至少一个图像中的任一个的用户选择(S1150)。例如,第一元件1000可经由包括在其中的显示器或外部显示设备显示通过第二元件2000接收的至少一个机器生成的图像。用户可以在至少一个显示的图像中选择要用于搜索的图像。
第一元件1000可以将关于所选择的图像的信息发送到第三元件3000(S1160)。
第三元件3000可以将图像输入到由人工智能算法训练的人工智能模型,并且搜索与图像对应的至少一个内容(S1170)。第三元件3000可以存储包括内容搜索所需的各种数据的人工智能模型数据库。
第三元件3000可以将内容的搜索结果发送到第一元件1000(S1180)。第一元件1000可基于接收到的搜索结果提供内容(S1190)。例如,第一元件1000可经由包括在其中的显示器或外部显示设备来显示搜索到的内容。用户可以在显示的内容中选择期望的内容。
在本公开中描述的人工智能模型可以是基于人工智能算法训练的确定模型,例如,基于神经网络的模型。经训练的人工智能模型可被设计为在计算机上模拟人的脑结构,并且可以包括多个网络节点,多个网络节点包括权重并且模拟人的神经网络的神经元。多个网络节点可以形成到彼此的连接以模拟突触活动,其中神经元通过突触发送和接收信号。另外,经训练的人工智能模型可以包括例如神经网络模型或从神经网络模型开发的深度学习模型。在深度学习模型中,多个网络节点可以位于彼此不同的深度(或位于层上),并且可以根据卷积连接来发送和接收数据。经训练的人工智能模型的示例可以包括深度神经网络(DNN)、循环神经网络(RNN)和双向循环深度神经网络(BRDNN),但是不限于此。
根据实施例,第一元件1000可使用个人助理程序,该个人助理程序是人工智能专用程序(或人工智能代理)。个人助理程序是基于人工智能提供服务的专用程序,并且可以由现有技术的通用处理器或分离的AI专用处理器来执行。
具体地,当输入预定的用户输入(例如,触摸与个人助理聊天机器人对应的图标、包含预定的单词的用户的语音等)或者按下设置在第一元件1000上的按钮(例如,用于执行人工智能代理的按钮)时,可以操作(或执行)人工智能代理。人工智能代理可以将由用户绘制的草图发送到第二元件2000,并且提供从第二元件2000接收的机器生成的图像。
当在屏幕上检测到预定的用户输入或者按下设置在第一元件1000上的按钮(例如,用于执行人工智能代理的按钮)时,可以操作人工智能代理。另外,可以在检测到预定的用户输入或选择了设置在第一元件1000上的按钮之前预先执行人工智能代理。在这种情况下,在检测到预定的用户输入或选择了设置在第一元件1000上的按钮之后,第一元件1000的人工智能代理可以基于草图获取机器生成的图像,并且执行内容搜索。另外,在检测到预定的用户输入或选择了设置在第一元件1000上的按钮之前,人工智能代理可以处于待机状态。在此,待机状态可以是用于检测接收到的预定义的用户输入以控制人工智能代理的操作的开始的状态。当在人工智能代理处于待机状态的同时检测到预定的用户输入或选择了设置在第一元件1000上的按钮时,第一元件1000可操作人工智能代理。
根据本公开的另一实施例,第一元件1000可以使用人工智能模型直接获取机器生成的图像,并基于该图像执行内容搜索。人工智能代理可以执行第二元件2000和第三元件3000的操作。
图11是用于示出根据实施例的用于训练和使用人工智能模型的电子设备的配置的框图。
参照图11,电子设备2100可以包括学习单元2110和确定单元2120中的至少一个。图11的电子设备2100可以与图9的电子设备100和图10的第二元件2000或第三元件3000对应。
学习单元2110可以生成或训练人工智能模型,该人工智能模型具有用于使用学习数据基于草图获取至少一个机器生成的图像的准则。学习单元2110可使用所收集的学习数据生成具有确定准则的人工智能模型。
在示例中,学习单元2110可以生成、训练或重新训练人工智能模型以获取使用粗略草图作为学习数据从草图细化的图像。另外,学习单元2110可使用图像作为学习数据来生成、训练或重新训练用于搜索与图像对应的内容的人工智能模型。
确定单元2120可以使用预定的数据作为经训练的人工智能模型的输入数据来基于草图生成图像。另外,确定单元2120可以搜索与图像对应的内容。
在示例中,确定单元2120可以使用概略草图作为经训练的人工智能模型的输入数据来获取从草图细化的图像。在另一示例中,确定单元2120可使用该图像作为人工智能模型的输入数据来搜索与输入图像具有高相似性的图像。
学习单元2110的至少一部分和确定单元2120的至少一部分可以被实现为软件模块,或者被制造为待安装在第二元件2000和第三元件3000上的至少一个硬件芯片。例如,学习单元2110和确定单元2120中的至少一个可以以用于人工智能(AI)的专用硬件芯片的形式制造,并且可以被制造为现有技术的通用处理器(例如,CPU或应用处理器)或图形专用处理器(例如,GPU)的一部分,并且被安装在上述各种电子设备上。人工智能专用硬件芯片是概率计算专用的专用处理器,可以以比现有技术的通用处理器高的并行处理性能来快速处理人工智能领域中的计算操作,例如机器学习。如果学习单元2110和确定单元2120被实现为软件模块(或包括指令的程序模块),则软件模块可以被存储在非暂时性计算机可读介质中。在这种情况下,软件模块可以由操作系统(O/S)提供或者由预定的应用提供。另外,软件模块的一部分可以由操作系统(O/S)提供,而另一部分可以由预定的应用提供。
在这种情况下,学习单元2110和确定单元2120可以分别安装在一个电子设备上,或者可以安装在分离的电子设备上。另外,学习单元2110和确定单元2120可以以有线或无线方式连接,使得学习单元2110可以向确定单元2120提供构造的模型信息,并且输入到确定单元2120的数据可以作为额外的学习数据提供给学习单元2110。
图12至图13是根据各种实施例的学习单元2110和确定单元2120的框图。
参考图12,根据一些实施例的学习单元2110可以包括学习数据获取单元2110-1和模型训练单元2110-4。另外,学习单元2110还可以可选地包括以下中的至少一个:学习数据预处理单元2110-2、学习数据选择单元2110-3和模型评估单元2110-5。
学习数据获取单元2110-1可以获取人工智能模型所需的学习数据,用于获取从草图细化的图像。另外,学习数据获取单元2110-1可获取人工智能模型用于搜索与图像对应的内容所需的学习数据。根据本公开的实施例,学习数据获取单元2110-1可以获取草图图像或机器生成的图像作为学习数据。学习数据可以是由学习单元2110或学习单元2110的制造商收集或测试的数据。
模型训练单元2110-4可以训练人工智能模型以具有使用学习数据用于生成从草图细化的图像的准则。另外,模型训练单元2110-4可训练人工智能模型以具有用于使用学习数据搜索与图像对应的内容的准则。例如,模型训练单元2110-4可通过监督学习来训练人工智能模型。另外,模型训练单元2110-4可例如通过无监督学习来训练人工智能模型,用于在没有特定监督的情况下使用学习数据进行自我训练。例如,模型训练单元2110-4可使用生成性对抗网络(GAN)技术或变化自动编码器(VAE)技术来训练人工智能模型。另外,模型训练单元2110-4可以例如使用根据训练的确定结果是否正确的反馈通过强化学习来训练人工智能模型。另外,模型训练单元2110-4可以例如使用含有误差反向传播或梯度下降的学习算法来训练人工智能模型。
模型训练单元2110-4可以执行关于选择准则的训练,其中关于该选择准则的学习数据将被使用。
如果预先构建的人工智能模型的数量多于一个,则模型训练单元2110-4可确定具有与输入学习数据具有较高相关性的基本学习数据的人工智能模型作为待训练的人工智能模型。在这种情况下,可以针对每种类型的数据预先对基本学习数据进行分类,并且可以针对每种类型的数据预先构建人工智能模型。例如,可以基于各种准则,例如生成学习数据的区域、生成学习数据的时间、学习数据的大小、学习数据的流派、学习数据的创建者、学习数据中的对象的类型等,预先对基本学习进行分类。
当训练人工智能模型时,模型训练单元2110-4可存储经训练的人工智能模型。例如,模型训练单元2110-4可将经训练的人工智能模型存储在电子设备100的存储器110、第二元件2000的存储器或第三元件3000的存储器中。
学习单元2110还可以包括学习数据预处理单元2110-2和学习数据选择单元2110-3,以改善人工智能模型的确定结果或节省提供人工智能模型所需的资源或时间。
学习数据预处理单元2110-2可以预处理获取的数据,使得获取的数据被用于训练以获取从草图细化的图像。学习数据预处理单元2110-2可以处理获取的数据,使得在用于搜索与图像对应的内容的训练中使用获取的数据。
学习数据选择单元2110-3可以从由学习数据获取单元2110-1获取的数据或由学习数据预处理单元2110-2预处理的数据中选择训练所需的数据,所选择的学习数据可以提供给模型训练单元2110-4。学习数据选择单元2110-3可以根据预定的选择准则从获取的或预处理的数据中选择训练所需的学习数据。另外,学习数据选择单元2110-3可以根据由模型训练单元2110-4执行的训练,根据预定的选择准则选择学习数据。
学习单元2110还可以包括模型评估单元2110-5,以改进人工智能模型的确定结果。
如果从评估数据输出的确定结果不满足预定的准则,则模型评估单元2110-5可将评估数据输入到人工智能模型,并且可以使得模型训练单元2110-4再次执行训练。在这种情况下,评估数据可以是用于评估人工智能模型的预定义的数据。
例如,如果在关于评估数据的经训练的人工智能模型的确定结果中具有不准确的确定结果的评估数据的数量或比率超过预定的阈值,则模型评估单元2110-5可评估预定的准则未被满足。
如果经训练的人工智能模型的数量多于一个,则模型评估单元2110-5可评估经训练的人工智能模型中的每一个是否满足预定的准则,并且将满足预定的准则的模型确定为最终人工智能模型。在这种情况下,如果满足预定的准则的模型的数量多于一个,则模型评估单元2110-5可以将以高评估得分的顺序预先设置的模型中的任一个或预定的数量的模型确定为最终人工智能模型。
参照图13,根据一些实施例的确定单元2120可以包括输入数据获取单元2120-2和确定结果提供单元2120-4。
另外,确定单元2120还可以可选地包括以下中的至少一个:输入数据预处理单元2120-2、输入数据选择单元2120-3和模型更新单元2120-5。
输入数据获取单元2120-1可以获取基于草图获取机器生成的图像所需的数据。确定结果提供单元2120-4可通过将由输入数据获取单元2120-1获取的输入数据作为输入值应用于经训练的人工智能模型来获取基于草图的机器生成的图像。
另外,输入数据获取单元2120-1可以获取搜索与图像对应的内容所需的数据。确定结果提供单元2120-4可通过将由输入数据获取单元2120-1获取的输入数据作为输入值应用于经训练的人工智能模型来搜索与图像对应的内容。
确定结果提供单元2120-4可通过将由输入数据预处理单元2120-2预处理的或由将在下面描述的输入数据选择单元2120-3选择的数据作为输入值应用于人工智能模型来获取确定结果。
在实施例中,确定结果提供单元2120-4可通过将由输入数据获取单元2120-1获取的关于草图的信息应用于经训练的人工智能模型来基于草图获取至少一个机器生成的图像。
确定单元2120还可以包括输入数据预处理单元2120-2和输入数据选择单元2120-3,以改进人工智能模型的确定结果或节省提供确定结果所需的资源或时间。
输入数据预处理单元2120-2可以预处理获取的数据,使得获取的数据用于基于草图获取至少一个机器生成的图像。输入数据预处理单元2120-2可以以预定义的格式处理获取的数据,使得确定结果提供单元2120-4容易地使用获取的数据来获取基于草图的至少一个机器生成的图像。另外,输入数据预处理单元2120-2可预处理获取的数据,使得获取的数据用于搜索与图像对应的内容。
输入数据选择单元2120-3可以从输入数据获取单元2120-1获取的数据或输入数据预处理单元2120-2预处理的数据中选择提供响应所需的数据。所选择的数据可以提供给确定结果提供单元2120-4。输入数据选择单元2120-3可以根据预定的选择准则选择一些或所有获取的或预处理的数据用于提供响应。另外,输入数据选择单元2120-3可以通过模型训练单元2110-4的训练来根据预定的选择准则选择数据。
模型更新单元2120-5可基于由确定结果提供单元2120-4提供的确定结果的评估来控制待更新的人工智能模型。例如,模型更新单元2120-5可通过将由确定结果提供单元2120-4提供的确定结果提供给模型训练单元2110-4来请求模型训练单元2110-4额外地训练或更新人工智能模型。特别地,模型更新单元2120-5可基于根据用户输入的反馈信息来重新训练人工智能模型。
本公开的实施例的内容搜索方法可以表现出如下效果。由于绘制图像的方式取决于用户而变化,因此由用户绘制的图像可能不适合直接用于内容搜索,并且用户也不便于努力绘制用于搜索的图像。如在本公开的实施例中,根据用于使得用户绘制草图并生成使用人工智能模型从由用户绘制的草图细化的图像的方法,由于用户可以仅粗略地绘制草图,所以可提高便利性,并且由于机器生成的图像是基于特定准则生成的,所以可确保内容搜索的一致性。
上述各种实施例可以实现为软件、硬件或其组合。根据硬件方面的实施方式,本公开的实施例可以使用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器和用于执行其他功能的电子单元中的至少一个来实现。根据软件方面的实现,诸如本说明书中描述的过程和功能之类的实施例可以被实现为分离的软件模块。软件模块中的每一个可以执行本说明书中描述的一个或多个功能和操作。
根据本公开的各种实施例的方法可以被实现为包括存储在机器(例如,计算机)可读存储介质中的指令的软件。该机器是调用存储在存储介质中的指令并根据所调用的指令来操作的设备,并且可以包括根据所公开的实施例的电子设备(例如,电子设备100)。在由处理器执行指令的情况下,处理器可以直接或使用在处理器的控制下的其它元件来执行与指令对应的功能。指令可以包括由编译器产生的代码或可由解释器执行的代码。机器可读存储介质可以以非暂时性存储介质的形式提供。这里,“非暂时性”存储介质是有形的并且可以不包括信号,并且它不区分数据是半永久地或暂时地存储在存储介质中。
根据实施例,根据本公开中公开的各种实施例的方法可以被提供为包括在计算机程序产品中。计算机程序产品可以作为商业上可获取的产品在卖方和买方之间交换。计算机程序产品可以以机器可读存储介质(例如,光盘只读存储器(CD-ROM))的形式分布,或者通过应用商店(例如,PlayStoreTM)在线分布。在在线分布的情况下,计算机程序产品的至少一部分可以至少临时存储或临时生成在诸如制造商的服务器的存储器、应用商店的服务器或中继服务器之类的存储介质中。
根据上述各种实施例的元件(例如,模块或程序)中的每一个可以包括单个实体或多个实体,并且上述子元件的一些子元件可以被省略,或者其他子元件可以进一步包括在各种实施例中。可替换地或额外地,一些元件(例如,模块或程序)可以被集成到一个实体中,以执行由每个相应元件在集成之前执行的相同或相似功能。根据各种实施例,由模块、程序或其它元件执行的操作可以顺序地、并行地、重复地或启发式地执行,或者至少一些操作可以以不同的顺序执行、省略或可以添加不同的操作。
员然已经示出和描述了本公开的优选实施例,但是本公开不限于上述具体实施例,并且显而易见的是,在不脱离由所附权利要求所要求保护的本公开的主旨的情况下,本公开所属技术领域的普通技术人员可以进行各种修改。而且,意图是这样的修改不应独立于本公开的技术思想或前景来解释。

Claims (15)

1.一种用于控制电子设备的方法,所述方法包括:
接收由用户绘制的草图;
使用由人工智能算法训练的人工智能模型,基于所述草图获取至少一个机器生成的图像;
显示至少一个获取的机器生成的图像;
接收用于选择所述至少一个显示的机器生成的图像中的一个的用户命令,并且搜索与根据所述用户命令选择的图像对应的至少一个内容;以及
提供至少一个搜索到的内容。
2.根据权利要求1所述的方法,其中,搜索包括:
从所述电子设备中存储的多个内容中搜索与所选择的图像对应的至少一个内容。
3.根据权利要求2所述的方法,还包括:
基于通过对所述多个内容进行分类而获取的信息来显示用于选择类别的至少一个UI元件,
其中,获取包括:
将关于与用户从至少一个UI元件中选择的UI元件对应的类别和所述草图的信息输入到所述人工智能模型,并且获取从所述草图细化的至少一个图像作为属于与所选择的UI元件对应的类别的目标。
4.根据权利要求3所述的方法,其中,搜索包括:
搜索与关于与所选择的UI元件对应的类别的信息和所选择的图像对应的至少一个内容。
5.根据权利要求2所述的方法,其中,获取包括:
将关于通过对所述多个内容进行分类而获取的多个类别的信息和所述草图输入到所述人工智能模型,并且关于所述多个类别中的每一个获取从所述草图细化的多个图像。
6.根据权利要求5所述的方法,其中,显示包括:
显示针对每个类别的多个获取的图像。
7.根据权利要求1所述的方法,其中,所述人工智能模型是由生成性对抗网络(GAN)或变化自动编码器(VAE)训练的。
8.根据权利要求1所述的方法,其中,搜索包括:
使用由所述人工智能算法训练的用于内容搜索的人工智能模型来搜索与根据所述用户命令选择的图像对应的至少一个内容。
9.根据权利要求8所述的方法,还包括:
基于由用户在至少一个所提供的内容中选择的内容,重新训练用于内容搜索的人工智能模型。
10.根据权利要求1所述的方法,其中,接收由用户绘制的草图包括:
接收与遥控器的移动对应的信号,并且基于接收到的信号获取关于所述草图的信息。
11.一种电子设备,包括:
存储器,存储计算机可执行指令;
显示器;以及
处理器,通过执行所述计算机可执行指令,被配置为:使用由人工智能算法训练的人工智能模型基于由用户绘制的草图来获取至少一个机器生成的图像;控制所述显示器显示至少一个获取的机器生成的图像;接收用于选择至少一个显示的机器生成的图像中的一个的用户命令;搜索与根据所述用户命令选择的图像对应的至少一个内容;并且提供至少一个搜索到的内容。
12.根据权利要求11所述的设备,其中,所述处理器被配置为在存储在所述电子设备中的多个内容中搜索与所选择的图像对应的至少一个内容。
13.根据权利要求12所述的设备,其中,所述处理器被配置为:控制所述显示器显示至少一个UI元件,所述至少一个UI元件用于基于通过对所述多个内容进行分类而获取的信息来选择类别;将关于与由用户从所述至少一个UI元件选择的UI元件对应的类别和所述草图的信息输入到所述人工智能模型;并且获取从所述草图细化的至少一个图像作为属于与所选择的UI元件对应的类别的目标。
14.根据权利要求13所述的设备,其中,所述处理器被配置为:搜索与关于对应于所选择的UI元件的类别的信息和所选择的图像对应的至少一个内容。
15.根据权利要求12所述的设备,其中,所述处理器被配置为:将关于通过对所述多个内容进行分类而获取的多个类别的信息和所述草图输入到所述人工智能模型;并且关于所述多个类别中的每一个获取从所述草图细化的多个图像。
CN201980030966.0A 2018-05-29 2019-05-10 电子设备及其控制方法 Pending CN112106042A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020180061217A KR20190140519A (ko) 2018-05-29 2018-05-29 전자 장치 및 그의 제어방법
KR10-2018-0061217 2018-05-29
PCT/KR2019/005604 WO2019231130A1 (ko) 2018-05-29 2019-05-10 전자 장치 및 그의 제어방법

Publications (1)

Publication Number Publication Date
CN112106042A true CN112106042A (zh) 2020-12-18

Family

ID=68698310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980030966.0A Pending CN112106042A (zh) 2018-05-29 2019-05-10 电子设备及其控制方法

Country Status (5)

Country Link
US (1) US20210263963A1 (zh)
EP (1) EP3757817A4 (zh)
KR (1) KR20190140519A (zh)
CN (1) CN112106042A (zh)
WO (1) WO2019231130A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3675062A1 (en) 2018-12-29 2020-07-01 Dassault Systèmes Learning a neural network for inference of solid cad features
EP3675063A1 (en) * 2018-12-29 2020-07-01 Dassault Systèmes Forming a dataset for inference of solid cad features
JP6590329B1 (ja) * 2019-06-26 2019-10-16 株式会社ラディウス・ファイブ 画像表示システム及びプログラム
US20210141825A1 (en) * 2019-11-12 2021-05-13 Oath Inc. Method and system for sketch based search
KR102390427B1 (ko) * 2021-07-20 2022-04-22 이보용 도면 작업 시스템
WO2023152828A1 (ja) * 2022-02-09 2023-08-17 日本電信電話株式会社 学習モデル生成方法、イラスト変換方法、学習モデル生成装置、イラスト変換装置、学習モデル生成プログラム、およびイラスト変換プログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090307219A1 (en) * 2008-06-05 2009-12-10 Bennett James D Image search engine using image analysis and categorization
US20100070878A1 (en) * 2008-09-12 2010-03-18 At&T Intellectual Property I, L.P. Providing sketch annotations with multimedia programs
KR20120036649A (ko) * 2010-10-08 2012-04-18 엘지전자 주식회사 단말기의 드로잉을 이용한 검색 방법 및 그 단말기
US20140279265A1 (en) * 2013-03-14 2014-09-18 Ebay Inc. System and method to retrieve relevant inventory using sketch-based query
CN104737160A (zh) * 2012-10-15 2015-06-24 微软公司 来自草图的图片
CN105808665A (zh) * 2015-12-17 2016-07-27 北京航空航天大学 一种新的基于手绘草图的图像检索方法
CN107209631A (zh) * 2015-01-09 2017-09-26 三星电子株式会社 用于显示图像的用户终端及其图像显示方法
CN107895028A (zh) * 2017-11-17 2018-04-10 天津大学 采用深度学习的草图检索方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130059033A (ko) * 2011-11-28 2013-06-05 연세대학교 산학협력단 스케치를 이용한 멀티미디어 검색 시스템 및 방법
KR101326083B1 (ko) * 2011-11-28 2013-11-07 건국대학교 산학협력단 스케치 질의를 사용하는 콘텐츠 기반 이미지 검색기에서의 질의 이미지 및 검색 대상 영상의 전처리 장치 및 그 방법
KR101912794B1 (ko) * 2013-11-27 2018-10-29 한화테크윈 주식회사 영상 검색 시스템 및 영상 검색 방법
US10042866B2 (en) * 2015-06-30 2018-08-07 Adobe Systems Incorporated Searching untagged images with text-based queries

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090307219A1 (en) * 2008-06-05 2009-12-10 Bennett James D Image search engine using image analysis and categorization
US20100070878A1 (en) * 2008-09-12 2010-03-18 At&T Intellectual Property I, L.P. Providing sketch annotations with multimedia programs
KR20120036649A (ko) * 2010-10-08 2012-04-18 엘지전자 주식회사 단말기의 드로잉을 이용한 검색 방법 및 그 단말기
CN104737160A (zh) * 2012-10-15 2015-06-24 微软公司 来自草图的图片
US20140279265A1 (en) * 2013-03-14 2014-09-18 Ebay Inc. System and method to retrieve relevant inventory using sketch-based query
CN107209631A (zh) * 2015-01-09 2017-09-26 三星电子株式会社 用于显示图像的用户终端及其图像显示方法
CN105808665A (zh) * 2015-12-17 2016-07-27 北京航空航天大学 一种新的基于手绘草图的图像检索方法
CN107895028A (zh) * 2017-11-17 2018-04-10 天津大学 采用深度学习的草图检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CLAUDIU TANASE 等: "Semantic Sketch-Based Video Retrieval with Autocompletion", IUI \'16 COMPANION: COMPANION PUBLICATION OF THE 21ST INTERNATIONAL CONFERENCE ON INTELLIGENT USER INTERFACES, 7 March 2016 (2016-03-07), pages 97, XP055753996, DOI: 10.1145/2876456.2879473 *
O. SEDDATI 等: "DeepSketch: Deep convolutional neural networks for sketch recognition and similarity search", 2015 13TH INTERNATIONAL WORKSHOP ON CONTENT-BASED MULTIMEDIA INDEXING (CBMI), 13 July 2015 (2015-07-13), pages 1 - 6 *
PATSORN SANGKLOY 等: "Scribbler: Controlling Deep Image Synthesis with Sketch and Color", HTTPS://ARXIV.ORG/ABS/1612.00835V1, 2 December 2016 (2016-12-02), pages 1 - 13 *

Also Published As

Publication number Publication date
KR20190140519A (ko) 2019-12-20
EP3757817A1 (en) 2020-12-30
US20210263963A1 (en) 2021-08-26
EP3757817A4 (en) 2021-01-13
WO2019231130A1 (ko) 2019-12-05

Similar Documents

Publication Publication Date Title
CN111247536B (zh) 用于搜索相关图像的电子装置及其控制方法
US11954150B2 (en) Electronic device and method for controlling the electronic device thereof
CN112106042A (zh) 电子设备及其控制方法
CN110249304B (zh) 电子设备的视觉智能管理
US20190042079A1 (en) Electronic device and method for providing search result thereof
US20190042574A1 (en) Electronic device and method for controlling the electronic device
US11721333B2 (en) Electronic apparatus and control method thereof
US11622098B2 (en) Electronic device, and method for displaying three-dimensional image thereof
US10970900B2 (en) Electronic apparatus and controlling method thereof
US20160224591A1 (en) Method and Device for Searching for Image
CN111566646B (zh) 用于对数据进行混淆和解码的电子装置以及用于控制该电子装置的方法
KR102586014B1 (ko) 전자 장치 및 전자 장치의 제어 방법
CN110998507B (zh) 电子装置及其用于提供搜索结果的方法
CN111902812A (zh) 电子装置及其控制方法
EP3725217A1 (en) Electronic device and method for measuring heart rate
US20230290174A1 (en) Weakly supervised semantic parsing
US11468270B2 (en) Electronic device and feedback information acquisition method therefor
US20210035309A1 (en) Electronic device and control method therefor
CN111797875A (zh) 场景建模方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination