CN111434118A - 用户感兴趣信息生成的装置和方法 - Google Patents

用户感兴趣信息生成的装置和方法 Download PDF

Info

Publication number
CN111434118A
CN111434118A CN201880077875.8A CN201880077875A CN111434118A CN 111434118 A CN111434118 A CN 111434118A CN 201880077875 A CN201880077875 A CN 201880077875A CN 111434118 A CN111434118 A CN 111434118A
Authority
CN
China
Prior art keywords
node
interest
instructions
image
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880077875.8A
Other languages
English (en)
Other versions
CN111434118B (zh
Inventor
金度坤
金璟洙
金圣晋
K.安基特
李强熙
李炯旻
朴宰贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN111434118A publication Critical patent/CN111434118A/zh
Application granted granted Critical
Publication of CN111434118B publication Critical patent/CN111434118B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0627Directed, with specific intent or strategy using item specifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及人工智能(AI),其通过利用诸如深度学习的机器学习算法来模仿人脑的功能,诸如识别和推理,并且涉及用于从显示给用户的图像中获得用户的感兴趣信息的基于上下文感知的人工智能应用技术。根据本发明一个实施例的电子设备获取与图像相关的上下文数据,并且使用上下文数据从索引树的节点当中选择与上下文数据相对应的感兴趣节点,索引树用于搜索与通过使用作为机器学习的结果而生成的模型从图像中提取的候选对象相对应的样本图像,其中通过使用索引树的每个节点的主题和上下文数据之间的比较结果来选择感兴趣节点;并且通过使用感兴趣节点从包括在图像中的候选对象当中选择感兴趣对象。

Description

用户感兴趣信息生成的装置和方法
技术领域
本公开涉及人工智能(artificial intelligence,AI)系统,其用于通过利用诸如深度学习的机器学习算法及其应用来模仿人脑的功能,诸如识别和推理,并且涉及用于从显示给用户的图像中获得用户的感兴趣信息的基于上下文感知的AI应用技术。
背景技术
不同于现有的基于规则的智能系统,人工智能(AI)系统是实现人类水平的智能的系统,并且是机器学习、判断和反复改进分析和决策的系统。随着AI系统使用的增加,例如,可以相应地增加准确度、识别率以及对用户品味的理解或预期。因此,现有的基于规则的智能系统正逐渐被基于深度学习的AI系统所取代。
AI技术由机器学习(深度学习)和利用机器学习的元素技术(elementtechnology)组成。机器学习是能够对输入数据的特性进行分类或学习的算法技术。元素技术是使用诸如深度学习的机器学习算法来模拟诸如人脑的识别和判断等功能的技术。机器学习由诸如语言理解、视觉理解、推理、预测、知识表示、运动控制等技术领域组成。
实现AI技术的各个领域可能包括以下内容。语言理解是用于识别、应用和/或处理人类语言或字符的技术,包括自然语言处理、机器翻译、对话系统、问答、语音识别或合成等。视觉理解是用于如人类视觉那样识别和处理对象的技术,包括对象识别、对象跟踪、图像搜索、人类识别、场景理解、空间理解、图像增强等。推断预测是用于判断、逻辑推断和预测信息的技术,包括基于知识和基于概率的推断、最优化预测、基于偏好的规划、推荐等。知识表示是用于将人类经验信息自动化(automate)为知识数据的技术,包括知识构建(数据生成或分类)、知识管理(数据利用)等。运动控制是用于控制车辆的自主行驶和机器人的运动的技术,包括运动控制(导航、碰撞、驾驶)、操作控制(行为控制)等。
通过分析用户对暴露给用户的各种内容的反馈,提供了估计用户的感兴趣信息的技术。作为代表,诸如聚合社交网络上发布的内容的积极反馈以及从获得积极反馈的内容的公共点获得用户的感兴趣信息的技术是已知的。为了从暴露给用户的图像中提取关于用户的兴趣的信息,有必要分析哪些话题(topic)包括在图像中。为此,执行过程,用于包括在图像中的对象的识别以及由每个识别的对象表示的话题的标识。
为了不限制可以提取的感兴趣信息的范围,不期望要标识的对象的话题被限制在特定的范围内。然而,在不限制范围的情况下进行对象标识的计算负载是一个难以处理的水平,除非存在具有高性能的电子设备,诸如具有优异计算性能的服务器。此外,不限制范围的对象标识很可能存在准确度问题。
即使计算负载和准确度的问题得到解决,当前技术也没有提供在图像中所识别的对象当中选择被标识为暴露于图像的用户感兴趣的感兴趣对象的方法。如果在图像中识别出了多个不同的对象,则在获得用户的感兴趣信息时,选择多个对象中的哪个是感兴趣对象是非常重要的。大量图像可以具有多个对象。
当前提供的技术缺少从暴露给用户的图像中生成用户的感兴趣信息的关键配置。
因此,有必要提供一种基于上下文感知的AI应用技术,其具有涉及在图像中选择感兴趣对象的核心配置,该技术可以用于计算性能不是相对优异、但是提供了高准确度的电子设备(诸如用户终端等)。
发明内容
技术问题
本公开旨在解决上述问题,并且本公开的目的是提供用于实现AI应用技术的电子设备和方法,该AI应用技术用于在图像被显示时通过考虑上下文数据来从图像中获得估计为用户感兴趣的信息。
本公开提供了用于实现AI应用技术的电子设备及其方法,能够通过选择索引树的感兴趣节点来提高选择图像中感兴趣对象的速度,该索引树用于搜索与图像中识别的每一个对象相对应的样本图像,并且从感兴趣节点开始搜索与识别的对象匹配的样本图像。
本公开的技术挑战不限于上述技术挑战,并且本领域技术人员从以下描述中可以清楚地理解未提及的其他技术挑战。
解决问题的技术方案
根据实施例,电子设备包括处理器、显示图像的显示器和存储由处理器执行的多个指令的存储器。多个指令包括:用于获得与显示在显示器上的图像相关联的上下文数据的指令;用于通过使用上下文数据,在索引树的节点中选择与上下文数据相对应的感兴趣节点的指令,该索引树用于搜索与图像的候选对象相对应的样本图像,以及使用索引树的每个节点的主题和上下文数据之间的比较结果来选择感兴趣节点的指令,以及用于使用感兴趣节点从包括在图像中的候选对象中选择感兴趣对象的指令。根据每个节点的主题之间的语义关系,索引树可以分层地(hierarchically)连接到另一节点。
在实施例中,上下文数据可以包括多个上下文元素,并且用于选择感兴趣节点的指令可以包括用于在与多个上下文元素相对应的多个节点中选择最低节点作为感兴趣节点的指令。
在实施例中,多个上下文元素可以包括第一上下文元素和第二上下文元素,并且基于对应于第一上下文元素的第一节点和对应于第二上下文元素的第二节点之间的最低节点是第二节点,用于选择感兴趣对象的指令可以包括:基于未能(fail)在候选对象中搜索到与第二节点相对应的对象、用于在多个候选对象中搜索与第一节点相对应的对象的指令;以及用于使用第一节点,在包括在图像中的候选对象中选择感兴趣对象的指令。第一注释在索引树上的深度为N,其中N是大于或等于1的自然数,并且第一节点在索引树上的深度为N+2,其中N是大于或等于1的自然数,并且用于在多个候选对象中搜索与第一节点相对应的对象的指令可以包括,基于未能在候选对象中搜索到与第二节点相对应的对象,经过存在于第二节点和第一节点之间的一个或多个节点,并且行进(travel)到第一节点。
在实施例中,用于选择感兴趣对象的指令可以包括:用于基于未能在候选对象中搜索到与感兴趣节点相对应的对象在多个候选对象中搜索与感兴趣节点的上节点(uppernode)相对应的对象的指令,以及用于使用上节点,在包括在图像中的候选对象中选择感兴趣对象的指令。
在实施例中,索引树的节点可以包括叶节点和非叶节点,每一个非叶节点可以包括用于接收特征数据并生成指示对应于该特征数据的子节点的输出的分类器,用于使用感兴趣节点在包括在图像中的候选对象中选择感兴趣对象的指令可以包括:用于基于感兴趣节点是非叶节点将候选对象的特征数据输入到感兴趣节点的分类器,并且行进到由分类器的输出指示的子节点的指令,以及用于重复指令以行进到子节点直到到达叶节点的指令。叶节点与在图像档案(archive)的每个样本图像中与分配给叶节点的主题(subject)相匹配的一个或多个图像匹配,并且用于使用感兴趣节点在包括在图像中的候选对象中选择感兴趣对象的指令可以包括:用于基于到达叶节点标识与叶节点相匹配的样本图像是否与候选对象相匹配的指令,以及用于选择标识为匹配与叶节点相匹配的图像的候选对象作为感兴趣对象的指令。用于使用感兴趣节点在包括在图像中的候选对象中选择感兴趣对象的指令可以包括,基于当前节点的分类器的输出指示对于所有候选对象都不存在与特征数据相对应的子节点,行进到当前节点的上节点的指令,并且当前节点的上节点是在当前节点的上节点当中与包括在上下文数据中的多个上下文元素之一相匹配的最近的上节点。
在实施例中,用于获得上下文数据的指令可以获得与索引树的节点中的至少一些节点的主题相匹配的上下文数据。在另一实施例中,用于获得上下文数据的指令可以包括用于获得与显示器上的图像同时显示的文本作为上下文数据的指令。在实施例中,用于获得上下文数据的指令可以包括获得电子设备的定位信息作为上下文数据。在另一实施例中,用于获得上下文数据的指令可以包括用于获得文本作为上下文数据的指令,该文本是在图像被显示在显示器上的同时通过转换通过麦克风输入的语音数据而获得的。
在实施例中,用于获得上下文数据的指令可以包括用于基于感测感兴趣对象选择操作的触发获得上下文数据的指令,并且该触发指示感测与电子设备的用户的图像相关联的操作、在显示图像的同时在显示器上显示键盘、或者感测到屏幕捕获操纵,并且该触发可以指示感测通过凝视(gaze)识别传感器的预定时间或更长时间的凝视。
根据另一实施例,用于生成用户的感兴趣信息的方法包括:在显示图像的时间点获得上下文数据;通过使用上下文数据,在用于搜索与图像中识别的多个候选对象相对应的样本图像索引树的节点当中,选择与上下文数据相对应的感兴趣节点;以及使用感兴趣节点在多个候选对象当中选择感兴趣节点。
在实施例中,根据每个节点的主题之间的语义关系,索引树被分层地连接到另一节点,索引树的每一个非叶模式可以包括固有分类器,该固有分类器可以接收图像的特征数据以生成指示与该特征数据相对应的子节点的输出,并且该叶节点可以与一个或多个图像匹配,该图像与叶节点的主题相匹配,并且选择感兴趣对象可以包括基于感兴趣节点是非叶节点,将候选对象的特征数据输入到感兴趣节点的分类器并且行进到由分类器的输出指示的子节点,重复行进到子节点的指令直到到达叶节点,基于到达叶节点,标识与该叶节点匹配的样本图像是否与候选对象匹配,并且选择标识为与该叶节点匹配的候选对象作为感兴趣对象。在实施例中,多个候选对象可以包括第一对象和第二对象,行进到由分类器的输出指示的子节点可以包括,基于根据指示行进到当前节点的子节点之一的第一对象的特征数据的输入的分类器的输出和根据指示与第二对象相对应的子节点不存在的第二对象的特征数据的输入的分类器的输出,分割用于第一对象的树搜索和用于第二对象的树搜索。在另一实施例中,多个候选对象可以包括第一对象和第二对象,并且行进到由分类器的输出指示的子节点可以包括,基于根据指示行进到当前节点的子节点之一的第一对象的特征数据的输入的分类器的输出和根据指示与第二对象相对应的子节点不存在的第二对象的特征数据的输入的分类器的输出,终止对于第二对象的树搜索。
附图说明
图1是示出根据实施例的用户的感兴趣信息生成系统的系统配置图;
图2是示出根据实施例的基于上下文数据的感兴趣对象的选择的概念图;
图3是示出根据实施例的基于定位信息的感兴趣对象的选择的概念图;
图4是示出根据实施例的基于语音的感兴趣对象的选择的概念图;
图5是示出根据实施例的基于文本的感兴趣对象的选择的概念图;
图6是有助于理解一些实施例中所指的索引树的概念图;
图7是有助于理解一些实施例中所指的索引树的概念图;
图8至图13是示出根据实施例的感兴趣对象选择过程的概念图;
图14是根据另一实施例的电子设备的配置图;
图15是示出图14中示出的指令彼此相关联地执行的概念图;
图16是根据又一实施例的用于感兴趣对象选择的方法的流程图;以及
图17是更具体地示出图16的选择感兴趣对象的操作的详细流程图。
具体实施方式
在下文中,将参考附图详细描述优选实施例。结合附图参考以下详细描述,本公开的优点和特征以及实现它们的方式将变得清晰。然而,本公开可以以多种不同的形式具体体现,并且不应该被解释为仅限于本文中所阐述的实施例;相反,提供这些实施例是为了使本公开彻底和完整,并将本公开的范围完全传达给本领域技术人员。在整个公开中,相同的附图标记指代相同的元件。
说明书中使用的所有术语(包括技术和科学术语)可以用作本公开所属领域的普通技术人员通常理解的含义。在本公开中使用的和在一般词典中定义的术语可以用作与相关技术的上下文中的术语的含义相同或相似的含义,并且除非它们已经被清楚和具体地定义,否则它们不应被理想化地或过度地解释。根据情况,即使在本公开的实施例中定义的术语也不能被解释为排除本公开的实施例。除非另有具体定义,单数表达可以包含复数表达。在下文中,将参考附图描述各种实施例。
参考图1,将描述根据实施例的用户感兴趣信息系统的配置和操作。该系统可以包括感兴趣对象标识支持设备10和电子设备100a、100b和100c。电子设备100a、100b和100c可以是由用户使用的用户终端,并且可以包括,例如,诸如智能手机的电子设备、诸如智能手表的可穿戴设备、平板、台式计算机、笔记本、数字电视(TV)、数字标牌、配备有诸如信息亭(kiosk)的操作处理器的计算设备、或者配备有计算装置的数字设备等。
感兴趣对象标识支持设备10管理电子设备100a、100b和100c执行感兴趣对象的标识所必需的数据,诸如索引树50、分类器机器学习(machine learning,ML)参数51以及由索引树50的每个终端节点分组的样本图像的特征数据集(未示出),并且如果存在对数据的更新,则感兴趣对象标识支持设备10将更新的数据传输到电子设备100a、100b、100c。
索引树50是用于搜索与用于标识主题的对象相匹配的样本图像的数据结构。样本图像基于主题进行分组。为了识别图像的主题,可以参考与样本图像的比较结果。每个主题的样本图像可以通过索引树50的主题的叶节点来访问。
由于各种主题的图像应该能够被识别,并且可以以各种图像来表示每种主题,样本图像的数量将逐渐增加,以便提高图像识别的性能。图像间的相似性比较已经从像素间的比较方案发展到使用特征数据集(也称为“特征向量”)的比较方案。样本图像本身的保留(retention)不是必要的。可以预先提取样本图像的特征数据,并且可以仅管理每个样本图像的特征数据,而不是每个样本图像,以节省存储空间并提高操作速度。因此,样本图像的特征数据,而不是每个主题的样本图像,可以链接到主题的叶节点。
通过对显示在电子设备100a、100b、100c上的图像60的分析,识别包括在图像60中的一个或多个对象。可以基于AI技术来执行这种对象识别。例如,可以由机器学习执行设备来执行使用训练数据集的机器学习,并且可以使用作为机器学习的结果而生成的对象识别模型来识别包括在图像60中的一个或多个对象。在图像60中识别的一个或多个对象被称为“候选对象”。此外,候选对象的用户估计感兴趣的对象被称为“感兴趣对象(object ofinterest)”。下面将参考图9或图11描述识别图像60中的对象的示例。
为了识别候选对象表示什么,有必要以自上而下的方式从根节点到叶节点遍历(traverse)索引树50,并且在遍历过程中找到标识为具有与候选对象相似的样本图像的叶节点。在遍历过程中,如果当前节点是具有多个子节点的非叶节点,则可能出现关于需要行进到哪个子节点的问题。此时,使用非终端节点的分类器,选择要行进的子节点。
在一些实施例中,分类器是使用机器学习技术生成的图像分类模型。
如上所述,在索引树50的搜索中,分类器的输出成为要指向作为最终目的地的叶节点的参考数据。可以使用分类器ML参数51在电子设备100a、100b、100c中配置分类器。也就是说,在当前节点指向叶节点时,确定应该向当前节点的子节点当中的哪个节点进行移动,并且在此,应该向由当前节点的分类器的输出数据指示的子节点进行移动。
由于每个非叶节点具有不同的子节点,每个非叶节点可以具有固有分类器。因此,感兴趣对象标识支持设备10可以使用训练数据对每个非叶节点执行机器学习训练,从而生成每个非叶节点固有的对象图像的分类器。在执行监督学习型机器学习的情况下,当第一非叶节点具有第一子节点和第二子节点时,第一非叶节点的训练数据可以包括作为第一子节点的下节点(lower node)的样本数据的特征数据集而分配的第一标签(tag)和作为第二子节点的下节点的样本数据的特征数据集而分配的第二标签。
感兴趣对象标识支持设备10可以在为索引树50的每个非叶节点生成分类器时使用基于深度学习技术的无监督学习或半监督学习。
电子设备100a、100b和100c显示图像60,并且使用从感兴趣对象标识支持设备10接收的数据在图像60内的多个候选对象当中选择感兴趣对象。电子设备100a、100b和100c可以在显示图像60时使用上下文数据来选择感兴趣对象。稍后将描述用于选择感兴趣对象的方法。
电子设备100a、100b和100c可以存储关于所选择的感兴趣对象的信息,周期性地或非周期性地配置与感兴趣对象相关联的数据40,并将其传输到服务服务器20。服务服务器20是向电子设备100a、100b、100c提供诸如数字广告传输、推荐内容供应等在线服务的服务器设备。服务服务器20可以使用与感兴趣对象相关的数据40来传输每个电子设备100a、100b、100c的用户定制的在线服务数据。下面将描述电子设备的配置和操作的详细描述。
将通过实施例参考图2至图5描述基于上下文数据的感兴趣对象选择。
假设显示了具有多个候选对象61a、61b、61c和61d的图像60。识别图像60中的多个候选对象61a、61b、61c和61d可以通过使用本领域已知的各种对象识别方法来执行。例如,可以通过将图像60的数据输入到通过机器学习生成的对象识别模型并处理输出数据来执行对象识别。例如,对象识别模型可以由AI网络组成。在这种情况下,识别图像60中的候选对象的电子设备可以存储有输出用于对象识别的数据的人工神经网络数据。在一些实施例中,在显示图像60时,使用上下文信息62选择多个候选对象61a、61b、61c、61d当中的感兴趣对象61b。
如下所述,使用上下文数据,选择与索引树的节点的上下文数据相对应的感兴趣节点。通过使用索引树的每个节点的主题和上下文数据之间的比较结果来选择感兴趣节点。使用感兴趣节点,在包括在图像中的候选对象当中选择感兴趣对象。因此,匹配索引树的节点当中的至少一些节点的主题的上下文数据对于感兴趣对象的选择可能是重要的。根据一个实施例,获得被定义为与索引树的节点的主题相匹配的上下文数据,并且不必要的噪声被收集作为上下文数据,从而防止消耗计算负载。
上下文信息可以指关于显示图像60的情况的信息。当显示图像60时,显示图像的设备周围的情况将几乎与设备的用户所接触的情况相匹配。根据一些实施例,在选择感兴趣对象61b时,,通过反映显示图像60的设备在显示图像60时周围的上下文信息来反映暴露于图像60的用户的兴趣。
可以参考各种类型的上下文信息来估计用户的感兴趣。下文将描述一些实施例。
在一个实施例中,如图3所示,显示图像60的设备的定位信息可以用作上下文信息。如图3所示,如果根据设备的定位信息确定当前位置是跑鞋商店,则可以选择作为第一候选对象的腰带图像61a、作为第二候选对象的手表图像61b、作为第三候选对象的鞋的图像61c的部分以及作为第四候选对象的鞋的图像61d当中的作为第四候选对象的鞋图像61d作为感兴趣对象。
在另一实施例中,如图4所示,显示图像60的设备的麦克风,或者由与该设备有线或无线通信连接的设备的麦克风在图像60被显示的同时所感测到的语音,可以用作上下文信息。如图4所示,作为将语音转换为文本(语音到文本(speech to text,STT))的结果,如果在获得的文本中检测到文本“腰带很漂亮”和索引树节点的主题“腰带”,则可以选择作为第一候选对象的腰带图像61a、作为第二候选对象的手表图像61b、作为第三候选对象的鞋的图像61c的部分以及作为第四候选对象的鞋的图像61d中的作为第一候选对象的腰带图像61a作为感兴趣对象。
在另一实施例中,如图5所示,与图像60同时显示的文本可以用作上下文信息。解释与图像60同时显示的整个文本与图像60相关联可能是不合理的。在一个实施例中,邻近图像60的显示区域显示的文本可以用作上下文信息。在其他实施例中,指示器(诸如#标签)连接到的文本可以用作上下文信息。
如图5所示,如果#标签62c与图像60同时显示,则可以感测所述标签当中的索引树节点“钟表”、“皮革手表”和“手表”的主题,可以选择作为第一候选对象的腰带图像61a、作为第二候选对象的手表图像61b、作为第三候选图像的鞋的图像61c的部分以及作为第四候选对象的鞋的图像61d中的作为第二候选对象的手表图像61b作为感兴趣对象。
尽管参考图3-图5示出了三种上下文信息类型,但是本公开的范围旨在使用能够标识语义的各种类型的上下文信息以及定位信息、语音和文本的上下文信息来选择感兴趣对象。例如,如果在电子设备中提供气味识别传感器,则气味也可以用作上下文信息。
在一个实施例中,可以使用作为机器学习的结果生成的上下文信息生成模型中的数据输出来配置上下文信息。例如,上下文信息生成模型使用人工神经网络来配置,并且可以使用参考图3至图5描述的各种类型的上下文信息来机器学习。上下文信息生成模型将在综合考虑周围情况的情况下输出上下文信息。
在图5的示例中,将在下面更详细地描述选择手表图像61b作为感兴趣对象的具体逻辑。
参考图6和图7,将描述在一些实施例中用作用于选择感兴趣对象的参考数据的索引树50。
如图6所示,使用图像档案70的样本图像和语义层次(hierachy)树72两者来配置索引树50。索引树50可以由图1的感兴趣对象标识支持设备来配置和更新。索引树50可以由具有计算装置的所有设备来配置和更新。索引树50可以由显示图像的设备来配置和更新。
图像档案70是每个主题的样本图像的集合。图6中所示的皮革手表样本图像70a是基于“皮革手表”的主题来分组的各种图像。同样,休闲手表样本图像70b是基于“休闲手表”主题来分组的各种图像。图像档案70可以是样本图像的特征数据的集合,而不是样本图像本身。
语义层次树72是表示每个主题的语义层次关系的树状数据。语义层次树72可以被配置为具有一个根节点的单一树,但是如果这样配置,世界上的所有主题应该在一个主题下被分层地配置。因此,这可能导致数据处理维度的低效,诸如树的深度较深。如图6所示,语义层次树72a、72b、72c可以被配置用于一些预先指定的主题。在该示例中,索引树50也可以根据与相同语义层次树的主题相同的主题,配置有索引树50a、50b和50c。
参考图7,描述了索引树50a的详细结构。如图7所示,每个非叶节点50a-1、50a-2、50a-3、50a-4和50a-5具有各自的分类器80a-1、80a-2、80a-3、80a-4和80a-5。叶节点50a-6和50a-7链接到每个叶节点的主题的样本图像70a和70b。索引树50a的所有节点具有主题。也就是说,索引树50a的所有节点都具有主题文本。主题文本与上下文进行比较。基于比较的结果选择感兴趣节点,并且以链接到样本图像的叶节点作为目的地的索引树遍历从感兴趣节点开始。因此,减少了使用索引树搜索样本图像所需的计算负载,将在下面对此进行描述。
图8示出了文本类型上下文信息62c和索引树50a。假设上下文信息62c是一组#标签。上下文信息62c包括各自的#标签62c-1、62c-2、62c-3、62c-4、62c-5、62c-6和62c-7。这样,上下文信息可以包括多个上下文元素。图8所示的上下文信息62c被分成七个上下文元素62c-1、62c-2、62c-3、62c-4、62c-5、62c-6和62c-7。如图8所示,在一些实施例中,通过分析将上下文信息分成多个上下文元素。
在一个实施例中,上下文信息可以由异构上下文元素组成。例如,在图8中所示的#标签62c被邻近图像显示的状态下,如果看到图像的用户说“哇!腰带很漂亮!”,则该语音被转换为文本,并且选择该文本中的“腰带”作为上下文元素。这是因为“腰带”是索引树节点之一。然后,“腰带”成为上下文元素。在该示例中,如果#标签62c-1、62c-2、62c-3、62c-4、62c-5、62c-6和62c-7中的每一个是文本类型上下文元素,则“腰带”将是语音类型上下文元素。上下文信息可以由异构上下文元素组成。
当标识每个上下文元素时,选择具有与上下文元素的语义的预定值或更大值的相似性的主题的索引树50a的节点。图8所示的索引树50a的节点的主题是[钟表、挂钟、手表、数字手表、模拟手表、皮革手表、休闲手表],其中选择了与语义是钟表的上下文元素62c-2相同主题的节点50a-1、与语义是手表的上下文元素62c-7相同主题的节点50a-2、以及与语义是皮革手表的上下文元素62c-4相同主题的节点50a-7。所选择的节点50a-1、50a-2和50a-7是感兴趣节点。
在实施例中,当存在多个选择的感兴趣节点时,可以在所选择的感兴趣节点当中选择用于开始索引树的遍历的遍历开始节点。
根据遍历开始节点的第一实施例,遍历开始节点是具有感兴趣节点的索引树50a的最大深度值的感兴趣节点。遍历开始节点对应于上下文元素中最详细的主题。也就是说,遍历开始节点对应于暴露于图像的用户所接触的情况的最详细的主题。因此,当从遍历开始节点开始树遍历时,存在这样的效果,即包括在图像中的最详细的感兴趣对象是可选择的。根据该实施例,甚至可以获得用户的感兴趣的详细信息。此外,当树遍历从遍历开始节点开始时,可以减少移动到叶节点的次数。减少移动的次数可能意味着计算负载降低到那个程度。
根据遍历开始节点选择的第二实施例,计算感兴趣节点的索引树50a深度值的代表值。例如,代表值是平均值或中间值。遍历开始节点是感兴趣节点的索引树50a的深度值最接近该代表值的感兴趣节点。对于遍历开始节点选择的第一实施例,如果到达叶节点,则存在与叶节点的样本数据的匹配可能失败的风险。在本示例中,有必要移动回根节点方向以找到另一叶节点。也就是说,在遍历开始节点选择的第一实施例中,如果最初到达的叶节点的样本数据是匹配的,则有可能在短时间内选择感兴趣对象,但是存在同样多的风险。在遍历开始节点选择的第二实施例中,由于遍历开始节点对应于上下文元素的主题当中的中等程度特异性(specificity),并且因此,存在抵消先前实施例的风险的效果。
基于从图2至图5所示的图像中识别的总共四个候选对象61a、61b、61c和61d当中选择感兴趣对象的假设示出图9至图13。
现在参考图9和图10,应用遍历开始节点定义的第一实施例。总共三个感兴趣节点50a-1、50a-2、50a-7的遍历开始节点是最低的节点50a-7。图9示出了节点50a-7是树遍历的当前节点。
因为当前节点是叶节点,所以执行与链接的样本图像的匹配。为了匹配,可以对每一个候选对象61a、61b、61c和61d执行特征数据提取操作,结果,可以获得每一个候选对象61a、61b、61c和61d的特征数据。通过在获得的候选对象61a、61b、61c、61d中的每一个的特征数据和耦合到当前节点50a-7的样本图像70a的特征数据之间的匹配,标识是否找到了具有大于或等于参考值的相似性的匹配。
图10示出了这个过程。在包括在样本图像70a的特征数据集70a-1中的特征数据中,存在与候选对象的特征数据(ABCD)相同的特征数据。因此,在这种情况下,将选择候选对象61b作为感兴趣对象。感兴趣对象的主题也被确定为“皮革手表”。通过这点,可以估计观看图像的用户对“皮革手表”感兴趣。
参考图11和图13,应用遍历开始节点定义的第二实施例。总共三个感兴趣节点50a-1、50a-2、50a-7的遍历开始节点是中间节点50a-2,其是非叶节点。图11示出了节点50a-2是树遍历的当前节点。
由于当前节点是非叶节点,根据输入到当前节点的分类器80a-2的每个候选对象的特征数据,由分类器输出确定是否移动到当前节点的子节点50a-4和50a-5中的任何一个。为了方便起见,图11示出了根据将总共四个候选对象61a、61b、61c、61d的特征数据输入到分类器80a-2的输出80a-2’。获得指示除了一个候选对象61b之外没有与所有候选对象61a、61c和61d相对应的子节点的输出(N/A)。因此,下一个节点将是模拟手表节点50a-4,其是候选对象61b的特征数据所指示的子节点。
参考图12,模拟手表节点50a-4也是非叶节点,并且因此,以与手表节点50a-2相同的方式确定下一个节点。
图13示出了确定休闲手表节点50a-6为模拟手表节点50a-4的下一个节点,并且当前节点是休闲手表节点50a-6的情况。在包括在链接到休闲手表节点50a-6的样本图像70b的特征数据集70b-1中的特征数据当中,存在与候选对象的特征数据ABCD相同的特征数据。因此,在这种情况下,候选对象61b将被选择作为感兴趣对象。此外,也确定感兴趣对象的主题为“休闲手表”。通过这点,可以估计观看图像的用户对“休闲手表”感兴趣。
根据参考图11-13描述的实施例,可以看到,可以找到在不同于感兴趣节点的叶节点中匹配的样本图像。也就是说,即使上下文元素的主题和与感兴趣对象相匹配的样本图像链接到的节点的主题有些不同,也可以通过遍历索引树50a来准确地搜索链接到与感兴趣对象相匹配的样本图像的叶节点。
还描述了可以在索引树50a的遍历过程中考虑的一些实施例。应当理解,本公开的索引树遍历逻辑共同地反映了贯穿本说明书描述的实施例。
图11和12示出了表示分类器的输出的表80a-2’和80a-4’。在表80a-1’和80a-4’中,存在指示至少一个特征数据的子节点的输出,如果当前节点的主题和所有候选对象61a、61b、61c和61d的主题彼此完全不同,则当前节点的分类器的输出将是指示对于所有候选的特征数据没有对应的子节点的值。在这种情况下,当前节点需要向根节点的方向行进。
根据反向行进到上节点的第一实施例,当前节点的下一个节点是当前节点的父节点。如果具有与感兴趣对象相匹配的样本数据的叶节点(匹配节点)是当前节点的兄弟节点,则根据实施例,具有快速到达匹配节点的效果。
根据反向行进到上节点的第二实施例,当前节点的下一个节点是当前节点的上节点当中最近的感兴趣节点。如前所述,感兴趣节点的主题对应于上下文中元素的主题。也就是说,感兴趣节点是在搜索匹配节点时可能成为重要分叉(bifurcation)的节点。该实施例允许通过不以行进到上节点的相反方向、不必要地经过所有叶节点,来减少计算负荷。
因为当前节点是叶节点,所以执行与链接的样本图像的匹配。为了匹配,对每一个候选对象61a、61b、61c和61d执行特征数据提取操作,结果,可以获得每一个候选对象61a、61b、61c和61d的特征数据。通过在获得的候选对象61a、61b、61c、61d中的每一个的特征数据与耦合到当前节点50a-7的样本图像70a的特征数据之间的匹配,识别是否找到了相似性大于或等于参考值的匹配。
在下文中,将描述根据另一实施例的电子设备100的配置和操作。根据实施例的电子设备的操作应该被理解为包括与根据上述实施例的获得上下文数据、在索引树的节点中选择感兴趣节点、通过索引树的遍历在候选对象中选择感兴趣对象等相关的操作,即使没有额外的描述。
如图14所示,根据该实施例的电子设备100包括处理器101、存储器102和显示器104。在一些实施例中,电子设备100还可以包括多个定位装置107中的至少一个,诸如全球定位系统(global positioning system,GPS)信号接收器、凝视识别传感器106、麦克风105或网络接口109。
系统总线108用作电子设备100的内部元件(诸如处理器101、存储器102和存储103)之间的数据收发路径。例如,存储器102可以是易失性数据存储设备,诸如随机存取存储器(random access memory,RAM)。存储103可以是非易失性存储器,诸如闪存,或者数据存储设备,诸如硬盘。
指令指示一系列指令,这些指令基于功能分组,并由处理器执行。
存储103可以存储索引树相关数据131、感兴趣对象选择历史数据135、感兴趣对象选择应用136a的可执行代码或一个或多个应用的应用137中的至少一个。
已经描述了可以从外部设备(例如,图1的感兴趣对象标识支持设备)接收索引树相关数据131。索引树132是构成参考图6描述的索引树50的数据。分类器ML参数数据133是用于配置索引树50的每个非叶节点的分类器的数据。样本图像特征数据是链接到索引树50的每个叶节点的对象的样本图像的特征数据。
根据一个实施例,在启动电子设备100时,感兴趣对象选择应用136a可以自动执行并在后台模式下操作。当图像显示在各种应用的应用137中时,其不限于特定应用137,并且具有生成用户感兴趣信息的效果(独立于应用)。作为应用的应用之一的感兴趣对象选择应用136a可以仅在有用户的执行命令时执行,并且可以实现为特定应用137的内部模块。
在图14中,示出了感兴趣对象选择应用136a加载到存储器102中并存储136b。当感兴趣对象选择应用136a加载到存储器102中时,期望包括在索引树相关数据中的索引树132、分类器ML参数数据133和样本图像特征数据134也被加载到存储器102中。
将参考图10描述加载到存储器102中并通过处理器101执行的感兴趣对象选择应用136b的各种指令的相互关联操作。
首先,执行感兴趣对象选择触发检测指令122。不期望总是执行选择感兴趣对象的操作。不提功耗等问题,为了生成用户感兴趣信息,需要在用户感兴趣的时候从显示的图像中选择感兴趣对象。感兴趣对象选择触发检测指令122从电子设备100的各种元件收集的数据和相关的操作等中,标识用户当前是否正在观看具有用户的兴趣的图像,并且标识是否是进行感兴趣对象选择的时候了。
在下文中,呈现了各种感兴趣对象选择触发。在一个实施例中,感兴趣对象选择触发可以要求在显示器104上显示至少一个图像。这是因为除非显示了图像,否则不可能选择感兴趣对象。
在一个实施例中,感兴趣对象检测触发可以是电子设备100的用户检测到与图像相关联的操纵。与图像相关联的操纵包括可以视为对图像感兴趣的各种操作,诸如,与图像相关联的“喜欢”、放大/缩小输入、图像的“共享”、“书签”操纵、经由双击放大图像、包括图像的内容的在线服务上传的操纵、包括图像的内容的下载的操纵等。
在另一实施例中,感兴趣对象检测触发可以是在显示图像的同时在显示器104上显示键盘。在显示图像的同时显示键盘可以指输入与图像相关联的字母的动作,并且这可以指用户对图像感兴趣。
在另一实施例中,感兴趣对象检测触发可以感测到电子设备100的用户操纵屏幕捕获。在显示图像的同时显示键盘可能意味着包括图像的内容将被存储或传输给其他人。因此,包括在屏幕捕获的屏幕中的图像可能包括用户的感兴趣信息。
在另一实施例中,感兴趣对象检测触发可以是经由凝视识别传感器检测到超过预定时间的凝视。预定时间或更长时间的凝视可能是用户感兴趣的积极证据。
在另一实施例中,感兴趣对象检测触发可以是在显示图像的同时调用虚拟助手(或语音识别助手),并且可以经由虚拟助手请求当前屏幕上的操作。经由虚拟助手的与图像相关联的操纵也可以指示用户对图像的兴趣。
当由感兴趣对象选择触发检测指令122检测到触发发生时,执行上下文数据获取指令123。上下文数据获取指令123可以通过以上参考图2-图5描述的方式获得与显示器104上显示的图像相关联的上下文数据。
当检测到触发的发生时,对显示器104上显示的图像执行候选对象提取指令126,从而在图像中检测到候选对象。
候选对象提取指令126使用作为机器学习的结果生成的对象识别模型(未示出)提取包括在图像中的一个或多个候选对象。例如,对象识别模型可以由人工神经网络组成,在这种情况下,存储器102可以存储有定义对象识别模型的人工神经网络的参数集。参数集可以包括关于构成人工神经网络的层数、每层的节点数、每个节点之间的权重等的信息。可以经由网络接口109从执行机器学习训练以生成对象识别模型的外部设备(未示出)接收对象识别模型。例如,外部设备可以是参考图1描述的感兴趣对象标识支持设备。
可以使用链接到索引树132的每个叶节点的样本数据作为训练数据集来执行机器学习训练。在该示例中,对象识别模型可以具有识别在整个输入图像区域当中的候选对象的能力,该候选对象是被估计为与整个样本数据中的任何一个相似的区域的区域。在这点上,候选对象可以对应于图像处理技术中的感兴趣区域(region of interest,ROI)。
在一个实施例中,候选对象提取指令126可以通过增量式(incremental)学习,周期性/非周期性地更新经由网络接口109从外部设备(未示出)接收到的对象识别模型。候选对象提取指令126可以显示在用于增量式学习的图像中识别的候选对象,并且执行处理以获得关于候选对象识别结果对于用户是否正确的反馈。候选对象提取指令126可以通过使用该反馈来更新对象识别模型。
候选对象提取指令126可以一起使用多个对象识别模型来执行候选对象提取。多个对象识别模型可以包括用于提取图像中具有第一特征的对象的第一对象识别模型,以及用于提取图像中具有第二特征的对象的第二对象识别模型。也就是说,候选对象提取指令126可以通过使用提取具有特定特征的区域的对象识别模型来防止候选对象被省略。多个对象识别模型可以包括由机器学习生成的模型和使用用于图像的像素值的图像处理算法的模型两者。
在一个实施例中,可以训练对象识别模型,使得输出层输出每个候选对象的特征数据。
接下来,执行感兴趣节点选择指令124。感兴趣节点选择指令124可以经由上面参考图8描述的方法,在索引树的节点中选择主题与包括在上下文数据中的上下文元素相匹配的感兴趣节点。感兴趣节点选择指令124在感兴趣节点选择过程中参考索引树132。索引树132是其中索引树相关数据131被加载到存储器102中并存储的数据,并且索引树相关数据131可以由索引树相关数据更新指令125更新。
接下来,执行感兴趣对象选择指令127。感兴趣对象选择指令127可以经由以上参考图9至图13描述的方式在候选对象中选择感兴趣节点。感兴趣对象选择指令127参考索引树132用于感兴趣节点的选择。
如果根据感兴趣对象选择指令127的执行选择了感兴趣对象,则存储所选择的历史的数据135。感兴趣对象选择历史数据可以是时间序列(time-series)数据,包括例如,按时间的感兴趣对象的“主题”,并且可以周期性/非周期性地传输到服务服务器。
在下文中,将参考图16至图17描述根据另一实施例的生成感兴趣信息的方法。用于生成感兴趣信息的方法可以由电子设备执行。用于生成感兴趣信息的方法可以主要由电子设备执行,并且用于生成感兴趣信息的方法的一些操作可以由另一设备执行。
例如,电子设备可以是图14所示的电子设备100。注意,参考图14至图15描述的电子设备的操作和由计算机设备的操作描述参考的图1-13的描述可以包括在生成感兴趣信息的方法中。因此,尽管在下面描述的用于生成感兴趣信息的方法的描述中没有单独的公开,但是上面参考图1至图15描述的操作可以包括在用于生成感兴趣信息的方法中。在下面的方法描述中,如果没有操作的主题的描述,则该主题可以解释为电子设备。
参考图16给出描述。
在步骤S101中,确定是否生成感兴趣对象选择触发。如果确定生成了感兴趣对象选择触发,则在操作S103中可以获得触发发生时显示的图像,但如果没有,则可以确定是否生成了感兴趣对象选择触发。
在操作S105中,感测到所获得的图像中的一个或多个对象。此时感测到的对象被称为候选对象。生成每一个候选对象的特征数据。步骤S105的操作可以指参考图15描述的候选对象提取指令的操作。
在操作S107中,获得触发发生时间点处的上下文数据。如果上下文数据包括多个上下文元素,则在操作S109中,通过对上下文数据的分析来单独地标识上下文元素。
在操作S111中,在索引树的节点中,选择具有与上下文元素的主题相匹配的主题的节点作为感兴趣节点。
在操作S113中,使用感兴趣节点从候选对象中选择感兴趣对象。稍后将描述详细的相关操作。在一些情况下,在操作S115中,可能没有从候选对象中选择感兴趣对象。如果已经选择了感兴趣对象,则在操作S117中可以记录感兴趣对象选择的历史,并且可以将记录的历史提供给服务服务器,以作为用户的个性化服务的基础数据。
参考图17,将描述使用感兴趣节点从候选对象中选择感兴趣对象的详细操作。如上所述,选择感兴趣对象需要遍历索引树,并且该遍历从遍历开始节点开始,该节点是感兴趣节点之一。
为了便于理解,在操作S113a中描述了选择感兴趣节点的最低节点作为遍历开始节点的实施例。在树遍历中,初始化当前节点(意味着当前确定的节点)为遍历开始节点。
在操作S113b中,确定当前节点是否不存在。在步骤S113d中,再次确定当前节点是否是叶节点,因为在开始定时中似乎不太可能出现遍历开始节点不存在的情况。
如果感兴趣节点的最低节点是叶节点,则在操作S113e中,执行在候选对象的特征数据和当前节点的每个样本图像的特征数据之间的匹配,以在操作S113f中确定是否存在匹配。如果存在匹配,则在操作S113g中,感兴趣对象可以是与样本图像相匹配的候选对象,并且感兴趣对象的主题可以是当前节点的主题。
如果在操作S113f中不存在匹配,这意味着应该在索引树上在根节点的方向上向上进行反向遍历。此时,下一个节点是当前节点的上节点。在该示例中,在操作S113j中,选项1是行进到当前节点的父节点,选项2是行进到当前节点的上节点中最接近的感兴趣节点。选项1和选项2中的每一个的效果如上所述。
在步骤S113d中,作为反向遍历的结果行进的当前节点将不是叶节点。因此,在操作S113i中可以通过在S113h中将候选对象的特征数据输入到分类器来更新当前节点,并且遍历可以再次在叶节点的方向上继续。如果到达作为遍历结果的叶节点,并且在操作S113f中确定存在匹配,则在操作S113g中进行感兴趣对象的选择。
在步骤S113h中,如果分类器输出相应的子节点对于候选对象的部分存在,并且输出相应的子节点对于其他部分不存在,则可以划分对其中子节点存在的候选对象和其中子节点不存在的候选对象进行树搜索。也就是说,对于在作为非叶节点的当前节点处存在子节点的候选对象,可以执行叶节点方向上的遍历,而对于不存在子节点的候选对象,可以执行根节点方向上的树遍历。根据另一实施例,对于在作为非叶节点的当前节点不存在子节点的候选对象,标识出不存在被选择为感兴趣对象的可能性,并且不执行进一步的树搜索。
在操作S113i中,如果分类器的输出指示不存在与所有候选对象的特征数据相匹配的下节点,则通过操作S113b标识当前节点不存在,并且结果,在操作S113c中确定候选对象中不存在感兴趣对象。
迄今为止描述的根据实施例的方法可以通过包含在计算机可读代码中的计算机程序的运行来执行。计算机程序可以通过诸如互联网的网络从第一计算设备传输到第二计算设备,以安装在第二计算设备中,从而在第二计算设备中使用。第一计算设备和第二计算设备包括服务器设备、属于云服务的服务器池的物理服务器以及诸如台式PC的固定计算设备中的全部。
计算机程序可以存储在非暂时性记录介质中,诸如DVD-ROM、闪存设备等。
尽管已经参考附图描述了实施例,但是本公开所属领域的技术人员将理解,在不脱离精神或基本特征的情况下,可以以其他特定形式实现实施例。因此,应当理解,上述实施例是说明性的,而不是限制性的。

Claims (20)

1.一种电子设备,包括:
处理器;
显示器,用于显示图像;以及
存储器,存储由处理器执行的多个指令,
其中,所述多个指令包括:
用于获得与显示在显示器上的图像相关联的上下文数据的指令;
用于通过使用上下文数据,在索引树的节点中选择与上下文数据相对应的感兴趣节点,并且使用索引树的每个节点的主题和上下文数据之间的比较结果来选择感兴趣节点的指令,所述索引树用于搜索与图像的候选对象相对应的样本图像;以及
用于通过使用感兴趣节点从包括在图像中的候选对象中选择感兴趣对象的指令;
其中,所述索引树根据每个节点的主题之间的语义关系分层地连接到另一节点。
2.根据权利要求1所述的电子设备,其中:
所述上下文数据包括多个上下文元素,并且用于选择感兴趣节点的指令包括用于在与多个上下文元素相对应的多个节点中选择最低节点作为感兴趣节点的指令。
3.根据权利要求2所述的电子设备,其中,所述多个上下文元素包括第一上下文元素和第二上下文元素,并且基于对应于第一上下文元素的第一节点和对应于第二上下文元素的第二节点之间的最低节点是第二节点,
用于选择感兴趣对象的指令包括:
用于基于未能在候选对象中搜索到与第二节点相对应的对象,在多个候选对象中搜索与第一节点相对应的对象的指令;以及
用于使用第一节点在包括在图像中的候选对象中选择感兴趣对象的指令。
4.根据权利要求3所述的电子设备,其中:
第一注释在索引树上具有深度N,其中N是大于或等于1的自然数,并且第一节点在索引树上具有深度N+2,其中N是大于或等于1的自然数,
用于在多个候选对象中搜索与第一节点相对应的对象的指令包括,基于未能在候选对象中搜索与第二节点相对应的对象,经过存在于第二节点和第一节点之间的一个或多个节点,并且行进到第一节点。
5.根据权利要求1所述的电子设备,其中,用于选择感兴趣对象的指令包括:
用于基于未能在候选对象中搜索到与感兴趣节点相对应的对象,在多个候选对象中搜索与感兴趣节点的上节点相对应的对象的指令;以及
使用所述上节点从包括在图像中的候选对象中选择感兴趣对象的指令。
6.根据权利要求1所述的电子设备,其中:
所述索引树的节点包括叶节点和非叶节点,
每一个非叶节点包括分类器,其用于接收特征数据并生成指示与特征数据相对应的子节点的输出,
使用感兴趣节点从包括在图像中的候选对象中选择感兴趣对象的指令包括:
用于基于感兴趣节点是非叶节点,将候选对象的特征数据输入到感兴趣节点的分类器并行进到由分类器的输出所指示的子节点的指令;以及
用于重复所述指令以行进到子节点直到到达叶节点的指令。
7.根据权利要求6所述的电子设备,其中:
所述叶节点与在图像档案的每个样本图像中与分配给叶节点的主题相匹配的一个或多个图像匹配,
用于使用感兴趣节点从包括在图像中的候选对象中选择感兴趣对象的指令包括:
用于基于到达叶节点,标识与叶节点相匹配的样本图像是否与候选对象匹配的指令;以及
用于选择被标识为与匹配叶节点的图像相匹配的候选对象作为感兴趣对象的指令。
8.根据权利要求6所述的电子设备,其中:
用于使用感兴趣节点在包括在图像中的候选对象中选择感兴趣对象的指令包括,基于当前节点的分类器的输出指示对于所有候选对象不存在与特征数据相对应的子节点而行进到当前节点的上节点的指令;
当前节点的上节点是当前节点的上节点中与包括在上下文数据中的多个上下文元素之一相匹配的最近的上节点。
9.根据权利要求1所述的电子设备,其中,用于获得上下文数据的指令获得与索引树的节点中的至少一些节点的主题相匹配的上下文数据。
10.根据权利要求1所述的电子设备,其中用于获得上下文数据的指令包括获得电子设备的定位信息作为上下文数据。
11.根据权利要求1所述的电子设备,其中,用于获得上下文数据的指令包括用于获得文本作为上下文数据的指令,所述文本是通过转换在图像被显示在显示器上的同时通过麦克风输入的语音数据而获得的。
12.根据权利要求1所述的电子设备,其中,用于获得上下文数据的指令包括用于基于感测感兴趣对象选择操作的触发来获得上下文数据的指令,以及
其中,所述触发指示感测到电子设备的用户的与图像相关联的操作。
13.根据权利要求1所述的电子设备,其中:
所述显示器是触摸显示器,
用于获得上下文数据的指令包括用于基于感测到感兴趣对象选择操作的触发来获得上下文数据的指令,以及
所述触发指示在显示图像的同时在显示器上显示键盘。
14.根据权利要求1所述的电子设备,其中:
用于获得上下文数据的指令包括用于基于感测感兴趣对象选择操作的触发来获得上下文数据的指令,以及
所述触发指示感测到屏幕捕获操纵。
15.根据权利要求1所述的用于提高安全性的方法,其中,所述外部设备被配置为:
收集加密算法的漏洞信息并将所述信息传输到所述电子设备,通过从所述电子设备收集漏洞加密算法的执行的通知来生成统计数据,并且使用所述漏洞加密算法将所述统计数据传输到应用的开发者的系统。
16.一种由电子设备执行的方法,所述方法包括:
在显示图像的时间点获得上下文数据;
通过使用上下文数据,在索引树的节点中选择与上下文数据相对应的感兴趣节点,所述索引树用于搜索与在图像中识别的多个候选对象相对应的样本图像;以及
使用感兴趣节点在多个候选对象中选择感兴趣节点。
17.根据权利要求16所述的用于生成用户的感兴趣信息的方法,其中:
根据每个节点的主题之间的语义关系,所述索引树分层地连接到另一节点,
所述索引树的每一个非叶模式包括固有分类器,所述固有分类器接收图像的特征数据以生成指示与特征数据相对应的子节点的输出,并且叶节点与匹配叶节点的主题的一个或多个图像相匹配,
选择感兴趣对象包括:
基于感兴趣节点是非叶节点,将候选对象的特征数据输入到感兴趣节点的分类器,并行进到由分类器的输出指示的子节点;
重复指令以行进到子节点直到到达叶节点;
基于到达叶节点,标识与叶节点相匹配的样本图像是否与候选对象匹配;以及
选择标识为与叶节点相匹配的候选对象作为感兴趣对象。
18.根据权利要求17所述的方法,其中:
多个候选对象包括第一对象和第二对象,
行进到由分类器的输出指示的子节点包括:
基于根据第一对象的特征数据的输入的分类器的输出指示行进到当前节点的子节点之一和根据第二对象的特征数据的输入的分类器的输出指示不存在与第二对象相对应的子节点,分割对于第一对象的树搜索和对于第二对象的树搜索。
19.根据权利要求17所述的方法,其中:
多个候选对象包括第一对象和第二对象,
行进到由分类器的输出指示的子节点包括,基于根据第一对象的特征数据的输入的分类器的输出指示行进到当前节点的子节点之一和根据第二对象的特征数据的输入的分类器的输出指示不存在与第二对象相对应的子节点,终止对于第二对象的树搜索。
20.一种存储在存储介质中的计算机程序,以使用计算机来执行权利要求16至19中的任一项。
CN201880077875.8A 2017-11-10 2018-04-04 用户感兴趣信息生成的装置和方法 Active CN111434118B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2017-0149414 2017-11-10
KR1020170149414A KR102387767B1 (ko) 2017-11-10 2017-11-10 사용자 관심 정보 생성 장치 및 그 방법
PCT/KR2018/003972 WO2019093599A1 (ko) 2017-11-10 2018-04-04 사용자 관심 정보 생성 장치 및 그 방법

Publications (2)

Publication Number Publication Date
CN111434118A true CN111434118A (zh) 2020-07-17
CN111434118B CN111434118B (zh) 2022-10-21

Family

ID=66438496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880077875.8A Active CN111434118B (zh) 2017-11-10 2018-04-04 用户感兴趣信息生成的装置和方法

Country Status (5)

Country Link
US (1) US11678012B2 (zh)
EP (1) EP3694220A1 (zh)
KR (1) KR102387767B1 (zh)
CN (1) CN111434118B (zh)
WO (1) WO2019093599A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465075A (zh) * 2020-12-31 2021-03-09 杭银消费金融股份有限公司 元数据管理方法及系统
CN117376652A (zh) * 2023-12-07 2024-01-09 深圳市优友互联股份有限公司 直播场景交互追溯的方法和装置、计算机设备、存储介质
WO2024104336A1 (zh) * 2022-11-17 2024-05-23 北京字跳网络技术有限公司 一种信息采集方法、装置、存储介质及电子设备

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679306B2 (en) * 2017-11-21 2020-06-09 International Business Machines Corporation Focus-object-determined communities for augmented reality users
US11500477B2 (en) * 2018-07-02 2022-11-15 Google Llc Systems and methods for interacting and interfacing with an artificial intelligence system
KR20200072022A (ko) * 2018-12-12 2020-06-22 현대자동차주식회사 사용자 관심정보 제공장치 및 방법

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999052080A1 (en) * 1998-04-03 1999-10-14 Synapix, Inc. A time inheritance scene graph for representation of media content
CN102324042A (zh) * 2011-09-13 2012-01-18 盛乐信息技术(上海)有限公司 视觉识别系统及视觉识别方法
CN102395966A (zh) * 2009-04-14 2012-03-28 高通股份有限公司 用于使用移动装置进行图像辨识的系统和方法
US20120173500A1 (en) * 2010-12-29 2012-07-05 Microsoft Corporation Progressive spatial searching using augmented structures
US20140037198A1 (en) * 2012-08-06 2014-02-06 Xerox Corporation Image Segmentation Using Hierarchical Unsupervised Segmentation and Hierarchical Classifiers
CN103679132A (zh) * 2013-07-15 2014-03-26 北京工业大学 一种敏感图像识别方法及系统
CN105045907A (zh) * 2015-08-10 2015-11-11 北京工业大学 一种用于个性化社会图像推荐的视觉注意-标签-用户兴趣树的构建方法
CN105306340A (zh) * 2015-09-25 2016-02-03 联想(北京)有限公司 一种信息处理方法及电子设备
US20160062993A1 (en) * 2014-08-21 2016-03-03 Samsung Electronics Co., Ltd. Method and electronic device for classifying contents
US20160094774A1 (en) * 2014-09-29 2016-03-31 Yahoo! Inc. Mobile device image acquisition using objects of interest recognition
US20160162731A1 (en) * 2012-06-14 2016-06-09 The Board Of Trustees Of The Leland Stanford Junior University Method and System for Optimizing Accuracy-Specificity Trade-offs in Large Scale Visual Recognition
CN106462568A (zh) * 2014-02-13 2017-02-22 河谷控股Ip有限责任公司 全局视觉词汇、系统和方法
CN106445995A (zh) * 2016-07-18 2017-02-22 腾讯科技(深圳)有限公司 图片的分类方法和装置
US20170178335A1 (en) * 2015-12-18 2017-06-22 Ricoh Co., Ltd. Candidate List Generation

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7725484B2 (en) * 2005-11-18 2010-05-25 University Of Kentucky Research Foundation (Ukrf) Scalable object recognition using hierarchical quantization with a vocabulary tree
US10095985B2 (en) * 2008-07-24 2018-10-09 Hamid Hatami-Hanza Assisted knowledge discovery and publication system and method
US20090297045A1 (en) 2008-05-29 2009-12-03 Poetker Robert B Evaluating subject interests from digital image records
EP2402867B1 (en) * 2010-07-02 2018-08-22 Accenture Global Services Limited A computer-implemented method, a computer program product and a computer system for image processing
KR101907414B1 (ko) 2011-12-13 2018-10-15 삼성전자주식회사 촬영 이미지 기반의 문자 인식 장치 및 방법
US9025811B1 (en) * 2013-01-02 2015-05-05 Google Inc. Performing image similarity operations using semantic classification
KR102083624B1 (ko) 2013-01-15 2020-03-02 에스케이플래닛 주식회사 관심대상 분석 시스템 및 그 방법, 그리고 이에 적용되는 장치
JP6179592B2 (ja) * 2013-05-31 2017-08-16 日本電気株式会社 画像認識装置、その処理方法、およびプログラム
US10474670B1 (en) * 2014-06-12 2019-11-12 Amazon Technologies, Inc. Category predictions with browse node probabilities
CN104036023B (zh) * 2014-06-26 2017-05-10 福州大学 一种融合上下文的树形视频语义索引建立方法
KR20160004739A (ko) 2014-07-04 2016-01-13 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
US20170185670A1 (en) * 2015-12-28 2017-06-29 Google Inc. Generating labels for images associated with a user
KR101725501B1 (ko) 2016-07-13 2017-04-13 한동대학교 산학협력단 문자 인식 방법 및 장치
US9928448B1 (en) * 2016-09-23 2018-03-27 International Business Machines Corporation Image classification utilizing semantic relationships in a classification hierarchy
EP3552168A4 (en) * 2016-12-06 2020-01-01 eBay, Inc. ANCHORED SEARCH
KR102399673B1 (ko) * 2017-06-01 2022-05-19 삼성전자주식회사 어휘 트리에 기반하여 객체를 인식하는 방법 및 장치
CN111295669A (zh) * 2017-06-16 2020-06-16 马克波尔公司 图像处理系统
US11568855B2 (en) * 2017-08-29 2023-01-31 Tiancheng Zhao System and method for defining dialog intents and building zero-shot intent recognition models
US10909166B1 (en) * 2017-11-03 2021-02-02 Shutterstock, Inc. Reverse search with manual composition

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020032697A1 (en) * 1998-04-03 2002-03-14 Synapix, Inc. Time inheritance scene graph for representation of media content
WO1999052080A1 (en) * 1998-04-03 1999-10-14 Synapix, Inc. A time inheritance scene graph for representation of media content
CN102395966A (zh) * 2009-04-14 2012-03-28 高通股份有限公司 用于使用移动装置进行图像辨识的系统和方法
US20120173500A1 (en) * 2010-12-29 2012-07-05 Microsoft Corporation Progressive spatial searching using augmented structures
CN102324042A (zh) * 2011-09-13 2012-01-18 盛乐信息技术(上海)有限公司 视觉识别系统及视觉识别方法
US20160162731A1 (en) * 2012-06-14 2016-06-09 The Board Of Trustees Of The Leland Stanford Junior University Method and System for Optimizing Accuracy-Specificity Trade-offs in Large Scale Visual Recognition
US20140037198A1 (en) * 2012-08-06 2014-02-06 Xerox Corporation Image Segmentation Using Hierarchical Unsupervised Segmentation and Hierarchical Classifiers
CN103679132A (zh) * 2013-07-15 2014-03-26 北京工业大学 一种敏感图像识别方法及系统
CN106462568A (zh) * 2014-02-13 2017-02-22 河谷控股Ip有限责任公司 全局视觉词汇、系统和方法
US20160062993A1 (en) * 2014-08-21 2016-03-03 Samsung Electronics Co., Ltd. Method and electronic device for classifying contents
US20160094774A1 (en) * 2014-09-29 2016-03-31 Yahoo! Inc. Mobile device image acquisition using objects of interest recognition
CN105045907A (zh) * 2015-08-10 2015-11-11 北京工业大学 一种用于个性化社会图像推荐的视觉注意-标签-用户兴趣树的构建方法
CN105306340A (zh) * 2015-09-25 2016-02-03 联想(北京)有限公司 一种信息处理方法及电子设备
US20170178335A1 (en) * 2015-12-18 2017-06-22 Ricoh Co., Ltd. Candidate List Generation
CN106445995A (zh) * 2016-07-18 2017-02-22 腾讯科技(深圳)有限公司 图片的分类方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465075A (zh) * 2020-12-31 2021-03-09 杭银消费金融股份有限公司 元数据管理方法及系统
CN112465075B (zh) * 2020-12-31 2021-05-25 杭银消费金融股份有限公司 元数据管理方法及系统
WO2024104336A1 (zh) * 2022-11-17 2024-05-23 北京字跳网络技术有限公司 一种信息采集方法、装置、存储介质及电子设备
CN117376652A (zh) * 2023-12-07 2024-01-09 深圳市优友互联股份有限公司 直播场景交互追溯的方法和装置、计算机设备、存储介质
CN117376652B (zh) * 2023-12-07 2024-04-09 深圳市优友互联股份有限公司 直播场景交互追溯的方法和装置、计算机设备、存储介质

Also Published As

Publication number Publication date
KR102387767B1 (ko) 2022-04-19
KR20190053481A (ko) 2019-05-20
CN111434118B (zh) 2022-10-21
EP3694220A4 (en) 2020-08-12
US11678012B2 (en) 2023-06-13
EP3694220A1 (en) 2020-08-12
WO2019093599A1 (ko) 2019-05-16
US20210182558A1 (en) 2021-06-17

Similar Documents

Publication Publication Date Title
CN111434118B (zh) 用户感兴趣信息生成的装置和方法
Chen et al. Deep learning for sensor-based human activity recognition: Overview, challenges, and opportunities
Lecue On the role of knowledge graphs in explainable AI
US11042800B2 (en) System and method for implementing an artificially intelligent virtual assistant using machine learning
CN109002852B (zh) 图像处理方法、装置、计算机可读存储介质和计算机设备
US20160350653A1 (en) Dynamic Memory Network
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
KR20230157274A (ko) 관련 이미지를 검색하기 위한 전자 장치 및 이의 제어 방법
KR102387305B1 (ko) 멀티모달 데이터 학습 방법 및 장치
CN112955893A (zh) 文档的自动超链接
KR20190094314A (ko) 콘텐츠 기반의 스타일을 갖는 텍스트 또는 음성을 생성하는 인공 지능 장치 및 그 방법
EP3557441A1 (en) Electronic device and method for controlling the electronic device thereof
KR20190099153A (ko) 전자 장치
JPWO2018203555A1 (ja) 信号検索装置、方法、及びプログラム
CN113673244B (zh) 医疗文本处理方法、装置、计算机设备和存储介质
KR20190140519A (ko) 전자 장치 및 그의 제어방법
CN111858898A (zh) 基于人工智能的文本处理方法、装置及电子设备
CN111512299A (zh) 用于内容搜索的方法及其电子设备
CN111902812A (zh) 电子装置及其控制方法
Wei et al. Sequence-to-segment networks for segment detection
CN116955730A (zh) 一种特征提取模型的训练方法、内容推荐的方法及装置
KR20190013390A (ko) 전자 장치 및 이의 검색 결과 제공 방법
CN113705293A (zh) 图像场景的识别方法、装置、设备及可读存储介质
CN115378890B (zh) 信息输入方法、装置、存储介质及计算机设备
CN113569867A (zh) 一种图像处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant