CN110275744A - 一种用于制作可缩放用户界面的方法及系统 - Google Patents
一种用于制作可缩放用户界面的方法及系统 Download PDFInfo
- Publication number
- CN110275744A CN110275744A CN201910190594.XA CN201910190594A CN110275744A CN 110275744 A CN110275744 A CN 110275744A CN 201910190594 A CN201910190594 A CN 201910190594A CN 110275744 A CN110275744 A CN 110275744A
- Authority
- CN
- China
- Prior art keywords
- label
- video
- user interface
- tag tree
- scalable user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/74—Browsing; Visualisation therefor
- G06F16/745—Browsing; Visualisation therefor the internal structure of a single video sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/71—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/74—Browsing; Visualisation therefor
- G06F16/743—Browsing; Visualisation therefor a collection of video files or sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7837—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
- G06F16/784—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/482—End-user interface for program selection
- H04N21/4826—End-user interface for program selection using recommendation lists, e.g. of programs or channels sorted out according to their score
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/482—End-user interface for program selection
- H04N21/4828—End-user interface for program selection for searching program descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
- H04N21/8405—Generation or processing of descriptive data, e.g. content descriptors represented by keywords
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种用于制作可缩放用户界面的方法,包括步骤:将多个标签分配给视频标题;收集视频组中多个视频标题的标签;基于标签的关系构建标签‑关系图,其中标签‑关系图表现视频组中的标签的分层结构;基于所述标签的所述分层结构构建多个标签树;计算各标签树的总距离,其中所述标签树的总距离是从根节点到标签树中的所有节点的距离之和;并显示所述标签树的总距离为最小值的可缩放用户界面。
Description
技术领域
本发明涉及用户界面技术领域,特别涉及一种用于制作可缩放用户界面的技术。
背景技术
在TV用户界面的应用中,用户交互的两种主要手段是推荐和语音搜索。对于具有强烈意图或明确目标的用户,语音搜索是用户快速获得所需内容的非常有效且高效的方法。另一方面,推荐对于没有特定倾向的用户非常有用,这些用户的偏好可以基于内容浏览历史或先前的内容搜索历史来估计。在获取到想要观看的内容之前,用户通常会点击远程按钮十几次甚至更多次。通常,用户使用两种极端方式(即,具有特定意图的直接访问,以及无明确目标的多次点击)来选择期望的内容。
由于交互效率已被认为是电视用户体验的重要因素,因此需要一种能够实现快速内容访问的中间解决方案,所述中间解决方案不需要像使用可缩放用户界面的现有应用一样要求确切的意图。
发明内容
本发明一方面公开了一种用于制作可缩放用户界面的方法。所述方法包括:将多个标签分配给视频标题,并收集视频组中多个视频标题的标签;基于标签的关系构建标签关系图,其中标签关系图表示所述视频组中标签的分层结构,所述分层结构中的子节点包括所述分层结构中的祖先节点的所有标签;基于所述标签的所述分层结构构建多个标签树,其中,各标签树对应于所述可缩放用户界面的树层级p,标签号g和簇号q;计算各标签树的总距离,其中所述标签树的总距离是从根节点到标签树中的所有节点的距离之和;并显示所述标签树的总距离为最小值的可缩放用户界面。
本发明另一方面还公开了一种用于制作可缩放用户界面的系统。所述系统包括显示可缩放用户界面的电视机。所述电视机包括处理器;耦合到所述处理器的存储器;存储在所述存储器中的多个程序单元,所述多个程序单元由所述处理器执行以显示可缩放用户界面。所述多个程序单元包括:分配单元,用于将多个标签分配给视频标题,并收集视频组中的多个视频标题的标签;结构构建单元,用于基于所述标签的关系构建标签关系图,其中所述标签关系图表示所述视频组中的标签的分层结构,并且所述分层结构中的后代节点包括所述分层结构中的祖先节点的所有标签;标签树构建单元,用于基于所述标签的分层结构构建多个标签树,其中所述各标签树对应于所述可缩放用户界面的树层级p,标签号g和簇号q;计算单元,用于计算所述各标签树的总距离,其中所述标签树的总距离是从根节点到所述标签树中的所有节点的距离之和;以及显示单元,用于在电视机上显示所述标签树的总距离为最小值的可缩放用户界面。
根据本申请公开的说明书,权利要求和附图,本领域技术人员可以理解本申请的其他方面。
附图说明
以下附图仅是用于根据各公开实施例的说明性目的的示例,并且不旨在限制本公开的范围。
图1所示为与各公开实施例一致的用于TV上的示例性可缩放用户界面;
图2所示为与各公开实施例一致的用于制作TV上的可缩放用户界面的示例性方法的流程图;
图3所示为与各公开实施例一致的用于制作TV上的可缩放用户界面的示例性方法的进一步流程图;
图4所示为与各公开实施例一致的用于制作TV上的可缩放用户界面的示例性方法的另一流程图;
图5所示为与各公开实施例一致的示例性可缩放用户界面中的分组海报;
图6所示为与各公开实施例一致的应用于示例性可缩放用户界面的二叉树;
图7所示为与各公开实施例一致的应用于示例性可缩放用户界面的视频组中的标签的分层结构;
图8所示为与各公开实施例一致的示例性可缩放用户界面的用户操作的流程图;
图9所示为与各公开实施例一致的用于制作TV上的可缩放用户界面的示例性方法的另一流程图;
图10所示为与各公开实施例一致的使用可缩放用户界面的示例性TV系统。
图11所示为与各公开实施例一致的用于制作TV上的可缩放用户界面的示例性计算。
图12所示为与各公开实施例一致的用于制作TV上的可缩放用户界面的示例性计算。
图13所示为与各公开实施例一致的用于制作TV上的可缩放用户界面的示例性计算。
具体实施方式
为便于理解本发明,下面将参照相关附图对本发明进行更全面的解释。下文将参照附图来描述与本公开一致的实施例。除非另外指出,在各图中相同的参考数字表示相同或相似的部分。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所公开的实施例,本领域普通技术人员得出的与本公开一致的其他实施例,都属于本公开保护的范围。
本发明提供一种可缩放用户界面。所述可缩放用户界面可以与语音搜索和推荐一起很好地为电视世界提供无缝体验。此外,由于其视觉体验丰富的性质,所述可缩放用户界面对于儿童观众具有特殊优势,因为大多数儿童是视觉敏感的(其中一些儿童甚至没有阅读能力)并且更渴望尝试新的创新。
呈现用于TV上的可缩放用户界面的应用包括若干考虑因素。首先,从感知的角度来看,需要解决如何在一个有意义的可缩放架构中呈现视频标题的问题。其次,如果每个视频标题可能超过100K帧,则需要计算出哪些信息来呈现出最佳的视频标题,以及如何有效获取这些信息。第三,假设从所述视频标题中获得所述信息,用何种算法可以找到呈现所述可缩放用户界面的最佳解决方案。在本申请中,利用深度学习实现视频对象的检测,识别与跟踪以及图像理解中的显著性能。可以利用深度学习来处理上述考虑因素并自动提取信息以表现视频标题。
图1所示为与各公开实施例一致的用于TV上的示例性可缩放用户界面。如图1所示,可缩放用户界面由级联的可视标签树表示,其中视频标题的相关标签在构建可缩放用户界面结构以及支持缩放交互中起重要作用。如图1所示,呈现了关于“公主”标签的可缩放用户界面的细节层级,其被分成2个簇,左侧带有标签“动画”,右侧带有标签“真人电影”。显然,使用级联标签“公主”和“动画”,用户可以轻松导航到属于此类别的电影集,并使用另一个级联标签进入下一级细节。许多标签可以通过深度学习算法自动注释。
图2所示为与各公开实施例一致的用于制作TV上的可缩放用户界面的示例性方法的流程图。在步骤201中,将多个标签分配给视频标题。具有语义含义的标签是表示所述视频标题的非常重要的特征。例如,如IMDB视频元数据数据库所示,视频标题可以由数百个标签表示,例如流派,男演员,女演员,导演等。在可缩放用户界面框架的当前实施例中,标题的视觉表现将扮演更重要的角色,因为儿童对海报上标题的视觉元素非常敏感。
在级联标签设计中,标签可以被构建成分层结构,其包括前景对象(例如,人类,动物,虚构的人类,外星人,玩具等),背景场景(例如,天空,野生动物园,海洋,室内,农场,城堡等),表达感知(例如,冒险,魔法,可爱,有趣,强大等),关系指示(例如,个人,家庭,团队,敌意等),以及许多其他类型。较低级别的标签可能非常具体,例如,动物物种可能包括家养的猫,狗,猪和鸭子,野生的如熊,猴子,斑马和大象,不存在的像恐龙,龙,和独角兽,强大的像老虎,狮子和豹子。动物物种还可包括天空中的动物(例如鸟类),海洋中的动物(例如海龟,鱼类)等。
在本申请的一个实施例中,视频标题的所述标签可以与海报很好地匹配,以使它们在用户的可缩放用户界面导航过程中良好地呈现出视频的视觉效果。图3所示为与各公开实施例一致的用于制作TV上的可缩放用户界面的示例性方法的另一流程图。如图3所示,步骤201还可以包括获取视频标题的海报(步骤2011);识别海报中的前景对象,背景场景,表达感知和关系指示(步骤2012);基于海报中所述前景对象,背景场景,表达感知和关系指示,至少将多个标签中的部分标签分配给视频标题(步骤2013)。
在本申请的另一实施例中,通过处理视频标题的海报之外的附加信息以提取表示视频内容的标签。例如,如果在海报上显示一组动物,则不清楚哪一个是主要角色。通过参考视频帧并基于这些角色的出现频率,可以确定主要角色。
图4所示为与各公开实施例一致的用于制作TV上的可缩放用户界面的另一流程图。如图4所示,步骤201还可以包括获取视频标题的多个视频帧(步骤2014);计算多个视频帧中的多个角色的出现频率(步骤2015);基于所述出现频率确定视频标题中的主角(步骤2016);并且基于所确定的主角将所述多个标签中的至少一个标签分配给视频标题(步骤2017)。在一些实施例中,在执行步骤2015之前,步骤201还包括:基于出现在视频标题的海报上的角色来确定多个角色。在一些实施例中,可以基于所述出现频率来识别双主角。
图5所示为与各公开实施例一致的示例性可缩放用户界面中的分组海报。在图5中,可以通过匹配海报来对所述海报组进行分类。如图5所示,在“猫和老鼠”类别下,左侧的海报组与右侧的海报组区分开来,因为前者具有很强的猫元素,后者则侧重于老鼠。
再次参考图2,在步骤202中,收集视频组的多个视频标题的标签。然后,基于所述标签间的关系,将所有收集的标签构建成一标签关系图,如步骤203所示。所述标签关系图可以表示所述视频组中所述标签的分层结构,并且在所述分层结构中,后代节点包括所述分层结构中的祖先节点的所有标签。
所述视频标题的所述级联标签,尤其是视觉标签,在用于视频海报组织和表现的可缩放用户界面体验中起重要作用。所述级联标签可以实现可缩放的数据结构,即当从标签树的根向叶迭代时,后代节点继承其父节点和祖先节点的所有标签,这意味着所述视频组中由后代节点表示的所有视频标题必然包含其祖先节点中使用过的所有标签。
图6所示为与各公开实施例一致的应用于示例性可缩放用户界面的二叉树。如图6所示,二叉树由节点组成,其中每个节点包含“左”引用,“右”引用和数据元素。所述二叉树中最顶层的节点称为根。所述二叉树中的每个节点(不包括根)都通过来自其他节点的定向边连接。此节点称为父节点。另一方面,每个节点可以连接到任意数量的节点,称为子节点。没有子节点的节点称为叶子节点或外部节点。不是叶子节点的节点称为内部节点。具有相同父节点的节点称为兄弟节点。节点的深度是从所述根到所述节点的边数。节点的高度是从所述节点到最深叶子节点的边数。所述二叉树的高度即是所述根的高度。
图7所示为与各公开实施例一致的应用于示例性可缩放用户界面的视频组中的标签的分层结构。在图7所示的实施例中,“动物海洋”的节点选择“海洋”的标签,并从其父节点(即“动物”)和其父节点的父节点(即“童话”)继承标签。因此,它代表包含{“童话”,“动物”,“海洋”}标签的视频标题组,所述标签树的结构决定了“童话”→“动物”→“海洋”的分层结构,这也反映了图8所示的可缩放用户界面中所示的用户操作流程。
当基于图7中所示的分层结构构建所述标签树时,可以如图8所示形成可缩放用户界面。所述标签树可以采用如图7所示的所述分层结构的一部分或全部(例如,标签-关系图)。此外,所述标签树的每个节点与一个或多个视频标题相关联;每个视频标题与所述标签树中的一个或多个节点相关联。也就是说,可缩放用户界面可以基于标签树中其对应节点的层级来呈现视频标题。例如,当用户输入或选择“童话”时,可缩放用户界面的第一级界面801可以显示在电视机的显示器上。所述第一级界面801显示5个海报簇(即视频标题),包括主要类别(即根节点)为“童话”的电影“Moana”的海报和与四个子类别(所述标签树中的第一级节点)“公主”,“动物”,“女巫”和“恐龙”相关联的海报。也就是说,按照图7所示的分层结构构建所述标签树,并基于所述标签树中的第一级节点和根节点来确定和显示海报。当用户选择“动物”时,可缩放用户界面的第二级界面802显示在电视机的显示器上。在所述第二级界面802中,按照图7所示的分层结构构建所述标签树,并基于所述标签树的第二级节点示出了四个子类别“北极”,“海洋”,“狗与猫”和“野生动物园”以及它们各自对应的海报。当用户选择“海洋”时,可缩放用户界面的第三级界面803显示在电视机的显示器上。在所述第三级界面803中,视频标题与分配给图7所示的分层结构中的叶子节点“海洋”的标签标题相匹配。
本申请中的所述级联标签树结构类似于决策树,其中属性测试条件可以级联以形成所述标签树结构。利用级联标签树来创建可缩放用户界面体验为用户体验(UX)创建者提供了足够的灵活性,使其可以决定要使用的确切标签组以及它们的优先级。例如,UX创建者可以决定将“海洋动物”用作单个标签,或将其分成多个标签,例如“海洋”和“动物”等。还可以为所述标签分配不同的权重,以便在不同的优先级中被用户选择,以匹配用户的偏好或满足创建者的特定设计需求。
通过使用可缩放用户界面实现所述级联标签树结构,到达视频标题的用户交互数量与所述标签树内的标题的深度就有了高度相关性,换句话说,如果视频标题(如标签树中的叶子节点)与根之间的边数为3,这意味着用户需要在可缩放用户界面结构中单击3次放大按钮以进入列出视频标题的页面。所公开的应用旨在将用于定位视频标题的整体用户交互次数最小化,并提供一种将标签分配给所述标签树的每个节点的有效方法,形成最优的标签树结构。也就是说,本发明公开的方法解决了标签分配优化问题,以减少用于定位视频标题的整体用户交互次数。
图9所示为与各公开实施例一致的用于制作TV上的可缩放用户界面的示例性方法的另一流程图。如图9所示,步骤203还可以包括获取所述视频组的每个视频标题对应的视频内容(步骤2031);并构建表示所述分层结构的标签-关系图(步骤2032)。在部分实施例中,所述分层结构的类别包括前景对象,背景场景,表达感知和关系指示。
再次参见图2,在步骤204中,基于所述标签的所述分层结构构建多个标签树,其中每个标签树分别与所述可缩放用户界面的树层级p,标签号g和簇号q相对应。让我们用V={v1,v2,...,vm}表示视频标题集,m是视频标题的总数,G={g1,g2,...,gk}表示标签集k,所述标签包括视觉标签(例如,背景标签)和非视觉标签,例如流派,演员等。为了获得根为T0、高度为p的最优标签树T={T0,T1,...,Tp},每个节点可以具有q个子节点,q在[a,b]的范围内,该范围由应用特定的。例如,如果a=2,b=6,则意味着UI页面可能具有两到六个海报簇。在部分实施例中,V中的每个视频标题对应于一张海报。V中的每个视频标题可以对应于G中的一个或多个标签,并且G中的每个标签可以描述V中的一个或多个视频标题。
在T的每一级中,选择放置在Ti(i=1,...,p)的第j个节点ti,j的标签需要满足某些特定标准。具体标准包括:当选择来自所述集合G的单个标签g(ti,j)时,所述级联标签(即g(ti,j)和其在T的祖先节点中的所选标签)用于计算相关联的视频标题集v(ti,j),所述视频标题集v(ti,j)是V的子集。此外,当设置固定的UI容量U(即UI页面可以支持的海报的数量,例如U=20)时,如果|v(ti,j)|>U,那么ti,j不是叶子节点,它将产生子节点,或者成为叶子节点。
在所述标签树形成过程期间,需要优化多个变量,其包括高度p,标签选择g(ti,j)和每个节点的子节点数q(ti,j)。关键是确保V(或超过V的某个百分比)中的所有视频标题出现在标签树的叶子节点中,以满足覆盖的期望。由于所述标签树的每条边代表了一次移动到可缩放用户界面的下一层级的用户选择,因此可以获得代表与V中的每个标题的预期用户交互次数最少的标签树。计算V中每个标题的预期用户交互次数E的最小值的方法如下:
如果|vi,j|≤U
其中Z是T中叶子节点的总数,L表示所有叶子节点到根节点的总距离。所述标签树的总距离是从所述标签树中的根节点到所有节点的距离之和。因此,
如果|vi,j|≤U
在部分实施例中,当基于所述标签的所述分层结构构建所述标签树时,可以计算每个标签树的总距离惩罚D。基于用户兴趣建模和用户体验创建者的输入,标签-关系图(例如,动画/现场标签选择优先于背景标签选择)可用于在所述标签树形成过程期间引导所述标签的选择。需要使用标签-关系图检查所述级联标签树的每对连接节点(其中上层标签被视为高优先级标签)以计算总距离惩罚D。
其中ti,j和ti+1,j'是最终选择的级联标签树中相邻级别的标签节点,如果所述标签-关系图与所述标签树中的顺序之间存在冲突,则d=1(否则默认为d=0)。因此,D的值越大代表所述标签树的冲突越大,也就代表所受到的惩罚也大。如果在优化过程中对D加以限制将可引导最终的标签树与用户所期望的标签-关系图有较高的吻合度。
在部分实施例中,所形成的标签树可以不覆盖G中的所有标签,并且不是所有与视频标题相关的标签都沿着从所述标签树中的所述根节点到所述叶子节点的路径放置。覆盖期望值C是所述视频组中所述视频标题出现在所述标签树的所述叶子节点中的百分比。对于特定节点ti,j,具有选定的q(ti,j)个子节点数ti+1,j1,...,ti+1,jq,所述特定节点的覆盖期望值C(ti,j)可以计算为:
标签分配优化问题(即为所述可缩放用户界面形成最佳层级标签树,将定位至视频标题的用户交互次数最小化)被公式化为:使L最小化,使得D≤D阈值,且对于所有ti,j都有C(ti,j)≤C阈值,其中C阈值和D阈值用于控制体验期望。
当对用户偏好和覆盖进行约束时,可以找到具有最小总距离(其代表用户交互频率和效率)的最佳级联标签树T。在优化过程中计算所述标签树T中每个潜在节点ti,j的参数p,g(ti,j)和q(ti,j)。因此,L的等式可以被重写为优化函数g和q之后节点T0的总距离的结果,如下:
并且它可以进一步导出为递归函数的格式,如下所示:
上式可以简化为:
应当注意,上述函数L()取决于从根到当前节点ti,ji的路径中的节点的选择。
类似地,用于计算总距离惩罚D的等式可以表示为:
此外,可以用拉格朗日乘数法放宽用于优化问题的用户偏好约束,使L最小化。用拉格朗日松弛法产生凸包逼近。设W是所有可能的决策向量的集合wt={[g(ti,j),q(ti,j)]}。拉格朗日代价函数可以定义为:Jλ(w)=L+λD,其中λ是拉格朗日乘数。可以推导出,如果存在λ*使得并导致D=D阈值,那么w*也是最小化L的最优解,其中假设覆盖检查条件(例如与C(ti,j)相关)也满足(在允许的矢量选择过程中,不能满足约束的那些将被舍弃)。
对于所述标签树中的第i级的节点,拉格朗日代价函数可以进一步表示为:如上所述,由于L()的依赖性,{wi}的选择取决于从根节点到当前节点的路径中的节点。在某些情况下,如果所述标签树中的节点随着标签树的层级增长而增长,并且最终使搜索空间达到指数级别的大小,则需引起关注。应该注意的是,这种情况不太可能发生,因为超过99%的所述标签树中的所述节点的准入条件需要满足可以理解的是,所述标签树每降低一个层级,在筛选过程中就会额外增加一标签,这导致满足要求的视频标题减少,并且最终使一节点变为叶子节点(当UI容量U还未填满时)。
再次参见图2,在步骤205中,在获取或优化了标签树的总距离的最小值之后,在电视上显示可缩放用户界面。
本申请的实施例还公开了一种制作电视上(TV)的可缩放用户界面的系统。如图10所示,所述电视系统包括显示可缩放用户界面的电视机1001。所述电视机1001包括处理器1002和耦合到处理器1002的存储器1003。此外,多个程序单元存储在存储器1003中,所述多个程序单元由处理器1002执行,以显示可缩放用户界面。
所述多个程序单元包括分配单元,结构构建单元,标签树构建单元,计算单元和显示单元。用所述分配单元将多个标签分配给视频标题,并收集视频组中的多个视频标题的标签。所述结构构建单元用于根据所述标签的关系构建标签-关系图,其中所述标签-关系图表现所述视频组中所述标签的分层结构,所述分层结构中的后代节点包括所述分层结构中的祖先节点的所有标签。所述标签树构建单元用于根据所述标签的所述分层结构构建多个标签树,其中每个标签树与所述可缩放用户界面的树层级p,标签号g和簇号q相对应。所述计算单元用于计算各标签树的总距离,其中所述标签树的总距离是从标签树的根节点到所有节点的距离的总和。所述显示单元用于在电视机上显示可缩放用户界面,所述可缩放用户界面的所述标签树的总距离为最小值。
所述多个程序单元还包括第一计算单元,第二计算单元和第三计算单元,其中,所述第一计算单元用于计算各标签树的总距离L,其中所述总距离L是从标签树中的根节点到所有节点的距离之和。所述第二计算单元用于计算各标签树的总距离惩罚D,其中所述标签树的所述总距离惩罚D是多个距离惩罚d的总和,当所述标签-关系图和所述标签树中的顺序之间存在冲突时d为1,当所述标签-关系图和所述标签树中的顺序之间没有冲突时d为0,并且所述总距离惩罚D小于或等于预定义的总距离惩罚阈值。所述第三计算单元用于计算各标签树的覆盖期望值C,其中,所述覆盖期望值C是所述视频组的多个视频标题出现在所述标签树的多个叶子节点中的百分比,并且所述覆盖期望值C小于或等于预定义的覆盖期望阈值。
在本申请的一个实施例中,所述视频标题的标签可以与所述海报很好地匹配,使得它们可以在用户的可缩放用户界面导航过程期间在视觉上很好地表现视频。因此,所述分配单元还可以用于获取所述视频标题的海报;识别海报中的前景物体,背景场景,表达感知和关系指示;并基于所述海报中的前景对象,背景场景,表现感知和关系指示,将多个视觉标签分配给所述视频标题。
在本申请的另一实施例中,所述视频标题的海报可能不足以表现视频内容。例如,如果在所述海报上显示一组动物,则不清楚哪一个是主要角色。通过参考视频帧并基于这些角色的出现频率,可以确定主要角色。
因此,所述分配单元还可以用于获取所述视频标题的多个视频帧;计算多个视频帧中的多个角色的出现频率;根据出现频率确定所述视频标题中的主角;并且基于所确定的主要角色将多个视觉标签分配给所述视频标题。
在另一实施例中,所述结构构建单元还可以用于获取所述视频组中各视频标题的视频内容;并且构建表现分层结构的标签-关系图,包括前景对象,背景场景,表达感知和关系指示。
图11所示为使用167个标签标记大约1000个影片的标题集的示例。结果表明,当达到所述标签树中的一定深度(例如,层级3)时,非叶子节点的可接受选项开始快速减少,这意味着在递归函数和代价函数的重量级计算中只涉及少量选项。这同样表明,该优化方案的计算要求将是多项式级别的问题而不是指数级别的问题。因此,可以通过逐步地从最低级别到根级递归地找到每个级别中的所有节点的w来解所述拉格朗日代价函数。
在本申请的另一个实施例中,使用以下设置来部署系统:一具有嵌入式系统的智能电视;一指示装置(如魔术棒),通过可缩放用户界面唤醒儿童频道;还可以指向TV(使用其IR组件)来选择用于播放的标题,或者放大/缩小可缩放用户界面的当前视图。曾对该系统的体验进行了一次测试,共有20个孩子分为4个年龄组参与其中,大多数孩子能够非常快速地掌握这种新的用户体验模型,并在没有帮助的情况下实现目标。
另一方面,使用大量诸如“动物”,“动画”和“超级英雄”的视频组对前述最优解决方案进行了测试。如图12所示,L和C之间的关系对于所有视频组都是非常一致的。当对覆盖范围的约束变得松散时,总距离(或用户交互)可能更短。从另一个角度来看,L和D之间的关系如图13所示。
本公开提出了用于TV上的可缩放用户界面的新应用。所述可缩放用户界面可以显著增强用于电视使用的用户体验模型,尤其是对于儿童这一直接的目标群体。通过操作仅含有3个控制按钮的指示设备:选择/播放,放大和缩小,儿童可以轻松掌握这种新体验。通过优化和形成级联的可视标签树,可以自动生成TV用户界面的可缩放用户界面,所述级联的可视标签树甚至可以针对大量的视频标题进行扩展。深度学习的进步也有助于生成视觉标签。
考虑到本发明公开的说明书和实施例,本发明的其他实施方案对于本领域技术人员而言是显而易见的。需要说明的是,说明书和实施例仅被认为是示例性的,本发明的真实范围和精神由权利要求指出。
Claims (20)
1.一种用于制作可缩放用户界面的方法,其特征在于,包括:
将标签分配给视频标题;
收集视频组的所述视频标题的所述标签;
基于所述标签的关系构建标签-关系图,其中所述标签-关系图代表所述视频组中所述标签的分层结构,所述分层结构中的后代节点包括所述分层结构中的祖先节点的所有标签;
基于所述标签的所述分层结构构建标签树,所述标签树中的每个节点对应于至少一个所述视频标题;
在多个所述标签树中,确定总距离为最小值的标签树;以及
根据所述视频标题相对应的节点的位置,在所述可缩放用户界面中显示所述视频标题,其中,所述节点是在已确定的所述标签树中的节点。
2.根据权利要求1所述的一种用于制作可缩放用户界面的方法,其特征在于,在基于所述标签的所述分层结构构建所述标签树之后,还包括:
计算所述标签树的总距离L,其中所述总距离L是从所述标签树中的根节点到所有节点的距离之和。
3.根据权利要求1所述的一种用于制作可缩放用户界面的方法,其特征在于,在基于所述标签的所述分层结构构建所述标签树之后,还包括:
计算所述标签树的总距离惩罚D,其中所述标签树的所述总距离惩罚D是多个距离惩罚d之和,其中,当所述标签-关系图与所述标签树中的顺序之间存在冲突时,d为1,而当所述标签-关系图与所述标签树中的顺序之间没有冲突,则d为0,并且所述总距离惩罚D小于或等于预定义的总距离惩罚阈值。
4.根据权利要求1所述的一种用于制作可缩放用户界面的方法,其特征在于,在基于所述标签的所述分层结构构建所述多个标签树之后,还包括:
计算所述标签树的覆盖期望值C,其中,所述覆盖期望值C是所述视频组的所述视频标题出现在所述标签树的叶子节点中的百分比,并且所述覆盖期望值C小于或等于预定义的覆盖期望阈值。
5.根据权利要求1所述的一种用于制作可缩放用户界面的方法,其特征在于,所述视频标题的所述标签包括多个视觉标签和多个非视觉标签。
6.根据权利要求5所述的一种用于制作可缩放用户界面的方法,其特征在于,所述的将所述标签分配给所述视频标题的步骤包括:
获得所述视频标题的海报;
识别所述海报中的前景物体,背景场景,表达感知和关系指示;以及
基于所述海报中的所述前景对象,所述背景场景,所述表达感知和所述关系指示,将视觉标签分配给所述视频标题。
7.根据权利要求5所述的一种用于制作可缩放用户界面的方法,其特征在于,所述的将所述标签分配给所述视频标题的步骤包括:
获得所述视频标题的视频帧;
计算所述视频帧中的角色的出现频率;
根据所述出现频率确定所述视频标题中的主角;以及
基于已确定的所述主角,将所述视觉标签分配给所述视频标题。
8.根据权利要求1所述的一种用于制作可缩放用户界面的方法,其特征在于,所述的基于所述标签的关系构建所述标签-关系图的步骤包括:
获取所述视频组的所述视频标题的视频内容;
构建表现所述分层结构的所述标签-关系图,包括前景对象,背景场景,表达感知和关系指示。
9.根据权利要求8所述的一种用于制作可缩放用户界面的方法,其特征在于,基于所述视频标题的海报来获得所述视频内容;或者基于所述视频标题中的多个视频帧中角色的出现频率获得所述视频内容。
10.根据权利要求3所述的一种用于制作可缩放用户界面的方法,其特征在于,通过以下公式计算各所述标签树的所述总距离惩罚D:
其中节点ti,j表示所述标签树的第i级的第j个节点,ti,j和ti+1,j'表示所述标签树中相邻级别的两个标签节点。
11.一种用于制作可缩放用户界面的系统,其特征在于,包括:
一显示可缩放用户界面的电视机,所述电视机包括:
处理器;
耦合在所述处理器上的存储器;以及
存储在所述存储器中的多个程序单元,所述多个程序单元由所述处理器执行,以显示所述可缩放用户界面,所述多个程序单元包括:
分配单元,用于将多个标签分配给视频标题,并收集视频组中多个视频标题的标签;
结构构建单元,用于根据所述标签的关系构建标签-关系图,其中,所述标签-关系图表现所述视频组中所述标签的分层结构,所述分层结构中的后代节点包括所述分层结构中的祖先节点的所有标签;
标签树构建单元,用于根据所述标签的所述分层结构来构建多个标签树;以及
显示单元,用于在所述电视机上显示所述可缩放用户界面,所述可缩放用户界面的所述标签树的总距离为最小值。
12.根据权利要求11所述的一种用于制作可缩放用户界面的系统,其特征在于,所述多个程序单元还包括:
第一计算单元,用于计算各标签树的总距离L,其中所述总距离L是从标签树中的根节点到所有节点的距离之和。
13.根据权利要求11所述的一种用于制作可缩放用户界面的系统,其特征在于,所述多个程序单元还包括:
第二计算单元,用于计算各标签树的总距离惩罚D,其中所述标签树的所述总距离惩罚D是多个距离惩罚d的总和,当所述标签-关系图和所述标签树中的顺序之间存在冲突时d为1,当所述标签-关系图和所述标签树中的顺序之间没有冲突时d为0,并且所述总距离惩罚D小于或等于预定义的总距离惩罚阈值。
14.根据权利要求11所述的一种用于制作可缩放用户界面的系统,其特征在于,所述多个程序单元还包括:
第三计算单元,用于计算各标签树的覆盖期望值C,其中,所述覆盖期望值C是所述视频组的多个所述视频标题出现在所述标签树的多个叶子节点中的百分比,并且所述覆盖期望值C小于或等于预定义的覆盖期望阈值。
15.根据权利要求11所述的一种用于制作可缩放用户界面的系统,其特征在于,所述视频标题的多个标签包括多个视觉标签和多个非视觉标签。
16.根据权利要求15所述的一种用于制作可缩放用户界面的系统,其特征在于,所述分配单元还用于:
获得所述视频标题的海报;
识别所述海报中的前景物体,背景场景,表达感知和关系指示;以及
基于所述海报中的所述前景对象,所述背景场景,所述表达感知和所述关系指示,将多个所述视觉标签分配给所述视频标题。
17.根据权利要求15所述的一种用于制作可缩放用户界面的系统,其特征在于,所述分配单元还用于:
获得所述视频标题的多个视频帧;
计算多个所述视频帧中的多个角色的出现频率;
根据所述出现频率确定所述视频标题中的主角;以及
基于所述确定的主角将多个视觉标签分配给所述视频标题。
18.根据权利要求11所述的一种用于制作可缩放用户界面的系统,其特征在于,所述结构构建单元还用于:
获取所述视频组的各所述视频标题的视频内容;
构建表现所述分层结构的所述标签-关系图,包括前景对象,背景场景,表达感知和关系指示。
19.根据权利要求18所述的一种用于制作可缩放用户界面的系统,其特征在于,基于各所述视频标题的海报获得所述视频内容;或者基于各所述视频标题中的多个视频帧中角色的出现频率获得所述视频内容。
20.根据权利要求13所述的一种用于制作可缩放用户界面的系统,其特征在于,各所述标签树的所述总距离惩罚D通过以下公式计算:
其中节点ti,j表示标签树的第i级的第j个节点,ti,j和ti+1,j'表示所述标签树中相邻级别的两个标签节点。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/921,182 US10860649B2 (en) | 2018-03-14 | 2018-03-14 | Zoomable user interface for TV |
US15/921,182 | 2018-03-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110275744A true CN110275744A (zh) | 2019-09-24 |
CN110275744B CN110275744B (zh) | 2021-11-23 |
Family
ID=67905705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910190594.XA Active CN110275744B (zh) | 2018-03-14 | 2019-03-13 | 一种用于制作可缩放用户界面的方法及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10860649B2 (zh) |
CN (1) | CN110275744B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112399262A (zh) * | 2020-10-30 | 2021-02-23 | 深圳Tcl新技术有限公司 | 视频搜索方法、电视及存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553507B (zh) * | 2021-07-26 | 2024-06-18 | 北京字跳网络技术有限公司 | 基于兴趣标签的处理方法、装置、设备及存储介质 |
US11711573B1 (en) | 2022-04-22 | 2023-07-25 | TCL Research America Inc. | 1-click reversible story |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1784647A (zh) * | 2003-05-08 | 2006-06-07 | 希尔克瑞斯特实验室公司 | 用于组织、选择和启动媒体项的带有可缩放的图形用户界面的控制架构 |
CN101089853A (zh) * | 2006-06-15 | 2007-12-19 | 三星电子株式会社 | 用于浏览内容的设备和方法 |
US20090164946A1 (en) * | 2007-12-20 | 2009-06-25 | Canon Kabushiki Kaisha | Hierarchical tag based browsing of media collections |
CN102750372A (zh) * | 2012-06-15 | 2012-10-24 | 翁时锋 | 自动获取网页结构化信息的分析方法 |
EP2759129A1 (en) * | 2011-09-22 | 2014-07-30 | TCL Research America Inc. | Least click tv |
CN104036023A (zh) * | 2014-06-26 | 2014-09-10 | 福州大学 | 一种融合上下文的树形视频语义索引建立方法 |
US20150220492A1 (en) * | 2013-02-22 | 2015-08-06 | Swoop Inc. | Systems and methods for integrating dynamic content into electronic media |
CN105912682A (zh) * | 2016-04-14 | 2016-08-31 | 乐视控股(北京)有限公司 | 一种视频分类标签的生成方法和装置 |
CN105956206A (zh) * | 2016-07-04 | 2016-09-21 | Tcl集团股份有限公司 | 一种基于关键词树的视频检索方法及系统 |
CN107402977A (zh) * | 2017-07-03 | 2017-11-28 | 天脉聚源(北京)传媒科技有限公司 | 建立视频资源分类树的方法和装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6317750B1 (en) * | 1998-10-26 | 2001-11-13 | Hyperion Solutions Corporation | Method and apparatus for accessing multidimensional data |
US20010030667A1 (en) * | 2000-04-10 | 2001-10-18 | Kelts Brett R. | Interactive display interface for information objects |
US20030126600A1 (en) * | 2001-12-27 | 2003-07-03 | Koninklijke Philips Electronics N.V. | Smart suggestions for upcoming TV programs |
US8601396B2 (en) * | 2003-05-08 | 2013-12-03 | Hillcrest Laboratories, Inc. | Systems and methods for node tracking and notification in a control framework including a zoomable graphical user interface |
US7707503B2 (en) * | 2003-12-22 | 2010-04-27 | Palo Alto Research Center Incorporated | Methods and systems for supporting presentation tools using zoomable user interface |
US8103646B2 (en) * | 2007-03-13 | 2012-01-24 | Microsoft Corporation | Automatic tagging of content based on a corpus of previously tagged and untagged content |
US9100716B2 (en) * | 2008-01-07 | 2015-08-04 | Hillcrest Laboratories, Inc. | Augmenting client-server architectures and methods with personal computers to support media applications |
US20090193356A1 (en) * | 2008-01-28 | 2009-07-30 | Immersion Digital Llc | Systems and methods for providing a zoomable user interface |
US8306987B2 (en) * | 2008-04-03 | 2012-11-06 | Ofer Ber | System and method for matching search requests and relevant data |
US20100229115A1 (en) * | 2009-03-05 | 2010-09-09 | Microsoft Corporation | Zoomable user interface data generation |
US8869211B2 (en) * | 2012-10-30 | 2014-10-21 | TCL Research America Inc. | Zoomable content recommendation system |
-
2018
- 2018-03-14 US US15/921,182 patent/US10860649B2/en active Active
-
2019
- 2019-03-13 CN CN201910190594.XA patent/CN110275744B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1784647A (zh) * | 2003-05-08 | 2006-06-07 | 希尔克瑞斯特实验室公司 | 用于组织、选择和启动媒体项的带有可缩放的图形用户界面的控制架构 |
CN101089853A (zh) * | 2006-06-15 | 2007-12-19 | 三星电子株式会社 | 用于浏览内容的设备和方法 |
US20090164946A1 (en) * | 2007-12-20 | 2009-06-25 | Canon Kabushiki Kaisha | Hierarchical tag based browsing of media collections |
EP2759129A1 (en) * | 2011-09-22 | 2014-07-30 | TCL Research America Inc. | Least click tv |
CN102750372A (zh) * | 2012-06-15 | 2012-10-24 | 翁时锋 | 自动获取网页结构化信息的分析方法 |
US20150220492A1 (en) * | 2013-02-22 | 2015-08-06 | Swoop Inc. | Systems and methods for integrating dynamic content into electronic media |
CN104036023A (zh) * | 2014-06-26 | 2014-09-10 | 福州大学 | 一种融合上下文的树形视频语义索引建立方法 |
CN105912682A (zh) * | 2016-04-14 | 2016-08-31 | 乐视控股(北京)有限公司 | 一种视频分类标签的生成方法和装置 |
CN105956206A (zh) * | 2016-07-04 | 2016-09-21 | Tcl集团股份有限公司 | 一种基于关键词树的视频检索方法及系统 |
CN107402977A (zh) * | 2017-07-03 | 2017-11-28 | 天脉聚源(北京)传媒科技有限公司 | 建立视频资源分类树的方法和装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112399262A (zh) * | 2020-10-30 | 2021-02-23 | 深圳Tcl新技术有限公司 | 视频搜索方法、电视及存储介质 |
CN112399262B (zh) * | 2020-10-30 | 2024-02-06 | 深圳Tcl新技术有限公司 | 视频搜索方法、电视及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20190286744A1 (en) | 2019-09-19 |
US10860649B2 (en) | 2020-12-08 |
CN110275744B (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Patterson et al. | The sun attribute database: Beyond categories for deeper scene understanding | |
Gao et al. | Room-and-object aware knowledge reasoning for remote embodied referring expression | |
Zhu et al. | Building a large-scale multimodal knowledge base system for answering visual queries | |
Jin et al. | Aligning where to see and what to tell: image caption with region-based attention and scene factorization | |
Shrivastava et al. | Constrained semi-supervised learning using attributes and comparative attributes | |
US20110188742A1 (en) | Recommending user image to social network groups | |
CN110275744A (zh) | 一种用于制作可缩放用户界面的方法及系统 | |
Liu et al. | Eagle-eyed multitask CNNs for aerial image retrieval and scene classification | |
Habibian et al. | Recommendations for recognizing video events by concept vocabularies | |
Ni et al. | Composition-guided neural network for image cropping aesthetic assessment | |
Zheng et al. | Personalized tag recommendation based on convolution feature and weighted random walk | |
Rao et al. | Deep learning-based image retrieval system with clustering on attention-based representations | |
Mallepudi et al. | Material classification and automatic content enrichment of images using supervised learning and knowledge bases | |
Kervadec | Bias and reasoning in visual question answering | |
Zhang | Vision to keywords: Automatic image annotation by filling the semantic gap | |
CN117156078B (zh) | 一种视频数据处理方法、装置、电子设备及存储介质 | |
Nwogu et al. | Disco: Describing images using scene contexts and objects | |
Feng | Connecting perception with cognition for deep representations learning | |
Bojanowski | Learning to annotate dynamic video scenes | |
Salvador Aguilera | Computer Vision beyond the visible: Image understanding through language | |
Ye | Large-Scale Video Event Detection | |
Belkhatir | A three-level architecture for bridging the image semantic gap | |
Rai | Inferring landscape preferences from social media using data science techniques | |
Xiong | Cross Modality Analytics for Video Understanding | |
Shaurya et al. | Image Captioning based on Artificial Intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 516006 TCL science and technology building, No. 17, Huifeng Third Road, Zhongkai high tech Zone, Huizhou City, Guangdong Province Applicant after: TCL Technology Group Co.,Ltd. Address before: 516006 Guangdong province Huizhou Zhongkai hi tech Development Zone No. nineteen District Applicant before: TCL Corp. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |