CN109923539B

CN109923539B - 识别具有特定音频内容的视听媒体项

Info

Publication number: CN109923539B
Application number: CN201780069324.2A
Authority: CN
Inventors: 维托尔·塞萨克; 克里斯蒂安·魏滕伯纳
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-11-10
Filing date: 2017-09-29
Publication date: 2024-03-08
Anticipated expiration: 2037-09-29
Also published as: US20190324605A1; CN118193787A; US11422677B2; US20210208748A1; US10955997B2; CN118193786A; US20180129370A1; EP3539017A1; WO2018089132A1; CN109923539A; US10345998B2

Abstract

可以在图形用户界面(GUI)的第一区域中向用户提供视频内容项。可以在GUI的第二区域中提供相关视频内容项。可以接收对GUI中提供的控制元素的选择，其中，对控制元素的选择指示用户对包括在所提供的视频内容项中的音频成分感兴趣。响应于接收到对控制元素的选择，可以识别包括在不同视频内容项中的不同版本的音频成分，并且可以修改GUI的第二区域，以与在GUI的第二区域中的相关视频内容项的呈现相比，优先化包括相应不同版本的音频成分的不同视频内容项中的至少一个视频内容项的呈现。

Description

识别具有特定音频内容的视听媒体项

技术领域

本公开涉及视听媒体项(audio-visual media items)领域，并且具体地，涉及识别具有特定音频内容的视听媒体项，例如识别具有与参考视听媒体项相同或相似的音频内容的视听媒体项。

背景技术

在许多情况下，可能期望从存储的视听媒体项库中识别和/或检索具有与参考视听媒体项相同或相似的音频内容的一个或多个视听媒体项。例如，可能已经向用户提供了第一视听媒体项，并且用户现在希望识别具有与第一视听媒体项相同或相似的音频内容的其他视听媒体项。

发明内容

下文是本公开的简化概述以便提供对本公开的一些方面的基本理解。此概述不是本公开的广泛概要。它既不旨在识别本公开的关键或决定性要素，也不旨在界定本公开的特定实施方式的任何范围或权利要求的任何范围。其唯一目的是为了以简化形式呈现本公开的一些构思作为稍后呈现的更详细描述的序言。

本公开的实施方式可以包括一种方法，用于在图形用户界面(GUI)的第一区域中向用户提供视频内容项，以及在在GUI的第二区域中提供与所提供的视频内容项相关的视频内容项。可以接收在GUI中提供的并且与所提供的视频内容项相关联的控制元素的选择，其中，控制元素的选择指示用户对包括在所提供的视频内容项中的音频成分感兴趣。响应于接收到控制元素的选择，可以识别包括在不同视频内容项中的不同版本的音频成分；以及可以修改GUI的第二区域，以与在GUI的第二区域中的相关视频内容项的呈现相比优先化包括相应不同版本的音频成分的所述不同视频内容项中的至少一个视频内容项的呈现。

在一些实施方式中，该方法可以包括在GUI的第二区域中的相关视频内容项的呈现之前，提供包括相应不同版本的音频成分的所述不同视频内容项中的至少一个视频内容项来修改GUI的第二区域的呈现。

在一些实施方式中，该方法可以进一步基于包括在所述不同视频内容项中的至少一个视频内容项中的相应不同版本的音频成分来确定对所述不同视频内容项中的至少一个视频内容项的分类，其中，修改GUI的第二区域基于对所述不同视频内容项中的至少一个视频内容项的分类。

在一些实施方式中，该方法可以进一步识别对应于与观看视频内容项相关联的一个或多个类别的用户特征，其中，修改GUI的第二区域进一步基于用户的特征。

在一些实施方式中，为识别包括在不同视频内容项中的不同版本的音频成分，该方法可以进一步识别包括在所述不同视频内容项中的至少一个视频内容项中的相应不同版本的音频成分与包括在所提供的视频内容项中的音频成分之间的音频相似性。

在一些实施方式中，音频相似性对应于用在相应不同版本的音频成分和包括在所提供的视频内容项中的音频成分的每一个中的类似词和/或短语。

在一些实施方式中，为识别包括在不同视频内容项中的不同版本的音频成分，该方法可以进一步接收与包括相应不同版本的音频成分的所述不同视频内容项中的至少一个视频内容项相关联的一个或多个关键字，以及识别一个或多个关键字与指示所述不同视频内容项中的至少一个视频内容项的分类的另一关键字之间的匹配。

在一些实施方式中，可以执行存储指令的非瞬时性机器可读存储介质以使得处理设备执行操作，诸如在图形用户界面(GUI)的第一区域中向用户提供视频内容项；在GUI的第二区域中提供与所提供的视频内容项相关的视频内容项；接收用户对包括在所提供的视频内容项中的音频成分感兴趣的指示；以及响应于接收到指示，识别包括在不同视频内容项中的不同版本的音频成分；以及修改GUI的第二区域，以与在GUI的第二区域中相关视频内容项的呈现相比优先化包括相应不同版本的音频成分的所述不同视频内容项中的至少一个视频内容项的呈现。

本公开的其他实施方式可以包括存储指令的机器可读存储介质(其可以是非瞬时性机器可读存储介质，但是本发明不限于此)，该指令在由处理设备执行时，使得处理设备执行包括根据本文描述的任何实施方式的方法的操作。

在一些实施方式中，一种系统可以包括存储器；以及与存储器耦合的处理设备。处理设备可以在图形用户界面(GUI)的第一区域中向用户提供视频内容项；在GUI的第二区域中提供与所提供的视频内容项相关的视频内容项；接收在GUI中提供的并且与所提供的视频内容项相关联的控制元素的选择，控制元素的选择指示用户对包括在所提供的视频内容项中的音频成分感兴趣；以及响应于接收控制元素的选择，识别包括在不同视频内容项中的不同版本的音频成分；以及修改GUI的第二区域，以与在GUI的第二区域中的相关视频内容项的呈现相比优先化包括相应不同版本的音频成分的所述不同视频内容项中的至少一个视频内容项的呈现。

附图说明

在附图的图中，本公开作为示例而不作为限制被图示。

图1示出本公开的实施方式可以操作的示例性系统架构。

图2是根据本公开的一些实施方式，用于优先化具有不同版本的音频成分的视频内容项的呈现的示例性内容项推荐器组件。

图3是根据一些实施方式，修改图形用户界面以优先化具有不同版本的音频成分的视频内容项的呈现的示例性方法的流程图。

图4A示出了根据本公开的一些实施方式，在图形用户界面中提供视频内容项的示例性图形用户界面。

图4B示出了根据本公开的一些实施方式，已被修改以提供具有不同版本的音频成分的不同视频内容项的示例性图形用户界面。

图5是根据一些实施方式，基于不同视频内容项的分类和用户的特征来提供具有不同版本的音频成分的不同视频内容项的示例性方法的流程图。

图6示出本公开的一些实施方式可以操作的计算机系统的实施方式的框图。

具体实施方式

本公开的各方面涉及基于特定内容项的音频内容来识别不同的视听内容项。内容共享平台可以提供可以由内容共享平台的用户访问和观看的多个视频内容项(例如，视频)。作为示例，视频内容项可以是包括在视频内容项中播放的特定歌曲的音乐视频——即，视频内容项包括表示视频的音频部分的音频成分，诸如歌曲录音(例如，歌曲或歌剧选曲的表演)等。视频内容共享平台可以向用户提供特定视频内容项。还可以向用户提供与用户可以观看的特定视频内容项相关的其他视频内容项的推荐。因此，内容共享平台可以向内容共享平台的用户提供包括特定音频成分的视频内容项。

内容共享平台可以为用户提供推荐，以观看与所提供的视频内容项相关的视频内容项。相关视频内容项可以包括与提供的视频内容项中所包括的音频内容相关的音频内容。例如，相关音频内容可以包括其他版本的歌曲，诸如来自相同艺术家或歌手或者表演所提供的视频内容项中的作品(音频内容)的类似艺术家或歌手的歌曲的不同录音。

内容共享平台的用户可能希望进一步探索包括在所提供的视频内容项中的特定音频成分。例如，用户可能对特定音频成分感兴趣并且想要收听不同版本的音频成分(例如，表演相同歌词或音乐作品的不同艺术家或歌手)。然而，提供对具有不同音频成分的相关视频内容项的推荐可能不便于探索包括在所提供的视频内容项中的音频成分，因为相关视频内容项可能包括具有不同音乐作品或歌曲的完全不同的音频成分。在向用户推荐或提供这样的视频内容项的情况下，用于识别和向用户推荐和/或提供视频内容项所花费的网络资源被浪费。

本公开的各方面通过识别包括不同版本的音频成分的相关视频内容项来解决上述和其他缺陷。例如，每个相关视频内容项可以包括提供给用户的视频内容项中的不同版本的音频成分。作为示例，在所提供的视频内容项包括音乐作品或歌曲的情况下，不同版本的音频成分可以对应于包括在所提供的视频内容项中的音乐作品或歌曲的不同表演。不同视频内容项的推荐可以基于在图形用户界面中优先化包括不同版本的音频成分的视频内容项的呈现。因此，本公开的各方面提供了用于识别具有与第一视听媒体项相同或相似的音频内容的其他视听媒体项的资源有效过程。

例如，图形用户界面可以包括提供具有音频成分的视频内容项的第一区域。图形用户界面可以进一步包括第二区域，该第二区域包括与在图形用户界面的第一区域中提供的视频内容项相关的视频内容项。响应于用户对所提供的视频内容项的音频成分感兴趣的指示，可以识别包括在不同视频内容项中的不同版本的音频成分(例如，相同音乐作品的不同表演)。随后，可以修改图形用户界面的第二区域，以与在图形用户界面的第二区域中的相关视频内容项的呈现相比，优先化包括不同版本的音频成分的至少一个不同视频内容项的呈现。例如，可以在第二区域的顶部中或者在第二区域中提供任何相关视频内容项之前，提供具有不同版本的音频成分的一个或多个不同视频内容项。在一些实施方式中，不同视频内容项的呈现可以与高亮或将不同视频内容项的呈现与相关视频内容项区分开来的其他视觉特征相关联。

不同视频内容项的呈现可以基于用户的特征和不同视频内容项的分类。将参考不同视频内容项可以包括诸如歌曲录音的不同版本的音频成分的示例来描述本公开的实施方式。可以基于不同版本的音频成分的类型对每个不同的视频内容项进行分类。例如，不同的视频内容项可以被分类为与音频成分的翻唱歌曲版本(例如，演唱歌曲的歌词的不同艺术家或表演者或者曲调或旋律的不同表演)、粉丝歌曲版本(例如，演唱歌曲的歌词的内容共享平台的另一个用户)、现场歌曲版本(例如，在现场表演环境中演唱歌曲的歌词的同一艺术家或表演者)等相关联。优先化不同视频内容项的呈现可以基于用户与其他视频内容项的交互。例如，如果用户更喜欢或更频繁地观看包括音频成分的粉丝歌曲版本的不同视频内容项，则分类为粉丝歌曲版本的不同视频内容项可以优先于呈现与不同分类相关联的另一视频内容项。

因此，本公开的各方面可以推荐包括被包括在另一视频内容项的不同版本的音频成分的不同视频内容项(例如，歌曲的不同表演)，以帮助用户进一步探索对音频成分的兴趣。以方便且用户友好的方式提供不同视频内容项的推荐，其允许用户指示他或她对不同版本的音频成分的兴趣，然后提供与其他相关视频内容项相比优先化这些不同版本的呈现，从而消除了用户滚动多个相关视频内容项并且确定那些相关视频内容项的哪一些包括所需版本的音频成分的需要。这提供了使用内容共享平台的更资源有效的方法(并且还使得内容共享平台更方便和易于使用)。

此外，如上所述，本技术可以对标注录音的属性的音乐视频和音乐内容的版本进行分类。录音的属性可以确定视频是否包含相同的歌曲或类似的发声但是歌曲的不同版本。此外，当视频包含不同版本的歌曲时，本技术可以按版本类型(例如，原始版本(工作室专辑版本)、现场表演版本、视觉歌词版本、混音版本、翻唱版本等)对这些版本进行分类。这种分类可以被用于教育相关的应用(例如，教育表演艺术家和录音机构关于录音的不同属性以及它们如何影响录音内容的质量)。本技术还可以使包含录音的视频与谈论录音的非音乐视频(例如，录制视频的制作、来自艺术家的关于歌曲的含义的编辑等)相关，这也可以用于教育相关的应用，以及用于推荐系统。

图1示出依照本公开的一个实施方式的示例性系统架构100。系统架构100包括客户端设备110A至110Z、网络105、数据存储106、内容共享平台120、和服务器130。在一个实施方式中，网络105可以包括公用网络(例如，因特网)、专用网络(例如，局域网(LAN)或广域网(WAN))、有线网络(例如，以太网网络)、无线网络(例如，802.11网络或Wi-Fi网络)、蜂窝网络(例如，长期演进(LTE)网络)、路由器、集线器、交换机、服务器计算机、和/或其组合。在一个实施方式中，数据存储106可以是存储器(例如，随机存取存储器)、高速缓存、驱动器(例如，硬盘驱动器)、闪存驱动器、数据库系统、或能够存储数据的其他类型的组件或设备。数据存储106还可以包括也可以横跨多个计算设备(例如，多个服务器计算机)的多个存储组件(例如，多个驱动器或多个数据库)。

客户端设备110A至110Z可以分别包括诸如个人计算机(PC)、膝上型电脑、移动电话、智能电话、平板计算机、连网电视、上网本计算机等的计算设备。在一些实施方式中，客户端设备110A至110Z也可以被称为“用户设备”。每个客户端设备包括媒体观看器111。在一个实施方式中，媒体观看器111可以是允许用户观看诸如图像、视频(例如，视频内容项)、web页面、文档等的内容的应用。例如，媒体观看器111可以是可访问、检索、呈现、和/或导航由web服务器所派发的内容(例如，诸如超文本标记语言(HTML)页面的web页面、数字媒体项或内容项等)的web浏览器。媒体观看器111可以将内容(例如，web页面、媒体观看器)渲染、显示、和/或呈现给用户。媒体观看器111还可以显示被嵌入在web页面(例如，可以提供关于由在线商家所销售的产品的信息的web页面)中的嵌入式媒体播放器(例如，播放器或HTML5播放器)。在另一示例中，媒体观看器111可以是允许用户观看数字媒体内容项(例如，数字视频、数字图像、电子书等)的独立应用。

媒体观看器111可以由服务器130和/或内容共享平台120提供给客户端设备110A至110Z。例如，媒体观看器111可以是被嵌入在由内容共享平台120所提供的web页面中的嵌入式媒体播放器。在另一示例中，媒体观看器111可以是与服务器130进行通信的应用。

一般而言，如果适当的话，还可以在其他实施方式中，在客户端设备110A至110Z上执行在一个实施方式中被描述为由内容共享平台120执行的功能。此外，归因于特定组件的功能性可由一起操作的不同或多个组件执行。内容共享平台120还可作为通过适当的应用编程接口提供给其他系统或设备的服务而被访问，并且因此不限于用在网站中。

在一个实施方式中，内容共享平台120可以是一个或多个计算设备(诸如机架式服务器、路由器计算机、服务器计算机、个人计算机、大型机计算机、膝上型计算机、平板计算机、连网电视、台式计算机等)、数据存储(例如，硬盘、存储器、数据库)、网络、软件组件、和/或可以用于给用户提供对媒体项(也称为内容项)的访问的硬件组件并且/或者将媒体项提供给用户的硬件组件。例如，内容共享平台120可以允许用户消费、上传、搜索、批准(“喜欢”)、不喜欢、和/或评论媒体项。内容共享平台120还可以包括可以用于给用户提供对媒体项的访问的网站(例如，网页)。

在本公开的实施方式中，“用户”可以被表示为单个个体。然而，本公开的其他实施方式包含作为由一组用户控制的实体和/或自动源的“用户”。例如，联合为社交网络中的社区的一组个人用户可以被视为“用户”。在另一示例中，自动化消费者可以是内容共享平台120的自动提取管道，诸如主题频道。

内容共享平台120可以包括多个频道(例如，频道A至Z)。频道可以是可从公共源获得的数据内容或具有公共话题、主题或主旨的数据内容。数据内容可以是由用户选取的数字内容、使其对用户可用的数字内容、由用户上传的数字内容、由内容提供者选取的数字内容、由广播公司选取的数字内容等。例如，频道X可以包括视频Y和Z。频道可以与所有者相关联，该所有者是可对频道执行动作的用户。可以基于所有者的动作——诸如所有者使得数字内容在频道上可用、所有者选择(例如，喜欢)与另一频道相关联的数字内容、所有者对与另一频道相关联的数字内容进行评论等——使不同的活动与频道相关联。可以将与频道相关联的活动收集到频道的活动馈送中。除频道的所有者以外的用户可以订阅他们感兴趣的一个或多个频道。“订阅”的概念也可以被称为“喜欢”、“追随”、“加为好友”等。

一旦用户订阅频道，就可以为用户呈现来自频道的活动馈送的信息。如果用户订阅多个频道，则可以将用户订阅的每个频道的活动馈送组合成联合活动馈送。可以将来自联合活动馈送的信息呈现给用户。频道可以具有它们自己的馈送。例如，当导航到内容共享平台上的频道的主页时，可以在频道主页上显示由该频道产生的馈送项。用户可以具有联合馈送，其是包括至少来自用户订阅的所有频道的内容项的子集的馈送。联合馈送还可以包括来自用户未订阅的频道的内容项。例如，内容共享平台120或其他社交网络可以将推荐的内容项插入到用户的联合馈送中，或者可以在联合馈送中插入与用户的相关连接相关联的内容项。

每个频道可以包括一个或多个媒体项121(即，内容项或视频内容项)。媒体项121的示例可以包括但不限于数字视频、数字电影、数字照片、数字音乐、网站内容、社交媒体更新、电子书(ebook)、电子杂志、数字报纸、数字音频书、电子期刊、web博客、简易信息聚合(RSS)馈送、电子漫画书、软件应用等。在一些实施方式中，媒体项121也被称为视频内容项。

可以经由因特网和/或经由移动设备应用消费媒体项121。为了简洁和简单，在线视频(在下文中也称为视频内容项)在此整个文档中被用作为媒体项121的示例。如本文中所使用的，“媒体”、“媒体项”、“在线媒体项”、“数字媒体”、“数字媒体项”、“内容”、“内容项”、和“视频内容项”可以包括可以使用被配置成向实体呈现数字媒体项的软件、固件或硬件来执行或者加载的电子文件。在一个实施方式中，内容共享平台120可以使用数据存储106来存储媒体项121。

在一个实施方式中，服务器130可以是一个或多个计算设备(例如，机架式服务器、服务器计算机等)。服务器130可以被包括在内容共享平台120中或者是不同系统的一部分。服务器130可以托管内容项推荐器200，该内容项推荐器200识别包括另一视频内容项中所包括的不同版本的音频成分的不同视频内容项。例如，可以向内容共享平台120的用户提供呈现第一视频内容项的图形用户界面。可以识别由内容共享平台200托管并且包括所提供的视频内容项中包括的不同版本的音频成分的不同视频内容项。然后可以修改图形用户界面以与其他视频内容项相比优先化不同视频内容项的呈现。结合图2公开了关于内容项推荐器200的进一步细节。

尽管在内容共享平台和促进内容项在内容共享平台上的社交网络共享方面讨论本公开的实施方式，然而实现方式也可以被一般地应用于在用户之间提供连接的任何类型的社交网络。本公开的实施方式不限于向用户提供频道订阅的内容共享平台。

在此讨论的系统收集关于用户的个人信息或者可以利用个人信息的情形下，可以给用户提供控制内容共享平台120是否收集用户信息(例如，关于用户的社交网络、社交动作或活动、职业、用户的偏好、用户的购买交易历史、或用户的当前位置的信息)或者控制是否和/或如何从内容服务器接收可能与用户更相关的内容的机会。此外，某些数据可以在它被存储或者使用之前被以一个或多个方式处理，使得个人可识别的信息被移除。例如，可以处理用户的身份，使得对用户来说不能确定个人可识别的信息，或者可以在获得位置信息的情况下泛化用户的地理位置(诸如到城市、邮政编码或州级别)，使得不能确定用户的特定位置。因此，用户可以控制如何收集关于用户的信息并且由内容共享平台120使用。

图2示出了示例性内容项推荐器组件200。内容项推荐器组件200可以对应于如图1所示的服务器系统130的内容项推荐器组件150。内容项推荐器组件200可以包括图形用户界面提供器组件210、视频内容项提供器组件220、兴趣指示符组件230、相关视频内容项组件240、分类组件250、和呈现组件260。在替代实施方式中，可以组合或划分一个或多个组件的功能性。

如图2所示，内容项推荐器组件200可以包括图形用户界面组件提供器210，其可以向内容共享平台的用户提供图形用户界面(GUI)。GUI可以包括被提供给内容共享平台的特定用户的第一视频内容项。第一视频内容项可以包括第一音频成分(例如，音乐作品的歌词的特定艺术家的录音)。内容项推荐器组件200可以进一步包括视频内容项提供器组件220，其可以向用户提供第一视频内容项。内容项推荐器组件200可以包括兴趣指示符组件230，其可以接收用户对第一音频成分感兴趣的指示，该第一音频成分被包括在正在图形用户界面中呈现给用户的第一视频内容项中。可以响应于用户选择在图形用户界面中提供的控制元素来接收该指示。在相同或替代实施方式中，可以响应于确定用户已经观看特定次数的第一视频内容项而接收该指示。

内容项推荐器200可以进一步包括相关视频内容标识符240，其可以识别包括第一视频内容项中所包括的不同版本的第一音频成分的不同视频内容项。例如，可以识别分别包括不同版本的第一音频成分的不同视频内容项。分类组件250可以将类别分类或分配给每个不同的视频内容项。例如，不同的视频内容项可以被识别为翻唱歌曲、粉丝歌曲、现场表演等。分类可以基于如结合图5描述的不同视频内容项的特征。呈现组件260可以修改图形用户界面以优先化包括相应不同版本的第一音频成分的一个或多个不同视频内容项的呈现。一个或多个不同视频内容项的呈现可以优先于其他视频内容项的呈现，如结合图4A-4B所述。此外，可以基于不同视频内容项的分类来对不同视频内容项的呈现进行优先级排序，如结合图5所述。

图3是用于修改图形用户界面以优先化包括不同版本的音频成分的视频内容项的呈现的示例性方法300的流程图。方法300可以由处理逻辑执行，处理逻辑可以包括硬件(例如，处理设备、电路、专用逻辑、可编程逻辑、微代码等)、软件(例如，在处理设备上运行的指令)、或其组合。在一些实施方式中，方法300可以由图1和图2的内容项推荐器组件150或200执行。

为了说明的简单，本公开的方法被图示和描述为一系列行为。然而，依照本公开的动作可以各种顺序和/或同时地发生，以及和本文未呈现和描述的其他动作一起发生。此外，可以不要求所有图示的动作来实现根据所公开的主题的方法。此外，本领域的技术人员应理解和意识到，能可替选地经由状态图或事件，将方法表示为一系列相互关联的状态。附加地，应当意识到，本说明书中公开的方法能够被存储在制品上以便于将此类方法输送并转移到计算设备。如本文中所使用的术语“制品”旨在包含可从任何计算机可读设备或存储介质访问的计算机程序。

如图3所示，方法300可以以处理逻辑在图形用户界面的第一区域中提供视频内容项开始(框310)。例如，可以在GUI的第一区域中提供第一视频内容项以便回放给用户。处理逻辑可以进一步在图形用户界面的第二区域中提供相关的视频内容项(框320)。相关视频内容项可以是被推荐给已经被提供第一视频内容项的用户的第一组视频内容项。相关视频内容项可以不包括第一视频内容项中所包括的不同版本的音频成分。例如，相关视频内容项可以包括具有不同歌词或不同音乐作品的音频成分。在一些实施方式中，当用户观看第一视频内容项时，可以将相关视频内容项提供给用户。图形用户界面可以将相关视频内容项提供为可以被选择以在图形用户界面的第一区域中播放相应视频内容项的缩略图或其他表示。处理逻辑可以进一步接收被提供图形用户界面的用户对包括在图形用户界面的第一区域中提供的视频内容项中的音频成分感兴趣的指示(框330)。该指示可以对应于接收对图形用户界面上提供的控制元素的选择。控制元素可以是GUI元素(例如，图形图标或按钮)。在一些实施例中，该指示可以对应于用户已经观看所提供的视频内容项阈值次数的指示。例如，当用户已经观看第一视频内容项大于或等于阈值次数时可以接收该指示，并且当用户尚未观看第一视频内容项至少阈值次数时，可以不接收该指示。因此，可以响应于用户选择具有图形用户界面的控制元素或者响应于用户与第一视频内容项的交互的频率来接收指示。

如图3所示，处理逻辑可以进一步响应于接收到指示，识别包括在不同视频内容项中的不同版本的音频成分(框340)。例如，可以分析每个不同视频内容项的音频以识别相应不同视频内容的音频是否与第一视频内容项的音频成分具有相似性(例如，类似歌词)并且与第一视频内容项的音频成分具有不同(例如，不同歌手或艺术家的不同表演)。因此，每个不同的视频内容项可以包括与包括在第一视频内容项中的音频成分具有相同歌词或音乐作品但具有不同的音乐表演的不同版本的音频成分。此外，可以基于与不同视频内容项相关联的关键字来识别不同版本的音频成分。例如，视频内容项可以与标题和描述相关联。可以基于标题和描述的关键字来识别不同视频内容项中的不同版本的音频成分。例如，如果关键字指定提供给用户的第一视频内容项的相同标题和/或指定另一关键字(例如，翻唱、现场表演、粉丝歌曲等)，则不同的视频内容项可以被识别为包括具有相同标题的不同版本的音频成分。

处理逻辑可以随后响应于接收到指示，修改图形用户界面的第二区域，以与相关视频内容项的呈现相比优先化包括不同版本的音频成分的不同视频内容项中的至少一个视频内容项的呈现(框350)。例如，可以修改图形用户界面的第二区域以在一个或多个相关视频内容项之上提供一个或多个不同视频内容项。在一些实施例中，第二区域的顶部可以包括多个视频内容项，其包括不同版本的音频成分，而第二区域的底部可以包括多个相关视频内容项。结合图4A-4B描述关于修改图形用户界面的进一步细节。

图4A示出了在图形用户界面中提供视频内容项的示例性图形用户界面400。图形用户界面400可以由图1和2的内容项推荐器组件150或200提供。

如图4A所示，图形用户界面400可以包括第一区域410，其包括或提供可以在媒体播放器中播放给用户的第一视频内容项415。第一视频内容项415可以包括第一音频成分。图形用户界面400可以进一步包括第一视频内容项415的标识信息(例如，第一视频内容项的标题和艺术家)。

图形用户界面400可以包括第二区域420，其包括相关视频内容项422,423和424。相关视频内容项422,423和424可以基于不同的音乐作品和不同的歌曲。图形用户界面400可以进一步包括在第一区域410中提供的第一视频内容项415的标识421，并且还可以包括控制元素425以指示对当前正在第一区域410中提供的第一视频内容项415的兴趣。例如，可以选择控制元素425以指示对第一视频内容项415中提供的音频成分的兴趣。

图4B示出了已经被修改以提供具有视频内容项415的不同版本的音频成分的不同视频内容项的示例性图形用户界面430。图形用户界面430可以由图1和2的内容项推荐器组件150或200提供。此外，在已经接收到对控制元素425的选择或已经接收到用户对所提供的视频内容项415的音频成分感兴趣的另一指示之后，图形用户界面430可以对应于图4A的图形用户界面400。

如图4B所示，可以响应于接收到用户对包括在第一视频内容项415中的音频成分感兴趣的指示来修改图形用户界面。响应于接收到该指示，更新的图形用户界面430的更新的第二区域可以包括所提供的视频内容项415的附加信息(例如，多个总视图)，并且第二区域的第一部分440可以包括不同的视频内容项441和443，其包括所提供的视频内容项415的不同版本。此外，第一部分440可以包括对应于不同视频内容项441和443的分类的标签442或444，如参考图5进一步详细所述。在一些实施方式中，第一部分440中提供的视频内容项可以包括与第一视频内容项415的上下文相关联的其他视频内容项。例如，其他视频内容项可以是描述第一视频内容项415的主题的视频内容项、第一视频内容项视频415的评论视频等。因此，第一部分440可以包括包含不同版本的音频成分的一个或多个视频内容项和不包括任何版本的音频成分的一个或多个附加视频内容项。图形用户界面430的第二部分450可以包括相关视频内容项451和452。在一些实施例中，第二部分450中的一个或多个相关视频内容项可以与在接收到用户对音频成分感兴趣的指示之前在图形用户界面的第二区域中提供的相关视频内容项相同。因此，可以在不包括不同版本的音频成分的相关视频内容项的呈现的上方或之上呈现具有包括在所提供的视频内容项415中的不同版本的音频成分的不同视频内容项。

图5是基于不同视频内容项的分类和用户的特征来提供具有不同版本的音频成分的不同视频内容项的示例性方法500的流程图。方法500可以由处理逻辑执行，处理逻辑可以包括硬件(例如，处理设备、电路、专用逻辑、可编程逻辑、微代码等)、软件(例如，在处理设备上运行的指令)、或其组合。在一些实施方式中，方法500可以由图1或2的内容项推荐器组件150或200执行。

如图5中所示，方法500可以以处理逻辑识别包括在视频内容项中的音频成分开始(框510)。例如，响应于接收到用户对音频成分感兴趣的指示，可以识别包括在当前正被提供或已经提供给用户的视频内容项中的音频成分。处理逻辑随后可以识别包括不同版本的音频成分的其他视频内容项(框520)。例如，可以识别分别包括不同版本的音频成分的多个视频内容项。处理逻辑可以进一步基于不同版本的音频成分来确定对其他视频内容项的分类(框530)。例如，可以接收来自其他视频内容项的每一个的标题和描述的关键字。其他视频内容项的分类可以基于匹配与特定类别相关联的特定关键字的关键字。例如，如果视频内容项的标题和/或描述包括关键字“翻唱(cover)”，则视频内容项可以被分类为翻唱歌曲版本。如果标题和/或描述包括关键字“现场表演”，则视频内容项可以被分类为现场歌曲表演版本。处理逻辑可以随后识别用户的特征(框540)。例如，可以接收或识别用户的视频内容项回放。用户的视频内容项回放可以指示用户更频繁地观看或访问的视频内容项的特定类型的类别。此外，处理逻辑可以基于分类和用户的特征来提供包括不同版本的音频成分的其他视频内容项(框550)。例如，(例如，如参考图4B所述，在第二部分440中)可以提供包括不同版本的音频成分的其他视频内容项的子集，其中，该子集中的其他视频内容项的类别与用户更频繁地观看相关联，与用户较不频繁观看的类别相关联的其他视频内容项的第二子集相反。

尽管本公开的各方面涉及视频内容项，但是本公开还可以提供对其他内容项的推荐。例如，音频内容项可被用来提供对音频内容项的类似版本的推荐。

图6图示可以在内部执行用于使机器执行本文中讨论的方法论中的任何一种或多种的指令集的计算机系统600的示例性机器。在替选实施方式中，机器可以连接(例如，联网)到LAN、内联网、外联网和/或因特网中的其他机器。机器可以在客户端-服务器网络环境中以服务器或客户端机器的能力操作、作为对等(或分布式)网络环境中的对等机器，或者作为云计算基础设施或环境中的服务器或客户机。

机器可以是个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、蜂窝电话、web电器、服务器、网络路由器、交换机或桥接器，或能够执行指定要由该机器采取的动作的指令集(顺序或其他)的任何机器。另外，虽然图示了单个机器，但是术语“机器”还应被视为包括单独地或者联合地执行指令集(或多个集合)以执行本文中讨论的方法学中的任何一种或多种的机器的任何合集。

示例性计算机系统600包括经由总线630彼此通信的处理设备602、主存储器604(例如，只读存储器(ROM)、闪速存储器、诸如同步DRAM(SDRAM)或DRAM等的动态随机存取存储器(DRAM)、静态存储器606(例如，闪速存储器、静态随机存取存储器(SRAM)等)、和数据存储设备618。

处理设备602表示诸如微处理器、中央处理单元等的一个或多个通用处理设备。更具体地，处理设备可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、或实现其他指令集的处理器或实现指令集的组合的处理器。处理设备602还可以是诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器等的一个或多个专用处理设备。处理设备602被配置成执行用于执行本文中讨论的操作和步骤的指令622。

计算机系统600可以进一步包括网络接口设备608。计算机系统600还可以包括视频显示单元610(例如，液晶显示器(LCD)或阴极射线管(CRT))、字母数字输入设备612(例如，键盘)、光标控制设备614(例如，鼠标)、和信号生成设备616(例如，扬声器)。

数据存储设备618可以包括在上面存储有具体实现本文所述的方法论或功能中的任何一种或多种的一组或多组指令或软件622的机器可读存储介质628(也称为计算机可读介质)。指令622还可以在其由计算机系统600执行期间完全地或至少部分地驻留在主存储器604内和/或在处理设备602内，主存储器604和处理设备602还构成机器可读存储介质。

在一个实施方式中，指令622包括用于内容项推荐器组件(例如，图1或2的内容项推荐器组件150或200)和/或包含内容项推荐器组件中的功能性的方法的软件库的指令。虽然机器可读存储介质628在示例性实施方式中被示为单个介质，但是术语“机器可读存储介质”应当被视为包括存储一个或多个指令集的单个介质或多个介质(例如，集中式或分布式数据库，和/或相关高速缓存和服务器)。术语“机器可读存储介质”还应被视为包括能够存储指令集或者对其进行编码以供由机器执行并且使机器执行本公开的方法论中的任何一种或多种的任何介质。因此，术语“机器可读存储介质”应相应地被视为包括但不限于固态存储器、光学介质和磁介质。

已在对计算机存储器内的数据比特的操作的算法和符号表示方面呈现了前面详细描述的一些部分。这些算法描述和表示是由数据处理领域的技术人员使用来将其工作的实质最有效地传达给本领域的其他技术人员的方式。算法在这里且一般地被认为是导致期望结果的操作的自洽序列。操作是要求物理操纵物理量的操作。通常，尽管不一定地，这些量采取能够被存储、组合、比较并以其他方式操纵的电信号或磁信号的形式。有时主要由于通用的原因，已证明将这些信号称为比特、值、元素、符号、字符、术语、数字等是方便的。

然而，应当记住的是，所有这些和类似的术语都将与适当的物理量相关联并且仅仅是应用于这些量的方便标签。除非像从以上讨论中显而易见的那样另外具体地陈述，否则应意识到在整个说明书中，利用诸如“识别”或“提供”或“计算”或“确定”等的术语的讨论指代计算机系统或类似的电子计算设备的动作和过程，该计算机系统或类似的电子计算设备将表示为计算机系统的寄存器和存储器内的物理(电子)量的数据操纵并变换成类似地表示为计算机系统存储器或寄存器或其他此类信息存储设备内的物理量的其他数据。

本公开还涉及用于执行本文操作的装置。该装置可以是为预期目的而专门地构造的，或者它可以包括通过存储在计算机中的计算机程序选择性地激活或者重新配置的通用计算机。这种计算机程序可以被存储在计算机可读存储介质中，该计算机可读存储介质诸如但不限于包括软盘、光盘、CD-ROM和磁光盘的任何类型的盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁或光学卡，或适合于存储电子指令的任何类型的介质，这些介质各自耦合到计算机系统总线。

本文中呈现的算法和显示不固有地与任何特定计算机或其他装置相关。各种通用系统可以根据本文教导与程序一起使用，或者构造更专用的装置以执行方法可能证明是方便的。用于各种这些系统的结构将像在以下描述中所阐述的那样出现。此外，不参考任何特定编程语言对本公开进行描述。将意识到，可以使用各种编程语言来实现如本文中所描述的本公开的教导。

本公开可以被提供为计算机程序产品或软件，该计算机程序产品或软件可以包括在上面存储有指令的机器可读介质，指令可以用于对计算机系统(或其他电子设备)进行编程以执行根据本公开的过程。机器可读介质包括用于以由机器(例如，计算机)可读取的形式存储信息的任何机制。例如，机器可读(例如，计算机可读)介质包括诸如只读存储器(“ROM”)、随机存取存储器(“RAM”)、磁盘存储介质、光学存储介质、闪速存储器设备等的机器(例如，计算机)可读存储介质。

在前面的说明书中，已经参考本公开的具体示例性实施方式描述了本公开的实施方式。将显然的是，可以在不脱离如以下权利要求中所阐述的本公开的实施方式的更广泛精神和范围的情况下对其做出各种修改。因此，将在说明性意义而不是限制性意义上考虑本说明书和附图。

Claims

1.一种方法，包括：

在图形用户界面GUI的第一区域中向用户提供视频内容项；

在所述GUI的第二区域中提供与所提供的视频内容项相关的多个视频内容项；

在提供所述多个视频内容项之后，接收对在所述GUI中提供的并且与所提供的视频内容项相关联的控制元素的选择，对所述控制元素的选择指示包括在所提供的视频内容项中的音频成分；以及

响应于接收到对所述控制元素的选择：

通过识别包括在不同视频内容项中的至少一个视频内容项中的相应不同版本的音频成分与包括在所提供的视频内容项中的音频成分之间的音频相似性来识别包括在不同视频内容项中的不同版本的音频成分；以及

通过处理设备修改所述GUI的所述第二区域，以与在所述GUI的所述第二区域中的所述相关视频内容项的呈现相比，优先化包括相应不同版本的音频成分的所述不同视频内容项中的至少一个视频内容项的呈现。

2.如权利要求1所述的方法，其中，修改所述GUI的所述第二区域包括：

在所述GUI的所述第二区域中的所述相关视频内容项的呈现之前，提供包括相应不同版本的音频成分的所述不同视频内容项中的至少一个视频内容项的呈现。

3.如权利要求1所述的方法，进一步包括：

基于包括在所述不同视频内容项中的至少一个视频内容项中的相应不同版本的音频成分来确定对所述不同视频内容项中的至少一个视频内容项的分类，其中，修改所述GUI的所述第二区域基于对所述不同视频内容项中的至少一个视频内容项的所述分类。

4.如权利要求3所述的方法，进一步包括：

识别对应于与观看视频内容项相关联的一个或多个类别的用户的特征，其中，修改所述GUI的所述第二区域进一步基于所述用户的所述特征。

5.如权利要求1所述的方法，其中，所述音频相似性对应于用在相应不同版本的音频成分和包括在所提供的视频内容项中的音频成分中的每一个中的类似歌词。

6.如权利要求1至4中任一项所述的方法，其中，识别包括在所述不同视频内容项中的不同版本的音频成分包括：

接收与包括相应不同版本的音频成分的不同视频内容项中的至少一个视频内容项相关联的一个或多个关键字；以及

识别所述一个或多个关键字与指示所述不同视频内容项中的至少一个视频内容项的分类的另一关键字之间的匹配。

7.一种存储指令的非瞬时性机器可读存储介质，所述指令在被执行时使得处理设备执行包括下述的操作：

在图形用户界面GUI的第一区域中向用户提供视频内容项；

在提供所述多个视频内容项之后，接收包括在所提供的视频内容项中的音频成分的指示；以及

响应于接收到所述指示：

修改所述GUI的所述第二区域，以与在所述GUI的所述第二区域中的所述相关视频内容项的呈现相比，优先化包括相应不同版本的音频成分的所述不同视频内容项中的至少一个视频内容项的呈现。

8.如权利要求7所述的非瞬时性机器可读存储介质，其中，为修改所述GUI的所述第二区域，其中所述操作进一步包括：

9.如权利要求7所述的非瞬时性机器可读存储介质，其中所述操作进一步包括：

10.如权利要求9所述的非瞬时性机器可读存储介质，其中所述操作进一步包括：

11.如权利要求7所述的非瞬时性机器可读存储介质，其中，所述音频相似性对应于用在相应不同版本的音频成分和包括在所提供的视频内容项中的音频成分中的每一个中的类似歌词。

12.如权利要求7至10中任一项所述的非瞬时性机器可读存储介质，其中，用户对包括在所提供的视频内容项中的音频成分感兴趣的指示基于所述用户观看所提供的视频内容项至少阈值次数。

13.一种系统，包括：

存储器；以及

与所述存储器可操作地耦合的处理设备，所述处理设备用于：

在图形用户界面GUI的第一区域中向用户提供视频内容项；

响应于接收到对所述控制元素的选择：

14.如权利要求13所述的系统，其中，为修改所述GUI的所述第二区域，所述处理设备进一步用于：

15.如权利要求13所述的系统，其中，所述处理设备进一步用于：

基于包括在所述不同视频内容项中的至少一个视频内容项中的相应不同版本的音频成分来确定对所述不同视频内容项中的至少一个视频内容项的分类，其中，修改所述GUI的所述第二区域基于对所述不同视频内容项中的至少一个视频内容项的所述分类；以及

16.如权利要求13所述的系统，其中，所述音频相似性对应于用在相应不同版本的音频成分和包括在所提供的视频内容项中的音频成分中的每一个中的类似歌词。

17.如权利要求13至16中任一项所述的系统，其中，为识别包括在所述不同视频内容项中的不同版本的音频成分，所述处理设备进一步用于：