CN111279709B

CN111279709B - 提供视频推荐

Info

Publication number: CN111279709B
Application number: CN201880069804.3A
Authority: CN
Inventors: 韩博; 栾乔; 王洋; A·塔姆比拉纳姆
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2022-11-08
Anticipated expiration: 2038-08-10
Also published as: US20210144418A1; WO2020029235A1; EP3834424A1; EP3834424A4; CN111279709A

Abstract

本公开提供了用于提供视频推荐的方法和装置。可以确定用于所述视频推荐的至少一个参考因子，所述至少一个参考因子指示所要推荐的至少一个视频中的视觉信息和/或音频信息的优选重要性。可以至少基于所述至少一个参考因子来确定候选视频集中的每个候选视频的排序分数。可以至少基于所述候选视频集中的候选视频的排序分数，从所述候选视频集中选择至少一个推荐视频。可以通过终端设备向用户提供所述至少一个推荐视频。

Description

提供视频推荐

背景技术

网络和各种数字设备的发展使人们能够随时观看他们喜欢的视频。由于创建、编辑和共享视频的便利性，网络上可用的视频数量巨大且每天都在增长。这使得查找用户最感兴趣的内容变得越来越困难。由于用户具有的时间有限，对用户的有效视频推荐变得越来越重要。

发明内容

提供本发明内容以便介绍一组概念，这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开的实施例提出了用于提供视频推荐的方法和装置。可以确定用于所述视频推荐的至少一个参考因子，所述至少一个参考因子指示所要推荐的至少一个视频中的视觉信息和/或音频信息的优选重要性。可以至少基于所述至少一个参考因子来确定候选视频集中的每个候选视频的排序分数。可以至少基于所述候选视频集中的候选视频的排序分数，从所述候选视频集中选择至少一个推荐视频。可以通过终端设备向用户提供所述至少一个推荐视频。

应当注意，以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式，并且本公开旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了根据实施例的提供视频推荐的示例性实施场景。

图2示出了根据实施例的用于确定候选视频的内容分数的示例性过程。

图3示出了根据实施例的用于确定推荐视频的示例性过程。

图4示出了根据实施例的用于确定推荐视频的示例性过程。

图5示出了根据实施例的用于确定推荐视频的示例性过程。

图6示出了根据实施例的用于确定推荐视频的示例性过程。

图7示出了根据实施例的用于确定推荐视频的示例性过程。

图8示出了根据实施例的用于提供视频推荐的示例性方法的流程图。

图9示出了根据实施例的用于提供视频推荐的示例性装置。

图10示出了根据实施例的用于提供视频推荐的示例性装置。

具体实施方式

现在将参考多种示例性实施方式来讨论本公开。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例，而并非教导对本公开的范围的任何限制。

能够访问网络上的各种视频资源的应用或网站可以向用户提供视频推荐。所述应用或网站可以是新闻客户或网站、社交网络应用或网站、视频平台客户端或网站、搜索引擎客户端或网站等，如CNN新闻、头条、Facebook、Youtube、优酷、必应、百度等。所述应用或网站可以从网络上的视频资源中选择多个视频作为推荐视频，并将推荐视频提供给用户以供使用(consumption)。在确定是否应该将网络上的视频选为推荐视频时，那些用于从网络上的视频资源确定推荐视频的现有方式可以考虑一些因素，例如视频的新鲜度、视频的流行度、视频的点击率、视频质量、视频内容与用户兴趣之间的相关性等。例如，如果视频质量指示视频来自具有高权威度的实体和/或视频具有高清晰度，则此视频更有可能被选为推荐视频。例如，如果视频的内容属于足球类别并且用户总是对足球相关视频表现出兴趣，即视频内容与用户兴趣之间存在高相关性，则该视频可以以高概率推荐给用户。

众所周知，视频可以包括视觉信息和音频信息，其中，视觉信息指示在视频中可视地呈现的一系列图片，并且音频信息指示在视频中以音频形式呈现的语音、声音、音乐等。在一些情况下，当用户在终端设备上使用推荐视频时，用户同时使用推荐视频中的视觉信息和音频信息可能是不方便的。例如，用户可能正在厨房准备晚餐，则用户可以持续收听，但不能持续观看终端设备的屏幕。例如，如果是早上八点并且用户正在地铁上，则用户可能喜欢使用推荐视频的视觉信息但不希望播放任何声音来打扰其他人。例如，假设终端设备是智能电话并且智能电话以静音模式运行，则用户不能使用推荐视频中的音频信息。例如，假设终端设备是具有小屏幕或没有屏幕的智能扬声器，并且用户现在正在驾驶汽车，则用户可能不适合去使用推荐视频中的视觉信息。

本公开的实施例提出了通过在确定推荐视频期间考虑推荐视频中的视觉信息和/或音频信息的重要性来改进视频推荐。在本文中，视频中的视觉信息和/或音频信息的重要性可以指示，例如，视频的内容是否主要由视觉信息和/或音频信息来传达、视频中最关键的信息是视觉信息还是音频信息、视觉信息和/或音频信息是否是使用视频所必不可少或必需的、等等。视觉信息的重要性和音频信息的重要性可能对于不同的视频而改变。例如，对于演讲视频，音频信息的重要性高于视觉信息的重要性，因为该视频主要以音频形式来呈现演讲的内容。例如，对于录制了可爱的狗的活动的视频，音频信息可能不如视觉信息重要，因为该视频可能主要以视觉形式来呈现狗的活动。例如，对于舞蹈视频，视觉信息和音频信息可能都是重要的，因为该视频可以以视觉形式来呈现舞蹈动作并且同时以音频形式来呈现音乐。可以看出，当用户正在使用视频时，具有较高重要性的视觉信息或音频信息可能足以使用户获知或理解视频的内容。

当从多个候选视频中确定推荐视频时，本公开的实施例可以决定是否推荐具有较高视觉信息重要性的那些视频、或是否推荐具有较高音频信息重要性的那些视频、或是否推荐既具有高视觉信息重要性也具有高音频信息重要性的那些视频，并且相应地选择对应候选视频作为推荐视频。通过在确定所要推荐的视频期间考虑候选视频中的视觉信息和/或音频信息的重要性，本公开的实施例可以改善视频推荐中令人满意使用的视频的比率。

图1示出了根据实施例的提供视频推荐的示例性实施场景。在图1中示出了示例性网络架构100，可以在网络架构100中提供视频推荐。

在网络架构100中，网络110被应用于对各种网络实体进行互联。网络110可以是能够对网络实体进行互联的任何类型的网络。网络110可以是单个网络或各种网络的组合。在覆盖范围方面，网络110可以是局域网(LAN)、广域网(WAN)等。在承载介质方面，网络110可以是有线网络、无线网络等。在数据交换技术方面，网络110可以是电路交换网络、分组交换网络等。

如图1所示，视频推荐服务器120、服务提供网站130、视频托管(hosting)服务器140、视频资源142、终端设备150和160等可以连接到网络110。

视频推荐服务器120可以被配置用于根据本公开的实施例来提供视频推荐，例如，确定推荐视频并向用户提供推荐视频。在本公开中，提供推荐视频可以指提供推荐视频的链接、提供包含推荐视频的链接的图形化指示、直接显示推荐视频中的至少一个等。

服务提供网站130示例性地表示可以向用户提供各种服务的各种网站，其中，所提供的服务可以包括视频相关服务。例如，服务提供网站130可以包括例如新闻网站、社交网络网站、视频平台网站、搜索引擎网站等。此外，服务提供网站130还可以包括由视频推荐服务器120建立的网站。当用户访问服务提供网站130时，服务提供网站130可以被配置用于与视频推荐服务器120交互，从视频推荐服务器120获得推荐视频，并向用户提供推荐视频。由此，视频推荐服务器120可以在由服务提供网站130提供的服务中提供视频推荐。应当理解，尽管在图1中将视频推荐服务器120示例性地示出为与服务提供网站130分离，但是视频推荐服务器120的功能也可以实现或合并在服务提供网站130中。

视频托管服务器140示例性地表示能够管理视频的各种网络实体，其支持视频的上传、存储、显示、下载或共享。由视频托管服务器140管理的视频被统一示为视频资源142。视频资源142可以是在各种数据库、云储存等中存储或维护的。视频资源142可以由视频托管服务器访问或处理。应当理解，尽管在图1中将视频资源142示例性地示出为与视频托管服务器140分离，但是视频资源142也可以合并在视频托管服务器140中。此外，尽管未示出，视频托管服务器140的功能也可以实现或合并在服务提供网站130或视频推荐服务器120中。此外，视频资源142的一部分或全部也可以由服务提供网站130或视频推荐服务器120拥有、访问、存储或管理。

当提供视频推荐时，视频推荐服务器120可以访问视频资源142并从视频资源142中确定推荐视频。

图1中的终端设备150和160可以是能够连接到网络110、访问网络110上的服务器或网站、处理数据或信号、呈现多媒体内容等的任何类型的电子计算设备。例如，终端设备150和160可以是智能电话、台式计算机、笔记本电脑、平板电脑、AI终端、可穿戴设备、智能电视、智能扬声器等。尽管图1中示出了两个终端设备，但是应该理解，可以有不同数量的终端设备连接到网络110。终端设备150和160可以由用户使用以获得通过网络110所提供的各种服务，其中，所述服务可以包括视频推荐。

作为示例，客户端应用152安装在终端设备150中，其中，客户端应用152表示可以向终端设备150的用户提供服务的各种应用或客户端。例如，客户端应用152可以是新闻客户端、社交网络应用、视频平台客户端、搜索引擎客户端等。此外，客户端应用152也可以是与视频推荐服务器120相关联的客户端。客户端应用152可以与对应的应用服务器通信以向用户提供服务。在一种情况下，当终端设备150的用户正在访问客户端应用152时，客户端应用152可以与视频推荐服务器120交互，从视频推荐服务器120获得推荐视频，并在客户端应用152所提供的服务内向用户提供推荐视频。在一种情况下，如果视频推荐服务器120的功能被实现或合并在与客户端应用152相对应的应用服务器中，则客户端应用152可以从对应的应用服务器接收推荐视频，并且向用户提供推荐视频。

作为示例，尽管终端设备160未被示出为已经安装了任何客户端应用，但是终端设备160的用户仍然可以通过访问网络110上的网站，例如服务提供网站130，来获得各种服务。在用户访问服务提供网站130期间，视频推荐服务器120可以确定推荐视频，并且可以在服务提供网站130提供的服务内向用户提供推荐视频。

应当理解，在任何上述情况下，如果终端设备150或160的用户在客户端应用152中或服务提供网站130上进行用户输入，则该用户输入也可以被提供给视频推荐服务器120并由视频推荐服务器120考虑，以便提供推荐视频。

在终端设备150的用户通过客户端应用152获得推荐视频的情况下，当用户想要使用推荐视频时，例如，在客户端应用152中点击推荐视频的链接或图形化指示，客户端应用152可以与视频托管服务器140通信以获得对应的视频文件，然后向用户显示视频。在终端设备160的用户在由服务提供网站130提供的网页上获得推荐视频的情况下，当用户想要使用推荐视频时，例如，在由服务提供网站130提供的网页上点击推荐视频的链接或图形化指示，终端设备160可以与视频托管服务器140通信以获得对应的视频文件，然后向用户显示视频。在其它情况下，当在客户端应用152中或在由服务提供网站130提供的网页上向用户提供推荐视频时，也可以直接向用户显示任何推荐视频。

此外，应当理解，图1中示出的所有实体或单元以及上面讨论的所有实施场景都是示例性的，根据具体需求，网络架构100中可以涉及任何其它实体或单元，并且本公开可以涵盖任何其它实施场景。

根据本公开的一些实施例，可以预先确定多个候选视频中的每个候选视频中的视觉信息和/或音频信息的重要性，其中，推荐视频将要从所述多个候选视频中选择。当从多个候选视频中确定推荐视频时，本公开的实施例可以至少基于每个候选视频中的视觉信息和/或音频信息的重要性来选择作为推荐视频的候选视频。

图2示出了根据实施例的用于确定候选视频的内容分数的示例性过程200。在本文中，视频的内容分数用于指示视频中的视觉信息和/或音频信息的重要性。

网络上的视频资源210可以提供多种不同的视频，可以从中选择推荐视频并提供给用户。图2中的视频资源210可以对应于图1中的视频资源142。

由视频资源210提供的视频可以形成候选视频集220。候选视频集220包括作为推荐视频的候选的多个视频。

根据本公开的实施例，可以确定候选视频集220中的每个候选视频的内容分数。

在一种实施方式中，候选视频的内容分数可以包括两个单独的子分数或由两个单独的子分数所形成的向量，一个子分数指示候选视频中视觉信息的重要性，另一个子分数指示候选视频中音频信息的重要性。作为示例，假设将候选视频的内容分数表示为[0.8，0.3]，第一子分数“0.8”可以指示候选视频中的视觉信息的重要性，第二子分数“0.3”可以指示候选视频中音频信息的重要性。此外，假设子分数范围是从0到1，并且较高的子分数指示较高的重要性。因此，在先前的示例中，视觉信息对于候选视频具有高重要性，因为第一子分数“0.8”非常接近最大分数“1”，而音频信息对于候选视频将具有低重要性，因为第二子分数“0.3”接近最小分数“0”。即，对于该候选视频，视觉信息比音频信息重要得多，相应地，该候选视频的内容可以主要由视觉信息传达。作为另一示例，假设将候选视频的内容分数表示为[0.8，0.7]，第一子分数“0.8”可以指示候选视频中视觉信息的重要性，第二子分数“0.7”可以指示候选视频中音频信息的重要性。由于第一子分数“0.8”和第二子分数“0.7”都接近最大分数“1”，因此该候选视频中的视觉信息和音频信息都具有高重要性。即，该候选视频的内容应当由视觉信息和音频信息两者来传达。

在一种实施方式中，候选视频的内容分数可以包括单个分数，其可以指示候选视频中的视觉信息和音频信息之间的相对重要程度。假设该信号分数的范围是从0到1，并且分数越高，视觉信息的重要性越高且音频信息的重要性越低，而分数越低，音频信息的重要性越高且视觉信息的重要性越低，反之亦然。作为示例，假设候选视频的内容分数是“0.9”，由于该分数非常接近最大分数“1”，因此其指示该候选视频中的视觉信息比该候选视频中的音频信息重要得多。作为示例，假设候选视频的内容分数是“0.3”，由于该分数非常接近最小分数“0”，因此其指示该候选视频中的音频信息比该候选视频中的视觉信息更重要。作为示例，假设候选视频的内容分数是“0.6”，由于该分数仅略高于中值分数“0.5”，因此其指示该候选视频中的视觉信息和音频信息都重要，但视觉信息比音频信息稍微重要一点。

应当理解，所有上述内容分数、子分数、分数范围等都是示例性的，并且根据本公开的实施例，内容分数可以用任何其它数值、字符或代码形式来表示，并可以用任何其它分数范围来定义。

根据本公开的实施例，可以基于例如候选视频的镜头转换、摄像机的运动、场景、人、人的运动、对象、对象的运动、文本信息、音频属性以及视频元数据中的至少一个来确定候选视频的内容分数。

“镜头转换”指的是在候选视频的预定时间段内或持续时间内发生镜头转换的次数。以演讲视频为例，摄像机可能在大多数时间集中于演讲者，并且观众的镜头可能非常少，因此该视频的镜头转换将非常少。以旅行视频为例，在该视频中可能记录了各种风景，例如，山的远景、河的近景，人们在草地上的活动等，因此该视频中可能存在很多镜头转换。通常，更多镜头转换可以指示候选视频中存在更多视觉信息。可以通过任何现有技术在候选视频中的相邻帧之间检测镜头转换。

“摄像机的运动”指的是候选视频中的摄像机的移动。摄像机的运动可以由例如摄像机移动的持续时间、距离、次数等来表征。以演讲视频为例，当摄像机在屏幕中间拍摄演讲者时，摄像机可能长时间保持静止，以便将演讲者的图像固定在屏幕中间，并且在此时间段期间，没有摄像机运动发生。以记录奔跑的狗的视频为例，摄像机可能与狗一起移动，因此该视频的摄像机的运动(例如，摄像机移动的持续时间、距离或次数)将非常高。通常，较高的摄像机的运动可以指示候选视频中存在更多视觉信息。可以通过任何现有技术在候选视频中的相邻帧之间检测摄像机的运动。

“场景”指的是候选视频中发生事件的地点或位置。场景可以由例如候选视频中出现的场景数量来表征。例如，如果一个视频依次记录了室内画面、汽车画面和足球场画面，由于“室内画面”、“汽车画面”和“足球场画面”中的每一个都是场景，因此该视频可以被确定为包括三个场景。通常，更多场景可以指示候选视频中存在更多视觉信息。可以通过各种现有技术检测候选视频中的场景。例如，可以通过用于图像分类的深度学习模型来检测候选视频中的场景。此外，还可以通过对从候选视频导出的文本信息执行语义分析来检测候选视频中的场景。

“人”指的是在候选视频中出现的人、角色等。人可以由例如候选视频中出现的人的数量、在候选视频中是否出现特定的人等来表征。通常，更多的人可以指示候选视频中存在更多视觉信息。此外，如果在候选视频中出现的人是著名的名人，例如电影明星、流行歌星、体育明星等，则这可以指示候选视频中存在更多视觉信息。可以通过各种现有技术检测候选视频中的人，例如，用于面部检测、面部识别的深度学习模型等。

“人的运动”指的是候选视频中人的移动、动作等。人的运动可以由例如在候选视频中出现的人的运动的数量、持续时间、类型等来表征。通常，更多的人的运动和长时间的人的运动可以指示候选视频中存在更多视觉信息。此外，某些类型的人的运动，例如，在足球比赛中射门，也可以指示候选视频中存在更多视觉信息。可以通过任何现有技术在候选视频中的相邻帧之间检测人的运动。

“对象”指的是在候选视频中出现的动物、物体等。对象可以由例如候选视频中出现的对象的数量、在候选视频中是否出现特定对象来表征。通常，更多对象可以指示候选视频中存在更多视觉信息。此外，一些特定对象，例如老虎、乌龟等，也可以指示候选视频中存在更多视觉信息。可以通过各种现有技术检测候选视频中的对象，例如，用于图像检测的深度学习模型等。

“对象的运动”指的是候选视频中的对象的移动、动作等。对象的运动可以由例如在候选视频中出现的对象的运动的数量、持续时间、区域等来表征。通常，更多的对象的运动和长时间的对象的运动可以指示候选视频中存在更多视觉信息。此外，对象的运动的某些区域也可以指示候选视频中存在更多视觉信息。可以通过任何现有技术在候选视频中的相邻帧之间检测对象的运动。

“文本信息”指的是候选视频中的信息性文本，例如字幕、隐藏式字幕、嵌入式文本等。文本信息可以由例如信息性文本的数量来表征。以脱口秀视频为例，参加者所说的所有语句都可能在视频画面上以文本形式显示，因此该视频可以被确定为具有大量的文本信息。以烹饪视频为例，在烹饪者在视频中解释如何烹饪菜肴期间，烹饪菜肴的步骤可能被同步地在视频画面上以文本形式显示，因此该视频可以被确定为具有大量的文本信息。由于文本信息通常是至少基于候选视频中的内容生成的，并且用户可以通过文本信息而不是相应的音频信息来理解候选视频中的内容，因此更多的文本信息可以指示候选视频中音频信息的更低重要性。可以通过各种现有技术来检测候选视频中的文本信息。例如，可以通过对候选视频的对应文本文件进行解码来检测字幕和隐藏式字幕，并且可以通过例如光学字符识别(OCR)等来检测已经与候选视频的画面融合的嵌入式文本。

“音频属性”指的是在候选视频中出现的音频类别，例如，语音、歌唱、音乐等。各种音频属性可以指示候选视频中音频信息的不同重要性。例如，在记录正在唱歌的女孩的视频中，音频信息，即女孩的歌唱，可以指示音频信息的高重要性。可以通过任何现有技术基于例如候选视频中的音轨来检测候选视频的音频属性。

“视频元数据”指的是与从视频资源获得的候选视频相关联的描述性信息，包括例如视频类别、标题等。视频类别可以是例如“滑稽”、“教育”、“脱口秀”、“游戏”、“音乐”、“新闻”等，其可以有助于确定视觉信息和/或音频信息的重要性。以游戏视频为例，该视频中的视觉信息可能比该视频中的音频信息更重要。以脱口秀视频为例，该视频中的音频信息很可能具有高重要性。候选视频的标题可以包括一些关键词，例如“歌曲”、“采访”、“演讲”等，这些关键词可以有助于确定视觉信息和/或音频信息的重要性。例如，如果候选视频的标题是“选举演讲”，则该候选视频中的音频信息很可能比该候选视频中的视觉信息更重要。

应当理解，上述镜头转换、摄像机的运动、场景、人、人的运动、对象、对象的运动、文本信息、音频属性和视频元数据中的任何两个或多个可以组合在一起，以便确定候选视频的内容分数。例如，对于记录可爱的狗的活动的视频，该视频可能包含大量的摄像机的运动和对象的运动但不包括任何语音或音乐，因此可能针对该视频确定出指示视觉信息的重要性高的内容分数。例如，对于演讲视频，该视频可能包含长持续时间的演讲、少量镜头转换、少量摄像机的运动、少量场景、包括关键词“演讲”的标题等，因此可能针对该视频确定出指示音频信息的重要性高的内容分数。

在一种实施方式中，可以采用内容侧模型来确定上述的候选视频的内容分数。例如，如图2所示，内容侧模型230用于确定候选视频集220中的每个候选视频的内容分数。内容侧模型230可以是基于各种技术建立的，例如，机器学习、深度学习等。内容侧模型230所采用的特征可以包括以下至少之一：镜头转换、摄像机的运动、场景、人、人的运动、对象、对象的运动、文本信息、音频属性和视频元数据，如上所述。在功能方面，内容侧模型230可以是例如回归模型、分类模型等。在结构方面，内容侧模型可以基于例如线性模型、逻辑模型、决策树模型、神经网络模型等。内容侧模型230的训练数据可以通过以下方式获得：获取将要用于训练的一组视频；对于该组视频中的每个视频，标记对应于内容侧模型的特征的相应值，并且标记该视频的内容分数；以及根据具有相应标记的该组视频来形成训练数据。

在图2中，通过内容侧模型230，可以确定候选视频集220中的每个候选视频的内容分数，并且相应地，可以最终获得具有相应内容分数的候选视频集240，其可以被进一步用于确定推荐视频。

在上面的讨论中，内容侧模型230被实现为采用包括以下至少之一的特征的模型：镜头转换、摄像机的运动、场景、人、人的运动、对象、对象的运动、文本信息、音频属性和视频元数据。然而，应当理解，内容侧模型230还可以以任何其它方式实现。例如，内容侧模型230可以是基于深度学习的模型，其可以直接基于候选视频的视觉和/或音频流来确定或预测每个候选视频的内容分数，而无需提取任何启发式设计的特征。可以通过训练数据集来训练该内容侧模型。每个训练数据可以由视频和所标记的内容分数来形成，所标记的内容分数指示该视频中的视觉信息和/或音频信息的重要性。

根据本公开的实施例，可以将至少一个参考因子用于视频推荐。在本文中，参考因子可以指示所要推荐的至少一个视频中的视觉信息和/或音频信息的优选重要性。即，该至少一个参考因子可以提供用于确定推荐视频的参考或标准。例如，该至少一个参考因子可以指示是否推荐具有较高视觉信息重要性的那些视频、或是否推荐具有较高音频信息重要性的那些视频、或是否推荐既具有高视觉信息重要性也具有高音频信息重要性的那些视频。该至少一个参考因子可以包括对视频推荐的默认或当前服务配置的指示、用户的偏好分数、来自用户的用户输入等，这将在后面详细讨论。

图3示出了根据实施例的用于确定推荐视频的示例性过程300。在过程300中，将对视频推荐的服务配置的指示用作用于确定推荐视频的参考因子。

根据过程300，可以获得视频推荐的服务配置310。服务配置310指的是在客户端应用或服务提供网站中设置的关于如何向用户提供推荐视频的配置。服务配置310可以是视频推荐的默认服务配置，或视频推荐的当前服务配置。在一种实施方式中，服务配置310可以包括以静音模式提供推荐视频，或者以非静音模式提供推荐视频。例如，对于以静音模式提供推荐视频的情况，适合推荐视觉信息重要性高的那些视频，而不适合推荐音频信息重要性高的那些视频，因为音频信息不能被显示给用户。

根据过程300，可以至少基于候选视频的内容分数和对服务配置310的指示来确定候选视频的排序分数。在一种实施方式中，可以将对服务配置310的指示作为参考因子提供给排序模型320。此外，还可以将具有内容分数的候选视频集330提供给排序模型320，其中具有内容分数的候选视频集330对应于图2中的具有内容分数的候选视频集240。排序模型320可以是用于视频推荐的任何现有排序模型的改进版本。现有的排序模型可以基于视频的新鲜度、视频的流行度、视频的点击率、视频质量、视频内容与用户兴趣之间的相关性等特征来确定每个候选视频的排序分数。除了现有排序模型中采用的特征之外，排序模型320还可以采用候选视频的内容分数和至少一个参考因子，即对图3中的服务配置310的指示，以作为附加特征。即，排序模型320可以至少基于候选视频集中的每个候选视频的内容分数和对服务配置310的指示来确定该候选视频的排序分数。通过考虑对服务配置310的指示，排序模型320可以获知哪种类型的候选视频，例如，视觉信息重要还是音频信息重要，应该在随后的推荐视频的选择中给予更高的排序。通过考虑候选视频的内容分数，排序模型320可以判定该候选视频是否符合之前获知的参考或标准。因此，排序模型320可以在考虑视觉信息和/或音频信息的重要性的情况下确定候选视频的排序分数，例如，向具有符合对服务配置310的指示的内容分数的候选视频给予更高的排序分数。通过排序模型320，可以获得具有各自排序分数的候选视频集340。

可以基于各种技术(例如，机器学习、深度学习等)来建立排序模型320。排序模型320所采用的特征可以包括候选视频的内容分数、对服务配置的指示、以及现有排序模型所采用的任何特征。在结构方面，排序模型320可以基于例如线性模型、逻辑模型、决策树模型、神经网络模型等。

根据过程300，在获得具有各自排序分数的候选视频集340之后，可以至少基于候选视频集中的候选视频的排序分数，从候选视频集中选择推荐视频350。例如，可以选择多个排序最高的候选视频作为推荐视频。

可以通过用户的终端设备进一步向用户提供推荐视频350。

图4示出了根据实施例的用于确定推荐视频的示例性过程400。在过程400中，将用户的偏好分数用作用于确定推荐视频的参考因子。

根据过程400，可以获得用户的偏好分数410。偏好分数可以指示用户对所要推荐的视频中的视觉信息和/或音频信息的期望程度。即，偏好分数可以指示用户是期望获得视觉信息重要性高的推荐视频，还是期望获得音频信息重要性高的推荐视频。假设偏好分数范围是从0到1，并且分数越高，用户期望的视觉信息的重要性越高，而分数越低，用户期望的音频信息的重要性越高。作为示例，假设用户的偏好分数是“0.9”，由于该分数非常接近最大值“1”，因此其指示用户非常期望获得视觉信息重要性高的推荐视频。可以基于以下至少之一来确定偏好分数：当前时间、当前位置、用户的终端设备的配置、终端设备的运行状态、以及用户的历史观看行为。

“当前时间”指的是当用户正在访问提供视频推荐的客户端应用或服务提供网站时的当前时间点、一天中的时间段、日期、星期几等。不同的“当前时间”可以反映用户的不同期望。例如，如果现在是晚上11点，则用户可能希望音频信息重要性低的推荐视频，以避免干扰其他睡觉的人。

“当前位置”指的是用户现在位置在哪，例如家、办公室、地铁、街道等。可以通过各种现有方式检测用户的当前位置，例如通过终端设备的GPS信号、通过对终端设备所连接的WiFi设备的定位等。不同的“当前位置”可以反映用户的不同期望。例如，如果用户现在在家，则用户可能希望视觉信息重要性高和音频信息重要性高的推荐视频，而如果用户现在在办公室，则用户可能不希望音频信息重要性高的推荐视频，因为在办公室听音频信息并不方便。

“终端设备的配置”可以包括以下至少之一：屏幕尺寸、屏幕分辨率、扬声器是否可用、以及是否连接外设耳机等。终端设备的配置可能限制用户对推荐视频的使用。例如，如果终端设备仅具有小屏幕尺寸或低屏幕分辨率，则不适合推荐视觉信息重要性高的视频。例如，如果终端设备的扬声器现在关闭，则不适合推荐音频信息重要性高的视频。

“终端设备的运行状态”可以包括以静音模式运行、以非静音模式运行、以驾驶模式运行等中的至少一个。例如，如果终端设备处于静音模式，则用户可能希望视觉信息重要性高的推荐视频而不是音频信息重要性高的推荐视频。如果终端设备处于驾驶模式，例如，终端设备的用户正在驾驶汽车，则用户可能期望音频信息重要性高的推荐视频。

“用户的历史观看行为”指的是对先前推荐视频的用户的历史观看动作。例如，如果用户已经观看了视觉信息重要性高的五个最近推荐的视频，则很可能用户希望获得更多视觉信息重要性高的推荐视频。例如，如果在最近一周期间，用户观看了大多数音频信息重要性高的推荐视频，则这可以指示用户可能期望获得更多音频信息重要性高的推荐视频。

应当理解，上述的当前时间、当前位置、终端设备的配置、终端设备的运行状态以及用户的历史观看行为中的任何两个或多个可以组合在一起以便确定用户的偏好分数。例如，如果当前位置是办公室，并且终端设备的运行状态处于静音模式，则可以确定出指示了用户对所要推荐视频中的视觉信息的高期望程度的偏好分数。例如，如果当前时间是晚上11点，并且用户的历史观看行为表明用户在晚上11点没有观看先前推荐的音频信息重要性高的几个视频，则可以确定出指示了用户对所要推荐视频中的视觉信息的高期望程度的偏好分数。在一种情况下，可以仅基于用户状态相关信息来确定偏好分数，用户状态相关信息例如为当前时间、当前位置、用户的历史观看行为等中的至少一个。在一种情况下，可以仅基于终端设备相关信息来确定偏好分数，终端设备相关信息例如为终端设备的配置、终端设备的运行状态等中的至少一个。在一种情况下，也可以基于用户状态相关信息和终端设备相关信息两者来确定偏好分数。

在一种实施方式中，可以采用用户侧模型来确定上述的用户的偏好分数。例如，如图4所示，用户侧模型420用于确定偏好分数410。可以基于各种技术建立用户侧模型420，例如，机器学习、深度学习等。用户侧模型420所采用的特征可以包括以下至少之一：时间、位置、终端设备的配置、终端设备的运行状态、以及用户的历史观看行为，如上所述。在功能方面，用户侧模型420可以是例如回归模型、分类模型等。在结构方面，用户侧模型420可以基于例如线性模型、逻辑模型、决策树模型、神经网络模型等。可以从用户的历史观看记录获得用户侧模型420的训练数据，其中，每个历史观看记录与用户对历史推荐视频的观看动作相关联。可以从历史观看记录获得与用户侧模型的特征相对应的信息，并且还可以为该历史观看记录标记偏好分数。可以将所获得的信息和所标记的偏好分数一起用作一条训练数据。以这种方式，可以基于用户的多个历史观看记录来形成训练数据集。

应当理解，用户可能拥有多于一个终端设备，并且用户可以使用这些终端设备中的任何一个来访问客户端应用或服务提供网站。在这种情况下，可以为每个终端设备建立用户侧模型。例如，假设用户具有两个终端设备，可以基于用户状态相关信息和第一终端设备相关信息来建立第一用户侧模型，并且可以基于用户状态相关信息和第二终端设备相关信息来建立第二用户侧模型。由此，可以通过与用户当前使用的终端设备相对应的用户侧模型来确定用户的偏好分数。

根据过程400，可以至少基于候选视频的内容分数和偏好分数410来确定候选视频的排序分数。在一种实施方式中，可以向排序模型430提供用户的偏好分数410以作为参考因子。此外，还可以向排序模型430提供具有内容分数的候选视频集440，其中具有内容分数的候选视频集440对应于图2中具有内容分数的候选视频集240。排序模型430与排序模型320类似，不同之处在于图4中的参考因子是偏好分数410，而不是服务配置310。除了现有排序模型中所采用的特征之外，排序模型430还可以采用候选视频的内容分数和至少一个参考因子，即图4中的偏好分数410，以作为附加特征。即，排序模型430可以至少基于候选视频集中的每个候选视频的内容分数和偏好分数410来确定该候选视频的排序分数。通过考虑偏好分数410，排序模型430可以获知用户期望哪种类型的候选视频，例如视觉信息重要还是音频信息重要。通过考虑候选视频的内容分数，排序模型430可以判定该候选视频是否符合用户的期望。因此，排序模型430可以在考虑视觉信息和/或音频信息的重要性的情况下确定候选视频的排序分数，例如，为内容分数符合偏好分数410的候选视频给予更高的排序分数。通过排序模型430，可以获得具有各自排序分数的候选视频集450。

根据过程400，在获得了具有各自排序分数的候选视频集450之后，可以至少基于候选视频集中的候选视频的排序分数，从候选视频集中选择推荐视频460。此外，可以通过用户的终端设备进一步向用户提供推荐视频460。

应当理解，尽管上面讨论了偏好分数的确定可以基于以下至少之一：当前时间、当前位置、终端设备的配置、终端设备的运行状态以及用户的历史观看行为，但是也可以考虑任何其它因素来确定偏好分数，所述其它因素可以用于指示用户对所要推荐视频中的视觉信息和/或音频信息的期望程度。在一种实施方式中，可以进一步基于用户的时间表来确定偏好分数，其中，时间表中的事件可以指示用户是希望视觉信息重要性高还是音频信息重要性高的推荐视频。例如，如果用户的时间表表明用户正在开会或正在教室上课，则可以确定出指示了用户对所要推荐视频中的视觉信息的高期望程度的偏好分数。在一种实施方式中，可以进一步基于用户的身体状况来确定偏好分数，其中，身体状况可以指示用户是期望视觉信息重要性高还是音频信息重要性高的推荐视频。例如，如果用户患有眼病，则可以确定出指示了用户对所要推荐视频中的音频信息的高期望程度的偏好分数。

图5示出了根据实施例的用于确定推荐视频的示例性过程500。在过程500中，将来自用户的用户输入用作用于确定推荐视频的参考因子。

根据过程500，可以从用户处获得用户输入510。用户输入可以指示用户对所要推荐的至少一个视频中的视觉信息和/或音频信息的期望程度。即，用户输入可以指示用户是期望获得视觉信息重要性高的推荐视频，还是期望获得音频信息重要性高的推荐视频。

在一种实施方式中，用户输入510可以包括对所要推荐的至少一个视频中的视觉信息和/或音频信息的优选重要性的指定。例如，可以在客户端应用或服务提供网站的用户界面中提供优选重要性的选项，并且用户可以选择用户界面中的选项之一以便指定所要推荐的至少一个视频中的视觉信息和/或音频信息的优选重要性。用户对优选重要性的指定可以指示用户是否期望获得音频信息重要性高的推荐视频，和/或获得视觉信息重要性高的推荐视频。

在一种实施方式中，用户输入510可以包括对所要推荐的至少一个视频的类别的指定。例如，用户可以在客户端应用或服务提供网站的用户界面中指定所要推荐的至少一个视频的至少一个期望类别。所指定的类别可以是例如“滑稽”、“教育”、“脱口秀”、“游戏”、“音乐”、“新闻”等，其可以指示用户是否期望获得音频信息重要性高的推荐视频，和/或获得视觉信息重要性高的推荐视频。例如，如果用户指定了类别“脱口秀”，则其可以指示用户期望获得音频信息重要性高的推荐视频。例如，如果用户指定了类别“游戏”，则其可以指示用户期望获得视觉信息重要性高的推荐视频。

在一种实施方式中，用户输入510可以包括用于搜索视频的查询。例如，当用户访问客户端应用或服务提供网站时，用户可以在客户端应用或服务提供网站的用户界面中输入查询，以便搜索用户感兴趣的一个或多个视频。例如，示例性查询可以是“美国总统选举演讲”，其指示用户想要搜索与美国总统选举相关的一些演讲视频。查询可以显式地或隐式地指示用户是否期望获得视觉信息重要性高的推荐视频，和/或获得音频信息重要性高的推荐视频。以查询“美国总统选举演讲”为例，该查询中的关键词“演讲”可以显式地指示用户期望获得音频信息重要性高的推荐视频。以查询“著名魔术表演”为例，关键词“魔术表演”可以显式地指示用户期望获得视觉信息重要性高的推荐视频。以查询“海滩日落”为例，该查询可以显式地指示用户期望获得视觉信息重要性高的推荐视频。

应当理解，用户输入510不限于包括如上所述的对优选重要性的指定、对类别的指定和查询中的任何一个或多个，而是可以包括来自用户的任何其它类型的输入，其可以指示用户对所要推荐的至少一个视频中的视觉信息和/或音频信息的期望程度。

根据过程500，可以至少基于候选视频的内容分数和用户输入510来确定候选视频的排序分数。在一种实施方式中，可以向排序模型520提供用户的用户输入510以作为参考因子。此外，还可以向排序模型520提供具有内容分数的候选视频集530，其中具有内容分数的候选视频集530对应于图2中具有内容分数的候选视频集240。排序模型520与排序模型320类似，不同之处在于图5中的参考因子是用户输入510而不是服务配置310。除了现有排序模型中所采用的特征之外，排序模型520还可以采用候选视频的内容分数和至少一个参考因子，即图5中的用户输入510，以作为附加特征。即，排序模型520可以至少基于候选视频集中的每个候选视频的内容分数和用户输入510来确定该候选视频的排序分数。通过考虑用户输入510，排序模型520可以获知用户期望哪些类型的候选视频，例如视觉信息重要还是音频信息重要。通过考虑候选视频的内容分数，排序模型520可以判定该候选视频是否符合用户的期望。因此，排序模型520可以在考虑视觉信息和/或音频信息的重要性的情况下确定候选视频的排序分数，例如，为内容分数符合用户输入510的候选视频给予更高的排序分数。通过排序模型520，可以获得具有各自排序分数的候选视频集540。

根据过程500，在获得具有各自排序分数的候选视频集540之后，可以至少基于候选视频集中的候选视频的排序分数，从候选视频集中选择推荐视频550。此外，可以通过用户的终端设备进一步向用户提供推荐视频550。

图6示出了根据实施例的用于确定推荐视频的示例性过程600。在过程600中，用于确定推荐视频的参考因子可以包括视频推荐的服务配置、用户的偏好分数和来自用户的用户输入。即，过程600可以被视为图3中的过程300、图4中的过程400和图5中的过程500的组合。

根据过程600，可以获得视频推荐的服务配置610，其可以对应于图3中的服务配置310。可以获得用户的偏好分数620，其可以对应于图4中的偏好分数410。可以获得用户输入630，其可以对应于图5中的用户输入510。

根据过程600，可以至少基于候选视频的内容分数、服务配置610、偏好分数620和用户输入630来确定候选视频的排序分数。在一种实施方式中，可以向排序模型640提供服务配置610、偏好分数620和用户输入630以作为参考因子。此外，还可以向排序模型640提供具有内容分数的候选视频集650，其中，具有内容分数的候选视频集650对应于图2中具有内容分数的候选视频集240。除了现有排序模型中采用的特征之外，排序模型640还可以采用候选视频的内容分数和至少一个参考因子，即图6中的服务配置610、偏好分数620和用户输入630，以作为附加特征。即，排序模型520可以至少基于候选视频集中的每个候选视频的内容分数以及服务配置610、偏好分数620和用户输入630的组合来确定该候选视频的排序分数。通过考虑服务配置610、偏好分数620和用户输入630的组合，排序模型640可以获知应该向用户推荐哪种类型的候选视频，例如视觉信息重要还是音频信息重要。因此，排序模型640可以在考虑视觉信息和/或音频信息的重要性的情况下确定候选视频的排序分数，例如，为内容分数符合服务配置610、偏好分数620和用户输入630的组合的候选视频给予更高的排序分数。通过排序模型640，可以获得具有各自排序分数的候选视频集660。

根据过程600，在获得具有各自排序分数的候选视频集660之后，可以至少基于候选视频集中的候选视频的排序分数，从候选视频集中选择推荐视频670。此外，可以通过用户的终端设备进一步向用户提供推荐视频670。

应当理解，根据实际需求，可以以各种方式改变过程600。例如，可以采用服务配置610、偏好分数620和用户输入630中的任何两个作为视频推荐的参考因子。也就是说，本公开的实施例可以利用服务配置、偏好分数和用户输入中的至少一个作为用于进一步确定推荐视频的参考因子。

以上结合图2至图6讨论了本公开的一些实施例可以至少基于参考因子和候选视频的内容分数来从候选视频集中确定推荐视频。例如，可以首先通过例如内容侧模型确定候选视频集中的候选视频的内容分数，然后可以通过例如排序模型将候选视频的内容分数与参考因子一起用于确定候选视频的排序分数，其中，排序模型所采用的特征至少包括至少一个参考因子和候选视频的排序分数。然而，根据本公开的一些其它实施例，可以省略确定候选视频中的候选视频的内容分数的过程，即，可以至少基于参考因子从候选视频集中确定推荐视频。根据这些实施例，排序模型可以用于至少基于参考因子来确定候选视频的排序分数，其中，排序模型所采用的特征至少包括至少一个参考因子以及图2至图6中的内容侧模型所采用的那些特征。

图7示出了根据实施例的用于确定推荐视频的示例性过程700。

可以获得视频推荐的服务配置710、用户的偏好分数720和来自用户的用户输入730中的至少一个。服务配置710、偏好分数720和用户输入730可以分别对应于图3中的服务配置310、图4中的偏好分数410和图5中的用户输入510。

根据过程700，可以至少基于服务配置710、偏好分数720和用户输入730中的至少一个来确定候选视频的排序分数。

在一种实施方式中，可以向排序模型740提供服务配置710、偏好分数720和用户输入730中的至少一个以作为参考因子。此外，还可以向排序模型740提供候选视频集750，其中候选视频集750可以对应于图2中的候选视频集220。

排序模型740可以是用于视频推荐的任何现有排序模型的改进版本。除了现有排序模型中所采用的特征之外，排序模型740还可以采用至少一个参考因子，例如图7中的服务配置710、偏好分数720和/或用户输入730，以作为附加特征。此外，排序模型740还可以采用图2至图6中的内容侧模型所采用的那些特征作为附加特征，包括候选视频的镜头转换、摄像机的运动、场景、人、人的运动、对象、对象的运动、文本信息、音频属性和视频元数据中的至少一个。在确定候选视频集中的候选视频的排序分数期间，可以检测候选视频的镜头转换、摄像机的运动、场景、人、人的运动、对象、对象的运动、文本信息、音频属性和视频元数据中的至少一个。所检测到的关于候选视频的信息连同至少一个参考因子可以进一步用于例如通过排序模型740确定候选视频的排序分数。通过考虑至少一个参考因子，排序模型740可以获知应该向用户推荐哪种类型的候选视频，例如视觉信息重要还是音频信息重要。通过考虑所检测到的关于候选视频的信息，排序模型740可以判定该候选视频是否符合由至少一个参考因子所指示的优选重要性。相应地，排序模型740可以在考虑视觉信息和/或音频信息的重要性的情况下来确定候选视频的排序分数。通过排序模型740，可以获得具有各自排序分数的候选视频集760。

根据过程700，在获得了具有各自排序分数的候选视频集760之后，可以至少基于候选视频集中的候选视频的排序分数，从候选视频集中选择推荐视频770。此外，可以通过用户的终端设备进一步向用户提供推荐视频770。

应当理解，在一些实施方式中，图3至图7中的排序模型可以被配置用于进一步基于多个其他用户对候选视频的使用状况来确定该候选视频的排序分数。该候选视频被其他用户使用的次数越多，则该候选视频可以获得的排序分数就越高。在一些实施方式中，图3至图7中的排序模型可以被配置用于进一步基于候选视频的内容与用户兴趣之间的相关性来确定候选视频的排序分数。可以基于例如用户的历史观看记录来确定用户兴趣。例如，用户的历史观看记录可以指示用户感兴趣的视频内容的类别或主题。如果候选视频的内容与用户兴趣具有较高的相关性，则可以为该候选视频确定较高的排序分数。此外，在一些实施方式中，当从具有排序分数的候选视频集中选择推荐视频时，除了考虑基于排序分数选择最高排序的候选视频之外，还可以考虑视频推荐的多样性，使得所选择的推荐视频在内容方面可以具有多样性。

应当理解，本公开还涵盖以上结合图3至图7讨论的用于提供视频推荐的方法的任何变型。例如，在一种实施方式中，可以首先通过用于视频推荐的任何现有排序模型对候选视频集中的候选视频进行排序。然后，可以对经排序的候选视频执行过滤操作，其中过滤操作可以考虑所要推荐的至少一个视频中的视觉信息和/或音频信息的优选重要性。例如，以上在图3至图7中讨论的服务配置、偏好分数和用户输入中的至少一个可以被过滤操作用于滤除那些不符合所要推荐的至少一个视频中的视觉信息和/或音频信息的优选重要性的候选视频。在过滤操作之后，可以获得至少一个推荐视频，并且可以进一步向用户提供至少一个推荐视频。在一种实施方式中，可以通过过滤器模型来实施过滤操作，该过滤器模型采用包括服务配置、偏好分数和用户输入中的至少一个的特征。

图8示出了根据实施例的用于提供视频推荐的示例性方法800的流程图。

在810处，可以确定用于所述视频推荐的至少一个参考因子，所述至少一个参考因子指示所要推荐的至少一个视频中的视觉信息和/或音频信息的优选重要性。

在820处，可以至少基于所述至少一个参考因子来确定候选视频集中的每个候选视频的排序分数。

在830处，可以至少基于所述候选视频集中的候选视频的排序分数，从所述候选视频集中选择至少一个推荐视频。

在840处，可以通过终端设备向用户提供所述至少一个推荐视频。

在一种实施方式中，所述至少一个参考因子可以包括所述用户的偏好分数，所述偏好分数指示所述用户对所要推荐的所述至少一个视频中的所述视觉信息和/或所述音频信息的期望程度。所述偏好分数可以是基于以下至少之一来确定的：当前时间、当前位置、所述终端设备的配置、所述终端设备的运行状态、以及所述用户的历史观看行为。所述终端设备的配置可以包括以下至少之一：屏幕尺寸、屏幕分辨率、扬声器是否可用、以及是否连接外设耳机。所述终端设备的运行状态可以包括以下至少之一：以静音模式运行、以非静音模式运行、以及以驾驶模式运行。所述偏好分数可以是通过用户侧模型来确定的，所述用户侧模型采用以下特征中的至少一个：时间、位置、所述终端设备的配置、所述终端设备的运行状态、以及所述用户的历史观看行为。

在一种实施方式中，所述至少一个参考因子可以包括对所述视频推荐的默认或当前服务配置的指示。所述默认或当前服务配置可以包括以静音模式或以非静音模式提供所要推荐的所述至少一个视频。

在一种实施方式中，所述至少一个参考因子可以包括来自所述用户的用户输入，所述用户输入指示所述用户对所要推荐的所述至少一个视频中的所述视觉信息和/或所述音频信息的期望程度。所述用户输入可以包括以下至少之一：对所要推荐的所述至少一个视频中的所述视觉信息和/或所述音频信息的所述优选重要性的指定；对所要推荐的所述至少一个视频的类别的指定；以及用于搜索视频的查询。

在一种实施方式中，所述方法800还可以包括：确定所述候选视频集中的每个候选视频的内容分数，所述内容分数指示所述候选视频中的视觉信息和/或音频信息的重要性。所述确定每个候选视频的所述排序分数还基于所述候选视频的内容分数。每个候选视频的所述内容分数可以是基于以下至少之一来确定的：所述候选视频的镜头转换、摄像机的运动、场景、人、人的运动、对象、对象的运动、文本信息、音频属性、以及视频元数据。每个候选视频的所述内容分数可以是通过内容侧模型来确定的，所述内容侧模型采用以下特征中的至少一个：镜头转换、摄像机的运动、场景、人、人的运动、对象、对象的运动、文本信息、音频属性、以及视频元数据。可选地，每个候选视频的所述内容分数可以是通过基于深度学习的内容侧模型来确定的，所述内容侧模型是通过一组训练数据来训练的，每个训练数据由视频和所标记的内容分数形成，所标记的内容分数指示所述视频中的视觉信息和/或音频信息的重要性。每个候选视频的所述排序分数可以是通过排序模型来确定的，所述排序模型至少采用以下特征：至少一个参考因子；以及候选视频的内容分数。

在一种实施方式中，所述方法800还可以包括：检测所述候选视频集中的每个候选视频的镜头转换、摄像机的运动、场景、人、人的运动、对象、对象的运动、文本信息、音频属性、以及视频元数据中的至少一个。所述确定每个候选视频的所述排序分数还可以基于所述候选视频的镜头转换、摄像机的运动、场景、人、人的运动、对象、对象的运动、文本信息、音频属性、以及视频元数据中的至少一个。每个候选视频的所述排序分数可以是通过排序模型来确定的，所述排序模型至少采用以下特征：至少一个参考因子；以及候选视频的镜头转换、摄像机的运动、场景、人、人的运动、对象、对象的运动、文本信息、音频属性、以及视频元数据中的至少一个。

在一种实施方式中，所述确定每个候选视频的所述排序分数还可以基于以下至少之一：多个其他用户对所述候选视频的使用状况；以及所述候选视频的内容与所述用户的兴趣之间的相关性。

在一种实施方式中，所述视频推荐可以是在客户端应用或服务提供网站中提供的。

应当理解，方法800还可以包括根据上述本公开实施例的用于提供视频推荐的任何步骤/过程。

图9示出了根据实施例的用于提供视频推荐的示例性装置900。

装置900可以包括：参考因子确定模块910，用于确定用于所述视频推荐的至少一个参考因子，所述至少一个参考因子指示所要推荐的至少一个视频中的视觉信息和/或音频信息的优选重要性；排序分数确定模块920，用于至少基于所述至少一个参考因子来确定候选视频集中的每个候选视频的排序分数；推荐视频选择模块930，用于至少基于所述候选视频集中的候选视频的排序分数，从所述候选视频集中选择至少一个推荐视频；以及推荐视频提供模块940，用于通过终端设备向用户提供所述至少一个推荐视频。

在一种实施方式中，所述至少一个参考因子可以包括以下至少之一：用户的偏好分数；对所述视频推荐的默认或当前服务配置的指示；以及来自用户的用户输入。

此外，装置900还可以包括被配置用于根据上述本公开实施例的提供视频推荐的任何其它模块。

图10示出了根据实施例的用于提供视频推荐的示例性装置1000。

装置1000可以包括至少一个处理器1010和存储计算机可执行指令的存储器1020。当执行计算机可执行指令时，至少一个处理器1010可以：确定用于所述视频推荐的至少一个参考因子，所述至少一个参考因子指示所要推荐的至少一个视频中的视觉信息和/或音频信息的优选重要性；至少基于所述至少一个参考因子来确定候选视频集中的每个候选视频的排序分数；至少基于所述候选视频集中的候选视频的排序分数，从所述候选视频集中选择至少一个推荐视频；以及通过终端设备向用户提供所述至少一个推荐视频。

至少一个处理器1010还可以被配置用于执行根据上述本公开实施例的用于提供视频推荐的方法的任何操作。

上面已经基于本公开的各种实施例讨论了用于提供视频推荐的方法和装置。应当理解，这些方法和装置中包括的组件的任何添加、删除、替换、重构和派生也应当由本公开所涵盖。

根据一个示例性实施例，提供了一种用于向用户呈现推荐视频的方法。

在用户访问提供视频推荐服务的第三方应用或网站期间，可以接收用户输入。所接收的用户输入可以对应于例如图5中的用户输入510、图6中的用户输入630、图7中的用户输入730等。在一种实施方式中，接收用户输入的操作可以包括从用户处接收对所要推荐的至少一个视频中的视觉信息和/或音频信息的优选重要性的指定。例如，当用户选择在第三方应用或网站的用户界面中提供的优选重要性选项之一时，可以接收到对优选重要性的指定。在一种实施方式中，接收用户输入的操作可以包括从用户处接收对所要推荐的至少一个视频的类别的指定。例如，当用户在第三方应用或网站的用户界面中选择或输入所要推荐的至少一个视频的至少一个期望类别时，可以接收到对类别的指定。在一种实施方式中，接收用户输入的操作可以包括从用户处接收用于搜索视频的查询。例如，当用户在第三方应用或网站的用户界面中输入查询以便搜索用户感兴趣的视频时，可以接收到查询。

根据该方法，所接收的用户输入可以用于识别所要推荐的至少一个视频中的视觉信息和/或音频信息的优选重要性，例如，用户对所要推荐的至少一个视频中的视觉信息和/或音频信息的期望程度。例如，如果在用户输入中指定了类别“脱口秀”，则可以识别出用户期望获得音频信息重要性高的推荐视频。例如，如果在用户输入中包括查询“著名魔术表演”，则可以识别出用户期望获得视觉信息重要性高的推荐视频。

根据该方法，所识别的优选重要性可以进一步用于从候选视频集中确定至少一个推荐视频。例如，此处可以采用上面在图3至图7中讨论的那些排序方法，以用于对候选视频集中的候选视频进行排序，并进一步从经排序的候选视频中选择至少一个推荐视频。

根据该方法，可以通过用户界面向用户呈现所确定的至少一个推荐视频。在一种实施方式中，可以形成推荐视频列表并将其呈现给用户。在一种实施方式中，如果存在已经呈现给用户的推荐视频列表，则所确定的至少一个推荐视频可以用于更新推荐视频列表。

可以提供一种用于向用户呈现推荐视频的装置，其包括被配置用于执行上述方法的任何操作的各种模块。此外，可以提供一种用于向用户呈现推荐视频的装置，其包括至少一个处理器和存储计算机可执行指令的存储器，其中，所述至少一个处理器可以被配置用于执行上述方法的任何操作。

根据另一示例性实施例，提供了一种用于向用户呈现推荐视频的方法。

在用户访问提供视频推荐服务的第三方应用或网站期间，可以检测视频推荐的服务配置。所检测到的服务配置可以对应于例如图3中的服务配置310。

根据该方法，所检测到的服务配置可以用于识别所要推荐的至少一个视频中的视觉信息和/或音频信息的优选重要性。例如，如果服务配置指示应以静音模式提供推荐视频，则可以识别出优选推荐视觉信息重要性高的那些视频。

在用户访问提供视频推荐服务的第三方应用或网站期间，可以确定用户的偏好分数。偏好分数可以对应于例如图4中的偏好分数410，并且可以以与图4中讨论的方式类似的方式来确定。

根据该方法，所确定的偏好分数可以用于识别所要推荐的至少一个视频中的视觉信息和/或音频信息的优选重要性，例如，用户对所要推荐的视频中的视觉信息和/或音频信息的期望程度。例如，偏好分数可以指示用户是期望获得视觉信息重要性高的推荐视频，还是期望获得音频信息重要性高的推荐视频。

本公开的实施例可以实施在非暂时性计算机可读介质中。非暂时性计算机可读介质可以包括指令，当指令被执行时，使得一个或多个处理器执行根据上述本公开实施例的用于提供视频推荐或用于呈现推荐视频的方法的任何操作。

应当理解，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其它等同变换。

还应当理解，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其它适合的处理部件。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、DSP或其它适合的平台所执行的软件。

软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部，如，缓存或寄存器。

以上描述被提供用于使得本领域任何技术人员可以实施本文所描述的各个方面。这些方面的各种修改对于本领域技术人员是显而易见的，本文限定的一般性原理可以应用于其它方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换，都将通过引用而明确地包含到本文中，并且旨在由权利要求所覆盖。

Claims

1.一种用于提供视频推荐的方法，包括：

确定用于所述视频推荐的至少一个参考因子，所述至少一个参考因子指示所要推荐的至少一个视频中的视觉信息和/或音频信息的优选重要性；

确定候选视频集中的每个候选视频的内容分数，所述内容分数包括指示所述候选视频中的视觉信息的重要性的子分数和指示所述候选视频中的音频信息的重要性的子分数，或者所述内容分数包括指示所述候选视频中的视觉信息和音频信息之间的相对重要程度的单个分数；

至少基于所述至少一个参考因子和候选视频的内容分数来确定所述候选视频集中的每个候选视频的排序分数；

至少基于所述候选视频集中的候选视频的排序分数，从所述候选视频集中选择至少一个推荐视频；以及

通过终端设备向用户提供所述至少一个推荐视频，

其中，每个候选视频的所述内容分数是基于以下至少之一来确定的：镜头转换的次数、摄像机的运动、场景的数量、出现的人的数量和/或特定的人的出现、人的运动、出现的对象的数量和/或特定对象的出现、对象的运动、信息性文本的数量、以及指示音频类别的音频属性。

2.根据权利要求1所述的方法，其中，所述至少一个参考因子包括所述用户的偏好分数，所述偏好分数指示所述用户对所要推荐的所述至少一个视频中的所述视觉信息和/或所述音频信息的期望程度。

3.根据权利要求2所述的方法，其中，所述偏好分数是基于以下至少之一来确定的：当前时间、当前位置、所述终端设备的配置、所述终端设备的运行状态、以及所述用户的历史观看行为。

4.根据权利要求3所述的方法，其中，

所述终端设备的配置包括以下至少之一：屏幕尺寸、屏幕分辨率、扬声器是否可用、以及是否连接外设耳机，并且

所述终端设备的运行状态包括以下至少之一：以静音模式运行、以非静音模式运行、以及以驾驶模式运行。

5.根据权利要求3所述的方法，其中，所述偏好分数是通过用户侧模型来确定的，所述用户侧模型采用以下特征中的至少一个：时间、位置、所述终端设备的配置、所述终端设备的运行状态、以及所述用户的历史观看行为。

6.根据权利要求1所述的方法，其中，所述至少一个参考因子包括对所述视频推荐的默认或当前服务配置的指示。

7.根据权利要求6所述的方法，其中，所述默认或当前服务配置包括以静音模式或以非静音模式提供所要推荐的所述至少一个视频。

8.根据权利要求1所述的方法，其中，所述至少一个参考因子包括来自所述用户的用户输入，所述用户输入指示所述用户对所要推荐的所述至少一个视频中的所述视觉信息和/或所述音频信息的期望程度。

9.根据权利要求8所述的方法，其中，所述用户输入包括以下至少之一：

对所要推荐的所述至少一个视频中的所述视觉信息和/或所述音频信息的所述优选重要性的指定；

对所要推荐的所述至少一个视频的类别的指定；以及

用于搜索视频的查询。

10.根据权利要求1所述的方法，其中，每个候选视频的所述内容分数是进一步基于所述候选视频的视频元数据来确定的。

11.根据权利要求1所述的方法，其中，每个候选视频的所述内容分数是通过内容侧模型来确定的，所述内容侧模型采用以下特征中的至少一个：镜头转换的次数、摄像机的运动、场景的数量、出现的人的数量和/或特定的人的出现、人的运动、出现的对象的数量和/或特定对象的出现、对象的运动、信息性文本的数量、以及指示音频类别的音频属性。

12.根据权利要求1所述的方法，其中，每个候选视频的所述内容分数是通过基于深度学习的内容侧模型来确定的，所述内容侧模型是通过一组训练数据来训练的，每个训练数据由视频和所标记的内容分数形成，所标记的内容分数指示所述视频中的视觉信息和/或音频信息的重要性。

13.根据权利要求1所述的方法，其中，每个候选视频的所述排序分数是通过排序模型来确定的，所述排序模型至少采用以下特征：至少一个参考因子；以及候选视频的内容分数。

14.根据权利要求1所述的方法，其中，所述确定每个候选视频的所述排序分数还基于以下至少之一：多个其他用户对所述候选视频的使用状况；以及所述候选视频的内容与所述用户的兴趣之间的相关性。

15.根据权利要求1所述的方法，其中，所述视频推荐是在客户端应用或服务提供网站中提供的。

16.一种用于提供视频推荐的装置，包括：

参考因子确定模块，用于确定用于所述视频推荐的至少一个参考因子，所述至少一个参考因子指示所要推荐的至少一个视频中的视觉信息和/或音频信息的优选重要性；

内容分数确定模块，用于确定候选视频集中的每个候选视频的内容分数，所述内容分数包括指示所述候选视频中的视觉信息的重要性的子分数和指示所述候选视频中的音频信息的重要性的子分数，或者所述内容分数包括指示所述候选视频中的视觉信息和音频信息之间的相对重要程度的单个分数；

排序分数确定模块，用于至少基于所述至少一个参考因子和候选视频的内容分数来确定所述候选视频集中的每个候选视频的排序分数；

推荐视频选择模块，用于至少基于所述候选视频集中的候选视频的排序分数，从所述候选视频集中选择至少一个推荐视频；以及

推荐视频提供模块，用于通过终端设备向用户提供所述至少一个推荐视频，

17.一种用于提供视频推荐的装置，包括：

一个或多个处理器；以及

存储器，其存储计算机可执行指令，所述计算机可执行指令在被执行时，使得所述一个或多个处理器：

通过终端设备向用户提供所述至少一个推荐视频，