CN104991966B

CN104991966B - 媒体内容排序方法及系统

Info

Publication number: CN104991966B
Application number: CN201510443152.3A
Authority: CN
Inventors: 丁婉莹; 商玥; 郭立帆; 朴旲焄; 汪灏泓
Original assignee: TCL Technology Group Co Ltd
Current assignee: TCL Technology Group Co Ltd
Priority date: 2014-07-29
Filing date: 2015-07-24
Publication date: 2020-10-27
Anticipated expiration: 2035-07-24
Also published as: US20160034460A1; CN104991966A

Abstract

本发明提供了一种媒体内容排序方法及系统。其中，所述方法包括：通过网络获取媒体内容并且提取所述媒体内容的特征值。然后，使用参数优化学习方法来自动获取媒体内容在相关和不相关程度的分布。进一步的，基于上述获取的媒体内容在相关和不相关程度上的分布，通过多臂赌博机算法对获取的媒体内容进行排序。

Description

媒体内容排序方法及系统

技术领域

本发明涉及数据处理及用户交互技术领域，尤其涉及一种媒体内容的排序方法及系统。

背景技术

排序是数据科学中经典搜索类别中的一种。在现有的排序方法中，人们一般简单的使用元数据，例如题目，作者或者关键词作为记录条目来排列项目顺序。随着数据的爆炸性增长，人们需要更有效率的排序方法来帮助他们更快和更准确的获得相关的信息。

但是，在当前社交评价系统中使用的一些排序算法中对于输入特征具有很多的限制。社交媒体信息具有大容量、高速、类型多样，变化形式多的特点。以现有的经典排序算法“网页排序”(PageRank)为例，“网页排序”需要获取网页资源信息以及与其他网页的超连接信息。但在一些情况下，这样的信息无法获得。例如，当用户想要依据评论的帮助程度对评论进行排序时，“网页排序”算法是无能为力的，因为无法获取到作者主观的评论以及其超连接信息。

本发明公开的方法及其系统用于解决现有技术中的一个或者多个问题

发明概述

本发明一方面公开了一种媒体内容排序方法。所述方法包通过网络获取媒体内容并且提取所述媒体内容的特征值。然后，使用参数优化学习方法来自动获取媒体内容在相关和不相关程度的分布。进一步的，基于上述获取的媒体内容在相关和不相关程度上的分布，通过多臂赌博机算法对获取的媒体内容进行排序。

本发明另一方面还公开了一种媒体内容排序系统。所述系统包括：特征提取模块，用于提取获取的媒体内容的特征值，以及自学习模块，用于使用参数优化学习方法来自动获取媒体内容在相关和不相关程度的分布。进一步的，所述系统还包括排序模块，用于依据上述获取的媒体内容在相关和不相关程度上的分布，通过多臂赌博机算法对获取的媒体内容进行排序。

本发明的其他方面，所属技术领域技术人员能够依据本发明的权利要求书，说明书，以及附图有效实施并充分公开。

附图简要说明

图1为本发明具体实施例中的工作系统。

图2为本发明具体实施例中的电子计算系统。

图3为本发明具体实施例中个性化视频内容推送系统的结构框图。

图4为本发明具体实施例中向用户推送个性化信息的方法流程图。

图5为本发明具体实施方式中依据正态CDF分布函数在1-10之间赋值的示意图。

图6为本发明具体实施例的概率函数模型的示意图。

详细说明

附图中展示的部分将被引用以具体说明，阐述本发明具体技术实施方案。说明书中引用的数字代表附图的相应部分。

图1展示了本发明具体实施方式中的工作系统100。如图1所示，所述工作系统100中包括有：电视机(TV)102、智能手机104、服务器106、用户108、网络系统110。当然，还可以包括其他合适的设备。

电视机102可以是任何合适类型的电视机，例如等离子电视，LCD电视，背投式电视，智能电视或者非智能电视。电视机102还可以包括其他计算系统，例如个人电脑，掌上电脑或者智能手机等。进一步的，电视机102可以是任何合适在一个或者多个频道中展示多个节目的内容展示设备。

智能手机104可以是IOS系统手机，安卓手机，黑莓手机或者其他具备网页浏览功能的移动计算设备。

进一步的，所述服务器106可以是任何合适类型的服务器或者向用户108提供个性化媒体内容的服务器。所述服务器还可以为智能手机104和/或电视机102提供通信、数据存储以及数据处理功能上的辅助。电视机102和/或智能手机104以及服务器106可以通过一个或者多个网络系统，例如有线网络、手机网络和/或卫星网络等建立连接。

用户108可以通过电视机102或者智能手机104观看多个节目、浏览网页或者进行其他感兴趣的活动。用户108可以是单独的一个用户或者是多个，例如一家人一同观看电视节目。

电视机102、智能电话104和/或服务器106可以在任何合适的电子计算平台上运行。图2为本发明具体实施例中用于运行电视机102、智能电话104和/或服务器106的电子计算系统200。

如图2所示，计算系统200可以包括处理模块202、存储模块204、监视器206、通信模块208、数据库210以及外围设备212。所述计算系统可以减省上述设备，也可以添加一些其他类型的设备，而不限于上述设备。

所述处理模块202可以是任何合适的处理器或处理器组。具体的，所述处理模块202为能够进行多线程处理的多核心处理器。存储模块204可以是任何合适的存储设备，例如ROM，RAM，闪存或者大容量存储器，例如CD-ROM，硬盘等。存储模块204用于存储为进行各种数据处理而预设的由处理模块202执行的计算机运行程序。

进一步的，所述外围设备212包括：各种类型的传感器以及输入，输出设备，例如键盘，鼠标。通信模块208包括用于在设备间通过网络系统建立连接的各类网络交互设备。数据库210包括一到多个用于存储不同数据以及对数据进行一些处理，例如搜索数据的数据库。

在线社交评论系统可以集成在智能电视机系统和/或智能手机中，从而协助收集和分享那些能有效的帮助完成购买决定、电影选择、服务和商店选择、租借DVD、购买书籍等等的社交生产信息。图3为本发明具体实施例的个性化视频内容推送系统的结构框图。所述个性化内容推送系统可以依据可使用的媒体内容的排序推荐媒体内容。

如图3所示，所述内容推送系统300可以包括：评论收集模块302、特征提取模块304、自学习模块306、排序模块308、推荐引擎310、流媒体资源收集模块312、用户交互模块314以及视频流渲染模块316。可以减省上述模块，也可以添加一些其他类型的模块。

所述评论收集模块302用于检测至少一个用户关于在内容展示设备上在一个或者多个频道中播出的多种节目的观看评价，并且决定至少一个用户的一系列个性标识。

特征提取模块304可以用于提取评价获取的媒体内容的特征。所述特征提取模块304可以包括范围测量单元3042和特征测量单元3044。所述范围测量单元3042用于依据实体的特征列表生成一个合适的取值范围。所述实体可以包括任何合适类型的媒体内容资源以及其他特定的不同的视频资源(例如，视频资源1、视频资源2……、视频资源n)。所述实体的内容可以包括视频数据以及关于实体的评论(比如电影)。所述特征测量单元3044用于测量在合理取值范围内的特征取值从而区分不同的实体。

所述自学习模块306可以用于执行自动获得获取视频内容在相关和不相关程度的分布的参数学习优化方法。所述自学习模块可以包括概率模型生成单元3062和受限玻尔兹曼机(restricted Boltzman nmachine RBM)运行单元3064。所述概率模型生成单元用于构建一个概率模型并且通过马尔科夫链蒙特卡尔(Markov chain Monte Carlo MCMC)方法推算参数。所述受限玻尔兹曼机(RBM)运行单元3064用于通过RBM执行自学习方法。

所述排序模块308用于通过多臂赌博机(multi-armed bandit MBA)算法，依据所述获取的相关和不相关分布的对获取的媒体内容进行排序。所述排序模块308可以包括期望值计算单元3082、偏差计算单元3084以及期望回报和排序单元3086.所述期望值计算单元3082用于计算每一实体在评论R的期望值

所述偏差计算单元3084可以用于计算计算每一实体在评论R的标准差

置信区间上界为：

其中λ为置信等级(或者置信系数)。简化处理时，可以将λ设为1.所述期望回报和排序单元3086用于计算每个评论的置信区间上界并且依据评论R的置信区间上界对各个评论R进行排序。

基于排序模块308生成的排序结果，所述推荐引擎310向用户推荐个性化的内容。亦即，当排序结果生成后，推荐引擎310可以用于选择视频内容，并向用户108推荐符合其偏好的内容。在一些具体实施例中，推荐引擎310可以进一步的向流媒体资源收集模块312提供选出的视频内容和推荐信息，从而向用户播放视频数据。

基于推荐引擎310的数据，所述流媒体资源收集模块312可以选择最佳的资源来获取视频流，并且控制视频流渲染器回放选出的资源中的视频流。亦即，流媒体资源收集模块312可以运行一个能够预计用户108和/或服务器106或者服务供应商的多种限制条件，选择最优资源，与用户相适应的流媒体资源收集程序。所述用户108的限制条件包括家庭网络环境、终端情况、视频点播(VOD)服务描述等等。所述服务器106或者服务供应商的多种限制条件包括区域位置限制和云计算能力限制等等。

用户交互模块314可以用于执行在任何合适的交互设备上使用，在系统300和用户108之间的交互。所述交互设备包括键盘/鼠标、遥控器、传感器、和/或动作/声音控制器等等。

进一步的，所述视频流渲染模块316可以用于生成个性化视频流并基于流媒体资源收集模块312和实体的配置将所述个性化视频流展示给用户108(例如，通过电视机102)。

在一些具体实施例中，视频流渲染模块316与流媒体资源收集模块312结合，可以通过特定的节目频道推送个性化视频流到电视机102中。亦即，对于特定的用户108而言，一个节目频道可以用于依据在线评论的排序结果向用户推荐视频内容，并且通过特定的频道向用户推送个性化的视频内容。

在实际运行中，个性化内容推送系统300可以通过执行一些具体的程序向用户推送个性化的信息。图4为本发明具体实施例中的一个具体向用户推送个性化信息的程序400的方法流程图。

如图4所示，首先检测用户的观看动作(S402)。例如，用户打开电视机102并与电视机102或者服务器106交互。在检测到用户的动作之后，生成特定的用户输入指令(S404)。

例如，当用户使用可穿戴设备时，例如智能手机，该设备能够与电视机102连接从而改变某些具体的用户数据。若用户仅仅执行打开电视机的操作，上述的那些用户相关的选择程序也会被获取。

进一步的，生成一个或者多个用户的个性标识(S406)。例如，当用户使用可穿戴设备，如手链、手表或者移动电话时，这些设备可以与电视机102无线连接并且将一些用户个性标识数据与电视机102交流，从而生成对应的个性标识。而当电视机102设置有面部或者用户识别功能时，所述个性标识则可以容易的生成。更具体的，当用户使用智能遥控器时，可以准确的获得对应的个性标识，但此时同时观看节目的其他用户的个性标识则可能无法被检测到。

当没有上述支持设备时，虽然电视机观看者的信息无法追踪，但观看历史信息可以揭露出特定的观看模式。所述个性标识也可以依据内容相关性以及关联程度生成。例如，某用户每天都观看肥皂剧，但是有时候是其自己控制遥控器，有时则是由其他人控制。在这一情况下，就可以通过模式挖掘来获得用户的观看模式。

在个性标识生成后，基于所述个性标识，收集或者决定可用的视频内容(S408)。亦即，通过系统300执行视频内容收集(如，服务器106)。

进一步的，系统300依据所述收集的视频内容生成候选视频内容。(S410)。

另外，系统300可以使用自排序算法(Self-Rank)，结合生成的候选视频内容来对评论进行排序并且依据自排序算法生成的排序结果向一个或者多个用户推荐个性化的视频内容。(S412)

所述自排序算法对于输入特征没有任何限制。用户可以定义任何类型的特征进行排序。例如，为了对在线评论进行排序，用户可以使用评论的长度、评论的熵、评论的情感倾向、评论的可读性作为排序特征。而为了对电影进行排序，用户可以使用喜爱演员的信息，情节描述以及上映时间作为排序特征。因此，每一实体可以通过如下所示的一系列的特征表示：

……

其中E_n表示第n个实体，f_nj表示第n个实体的第j个特征。

一般的，使用二值特征衡量方法(即0和1)来表示特征。如果某一实体符合标准，将在该实体的特征赋值为1，否则赋值为0。但采用这种方法存在的问题为：有许多不同的实体具有相同的特征列表，特别是，在特征的数量有限而需要分析的实体数量非常多的情况下。另外，采用上述方法区分实体也过于粗糙。例如，当评论长度标准设定为9个单词时，10个单词的评论与100个单词的评论的赋值相同，这显然是不合理的。

所述自排序算法可以允许用户将特征的赋值控制在合理的范围内。以评论的长度为例，如果存在1000个评论，其长度的平均值为μ_Len，评论长度的平均差为σ_len，在默认绝大多数评论分布服从正态分布的理论前提下，可以构建一个评论长度的正态分布N_len(μ_Len,σ_len)。因此，每个评论都能够依据累积分布函数(CDF)获得相应的值。图5为依据正态CDF分布在1-10之间赋值的具体实施例。

如图5所示，连续概率分布的累积分布函数的赋值范围为1到10。由此，所述自排序算法使用全部特征来对各个项目进行排序并且对于每一特征均无特定的要求。所以，用户在特征维度上具有最大的自由度和灵活度。另外，所述赋值方法能够帮助区分不同的实体，提升排序结果的质量。

构建概率函数模型来实现参数优化学习并且使用MCMC来推算这些参数。

为了确定一个实体是否相关，引入潜在变量h∈{0,1}来表示实体的相关程度。由于相关/不相关程度是一个二项式分布问题，因此可以选择使用贝尔塔分布(Beta)。即，潜在变量h服从贝尔塔分布。

图6为本发明具体实施例的概率函数模型。如图6所示，假设需要对R个实体进行排序，总计包括F个特征。所有的R个实体在相关/不相关程度上服从通过潜在变量h来表示的贝尔塔分布。潜在变量h在特征上服从多项式分布。所述潜在变量h是其中一项待测值，f为已知的特征向量，θ和φ是需要推算的参数，τ和η为超参数。

所述模型的生成步骤如下：

步骤1：对于每个潜在变量h，依据超参数η生成对应的分布φ₁。

φ₁～Dir(η) (4)

步骤2：对于每个实体r，依据超参数τ生成对应的贝尔塔分布。

f_r～Beta(τ) (5)

步骤2-1：通过更新(τ)和(η)，更新超参数。

步骤2-2：对于在特定评论中的每一特征情况f，依据评论在相关/不相关程度上的分布生成对应的标签l_r,f。

l_r,f～Bern(θ) (6)

步骤2-3：对于每一特征情况，依据上述辅助标签l_r,f以及特征在相关/不相关程度上的分布φ₁生成相应的特征。

f～Mult(φ_l,l_r,f) (7)

使用吉布斯采样来完成上述计算过程。所述吉布斯采样是在直接采样比较困难时，一种获取基本源自于一个特定的多项概率分布中的一系列观测点的一种MCMC算法。依据如上所述的模型，所述模型的概率方程可以定义如下：

然后，通过贝叶斯变换，可以获得公式9：

其中，N_r,l为由辅助标签l标记的在评论r中的特征数，τ_r,l为第r个评论在辅助标签l中的超参数。

为辅助标签l标记的特征i的数量；而η_l,i为第i个特征的第l个标签的超参数。

进一步的，对于每个实体，可以通过计算标记有相关性标签以及不相关性的特征数量来获得参数π～θ(a,b)。

更具体的，在上述的概率模型中，问题在于如何求解模型中的超参数τ和η。另外，超参数的取值会影响最终的结果。所述自排序算法可以自动学习并完成超参数的赋值。可以使用RBM来完成这样的一些机器学习过程。

经典的RBM是一个拓展的神经网络，包括两层，其中一层为隐藏层(系统需要去学习的潜在变量)，另一层为可视层(例如，系统已知并设定好的用户的电影偏好)。进一步的，每一可视单元均与所有的隐藏单元连接(这些连接并非直接连接，所以每一隐藏单元也同时与所有可视单元连接)。在隐藏层h_j以及可视层v_i之间，存在连接可视单元与隐藏单元的权重W＝(w_i,j)的对称矩阵。另外，存在两种其他的变量a_i和b_j，其中a_i是可视单元的偏移量，b_j是隐藏单元的偏移量。

在RBM中，隐藏单元的激励值是相互独立的，由可视单元的激励值给定，相反地，可视单元的激励值也是相互独立的，由隐藏单元的激励值给定。其中，设置v₁为观测数据(例如训练样本)；w_i,j是i和j之间的连接权重，初始值由正态分布N(0,0.01)所决定；a_i由1.0/N开始，其中N是可视节点的总数，b_j由0开始；σ(x)表示逻辑斯蒂函数(logistic sigmoidfunction)σ(x)＝1/(1+exp(-x))。RBM的迭代步骤具体如下：

步骤1：对于每个隐藏单元，其独立的激励值(即在给定可视单元v₁的排布前提下，隐藏单元h_1,j的排布的条件概率)可以通过如下算式计算：

p(h_1,j＝1|v₁)＝σ(a_i+Σ_iv_1,i*w_i,j) (10)

其中，v₁设置为观测数据，连接权重w_i,j初始值由正态分布N(0,0.01)所决定。σ表示逻辑斯蒂函数，可视单元的偏移量a_i从1.0/M开始。

步骤2：对于每个可视单元，其独立的激励值(即在给定隐藏单元h₁的排布前提下，隐藏单元v_2,i的排布的条件概率)可以通过如下算式计算：

p(v_2,i＝1|h₁)＝σ(b_j+Σ_jh_1,j*w_i,j) (11)

其中，连接权重w_i,j初始值由正态分布N(0,0.01)所决定，σ表示逻辑斯蒂函数，隐藏单元的偏移量b_j从0开始。

步骤3：对于每个隐藏单元，其独立的激励值(即在给定可视单元v₂的排布前提下，隐藏单元h_2,j的排布的条件概率)可以通过如下算式计算：

p(h_2,j＝1|v₂)＝σ(a_i+Σ_iv_2,i*w_i,j) (12)

其中，连接权重w_i,j初始值由正态分布N(0,0.01)所决定；σ表示逻辑斯蒂函数，可视单元的偏移量a_i从1.0/M开始。

因此，所述潜在变量的优化过程可以表示如下：

W＝W+lr*(p(h₁＝1|v₁)v₁ ^T-p(h₂＝1|v₂)v₂ ^T) (13)

a＝a+lr*(v₁-v₂) (14)

b＝b+lr*(p(h₁＝1|v₁)-p(h₂＝1|v₂)) (15)

其中，lr为学习频率，p(h₁＝1|v₁)v₁ ^T用于衡量系统希望通过对训练样本的在线学习所获得的可视单元与隐藏单元之间的连接情况。由于RBM是依据它关于单独的隐藏单元在步骤3的假设生成可视单元的情况。p(h₂＝1|v₂)v₂ ^T用于衡量当没有单元能够填充到训练数据中时，网络自身生成的连接情况。

所述权重向量W可以用于推算辅助特征分布的超参数η，对于特征f_i，辅助标签l_j的先验分布可以通过如下算式计算：

其中，κ为将范围η_i,j适度放大的放大系数。

p(h₁＝1|v₁)和p(h₂＝1|v₂)的值用于推算超参数τ。对于每个评论r，其辅助标签l_j的先验分布可以通过如下算式计算：

因此，可以自动获取每个实体在相关/不相关程度上的分布。对这些实体的排序方法包括如下步骤：

由于每个实体都作为一个独立的分布，可以使用多臂赌博机算法来对这些项目进行排序。所述多臂赌博机是一种帮助赌博者决定采用玩老虎机的顺序，解决老虎机的赌博下注问题从而使总回报最大化的算法。有许多方法可以实现MAB，而置信区间上界1(UCB1)算法是其中最经典的一种。所述UCB1可以得到评论的一致的对数返回界(logarithmicregret)并且不需要任何关于回报分布的先验知识。

采用UCB1的方法为：将多个评论R作为多个独立的老虎机，每个老虎机i可以通过分布P_i描述。每次选择具有最大置信区间上界的老虎机。即，选择的老虎机一般是之前的回报较高，或者是不确定性较高的老虎机。当然，所述UCB1并不过分在乎不确定性的部分，只是希望通过选择不确定的来获得更高的回报。由此，回报的平均值可以作为置信区间上界。

事实上，每个实体的回报平均值μ_Γ可以通过其期望

和标准差

推算出。由切比雪夫不等式可得：

进一步的，当λ足够大时，有下述的不等式：

因此，所述置信区间上界为

为简化计算，将λ设置为1，在每个实体的期望值和标准差都获得后，可以依据其置信区间上界进行排序。

依据上述概率模型，每个实体的服从贝尔塔分布Beta(π_Γ)的相关/不相关分布可以确定。这一分布可以用于辅助完成排序任务。每个实体均有一个贝尔塔分布参数向量π(π_r,α,π_r,β)，其中π_r,α和π_r,β是相互独立的，π_r,α表示对应评论的有用概率，而π_r,β表示无用概率。当计算得出每个评论的参数向量π_r后，评论的期望值和标准差可以通过如下算式计算：

其中，形状参数α,β>0。

继续参阅图4，基于推荐内容和/或用户选择，所述系统300可以向用户推送个性化的视频内容(S414)。例如，所述系统300可以生成基于个性标识的配置信息和从特定内容池中选出的推荐内容的视频流。所述视频流传送到电视机102以及一个或多个用户中。电视机102可以在一个特定的为个性化内容设置的频道中播放这些视频流。亦即，所述个性化内容会被推荐并且在上述特定频道中播放以便于用户可以观看到感兴趣的节目而无需转换频道。当然，也可以在多个频道中播放这些个性化内容。

另外，所述视频流也可以基于某些用户的特定情况生成。例如，在较低带宽的网络环境区域中，高清(HD)视频内容并不适用，并且通过服务器106进行解码以保证获取的视频流能够流畅的重放和具有合适的观看体验。其他的具体环境情况也可以用于配置所述视频流。

进一步地，增加或者可选择的，系统300检测视频的质量以及其他相关的情况(S416)。例如，系统300可以探测家庭中的网络情况以及家庭成员使用的设备的能力，从而将视频流的质量以及内容解码量考虑作为推荐内容的限制条件。这样的环境信息反馈到系统300中以便于推荐的内容能够在特定环境的限制下良好运行。

所述系统300还可以判断用户是否需要持续观看个性化内容频道(S418)，当系统300认为用户需要持续的接收个性化内容的传递(S418，为是时)，从S404开始重复执行方法400。当系统300认定用户不想继续接收个性化内容(S418为否时)方法400执行完毕。

本发明所述的方法及其系统也可以应用于其他带有播放功能的设备中，例如智能手机、掌上电脑、个人电脑、智能手表等等。亦即，本发明所述方法不仅仅可以应用于传递个性化视频内容的系统中，也可以作为一项功能，整合到其他的系统中，例如社交媒体系统、其他的内容推荐系统、信息检索系统、或者其他用户交互系统等等。

通过使用本发明所述的方法及其系统，在通过网络(例如因特网)获取媒体内容或者信息实体(例如图片、网页、文件等等)后，所述特征提取模块可以提取获取的实体的特征值。例如，在社交媒体内容系统中，在系统获取媒体内容实体后，所述特征提取模块可以将特征的衡量值确定在一个合理的范围内，依据正态累积分布函数区分不同的特征。所述自学习模块可以执行参数学习优化程序。所述参数学习优化程序在没有外界影响下，通过使用由MCMC方法构建的概率模型所实现，从而自动的获得获取的实体在相关/不相关程度上的分布。

然后，依据获得的实体在相关/不相关程度上的分布，所述排序模块通过多臂赌博机算法对获取的实体进行排序。特别的，所述实体依据置信区间上界

进行排序。其中λ为置信参数，

为所述多个实体的期望，

为所述多个实体的标准差。

给定每个实体对应的贝尔塔分布参数向量π(π_r,α,π_r,β)。所述多个实体的期望值

和标准差

分别通过如下算式计算：

其中，每个实体的参数向量π_r是已知的，π_r,α表示对应评论的有用概率，而π_r,β表示无用概率；并且形状参数α,β>0。

可以引用如上所描述的，能够应用在个性化视频内容传递系统的其他步骤。更具体的，依据排序好的实体，所述系统可以向至少一个用户推荐位于最高位的实体或者向用户展示排序内容。例如在社交媒体推荐系统中，可以向用户推荐个性化的社交媒体信息(例如Face book，Twitter等等)。在问答系统中，可以向用户提供符合其偏好的个性化回答以解决用户的问题。

其他任何将本发明所述系统和方法应用于不同领域，进行改进，替换，调整的具体技术实施方案都是本领域普通技术人员不需要通过创造性劳动就能实现的。