CN102495873A

CN102495873A - 一种基于视频情感特征与会话模型的视频推荐方法

Info

Publication number: CN102495873A
Application number: CN2011103915507A
Authority: CN
Inventors: 牛建伟; 朱沥可
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2011-11-30
Filing date: 2011-11-30
Publication date: 2012-06-13
Anticipated expiration: 2031-11-30
Also published as: CN102495873B

Abstract

本发明提出一种基于视频情感特征与会话模型的视频推荐方法，采用视频的情感特征作为比较的基础，首先从视频及其附属音轨中提取多种情感特征，合成诱力-激励曲线图(V-A图)，再均一化V-A图，并将均一化V-A图划分为固定数量且大小相同的区块，确定各分块的颜色直方图，根据两幅图像对应位置的两个分块颜色直方图的差和阈值比较，得到区块差和覆盖差，最后得出两个视频的相似度值，对相似度值聚类处理的结果作为视频推荐结果，本方法还采用会话模型在用户连续观看过程中，对视频推荐结果进行更新。本发明方法可以使视频推荐结果更加符合用户当前的情感状态，并提高了用户对于推荐的视频的点击观看率和连续观看视频个数。

Description

一种基于视频情感特征与会话模型的视频推荐方法

技术领域

本发明属于多媒体处理领域，涉及视频的图像与声音分析、情感特征提取及相似度比较以及会话模型的建立，具体是一种基于视频情感特征与会话模型的视频推荐方法。

背景技术

基于内容的视频信息提取(Content Based Video Retrieval，简称CBVR)方法使用视频中的特征来获得用户感兴趣的视频，这一领域相对而言已经较为成熟。而视频情感内容的分析处理则是CBVR中最近兴起的一个方向，但是对其进行的研究正在不断增加。这一方向将视频处理和情感计算综合在一起，为视频内容的组织和信息挖掘提供了新的视角。情感计算的目的是通过赋予计算机识别、理解、表达和适应人的情感的能力来建立和谐人机环境，并使计算机具有更高的、全面的智能。

其中一种较为有效的处理方法为基于情感空间的情感内容分析方法。Hanjalic等人提出了一种诱力-激励(Valence-Arousal)模型，来对视频的情感特征进行描述(参考文献1：Hanjalic，A.，Li-Qun，X.，Affective Video Content Representation and Modeling，IEEE Tran.on Multimedia，2005)。他们通过从视频中提取图像、音频上的部分特征，并将特征进行处理后投射于一个二维情感空间中。这些特征组成的曲线，即“情感曲线”，能够用来可靠地检测用户情感状态的变化。Sun等人通过使用高斯混合模型和模糊逻辑等方法，将这一方法进行了扩充和改进(参考文献2：Sun，K.，Yu，J.，Huang，Y.，Animproved valence-arousal emotion space for video affective content representationand recognition.ICME 2009)。

视频推荐是一个根据视频特征相似度大小，将不同于当前播放视频，但是从某些特征角度而言与当前视频相似的视频筛选出来的过程。已有的一些视频推荐方法，如Dimitrova等人提出的方法，利用两个视频间对应帧的平均距离作为相似度，并规定视频帧序列遵守时间顺序，以此给出所推荐视频(参考文献3：Nevenka Dimitrova and Mohamed Abdel-Mottaleb.Content-based video retrieval by example video clip.SPIE 3022.1997)。Koren等人提出的解决Netflix推荐问题的方法，则利用已有的用户观看历史数据推测用户喜好，并给出相应的相似度和推荐结果(参考文献4：Yehuda Koren.Factorizationmeets the neighborhood：a multifaceted collaborative filtering model.SIGKDD2008.)。这些方法达到了较好的效果，但是他们考量的因素均较为有限，如以大量样本作为依据，而较少考虑用户个人的喜好。

随着近年来在线视频数量的爆炸式增长，视频本身作为一种信息量更大的媒体，越来越多的出现在了网站、微博上。被互联网视频网站所使用的个性化推荐系统，基本使用源自于用户个人观看记录的数据和视频描述信息进行视频相似度的比较和视频推荐。这些系统利用的视频信息包括视频的来源、标题文本相似度等，但是对视频本身内容则很少进行分析。传统的互联网视频分享网站，例如Youtube、优酷等，大量利用视频的元数据和相关的文本描述信息，如视频标题、人工标注的标签、分类名称等，来进行相似视频的分辨和推荐工作。其他的一些网站，如Netflix等，借助于大量用户的行为数据进行聚类和推荐，而这种分类往往忽略了视频的内容，以及用户对于视频在满足其观看情感程度上的需求。

发明内容

本发明针对目前的视频推荐方法往往忽略了视频的内容，也忽略了用户对于视频在满足其观看情感程度上的需求的问题，提出了一种基于视频情感特征与会话模型的视频推荐方法。

本发明提出的基于视频情感特征与会话模型的视频推荐方法，采用视频的情感特征作为比较的基础，具体视频推荐方法包括以下步骤：

步骤1：对视频库中的每个视频，从该视频及其附属音轨中提取情感特征，包括帧运动量、镜头切变、声音能量和平均声音基频，根据获得的情感特征确定情感诱力和激励函数，合成诱力-激励(Valence-Arousal)曲线图，简称为V-A图。步骤2：将视频产生的V-A图进行均一化操作，通过使V-A图中所有像素按照一定比例缩放，并落在同一区间内，产生均一化V-A图。

步骤3：将各视频的均一化V-A图划分为固定数量且大小相同的区块，记每个视频的分块总数为N。分别计算每一块中的颜色直方图，得到分块颜色直方图。

步骤4：从视频库中选取两幅未进行相似度比较的视频的均一化V-A图，将选取的两幅均一化V-A图中对应相同位置的分块颜色直方图分为一组，设置一个计数器db，且该计数器db的值设置为零。

步骤5：从当前选取的两幅均一化V-A图中选择一组尚未进行处理的分块颜色直方图，统计分块颜色直方图中所有不为0的像素值所包含的像素数，作为分块颜色直方图的非空白像素部分值，然后标记该组中的两个分块颜色直方图为已处理；所述的两个直方图要求位于不同的两幅均一化V-A图的对应相同位置上。判断该组中的两个分块颜色直方图的非空白像素部分值是否都为零，若是，则转步骤7进行，否则，执行步骤6。

步骤6：将步骤5中得到的一组中的两个分块颜色直方图的非空白像素部分值作差，若差值大于设定的阈值，将计数器db的值加1，然后执行步骤7，否则不对db进行操作，直接执行步骤7。

步骤7：判断当前选取的两幅均一化V-A图中是否存在未处理的分块颜色直方图，若存在，转步骤5执行，否则执行步骤8。

步骤8：统计当前选取的两幅均一化V-A图产生的分块颜色直方图中非空白像素部分值不为零的分块数目，记为C1和C2。

步骤9：获得区块差diff_block＝db/N，以及覆盖差diff_cov＝|C1-C2|/N。

步骤10：确定当前选取的两幅均一化V-A图的相似度值，根据相似度函数得到：

s＝w_block(1-diff_block)+w_cov(1-diff_cov)

其中，w_block为区块差阈值，w_cov为覆盖差阈值。

步骤11：判断视频库中是否存在未进行相似度比较的视频，若有，转步骤4执行，若不存在，则根据得到的所有相似度值，通过谱聚类法对视频库中的视频进行聚类处理并得到聚类结果。每个聚类中的视频彼此将具有情感相似性。

步骤12：用户在观看某个视频的时候，按照该视频所属的聚类，将同一聚类中的其他视频作为推荐结果显示给用户，在用户连续观看过程中，通过会话模型对视频推荐结果进行更新。

所述的步骤12中在用户连续观看过程中，通过会话模型对视频推荐结果进行更新的具体步骤为：

步骤1.1：初始化会话模型：将用户初始选择的视频的均一化V-A图，作为初始演化V-A图，记为EVAG(0)，并清空计时器T；结束观看第k个视频后得到的演化V-A图记为EVAG(k)，k≥1。

步骤1.2：在用户观看完当前第k个视频后，判断用户是否继续观看第k+1个视频，若否，则结束本方法，若是，记录用户当前结束观看的第k个视频的两个属性值：视频被播放的次数和视频被用户所评价的得分，对两个属性值分别进行均一化处理，具体是：将视频被播放次数除以视频库中播放次数最多的视频的播放次数，将视频被用户所评价的得分除以视频库中所有视频被用户所评价的最高分，然后将均一化的两个属性值相加并除以2，与用户当前结束观看的第k个视频的均一化V-A图中的每个像素点相乘，得到经过加权的均一化V-A图。

步骤1.3：在用户观看完当前第k个视频后，记录计时器T的值t，得到用户开始观看第k个视频到当前时间点之间的时间差，并确定时间衰减函数a(t)的值：a(t)＝1/ln(e+t)。

步骤1.4：将a(t)的值与当前的演化V-A图EVAG(k-1)中的所有像素点依次相乘，获得经过时间衰减函数处理的演化V-A图EVAG(k-1)。

步骤1.5：将步骤1.2中经过加权的均一化V-A图和步骤1.4中经过时间衰减函数处理的演化V-A图EVAG(k-1)中对应的像素点相加，并进行均一化处理，得到观看完第k个视频后的演化V-A图EVAG(k)。

步骤1.6：将演化V-A图EVAG(k)与视频库中的视频进行情感特征相似度比较，将与演化V-A图EVAG(k)处于同一聚类的视频作为视频推荐结果推荐给用户。

步骤1.6所述的将演化V-A图EVAG(k)与视频库中的视频进行情感特征相似度比较，具体是将演化V-A图EVAG(k)作为一个均一化V-A图，并按照所述的步骤3进行分块，然后重复步骤4到10得到EVAG(k)与视频库中各视频的相似度，然后再根据步骤11进行视频聚类处理，将与演化V-A图EVAG(k)处于同一聚类的视频作为视频推荐结果推荐给用户。

本发明的视频推荐方法的优点与积极效果在于：

(1)本发明方法通过使用视频的情感特征对视频进行聚类和推荐，相对于传统方法使用视频视觉内容或用户历史行为信息等方案，能够更加准确地向用户提供满足其情感状态的视频，提升用户的视频观看体验。

(2)本发明方法通过使用激励和诱力特征产生V-A图，将视频情感特征的提取和比较问题转化为一个图像的比较问题，相对于传统的函数分析方式能够进行针对图像特征的分析，更加简单且高效地进行比较。

(3)本发明方法提出了使用均一化V-A图和分块颜色直方图比较的方法对情感特征图像进行比较，相对于传统的图像比较方法，在保持准确度和性能的前提下更加简单和易于实现。

(4)本发明方法提出了一种基于用户观看历史的会话模型，相对于传统的静态模型，能够动态地调整聚类和推荐的参数，以更加符合用户当前的情感状态。

附图说明

图1为本发明的基于视频情感特征与会话模型的视频推荐方法应用场景的示例图；

图2为某个视频的V-A图的示意图；

图3为本发明的视频推荐方法的整体步骤流程图；

图4为采用本发明的视频推荐方法中步骤三中对均一化V-A图的划分的示意图；

图5为本发明的视频推荐方法中步骤十二采用会话模型进行视频推荐结果更新的步骤流程图；

图6为本发明的视频推荐方法同互联网视频网站常用的推荐方法所产生的平均点击率的对比图；

图7为本发明的视频推荐方法同互联网视频网站常用的推荐方法所产生的平均会话长度的对比图。

具体实施方式

下面将结合附图和实例对本发明作进一步的详细说明。

本发明提出了一种基于视频情感特征与会话模型的视频推荐方法，能够较为准确高效地让用户寻找到符合用户情感状态并希望观看的视频和包含它们的网站，从而寻找出视频、网页等内容之间的相似联系。

本发明提出的一种基于视频情感特征与会话模型的视频推荐方法，其应用场景为用户在互联网上进行视频检索和观看的过程。下面通过一个简单的例子来说明视频推荐的过程。如图1所示，视频库中包含12个视频。假设初始时，用户没有在视频库中观看过任何视频。采用本发明方法将进行如下操作：1)通过对视频内部的图像和声音特征，提取并计算出每个视频的诱力和激励特征，并合成产生V-A图。2)针对每一个V-A图，确定其中像素的颜色最大和最小值，并按照这些极值进行均一化操作，产生均一化V-A图，使得图中每个像素点的颜色值落在特定范围内。3)将均一化V-A图划分为特定数量且大小相同的区块，并为每一个区块分别计算颜色直方图。4)枚举视频库中的视频进行两两相互比较，从两个视频产生的均一化V-A图中取得对应位置的区块。若取得的一对区块中含有非零像素点，则计算该对区块的颜色直方图之差，并设置阈值。当一对分块颜色直方图之差大于阈值时，则说明这两个区块表达的情感状态存在明显差异，否则认为这两个区块表达的情感状态相同。5)统计两个视频产生的均一化V-A图中，分块颜色直方图非空白像素部分值为零，即区块内部中所有像素均为空白像素的区块数目，与第4)步中产生的分块颜色直方图之差进行加权，得到两个视频的相似度。6)对视频库中的12段视频所产生的66个视频相似度值进行聚类运算，得到如图1所示的3个聚类，分别包含3、4、5个视频。认为每一个聚类中的视频拥有相似的情感状态。

当用户观看第一个聚类中的某个视频A时，系统将以该视频的均一化V-A图作为初始的演化V-A图EVAG(0)。时间t后用户选择观看第二个视频，那么视频A的均一化V-A图将与视频A的总播放次数、评分等参数共同作用，而EVAG(0)将与时间衰减量a(t)共同作用，两者之和进行均一化以后产生EVAG(1)。EVAG(1)将代表用户当前的情感状态，成为第13个均一化V-A图参与聚类处理。通过聚类处理后，将含有这一均一化V-A图EVAG(1)的那个聚类中的视频返回给用户，进行下一步的观看选择。用户后续的观看行为以此类推。从上述例子可以看出，用户观看视频过程中，情感特征成为了推荐视频的理由，使得用户能够寻找到符合他们情感状态的视频内容。视频推荐过程中涉及到对均一化V-A图像的处理，步骤简单。而演化V-A图的引入使得用户的情感状态随着观看视频的喜好而得以表达，通过跟踪用户的观看历史来了解用户的情感状态变化，进而向用户推荐适合其当前情感状态的视频内容。

本发明提出的一种基于视频情感特征与会话模型的视频推荐方法，采用视频的情感特征作为比较的基础，其流程如图3所示，具体包括如下步骤：

步骤一：收集视频，形成视频库，针对视频库中每个视频，从视频及其附属音轨中提取多种情感特征，计算诱力和激励函数，并合成诱力-激励曲线图，简称V-A图。所述的提取的多种情感特征包括帧运动量、镜头切变率、声音能量和平均声音基频。本发明方法中通过处理计算宏块的运动向量来得到帧运动，并通过运动向量的属性来判断画面变化的剧烈程度，从而得出帧运动量。用镜头边界检测的方式计算镜头切变率。声音能量从视频的音轨中得到。平均声音基频通过采用YIN算法从视频的音轨中得到。视频的某一帧产生的情感状态会在V-A图中留下一个点，这个点出现次数越多，就表示这个视频中这种情感状态出现得越多，视频的整体情感越倾向于此V-A状态。从图像处理的角度来看，情感状态越密集重复的区域，V-A图的色彩会更深，而在情感状态较少得区域，颜色就较浅。

步骤二：将视频产生的V-A图进行均一化操作，产生均一化V-A图。均一化V-A图通过使视频产生的V-A图中所有像素按照一定比例缩放，使得所有V-A图中的像素值都落在同一区间内。所述的缩放比例为V-A图中像素点颜色最大值，同一区间指[0，1]区间。本发明提出的方法将V-A图中的每一个像素点与缩放比例相除，所得结果生成一个新的图，图中每个像素点值均落在[0，1]区间之内，称新的图为均一化V-A图。

步骤三：将均一化V-A图划分为固定数量且大小相同的区块，记分块总数为N。根据实验分析结果，所述的固定数量为12。划分过程中，将均一化V-A图按图像宽等分为4段，按图像高等分为3段，共分成12个区块，如图3所示。分别计算每一区块中的颜色直方图，即分块颜色直方图。

步骤四：从视频库中选择两幅未进行相似度比较的视频的均一化V-A图，所选取的V-A图来自不同的视频。设置一个计数器db，并设置该计数器db的值为零。将选取的两幅均一化V-A图中对应相同位置的两个分块颜色直方图分为一组，本发明实施例中共有12组。

步骤五：对未处理的一组分块颜色直方图的非空白像素部分值进行统计，并标记这组中的两个分块颜色直方图为已处理。若该组中的两个直方图非空白像素部分值均为零，则转步骤七执行，否则，继续执行步骤六。所述的分块颜色直方图的非空白像素部分值，是通过统计该分块颜色直方图中所有不为0的像素值所包含的像素数得到。像素值为0的像素即为V-A图中没有情感状态经过的像素点，若一个像素点有情感状态经过，则像素值不为0。

步骤六：计算步骤五中得到的一组中的两个分块颜色直方图的非空白像素部分值的差值。若对于差值大于特定阈值的分块，将计数器db的值增大1，否则不对db进行操作。根据实验分析结果，所述的阈值为50。转步骤五。

步骤七：判断当前选取的两幅均一化V-A图中是否存在未处理的分块颜色直方图，若存在，转步骤五执行，否则执行步骤八。

步骤八：统计当前选取的两幅均一化V-A图产生的分块颜色直方图中非空白像素部分值不为零的分块数目，记为C1和C2。

步骤九：获得区块差diff_block和覆盖差diff_cov。

其中，区块差diff_block＝db/N，覆盖差diff_cov＝|C1-C2|/N。

步骤十：确定当前选取的两幅均一化V-A图的相似度值，两幅均一化V-A图的相似度值也就是对应的两个视频的相似度值。

相似度的计算公式为：s＝w_block(1-diff_block)+w_cov(1-diff_cov)；其中w_block为区块差阈值，w_cov为覆盖差阈值。本发明方法，根据实验分析结果，优选设置w_block为0.6，w_cov为0.4。

步骤十一：判断视频库中是否存在未进行相似度比较的视频，若有，转步骤四执行，若不存在，此时得到了视频库中任意两个视频之间的相似度值，通过特定的聚类方法得到聚类结果。本发明使用的聚类方法为谱聚类法。每个聚类中的视频彼此将具有情感相似性。例如，图1中得到三个聚类，聚类1中包含有视频1～3，聚类2中包含视频4～7，聚类3中包含视频8～12。

步骤十二：用户在观看某个视频的时候，按照该视频所属的聚类，将同一聚类中的其他视频作为推荐结果显示给用户。通过会话模型根据用户的连续观看行为对视频推荐结果进行更新。用户在结束观看第k个视频后更新演化V-A图EVAG(k)，然后将结束观看第k个视频后得到的演化V-A图EVAG(k)作为一个新的均一化V-A图，按照步骤3中所述方法进行分块，然后转步骤4执行，k≥1。

在步骤十二中，采用会话模型对用户的连续观看行为进行描述，并对视频推荐结果进行更新，流程如图5所示，具体包括如下步骤：

步骤1.1：初始化会话模型。通过用户选择得到初始视频的均一化的V-A图，初始化会话，建立演化V-A图，记为EVAG(0)。初始化会话的过程指清空计时器T，并将用户选择的初始视频的均一化的V-A图作为第一个演化V-A图EVAG(0)，此时，采用本发明视频推荐方法的视频推荐结果为用户选择的初始视频所在的聚类中的视频。演化V-A图在每观看完一个视频后进行更新。用户结束观看第1个视频后得到的演化V-A图记为EVAG(1)，在结束观看第2个视频后得到的演化V-A图记为EVAG(2)，以此类推，结束观看第k个视频后得到的演化V-A图记为EVAG(k)，k≥1。

步骤1.2：在用户观看完第k个视频后，判断用户是否继续观看第k+1个视频，若否，则结束本方法，若是，记录用户当前结束观看的第k个视频中对用户会话能够产生影响的属性值，作为该视频的均一化V-A图的权重，k≥1。能够产生影响的属性值指视频被播放的次数和视频被用户所评价的得分。将这两个属性进行均一化，即将视频被播放次数除以视频库中播放次数最多的视频的播放次数，将视频被用户所评价的得分除以视频库中所有视频得到的最高分。将这两个均一化后的属性相加并除以2，与第k个视频的均一化V-A图中的每个像素点相乘，得到经过加权的均一化V-A图。

步骤1.3：在用户观看完当前第k个视频后，记录计时器T的值t。所述的值t为用户当前观看完的第k个视频的开始观看时间与当前时间点之间的时间差t，计算时间衰减函数a(t)的值。根据实验分析结果，本发明采用a(t)＝1/ln(e+t)作为时间衰减函数。所述的当前时间点是指用户在观看完第k个视频以后，要选择第k+1个视频进行观看的时候。

步骤1.4：获取经过时间衰减函数a(t)作用后的演化V-A图EVAG(k-1)，即将a(t)的值与EVAG(k-1)中的所有像素点依次相乘，得到新的EVAG(k-1)图。

步骤1.5：将步骤1.2中经过加权的均一化V-A图和步骤1.4中得到的演化V-A图EVAG(k-1)中的对应位置的像素点相加得到一个新的V-A图，并进行均一化处理，得到用户在观看完第k段视频后的演化V-A图EVAG(k)。具体本步骤中的均一化处理，是将得到的V-A图中像素点的颜色最大值作为缩放比例，将V-A图中的每一个像素点与缩放比例相除，生成一个新的图，图中每个像素点值均落在[0，1]区间之内。

步骤1.6：将演化V-A图EVAG(k)与视频库中视频进行情感特征相似度比较，得到与当前会话中与用户情感状态相似的视频聚类。具体将演化V-A图EVAG(k)当做一个普通的均一化V-A图，然后按照本发明方法步骤三进行分块，然后重复步骤四到十得到EVAG(k)与视频库中各视频的相似度，然后再根据步骤十一进行视频聚类处理，将与演化V-A图EVAG(k)处于同一聚类的视频作为视频推荐结果推荐给用户。

下面将结合附图和实例说明本发明提出的视频推荐方法相比互联网视频网站常用的推荐方法的改进，所述的互联网视频网站常用的推荐方法是指1)随机-所推荐视频为随机从视频库中选择；2)观看次数最多-所推荐视频为视频库中被播放次数最多的视频；3)评分最高-所推荐视频为视频库中被用户评分最高的视频；4)无会话的情感相似度聚类-采用最初的聚类结果所得到的基于情感的视频聚类，而不使用会话改变推荐参数。

如图6所示，为本发明的视频推荐方法同互联网视频网站常用的推荐方法所产生的平均点击率的对比图。实验场景为：一个视频库含有从互联网上随机下载的1245段来自互联网站的视频。这些视频均为随机选择下载，播放时长从5秒至2小时17分钟不等，共计137小时57分37秒。本发明在实验过程中招募了30名志愿者参与测试。志愿者的男女比例为1∶1，平均年龄是24.3岁，都拥有学士或以上的学位，并且都熟悉互联网视频网站的使用。视频内容包含新闻、体育视频、原创视频、娱乐节目等等。一个web前端采用A/B测试的方法以相同的概率选择执行用于对比的5种方法，并向其展示推荐结果。用户对其所使用的推荐方法不知情。Web前端通过记录用户在连续的一周时间内对推荐结果的点击情况，判断用户对推荐结果的满意程度。某一种方法的推荐结果点击率越高，表明该结果让用户更加满意。图6表明采用本发明方法能够大幅度提高用户的点击率。

图7为本发明的视频推荐方法同互联网视频网站常用的推荐方法所产生的平均会话长度的对比图。实验场景与本发明的视频推荐方法同互联网视频网站常用的推荐方法所产生的平均点击率对比的场景相同。根据实验结果，当用户使用本发明的视频推荐方法时，在用户结束观看视频之前，将会有5.2个视频被观看。相比较而言，其他进行对比的方法中“观看次数最多”的会话长度仅为2.6。根据调查，2010年北美地区的互联网用户平均每天观看6.1个视频。据实验所得到的结果，本发明的视频推荐方法能够稳定地向用户提供平均5.2个具有相似情感特征的视频，能够满足普通用户每天的观看习惯。同时，由于本发明的视频推荐方法使用会话将视频观看的行为进行分段，每个会话提供情感状态类似的视频，而用户每天的情感状态不止一种，因此用户可以多次使用本发明方法来得到对应于不同情感状态的视频，每天的视频观看量也能够上升。

通过将本发明方法与现有的互联网视频网站常用的推荐方法比较，可以发现，采用本发明方法能够提高用户的点击率，提高用户观看视频的个数，满足用户每天的观看习惯。

Claims

1.一种基于视频情感特征与会话模型的视频推荐方法，采用视频的情感特征作为比较的基础，其特征在于，具体视频推荐方法包括如下步骤：

步骤1：对视频库中的每个视频，从该视频及其附属音轨中提取情感特征，包括：帧运动量、镜头切变率、声音能量和平均声音基频，根据获得的情感特征确定情感诱力和激励函数，合成诱力-激励曲线图，简称V-A图；

步骤2：对各视频产生的V-A图进行均一化操作，使V-A图中所有像素比例缩放后落在同一区间内，生成均一化V-A图；

步骤3：将各视频的均一化V-A图分块，每个视频的分块总数都为N，且各视频的各分块的大小都相同，分别计算每个分块中的颜色直方图，得到分块颜色直方图；

步骤4：设置一个计数器db，且该计数器的值置为零，然后从视频库中选取两幅未进行相似度比较的视频的均一化V-A图，将选取的两幅均一化V-A图中对应相同位置的分块颜色直方图分为一组；

步骤5：选择一组尚未进行处理的分块颜色直方图，统计分块颜色直方图中所有不为0的像素值所包含的像素数，作为分块颜色直方图的非空白像素部分值，然后标记该组中的两个分块颜色直方图为已处理，判断该组中的两个分块颜色直方图的非空白像素部分值是否都为零，若是，则转步骤7进行，否则，执行步骤6；

步骤6：将步骤5中得到的一组中的两个分块颜色直方图的非空白像素部分值作差，若差值大于设定的阈值，将计数器db的值加1，然后执行步骤7，否则不更新计数器db，直接执行步骤7；

步骤7：判断当前选取的两幅均一化V-A图中是否存在未处理的分块颜色直方图，若存在，转步骤5执行，否则执行步骤8；

步骤8：统计当前选取的两幅均一化V-A图中的分块颜色直方图的非空白像素部分值不为零的分块数目，记为C1和C2；

步骤9：获得区块差diff_block＝db/N，以及覆盖差diff_cov＝|C1-C2|/N；

步骤10：确定当前选取的两幅均一化V-A图的相似度值，所述的相似度根据下式获得：

s＝w_block(1-diff_block)+w_cov(1-diff_cov)

其中，w_block为区块差阈值，w_cov为覆盖差阈值；

步骤11：判断视频库中是否存在未进行相似度比较的视频，若有，转步骤4执行，若不存在，则根据得到的所有相似度值，通过谱聚类法对视频库中的视频进行聚类处理，每个聚类中的视频彼此具有情感相似性；

步骤12：用户在观看某个视频的时候，按照该视频所属的聚类，将同一聚类中的其他视频作为推荐结果显示给用户，在用户连续观看过程中，使用会话模型对视频推荐结果进行更新。

2.根据权利要求1所述的一种基于视频情感特征与会话模型的视频推荐方法，其特征在于，步骤2中所述的均一化操作，具体是：将V-A图中像素点颜色最大值作为缩放比例，将V-A图中的每一个像素点与缩放比例相除，生成一个新的图，图中每个像素点值均落在[0，1]区间之内。

3.根据权利要求1所述的一种基于视频情感特征与会话模型的视频推荐方法，其特征在于，步骤3中所述的分块总数N为12，具体是对每个均一化的V-A图，沿图像宽等分为4段，沿图像高等分为3段。

4.根据权利要求1所述的一种基于视频情感特征与会话模型的视频推荐方法，其特征在于，步骤6中所述的阈值为50。

5.根据权利要求1所述的一种基于视频情感特征与会话模型的视频推荐方法，其特征在于，步骤10中所述的w_block即区块差阈值为0.6，w_cov即覆盖差阈值为0.4。

6.根据权利要求1所述的一种基于视频情感特征与会话模型的视频推荐方法，其特征在于，步骤12中所述的使用会话模型对视频推荐结果进行更新，具体步骤为：

步骤1.1：初始化会话模型：将用户初始选择的视频的均一化V-A图，作为初始演化V-A图，记为EVAG(0)，并清空计时器T；结束观看第k个视频后得到的演化V-A图记为EVAG(k)，k≥1；

步骤1.2：在用户观看完当前第k个视频后，判断用户是否继续观看第k+1个视频，若否，则结束本方法，若是，记录用户当前结束观看的第k个视频的两个属性值：视频被播放的次数和视频被用户所评价的得分，对两个属性值分别进行均一化处理，具体是：将视频被播放次数除以视频库中播放次数最多的视频的播放次数，将视频被用户所评价的得分除以视频库中所有视频被用户所评价的最高分，然后将均一化的两个属性值相加并除以2，与用户当前结束观看的第k个视频的均一化V-A图中的每个像素点相乘，得到经过加权的均一化V-A图；

步骤1.3：在用户观看完当前第k个视频后，记录计时器T的值t，得到用户开始观看第k个视频到当前时间点之间的时间差，并确定时间衰减函数a(t)的值：a(t)＝1/ln(e+t)；

步骤1.4：将a(t)的值与当前的演化V-A图EVAG(k-1)中的所有像素点依次相乘，获得经过时间衰减函数处理的演化V-A图EVAG(k-1)；

步骤1.5：将步骤1.2中经过加权的均一化V-A图和步骤1.4中经过时间衰减函数处理的演化V-A图EVAG(k-1)中对应的像素点相加，并进行均一化处理，得到观看完第k个视频后的演化V-A图EVAG(k)；

7.根据权利要求6所述的一种基于视频情感特征与会话模型的视频推荐方法，其特征在于，步骤1.5中所述的均一化操作，具体是：将得到的V-A图中像素点的颜色最大值作为缩放比例，将V-A图中的每一个像素点与缩放比例相除，生成一个新的图，图中每个像素点值均落在[0，1]区间之内。

8.根据权利要求1或7所述的一种基于视频情感特征与会话模型的视频推荐方法，其特征在于，步骤1.6所述的将演化V-A图EVAG(k)与视频库中的视频进行情感特征相似度比较，具体是将演化V-A图EVAG(k)作为一个均一化V-A图，并按照所述的步骤3进行分块，然后重复步骤4到10得到EVAG(k)与视频库中各视频的相似度，然后再根据步骤11进行视频聚类处理，将与演化V-A图EVAG(k)处于同一聚类的视频作为视频推荐结果推荐给用户。