CN101634996A

CN101634996A - 基于综合考量的个性化视频排序方法

Info

Publication number: CN101634996A
Application number: CN200910102127A
Authority: CN
Inventors: 徐颂华; 江浩; 金涛; 刘智满
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2009-08-13
Filing date: 2009-08-13
Publication date: 2010-01-27

Abstract

本发明公开了一种基于综合考量的个性化网络视频排序方法。包括以下步骤：1)对通过网络搜索获得的视频中的每两个，计算其视频内容中的图像相似度；2)计算其说明部分的文本相似度；3)计算其视频内容中的音频相似度；4)根据以上相似度，利用人工神经网络，计算两个视频间的总体相似度；5)根据用户历史观看记录和视频间的综合相似度，对每个视频估计其用户兴趣度；6)对搜索得到的视频，按照用户兴趣度从大到小排列。本发明有效地将用户的喜好结合在视频搜索过程中，并综合考虑了视频内容及相关网页中的诸多因素，使得最终的视频排序结果更加接近用户的期待结果。

Description

基于综合考量的个性化视频排序方法

技术领域

本发明涉及计算机信息与多媒体检索领域，尤其涉及一种基于综合考量的个性化视频排序方法。

背景技术

在当前，在线网络视频已经成为了最为丰富的因特网资源之一。目前，用户从互联网找到视频主要是通过关键字的搜索：它对所有用户都返回同样的搜索结果。但这并不是最好的方法，因为收看视频的人与人之间各不相同，最好的搜索结果应该是根据用户的兴趣来排名。在2008年ACM推荐系统会议中公布的一篇论文“个性化的在线文档、图像与视频推荐”(“Personalized online document，image and video recommendation”)提出了一个样本学习的算法，以解决诸如需要的个性化的视频建议。其中的一个关键步骤是该算法利用了成对视频内容的相似度。在本发明中，我们提出了一种新的视频相似度模型可以更可靠地估计成对视频内容的相似度。以此获得的比较精确的视频相似度，我们可以产生一个更准确的个性化的视频排名，更加逼近个人用户的视频观看兴趣，因为一个优秀的视频内容相似度估计在基于内容的视频检索中发挥了至关重要的作用。

发明内容

本发明的目的是克服现有技术的不足，提供一种基于综合考量的个性化视频排序方法。

基于综合考量的个性化网络视频排序方法包括以下步骤：

1)计算通过网络搜索获得的视频内容中的图像相似度；

2)计算通过网络搜索获得的视频内容中文字说明部分的文本相似度；

3)计算通过网络搜索获得的视频内容中的音频相似度；

4)根据以上相似度，利用人工神经网络，计算两个视频间的总体相似度；

5)根据用户历史观看记录和视频间的综合相似度，对每个视频估计用户兴趣度；

6)对搜索得到的视频，按照用户兴趣度从大到小排列。

所述的计算通过网络搜索获得的视频内容中的图像相似度步骤：

(a)对用户给定的视频搜索关键词，使用现有的网络视频搜索工具或网站进行搜索，并保存其搜索结果中的前50～200个视频文件及其视频的文字说明部分的文本；

(b)对已保存搜索结果中的每两个视频v1和v2，利用有效视频相似度度量方法计算视频内容相似度VC1；

(c)对已保存搜索结果中的每两个视频v1和v2，使用基于内容的视频相似度计算方法计算视频内容相似度VC2。

所述的计算通过网络搜索获得的视频内容中文字说明部分的文本相似度步骤：

(d)对已保存搜索结果中的每两个视频v1和v2，使用余弦估计法计算文字说明部分之间的文本相似度DT1；

(e)对已保存搜索结果中的每两个视频v1和v2，使用杰卡德方法计算文字说明部分之间的文本相似度DT2；

(f)对已保存搜索结果中的每两个视频v1和v2，使用引申杰卡德方法计算文字说明部分之间的文本相似度DT3；

(g)对已保存搜索结果中的每两个视频v1和v2，使用基于欧式距离的文本相似度估算方法计算文字说明部分之间的文本相似度DT4；

所述的计算通过网络搜索获得的视频内容中的音频相似度步骤：

(h)对已保存搜索结果中的每两个视频v1和v2，使用基于内容的音频分类、搜寻与检索方法计算所含音频之间的相似度AS1；

(i)对已保存搜索结果中的每两个视频v1和v2，使用通过图建模与匹配的音频相似度度量方法计算所含音频之间的相似度AS2；

(j)对已保存搜索结果中的每两个视频v1和v2，使用基于音频与网页相似度度量方法计算所含音频之间的相似度AS3；

所述的根据以上相似度，利用人工神经网络，计算两个视频间的总体相似度步骤：

(k)对搜索得到的每个视频，提取出该视频每隔1秒时该帧的图像，将从所有视频中提取的所有图像使用非负矩阵因数分解法进行聚类，将所有图像分为5个集合；

(l)对得到的5个图像集合，确定每个集合中的核心图像；核心图像定义为在该图像集合中与其他所有图像的距离总和最小的一个图像；两个图像间的距离定义为图像在通过放缩为相同尺寸后，两个图像中所有对应坐标处的像素颜色RGB分量差的总和；

(m)对搜索得到的每个视频v，计算它的特征向量F(v)：

F(v)＝(n1/n，n2/n，n3/n，n4/n，n5/n)

其中，n为该视频在步骤(k)-(l)中提取出的图像个数，n1，n2，n3，n4，n5分别为n个图像中隶属于5个集合的图像个数；

(n)建立一个人工神经网络，用于计算两个视频v1，v2的总体相似度；该网络输出为一个取值在[0，1]间的实数，表示v1，v2间的总体相似度；其输入包括v1，v2间的特征向量之差F(v1)-F(v2)，以及它们间的多种相似度：VC1，VC2，DT1，DT2，DT3，DT4，AS1，AS2，AS3；

(o)准备500～3000个样本视频，不断随机抽取3个视频a，b，c，由人工标定3个视频中内容更为接近的2个，设a，b更接近，则记为(a，b)＜(a，c)与(a，b)＜(b，c)；反复随机抽取与标定，直至保证样本视频中的任意两个视频对可以通过不等式的传递性来推论判定哪一对的视频内容更为接近；若对于两对视频(x，y)与(z，w)，(x，y)＜(z，w)与(x，y)＞(z，w)均可以从人工标定结果与不等式传递性来推论得出，则记之为(x，y)＝(z，w)；

(p)随机选择步骤(o)的样本视频中的90％作为训练集，其余10％作为测试集，使用遗传算法对步骤(n)中建立的人工神经网络进行训练；其中在每一次训练后，对训练集中的每一对视频使用该网络计算其总体相似度；对任意两个视频对U1＝(x，y)与U2＝(z，w)，若网络计算得到的结果与用户标定结果不同且在用户标定结果中(x，y)≠(z，w)，则对U1，U2的计算误差为E(U1，U2)＝1；若网络计算得到的结果与用户标定结果不同且在用户标定结果中(x，y)＝(z，w)，则对U1，U2的计算误差为E(U1，U2)＝0.5；否则，E(U1，U2)＝0；

(q)使用训练完毕后的人工神经网络，计算搜索得到的视频间的总体相似度；

所述的根据用户历史观看记录和视频间的综合相似度，对每个视频估计用户兴趣度步骤：

(r)使用一个定制的视频播放器或网页浏览器，记录用户在其观看过的每个视频v上所花费的观看时间，记为t(v)；

(s)对搜索结果中的每个视频vx，估计其用户兴趣度I(vx)：

I (vx) = \frac{Σ_{i = 1}^{k} (t (v_{i}) Sim (v_{i}, vx))}{Σ_{i = 1}^{k} Sim (v_{i}, vx) + e}

其中，Sim(x，y)代表两个视频x，y间的总体相似度，e为一个很小的正数以确保分母不为0；在这里假设用户观看过k个视频：v1，v2，...，vk；

所述的对搜索得到的视频，按照用户兴趣度从大到小排列步骤：

(t)对搜索结果中的所有视频，按照步骤(s)中估计得到的用户兴趣度，从大到小排列，作为面向该用户的个性化网络视频搜索结果。

本发明有效地将用户的喜好结合在网络视频的搜索过程中，使得最终的视频搜索结果更加接近用户期待的检索内容，从而使得网络视频搜索引擎与视频网站能为用户提供更好的个性化服务。

附图说明

附图是基于综合考量的个性化网络视频排序方法的实施例系统流程结构图；

具体实施方式

基于综合考量的个性化网络视频排序方法包括以下步骤：

1)计算通过网络搜索获得的视频内容中的图像相似度；

3)计算通过网络搜索获得的视频内容中的音频相似度；

6)对搜索得到的视频，按照用户兴趣度从大到小排列。

(b)对已保存搜索结果中的每两个视频v1和v2，利用有效视频相似度度量方法计算视频内容相似度VC1，(见2003年IEEE视频技术电路与系统学报(IEEE Transactions on Circuits and Systems for Video Technology)上一篇文章“利用视频签名的视频相似度有效度量方法”(“Efficient video similaritymeasurement with video signature”))；

(c)对已保存搜索结果中的每两个视频v1和v2，使用基于内容的视频相似度计算方法计算视频内容相似度VC2，(见2000年ACM多媒体会议(Proceedings ofACM International Conference on Multimedia)论文集中的一篇文章“基于内容的视频相似度模型”(“Content-based video similarity model”))。

(d)对已保存搜索结果中的每两个视频v1和v2，使用余弦估计法计算文字说明部分之间的文本相似度DT1，(见相似度开源工具包(Simpack))；

(e)对已保存搜索结果中的每两个视频v1和v2，使用杰卡德方法(Jaccardmethod)计算文字说明部分之间的文本相似度DT2，(见相似度开源工具包(Simpack))；

(f)对已保存搜索结果中的每两个视频v1和v2，使用引申杰卡德方法(extended Jaccard method)计算文字说明部分之间的文本相似度DT3，(见相似度开源工具包(Simpack))；

(g)对已保存搜索结果中的每两个视频v1和v2，使用基于欧式距离的文本相似度估算方法计算文字说明部分之间的文本相似度DT4，(见相似度开源工具包(Simpack))。

(h)对已保存搜索结果中的每两个视频v1和v2，使用基于内容的音频分类、搜寻与检索方法计算所含音频之间的相似度AS1，(见在1996年IEEE多媒体杂志(IEEE Multimedia)的一篇文章“基于内容的音频分类、搜寻与检索”(“Content-based classification，search，and retrieval of audio”))；

(i)对已保存搜索结果中的每两个视频v1和v2，使用通过图建模与匹配的音频相似度度量方法计算所含音频之间的相似度AS2，(见2006年ACM多媒体会议(Proceedings of ACM International Conference on Multimedia)论文集中的一篇文章“通过图建模与匹配的音频相似度度量”(“Audio similaritymeasure by graph modeling and matching”))；

(j)对已保存搜索结果中的每两个视频v1和v2，使用基于音频与网页相似度度量方法计算所含音频之间的相似度AS3，(见2007年ACM信息检索研究与发展会议(Proceedings of ACM SIGIR on Research and Development inInformation Retrieval)论文集中的一篇文章“一个基于音频与网页相似度度量的音乐搜索引擎”(“A music search engine built upon audio-based and web-basedsimilarity measures”))。

(k)对搜索得到的每个视频，提取出该视频每隔1秒时该帧的图像，将从所有视频中提取的所有图像使用非负矩阵因数分解法(Non-negative matrixfactorization)进行聚类，将所有图像分为5个集合；

(m)对搜索得到的每个视频v，计算它的特征向量F(v)：

F(v)＝(n1/n，n2/n，n3/n，n4/n，n5/n)

(s)对搜索结果中的每个视频vx，估计其用户兴趣度I(vx)：

I (vx) = \frac{Σ_{i = 1}^{k} (t (v_{i}) Sim (v_{i}, vx))}{Σ_{i = 1}^{k} Sim (v_{i}, vx) + e}

实施例

如附图所示，该实施例系统包括前台端和前台端两部分，前台端包括自定义视频搜索引擎界面10，网络视频排序结果90；后台端包括网络视频初始排名20，视频内容相似度计算30，音频相似度计算40，说明文字相似度计算50，人工神经网络60，视频总体相似度70，视频用户兴趣度估计80。

自定义视频搜索引擎界面10：通过插件的形式，在现有的网络资源浏览器如Firefox，Internet Explorer中嵌入一个可记录用户每次搜索视频时观看每个视频的时间的模块。

网络视频初始排名20：对用户给定的视频搜索关键词，使用现有的网络视频搜索工具或网站如谷歌(Google)，YouTube等进行搜索，并保存其搜索结果中的前50～200个视频文件及其视频的说明部分的文本。

视频内容相似度计算30，包括以下步骤：

1)对已保存搜索结果中的每两个视频v1和v2，使用发表在2003年IEEE视频技术电路与系统学报(IEEE Transactions on Circuits and Systems for VideoTechnology)上一篇文章“利用视频签名的视频相似度有效度量方法”(“Efficientvideo similarity measurement with video signature”)里提出的方法计算他们之间的视频内容相似度，记为VC1(v1，v2)；

2)对已保存搜索结果中的每两个视频v1和v2，使用发表在2000年ACM多媒体会议(Proceedings of ACM International Conference on Multimedia)论文集中的一篇文章“基于内容的视频相似度模型”(“Content-based video similaritymodel”)里提出的方法计算他们之间的视频内容相似度，记为VC2(v1，v2)。

音频相似度计算40，包括以下步骤：

3)对已保存搜索结果中的每两个视频v1和v2，使用发表在1996年IEEE多媒体杂志(IEEE Multimedia)的一篇文章“基于内容的音频分类、搜寻与检索”(“Content-based classification，search，and retrieval ofaudio”)中提到的方法计算它们所含音频之间的相似度，记为AS1(v1，v2)；

4)对已保存搜索结果中的每两个视频v1和v2，使用发表在2006年ACM多媒体会议(Proceedings of ACM International Conference on Multimedia)论文集中的一篇文章“通过图建模与匹配的音频相似度度量”(“Audio similaritymeasure by graph modeling and matching”)中提到的方法计算它们所含音频之间的相似度，记为AS2(v1，v2)；

5)对已保存搜索结果中的每两个视频v1和v2，使用发表在2007年ACM信息检索研究与发展会议(Proceedings of ACM SIGIR on Research andDevelopment in Information Retrieval)论文集中的一篇文章“一个基于音频与网页相似度度量的音乐搜索引擎”(“A music search engine built upon audio-basedand web-based similarity measures”)中提到的方法计算它们所含音频之间的相似度，记为AS3(v1，v2)。

说明文字相似度计算50，包括以下步骤：

6)对已保存搜索结果中的每两个视频v1和v2，使用通用相似度开源工具包(Simpack)中提供的余弦估计法计算它们说明部分之间的文本相似度，记为DT1(v1，v2)；

7)对已保存搜索结果中的每两个视频v1和v2，使用通用相似度开源工具包(Simpack)中提供的杰卡德方法(Jaccard method)计算它们说明部分之间的文本相似度，记为DT2(v1，v2)；

8)对已保存搜索结果中的每两个视频v1和v2，使用通用相似度开源工具包(Simpack)中提供的引申杰卡德方法(extended Jaccard method)计算它们说明部分之间的文本相似度，记为DT3(v1，v2)；

9)对已保存搜索结果中的每两个视频v1和v2，使用通用相似度开源工具包(Simpack)中提供的基于欧式距离的文本相似度估算方法计算它们说明部分之间的文本相似度，记为DT4(v1，v2)。

人工神经网络60，在实施例中，我们使用了一个4层的人工神经网络，其中输入层为两个网络视频间的相似度和视频特征数据：包括9个均表示为0～1之间实数的相似度和表示两个视频的特征向量之差的5个实数；其中9个均表示为0～1之间实数的相似度分别为VC1(v1，v2)，VC2(v1，v2)，DT1(v1，v2)，DT2(v1，v2)，DT3(v1，v2)，DT4(v1，v2)，AS1(v1，v2)，AS2(v1，v2)，AS3(v1，v2)；其中计算每个视频的特征向量F(v)的步骤为：

10)对搜索得到的每个视频，提取出该视频每隔1秒时该帧的图像，将从所有视频中提取的所有图像使用非负矩阵因数分解法(Non-negative matrixfactorization)进行聚类，将所有图像分为5个集合；

11)对得到的5个图像集合，确定每个集合中的核心图像；核心图像定义为在该图像集合中与其他所有图像的距离总和最小的一个图像；两个图像间的距离定义为图像在通过放缩为相同尺寸后，两个图像中所有对应坐标处的像素颜色RGB分量差的总和；

12)对搜索得到的每个视频v，计算它的特征向量F(v)：

F(v)＝(n1/n，n2/n，n3/n，n4/n，n5/n)

其中，n为该视频在步骤10)-11)中提取出的图像个数，n1，n2，n3，n4，n5分别为n个图像中隶属于5个集合的图像个数；

其输出层为一个0～1间的实数，表示两个视频间的总体相似度估计值；在这个神经网络中的另外两层中的每个神经元均为一个sigmod函数，相邻两层间的每两个神经元均相连；利用反向传播算法(back-propagation)，不断在后台使用样本数据对其进行训练，其中神经网络的计算误差估计步骤包括：

13)准备500～3000个样本视频，不断随机抽取3个视频a，b，c，由人工标定3个视频中内容更为接近的2个，设a，b更接近，则记为(a，b)＜(a，c)与(a，b)＜(b，c)；反复随机抽取与标定，直至保证样本视频中的任意两个视频对可以通过不等式的传递性来推论判定哪一对的视频内容更为接近；若对于两对视频(x，y)与(z，w)，(x，y)＜(z，w)与(x，y)＞(z，w)均可以从人工标定结果与不等式传递性来推论得出，则记之为(x，y)＝(z，w)；

14)随机选择步骤13)的样本视频中的90％作为训练集，其余10％作为测试集，使用遗传算法对步骤12)中建立的人工神经网络进行训练；其中在每一次训练后，对训练集中的每一对视频使用该网络计算其总体相似度；对任意两个视频对U1＝(x，y)与U2＝(z，w)，若网络计算得到的结果与用户标定结果不同且在用户标定结果中(x，y)≠(z，w)，则对U1，U2的计算误差为E(U1，U2)＝1；若网络计算得到的结果与用户标定结果不同且在用户标定结果中(x，y)＝(z，w)，则对U1，U2的计算误差为E(U1，U2)＝0.5；否则，E(U1，U2)＝0。

视频总体相似度70：对两个网络视频，由人工神经网络60计算出的它们之间的总体相似度，取值范围为0～1间的实数。

视频用户兴趣度估计80，包括以下步骤：

15)使用一个定制的视频播放器或网页浏览器，记录用户在其观看过的每个视频v上所花费的观看时间，记为t(v)；

16)对搜索结果中的每个视频vx，估计其用户兴趣度I(vx)：

I (vx) = \frac{Σ_{i = 1}^{k} (t (v_{i}) Sim (v_{i}, vx))}{Σ_{i = 1}^{k} Sim (v_{i}, vx) + e}

其中，Sim(x，y)代表两个视频x，y间的总体相似度，e为一个很小的正数以确保分母不为0；在这里假设用户观看过k个视频：v1，v2，...，vk。

网络视频排序结果90：对搜索结果中的所有视频，按照步骤16)中估计得到的用户兴趣度，从大到小排列后的排序结果。

以上所述仅为本发明的基于综合考量的个性化网络视频排序方法的较佳实施例，并非用以限定本发明的实质技术内容的范围。本发明的基于综合考量的个性化网络视频排序方法，其实质技术内容是广泛的定义于权利要求书中，任何他人所完成的技术实体或方法，若是与权利要求书中所定义者完全相同，或是同一等效的变更，均将被视为涵盖于此专利保护范围之内。

Claims

1.一种基于综合考量的个性化网络视频排序方法，其特征在于包括以下步骤：

1)计算通过网络搜索获得的视频内容中的图像相似度；

3)计算通过网络搜索获得的视频内容中的音频相似度；

6)对搜索得到的视频，按照用户兴趣度从大到小排列。

2.根据权利要求1所述的一种基于综合考量的个性化网络视频排序方法，其特征在于所述的计算通过网络搜索获得的视频内容中的图像相似度步骤：

3.根据权利要求1所述的一种基于综合考量的个性化网络视频排序方法，其特征在于所述的计算通过网络搜索获得的视频内容中文字说明部分的文本相似度步骤：

(g)对已保存搜索结果中的每两个视频v1和v2，使用基于欧式距离的文本相似度估算方法计算文字说明部分之间的文本相似度DT4。

4.根据权利要求1所述的基于综合考量的个性化网络视频排序方法，其特征在于所述的计算通过网络搜索获得的视频内容中的音频相似度步骤：

(j)对已保存搜索结果中的每两个视频v1和v2，使用基于音频与网页相似度度量方法计算所含音频之间的相似度AS3。

5.根据权利要求1所述的一种基于综合考量的个性化网络视频排序方法，其特征在于所述的根据以上相似度，利用人工神经网络，计算两个视频间的总体相似度步骤：

(m)对搜索得到的每个视频v，计算它的特征向量F(v)：

F(v)＝(n1/n，n2/n，n3/n，n4/n，n5/n)

(q)使用训练完毕后的人工神经网络，计算搜索得到的视频间的总体相似度。

6.根据权利要求1所述的一种基于综合考量的个性化网络视频排序方法，其特征在于所述的根据用户历史观看记录和视频间的综合相似度，对每个视频估计用户兴趣度步骤：

(s)对搜索结果中的每个视频vx，估计其用户兴趣度I(vx)：

I (vx) = \frac{Σ_{i = 1}^{k} (t (v_{i}) Sim (v_{i}, vx))}{Σ_{i = 1}^{k} Sim (v_{i}, vx) + e}

7.根据权利要求1所述的一种基于综合考量的个性化网络视频排序方法，其特征在于所述的对搜索得到的视频，按照用户兴趣度从大到小排列步骤：