CN101739417A - 多指标综合权重音、视频专辑排序系统 - Google Patents

多指标综合权重音、视频专辑排序系统 Download PDF

Info

Publication number
CN101739417A
CN101739417A CN200810202200A CN200810202200A CN101739417A CN 101739417 A CN101739417 A CN 101739417A CN 200810202200 A CN200810202200 A CN 200810202200A CN 200810202200 A CN200810202200 A CN 200810202200A CN 101739417 A CN101739417 A CN 101739417A
Authority
CN
China
Prior art keywords
index
video album
sound
score
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200810202200A
Other languages
English (en)
Inventor
谭明
杨杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chuanxian Network Technology Shanghai Co Ltd
Original Assignee
Chuanxian Network Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chuanxian Network Technology Shanghai Co Ltd filed Critical Chuanxian Network Technology Shanghai Co Ltd
Priority to CN200810202200A priority Critical patent/CN101739417A/zh
Publication of CN101739417A publication Critical patent/CN101739417A/zh
Pending legal-status Critical Current

Links

Images

Abstract

多指标综合权重音、视频专辑排序系统,包括音、视频专辑数据库,音、视频专辑分析处理模块,主观权重确定模块,客观权重计算模块,根据所述音、视频专辑分析处理模块提供的数据,计算所述主观权重确定模块所确定的排序指标的客观权重;优化决策模块,用于计算每个排序指标的综合权重,指标排序得分计算模块,用于计算每个音、视频专辑对于指标的排序得分;综合得分计算模块,用于计算该音、视频专辑的加权得分值,本发明综合考虑了音、视频专辑多项特征以及用户对音、视频专辑的反馈,能够对音、视频专辑进行智能化的灵活排序,以最佳方式将搜索到的音、视频专辑结果返回给用户。

Description

多指标综合权重音、视频专辑排序系统
技术领域
本发明属于音、视频专辑数据处理领域,特别涉及一种音、视频专辑排序系统。
背景技术
随着互联网的发展,视频的影响力正在逐步增强,互联网上的视频数量也与日俱增。为了便于查找和观看,一些视频网站提供了将多个相关视频制作成一个音、视频专辑的形式的方法,用户只要找到这个音、视频专辑,就可以观看该音、视频专辑中的全部视频,而不需要分别另外查找。但是随着音、视频专辑数量的增加,音、视频专辑名称和标签重复的现象不可避免,因此当某个用户需要查找某个音、视频专辑时,结果中往往出现大量的同名音、视频专辑,让用户无从选择。在传统的视频搜索引擎中,对音、视频专辑的排序仅仅根据文本的相似性进行,将那些描述文本(如音、视频专辑标题,标签等)与查询文本相似的音、视频专辑排在前面返回给用户。
这样的排序结果具有以下不足:
1、一些用户为了提高自己制作音、视频专辑的搜索排名,可能会填充一些与该音、视频专辑无关的热门搜索词汇,影响音、视频专辑搜索的准确性和客观性;
2、影响用户搜索体验,降低对网站的满意度和忠诚度;
3、增加用户点击或搜索次数,加重服务器负担。
鉴于此,一些音、视频专辑网站采用了一些其他排序方式,如按照播放次数排序,音、视频专辑的播放次数越多,排名越靠前。或者按照上传时间、音、视频专辑时长等要素进行排序。这些排序方式从本质上来说,都只采用了一个衡量指标,而忽略了音、视频专辑的其他丰富特性,导致最后搜索排序的结果不能满足用户的真正需求。
因此,目前的排序技术在音、视频专辑搜索的表现形式中过于单一,不能准确反映音、视频专辑的质量和受欢迎程度,难以满足用户的真正搜索需求。
发明内容
为了解决以上问题,本发明提供一种多指标综合权重音、视频专辑排序系统,通过分析音、视频专辑的多重内在指标和用户的反馈信息,构建了一套衡量音、视频专辑质量优劣的指标体系,利用该指标体系对每个音、视频专辑计算其得分,计算结果作为搜索引擎排序依据。
为实现上述目的,本发明采用如下技术方案:
一种多指标综合权重音、视频专辑排序系统,包括:
音、视频专辑数据库,用于保存音、视频专辑原始信息;
音、视频专辑分析处理模块,与所述音、视频专辑数据库相连接,用于对所述音、视频专辑数据库中的音、视频专辑原始信息进行分析和处理;
主观权重确定模块,用于设定排序指标j并给出排序指标j的主观权重;
客观权重计算模块,与所述音、视频专辑分析处理模块和主观权重确定模块相连接,根据所述音、视频专辑分析处理模块提供的数据,计算所述主观权重确定模块所确定的排序指标j的客观权重;
优化决策模块,与所述客观权重计算模块相连接,用于计算每个排序指标j的综合权重wj,其中,
Figure G200810202200XD0000021
wj≥0,
F ( w ) = Σ i = 1 n Σ j = 1 m { μ [ ( w j - a j ) z i ( j ) ] 2 + ( 1 - μ ) [ ( w j - b j ) z i ( j ) ] 2 }
模型F(w)表示各指标排序得分的权重误差平方和,F(w)越小,反映出权重wj越准确,更能刻画各指标之间的关系,aj、bj,j=1、2、…、m分别为指标j的主观和客观权重;0<μ<1为偏好系数;
指标排序得分计算模块,与所述音、视频专辑分析处理模块相连接,用于计算每个音、视频专辑i对于指标j的排序得分zi(j);
综合得分计算模块,与所述优化决策模块和所述指标排序得分计算模块相连接,用于计算该音、视频专辑的加权得分值fi,其公式为:
f i = Σ j = 1 m w j * z i ( j ) , i=1、2、...、n。
本发明能真实客观反映音、视频专辑的内在特性,真正优秀和受用户欢迎的音、视频专辑将排名靠前,旨在解决现有音、视频专辑搜索引擎在排序技术上的不足,使最后排序得分更客观公正。其综合考虑了音、视频专辑多项特征以及用户对音、视频专辑的反馈,能够对音、视频专辑进行智能化的灵活排序,以最佳方式将搜索到的音、视频专辑结果返回给用户。
为了使本发明的目的、技术方法和优点更清晰明白,下面结合附图,对本发明进一步进行详细解释和说明。
附图说明
图1为本发明多指标综合权重音、视频专辑排序系统结构示意图。
具体实施方式
如图1所示,一种多指标综合权重音、视频专辑排序系统,其包括:
音、视频专辑数据库,用于保存音、视频专辑原始信息,该音、视频专辑原始信息可包括音、视频专辑的播放次数、标题、评论数、更新时间、上传人、原创贡献率、订阅数、浏览数等;
音、视频专辑分析处理模块,与所述音、视频专辑数据库相连接,用于对所述音、视频专辑数据库中的音、视频专辑原始信息进行分析和处理,例如将音、视频专辑内容转化成其它处理模块中需要的格式,同时还可对稀疏数据和噪音数据进行处理;
主观权重确定模块,用来确定多个排序指标j,并对这些排序指标j给出主观权重。该主观权重可通过随机调查用户需求,并征求音、视频专辑业内专家意见,确定多个排序指标j,并给出这些排序指标j主观权重。在本实施例中主要采用了文本匹配程度、日均播放次数、最后更新时间、原创贡献率、订阅数、评论数、均衡度等指标作为排序的排序指标j。其中文本匹配程度这一指标由搜索引擎负责度量,在搜索时与本系统计算的排序得分进行整合。可以理解,上述的几个排序指标j只是用来解释本说明,而不是构成本发明对排序指标j选择范围的限制。
客观权重计算模块,与所述音、视频专辑分析处理模块和主观权重确定模块相连接,根据所述音、视频专辑分析处理模块提供的数据,计算所述主观权重确定模块所确定的排序指标j的客观权重。其中所述客观权重可通过熵值法计算得到。熵(entropy)是系统状态不确定性(混沌态)的度量,可被用来度量排序指标j包含信息量的大小。熵越大,说明该排序指标j包含的信息越多,该指标对于音、视频专辑的排序效果就越大,即指标传输的决策信息也就越大,它的权重系数值也就越大。熵值法的优点在于该方法最大程度地利用了评价方案的目标值或属性值来计算各指标的权重系数,因而是较为客观的权重系数赋权方法。
熵值法计算公式如下:
设各指标的客观权重为bj,j=1、2、…、m,则:
b j = ( 1 - h j ) / Σ k = 1 m ( 1 - h k )
其中,
Figure G200810202200XD0000041
为每个指标j的熵;用来刻画所有音、视频专辑对于指标j的分布;zj(i)为每个指标的标准化(规范化)得分;且当pj(i)=0时,规定pj(i)lnpj(i)=0(i=1、2、…、n;j=1、2、…、m)。
优化决策模块,与所述客观权重计算模块相连接,用于计算每个排序指标j的综合权重wj。根据客观权重和主观权重,建立数学模型,并计算其最优解,该最优解就是每个排序指标j的综合权重wj。如果仅仅根据主观权重进行音、视频专辑排序,不能真实准确反映指标的重要程度,往往造成排序结果的不准确。因此为了兼顾主观权重的偏好,又充分利用客观权重带来的客观信息,建立如下优化决策模型:
设各项指标的综合权重为wj,其中,
Figure G200810202200XD0000043
wj≥0,
F ( w ) = Σ i = 1 n Σ j = 1 m { μ [ ( w j - a j ) z i ( j ) ] 2 + ( 1 - μ ) [ ( w j - b j ) z i ( j ) ] 2 } ( * )
模型F(w)表示各指标排序得分的权重误差平方和,F(w)越小,反映出权重wj越准确,更能刻画各指标之间的关系。其中aj、bj,j=1、2、…、m分别为指标j的主观和客观权重。0<μ<1为偏好系数,反映分析者对主观权重和客观权重的偏好程度,这里取μ=0.5。
通过证明知,当综合权重wi=μai+(1-μ)bi,i=1、2、…、m时,模型F(w)得到唯一最优解,即取得最小值。
指标排序得分计算模块,与所述音、视频专辑分析处理模块相连接,用来计算每个音、视频专辑i对于指标j的排序得分zi(j)。本发明中采用的排序指标j有日平均播放次数、更新时间、原创贡献率、被订阅数、被评论数、均衡度,其指标j分别记为1、2、3、4、5、6。下面就排序得分zi(j)的具体计算方法加以说明。
日平均播放次数得分zi(1):
z i ( 1 ) = NORM ( NP ( i ) ) MAX ( NORM ( NP ) ) i = 1,2,3 , . . .
其中,NP(i)为第i个音、视频专辑的日均播放数;MAX({x})(下同)用来计算集合{x}的最大值;
NORM ( x ) = x , x ≤ 100 100 + LOG 2 ( x - 99 ) x > 100 ,
为数学变换函数,对数据量过大的进行处理;LOG2(x)是以2为底的对数变换。
更新时间得分zi(2):
Figure G200810202200XD0000051
其中days(i)为该专辑最后更新时间离现在的天数。该函数是单调递减的分段函数,用来刻画随着最后更新天数的增加,音、视频专辑重要性逐渐降低这一现象。
专辑原创贡献率得分zi(3):
z i ( 3 ) = NORM ( NR ( i ) ) MAX ( NORM ( NR ( i ) ) ) i = 1,2,3 , . . .
其中,NR(i)表示第i个音、视频专辑中的原创视频数目,TOTAL_NR(i)为专辑中的视频总数;专辑中的原创节目越多,该专辑排序越靠前,该指标的设计原则是鼓励用户更多的制作原创专辑。
被订阅数得分zi(4):
z i ( 4 ) = NORM ( NS ( i ) ) MAX ( NORM ( NS ( i ) ) ) i = 1,2,3 , . . .
其中,NS(i)表示第i个音、视频专辑被订阅的次数,其被订阅次数越多,说明越受欢迎,其排名应该越靠前。
被评论次数得分zi(5):
z i ( 5 ) = NORM ( NC ( i ) ) MAX ( NORM ( NC ( i ) ) ) i = 1,2,3 , . . .
其中,NC(i)表示第i个音、视频专辑被评论次数,其被评论次数越多,说明该专辑越热门,其排名应该越靠前。
均衡度得分zi(6):
影响专辑均衡度的因素有播放次数NP(i)、评论数NC(i)、订阅数NS(i)、浏览数NV(i),专辑的均衡度得分指的是各个音、视频专辑被播放、评论、订阅和被浏览次数之间的均衡程度的度量,这四个数字越均衡,说明越能激发用户参与互动的积极性,排序得分越高;反之应该在得分上受到惩罚。该度量指标的引入能够避免用户刻意的在某一项上的作弊行为对节目公正性的影响。均衡度得分zi(6)采用变异系数法来计算,分成以下几步进行:
步骤(1):预处理(无量纲化处理)
通过统计采样计算各个指标的权重,然后初始化NP(i),NC(i),NS(i),NV(i)。本发明中使用的方法是抽样1000个音、视频专辑,分别计算其播放、评论、订阅、浏览的平均数,并以此作为这四个指标的权重,然后针对每个音、视频专辑,用原始的播放、评论、订阅、浏览数分别除以各指标的权重即得到初始化值NP(i),NC(i),NS(i),NV(i)。
步骤(2):计算平均数
X ( i ) = NP ( i ) + NC ( i ) + NS ( i ) + NV ( i ) 4
步骤(3):计算均方差
D ( i ) = ( NP ( i ) - X ( i ) ) 2 + ( NC ( i ) - X ( i ) ) 2 + ( NS ( i ) - X ( i ) ) 2 + ( NV ( i ) - X ( i ) ) 2 4
步骤(4):计算变异系数V(i)
V ( i ) = D ( i ) X ( i )
步骤(5):相对法规范化处理,计算均衡度得分
综合得分计算步骤,利用所述指标排序得分计算步骤计算的每个音、视频专辑对单个排序指标j的得分值和综合权重wj,计算该音、视频专辑的加权得分值fi,其公式为:
f i = Σ j = 1 m w j * z i ( j ) , i=1、2、...、n。
应当说明的是,本发明中的模块即可以内置于搜索引擎中,也可以独立于搜索引擎外,供搜索引擎调用排序结果,本发明中所使用的客观权重计算方法及均衡度算法,并不局限于所提及的几种,根据需要可以另行更换和调整。另外本发明中使用的综合权重方法也不局限于以上提及的情形。以上所述的算法仅为本发明的较佳实施方法而已,并不用于限制本发明,凡在本发明精神和原则范围之类所做的任何修改、等同替换和改进等,均应包含在本发明的保护之内。

Claims (4)

1.一种多指标综合权重音、视频专辑排序系统,其特征在于包括:
音、视频专辑数据库,用于保存音、视频专辑原始信息;
音、视频专辑分析处理模块,与所述音、视频专辑数据库相连接,用于对所述音、视频专辑数据库中的音、视频专辑原始信息进行分析和处理;
主观权重确定模块,用于设定排序指标j并给出排序指标j的主观权重;
客观权重计算模块,与所述音、视频专辑分析处理模块和主观权重确定模块相连接,根据所述音、视频专辑分析处理模块提供的数据,计算所述主观权重确定模块所确定的排序指标j的客观权重;
优化决策模块,与所述客观权重计算模块和主观权重确定模块相连接,用于计算每个排序指标j的综合权重wj,其中,
Figure F200810202200XC0000011
wj≥0,
F ( w ) = Σ i = 1 n Σ j = 1 m { μ [ ( w j - a j ) z i ( j ) ] 2 + ( 1 - μ ) [ ( w j - b j ) z i ( j ) ] 2 }
模型F(w)表示各指标排序得分的权重误差平方和,F(w)越小,反映出权重wj越准确,更能刻画各指标之间的关系,aj、bj,j=1、2、…、m分别为指标j的主观和客观权重;0<μ<1为偏好系数;
指标排序得分计算模块,与所述音、视频专辑分析处理模块相连接,用于计算每个音、视频专辑i对于指标j的排序得分zi(j);
综合得分计算模块,与所述优化决策模块和所述指标排序得分计算模块相连接,用于计算该音、视频专辑的加权得分值fi,其公式为:
f i = Σ j = 1 m w j * z i ( j ) , i=1、2、...、n。
2.根据权利要求1所述的多指标综合权重音、视频专辑排序系统,其特征在于:
所述μ=0.5,综合权重wi=μai+(1-μ)bi,i=1、2、…、m。
3.根据权利要求1或2所述的多指标综合权重音、视频专辑排序系统,其特征在于:
所述客观权重计算模块为熵值法计算的模块,熵值法计算公式如下:
设各排序指标j的客观权重为bj,j=1、2、…、m,则:
b j = ( 1 - h j ) / Σ k = 1 m ( 1 - h k )
其中,为每个指标j的熵;
Figure F200810202200XC0000016
用来刻画所有音、视频专辑对于指标j的分布;zj(i)为每个指标的标准化(规范化)得分;且当pj(i)=0时,规定pi(i)lnpj(i)=0,i=1、2、…、n;j=1、2、…、m。
4.根据权利要求3所述的多指标综合权重音、视频专辑排序系统,其特征在于:
所述指标排序得分计算模块为计算排序指标j:日平均播放次数、专辑更新时间、原创贡献率、被订阅数、被评论数、均衡度中的多个或全部排序指标,具体计算为:
日平均播放次数得分zi(1):
z i ( 1 ) = NORM ( NP ( i ) ) MAX ( NORM ( NP ( i ) ) ) i = 1,2,3 , . . .
其中,NP(i)为第i个音、视频专辑的日均播放数;MAX({x})(下同)用来计算集合{x}的最大值;
NORM ( x ) = x , x ≤ 100 100 + LOG 2 ( x - 99 ) x > 100 ,
为数学变换函数,对数据量过大的进行处理;LOG2(x)是以2为底的对数变换;
更新时间得分zi(2):
Figure F200810202200XC0000023
其中days(i)为该专辑最后更新时间离现在的天数。
专辑原创贡献率得分zi(3):
z i ( 3 ) = NORM ( NR ( i ) ) MAX ( NORM ( NR ( i ) ) ) i = 1,2,3 , . . .
其中,NR(i)表示第i个音、视频专辑中的原创视频数目,TOTAL_NR(i)为专辑中的视频总数。
被订阅数得分zi(4):
z i ( 4 ) = NORM ( NS ( i ) ) MAX ( NORM ( NS ( i ) ) ) i = 1,2,3 , . . .
其中,NS(i)表示第i个音、视频专辑被订阅的次数。
被评论次数得分zi(5):
z i ( 5 ) = NORM ( NC ( i ) ) MAX ( NORM ( NC ( i ) ) ) i = 1,2,3 , . . .
其中,NC(i)表示第i个音、视频专辑被评论次数。
均衡度得分zi(6):
专辑的均衡度得分指的是各个音、视频专辑被播放、评论、订阅和被浏览次数之间的均衡程度的度量。
CN200810202200A 2008-11-04 2008-11-04 多指标综合权重音、视频专辑排序系统 Pending CN101739417A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810202200A CN101739417A (zh) 2008-11-04 2008-11-04 多指标综合权重音、视频专辑排序系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810202200A CN101739417A (zh) 2008-11-04 2008-11-04 多指标综合权重音、视频专辑排序系统

Publications (1)

Publication Number Publication Date
CN101739417A true CN101739417A (zh) 2010-06-16

Family

ID=42462909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810202200A Pending CN101739417A (zh) 2008-11-04 2008-11-04 多指标综合权重音、视频专辑排序系统

Country Status (1)

Country Link
CN (1) CN101739417A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866563A (zh) * 2015-05-20 2015-08-26 天脉聚源(北京)传媒科技有限公司 一种专辑的搜索方法及装置
CN105472413A (zh) * 2015-11-19 2016-04-06 广州创维平面显示科技有限公司 电视频道排序方法、系统及服务器
CN108804647A (zh) * 2018-06-06 2018-11-13 北京奇艺世纪科技有限公司 一种视频排序的方法及装置
CN110413637A (zh) * 2019-08-02 2019-11-05 上海证大喜马拉雅网络科技有限公司 一种信息推荐方法、装置、设备
CN110727841A (zh) * 2019-09-12 2020-01-24 上海麦克风文化传媒有限公司 一种网络电台的音频专辑内容质量评价方法及系统
CN110765103A (zh) * 2019-09-27 2020-02-07 上海麦克风文化传媒有限公司 一种多个排序方法的组合流程及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866563A (zh) * 2015-05-20 2015-08-26 天脉聚源(北京)传媒科技有限公司 一种专辑的搜索方法及装置
CN105472413A (zh) * 2015-11-19 2016-04-06 广州创维平面显示科技有限公司 电视频道排序方法、系统及服务器
CN108804647A (zh) * 2018-06-06 2018-11-13 北京奇艺世纪科技有限公司 一种视频排序的方法及装置
CN108804647B (zh) * 2018-06-06 2021-07-30 北京奇艺世纪科技有限公司 一种视频排序的方法及装置
CN110413637A (zh) * 2019-08-02 2019-11-05 上海证大喜马拉雅网络科技有限公司 一种信息推荐方法、装置、设备
CN110413637B (zh) * 2019-08-02 2023-12-19 上海喜马拉雅科技有限公司 一种信息推荐方法、装置、设备
CN110727841A (zh) * 2019-09-12 2020-01-24 上海麦克风文化传媒有限公司 一种网络电台的音频专辑内容质量评价方法及系统
CN110765103A (zh) * 2019-09-27 2020-02-07 上海麦克风文化传媒有限公司 一种多个排序方法的组合流程及系统

Similar Documents

Publication Publication Date Title
CN101739416A (zh) 多指标综合权重视频排序方法
CN110457442B (zh) 面向智能电网客服问答的知识图谱构建方法
CN109408665A (zh) 一种信息推荐方法及装置、存储介质
CN104657496B (zh) 一种计算信息热度值的方法和设备
CN103793537B (zh) 一种基于多维时间序列分析的个性化音乐推荐系统及其实现方法
US8744989B1 (en) Ranking and vote scheduling using statistical confidence intervals
CN101739418A (zh) 多指标综合权重音、视频专辑排序方法
CN101354714B (zh) 一种基于概率潜在语义分析的问题推荐方法
CN111125453B (zh) 基于子图同构的社交网络中意见领袖角色识别方法及存储介质
CN101739417A (zh) 多指标综合权重音、视频专辑排序系统
CN103268339A (zh) 微博消息中命名实体识别方法及系统
CN103699521A (zh) 文本分析方法及装置
CN105426514A (zh) 个性化的移动应用app推荐方法
CN108665148B (zh) 一种电子资源质量评价方法、装置和存储介质
CN103729424A (zh) 问答社区内回答评价方法和系统
CN108563749B (zh) 基于多维度信息和知识网络的在线教育系统资源推荐方法
CN102495840A (zh) 一种用于视频网站的搜索引擎
CN108509499A (zh) 一种搜索方法及装置,电子设备
CN102737027B (zh) 个性化搜索方法及系统
CN107545457B (zh) 汽车竞品车型确定方法及装置
CN115858731A (zh) 一种法规库法规匹配方法、装置及系统
CN104572915A (zh) 一种基于内容环境增强的用户事件相关度计算方法
CN115062070A (zh) 一种基于问答的文本表格数据查询方法
CN101604340B (zh) 一种获得查询的时新性的方法
CN101739419A (zh) 多指标综合权重视频排序系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20100616