CN102880728A - 名人视频搜索结果个性化排序的方法 - Google Patents

名人视频搜索结果个性化排序的方法 Download PDF

Info

Publication number
CN102880728A
CN102880728A CN2012104273899A CN201210427389A CN102880728A CN 102880728 A CN102880728 A CN 102880728A CN 2012104273899 A CN2012104273899 A CN 2012104273899A CN 201210427389 A CN201210427389 A CN 201210427389A CN 102880728 A CN102880728 A CN 102880728A
Authority
CN
China
Prior art keywords
theme
space
video
searched
interest topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104273899A
Other languages
English (en)
Other versions
CN102880728B (zh
Inventor
徐常胜
邓拯宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201210427389.9A priority Critical patent/CN102880728B/zh
Publication of CN102880728A publication Critical patent/CN102880728A/zh
Application granted granted Critical
Publication of CN102880728B publication Critical patent/CN102880728B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种名人视频搜索结果个性化排序的方法。本方法同时考虑了用户和待搜索名人特点,在不同数据集上分析用户的兴趣分布和待搜索名人的流行分布,有效地表达了用户的兴趣主题和待搜索名人的流行主题,并对用户兴趣主题和名人流行主题进行有效关联,从而提高了个性化排序的准确性。

Description

名人视频搜索结果个性化排序的方法
技术领域
本发明涉及互联网搜索引擎技术领域,尤其涉及一种名人视频搜索结果个性化排序的方法。
背景技术
随着WEB2.0的到来,在线视频的传播已经达到了前所未有的水平。虽然如此海量的视频数据能满足几乎所有用户的需求,但同时也使得搜寻和查找到用户真正感兴趣的视频成为了一件非常烦琐的事情。尽管搜索引擎已经成为了用户广泛使用的工具,但很少有搜索引擎能满足用户的个性化需求。往往对于同一个查询词,不同的用户表达的意思不尽相同。因此,个性化搜索对于信息爆炸的当今是非常必要的。
在巨大的视频库中,有很大一部分是与名人相关的视频,由于“名人效应”,这些视频受到了广大用户的关注。传统搜索引擎根据视频与查询的相关性来排序。当用户搜索某一名人,搜索引擎通常返回一个包含各类视频的列表。其中,可能仅仅只有某一类视频是用户感兴趣的。在现有的搜索个性化排序方法中,一些研究者采用聚类算法辅助个性化搜索。比如,有人把社会语义词汇聚类成一些概念,然后通过这些概念连接用户和对象(视频、图像或文本等)。还有一些人采用概念或本体的层次集合,其中概念或本体的每一个结点都表示某一兴趣。进一步,有些研究者利用主题模型分析用户的兴趣主题分布。
图1为现有技术进行名人视频搜索结果个性化排序的流程图。如图1所示,现有技术名人搜索结果个性化排序的流程包括:
步骤S102,为多个用户分别建立用户文档,由该文档利用主题模型建立统一的兴趣主题空间,并得到多个用户分别在该兴趣主题空间的分布向量;
步骤S104,分别利用每个名人视频的语义词汇和类别为每个名人视频建立文档,然后将其分别映射至上述兴趣主题空间,得到每个名人视频在兴趣主题空间的分布向量;
步骤S106,利用用户和视频在兴趣主题空间分布向量的匹配程度对视频序列重排序。
发明人发现上述名人视频搜索结果个性化排序的方法存在如下技术缺陷:
1)只考虑了用户的兴趣分布,而没有考虑搜索对象(名人)的流行分布,个性化排序准确性差;
2)建立兴趣主题空间时,没到考虑兴趣主题空间中语义词汇之间的相关性,影响了兴趣主题空间的准确表达。
发明内容
(一)要解决的技术问题
为解决上述的一个或多个问题,本发明提供了一种名人视频搜索结果个性化排序的方法,以提高个性化排序的准确性。
(二)技术方案
根据本发明的一个方面,提供了一种名人视频搜索结果个性化排序的方法。该方法包括:为多个预设待搜索名人分别建立文档,利用该文档由主题模型建立统一的流行主题空间,并分析各待搜索名人在该流行主题空间的分布向量;利用用户与互联网的在线交互记录建立用户文档,由多个用户文档利用主题模型建立统一的兴趣主题空间,并得到多个用户分别在该兴趣主题空间的分布向量;将流行主题空间和兴趣主题空间中各潜在主题的语义词汇进行整合,利用词网得到整合后各语义词汇之间的相似度,建立状态转移矩阵;根据所述状态转移矩阵,利用随机游走迭代过程更新流行主题空间和兴趣主题空间中各潜在主题在整合后各语义词汇上的概率分布,用相对熵连接兴趣主题空间与流行主题空间中的潜在主题;分别利用每个待搜索名人视频的语义词汇和类别为每个待搜索名人视频建立文档,然后将其分别映射至上述兴趣主题空间,得到每个待搜索名人视频在兴趣主题空间的分布向量;以及利用用户,待搜索名人以及视频在兴趣主题空间分布向量的内积对视频序列重排序。
(三)有益效果
从上述技术方案可以看出,本发明名人视频搜索结果个性化排序的方法具有以下有益效果:
(1)同时考虑了用户和待搜索名人特点,在不同数据集上分析用户的兴趣分布和待搜索名人的流行分布,有效地表达了用户兴趣主题和待搜索名人的流行主题,从而提高了个性化排序的准确性;
(2)利用随机游走迭代过程加强流行主题空间和兴趣主题空间中各潜在主题的语义词汇之间的关联,提高了流行主题空间和兴趣主题空间中各潜在主题的准确性;同时,随机游走过程使得流行主题空间和兴趣主题空间中各潜在主题的概率分布遍布整个词汇集,从而可以有效关联兴趣主题空间和流行主题空间。
附图说明
图1为现有技术利用传统方法进行互联网搜索结果个性化排序的流程图;
图2为本发明实施例名人视频搜索结果个性化排序方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。且在附图中,以简化或是方便标示。再者,附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。
本发明的目的是实现名人个性化搜索。该问题存在如下挑战。首先,我们通常不易知道名人活跃在那个领域;另外,由于隐私问题,用户也很少明确表达自己的兴趣分布;最后,用户兴趣主题空间与名人流行主题空间基于不同的数据集,两个空间不存在显示相关性,如何对这两个空间进行有效关联也是一个难点。
在本发明的一个示例性实施例中,提出了一种名人视频搜索结果个性化排序的方法。图2为本发明实施例名人视频搜索结果个性化排序方法的流程图。如图2所示,本实施例包括:
步骤S202,为多个待搜索名人分别建立文档,利用该文档由主题模型建立统一的流行主题空间,并分析各待搜索名人在该流行主题空间的分布向量;
通常情况下,在互联网上进行名人搜索的对象为通常所说的“名人”,此处的名人,为在某一群体、某一领域内具有较高知名度的人,如克林顿、成吉思汗、耶稣、贝克汉姆、张靓颖等。
上述为搜索的特定名人建立文档,可以是搜索引擎提供商编辑的文档,也可以是利用互联网上的与该特定名人相关的已有文档,例如维基百科、百度百科或搜狗百科等网站提供的该特定名人的词条。考虑到公正性和权威性,优选采用维基百科的相关词条。
一般来说,名人都有维基文档,这些文档全面介绍他们的职业、成就和生活等方面,从而反映了名人的流行分布。但是这类文本中含有大量噪声和没有实际意义的词汇,不利于名人流行主题分布的表达。为了解决这个问题,我们利用词网来过滤这些信息,并且只保留了名词性成分,因为名词具有最强的语义性。此处,词网即WorldNet,是一种包含了语义信息的字典。WorldNet根据词条的意义将它们分组,并为每一个同义词集合提供了简短,概要的定义,并记录不同集合之间的语义关系。
基于上述讨论,本步骤又可以分为以下子步骤:
步骤S202a,收集整理多个名人分别的维基百科词条信息;
步骤S202b,利用词网过滤上述多个名人词条信息中的噪声,滤除所述多个名人词条信息除名词成分之外的其他成分;
步骤S202c,对于多个名人中的每一个,利用其对应的名人词条信息的名词成分建立名人文档;
步骤S202d,利用多个名人文档由主题模型建立流行主题空间,并得到每个名人在该流行主题空间的分布向量。
上述主题模型可以选择潜在狄利克利分布模型(LDA),当然也可以选择本领域公知的其他模型,例如:概率潜在主义分析模型(PLSA)或关联主题模型(CTM)。
步骤S204,利用用户与互联网的在线交互记录建立用户文档,由多个用户文档利用主题模型建立统一的兴趣主题空间,并得到多个用户分别在该兴趣主题空间的分布向量;
用户对某一视频的主动行为(如上传或收藏)反映了用户的兴趣爱好。因此我们利用用户上传或收藏视频的语义词汇和类别来建立用户文档。但是这类语义词汇通常由网络用户提供,含有大量噪声,如无意义的词汇及误输入。这里我们同样采用词网进行过滤,具体步骤与S202类似,可以分为以下子步骤:
步骤S204a,收集多个用户分别上传或收藏的互联网资源的语义词汇和类别;
步骤S204b,利用词网过滤上述语义词汇和类别中的噪声,滤除所述语义词汇和类别中除名词成分之外的其他成分;
步骤S204c,对于多个用户中的每一个,利用所述语义词汇和类别中的名词成分建立用户文档。
步骤S204d,由多个用户文档利用潜在狄利克利分布主题模型建立兴趣主题空间,并得到多个用户分别在该兴趣主题空间的分布向量。
经过步骤S202和S204,分别获得了用户兴趣主题空间与名人流行主题空间,接下来通过连接这两个主题空间的潜在主题来关联兴趣主题空间与流行主题空间。
步骤S206,将流行主题空间和兴趣主题空间中各潜在主题的语义词汇进行整合,利用词网得到整合后各语义词汇之间的相似度,建立状态转移矩阵;根据所述状态转移矩阵,利用随机游走迭代过程更新流行主题空间和兴趣主题空间中各潜在主题在语义词汇上的概率分布,用相对熵(Relative Entropy)连接兴趣主题空间与流行主题空间中的潜在主题,从而实现兴趣主题空间与流行主题空间的连接。
由于流行主题空间和兴趣主题空间分别来自不同的数据集,因此他们的词汇表(空间中所有词汇的集合)是不一致的,换句话说,具有相似意义的主题在不同空间所包含的词汇是不一致的。
因此,通过把流行主题空间和兴趣主题空间中各潜在主题的语义词汇进行整合,并利用词网得到词汇之间的语义相关性,建立状态转移矩阵,然后采用随机游走迭代过程更新每个主题在所有词汇上的概率分布,使每个主题的概率分布拓展到整个融合后的词汇集,此时便可计算各个主题之间的相对熵,从而连接兴趣主题空间与流行主题空间。
本步骤S206中“利用词网得到整合后各语义词汇之间的相似度,建立状态转移矩阵”具体包括:
使用Sij表示语义词汇i和j之间的语义相似性。对于一个给定的包含N个语义词汇的语义词汇网络。每一个语义词汇被看成一个结点。状态转移矩阵用P(N×N)表示。该状态转移矩阵的元素pij表示从结点i到结点j的转移概率,即语义词汇i和j的相似度。
pij=sij/∑k sik    (2)
本步骤S206中“根据所述状态转移矩阵,利用随机游走迭代过程更新流行主题空间和兴趣主题空间中各潜在主题在语义词汇上的概率分布”具体包括:
用rk(i)表示结点i在随机游走迭代过程中第k次迭代时的概率值,那么,所有结点的概率值形成一个列向量rk=[rk(i)]N×1。因此,随机游走迭代过程的表达式为
rk=λPrk-1+(1-λ)y    (3)
其中y是潜在主题在语义词汇上的初始概率分布,λ∈(0,1)是权重参数。λ越大则随机游走迭代过程的作用越强。随机游走迭代过程使得相似的语义词汇有相近的概率分布,同时使得近义词越多的词汇得到更多的强化。随机游走迭代过程使得每个潜在主题的概率分布拓展到整个融合后的词汇集。
本步骤S206中“用相对熵(Relative Entropy)连接兴趣主题空间与流行主题空间中的潜在主题”具体包括:
采用计算兴趣主题和流行主题之间的相对熵。因为相对熵是与方向有关的,所以,采用两个方向的平均相对熵。假定主题z和主题x分别来自兴趣主题空间和流行主题空间。相对熵表示为
D KL ( z | | x ) = 1 2 ( Σ i z ( i ) ln z ( i ) x ( i ) + Σ i x ( i ) ln x ( i ) z ( i ) ) - - - ( 4 )
其中z(i)和x(i)表示主题z和主题x在语义词汇i上的概率值。主题z和主题x的相似度即为相对熵的倒数。
经过步骤S206,我们实现了潜在语义主题层面关联用户与名人,从而提高了个性化排序的准确性。
步骤S208:分别利用每个名人视频的语义词汇和类别为每个名人视频建立文档,然后将其分别映射至上述兴趣主题空间,得到每个名人视频在兴趣主题空间的分布向量;
具体地说,假定Φ是一个K×M(K是兴趣主题空间潜在主题个数,M是语义词典的维数)马尔可夫矩阵。每一行表示某一主题在语义词汇上的概率分布。对于任一视频向量vM×1,投影到兴趣主题空间后的分布向量为v′K×1=ΦvK×1
步骤S210:利用用户,名人以及视频在兴趣主题空间分布向量的内积对视频序列重排序。
给定任一用户(用u表示),当该用户搜索某位名人(用c表示),我们首先从传统搜索引擎得到初始视频序列。然后把与名人相关的视频(初始视频序列的前N个视频)分别映射到兴趣主题空间。然后我们根据兴趣主题空间与流行主题空间的关联度对初始序列重排序,具体步骤如下:
对于任一名人视频v,他与某一用户的相关性得分由该名人和该用户及该视频在兴趣主题空间的分布向量共同决定,具体表达式如下:
p ( score | v , u , c ) - - - ( 5 )
= Σ i = 1 K P ( z i | v ) p ( z i | u ) p ( z i | c )
Σ i = 1 K P ( z i | v ) p ( z i | u ) Σ j = 1 L P ( x j | c ) p ( z i | x j )
其中K(L)是兴趣(流行)主题空间潜在主题个数,zi(xj)是兴趣(流行)主题空间第i(j)个潜在主题;p(zi|v)和p(zi|u)分别表示视频v和用户u在主题zi上的概率;p(zi|xi)由相对熵近似(如公式4)。
Figure BDA00002335898600074
间接表示名人c在主题zi上的概率。该公式表明,我们计算视频得分时,不仅考虑视频与搜索词的相似性,还考虑用户本身的兴趣分布。为每个视频重新计算他们与用户的相关性得分后,我们再根据这一得分调整视频序列,返回给该用户。
为了便于理解,以下以一具体的搜索结果为例进行说明,例如,特定用户A对特定名人“贝克汉姆”进行搜索,具体步骤如下:
我们首先1)利用维基百科对多个名人分别建立文档;利用多个用户分别与互联网资源的在线交互记录建立用户文档。其中名人“贝克汉姆”(d贝克汉姆),“用户A”(d用户A)及部分其他名人文档(d嘎嘎女士,d罗伯茨)与用户文档(d用户B,d用户C)示意如下。
d贝克汉姆={season united league club match real cup final team playerpremier young goals madrid goal champions scoring players youth englandpresident title scored number shirt played football injury competition gameslondon reached transfer barcelona matches family company produced nightfeatured number work late school took age received california fatherappearance appeared working interview...}
d嘎嘎女士={album music released song songs performed country tourrecords billboard concert band chart artist musical awards sold albums recordlive hit solo debut award recorded release grammy rock copies october popperforming singles studio dance fame addition nominations fusari monsterborn critically worldwide countries art sgband judas creative tried positiveradio starlight...}
d罗伯茨={film role starred appeared played movie character televisionaward star comedy cast series films performance drama acting office reviewssuccess supporting production opposite box actress episode festival adaptationroles september years york announced february american november april worldseries...}
......
d用户A={robin gary norris baba comedy bob pack soccer football salemengineer training free real pitch goal retard film driver limo battle swerve mikekick curve festival technique madrid jimmy perfect rock tutorial drunk cornercasino martin stockbroker hotel league crazy blue porn crone gymnastics rileyshot iris dice news manchester nike penny...}
d用户B={gaming music play wedding quality dream nancy drewdefinition song academy screen viva description hq princess albumfilmanimation disney knowledge white real studio game firefly story officialvision coliseum capsule mac beauty voyage soundtrack vega monster versionsecret edition slot...}
d用户C={filmanimation comedy bang theory merchant raj book leonardnight talk super future penny diary list animal bucket idiot host italia animationfunny interview work ice question world television opening twins stupidhumor roads episode head headache guinness plumbing coming sky spot officeguest strike warwick...}......
2)然后利用潜在狄利克利分布主题模型建立流行主题空间和兴趣主题空间,并得到所有名人分别在流行主题空间的分布向量及所有用户分别在兴趣主题空间的分布向量。
3)利用词网得到各语义词汇之间的相似度,建立状态转移矩阵PN×N。然后利用随机游走迭代过程更新各潜在主题在语义词汇上的概率分布,最后用相对熵连接兴趣主题空间与流行主题空间中的潜在主题,从而实现兴趣主题空间与流行主题空间的连接。
P N × N = 0.00123,0.00015,0.00000,0.000025,0.00016,0.00006 . . . 0.00031,0.00249,0.00000,0.00000,0.00000,0.00011 . . . 0.00000,0.00000,1.00000,0.00000,0.00000,0.00000 . . . 0.00046,0.00000,0.00000,0.00226,0.00028,0.00000 . . . 0.00027,0.00000,0.00000,0.00025,0.00207,0.00000 . . . 0.00012,0.00010 , 0 . 00000,0.00000,0.00000,0.00231 . . . 0.00024,0.00000,0.00000,0.00023,0.00025,0.00000 . . . 0.00045,0.00000,0.00000,0.00043,0.00028,0.00000 . . . . . . . . .
4)分别利用每个名人视频的语义词汇和类别为每个名人视频建立文档,然后将其分别映射至上述兴趣主题空间,得到每个名人视频在兴趣主题空间的分布向量。视频文档示例如下:
dv={trailer,teaser,prelude,new,video,marry,night,born,way,preview,Lady,Marry,Night,Mother,Monster,Little,Monsters}
5)利用用户,名人以及视频在兴趣主题空间分布向量的内积对视频序列重排序。
为了评估本发明,我们从福布斯(Forbes)得到最受欢迎和最具影响力且活跃在多领域的106位名人。同时,我们从视频分享网站YouTube采集了143位用户。每个用户都上传或收藏过一定量的视频,并且这些视频中的某些视频与上述106位名人中的某一位相关。我们假设用户u上传或收藏的视频中含有与名人c相关的视频。实验中,我们假定用户u对名人c进行搜索,然后统计用户u上传或收藏的视频中与名人c相关的视频在返回视频序列中的数目。为了评价我们的发明的性能,我们比较了1)非个性化搜索方法,2)传统方法。性能评价方法是F值(一种搜索的测量方式,同时考虑了准确度与召回率,其中准确度是指返回结果中正确结果所占的比例,召回率是指返回结果中正确结果占所有正确结果的比例)。
分析实验结果我们发现,本发明的方法要明显好其他两种方法。如返回序列前20视频的平均F值,我们的方法是0.4262,传统方法为0.2696,而非个性化方法只有0.0456。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种名人视频搜索结果个性化排序的方法,其特征在于,包括:
为多个预设待搜索名人分别建立文档,利用该文档由主题模型建立统一的流行主题空间,并分析各待搜索名人在该流行主题空间的分布向量;
利用用户与互联网的在线交互记录建立用户文档,由多个用户文档利用主题模型建立统一的兴趣主题空间,并得到多个用户分别在该兴趣主题空间的分布向量;
将流行主题空间和兴趣主题空间中各潜在主题的语义词汇进行整合,利用词网得到整合后各语义词汇之间的相似度,建立状态转移矩阵;根据所述状态转移矩阵,利用随机游走迭代过程更新流行主题空间和兴趣主题空间中各潜在主题在整合后各语义词汇上的概率分布,用相对熵连接兴趣主题空间与流行主题空间中的潜在主题;
分别利用每个待搜索名人视频的语义词汇和类别为每个待搜索名人视频建立文档,然后将其分别映射至上述兴趣主题空间,得到每个待搜索名人视频在兴趣主题空间的分布向量;以及
利用用户,待搜索名人以及视频在兴趣主题空间分布向量的内积对视频序列重排序。
2.根据权利要求1所述的方法,其特征在于,所述为多个预设待搜索名人分别建立文档的步骤包括:
收集整理多个待搜索名人分别的词条信息;
利用词网过滤上述多个待搜索名人词条信息中的噪声,滤除所述多个待搜索名人词条信息除名词成分之外的其他成分;
对于多个待搜索名人中的每一个,利用其对应的词条信息的名词成分建立待搜索名人文档。
3.根据权利要求2所述的方法,其特征在于,利用文档由潜在狄利克利分布模型建立统一的流行主题空间。
4.根据权利要求2所述的方法,其特征在于,所述待搜索名人的词条信息取自于维基百科。
5.根据权利要求1所述的方法,其特征在于,所述利用用户与互联网的在线交互记录建立用户文档的步骤包括:
收集多个用户分别上传或收藏的互联网资源的语义词汇和类别;
利用词网过滤上述语义词汇和类别中的噪声,滤除所述语义词汇和类别中除名词成分之外的其他成分;
对于多个用户中的每一个,利用所述语义词汇和类别中的名词成分建立用户文档。
6.根据权利要求1所述的方法,其特征在于,所述利用词网得到整合后各语义词汇之间的相似度,建立状态转移矩阵的步骤中:
对于一个给定的包含N个语义词汇的语义词汇网络,每一个语义词汇被看成一个结点;状态转移矩阵用P(N×N)表示,该状态转移矩阵的元素pij表示从结点i到结点j的转移概率:
pij=sij/∑ksik
其中,Sij表示语义词汇i和j之间的语义相似性。
7.根据权利要求6所述的方法,其特征在于,所述根据状态转移矩阵,利用随机游走迭代过程更新流行主题空间和兴趣主题空间中各潜在主题在语义词汇上的概率分布的步骤中,每一潜在主题随机游走的迭代公式为:
rk=λPrk-1+(1-λ)y
其中,rk(rk-1)是一个列向量,表示某潜在主题各结点在随机游走迭代过程中第k(k-1)次迭代时的概率值,P为状态转移矩阵,λ∈(0,1)是权重参数,y是该潜在主题在语义词汇上的初始概率分布。
8.根据权利要求7所述的方法,其特征在于,所述用相对熵连接兴趣主题空间与流行主题空间中的潜在主题的步骤中,相对熵表示为:
D KL ( z | | x ) = 1 2 ( Σ i z ( i ) ln z ( i ) x ( i ) + Σ i x ( i ) ln x ( i ) z ( i ) )
其中,主题z和主题x分别来自兴趣主题空间和流行主题空间,z(i)和x(i)表示主题z和主题x在语义词汇i上的概率值,主题z和主题x的相似度即为相对熵的倒数。
9.根据权利要求7所述的方法,其特征在于,所述分别利用每个待搜索名人视频的语义词汇和类别为每个待搜索名人视频建立文档,然后将其分别映射至上述兴趣主题空间,得到每个待搜索名人视频在兴趣主题空间的分布向量的步骤中:
Φ是一个K×M(K是兴趣主题空间潜在主题个数,M是整合后语义词汇的个数)马尔可夫矩阵,每一行表示某一主题在语义词汇上的概率分布,对于任一视频向量vM×1,投影到兴趣主题空间后的分布向量为v′K×1=ΦvM×1
10.根据权利要求1所述的方法,其特征在于,所述利用用户,待搜索名人以及视频在兴趣主题空间分布向量的内积对视频序列重排序的步骤包括:
得到初始视频序列;
把与待搜索名人相关的视频分别映射到兴趣主题空间;
根据兴趣主题空间与流行主题空间的关联度对初始序列重排序。
11.根据权利要求10所述的方法,其特征在于,所述兴趣主题空间与流行主题空间的关联度:
p ( score | v , u , c )
= Σ i = 1 K P ( z i | v ) p ( z i | u ) p ( z i | c )
Σ i = 1 K P ( z i | v ) p ( z i | u ) Σ j = 1 L P ( x j | c ) p ( z i | x j )
其中K(L)是兴趣(流行)主题空间潜在主题个数,zi(xj)是兴趣主题空间第i(j)个潜在主题;p(zi|v)和p(zi|u)分别表示视频v和用户u在主题zi上的概率;p(zi|xi)由相对熵近似。
12.根据权利要求1至10中任一项所述的方法,其特征在于,所述的待搜索名人为在某一群体、某一领域内具有高知名度的人。
CN201210427389.9A 2012-10-31 2012-10-31 名人视频搜索结果个性化排序的方法 Active CN102880728B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210427389.9A CN102880728B (zh) 2012-10-31 2012-10-31 名人视频搜索结果个性化排序的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210427389.9A CN102880728B (zh) 2012-10-31 2012-10-31 名人视频搜索结果个性化排序的方法

Publications (2)

Publication Number Publication Date
CN102880728A true CN102880728A (zh) 2013-01-16
CN102880728B CN102880728B (zh) 2015-10-28

Family

ID=47482054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210427389.9A Active CN102880728B (zh) 2012-10-31 2012-10-31 名人视频搜索结果个性化排序的方法

Country Status (1)

Country Link
CN (1) CN102880728B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646106A (zh) * 2013-12-23 2014-03-19 山东大学 一种基于内容相似性的Web主题排序方法
CN104077412A (zh) * 2014-07-14 2014-10-01 福州大学 一种基于多Markov链的微博用户兴趣预测方法
CN106033417A (zh) * 2015-03-09 2016-10-19 深圳市腾讯计算机系统有限公司 视频搜索系列剧的排序方法和装置
CN107273396A (zh) * 2017-03-06 2017-10-20 扬州大学 一种社交网络信息传播检测节点的选择方法
CN115686432A (zh) * 2022-12-30 2023-02-03 药融云数字科技(成都)有限公司 一种用于检索排序的文献评价方法、存储介质及终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477554A (zh) * 2009-01-16 2009-07-08 西安电子科技大学 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法
CN101719145A (zh) * 2009-11-17 2010-06-02 北京大学 基于图书领域本体的个性化搜索方法
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
US20110191339A1 (en) * 2010-01-29 2011-08-04 Krishnan Ramanathan Personalized video retrieval

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477554A (zh) * 2009-01-16 2009-07-08 西安电子科技大学 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
CN101719145A (zh) * 2009-11-17 2010-06-02 北京大学 基于图书领域本体的个性化搜索方法
US20110191339A1 (en) * 2010-01-29 2011-08-04 Krishnan Ramanathan Personalized video retrieval

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646106A (zh) * 2013-12-23 2014-03-19 山东大学 一种基于内容相似性的Web主题排序方法
CN103646106B (zh) * 2013-12-23 2016-05-25 山东大学 一种基于内容相似性的Web主题排序方法
CN104077412A (zh) * 2014-07-14 2014-10-01 福州大学 一种基于多Markov链的微博用户兴趣预测方法
CN104077412B (zh) * 2014-07-14 2018-04-13 福州大学 一种基于多Markov链的微博用户兴趣预测方法
CN106033417A (zh) * 2015-03-09 2016-10-19 深圳市腾讯计算机系统有限公司 视频搜索系列剧的排序方法和装置
CN107273396A (zh) * 2017-03-06 2017-10-20 扬州大学 一种社交网络信息传播检测节点的选择方法
CN115686432A (zh) * 2022-12-30 2023-02-03 药融云数字科技(成都)有限公司 一种用于检索排序的文献评价方法、存储介质及终端

Also Published As

Publication number Publication date
CN102880728B (zh) 2015-10-28

Similar Documents

Publication Publication Date Title
Zhen et al. The rise of the internet city in China: Production and consumption of internet information
US20180004843A1 (en) Content recommendation based on collections of entities
CN100555287C (zh) 互联网音乐文件排序方法、系统和搜索方法及搜索引擎
US9152676B2 (en) Identifying query aspects
CN102880728B (zh) 名人视频搜索结果个性化排序的方法
EP3115913B1 (en) Systems and methods for performing search and retrieval of electronic documents using a big index
Jiang et al. Learning query and document relevance from a web-scale click graph
US20150324449A1 (en) Cluster-based identification of news stories
Steingo South African music after apartheid: Kwaito, the “Party Politic,” and the appropriation of gold as a sign of success
CN103186556B (zh) 得到和搜索结构化语义知识的方法及对应装置
JP5368430B2 (ja) 共通接辞を用いたキーワード順位を提供する方法およびシステム
CN109885719A (zh) 一种歌曲推荐方法、系统、终端及存储介质
Bioglio et al. Identification of key films and personalities in the history of cinema from a Western perspective
CN103150356A (zh) 一种应用的泛需求检索方法及系统
CN101223521B (zh) 社群特有表现检测装置及方法
Song et al. Predicting gross box office revenue for domestic films
Benkoussas et al. Book Recommendation based on Social Information.
CN106484810A (zh) 一种多媒体节目的推荐方法及系统
Yao et al. Empirical study on rare query characteristics
Bhattacharjee et al. Incentive based ranking mechanisms
Giouvanakis et al. A game with a purpose for annotating Greek folk music in a web content management system
Jiang et al. Prediction of movie playback based on ordinal support vector machine classification
Guy et al. The factoid queries collection
Brown Paris Hilton, Brenda Frazier, blogs, and the proliferation of celebu
CN103425735B (zh) 一种基于网站主题词查询的建立方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant