CN103607606A - 一种基于词网络的视频播放量预估方法及装置 - Google Patents

一种基于词网络的视频播放量预估方法及装置 Download PDF

Info

Publication number
CN103607606A
CN103607606A CN201310630984.7A CN201310630984A CN103607606A CN 103607606 A CN103607606 A CN 103607606A CN 201310630984 A CN201310630984 A CN 201310630984A CN 103607606 A CN103607606 A CN 103607606A
Authority
CN
China
Prior art keywords
state
word
video
query string
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310630984.7A
Other languages
English (en)
Other versions
CN103607606B (zh
Inventor
刘伟
姚键
潘柏宇
卢述奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Youku Network Technology Beijing Co Ltd
Original Assignee
1Verge Internet Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 1Verge Internet Technology Beijing Co Ltd filed Critical 1Verge Internet Technology Beijing Co Ltd
Priority to CN201310630984.7A priority Critical patent/CN103607606B/zh
Publication of CN103607606A publication Critical patent/CN103607606A/zh
Application granted granted Critical
Publication of CN103607606B publication Critical patent/CN103607606B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于词网络的视频播放量预估方法和系统,所述方法首先得到一段时间内的查询串集合和播放视频标题集合。然后,处理查询串集合得到源词状态集合,处理播放视频标题集合得到目的词状态集合。接着,根据查询后的播放记录计算源词状态集合中各个词向目的词状态集合中各个词的转移概率。最后,对每个新视频根据该视频的标题中包含的词计算其预估播放量。本发明能够改善搜索聚集效应的带来的播放集中问题,提高新视频的曝光率,增加引擎结果的多样性,同时能够保证新视频的相关性。引入和新视频标题词数有关的阈值,避免包含很多热点词的新视频被过度提升。

Description

一种基于词网络的视频播放量预估方法及装置
技术领域
本申请涉及对视频网站的新上传视频的播放量预估,具体的,涉及基于已经播放的词网络对视频播放量进行预估的方法和装置。
背景技术
视频网站中包含了上千万的视频,大部分视频依赖用户通过搜索来显现。在搜索结果中以播放量为主要因子的排序会导致部分视频持续被展现,而部分视频难以得到展现的机会。搜索输入框中的智能提示,例如kubox,会引导用户查询集中在少量查询串上。这种搜索引导的聚集倾向使得被搜索展现的结果也倾向于集中,该现象也被称之为搜索聚集效应。该搜索聚集效应会减少大多数用户上传视频的曝光率,影响上传者的积极性。
因此,如何能够预估新上传视频的播放量,从新上传的视频中快速找到用户喜欢或者倾向性较高的视频,让新视频在排序中得到更多曝光机会,并且为用户提供最新的,用户可能感兴趣的视频,使搜索结果呈现发散趋势,体现排序系统的公平性,成为亟需解决的技术问题。
发明内容
本发明的目的在于提出一种基于词网络的视频播放量预估方法及装置,改善搜索聚集效应的带来的播放集中问题,增加搜索引擎的多样性。
为达此目的,本发明采用以下技术方案:
一种基于词网络的视频播放量预估方法,包括如下步骤:
查询串及视频标题收集步骤S110;查询一段时间内搜索记录,筛选出每个查询后有点击观看的查询记录,得到查询串以及对应的视频标题;
词网络的状态转移矩阵初始化步骤S120,包括:
查询串切分子步骤S121:切分查询串,相同的词对应同一个源状态ID,不同的词标记为不同的源状态ID,所有词对应的源状态ID构成了源状态集合,每个源状态ID还记录该词的出现频次;
视频标题切分子步骤S122:切分查询后点击的视频标题,相同的词对应同一个目的状态ID,不同的词标记为不同的目的状态ID,所有词对应的目的状态ID构成了目的状态集合,每个目的状态ID也记录该词的出现频次;
构造状态转移矩阵子步骤S123: 以所有的源状态ID作为状态转移矩阵的列,以所有的目的状态ID作为状态转移矩阵的行,矩阵中每个单元,[x,y],表示源状态ID x到相应目的状态ID y的转移强度,初始化所述初始状态转移矩阵的所有单元值为1,即认为每个源状态可能转移到每个目的状态,且这个转移强度为1,表示很弱的转移关系;
状态转移矩阵强化步骤S130:遍历查询串及视频标题收集步骤中得到的每条查询串和对应的视频标题,使用查询串和对应的视频标题增强所述状态转移矩阵中的转移强度,其中对于每一查询串及对应的视频标题的强化具体包括:
源状态ID序列生成子步骤S131:切分查询串,相同的词只算一次出现,得到包含m个词序列,查询每个词对应的源状态ID,得到源状态ID序列;
目的状态ID序列生成子步骤S132:切分所述查询串对应的视频标题,相同的词只算一次出现,得到含有n个词的序列,查询每个词对应的目的状态ID,得到目的状态序列;
转移强度增强子步骤S133:对于所述源状态ID序列中每个源状态ID,遍历得到的所述目的状态ID序列每个目的状态ID,修改状态转移矩阵的单元[源状态ID, 目的状态ID]的值为原值加1/m,增强源状态ID对应的源词的状态到目的状态ID对应的目的词的转移强度;
新视频播放量预估步骤S140:对于一个新视频,切分所述新视频的标题得到含有g个词的新视频词序列,相同的词只算一次出现,根据公式词的不同顺序并不影响最终结果,在目的状态集合中查询其对应的新视频词ID序列为( T1, T2, ..., Tg),对于每个新视频词ID Ti,i=1..g,找到在所述状态转移矩阵中以Ti为目的状态的转移强度,即在所述状态转移矩阵中Ti所对应的一列中所有的转移强度,将所述一列中所有的转移强度与阈值TH比较,累加所有大于TH的以Ti为目标状态的转移强度,得到所述新视频词ID Ti的新视频词播放量贡献度PTi,然后根据公式(1)对所述新视频词播放量贡献度PTi进行加权,得到加权新视频词播放量贡献度NPTi,
                  (1)
其中ND(Ti)表示词Ti在目的状态ID中的词频,NS(Ti)表示Ti在源状态ID中的词频,
累加所有的所述加权新视频词播放量贡献度NPTi,得到该新视频的预估播放量。
优选地,所述查询串及视频标题收集步骤具体为,遍历一段时间内服务器的搜索日志,筛选出每个查询后有点击的查询记录,提取出查询串和该查询过程中有点击观看的视频ID记录,遍历每条查询串和该查询点击的视频ID记录,根据视频ID记录去视频信息库中取出视频ID对应的视频的标题,将查询串和查询点击的视频ID记录转换为查询串和查询后点击观看的视频标题的记录。
优选地,所述一段时间为最近100天内。
优选地,所述阈值TH为选择所述状态转移矩阵中所有转移强度的中位数。进一步优选地, 
所述阈值TH在所述中位数的基础上,进行人工调整。
本发明还公开了一种基于词网络的视频播放量预估装置,包括如下单元:
查询串及视频标题收集单元;查询一段时间内搜索记录,筛选出每个查询后有点击观看的查询记录,得到查询串以及对应的视频标题;
词网络的状态转移矩阵初始化单元,包括:
查询串切分子单元:切分查询串,相同的词对应同一个源状态ID,不同的词标记为不同的源状态ID,所有词对应的源状态ID构成了源状态集合,每个源状态ID还记录该词的出现频次;
视频标题切分子单元:切分查询后点击的视频标题,相同的词对应同一个目的状态ID,不同的词标记为不同的目的状态ID,所有词对应的目的状态ID构成了目的状态集合,每个目的状态ID也记录该词的出现频次;
构造状态转移矩阵子单元: 以所有的源状态ID作为状态转移矩阵的列,以所有的目的状态ID作为状态转移矩阵的行,矩阵中每个单元,[x,y],表示源状态ID x到相应目的状态ID y的转移强度,初始化所述初始状态转移矩阵的所有单元值为1,即认为每个源状态可能转移到每个目的状态,且这个转移强度为1,表示很弱的转移关系;
状态转移矩阵强化单元:遍历查询串及视频标题收集单元中得到的每条查询串和对应的视频标题,使用查询串和对应的视频标题增强所述状态转移矩阵中的转移强度,其中对于每一查询串及对应的视频标题的强化具体包括:
源状态ID序列生成子单元:切分查询串,相同的词只算一次出现,得到包含m个词序列,查询每个词对应的源状态ID,得到源状态ID序列;
目的状态ID序列生成子单元:切分所述查询串对应的视频标题,相同的词只算一次出现,得到含有n个词的序列,查询每个词对应的目的状态ID,得到目的状态序列;
转移强度增强子单元:对于所述源状态ID序列中每个源状态ID,遍历得到的所述目的状态ID序列每个目的状态ID,修改状态转移矩阵的单元[源状态ID, 目的状态ID]的值为原值加1/m,增强源状态ID对应的源词的状态到目的状态ID对应的目的词的转移强度;
新视频播放量预估单元:对于一个新视频,切分所述新视频的标题得到含有g个词的新视频词序列,相同的词只算一次出现,根据公式词的不同顺序并不影响最终结果,在目的状态集合中查询其对应的新视频词ID序列为( T1, T2, ..., Tg),对于每个新视频词ID Ti,i=1..g,找到在所述状态转移矩阵中以Ti为目的状态的转移强度,即在所述状态转移矩阵中Ti所对应的一列中所有的转移强度,将所述一列中所有的转移强度与阈值TH比较,累加所有大于TH的以Ti为目标状态的转移强度,得到所述新视频词ID Ti的新视频词播放量贡献度PTi,然后根据公式(1)对所述新视频词播放量贡献度PTi进行加权,得到加权新视频词播放量贡献度NPTi,
Figure 120731DEST_PATH_IMAGE001
                  (1)
其中ND(Ti)表示词Ti在目的状态ID中的词频,NS(Ti)表示Ti在源状态ID中的词频,
累加所有的所述加权新视频词播放量贡献度NPTi,得到该新视频的预估播放量。
优选地,所述查询串及视频标题收集单元具体为,遍历一段时间内服务器的搜索日志,筛选出每个查询后有点击的查询记录,提取出查询串和该查询过程中有点击观看的视频ID记录,遍历每条查询串和该查询点击的视频ID记录,根据视频ID记录去视频信息库中取出视频ID对应的视频的标题,将查询串和查询点击的视频ID记录转换为查询串和查询后点击观看的视频标题的记录。
优选地,所述一段时间为最近100天内。
优选地,所述阈值TH为选择所述状态转移矩阵中所有转移强度的中位数。进一步优选地,所述阈值TH在所述中位数的基础上,进行人工调整。
因此,根据本发明的视频播放量预估方法和系统,通过查询串和查询后播放数据得到词网络的状态转移矩阵,使用状态转移矩阵预估新视频的播放量权重,通过预估新视频播放量提高结果多样性。这样,能够改善搜索聚集效应的带来的播放集中问题,能够通过与新视频相关老视频的播放推动新视频的预估播放量,提高新视频的曝光率,增加引擎结果的多样性,同时能够保证新视频的相关性。因为引入和新视频标题词数有关的阈值,能够避免包含很多热点词的新视频被过度提升。
附图说明
图1是根据本发明的视频播放量预估方法的流程图;
图2是根据本发明的视频播放量预估装置的框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明的考虑了在一段时间内所查询的查询串和所播放的视频之间的关系,构造查询串和播放视频标题词之间的状态转移网络,来计算新视频的预估播放量。具体而言,首先得到一段时间内的查询串集合和播放视频标题集合。然后,处理查询串集合得到源词状态集合,处理播放视频标题集合得到目的词状态集合。接着,根据查询后的播放记录计算源词状态集合中各个词向目的词状态集合中各个词的转移概率。最后,对每个新视频根据该视频的标题中包含的词计算其预估播放量。
这样,能够有效地利用用户的查询串与播放视频之间的关系,并且查询串仅仅统计最近一段时间的查询串,保证了播放预估量能体现最新的用户需求,或者网站的流行趋势,提高了时效性。
实施例1:
参见图1,公开了根据本发明的视频播放量预估方法的流程图,其包括如下步骤:
查询串及视频标题收集步骤S110;查询一段时间内搜索记录,筛选出每个查询后有点击观看的查询记录,得到查询串以及对应的视频标题。
具体的,该步骤遍历近100天内服务器的搜索日志,筛选出每个查询后有点击的查询记录,提取出查询串和该查询过程中有点击观看的视频ID记录,遍历每条查询串和该查询点击的视频ID记录,根据视频ID记录去视频信息库中取出视频ID对应的视频的标题,将查询串和查询点击的视频ID记录转换为查询串和查询后点击观看的视频标题的记录。
词网络的状态转移矩阵初始化步骤S120,包括:
查询串切分子步骤S121:切分查询串,例如,利用切词的方法切割查询串,相同的词对应同一个源状态ID,不同的词标记为不同的源状态ID。所有词对应的源状态ID构成了源状态集合,每个源状态ID还记录该词的出现频次;
视频标题切分子步骤S122:切分查询后点击的视频标题,例如,利用切词的方法切割视频标题,相同的词对应同一个目的状态ID,不同的词标记为不同的目的状态ID,所有词对应的目的状态ID构成了目的状态集合,每个目的状态ID也记录该词出现的频次;
构造状态转移矩阵子步骤S123: 以所有的源状态ID作为状态转移矩阵的列,以所有的目的状态ID作为状态转移矩阵的行,矩阵中每个单元,[x,y],表示源状态ID x到相应目的状态ID y的转移强度,初始化所述初始状态转移矩阵的所有单元值为1,即认为每个源状态可能转移到每个目的状态,且这个转移强度为1,表示很弱的转移关系。
所述状态转移矩阵强化步骤S130:遍历查询串及视频标题收集步骤中得到的每条查询串和对应的视频标题,使用查询串和对应的视频标题增强所述状态转移矩阵中的转移强度,其中对于每一查询串及对应的视频标题的强化具体包括:
源状态ID序列生成子步骤S131:切分查询串,例如,利用切词的方法切割查询串,得到包含m个词序列(W1, W2, ... Wm),查询每个词对应的源状态ID,相同的词只算一次出现,且词的顺序并不影响计算结果,得到源状态ID序列;
目的状态ID序列生成子步骤S132:切分所述查询串对应的视频标题,例如,利用切词的方法切割视频标题,得到含有n个词的序列(B1, B2, ... Bn),相同的词只算一次出现,查询每个词对应的目的状态ID,得到目的状态序列;
转移强度增强子步骤S133:对于所述源状态ID序列中每个源状态ID,遍历得到的所述目的状态ID序列每个目的状态ID,修改状态转移矩阵的单元[源状态ID, 目的状态ID]的值为原值加1/m,增强源状态ID对应的源词的状态到目的状态ID对应的目的词的转移强度;
也就是说从子步骤S131到子步骤S133中,由每个查询串所对应的每个源状态ID分别对所述查询串所对应的视频标题的中所有的目的状态ID进行转移强度的强化。当遍历完每个查询串所包含的源状态ID后,完成一条查询串的转移强度的强化。然后按此方法遍历所有的查询串,完成整个的状态转移矩阵的强化。
新视频播放量预估步骤S140:对于一个新视频,切分所述新视频的标题得到含有g个词的新视频词序列,相同的词只算一次出现,且词的顺序并不影响计算结果,在目的状态集合中查询其对应的新视频词ID序列为( T1, T2, ..., Tg),对于每个新视频词ID Ti,i=1..g,找到在所述状态转移矩阵中以词ID Ti为目的状态的转移强度,也就是在所述状态转移矩阵中词ID Ti所对应的一列中所有的转移强度,将所述一列中所有的转移强度与阈值TH比较,累加所有大于TH的以Ti为目标状态的转移强度,得到该新视频词ID Ti的新视频词播放量贡献度PTi,然后根据公式(1)对所述新视频词播放量贡献度PTi进行加权,得到加权新视频词播放量贡献度NPTi,
Figure 857743DEST_PATH_IMAGE001
                (1)
其中ND(Ti)表示词Ti在目的状态ID中的词频,NS(Ti)表示Ti在源状态ID中的词频,
累加所有的所述加权新视频词播放量贡献度NPTi,得到该新视频的预估播放量。
所述阈值TH选取的方法为选择所述状态转移矩阵中所有转移强度的中位数,进一步的优选地,可以所述中位数的基础上,根据实验进行人工调整,以获得最佳的效果。
可见,本方法能够有效地利用用户的查询串与播放视频之间的关系,通过查询串和查询后播放数据,即视频标题得到词网络的状态转移矩阵,使用状态转移矩阵预估新视频的播放量权重,通过预估新视频播放量提高结果多样性。这样,能够改善搜索聚集效应的带来的播放集中问题,能够通过与新视频相关老视频的播放推动新视频的预估播放量,提高新视频的曝光率,增加引擎结果的多样性,同时能够保证新视频的相关性。因为引入和新视频标题词数有关的阈值,能够避免包含很多热点词的新视频被过度提升。
实施例2:
本实施例中具体公开了查询的步骤。
假定有如下查询和查询后播放视频标题,应当知道这仅仅为示例:
Figure 2013106309847100002DEST_PATH_IMAGE002
 对这四条记录,逐个切分得到切词结果,每条记录都带上源状态和目的状态序列。
 
统计源状态集合中每个词出现的频次,得到:
Figure 647974DEST_PATH_IMAGE005
统计目的状态集合中每个词出现的频次,得到:
在根据切分后的查询串和播放视频标题记录构造词网络的状态转移矩阵,在这里仅仅选取了部分词频较高的词。应当知道,词频较低的词在最后的计算中由于其的转移强度与阈值TH比较较小而被舍去,因此在下表中不再予以体现。
Figure 953184DEST_PATH_IMAGE007
 例如,对于状态转移矩阵中的[四川,四川]中的数值,也就是转移强度包括4部分。初始化转移强度时得到的1。查询串“四川地震最新消息”被切分为了4个词,因此在此条中,源词“四川”对于视频标题中的目标词“四川”的转移强度为1/4。查询串“四川卫视”被切分为了2个词,因此在此条中,源词“四川”对于视频标题中的目标词“四川”的转移强度为1/2。查询串“四川雅安地震瞬间锦集”被切分为了5个词,因此在此条中,源词“四川”对于视频标题中的目标词“四川”的转移强度为1/5。查询串“基金”所对应的播放的视频标题中不包含“四川”,因此,对目标词“四川”的转移强度为0。因此,[四川,四川]的转移强度为1+1/4+1/2+1/5=1.95。
对于如下新视频:
雅安地震救灾消息
壹基金参与雅安地震救援
进行切分标记后得到:
1、雅安/D2 地震/D3 救灾/D8 消息/D4
2、壹/D19 基金/D5 参与/D22 雅安/D2 地震/D3 救援/D7
在该步骤中,如果出现相同的词,只算一次出现,不同词的顺序并不影响计算结果。
定义阈值TH为1.23,阈值TH的选取采用以状态转移矩阵的中位数做参考,即所有值排序后,中间值为1.2,人工调整后得到1.23。对每个目的状态词计算其PTi:
PT雅安=(1.95+1.45+2+1.25)=6.65
PT地震=(1.45+1.45+2+1.25)=6.15
PT救灾=(2)=2
PT消息=(1.25+1.25+1.25)=3.75
PT壹=(2)=2
PT基金=(2)=2
PT参与=(0)=0
PT救援=(2)=2
修正后的计算:
PT雅安=(1.95+1.45+2+1.25)/5*(1+ln(1+5/3))=6.65/5*(1+ln(1+5/3))=1.13*1.98=2.24
PT地震=(1.45+1.45+2+1.25)/3*(1+ln(1+3/2))=6.15/3*(1+ln(1+3/2))=2.05*1.92=3.94
PT救灾=(2)/1*(1+ln(1))=2/1*(1+ln(1))=2
PT消息=(1.25+1.25+1.25)/1*(1+ln(1))=3.75/1=3.75
PT壹=(2)/1*(1+ln(1))=2/1*(1+ln(1))=2
PT基金=(2)/1*(1+ln(1))=2/1*(1+ln(1))=2
PT参与=(0)/1*(1+ln(1))=0/1*(1+ln(1))=0
PT救援=(2)/1*(1+ln(1))=2/1*(1+ln(1))=2
可见,如果一个词没有对应的目的状态(即在目的状态集合中没有该词,该词在目的状态出现次数为0),则其计算出来的PT权重为0。
再分别得到两个视频标题的预估分值:
1、PT雅安+PT地震+PT救灾+PT消息=2.24+3.94+2+3.75=11.93
2、PT壹+PT基金+PT参与+PT雅安+PT地震+PT救援=2+2+0+2.24+3.94+2=12.18
可以看到第二个视频比第一个视频得到的分值高,是因为其所含有效信息多,也表明对于查询“雅安地震”,第二个结果能够提高搜索结果的多样性。
实施例3:
本发明还公开了一种基于词网络的视频播放量预估装置,其包括如下单元:
查询串及视频标题收集单元210;查询一段时间内搜索记录,筛选出每个查询后有点击观看的查询记录,得到查询串以及对应的视频标题;
词网络的状态转移矩阵初始化单元220,包括:
查询串切分子单元221:切分查询串,相同的词对应同一个源状态ID,不同的词标记为不同的源状态ID,所有词对应的源状态ID构成了源状态集合,每个源状态ID还记录该词的出现频次;
视频标题切分子单元222:切分查询后点击的视频标题,相同的词对应同一个目的状态ID,不同的词标记为不同的目的状态ID,所有词对应的目的状态ID构成了目的状态集合,每个目的状态ID也记录该词的出现频次;
构造状态转移矩阵子单元223: 以所有的源状态ID作为状态转移矩阵的列,以所有的目的状态ID作为状态转移矩阵的行,矩阵中每个单元,[x,y],表示源状态ID x到相应目的状态ID y的转移强度,初始化所述初始状态转移矩阵的所有单元值为1,即认为每个源状态可能转移到每个目的状态,且这个转移强度为1,表示很弱的转移关系;
状态转移矩阵强化单元230:遍历查询串及视频标题收集单元中得到的每条查询串和对应的视频标题,使用查询串和对应的视频标题增强所述状态转移矩阵中的转移强度,其中对于每一查询串及对应的视频标题的强化具体包括:
源状态ID序列生成子单元231:切分查询串,相同的词只算一次出现,得到包含m个词序列,查询每个词对应的源状态ID,得到源状态ID序列;
目的状态ID序列生成子单元232:切分所述查询串对应的视频标题,相同的词只算一次出现,得到含有n个词的序列,查询每个词对应的目的状态ID,得到目的状态序列;
转移强度增强子单元233:对于所述源状态ID序列中每个源状态ID,遍历得到的所述目的状态ID序列每个目的状态ID,修改状态转移矩阵的单元[源状态ID, 目的状态ID]的值为原值加1/m,增强源状态ID对应的源词的状态到目的状态ID对应的目的词的转移强度;
新视频播放量预估单元240:对于一个新视频,切分所述新视频的标题得到含有g个词的新视频词序列,相同的词只算一次出现,根据公式词的不同顺序并不影响最终结果,在目的状态集合中查询其对应的新视频词ID序列为( T1, T2, ..., Tg),对于每个新视频词ID Ti,i=1..g,找到在所述状态转移矩阵中以Ti为目的状态的转移强度,即在所述状态转移矩阵中Ti所对应的一列中所有的转移强度,将所述一列中所有的转移强度与阈值TH比较,累加所有大于TH的以Ti为目标状态的转移强度,得到所述新视频词ID Ti的新视频词播放量贡献度PTi,然后根据公式(1)对所述新视频词播放量贡献度PTi进行加权,得到加权新视频词播放量贡献度NPTi,
                  (1)
其中ND(Ti)表示词Ti在目的状态ID中的词频,NS(Ti)表示Ti在源状态ID中的词频,
累加所有的所述加权新视频词播放量贡献度NPTi,得到该新视频的预估播放量。
优选地,所述查询串及视频标题收集单元具体为,遍历一段时间内服务器的搜索日志,筛选出每个查询后有点击的查询记录,提取出查询串和该查询过程中有点击观看的视频ID记录,遍历每条查询串和该查询点击的视频ID记录,根据视频ID记录去视频信息库中取出视频ID对应的视频的标题,将查询串和查询点击的视频ID记录转换为查询串和查询后点击观看的视频标题的记录。
优选地,所述一段时间为最近100天内。
优选地,所述阈值TH为选择所述状态转移矩阵中所有转移强度的中位数,进一步优选地,所述阈值TH在所述中位数的基础上,进行人工调整。
本装置能够有效地利用用户的查询串与播放视频之间的关系,通过查询串和查询后播放数据,即视频标题得到词网络的状态转移矩阵,使用状态转移矩阵预估新视频的播放量权重,通过预估新视频播放量提高结果多样性。这样,能够改善搜索聚集效应的带来的播放集中问题,能够通过与新视频相关老视频的播放推动新视频的预估播放量,提高新视频的曝光率,增加引擎结果的多样性,同时能够保证新视频的相关性。因为引入和新视频标题词数有关的阈值,能够避免包含很多热点词的新视频被过度提升。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims (10)

1.一种基于词网络的视频播放量预估方法,包括如下步骤:
查询串及视频标题收集步骤S110;查询一段时间内搜索记录,筛选出每个查询后有点击观看的查询记录,得到查询串以及对应的视频标题;
词网络的状态转移矩阵初始化步骤S120,包括:
查询串切分子步骤S121:切分查询串,相同的词对应同一个源状态ID,不同的词标记为不同的源状态ID,所有词对应的源状态ID构成了源状态集合,每个源状态ID还记录该词的出现频次;
视频标题切分子步骤S122:切分查询后点击的视频标题,相同的词对应同一个目的状态ID,不同的词标记为不同的目的状态ID,所有词对应的目的状态ID构成了目的状态集合,每个目的状态ID也记录该词的出现频次;
构造状态转移矩阵子步骤S123: 以所有的源状态ID作为状态转移矩阵的列,以所有的目的状态ID作为状态转移矩阵的行,矩阵中每个单元,[x,y],表示源状态ID x到相应目的状态ID y的转移强度,初始化所述初始状态转移矩阵的所有单元值为1,即认为每个源状态可能转移到每个目的状态,且这个转移强度为1,表示很弱的转移关系;
状态转移矩阵强化步骤S130:遍历查询串及视频标题收集步骤中得到的每条查询串和对应的视频标题,使用查询串和对应的视频标题增强所述状态转移矩阵中的转移强度,其中对于每一查询串及对应的视频标题的强化具体包括:
源状态ID序列生成子步骤S131:切分查询串,相同的词只算一次出现,得到包含m个词序列,查询每个词对应的源状态ID,得到源状态ID序列;
目的状态ID序列生成子步骤S132:切分所述查询串对应的视频标题,相同的词只算一次出现,得到含有n个词的序列,查询每个词对应的目的状态ID,得到目的状态序列;
转移强度增强子步骤S133:对于所述源状态ID序列中每个源状态ID,遍历得到的所述目的状态ID序列每个目的状态ID,修改状态转移矩阵的单元[源状态ID, 目的状态ID]的值为原值加1/m,增强源状态ID对应的源词的状态到目的状态ID对应的目的词的转移强度;
新视频播放量预估步骤S140:对于一个新视频,切分所述新视频的标题得到含有g个词的新视频词序列,相同的词只算一次出现,根据公式词的不同顺序并不影响最终结果,在目的状态集合中查询其对应的新视频词ID序列为( T1, T2, ..., Tg),对于每个新视频词ID Ti,i=1..g,找到在所述状态转移矩阵中以Ti为目的状态的转移强度,即在所述状态转移矩阵中Ti所对应的一列中所有的转移强度,将所述一列中所有的转移强度与阈值TH比较,累加所有大于TH的以Ti为目标状态的转移强度,得到所述新视频词ID Ti的新视频词播放量贡献度PTi,然后根据公式(1)对所述新视频词播放量贡献度PTi进行加权,得到加权新视频词播放量贡献度NPTi,
Figure 291967DEST_PATH_IMAGE001
                  (1)
其中ND(Ti)表示词Ti在目的状态ID中的词频,NS(Ti)表示Ti在源状态ID中的词频,
累加所有的所述加权新视频词播放量贡献度NPTi,得到该新视频的预估播放量。
2.根据权利要求1所述的,其特征在于:
所述查询串及视频标题收集步骤具体为,遍历一段时间内服务器的搜索日志,筛选出每个查询后有点击的查询记录,提取出查询串和该查询过程中有点击观看的视频ID记录,遍历每条查询串和该查询点击的视频ID记录,根据视频ID记录去视频信息库中取出视频ID对应的视频的标题,将查询串和查询点击的视频ID记录转换为查询串和查询后点击观看的视频标题的记录。
3.根据权利要求2所述的基于词网络的视频播放量预估方法,其特征在于:
所述一段时间为最近100天内。
4.根据权利要求1-3中任意一项所述的基于词网络的视频播放量预估方法,其特征在于:
所述阈值TH为选择所述状态转移矩阵中所有转移强度的中位数。
5.根据权利要求4所述的基于词网络的视频播放量预估方法,其特征在于:
所述阈值TH在所述中位数的基础上,进行人工调整。
6.一种基于词网络的视频播放量预估装置,包括如下单元:
查询串及视频标题收集单元;查询一段时间内搜索记录,筛选出每个查询后有点击观看的查询记录,得到查询串以及对应的视频标题;
词网络的状态转移矩阵初始化单元,包括:
查询串切分子单元:切分查询串,相同的词对应同一个源状态ID,不同的词标记为不同的源状态ID,所有词对应的源状态ID构成了源状态集合,每个源状态ID还记录该词的出现频次;
视频标题切分子单元:切分查询后点击的视频标题,相同的词对应同一个目的状态ID,不同的词标记为不同的目的状态ID,所有词对应的目的状态ID构成了目的状态集合,每个目的状态ID也记录该词的出现频次;
构造状态转移矩阵子单元: 以所有的源状态ID作为状态转移矩阵的列,以所有的目的状态ID作为状态转移矩阵的行,矩阵中每个单元,[x,y],表示源状态ID x到相应目的状态ID y的转移强度,初始化所述初始状态转移矩阵的所有单元值为1,即认为每个源状态可能转移到每个目的状态,且这个转移强度为1,表示很弱的转移关系;
状态转移矩阵强化单元:遍历查询串及视频标题收集单元中得到的每条查询串和对应的视频标题,使用查询串和对应的视频标题增强所述状态转移矩阵中的转移强度,其中对于每一查询串及对应的视频标题的强化具体包括:
源状态ID序列生成子单元:切分查询串,相同的词只算一次出现,得到包含m个词序列,查询每个词对应的源状态ID,得到源状态ID序列;
目的状态ID序列生成子单元:切分所述查询串对应的视频标题,相同的词只算一次出现,得到含有n个词的序列,查询每个词对应的目的状态ID,得到目的状态序列;
转移强度增强子单元:对于所述源状态ID序列中每个源状态ID,遍历得到的所述目的状态ID序列每个目的状态ID,修改状态转移矩阵的单元[源状态ID, 目的状态ID]的值为原值加1/m,增强源状态ID对应的源词的状态到目的状态ID对应的目的词的转移强度;
新视频播放量预估单元:对于一个新视频,切分所述新视频的标题得到含有g个词的新视频词序列,相同的词只算一次出现,根据公式词的不同顺序并不影响最终结果,在目的状态集合中查询其对应的新视频词ID序列为( T1, T2, ..., Tg),对于每个新视频词ID Ti,i=1..g,找到在所述状态转移矩阵中以Ti为目的状态的转移强度,即在所述状态转移矩阵中Ti所对应的一列中所有的转移强度,将所述一列中所有的转移强度与阈值TH比较,累加所有大于TH的以Ti为目标状态的转移强度,得到所述新视频词ID Ti的新视频词播放量贡献度PTi,然后根据公式(1)对所述新视频词播放量贡献度PTi进行加权,得到加权新视频词播放量贡献度NPTi,
Figure 749493DEST_PATH_IMAGE001
                  (1)
其中ND(Ti)表示词Ti在目的状态ID中的词频,NS(Ti)表示Ti在源状态ID中的词频,
累加所有的所述加权新视频词播放量贡献度NPTi,得到该新视频的预估播放量。
7.根据权利要求6所述的基于词网络的视频播放量预估装置,其特征在于:
所述查询串及视频标题收集单元具体为,遍历一段时间内服务器的搜索日志,筛选出每个查询后有点击的查询记录,提取出查询串和该查询过程中有点击观看的视频ID记录,遍历每条查询串和该查询点击的视频ID记录,根据视频ID记录去视频信息库中取出视频ID对应的视频的标题,将查询串和查询点击的视频ID记录转换为查询串和查询后点击观看的视频标题的记录。
8.根据权利要求7所述的基于词网络的视频播放量预估装置,其特征在于:
所述一段时间为最近100天内。
9.根据权利要求6-8中任意一项所述的基于词网络的视频播放量预估方法,其特征在于:
所述阈值TH为选择所述状态转移矩阵中所有转移强度的中位数。
10.根据权利要求9所述的基于词网络的视频播放量预估装置,其特征在于:
所述阈值TH在所述中位数的基础上,进行人工调整。
CN201310630984.7A 2013-12-02 2013-12-02 一种基于词网络的视频播放量预估方法及装置 Expired - Fee Related CN103607606B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310630984.7A CN103607606B (zh) 2013-12-02 2013-12-02 一种基于词网络的视频播放量预估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310630984.7A CN103607606B (zh) 2013-12-02 2013-12-02 一种基于词网络的视频播放量预估方法及装置

Publications (2)

Publication Number Publication Date
CN103607606A true CN103607606A (zh) 2014-02-26
CN103607606B CN103607606B (zh) 2015-09-23

Family

ID=50125803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310630984.7A Expired - Fee Related CN103607606B (zh) 2013-12-02 2013-12-02 一种基于词网络的视频播放量预估方法及装置

Country Status (1)

Country Link
CN (1) CN103607606B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335537A (zh) * 2014-07-24 2016-02-17 腾讯科技(北京)有限公司 视频专辑中网络媒介信息的曝光量的预估方法和系统
WO2016145829A1 (zh) * 2015-09-21 2016-09-22 中兴通讯股份有限公司 一种媒体文件的播放控制方法、装置及存储介质
CN106303720A (zh) * 2016-08-02 2017-01-04 合网络技术(北京)有限公司 一种视频推荐方法与系统
CN106856000A (zh) * 2015-12-09 2017-06-16 广州汽车集团股份有限公司 一种车载全景图像无缝拼接处理方法及系统
CN114297419A (zh) * 2021-12-31 2022-04-08 北京卓越乐享网络科技有限公司 多媒体对象的预测方法、装置、设备、介质和程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682132A (zh) * 2012-05-18 2012-09-19 合一网络技术(北京)有限公司 一种基于词频、播放量和创建时间检索信息的方法及系统
CN102855261A (zh) * 2011-07-01 2013-01-02 上海聚力传媒技术有限公司 一种用于确定视频权威值的方法与设备
US20130028512A1 (en) * 2011-07-28 2013-01-31 National Taiwan University Of Science And Technology Video searching method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855261A (zh) * 2011-07-01 2013-01-02 上海聚力传媒技术有限公司 一种用于确定视频权威值的方法与设备
US20130028512A1 (en) * 2011-07-28 2013-01-31 National Taiwan University Of Science And Technology Video searching method
CN102682132A (zh) * 2012-05-18 2012-09-19 合一网络技术(北京)有限公司 一种基于词频、播放量和创建时间检索信息的方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335537A (zh) * 2014-07-24 2016-02-17 腾讯科技(北京)有限公司 视频专辑中网络媒介信息的曝光量的预估方法和系统
CN105335537B (zh) * 2014-07-24 2019-08-02 腾讯科技(北京)有限公司 视频专辑中网络媒介信息的曝光量的预估方法和系统
WO2016145829A1 (zh) * 2015-09-21 2016-09-22 中兴通讯股份有限公司 一种媒体文件的播放控制方法、装置及存储介质
CN106856000A (zh) * 2015-12-09 2017-06-16 广州汽车集团股份有限公司 一种车载全景图像无缝拼接处理方法及系统
CN106856000B (zh) * 2015-12-09 2021-02-05 广州汽车集团股份有限公司 一种车载全景图像无缝拼接处理方法及系统
CN106303720A (zh) * 2016-08-02 2017-01-04 合网络技术(北京)有限公司 一种视频推荐方法与系统
CN114297419A (zh) * 2021-12-31 2022-04-08 北京卓越乐享网络科技有限公司 多媒体对象的预测方法、装置、设备、介质和程序产品

Also Published As

Publication number Publication date
CN103607606B (zh) 2015-09-23

Similar Documents

Publication Publication Date Title
US8412699B1 (en) Fresh related search suggestions
AU2013242804B2 (en) Relationship-based search and recommendations
US9712869B1 (en) System and method for associating individual household members with television programs viewed
AU2013242808B2 (en) Relationship-based search and recommendations
CA2865079C (en) Automatically recommending content
US9613088B2 (en) Systems and methods for query optimization
US11580168B2 (en) Method and system for providing context based query suggestions
CN103607606B (zh) 一种基于词网络的视频播放量预估方法及装置
US9071857B2 (en) Methods and systems for online recommendation
US8666990B2 (en) System and method for determining authority ranking for contemporaneous content
CN102630052B (zh) 面向实时流的电视节目推荐系统
US20160295290A1 (en) Recommending video programs
US8918330B1 (en) Display of videos based on referrers
CN103686231A (zh) 影片的集成管理、失效替换与续播的方法及系统
US8566315B1 (en) Sequenced video segment mix
US20120221563A1 (en) Social Weight of Social Media Content
CN106339394B (zh) 一种信息处理方法及装置
IL234134A (en) Machine learning method of search query types
JP2012529089A (ja) 同時選択画像の分類
CN104021140B (zh) 一种网络视频的处理方法及装置
US8832083B1 (en) Combining user feedback
CN110598044B (zh) 一种基于用户点击和转化时长反馈的协同召回方法
EP2915071A1 (en) Bookmarking prospective media content on computer network
US9623119B1 (en) Accentuating search results
US20140006392A1 (en) Facilitating media content search

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee after: Youku network technology (Beijing) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: 1VERGE INTERNET TECHNOLOGY (BEIJING) Co.,Ltd.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20200318

Address after: 310019 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: Youku network technology (Beijing) Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150923

Termination date: 20201202

CF01 Termination of patent right due to non-payment of annual fee