CN102682132A - 一种基于词频、播放量和创建时间检索信息的方法及系统 - Google Patents

一种基于词频、播放量和创建时间检索信息的方法及系统 Download PDF

Info

Publication number
CN102682132A
CN102682132A CN2012101553578A CN201210155357A CN102682132A CN 102682132 A CN102682132 A CN 102682132A CN 2012101553578 A CN2012101553578 A CN 2012101553578A CN 201210155357 A CN201210155357 A CN 201210155357A CN 102682132 A CN102682132 A CN 102682132A
Authority
CN
China
Prior art keywords
internet video
time
video
creation
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101553578A
Other languages
English (en)
Other versions
CN102682132B (zh
Inventor
齐志兵
刘伟
郑海龙
李力行
卞琪
姚健
潘柏宇
卢述奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Youku Network Technology Beijing Co Ltd
Original Assignee
1Verge Internet Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 1Verge Internet Technology Beijing Co Ltd filed Critical 1Verge Internet Technology Beijing Co Ltd
Priority to CN2012101553578A priority Critical patent/CN102682132B/zh
Publication of CN102682132A publication Critical patent/CN102682132A/zh
Application granted granted Critical
Publication of CN102682132B publication Critical patent/CN102682132B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明提供了一种基于词频、播放量和创建时间检索信息的方法及系统,该方法包括如下步骤:计算词频-逆向文件频率权重值、网络视频播放量权重值、创建时间权重值,并依据以上权重值计算最终的权重,并依据该最终权重对该关键词后的网络视频文档进行排序;按照顺序显示与网络视频文档对应的网络视频信息。本发明所述的方法及系统使得播放量较大时间上较新的数据能够排在前面,这样进行检索时能够提供出播放多时间新的网络视频。

Description

一种基于词频、播放量和创建时间检索信息的方法及系统
技术领域
本发明属于互联网数据统计处理技术领域,尤其涉及一种在建立索引过程中根据网络视频中文字信息中词频、网络视频总数、所有网络视频创建时间对网络视频进行排序的方法及系统。
背景技术
网络视频已经成为互联网上重要的应用部分,而且,针对网络视频搜索则是当前垂直搜索的一个重要方向。目前,现有的网络视频检索主要是根据网络视频文字信息的检索系统。而在所述的网络视频文字信息检索系统及领域方面,TF-IDF(term frequency-inverse document frequency,即:词频-逆向文件频率)加权是最常用的方法,该方法是一种用于信息检索与信息探勘的常用加权技术方法。进一步地,TF-IDF作为一种加权方法,主要是用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。目前,TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。但在网络视频检索领域,由于文字信息有限(仅包括网络视频标题、作者以及关键词等字词信息),在大多数网络视频文字信息中,每个词仅仅出现一次,词本身的频率都是1,字词的重要性并不能由它在文件中出现的次数反映出来。这就造成了一种情况:一旦使用标准的TF-IDF加权作为网络视频检索的标准,在做排序时,文本的输入顺序会起到决定性作用,而单纯的输入顺序肯定无法真实反映网络视频的重要程度。因此,在使用TF-IDF加权进行排序就会与信息输入先后顺序保持惊人的一致,TF-IDF无法单独作为有效的权重进行排序。在基于前述问题之下,本发明介绍的方法是在TF-IDF加权的基础上引入了网络视频的播放量和上传时间权重。网络视频播放量的大小能够直接反映大家对这个网络视频的关注度。同时我们做出另一个假设即随着时间的发展,网络视频的重要程度在降低。那么通过对网络视频播放量的统计、计算,同时利用时间就构成了这种对网络视频进行排序检索的方法。基于这种方法构建网络视频信息检索系统能够避免TF-IDF加权的缺点,将用户观看多的网络视频推荐给用户。基于此方法,本发明构建了一种网络视频信息检索系统。即综合网络视频播放量、网络视频创建时间和TF-IDF加权值来评价网络视频的重要程度。
发明内容
鉴于现有技术中存在的问题,本发明的目的在于提供一种不仅仅依赖于TF-ID(term frequency-inverse document frequency,即:词频-逆向文件频率)方法,同时具有网络视频自身特点的排序检索方法。为了达到上述目的,本发明提供了一种基于词频、播放量和创建时间检索信息的方法及系统。
根据本发明提供的一种基于词频、播放量和创建时间检索信息的方法,该方法包括如下步骤:步骤(1)用户输入关键词后触发检索;步骤(2)根据网络视频文字信息,统计该关键词的词频与包含这个关键词的网络视频数、网络视频总数,计算词频-逆向文件频率权重值;步骤(3)根据网络视频的播放量,及该网络视频所属网络视频分类中所含的网络视频个数、该网络视频分类的所有播放量、所有网络视频的播放量的总和计算网络视频播放量权重值;步骤(4)根据网络视频信息中包含的创建时间计算创建时间权重值;步骤(5)当进行倒排预排时,根据计算得出的词频-逆向文件频率权重值、网络视频播放量权重值、创建时间权重值计算最终的权重并依据该最终权重对该关键词后的网络视频文档进行排序;步骤(6)按照顺序显示与网络视频文档对应的网络视频信息。
更进一步的,本方法中的步骤(2)包括以下步骤:
计算 tf ij = n ij Σ k n kj
其中:nij是所述关键词在某网络视频文字信息dj(Vj)中的出现次数,而分母则是在文字信息dj(Vj)中所有字词的出现次数之和;
计算 idf i = log | D | | { j : t i ∈ V j } |
其中:|D|:全部的网络视频信息数量;
{j:ti∈Vj}:包含词语ti的网络视频数目;
计算tfidfij=tfij*idfi.得到词频-逆向文件频率权重值。
更进一步的,本方法中的步骤(3)包括以下步骤:
进行以下计算
CHitN ( { C j } ) = Σ v ∈ ( C j ) Hit ( v ) .
AHitN = Σ j = 1 K CHitN ( { C j } ) .
CQHit = CHitN ( { C j } ) ANitN * 100 %
其中:{Cj}j=1,2.........k代表第j个网络视频分类;
Hit(v)代表某一网络视频v的播放量;
Vnum({Cj})代表第j个网络视频分类中所含的网络视频个数;
CHitN({Cj})某个分类中的所有网络视频的播放量;
AHitN所有网络视频的播放量的总和;
CQHit指某个类别中的网络视频的播放量在所有的网络视频播放量中所占的百分比;
根据以上结果执行 f ( { C j } ) = Σ j = 1 k Vnum ( C j ) Vnum ( C j ) ;
Pow ( Hit ( v ) ) log = Vnum ( C j ) * Hit ( v ) Σ v ∈ ( C j ) Hit ( v ) ;
最后根据Power(Hit(v),v∈{Cj})=Pow(Hit(v))*CQHit*f({Cj}).获得网络视频播放量的权重值。
更进一步,本发明的方法中步骤(4)包括以下步骤:
使用函数
Figure BDA00001654101200043
计算;
其中FTime(v)表示某个网络视频的创建时间;
FunTimeO表示当前时间,可以认为是所有网络视频创建时间的最大值;
FunTime1表示最早时间,可以认为是所有网络视频创建时间的最小值;
FunTimeUnit表示时间分段单位时间;
根据下面的微调函数进行微调:
FTPow ( v ) = ln FunTimeO - FunTime 1 FunTimeO - FTime ( v ) . . . . . . . . . . FTime ( v ) < FunTimeO 64 . . . . . . . . . . . . . . . . . . . . . . . . . . FTime ( v ) = FunTimeO .
其中:
FunTimeO≥FTime(v)>FunTime1
通过TPower(v)=FTPow(v)*f(FTime(v)).来获得创建时间权重。
更进一步,本发明所述的方法中的步骤(5)中所述根据计算得出的词频-逆向文件频率权重值、网络视频播放量权重值、创建时间权重值对某关键词后的网络视频文档进行排序是指根据下式来进行计算最终的权重:
fPower(ti,vk)=tfidfik*Power(Hit(vk),vk∈{Cj})*TPower(v)。
此外,本发明还提供了一种基于词频、播放量和创建时间检索信息的系统,该系统包括网络视频信息数据库,保存有网络视频信息;网络视频信息读取单元,该单元从网络视频信息数据库中读取数据,获取网络视频文字信息、创建时间、所属类别及其播放量;网络视频信息汇总单元,根据网络视频文字信息统计网络视频中的某关键词词频、包含所述关键词的网络视频数以及总的网络视频数量,统计各类别网络视频的总的播放量及网络视频个数信息;权重计算单元,根据汇总得到的关键词的词频及包含这个词的网络视频数和网络视频总数计算TF-IDF加权值,根据网络视频的播放量及该网络视频所属网络视频分类中所含的网络视频个数、该网络视频分类的所有播放量、所有网络视频的播放量的总和计算网络视频播放量权重值;根据网络视频的创建时间计算创建时间权重值;根据以上三个权重值计算出关于该关键词的网络视频的最终权重;排序单元:在进行倒排预排时,对于包含该同一关键词的所有网络视频在这个过程中按照计算的网络视频最终权重进行排序;检索单元:根据关键词调用以上各单元进行检索并返回排序数据;触发显示单元:将用户输入的关键词传输给检索单元并触发检索单元检索,按顺序从检索单元接收检索到的数据进行相应的网络视频信息显示。
本发明所述的方法及系统具有以下优点:
本发明所述的方法避免了由于网络视频文字信息较短,单独使用TF-IDF进行检索预排序几乎完全按照输入顺序的缺点,增加网络视频播放量权重与时间权重因素后,使得播放量较大时间上较新的数据能够排在前面,这样进行检索时能够提供出播放多时间新的网络视频。
附图说明
图1是根据本发明检索信息的方法的流程图;
图2是根据本发明所描述的权重算法计算最终权重的流程图。
具体实施方式
为使本发明的上述目的、特征和优点更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明:
首先设定DX代表一个文档(网络视频文字信息)编号,Wx代表一个词的标号。那么我们文档对应的词的关系结构可以表示为下面的非对称矩阵形式。
A = D 0 W 0 W 1 W 2 W k D 1 W 5 W 6 W 1 W 3 W k D 2 W 8 W 9 W 1 W 2 W 5 . . . D n W 5 W 6 W 2 W 3 W 4
如果需要检索,则需要建立一个词对应文档的倒排结构,将上矩阵建倒排之后则可以表示为如下矩阵形式:
W 0 D 0 . . . W 1 D 0 D 1 . . . W 2 D 0 D 2 D n . . . W 3 D 1 D 2 . . . . . . W k D 0 D 1 . . . . . . W n . . .
当进行倒排时需要对D0,D1......DM(M>=0)进行预排序,按照传统的方法,只需要计算标准的TF-IDF值。但是这里一个文档代表着一个网络视频,由于网络视频的某些特点,不能简单的使用表针的TF-IDF来做,而需要综合网络视频播放量、网络视频创建时间以及标准的TF-IDF值计算每个网络视频排序的权重值。如图1和图2所示。
1.TF-IDF部分
TF-IDF计算遵循标准的算法。
TF(term frequency,即:词频)指一个给定的词(即用户给定的关键词)在该网络视频文字信息(主要包括网络视频作者、标题、关键字)中出现的频率。这个数字是对TC(term count,即:词数)的归一化,以防止它偏向长文字信息的网络视频。(同一个词语在长文字信息里可能会比短文件有更高的词数,而不管该词语重要与否。)对于在某一特定网络视频文字信息里的词语tj来说,它的重要性可表示为:
tf ij = n ij &Sigma; k n kj . . . ( 1 )
其中:
nij是该给定的词在某网络视频文字信息dj(Vj)中的出现次数,而分母则是在文字信息dj(Vj)中所有字词的出现次数之和。
IDF(inverse document frequency,逆向文件频率)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件(网络视频)数目除以包含该词语之文件的数目,再将得到的商取对数得到:
idf i = log | D | | { j : t i &Element; V j } | . . . ( 2 )
其中:
|D|:全部的文字信息数量,在本发明中认为是能够得到的所有网络视频的总数。
{j:ti∈Vj}:包含所述某一特定词语ti的文件数目(即nij≠0的网络视频数目)如果该词语不在语料库中,就会导致被除数为零,因此一般情况下使用{j:ti∈Vj}+1
最终:
tfidfij=tfij*idfi....................................................................................(3)
某一特定文字信息段内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
tfidfij是通过网络视频标题、作者等文字信息进行网络视频搜索的基础。是整个过程中网络视频评分的第一个因素,也是进行网络视频评分的基础。但是,TF-IDF只是语义基础得分,由于网络视频文字信息有限,在大量的网络视频文字信息中词只出现1次,无法体现网络视频的重要程度,因此必须考虑网络视频的一些特有的特征。
2.网络视频播放量
用户在通过网站观看网络视频时,网络视频通过播放器进行播放同时会向服务器发送播放日志。通过每小时日志的统计就能够得到网络视频的被观看次数,然后将播放次数累加到数据库记录中。通过数据库查询就能够获得网络视频的播放量。
为了更好的说明这个问题,定义以下基本符号:
{Cj}j=1,2.........k代表第j个网络视频分类(如电影,电视剧);
Hit(v)代表某一网络视频v的播放量;
Vnum({Cj})代表第j个网络视频分类中所含的网络视频个数;
评价一个网络视频好不好,最明显的特征就是网络视频本身被用户看过多少,换句话说就是网络视频播放量。在系统中网络视频是被分成不同类型的,比如电影、电视剧、综艺等等,因此考虑时首先网络视频要分类考虑,即要考虑网络视频所属类型的对全部网络视频的播放量的贡献。这个关系可以用以下公式表示:
CHitN ( { C j } ) = &Sigma; v &Element; ( C j ) Hit ( v ) . . . ( 4 )
AHitN = &Sigma; j = 1 K CHitN ( { C j } ) . . . ( 5 )
CQHit = CHitN ( { C j } ) AHitN * 100 % . . . ( 6 )
其中:
CHitN({Cj})某个分类中的所有网络视频的播放量;
AHitN所有网络视频的播放量的总和;
CQHit指某个类别播放量在所有播放量中所占的百分比。
可以认为CQHit某类别播放量所占百分比就代表了某个分类的贡献量。如果某个类别对全局的贡献越大越能证明这个类别观看的越多,用户越希望在相关位置和后续的正比例关系排序中看到。
但是从另一个角度来讲,如果两个网络视频播放量近似,但出现在不同的类别中,那么相对来讲在所有网络视频中占有比例较小的网络视频以表现的机会。这就需要对某个类别的所有网络视频计算某个值进行调整,使用某类网络视频在所有网络视频中所占比例的倒数来进行调整:
f ( { C j } ) = &Sigma; j = 1 k Vnum ( C j ) Vnum ( C j ) . . . ( 7 )
每个网络视频的播放量在单独类别中都是相对的,为了表示这个相对程度,使用每个网络视频的播放量相对类别平均播放量的倍数这个标量的对数来表示,简单的可以用以下公式计算
Pow ( Hit ( v ) ) = log Vnum ( C j ) * Hit ( v ) &Sigma; v &Element; ( C j ) Hit ( v ) . . . ( 8 )
这样计算网络视频播放量考虑了以上三个方面,这三个值的乘积作为某个网络视频播放量量化排序的因素值。
Power(Hit(v),v∈{Cj})=Pow(Hit(v))*CQHit*f({Cj})..................(9)
3.网络视频创建时间
为了更好的说明这个问题,首先定义以下符号:
FTime(v)某个网络视频的创建时间;
FunTimeO当前时间,可以认为是所有网络视频创建时间的最大值;
FunTime1最早时间,可以认为是所有网络视频创建时间的最小值;
FunTimeUnit时间分段单位时间。
作为网络视频来讲,像每个人一样都有一个出生的时间,这里使用网络视频的创建时间。为了计算时间对于网络视频重要程度的影响,做以下定义:随着时间的发展,网络视频的重要程度在降低,即越接近当前时间创建的网络视频重要性越高,其降低过程被认为是一个先快后慢的过程。
网络视频的时间基本权重在一定时间段内(这个时间段可以是1天,2天,也可以是一周,一个月)是一样的,随着时间向前推移逐步降低,其降低幅度越来越小。为此我们使用以下函数:
其中:
表示对结果进行向下取整,这样可以将时间分段对应到sin(x)的某个周期中。
这里使用了
f ( x ) = | sin ( x ) x | . . . ( 11 )
式(11)是分段函数形式,将网络视频常见时间通过变换映射到|sin(x)|的某个周期中,使用本周期中的局部近似最大值
Figure BDA00001654101200114
作为本区间的基本权重。
在某个时间段内部,创建时间点的不同,其时间权重也有些许不同,因此需要进行微调,这里使用以下函数作为微调的函数
FTPow ( v ) = ln FunTimeO - FunTime 1 FunTimeO - FTime ( v ) . . . . . . . . . . . . . FTime ( v ) < FunTimeO 64 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . FTime ( v ) = FunTimeO . . . ( 12 )
其中:
FunTimeO≥FTime(v)>FunTime1
这样我们使用下式来描述创建时间权重
TPower(v)=FTPow(v)*f(FTime(v))..............................................................................(13)
TPower(v)就描述了创建时间对网络视频权重的意义。一方面对根据网络视频创建时间进行分段,另一方面又在每个区间内部进行调整,从而得到创建时间对于网络视频的一个合理的权重。
综合以上三个方面,最终的排序使用这三个值的乘积,即:
fPower(ti,vk)=tfidfik*Power(Hit(vk),vk∈{Cj})*TPower(v)......(14)
当进行网络视频的倒排预排时,根据计算得出的网络视频最终权重fPower(ti,vk)对某词后的文档进行排序,这样检索时将优先出现距离现在时间较近、点击量较高的网络视频。
下面我们通过具体的例子来说明上述方法的使用,给定关键词语t和网络视频v,fPower(t,v)的具体计算过程如下:
1.TF-IDF
假设该给定词t在某网络视频v中的出现次数为1,v中所有的字词出现次数之和为5,网络视频总量|D|为5*107,包含t的网络视频总数为3*103,则根据公式(1)-(3)可得到
tf t , v = 1 5
idf t = log 5 &times; 10 7 3 &times; 10 3 &ap; 9.210
tfidft,v=tft,v*idft≈1.843
2.网络视频播放量权重计算
假设v的播放量v属于类别Ci,Ci的网络视频总数Vnum(Ci)=5×106,该类别的总播放量CHitN(Ci)=4×1010,网络视频总量|D|为5×107,所有网络视频的播放量的总和AHitN=5×1011
由公式(6)-(9)可得到
CQHit = CHitN ( C i ) AHitN * 100 % = 4 &times; 10 10 5 &times; 10 11 &times; 100 % = 8 %
f ( C i ) = | D | Vnum ( C i ) = 5 &times; 10 7 5 &times; 10 6 = 10
Pow ( Hit ( v ) ) = log Vnum ( C i ) * Hit ( v ) CHitN ( C i ) = log ( 5 &times; 10 6 ) &times; ( 1 &times; 10 5 ) 4 &times; 10 10 &ap; 2.526
Power(Hit(v),Ci)=Pow(Hit(v))*CQHit*f(Ci)≈2.021
3.网络视频创建时间权重计算
假设最早时间FunTime1=0,当前时间FunTimeO=5×103,网络视频v的创建时间FTime(v)=3×103,时间分段单位时间FunTimeUnit=10。
由公式(10)(12)(13)可得
Figure BDA00001654101200138
FTPow ( v ) = ln FunTimeO - FunTime 1 FunTimeO - FTime ( v ) = ln 0 - 5 &times; 10 3 0 - 3 &times; 10 3 &ap; 0.511
TPower(v)=FTPow(v)*f(FTime(v))≈0.003
综合上述计算的结果,由公式(14)可得最终权重为
fPower(ti,vk)=tfidfik*Power(Hit(vk),vk∈{Cj})*TPower(v)
                       =1.84×3  2.0×2.1  0≈0.03
则在对包含词t的所有网络视频进行排序时,0.012就是本网络视频的最终权重,并基于此值进行预排序。
在综合网络视频播放量、网络视频创建时间和TF-IDF之前,在加载倒排时排序只按照TF-IDF一个因素,导致命中时,只是按照网络视频进入的先后顺序进行命中,这些网络视频的时间不一定离现在较近,点击量也不一定高,这样很难向用户提供好的搜索结果。使用本发明后,可以根据网络视频播放量和网络视频创建时间综合,将相对重要的网络视频排在前边,这样检索到的结果就是相对重要的结果。
以上是对本发明的优选实施例进行的详细描述,但本领域的普通技术人员应该意识到,在本发明的范围内和精神指导下,各种改进、添加和替换都是可能的。这些都在本发明的权利要求所限定的保护范围内。

Claims (10)

1.一种基于词频、播放量和创建时间检索信息的方法,其特征在于包括如下步骤:
步骤(1)用户输入关键词后触发检索;
步骤(2)根据网络视频文字信息,统计该关键词的词频与包含这个关键词的网络视频数、网络视频总数,计算词频-逆向文件频率权重值;
步骤(3)根据网络视频的播放量,及该网络视频所属网络视频分类中所含的网络视频个数、该网络视频分类的所有播放量、所有网络视频的播放量的总和计算网络视频播放量权重值;
步骤(4)根据网络视频信息中包含的创建时间计算创建时间权重值;
步骤(5)当进行倒排预排时,根据计算得出的词频-逆向文件频率权重值、网络视频播放量权重值、创建时间权重值计算最终的权重并依据该最终权重对该关键词后的网络视频文档进行排序;
步骤(6)按照顺序显示与网络视频文档对应的网络视频信息。
2.根据权利要求1所述的方法,其特征在于:
步骤(2)包括以下步骤:
计算 tf ij = n ij &Sigma; k n kj
其中:nij是所述关键词在某网络视频文字信息dj(Vj)中的出现次数,而分母则是在文字信息dj(Vj)中所有字词的出现次数之和;
计算 idf i = log | D | | { j : t i &Element; V j } |
其中:|D|:全部的网络视频信息数量;
{j:ti∈Vj}:表示包含关键词ti的网络视频数目;
计算tfidfij=tfij*idfi.得到词频-逆向文件频率权重值。
3.根据权利要求1所述的方法,其特征在于:
步骤(3)包括以下步骤:
进行以下计算
CHitN ( { C j } ) = &Sigma; v &Element; ( C j ) Hit ( v ) .
AHitN = &Sigma; j = 1 K CHitN ( { C j } ) .
CQHit = CHitN ( { C j } ) ANitN * 100 %
其中:{Cj}j=1,2.........k代表第j个网络视频分类;
Hit(v)代表某一网络视频v的播放量;
Vnum({Cj})代表第j个网络视频分类中所含的网络视频个数;
CHitN({Cj})某个分类的所有网络视频的播放量;
AHitN表示所有网络视频的播放量的总和;
CQHit指某个类别的网络视频播放量在所有的网络视频播放量中所占的百分比;
根据以上结果执行 f ( { C j } ) = &Sigma; j = 1 k Vnum ( C j ) Vnum ( C j ) ;
Pow ( Hit ( v ) ) = log Vnum ( C j ) * Hit ( v ) &Sigma; v &Element; ( C j ) Hit ( v ) ;
最后根据Power(Hit(v),v∈{Cj})=Pow(Hit(v))*CQHit*f({Cj}).获得网络视频播放量的权重值。
4.根据权利要求1所述的方法,其特征在于:
步骤(4)包括以下步骤:
使用函数
Figure FDA00001654101100031
计算;
其中FTime(v)表示某个网络视频的创建时间;
FunTimeO表示当前时间,可以认为是所有网络视频创建时间的最大值;
FunTime1表示最早时间,可以认为是所有网络视频创建时间的最小值;
FunTimeUnit表示时间分段单位时间;
根据下面的微调函数进行微调:
FTPow ( v ) = ln FunTimeO - FunTime 1 FunTimeO - FTime ( v ) . . . . . . . . . . FTime ( v ) < FunTimeO 64 . . . . . . . . . . . . . . . . . . . . . . . . . . FTime ( v ) = FunTimeO .
其中:
FunTimeO≥FTime(v)>FunTime1
通过TPower(v)=FTPow(v)*f(FTime(v)).来获得创建时间权重。
5.根据权利要求1所述的方法,其特征在于:
步骤(5)中所述根据计算得出的词频-逆向文件频率权重值、网络视频播放量权重值、创建时间权重值对某关键词后的网络视频文档进行排序是指根据下式来进行计算最终的权重:
fPower(ti,vk)=tfidfik*Power(Hit(vk),vk∈{Cj})*TPower(v)。
6.一种基于词频、播放量和创建时间检索信息的系统,其特征在于该系统包括:
网络视频信息数据库,保存有网络视频信息;
网络视频信息读取单元,该单元从网络视频信息数据库中读取数据,获取网络视频文字信息、创建时间、所属类别及其播放量;
网络视频信息汇总单元,根据网络视频文字信息统计网络视频中的某关键词词频、包含所述关键词的网络视频数以及总的网络视频数量,统计各类别网络视频的总的播放量及网络视频个数信息;
权重计算单元,根据汇总得到的关键词的词频及包含这个关键词的网络视频数和网络视频总数计算TF-IDF加权值,根据网络视频的播放量及该网络视频所属网络视频分类中所含的网络视频个数、该网络视频分类中所有网络视频的播放量、所有网络视频的播放量的总和计算网络视频播放量权重值;根据网络视频的创建时间计算创建时间权重值;根据以上三个权重值计算出关于该关键词的网络视频的最终权重;
排序单元:在进行倒排预排时,对于包含该同一关键词的所有网络视频在这个过程中按照计算的网络视频最终权重进行排序;
检索单元:根据关键词调用以上各单元进行检索并返回排序数据;
触发显示单元:将用户输入的关键词传输给检索单元并触发检索单元检索,按顺序从检索单元接收检索到的数据进行相应的网络视频信息显示。
7.根据权利要求6所述的系统,其特征在于:
权重计算单元根据以下算法计算TF-IDF加权值:
计算 tf ij = n ij &Sigma; k n kj
其中:nij是所述关键词在某网络视频文字信息dj(Vj)中的出现次数,而分母则是在文字信息dj(Vj)中所有字词的出现次数之和;
计算 idf i = log | D | | { j : t i &Element; V j } |
其中:|D|:全部的网络视频信息数量;
{j:ti∈Vj}:包含关键词ti的网络视频数目;
计算tfidfij=tfij*idfi.得到词频-逆向文件频率权重值。
8.根据权利要求6所述的系统,其特征在于:
权重计算单元根据以下算法计算网络视频播放量权重值:
CHitN ( { C j } ) = &Sigma; v &Element; ( C j ) Hit ( v ) .
AHitN = &Sigma; j = 1 K CHitN ( { C j } ) .
CQHit = CHitN ( { C j } ) AHitN * 100 %
其中:{Cj}j=1,2.........k代表第j个网络视频分类;
Hit(v)代表某一网络视频v的播放量;
Vnum({Cj})代表第j个网络视频分类中所含的网络视频个数;
CHitN({Cj})某个分类的所有网络视频播放量;
AHitN所有网络视频的播放量的总和;
CQHit指某个类别的网络视频播放量在所有的网络视频播放量中所占的百分比;
根据以上结果执行 f ( { C j } ) = &Sigma; j = 1 k Vnum ( C j ) Vnum ( C j ) ;
Pow ( Hit ( v ) ) = log Vnum ( C j ) * Hit ( v ) &Sigma; v &Element; ( C j ) Hit ( v ) ;
最后根据Power(Hit(v),v∈{Cj})=Pow(Hit(v))*CQHit*f({Cj}).获得网络视频播放量的权重值。
9.根据权利要求6所述的系统,其特征在于:
权重计算单元根据以下算法计算创建时间权重:
使用函数
Figure FDA00001654101100063
计算;
其中FTime(v)表示某个网络视频的创建时间;
FunTimeO表示当前时间,可以认为是所有网络视频创建时间的最大值;
FunTime1表示最早时间,可以认为是所有网络视频创建时间的最小值;
FunTimeUnit表示时间分段单位时间;
根据下面的微调函数进行微调:
FTPow ( v ) = ln FunTimeO - FunTime 1 FunTimeO - FTime ( v ) . . . . . . . . . . . . . . . . . . FTime ( v ) < FunTimeO 64 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . FTime ( v ) = FunTimeO .
其中:
FunTimeO≥FTime(v)>FunTime1
通过TPower(v)=FTPow(v)*f(FTime(v)).来获得创建时间权重。
10.根据权利要求6所述的系统,其特征在于:
权重计算单元根据计算得出的词频-逆向文件频率权重值、网络视频播放量权重值、创建时间权重值对关键词后的网络视频的最终权重进行计算是依据下式:
fPower(ti,vk)=tfidfik*Power(Hit(vk),vk∈{Cj})*TPower(v)。
CN2012101553578A 2012-05-18 2012-05-18 一种基于词频、播放量和创建时间检索信息的方法及系统 Expired - Fee Related CN102682132B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101553578A CN102682132B (zh) 2012-05-18 2012-05-18 一种基于词频、播放量和创建时间检索信息的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101553578A CN102682132B (zh) 2012-05-18 2012-05-18 一种基于词频、播放量和创建时间检索信息的方法及系统

Publications (2)

Publication Number Publication Date
CN102682132A true CN102682132A (zh) 2012-09-19
CN102682132B CN102682132B (zh) 2013-12-04

Family

ID=46814057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101553578A Expired - Fee Related CN102682132B (zh) 2012-05-18 2012-05-18 一种基于词频、播放量和创建时间检索信息的方法及系统

Country Status (1)

Country Link
CN (1) CN102682132B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880712A (zh) * 2012-10-08 2013-01-16 合一网络技术(北京)有限公司 一种用于对搜索的网络视频进行排序的方法和系统
CN103607606A (zh) * 2013-12-02 2014-02-26 合一网络技术(北京)有限公司 一种基于词网络的视频播放量预估方法及装置
CN103744900A (zh) * 2013-12-26 2014-04-23 合一网络技术(北京)有限公司 一种结合视觉分辨难度的文本串权重计算方法及装置
CN103970812A (zh) * 2013-12-27 2014-08-06 乐视网信息技术(北京)股份有限公司 多媒体内容的搜寻方法与系统
CN104298715A (zh) * 2014-09-16 2015-01-21 北京航空航天大学 一种基于tf-idf的多索引结果合并排序方法
CN104503980A (zh) * 2014-11-26 2015-04-08 百度在线网络技术(北京)有限公司 确定综合搜索信息以及据此确定待推送候选搜索序列
WO2015117571A1 (zh) * 2014-07-23 2015-08-13 中兴通讯股份有限公司 一种节目排序方法及装置
CN104994424A (zh) * 2015-06-30 2015-10-21 北京奇艺世纪科技有限公司 一种构建音视频标准数据集的方法和装置
CN105657575A (zh) * 2015-12-30 2016-06-08 北京奇艺世纪科技有限公司 视频标注方法和装置
CN105828181A (zh) * 2016-04-14 2016-08-03 青岛海信传媒网络技术有限公司 基于视频点播量的视频排序方法及装置
CN106557779A (zh) * 2016-10-21 2017-04-05 北京联合大学 一种基于显著区域词袋模型的物体识别方法
CN108133058A (zh) * 2014-04-30 2018-06-08 海信集团有限公司 一种视频检索方法
CN108804647A (zh) * 2018-06-06 2018-11-13 北京奇艺世纪科技有限公司 一种视频排序的方法及装置
CN109272005A (zh) * 2017-07-17 2019-01-25 中国移动通信有限公司研究院 一种识别规则的生成方法、装置和深度包检测设备
CN110517747A (zh) * 2019-08-30 2019-11-29 志诺维思(北京)基因科技有限公司 病理数据处理方法、装置及电子设备
CN111914142A (zh) * 2020-07-30 2020-11-10 重庆电子工程职业学院 分时段记忆信息检索系统
CN112347764A (zh) * 2020-11-05 2021-02-09 中国平安人寿保险股份有限公司 生成弹幕云的方法、装置和计算机设备
CN113115107A (zh) * 2021-04-15 2021-07-13 深圳鸿祥源科技有限公司 一种基于5g网络的手持视频采集终端系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080319960A1 (en) * 2007-06-25 2008-12-25 Yuan-Jung Chang Information searching method, information searching system and inputting device thereof
CN101382938A (zh) * 2008-10-23 2009-03-11 浙江大学 一种基于用户关注时间的网络视频排序方法
CN101694670A (zh) * 2009-10-20 2010-04-14 北京航空航天大学 一种基于公共子串的中文Web文档在线聚类方法
CN101894129A (zh) * 2010-05-31 2010-11-24 中国科学技术大学 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法
CN101984437A (zh) * 2010-11-23 2011-03-09 亿览在线网络技术(北京)有限公司 音乐资源个性化推荐方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080319960A1 (en) * 2007-06-25 2008-12-25 Yuan-Jung Chang Information searching method, information searching system and inputting device thereof
CN101382938A (zh) * 2008-10-23 2009-03-11 浙江大学 一种基于用户关注时间的网络视频排序方法
CN101694670A (zh) * 2009-10-20 2010-04-14 北京航空航天大学 一种基于公共子串的中文Web文档在线聚类方法
CN101894129A (zh) * 2010-05-31 2010-11-24 中国科学技术大学 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法
CN101984437A (zh) * 2010-11-23 2011-03-09 亿览在线网络技术(北京)有限公司 音乐资源个性化推荐方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢兵: "土豆网视频搜索引擎系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880712B (zh) * 2012-10-08 2015-07-22 合一网络技术(北京)有限公司 一种用于对搜索的网络视频进行排序的方法和系统
CN102880712A (zh) * 2012-10-08 2013-01-16 合一网络技术(北京)有限公司 一种用于对搜索的网络视频进行排序的方法和系统
CN103607606A (zh) * 2013-12-02 2014-02-26 合一网络技术(北京)有限公司 一种基于词网络的视频播放量预估方法及装置
CN103744900A (zh) * 2013-12-26 2014-04-23 合一网络技术(北京)有限公司 一种结合视觉分辨难度的文本串权重计算方法及装置
CN103970812A (zh) * 2013-12-27 2014-08-06 乐视网信息技术(北京)股份有限公司 多媒体内容的搜寻方法与系统
CN108133058B (zh) * 2014-04-30 2022-02-18 海信集团有限公司 一种视频检索方法
CN108133058A (zh) * 2014-04-30 2018-06-08 海信集团有限公司 一种视频检索方法
WO2015117571A1 (zh) * 2014-07-23 2015-08-13 中兴通讯股份有限公司 一种节目排序方法及装置
CN105323602A (zh) * 2014-07-23 2016-02-10 中兴通讯股份有限公司 一种节目排序方法及装置
CN104298715A (zh) * 2014-09-16 2015-01-21 北京航空航天大学 一种基于tf-idf的多索引结果合并排序方法
CN104298715B (zh) * 2014-09-16 2017-12-19 北京航空航天大学 一种基于tf‑idf的多索引结果合并排序方法
CN104503980A (zh) * 2014-11-26 2015-04-08 百度在线网络技术(北京)有限公司 确定综合搜索信息以及据此确定待推送候选搜索序列
CN104503980B (zh) * 2014-11-26 2020-06-05 百度在线网络技术(北京)有限公司 确定综合搜索信息以及据此确定待推送候选搜索序列
CN104994424A (zh) * 2015-06-30 2015-10-21 北京奇艺世纪科技有限公司 一种构建音视频标准数据集的方法和装置
CN104994424B (zh) * 2015-06-30 2018-03-20 北京奇艺世纪科技有限公司 一种构建音视频标准数据集的方法和装置
CN105657575B (zh) * 2015-12-30 2018-10-19 北京奇艺世纪科技有限公司 视频标注方法和装置
CN105657575A (zh) * 2015-12-30 2016-06-08 北京奇艺世纪科技有限公司 视频标注方法和装置
CN105828181B (zh) * 2016-04-14 2019-06-25 聚好看科技股份有限公司 基于视频点播量的视频排序方法及装置
CN105828181A (zh) * 2016-04-14 2016-08-03 青岛海信传媒网络技术有限公司 基于视频点播量的视频排序方法及装置
CN106557779A (zh) * 2016-10-21 2017-04-05 北京联合大学 一种基于显著区域词袋模型的物体识别方法
CN109272005A (zh) * 2017-07-17 2019-01-25 中国移动通信有限公司研究院 一种识别规则的生成方法、装置和深度包检测设备
CN109272005B (zh) * 2017-07-17 2020-08-28 中国移动通信有限公司研究院 一种识别规则的生成方法、装置和深度包检测设备
CN108804647B (zh) * 2018-06-06 2021-07-30 北京奇艺世纪科技有限公司 一种视频排序的方法及装置
CN108804647A (zh) * 2018-06-06 2018-11-13 北京奇艺世纪科技有限公司 一种视频排序的方法及装置
CN110517747A (zh) * 2019-08-30 2019-11-29 志诺维思(北京)基因科技有限公司 病理数据处理方法、装置及电子设备
CN110517747B (zh) * 2019-08-30 2022-06-03 志诺维思(北京)基因科技有限公司 病理数据处理方法、装置及电子设备
CN111914142A (zh) * 2020-07-30 2020-11-10 重庆电子工程职业学院 分时段记忆信息检索系统
CN111914142B (zh) * 2020-07-30 2023-07-04 重庆电子工程职业学院 分时段记忆信息检索系统
CN112347764A (zh) * 2020-11-05 2021-02-09 中国平安人寿保险股份有限公司 生成弹幕云的方法、装置和计算机设备
CN112347764B (zh) * 2020-11-05 2024-05-07 中国平安人寿保险股份有限公司 生成弹幕云的方法、装置和计算机设备
CN113115107A (zh) * 2021-04-15 2021-07-13 深圳鸿祥源科技有限公司 一种基于5g网络的手持视频采集终端系统
CN113115107B (zh) * 2021-04-15 2021-12-28 深圳鸿祥源科技有限公司 一种基于5g网络的手持视频采集终端系统

Also Published As

Publication number Publication date
CN102682132B (zh) 2013-12-04

Similar Documents

Publication Publication Date Title
CN102682132B (zh) 一种基于词频、播放量和创建时间检索信息的方法及系统
US7996407B2 (en) System, method and computer executable program for information tracking from heterogeneous sources
US20220044139A1 (en) Search system and corresponding method
Dave et al. Learning the click-through rate for rare/new ads from similar ads
US9105008B2 (en) Detecting controversial events
An et al. Fragmented social media: a look into selective exposure to political news
US8983971B2 (en) Method, apparatus, and system for mobile search
US9189540B2 (en) Mobile web-based platform for providing a contextual alignment view of a corpus of documents
CN108256119A (zh) 一种资源推荐模型的构建方法及基于该模型的资源推荐方法
Ahmed et al. Fair and balanced: Learning to present news stories
CN102033919A (zh) 文本关键词提取方法及系统
Kanhabua et al. Learning to rank search results for time-sensitive queries
Li et al. Suggest what to tag: Recommending more precise hashtags based on users’ dynamic interests and streaming tweet content
Yao et al. Predicting movie sales revenue using online reviews
Nastić et al. A geometric time-series model with an alternative dependent Bernoulli counting series
Kim et al. Advertiser-centric approach to understand user click behavior in sponsored search
Capelle et al. Bing-SF-IDF+ a hybrid semantics-driven news recommender
Woo et al. An event-driven SIR model for topic diffusion in web forums
Singh et al. Mining the blogosphere from a socio-political perspective
Zhu et al. R-tfidf, a Variety of tf-idf Term Weighting Strategy in Document Categorization
Faisal et al. A novel framework for social web forums’ thread ranking based on semantics and post quality features
Yoon et al. DiTeX: Disease-related topic extraction system through internet-based sources
Murtagh Semantic Mapping: Towards Contextual and Trend Analysis of Behaviours and Practices.
CN109783175B (zh) 应用程序图标管理方法、装置、可读存储介质及终端设备
Tyler et al. Retrieval models for audience selection in display advertising

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee after: Youku network technology (Beijing) Co.,Ltd.

Address before: 100080, A, 5, block 8, Sinosteel International Plaza, Haidian Avenue, Haidian District, Beijing

Patentee before: 1VERGE INTERNET TECHNOLOGY (BEIJING) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200624

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: Youku network technology (Beijing) Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131204

Termination date: 20210518