CN101894129B - 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法 - Google Patents

基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法 Download PDF

Info

Publication number
CN101894129B
CN101894129B CN2010101928531A CN201010192853A CN101894129B CN 101894129 B CN101894129 B CN 101894129B CN 2010101928531 A CN2010101928531 A CN 2010101928531A CN 201010192853 A CN201010192853 A CN 201010192853A CN 101894129 B CN101894129 B CN 101894129B
Authority
CN
China
Prior art keywords
video
word
weight
topic
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010101928531A
Other languages
English (en)
Other versions
CN101894129A (zh
Inventor
俞能海
刘毅捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN2010101928531A priority Critical patent/CN101894129B/zh
Publication of CN101894129A publication Critical patent/CN101894129A/zh
Application granted granted Critical
Publication of CN101894129B publication Critical patent/CN101894129B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法。属于网络多媒体信息处理领域。本发明的目的在于,在视频分享网站高噪声、主题数目不易确定的环境下,解决视频主题发现的技术问题。本发明主要利用视频分享网站上视频间链接关系来帮助视频主题的发现,包括利用抓取相关视频信息来调整视频BOW模型参数,进行文本信息增强;使用基于关键词的图模型进行主题聚合;以及利用视频与视频间回复关系暗示主题相似性的假设进行结果修正三大步骤。该方法可以在没有任何先验知识的前提下,自动的发现大量网络视频的主题结构,并对单个视频的主题进行有效的归纳,其效果较之常见的数种方法都有明显的进步。

Description

基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法
技术领域
本发明涉及视频主题发现方法,特别涉及通过在线视频分享网站的结构信息及视频本身文本描述信息进行视频主题发现的方法。
背景技术
随着计算机多媒体技术以及网络技术的迅猛发展,视频媒体的传播变得越来越方便。迄今为止,国内外已有数家视频分享网站达到每分钟新上传视频超过20小时的程度。如此海量的数据,给数据管理、内容检索、信息挖掘、媒体推荐等技术需求带来了巨大的困难。做为最基本的对视频内容的理解的研究,视频主题发现是解决以上一系列问题的一处重要的着眼点。视频主题发现,是指判别出视频本身描述的事件或视频内容中包含的重要人物、物品、位置等信息。
目前关于视频主题发现的方案主要分为2种:学习型和非学习型。学习型的方法,主要需要利用已有的先验知识,或者大量的人工标注,来对主题建模。然后按照该模型对新视频进行分类。非学习型的方法,则主要利用数据本身的结构和性质,对数据本身的先验知识的需求降低了。在非学习型的方法中,按照是否需要预先给定主题数量,还可以再分为两类。在视频分享网站这种海量数据的情况下,预先指定主题数量是不现实的。而且,一般的不需要先验知识的主题发现方法,对于视频分享网站这种环境也并不能很好的适用。原因在于,这些方法都对数据的质量有较高的要求。对于视频分享网站而言,所能得到的数据经常呈现出非常杂乱的零星的状况。我们的方法,就是针对这种情况来进行视频主题发现的。
发明内容
本发明的目的在于,在视频分享网站高噪声、主题数目不易确定的环境下,提供对海量视频进行无监督的主题发现的解决方法。
为达到上述目的,本发明提供一种基于视频分享网站上视频间链接关系来帮助视频主题发现的方法,包括文本信息增强、主题聚合和结果修正三大步骤。
所述的文本信息增强步骤为:
步骤a,对于单个视频V,抓取其本身及全部相关视频的文本描述信息。V的相关视频是由网站本身提供的,它们在内容层面具有一定的相关性。
步骤b,对视频V的文本信息建立BOW(Bag-Of-Words)模型,使用tfidf值做为该模型的描述。
步骤c,使用V的相关视频的文本信息对V本身BOW模型中词频一项进行修正与增强。
所述的主题聚合方法步骤为:
步骤d,对于整个视频数据集,按照词与词在单个视频中共同出现的概率构造单词相关度图。
步骤e,计算每个单词的混合权重。其中包括三个不同的权重:tfidf权重,相关度权重和KL变换投影权重。
步骤f,根据混合权重对单词集进行筛选。对筛选过后的单词相关度图进行拆分和合并处理,并定义每个子连通图上的顶点集合为一个主题核单元。
步骤g,根据主题核单元对视频数据集进行聚类。并合并聚类结果中重合率超过一定阈值的两类或多类。
所述的结果修正步骤为:
步骤h,抓取视频网站提供的,“使用该视频做为另一视频的回复”的结构化信息。
步骤i,根据“带有回复关系的两个视频必共享某种公共主题”的假设,利用回复及被回复视频的主题信息对当前视频主题进行修正。
本发明的有益效果在于,通过对文本信息的增强,有效的抑制了文本噪声在主题发现过程中的干扰作用;通过基于图的视频主题聚类方法,避免了主题数量对先验知识的需求;并通过利用视频回复关系,对主题发现的结果进行了修正。
为了检验我们的方法的有效性,我们设计了基于人工打分的评价机制。我们的数据集一共包含网络视频文档共计2514762个。我们对每一个视频用不同方法提取5个最重要主题表述关键字。对随机抽样出的1000个视频的每个关键字,由人工按照是否具有代表性,排序是否表达其重要程度给出0-2分。如下表所附的实验结果所示,我们的方法取得了较原有方法更优秀的效果。同时,较之LDA方法,我们方法的时间复杂度由LDA(t=800)的26小时,缩短到了3小时。
表格1实验结果
Figure GSB00000684198100031
附图说明
图1为应用本发明的对视频分享网站进行视频主题发现的系统示意图;
图2为本发明具体方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为应用本发明的对视频分享网站进行视频主题发现的系统示意图。所述系统包括前台爬虫和后台运算单元。在前台,爬虫负责从网络上获取所有该系统需要处理的信息。在后台运算单元,本发明所包含的方法被用来对前台获取的视频数据进行主题的发现。
在对本发明运算过程进行详细说明之前,对本实例进行一定的描述。本实例所涉及的视频数据,均来自网络著名视频分享网站YouTube。实现抓取这些数据的爬虫设计及这些数据的管理方法,不在本发明范围之内。
对于得到的网络视频数据集V={V1,V2,...,Vn},n为视频的总数量,我们方法的目标是要发现一系列的视频主题{T1,T2,...,Tm},m为主题总数量,使得每一个Vi可以由一个或数个Tj来表示,每个Tj包含一组Vi的集合。
本发明需预先设定表达每个主题所需要的词汇的数量上下限,在进行主题核单元生成时,根据该上下限进行连通子图的切割与合并。上下限的选取会影响最后主题表述概念的宽泛性,应用中根据不同的要求在一定范围内进行调整。
下面对本发明运算过程进行详细说明。
如图2所示,本发明包括文本信息增强、主题聚合和结果修正三大步骤。其具体步骤为:
步骤101,对视频数据集V的文本信息建立BOW(Bag-Of-Words)模型,统计每个单词tk在单个视频Vi文本中的词频tfi(tk)及其在整个数据集中的出现文本的频率dfk。利用tfidf值构造向量空间对文本进行表达。
步骤102,对单个视频Vi的所有相关视频进行处理,统计Vi中所有出现过的单词tfi(tk)在相关视频中出现文本的频率dfri(tk),依以下公式对tfi(tk)进行修正:
tfi′(tk)=tfi(tk)+dfri(tk)
步骤103,利用新的tfi′(tk)值重新计算tfidf并构造文本信息的向量空间表达。
步骤201,对于整个视频数据集,按照词与词在单个视频中共同出现的概率构造单词互相关图Gt。Gt的各个顶点由各单词组成,链接顶点的边的权重由单词间相关度定义。其中词ti与词tj的相关度定义为:
r ij = df ( t i ∩ t j ) max { df ( t i ) , df ( t j ) }
其中,df(ti∩tj)是指在视频数据集中,单词ti与tj出现在同一文档中的频率。
步骤202,计算每个单词的混合权重。其中包括三个不同的权重:tfidf权重,相关度权重和KL变换投影权重。
tfidf权重使用经典定义:
w ti = Σ j N d tf ′ ( t ij ) * idf ( t i )
其中的Nd是指全部视频文档的数量。
相关度权重使用在该领域较常见的定义:
w ri = Σ j m r ij / m
其中的m是指在单词互相关图Gt中,与顶点单词ti相连接的单词数量。
KL变换投影权重是我们新提出的一种衡量单词重要性的标准。其计算过程为:
首先构造tfidf矩阵,使每行表示一个文档,每列表示一个单词。其次计算该矩阵的自相关矩阵的特征值及对应特征向量。之后,将特征值按大小进行排序,保留包含总能量95%的部分,计其包含Ne个特征值。最后,计算保留下的特征值的对应特征向量Ek{k=1,2,...Ne}的能量和:
w pi = Σ k N e E ki 2
在计算出三种不同权重之后,合并计算各个单词的混合权重:
wci=αwti+βwri+(1-α-β)wpi
步骤203,根据混合权重对单词集进行筛选。在本实例中,直接取其平均值做为阈值,小于该阈值的单词均被丢弃。
步骤204,对筛选过后的Gt进行重构和拆分。在Gt中,首先依照边的权值构造最大生成树;其次切断权值最小的边,使得该图分为两部分;不断重复前一步,直到每一部分的顶点集合所包含的顶点个数都小于提前设定的主题词汇上限。
步骤205,合并所有小于设定主题词汇下限的顶点集合至距离其最近的相邻集合。最终使得Gt中各个子连通图所包含顶点数量都处于提前设定的主题词汇上下限之间。定义每个子连通图上的顶点集合为一个主题核单元。
步骤206,根据主题核单元对视频数据集进行聚类。计算每个视频文档Vi与各个主题核单元的距离。按距离大小得到每个视频文档Vi属于该主题Cj的概率,记为si={si1,si2,...,sin},其中n是主题核单元的数量。
步骤207,合并聚类结果中重合率太高的两类或多类。合并运算是通过覆盖率图Go来进行的。Go中,每一个顶点代表一个主题聚类,当两个聚类的重合率高于一定阈值时,在Go中生成一条链接这两个顶点的边。合并方法通过不断查找合并Go中的最大全连通子图来达到合并的目的。合并完成之后,视频主题发现的工作已经初步完成,每个视频都按照概率分属于不同的视频主题。
步骤301,抓取视频网站提供的,“使用该视频做为对另一视频的回复”的结构化信息。为视频文档与各主题间关系的修正做准备。
步骤302,根据“带有回复关系的两个视频必共享某种公共主题”的假设,利用以下公式对主题聚合结果进行修正。
w ij ( k ) = 1 N r Σ r s rj ( k )
s ij ( k + 1 ) = w ij ( k ) s ij ( k ) Σ j w ij ( k ) s ij ( k )
其中,Nr是与当前视频具有回复关系的视频数量总和。k代表第k次迭代时所得到的相似度和权重。在实际中,需要依靠数据本身的趋势对k的值进行寻找和设定。最终,
Figure GSB00000684198100063
即为视频Vi属于各主题的概率。
步骤303,根据视频属于各主题的概率对视频文档本身的主题关键词进行排序。排序时,根据以下公式定义的秩来衡量各个主题关键词:
w i ( n ) = Σ j | t i ∈ t j s ij ( n ) w ci
其中tj表示主题Cj的关键词集合,wci是之前定义的单词ti的混合权重。
至此,各主题及各视频文档均由一定数量的主题关键词得到表达。
以上对本发明的描述是说明性的,而非限制性的,本专业技术人员理解,在权利要求限定的精神与范围之内可对其进行许多修改、变化或等效,但是它们都将落入本发明的保护范围内。

Claims (9)

1.一种基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法,其特征在于,首先需要设定表达每个视频主题所需要的主题词汇的数量上下限,包括文本信息增强、主题聚合和结果修正三大步骤:
所述的文本信息增强步骤为:
步骤a,对于单个视频V,抓取其本身及全部相关视频的文本描述信息,V的相关视频是由网站本身提供的,它们在内容层面具有一定的相关性;
步骤b,对视频V的文本信息建立Bag-Of-Words的BOW模型,使用tfidf值做为该模型的描述;
步骤c,使用V的相关视频的文本信息对V本身的文本信息BOW模型中词频一项进行修正与增强;
所述的主题聚合方法步骤为:
步骤d,对于整个视频数据集,按照词与词在单个视频中共同出现的概率构造单词互相关图Gt,所述单词互相关图Gt的各个顶点由各个单词组成,链接顶点的边的权重由单词间相关度定义;
步骤e,计算每个单词的混合权重,其中包括三个不同的权重:tfidf权重,相关度权重和KL变换投影权重,其中tfidf权重为单词的词频和反文档频率之积,相关度权重为在单词互相关图Gt中,所有与顶点单词相连接的单词和顶点单词的相关度之和除以和顶点单词相连接单词数量所得到的商,KL变换投影权重的特征为:首先构造tfidf矩阵,使每行表示一个文档,每列表示一个单词;其次计算该矩阵的自相关矩阵的特征值及对应特征向量;之后,将特征值按大小进行排序,保留包含总能量95%的部分,计其包含Ne个特征值;最后,计算保留下的特征值的对应特征向量Ek{k=1,2,...Ne}的能量和: 
Figure FSB00000684198000011
步骤f,根据混合权重对单词集进行筛选,对筛选过后的单词互相关图进行拆分和合并处理,并定义单词互相关图Gt中每个子连通图上的顶点集合为一个主题核单元;
步骤g,根据主题核单元对视频数据集进行聚类,并合并聚类结果中重合率超过一定阈值的两类或多类;
所述的结果修正步骤为:
步骤h,抓取视频网站提供的,“使用该视频做为另一视频的回复”的结构化信息;
步骤i,根据“带有回复关系的两个视频必共享某种公共主题”的假设,利用回复及被回复视频的主题信息对当前视频主题进行修正;
步骤j,根据视频属于各主题的概率对视频文本本身的主题词汇进行排序。 
2.如权利要求1所述的视频主题发现方法,其特征在于,所述的步骤c具体为,
对单个视频V的所有相关视频进行处理,统计V中所有出现过的单词在相关视频文本中出现的频率dfri(tk),依以下公式对tfi(tk)进行修正:
tfi′(tk)=tfi(tk)+dfri(tk)
之后利用新的tfi′(tk)值重新计算tfidf并构造文本信息的向量空间表达,其中tfi(tk)表示每个单词在第i个视频文本中的词频。
3.如权利要求1所述的视频主题发现方法,其特征在于,所述的步骤d为,
对于整个视频数据集,构造单词互相关图Gt,其中词ti与词tj的相关度定义为:
其中,df(ti∩tj)是指在视频数据集中,单词ti与tj出现在同一文档中的频率。
4.如权利要求1所述的视频主题发现方法,其特征在于,所述的步骤e为,
计算每个单词的混合权重,其中包括三个不同的权重:tfidf权重wti,相关度权重wri和KL变换投影权重wpi,在计算出三种不同权重之后,合并计算各个单词的混合权重:
wci=αwti+βwri+(1-α-β)wpi
5.如权利要求1所述的视频主题发现方法,其特征在于,所述的步骤f包含筛选、拆分、合并三个部分,其中拆分的步骤为,
对筛选过后的单词互相关图Gt进行重构和拆分:在单词互相关图Gt中,首先依照边的权值构造最大生成树;其次切断权值最小的边,使得该图分为两部分;不断重复前一步,直到每一部分的顶点集合所包含的顶点个数都小于提前设定的主题词汇上限。
6.如权利要求1所述的视频主题发现方法,其特征在于,所述的步骤f包含筛选、拆分、合并三个部分,其中合并的步骤为,
合并所有小于设定主题词汇下限的顶点集合至距离其最近的相邻集合,最终使得单词互相关图Gt中各个子连通图所包含顶点数量都处于提前设定的主题词汇上下限之间,并定义每个子连通图上的顶点集合为一个主题核单元。
7.如权利要求1所述的视频主题发现方法,其特征在于,所述的步骤g中,对于聚类结果进行合并的步骤为,
合并运算是通过覆盖率图Go来进行的,Go中,每一个顶点代表一个主题聚类,当两个聚类的重合率高于一定阈值时,在Go中生成一条链接这两个顶点的边,合并方法通过不断查找合并Go中的最大全连通子图来达到合并的目的。 
8.如权利要求1所述的视频主题发现方法,其特征在于,所述的步骤i为,
根据“带有回复关系的两个视频必共享某种公共主题”的假设,利用以下公式对主题聚合结果进行修正:
Figure DEST_PATH_FSA00000144467300031
Figure DEST_PATH_FSA00000144467300032
其中,Nr是与当前视频具有回复关系的视频数量总和,k代表第k次迭代时所得到的相似度和权重,在实际中,需要依靠数据本身的趋势对k的值进行寻找和设定,最终, 
Figure DEST_PATH_FSA00000144467300033
即为视频V属于各主题的概率。
9.如权利要求1所述的视频主题发现方法,其特征在于,排序时,根据以下公式定义的秩来衡量各个主题词汇:
Figure DEST_PATH_FSA00000144467300034
其中tj表示主题Cj的主题词汇集合,wci是之前定义的单词的混合权重。 
CN2010101928531A 2010-05-31 2010-05-31 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法 Expired - Fee Related CN101894129B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101928531A CN101894129B (zh) 2010-05-31 2010-05-31 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101928531A CN101894129B (zh) 2010-05-31 2010-05-31 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法

Publications (2)

Publication Number Publication Date
CN101894129A CN101894129A (zh) 2010-11-24
CN101894129B true CN101894129B (zh) 2012-05-02

Family

ID=43103320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101928531A Expired - Fee Related CN101894129B (zh) 2010-05-31 2010-05-31 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法

Country Status (1)

Country Link
CN (1) CN101894129B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708498A (zh) * 2012-01-13 2012-10-03 合一网络技术(北京)有限公司 一种基于主题定向的广告投放方法
CN102682132B (zh) * 2012-05-18 2013-12-04 合一网络技术(北京)有限公司 一种基于词频、播放量和创建时间检索信息的方法及系统
WO2014205649A1 (zh) * 2013-06-25 2014-12-31 中国科学院自动化研究所 一种利用紧凑视频主题描述子进行视频检索的方法
CN103544252B (zh) * 2013-10-14 2017-11-14 成都云朵技术有限公司 一种视频源名称处理方法及装置
CN103984741B (zh) * 2014-05-23 2016-09-21 合一信息技术(北京)有限公司 用户属性信息提取方法及其系统
CN105159912B (zh) * 2015-07-06 2018-05-08 无锡天脉聚源传媒科技有限公司 一种不同词之间的相关程度处理方法和装置
CN105138549B (zh) * 2015-07-13 2019-04-12 无锡天脉聚源传媒科技有限公司 一种关键词处理方法及装置
CN105868237A (zh) * 2015-12-09 2016-08-17 乐视网信息技术(北京)股份有限公司 媒体数据推荐方法及服务器

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1168308C (zh) * 1998-04-15 2004-09-22 Lg电子株式会社 带有学习功能的视频装置及其学习功能控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000039707A1 (en) * 1998-12-23 2000-07-06 Koninklijke Philips Electronics N.V. Personalized video classification and retrieval system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1168308C (zh) * 1998-04-15 2004-09-22 Lg电子株式会社 带有学习功能的视频装置及其学习功能控制方法

Also Published As

Publication number Publication date
CN101894129A (zh) 2010-11-24

Similar Documents

Publication Publication Date Title
CN101894129B (zh) 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法
CN110297988B (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
US10437867B2 (en) Scenario generating apparatus and computer program therefor
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN104484343B (zh) 一种对微博进行主题发现与追踪的方法
CN103294778B (zh) 一种推送资讯信息的方法及系统
CN105045875B (zh) 个性化信息检索方法及装置
CN108763348B (zh) 一种扩展短文本词特征向量的分类改进方法
WO2017097231A1 (zh) 话题处理方法及装置
CN104978314B (zh) 媒体内容推荐方法及装置
CN109376352B (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN104199833B (zh) 一种网络搜索词的聚类方法和聚类装置
CN105335349A (zh) 一种基于时间窗口的lda微博主题趋势检测方法及装置
CN103678275A (zh) 一种基于主客观语义的双层次文本相似度计算方法
CN106980648A (zh) 一种基于概率矩阵分解结合相似度的个性化推荐方法
CN104750798A (zh) 一种应用程序的推荐方法和装置
CN104850617A (zh) 短文本处理方法及装置
CN103218368B (zh) 一种挖掘热词的方法与装置
US10122720B2 (en) System and method for automated web site content analysis
Yao et al. Online deception detection refueled by real world data collection
Wei et al. Online education recommendation model based on user behavior data analysis
Wang et al. Improving short text classification through better feature space selection
CN108470035B (zh) 一种基于判别混合模型的实体-引文相关性分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120502

Termination date: 20150531

EXPY Termination of patent right or utility model