CN101887459A - 网络视频话题检测的方法及其系统 - Google Patents

网络视频话题检测的方法及其系统 Download PDF

Info

Publication number
CN101887459A
CN101887459A CN 201010221077 CN201010221077A CN101887459A CN 101887459 A CN101887459 A CN 101887459A CN 201010221077 CN201010221077 CN 201010221077 CN 201010221077 A CN201010221077 A CN 201010221077A CN 101887459 A CN101887459 A CN 101887459A
Authority
CN
China
Prior art keywords
incident
track
video
topic
remarkable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010221077
Other languages
English (en)
Other versions
CN101887459B (zh
Inventor
曹娟
张勇东
李锦涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN2010102210773A priority Critical patent/CN101887459B/zh
Publication of CN101887459A publication Critical patent/CN101887459A/zh
Application granted granted Critical
Publication of CN101887459B publication Critical patent/CN101887459B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明一种网络视频话题检测的方法及系统,方法包括:步骤1,将视频的标签词表示为时间轴上的词频变化轨迹,根据该词频变化轨迹提取每个时间单元内的显著词;步骤2,将每个时间单元内的显著词表示为所述时间单元内上传的所有视频的倒排索引,并对所述显著词进行聚类,一个类为所述时间单元的一个事件;步骤3,计算各个事件之间相似度,建立事件之间的连接,形成事件发展轨迹图,事件发展轨迹图中的点为事件,按两个事件之间的相似度连接点生成边;步骤4,将事件发展轨迹图分割为多个连通子图;步骤5,按预设标准从各个连通子图中查找最优路径,每条最优路径对应一个话题的轨迹,进而完成话题的检测。本发明能够从网络中检测出视频话题。

Description

网络视频话题检测的方法及其系统
技术领域
本发明涉及一种话题检测的方法,特别是涉及网络视频话题检测的方法及其系统。
背景技术
随着网络带宽的增长和Web 2.0技术的应用,网络视频数量和用户规模大规模增长,网络视频已经成为人们传递信息的一种重要媒体。但是由于目前的视频检索技术还不能满足实际需求,有超过50%的网络用户通过推荐方式获取感兴趣的视频。因此,如何对大规模的网络视频数据进行有效组织,以进行查询,为需要解决的问题。
将内容相关的视频聚合在一起,以话题的形式进行组织,并将热点的话题推荐给用户是一种有效的视频管理方式。目前,主流的视频网站都设立了一个“专题”或“热点话题”的栏目,通过编辑的方式将视频组织成话题推荐给用户,方便用户系统地浏览与该话题相关的所有信息。但是这种编辑的方式费时费力。
话题是指语义内容上具有连续性的一系列相关的事件(如布什在伊拉克被鞋扔),表现在图上就是一条轨迹(如12.5日发生了这一事件,12.6日扔鞋的记者被逮捕,12.7日美国回应此事……)。严格来说,话题和轨迹时一一对应的,
在纯文本领域,有一个话题检测和跟踪的方向(Topic Detection andTracking,TDT),该领域的技术人员研究挖掘新闻文档中的话题的问题,并取得了一些成果。如Google News就是文本话题发现技术的一个应用实例。但由于网络视频的文本信息都是由用户上传的,根据用户文化背景和习惯的不同,质量差异很大。文本稀疏,且存在很多噪声。因此,文本话题发现的方法很难应用到网络视频中。
更进一步,如何对检测到的视频话题进行有效展示,以提供给用户进行浏览为需要解决的进一步的问题。现有技术中的研究主要侧重于检测结果是否准确,在展示方面只是把属于同一个话题的视频顺序排列起来。近年来有研究人员以树的形式,将话题的子事件在时间维度上的连接关系表示出来。但是这种结构只展示了话题发展的一个维度,忽略了它在热点程度这个维度的变化。
发明内容
为了解决上述问题,本发明提供了网络视频话题检测的方法及系统,能够从网络中检测出视频话题。
本发明公开了一种网络视频话题检测的方法,包括:
步骤1,将视频的标签词表示为时间轴上的词频变化轨迹,根据该词频变化轨迹提取每个时间单元内的显著词;
步骤2,将每个时间单元内的显著词表示为所述时间单元内上传的所有视频的倒排索引,并对所述显著词进行聚类,一个类为所述时间单元的一个事件,包含所述类中预设数量的显著词的视频为属于所述事件的视频;
步骤3,计算各个事件之间相似度,建立事件之间的连接,形成事件发展轨迹图,事件发展轨迹图中的点为事件,按两个事件之间的相似度连接点生成边;
步骤4,将事件发展轨迹图分割为多个连通子图;
步骤5,按预设标准从各个连通子图中查找最优路径,每条最优路径对应一个话题的轨迹,进而完成话题的检测。
所述步骤1前还包括,设置历史时间窗口,以历史时间窗口内的时间单元上传的视频为检测对象,所述历史时间窗口随着时间推移沿时间轴向前滑动。
步骤3和步骤4之间还包括:
步骤31,对事件发展轨迹图进行动态更新,所述动态更新包括增加历史时间窗口新覆盖的时间单元的事件对应的点和边,删除滑出时间窗口的时间单元的事件对应的点和边。
步骤3和步骤4之间还包括:
步骤41,对于发展轨迹图中相邻时间单元的事件对应的两个点,如果同所述两点相连的点中相同点的个数大于等于2,并且两个所述点没有相连,则连接所述两点。
所述步骤5后还包括:
步骤51,对得到的话题的轨迹在时间和热点程度的两维空间中展示;轨迹中每个事件点的横坐标代表该事件发生的时间单元,纵坐标代表该事件被关注的程度,由事件权重表示;
步骤52,根据话题的轨迹发展模式将话题划分为内容热点、轨迹热点、和潜在热点话题,并分别推荐展示。
所述步骤3进一步为,
步骤61,属于事件对应的类的所有显著词组成所述事件的显著词向量,显著词向量的每一维的权重为包含所述维对应显著词的视频个数,所述事件对应的时间单元内包含n个以上所述显著词向量中的显著词的视频组成所述事件的视频向量,n为预设值,视频向量的每一维的权重为所述维对应视频的被观看次数;
步骤62,计算事件的视频向量的平均值,以所述平均值为所述事件的权重;
步骤63,设置计算时间窗口,根据事件的显著词向量计算所述计算时间窗口内时间单元对应的事件之间的余弦距离,以所述余弦距离为所述事件之间的相似度;
步骤64,以事件为事件发展轨迹图中的点,点的权重为对应的事件的权重,将对应事件的相似度大于预设值的点连接生成边。
所述步骤5进一步为,
步骤71,对于每个连通子图,采用如下公式度量连通子图上每条路径的能量;
F ( E T ) = 10 × E T 1 + 10 × E T
E T ( t ) = α × weight ( T ( t ) ) - β
weight ( T ) = Σ ϵ t ∈ T weight ( ϵ t ) + Σ { ϵ t - 1 , ϵ t } ∈ T Sim ( ϵ t - 1 , ϵ t )
能量函数F是一个sigmod函数,值在0到1之间,单调递增;ET是路径的初始能量值,α为一个能量转化因子,β为一个能量衰退因子,ET(t)是指路径在t时刻的能量值,weight(T)是路径T的能量值,ε是指属于该路径的一个事件,Sim表示相似度;
步骤72,根据计算的路径能量值,在连通子图中选择能量最大的路径作为话题的轨迹,进而完成话题检测。
所述步骤51还包括,
步骤81,轨迹的边的宽度代表事件之间的相似度,边越宽,代表越相似,每个事件点展示预定义的前n个重要的显著词,以及前m个相关视频的关键帧。
本发明还公开了一种网络视频话题检测的系统,包括:
显著词提取模块,用于将视频的标签词表示为时间轴上的词频变化轨迹,根据该词频变化轨迹提取每个时间单元内的显著词;
事件检测模块,用于将每个时间单元内的显著词表示为所述时间单元内上传的所有视频的倒排索引,并对所述显著词进行聚类,一个类为所述时间单元的一个事件,包含所述类中预设数量的显著词的视频为属于所述事件的视频;
轨迹图生成模块,用于计算各个事件之间相似度,建立事件之间的连接,形成事件发展轨迹图,事件发展轨迹图中的点为事件,按两个事件之间的相似度连接点生成边;
轨迹图分割模块,用于将事件发展轨迹图分割为多个连通子图;
结果生产模块,按预设标准从各个连通子图中查找最优路径,每条最优路径对应一个话题的轨迹,进而完成话题的检测。
所述系统还包括历史时间窗口设置模块;
在启动显著词提取模块前启动历史时间窗口设置模块,
历史时间窗口设置模块,用于设置历史时间窗口,以历史时间窗口内的时间单元上传的视频为检测对象,所述历史时间窗口随着时间推移沿时间轴向前滑动。
轨迹图生成模块还用于对事件发展轨迹图进行动态更新,所述动态更新包括增加历史时间窗口新覆盖的时间单元的事件对应的点和边,删除滑出时间窗口的时间单元的事件对应的点和边。
轨迹图生成模块还用于对于发展轨迹图中相邻时间单元的事件对应的两个点,如果同所述两点相连的点中相同点的个数大于等于2,并且两个所述点没有相连,则连接所述两点。
所述系统还包括展示模块,
展示模块,用于对得到的话题的轨迹在时间和热点程度的两维空间中展示;轨迹中每个事件点的横坐标代表该事件发生的时间单元,纵坐标代表该事件被关注的程度,由事件权重表示;并根据话题的轨迹发展模式将话题划分为内容热点、轨迹热点、和潜在热点话题,并分别推荐展示。
所述轨迹图生成模块进一步用于
将属于事件对应的类的所有显著词组成所述事件的显著词向量,显著词向量的每一维的权重为包含所述维对应显著词的视频个数,所述事件对应的时间单元内包含n个以上所述显著词向量中的显著词的视频组成所述事件的视频向量,n为预设值,视频向量的每一维的权重为所述维对应视频的被观看次数;
计算事件的视频向量的平均值,以所述平均值为所述事件的权重;
设置计算时间窗口,根据事件的显著词向量计算所述计算时间窗口内时间单元对应的事件之间的余弦距离,以所述余弦距离为所述事件之间的相似度;
以事件为事件发展轨迹图中的点,点的权重为对应的事件的权重,将对应事件的相似度大于预设值的点连接生成边。
所述结果生产模块进一步用于
对于每个连通子图,采用如下公式度量连通子图上每条路径的能量;
F ( E T ) = 10 × E T 1 + 10 × E T
E T ( t ) = α × weight ( T ( t ) ) - β
weight ( T ) = Σ ϵ t ∈ T weight ( ϵ t ) + Σ { ϵ t - 1 , ϵ t } ∈ T Sim ( ϵ t - 1 , ϵ t )
能量函数F是一个sigmod函数,值在0到1之间,单调递增;ET是路径的初始能量值,α为一个能量转化因子,β为一个能量衰退因子,ET(t)是指路径在t时刻的能量值,weight(T)是路径T的能量值,ε是指属于该路径的一个事件,Sim表示相似度;
根据计算的路径能量值,在连通子图中选择能量最大的路径作为话题的轨迹,进而完成话题检测。
所述展示模块还用于以轨迹的边的宽度代表事件之间的相似度,边越宽,代表越相似,每个事件点展示预定义的前n个重要的显著词,以及前m个相关视频的关键帧。
本发明的有益效果在于,本发明通过聚类具有轨迹峰值的显著词产生事件,提高事件检测的精度;利用全局轨迹特征,不仅能发现现有技术中的内容热点话题,还能发现轨迹热点话题和潜在热点话题,后两种对于监控需求尤为重要;在展示过程中针对不同用户的需求推荐更合适的话题给用户;将事件之间的连接表示成事件发展轨迹图,利用图的特性优化初始连接,适合带有噪音的网络数据;同时能够通过简单的图操作实现话题的动态跟踪;本发明以轨迹的形式将话题信息展示在两维空间中,方便用户全局浏览话题的整体发展趋势,又可以快速定位到感兴趣的子事件。
附图说明
图1是网络视频话题检测的方法的流程图;
图2是话题轨迹的分类示意图,图2(a)是内容热点的轨迹示意图,图2(b)是轨迹热点的轨迹示意图,图2(c)是潜在热点的轨迹示意图;
图3是网络视频话题检测的系统的结构图。
具体实施方式
下面结合附图对本发明的方法做进一步的说明。
本发明的网络视频话题检测的方法如图1所示。
步骤S100,将视频的标签词表示为时间轴上的词频变化轨迹,根据该词频变化轨迹提取每个时间单元内的显著词。
对于标签词,通过统计每个时间单元内,包含该标签词的视频数,从而得到该标签词在整个时间轴上的词频变化轨迹。
显著词来的具体定义为,如果在时间单元T,标签词w的词频变化轨迹达到峰值或满足预先定义的阈值,则标签词w为时间单元T的显著词。
在较佳的实施方式中,设置历史时间窗口,以历史时间窗口内的时间单元上传的视频为检测对象。历史时间窗口随着时间推移沿时间轴轴的变化不断向前滑动。
一具体实施方式中根据该词频变化轨迹提取每个时间单元内的显著词的方法如下所述。
在历史时间窗口W内,计算词频变化轨迹y(t)的均值μ和方差σ,并根据公式(1)提取对应时间单元的显著词:
peak(y(t))>μ(y(t))+α×σ(y(t))           (1)
其中,α为调整系数,决定了选出的词的显著程度,α越大,选出的显著词越显著。peak(y(t))表示计算词频变化轨迹y(t)的峰值。
在一具体实施例中,时间单元为3天;历史时间窗口W为一个月;系数α设为3。
根据词频变化轨迹提取显著词在现有技术中存在多种不同的方法,例如,直接确定词频变化轨迹中的峰值,标签词为峰值所在时间单元的显著词。此处举一例进行具体实施说明。
步骤S200,将每个时间单元内的显著词表示为所述时间单元内上传的所有视频的倒排索引,并对所述显著词进行聚类,一个类为所述时间单元的一个事件,包含所述类中预设数量的显著词的视频为属于所述事件的视频。
倒排索引是文本检索领域的现有技术术语,定义为,索引对象是文档或者文档集合中的单词,用来存储这些单词在一个文档或者一组文档中的存储位置,是对文档或者文档集合的一种常用的索引机制。在本发明中的对应定义为以标签词为索引对象,用向量的形式来表示这些词在哪些视频中出现。
聚类采用现有技术中的聚类算法。例如,采用的改进的基于密度的Kmeans算法,该算法中不需要人工指定聚类数目该算法的详细描述见“Adensity-based method for adaptive LDA mod el selection,Neurocomputing,72(7-9):1775-1781(2009)”中记载。
每个聚类对应一个事件,事件是指发生在特定时间单元内,关于同一个话题的多个视频报道。每个事件都对应了一个时间单元。一个时间单元内的事件个数是由显著词聚类的结果决定的。所以不同时间单元的事件个数可能不等。
步骤S300,计算各个事件之间相似度,建立事件之间的连接,并形成事件发展轨迹图。
事件发展轨迹图中的点为事件,边为两个事件之间的相似度。
各个事件为所有时间单元的所有事件。
事件发展轨迹图表示为G<V,E>,点集V为历史时间窗口W内的所有事件集合,边集E为这些事件之间的边集合。
在一具体实施方式中,步骤S300的实现如下所述。
步骤S310,将所述事件显著词向量,表示为Vtag,和视频向量,表示为Vvideo。
属于事件对应的类的所有显著词表示向量,为所述事件的显著词向量,表示为Vtag。在事件对应的时间单元内,包含n个以上Vtag中的显著词的视频被视为属于该事件的视频,并将该视频加入视频向量Vvideo,n为预设值。在一实施例中,n为3。
通过步骤S200中对每个单元的显著词进行聚类后,每个类就是一个事件。将属于该事件的类的所有显著词表示成向量,该向量为该事件的显著词向量。显著词向量的每一维对应一个显著词,每一维的权重为包含该维对应的显著词的视频个数。
属于该事件的所有视频表示成向量,为该事件的视频向量。视频向量的每一维对应一个视频,每一维的权重为该维对应视频的被观看次数。
步骤S320,计算事件的视频向量的平均值,以所述平均值为所述事件的权重。
在一具体实施方式中,计算事件的视频向量中权重的平均值,以平均值为所述事件的权重。
属于该事件的每个视频都有自己在网上的被观看次数。通过计算以属于该事件的所有视频的平均观看次数为事件的权重。
在进一步较佳的方式中,将该平均观看次数归一化后作为该事件的权重。
步骤S330,设置计算时间窗口,根据事件的显著词向量计算所述计算时间窗口内时间单元对应的事件之间的余弦距离,以所述余弦距离为所述事件之间的相似度,将点对应事件的相似度大于预设值的点连接生产边。
根据事件的显著词向量计算事件之间的余弦距离为现有技术。
具体如下:向量A和向量B之间的余弦距离cosine(A,B)=A·B/(|A|·|B|)。
在较佳的实施方式中,预设计算时间窗口,表示为Wevnet,计算该计算时间窗口内的事件之间的连接关系。在一实施例中,考虑到事件的连续性,所述时间窗口Wevnet设为3个时间单元。
步骤S340,事件发展轨迹图以事件为点,点的权重为对应的事件的权重,以事件之间的连接为边,边的宽度为边连接的点对应的事件之间的相似度。
具体实施例中,将事件和事件之间的连接表示成历史时间窗口W内的事件发展轨迹图G<V,E>。其中点V为历史时间窗口W内的事件,边E为所述事件之间的连接。点的权重为点对应的事件的权重,边的宽度为事件之间的相似度。
在一具体实施方式中,以相似度为边的权重。
步骤S400,将事件发展轨迹图分割为多个连通子图。
现有技术中存在多种将图分为连通子图的方法,例如广度优先,层次优先等算法。
本发明具体实施方式中采用深度优先算法。
深度优先搜索所遵循的搜索策略是尽可能“深”地搜索图。在深度优先搜索中,对于最新发现的顶点,如果它还有以此为起点而未探测到的边,就沿此边继续查下去。当结点v的所有边都已被探寻过,搜索将回溯到发现结点v有那条边的始结点。这一过程一直进行到已发现从源结点可达的所有结点为止。如果还存在未被发现的结点,则选择其中一个作为源结点并重复以上过程,整个进程反复进行直到所有结点都被发现为止。
每个连通子图为一个潜在的话题或者多个相关的话题。
步骤S500,按预设标准从各个连通子图中查找最优路径,每个最优路径对应为一个话题的轨迹,进而完成话题的检测。
预设标准可以为路径最长或事件权重累计最大。
路径最长是指轨迹包含的点或者边最多。
标准为事件权重累计最大,因为点的权重为事件权重,在连通子图中查找点权重值最大的路径。
本发明一个优选的实施方式中采用能量函数度量每条轨迹的能量,然后取能量最大的轨迹为最优路径。能量函数考虑了每个事件的权重和事件与事件间的相似度,以及话题随着时间推移的衰退过程。
采用能量为标准查找最优路径的具体实现如下所述。
步骤S510,针对各个连通子图,采用能量函数度量连通子图上每条路径的能量。
具体计算方法如下所示:
F ( E T ) = 10 &times; E T 1 + 10 &times; E T - - - ( 2 )
E T ( t ) = &alpha; &times; weight ( T ( t ) ) - &beta; - - - ( 3 )
weight ( T ) = &Sigma; &epsiv; t &Element; T weight ( &epsiv; t ) + &Sigma; { &epsiv; t - 1 , &epsiv; t } &Element; T Sim ( &epsiv; t - 1 , &epsiv; t ) - - - ( 4 )
其中公式(2)中的能量函数F是一个sigmod函数,值在0到1之间,符合单调递增属性。ET是指路径的初始能量值。公式(3)中的函数分别包含一个能量转化因子α和一个能量衰退因子β,分别用于模拟话题随着事件的延续不断显著,而随着时间的推移不断消失的过程。ET (t)是指路径在t时刻的能量值。公式(4)是路径能量随着时间推移不断变化的迭代函数。weight(T)是指路径T的能量值,ε是指属于该路径的一个事件;sim表示相似度。
步骤S520,根据计算的路径能量值,在连通子图中选择能量最大的路径作为话题的轨迹,进而完成话题检测。
通过检测符合条件的路径,来实现话题的发现。但是由于聚类并不能够把所有关于同一个事件的视频聚到一类,可能会产生很多子类,这时候就会有很多轨迹分支,通过度量每条轨迹路径的能量,才能选出最好的一条事件发展路径,做为该话题的最终的轨迹。其次,如果轨迹的能量值太小,则判定它还不构成一个热点话题。
在一个较佳的实施方式中,所述步骤S300和步骤S400之间还包括事件发展轨迹图进行动态更新和优化。
更新过程如下所述。
所述步骤S100前还包括,设置历史时间窗口,以历史时间窗口内的时间单元上传的视频为检测对象。
历史时间窗口为一个检测范围,历史时间窗口随时间而沿时间轴滑动。
步骤S300和步骤S400之间还包括:
步骤S610,在事件发展轨迹图中增加历史时间窗口新覆盖的时间单元的事件对应的点和边,删除滑出历史时间窗口的时间单元的事件对应的点和边。
优化过程如下所述。
步骤S300和步骤S400之间还包括:
步骤S620,对于发展轨迹图中相邻时间单元的事件对应的两个点,如果同所述两点相连的点中相同点的个数大于等于2,并且两个所述点没有相连,则连接所述两点。
一具体实现方式如下所述。
步骤S601,对事件发展轨迹图G进行实时更新,增加当前时间单元里的事件点及相应的边,同时去掉过时的事件点以及对应的边,保持历史时间窗口W为一个月。
步骤S602,对更新的图进行优化,将除起始和结束点之外,度数为1的节点视为孤立点,去除该点及对应的边。
步骤S603,对更新的图进行优化,对于时间上相邻的两个点A和B,如果分别与他们相连的两个点集中至少有两个重复点,则在A和B之间加入一条边。
所加的边通常是计算A和B之间的局部相似度时因数据噪声而漏掉的边。
在一较佳的实施方式中,本发明的方法中还包括视频展示步骤,如下所述。
步骤S700,对得到的话题的轨迹在时间和热点程度的两维空间中展示;根据话题的轨迹发展模式将话题划分为内容热点、轨迹热点、和潜在热点话题,并分别推荐展示。
该步骤S700的一个具体实施方式如下。
步骤S701,将话题轨迹展示在时间和热点程度的两维空间中,每个事件点的横坐标代表该事件发生的时间,纵坐标代表该事件被关注的程度,由事件权重归一化得到。
轨迹中每个事件点的横坐标代表该事件发生的时间单元,纵坐标代表该事件被关注的程度,由事件权重表示,边的宽度代表事件之间的相似度,边越宽,代表越相似,每个事件点展示预定义的前n个重要的显著词,以及前m个相关视频的关键帧,方便用户通过显著词和关键帧大概了解每个事件的内容。
边的宽度代表事件之间的相似度,边越宽,代表越相似。每个事件点展示前3个最重要的显著词,以及前3个相关视频的关键帧。
步骤S702,对步骤S701展示的话题轨迹中,用户可点击感兴趣的某个事件,进入事件详细信息展示页面。包含两个部分:上半部分为相关视频列表,展示属于该事件的所有视频。按隶属度排序。用户可以通过翻页键浏览所有视频的关键帧。同时,用户可以点击该视频的关键帧,播放该视频。下半部分为显著词列表,展示属于该事件的所有显著词。词的大小按与该事件的相似度排序,越相似,字体越大,反之越小。词的颜色按词的频率排序,越频繁,颜色越深,反之越浅。
步骤S703,对步骤S702展示的话题轨迹,根据轨迹的发展模式,将话题进一步划分为三类:内容热点,其对应的轨迹依预设值,热点度相对较高,波动相对平缓,不存在波动突变,如图2(a)所示;轨迹热点,其对应的轨迹依预设值,波动相对较大,不存在波动突变,如图2(b)所示;以及潜在热点,其对应的轨迹依预设值,波动在各阶段内相对平缓,但阶段间存在突变,热点度由低变高,如图2(c)所示,所述阶段为波动平缓区域。
根据用户的需求,分别进行推荐。其中在内容热点话题的轨迹,大部分事件点都处于较高的热点程度;在轨迹热点话题的轨迹中,话题因为部分子事件的发生而反复被公众所关注,处于较高的热点程度;在签注热点话题的轨迹中,大部分事件点都处于较低的热点程度,但其轨迹的能量值一直在上升。
网络视频话题检测的系统如图3所示。
显著词提取模块100,用于将视频的标签词表示为时间轴上的词频变化轨迹,根据该词频变化轨迹提取每个时间单元内的显著词。
事件检测模块200,用于将每个时间单元内的显著词表示为所述时间单元内上传的所有视频的倒排索引,并对所述显著词进行聚类,一个类为所述时间单元的一个事件,包含所述类中预设数量的显著词的视频为属于所述事件的视频。
轨迹图生成模块300,用于计算各个事件之间相似度,建立事件之间的连接,形成事件发展轨迹图,事件发展轨迹图中的点为事件,按两个事件之间的相似度连接点生成边。
轨迹图分割模块400,用于将事件发展轨迹图分割为多个连通子图。
结果生产模块500,按预设标准从各个连通子图中查找最优路径,每条最优路径对应一个话题的轨迹,进而完成话题的检测。
在一较佳的具体实施方式中为减少计算时间,设置历史时间窗口,仅对历史时间窗口内视频进行检测。
所述系统还包括历史时间窗口设置模块;
在启动显著词提取模块前启动历史时间窗口设置模块,
历史时间窗口设置模块,用于设置历史时间窗口,以历史时间窗口内的时间单元上传的视频为检测对象,所述历史时间窗口随着时间推移沿时间轴向前滑动。
在一较佳的具体实施方式中对事件发展轨迹图进行动态更新,以使检测结果更为准确。
轨迹图生成模块还用于对事件发展轨迹图进行动态更新,所述动态更新包括增加历史时间窗口新覆盖的时间单元的事件对应的点和边,删除滑出时间窗口的时间单元的事件对应的点和边。
在一较佳的具体实施方式中,补充点同点之间的连线,以使检测结果更为准确。
轨迹图生成模块还用于对于发展轨迹图中相邻时间单元的事件对应的两个点,如果同所述两点相连的点中相同点的个数大于等于2,并且两个所述点没有相连,则连接所述两点。
在一较佳的具体实施方式中,对检测结果进行展示。
所述系统还包括展示模块,
展示模块,用于对得到的话题的轨迹在时间和热点程度的两维空间中展示;轨迹中每个事件点的横坐标代表该事件发生的时间单元,纵坐标代表该事件被关注的程度,由事件权重表示;并根据话题的轨迹发展模式将话题划分为内容热点、轨迹热点、和潜在热点话题,并分别推荐展示。
在进一步的具体实施方式中,所述展示模块还用于以轨迹的边的宽度代表事件之间的相似度,边越宽,代表越相似,每个事件点展示预定义的前n个重要的显著词,以及前m个相关视频的关键帧。
在一具体实施方式中所述轨迹图生成模块进一步完成如下功能。
将属于事件对应的类的所有显著词组成所述事件的显著词向量,显著词向量的每一维的权重为包含所述维对应显著词的视频个数,所述事件对应的时间单元内包含n个以上所述显著词向量中的显著词的视频组成所述事件的视频向量,n为预设值,视频向量的每一维的权重为所述维对应视频的被观看次数;
计算事件的视频向量的平均值,以所述平均值为所述事件的权重;
设置计算时间窗口,根据事件的显著词向量计算所述计算时间窗口内时间单元对应的事件之间的余弦距离,以所述余弦距离为所述事件之间的相似度;
以事件为事件发展轨迹图中的点,点的权重为对应的事件的权重,将对应事件的相似度大于预设值的点连接生成边。
在一具体实施方式中,所述结果生产模块进一步完成如下功能。
对于每个连通子图,采用如下公式度量连通子图上每条路径的能量;
F ( E T ) = 10 &times; E T 1 + 10 &times; E T
E T ( t ) = &alpha; &times; weight ( T ( t ) ) - &beta;
weight ( T ) = &Sigma; &epsiv; t &Element; T weight ( &epsiv; t ) + &Sigma; { &epsiv; t - 1 , &epsiv; t } &Element; T Sim ( &epsiv; t - 1 , &epsiv; t )
能量函数F是一个sigmod函数,值在0到1之间,单调递增;ET是路径的初始能量值,α为一个能量转化因子,β为一个能量衰退因子,ET(t)是指路径在t时刻的能量值,weight(T)是路径T的能量值,ε是指属于该路径的一个事件,Sim表示相似度。
根据计算的路径能量值,在连通子图中选择能量最大的路径作为话题的轨迹,进而完成话题检测。
本领域的技术人员在不脱离权利要求书确定的本发明的精神和范围的条件下,还可以对以上内容进行各种各样的修改。因此本发明的范围并不仅限于以上的说明,而是由权利要求书的范围来确定的。

Claims (16)

1.一种网络视频话题检测的方法,其特征在于,包括:
步骤1,将视频的标签词表示为时间轴上的词频变化轨迹,根据该词频变化轨迹提取每个时间单元内的显著词;
步骤2,将每个时间单元内的显著词表示为所述时间单元内上传的所有视频的倒排索引,并对所述显著词进行聚类,一个类为所述时间单元的一个事件,包含所述类中预设数量的显著词的视频为属于所述事件的视频;
步骤3,计算各个事件之间相似度,建立事件之间的连接,形成事件发展轨迹图,事件发展轨迹图中的点为事件,按两个事件之间的相似度连接点生成边;
步骤4,将事件发展轨迹图分割为多个连通子图;
步骤5,按预设标准从各个连通子图中查找最优路径,每条最优路径对应一个话题的轨迹,进而完成话题的检测。
2.如权利要求1所述的网络视频话题检测的方法,其特征在于,
所述步骤1前还包括,设置历史时间窗口,以历史时间窗口内的时间单元上传的视频为检测对象,所述历史时间窗口随着时间推移沿时间轴向前滑动。
3.如权利要求2所述的网络视频话题检测的方法,其特征在于,
步骤3和步骤4之间还包括:
步骤31,对事件发展轨迹图进行动态更新,所述动态更新包括增加历史时间窗口新覆盖的时间单元的事件对应的点和边,删除滑出时间窗口的时间单元的事件对应的点和边。
4.如权利要求1所述的网络视频话题检测的方法,其特征在于,
步骤3和步骤4之间还包括:
步骤41,对于发展轨迹图中相邻时间单元的事件对应的两个点,如果同所述两点相连的点中相同点的个数大于等于2,并且两个所述点没有相连,则连接所述两点。
5.如权利要求1所述的网络视频话题检测的方法,其特征在于,
所述步骤5后还包括:
步骤51,对得到的话题的轨迹在时间和热点程度的两维空间中展示;轨迹中每个事件点的横坐标代表该事件发生的时间单元,纵坐标代表该事件被关注的程度,由事件权重表示;
步骤52,根据话题的轨迹发展模式将话题划分为内容热点、轨迹热点、和潜在热点话题,并分别推荐展示。
6.如权利要求1所述的网络视频话题检测的方法,其特征在于,
所述步骤3进一步为,
步骤61,属于事件对应的类的所有显著词组成所述事件的显著词向量,显著词向量的每一维的权重为包含所述维对应显著词的视频个数,所述事件对应的时间单元内包含n个以上所述显著词向量中的显著词的视频组成所述事件的视频向量,n为预设值,视频向量的每一维的权重为所述维对应视频的被观看次数;
步骤62,计算事件的视频向量的平均值,以所述平均值为所述事件的权重;
步骤63,设置计算时间窗口,根据事件的显著词向量计算所述计算时间窗口内时间单元对应的事件之间的余弦距离,以所述余弦距离为所述事件之间的相似度;
步骤64,以事件为事件发展轨迹图中的点,点的权重为对应的事件的权重,将对应事件的相似度大于预设值的点连接生成边。
7.如权利要求1所述的网络视频话题检测的方法,其特征在于,
所述步骤5进一步为,
步骤71,对于每个连通子图,采用如下公式度量连通子图上每条路径的能量;
F ( E T ) = 10 &times; E T 1 + 10 &times; E T
E T ( t ) = &alpha; &times; weight ( T ( t ) ) - &beta;
weight ( T ) = &Sigma; &epsiv; t &Element; T weight ( &epsiv; t ) + &Sigma; { &epsiv; t - 1 , &epsiv; t } &Element; T Sim ( &epsiv; t - 1 , &epsiv; t )
能量函数F是一个sigmod函数,值在0到1之间,单调递增;ET是路径的初始能量值,α为一个能量转化因子,β为一个能量衰退因子,ET(t)是指路径在t时刻的能量值,weight(T)是路径T的能量值,ε是指属于该路径的一个事件,Sim表示相似度;
步骤72,根据计算的路径能量值,在连通子图中选择能量最大的路径作为话题的轨迹,进而完成话题检测。
8.如权利要求5所述的网络视频话题检测的方法,其特征在于,
所述步骤51还包括,
步骤81,轨迹的边的宽度代表事件之间的相似度,边越宽,代表越相似,每个事件点展示预定义的前n个重要的显著词,以及前m个相关视频的关键帧。
9.一种网络视频话题检测的系统,其特征在于,包括:
显著词提取模块,用于将视频的标签词表示为时间轴上的词频变化轨迹,根据该词频变化轨迹提取每个时间单元内的显著词;
事件检测模块,用于将每个时间单元内的显著词表示为所述时间单元内上传的所有视频的倒排索引,并对所述显著词进行聚类,一个类为所述时间单元的一个事件,包含所述类中预设数量的显著词的视频为属于所述事件的视频;
轨迹图生成模块,用于计算各个事件之间相似度,建立事件之间的连接,形成事件发展轨迹图,事件发展轨迹图中的点为事件,按两个事件之间的相似度连接点生成边;
轨迹图分割模块,用于将事件发展轨迹图分割为多个连通子图;
结果生产模块,按预设标准从各个连通子图中查找最优路径,每条最优路径对应一个话题的轨迹,进而完成话题的检测。
10.如权利要求9所述的网络视频话题检测的系统,其特征在于,
所述系统还包括历史时间窗口设置模块;
在启动显著词提取模块前启动历史时间窗口设置模块,
历史时间窗口设置模块,用于设置历史时间窗口,以历史时间窗口内的时间单元上传的视频为检测对象,所述历史时间窗口随着时间推移沿时间轴向前滑动。
11.如权利要求10所述的网络视频话题检测的系统,其特征在于,
轨迹图生成模块还用于对事件发展轨迹图进行动态更新,所述动态更新包括增加历史时间窗口新覆盖的时间单元的事件对应的点和边,删除滑出时间窗口的时间单元的事件对应的点和边。
12.如权利要求9所述的网络视频话题检测的系统,其特征在于,
轨迹图生成模块还用于对于发展轨迹图中相邻时间单元的事件对应的两个点,如果同所述两点相连的点中相同点的个数大于等于2,并且两个所述点没有相连,则连接所述两点。
13.如权利要求9所述的网络视频话题检测的系统,其特征在于,
所述系统还包括展示模块,
展示模块,用于对得到的话题的轨迹在时间和热点程度的两维空间中展示;轨迹中每个事件点的横坐标代表该事件发生的时间单元,纵坐标代表该事件被关注的程度,由事件权重表示;并根据话题的轨迹发展模式将话题划分为内容热点、轨迹热点、和潜在热点话题,并分别推荐展示。
14.如权利要求9所述的网络视频话题检测的系统,其特征在于,
所述轨迹图生成模块进一步用于
将属于事件对应的类的所有显著词组成所述事件的显著词向量,显著词向量的每一维的权重为包含所述维对应显著词的视频个数,所述事件对应的时间单元内包含n个以上所述显著词向量中的显著词的视频组成所述事件的视频向量,n为预设值,视频向量的每一维的权重为所述维对应视频的被观看次数;
计算事件的视频向量的平均值,以所述平均值为所述事件的权重;
设置计算时间窗口,根据事件的显著词向量计算所述计算时间窗口内时间单元对应的事件之间的余弦距离,以所述余弦距离为所述事件之间的相似度;
以事件为事件发展轨迹图中的点,点的权重为对应的事件的权重,将对应事件的相似度大于预设值的点连接生成边。
15.如权利要求9所述的网络视频话题检测的系统,其特征在于,
所述结果生产模块进一步用于
对于每个连通子图,采用如下公式度量连通子图上每条路径的能量;
F ( E T ) = 10 &times; E T 1 + 10 &times; E T
E T ( t ) = &alpha; &times; weight ( T ( t ) ) - &beta;
weight ( T ) = &Sigma; &epsiv; t &Element; T weight ( &epsiv; t ) + &Sigma; { &epsiv; t - 1 , &epsiv; t } &Element; T Sim ( &epsiv; t - 1 , &epsiv; t )
能量函数F是一个sigmod函数,值在0到1之间,单调递增;ET是路径的初始能量值,α为一个能量转化因子,β为一个能量衰退因子,ET(t)是指路径在t时刻的能量值,weight(T)是路径T的能量值,ε是指属于该路径的一个事件,Sim表示相似度;
根据计算的路径能量值,在连通子图中选择能量最大的路径作为话题的轨迹,进而完成话题检测。
16.如权利要求13所述的网络视频话题检测的系统,其特征在于,
所述展示模块还用于以轨迹的边的宽度代表事件之间的相似度,边越宽,代表越相似,每个事件点展示预定义的前n个重要的显著词,以及前m个相关视频的关键帧。
CN2010102210773A 2010-06-28 2010-06-28 网络视频话题检测的方法及其系统 Active CN101887459B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102210773A CN101887459B (zh) 2010-06-28 2010-06-28 网络视频话题检测的方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102210773A CN101887459B (zh) 2010-06-28 2010-06-28 网络视频话题检测的方法及其系统

Publications (2)

Publication Number Publication Date
CN101887459A true CN101887459A (zh) 2010-11-17
CN101887459B CN101887459B (zh) 2012-07-11

Family

ID=43073381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102210773A Active CN101887459B (zh) 2010-06-28 2010-06-28 网络视频话题检测的方法及其系统

Country Status (1)

Country Link
CN (1) CN101887459B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033929A (zh) * 2010-12-15 2011-04-27 百度在线网络技术(北京)有限公司 热点视频集的展现方法及装置
CN102833297A (zh) * 2011-06-13 2012-12-19 微软公司 图操作以及应用图操作的分布式系统的诊断
CN102890698A (zh) * 2012-06-20 2013-01-23 杜小勇 微博话题标签自动化描述方法
CN103150383A (zh) * 2013-03-15 2013-06-12 中国科学院计算技术研究所 一种短文本数据的事件演化分析方法
CN103605786A (zh) * 2013-11-27 2014-02-26 姚领众 一种基于样本视频片段进行海量视频检索的方法
CN104021140A (zh) * 2014-05-08 2014-09-03 北京奇艺世纪科技有限公司 一种网络视频的处理方法及装置
CN104166675A (zh) * 2014-07-02 2014-11-26 中国科学院计算技术研究所 一种基于图分解的多模式网络话题生成方法及其系统
CN104182421A (zh) * 2013-05-27 2014-12-03 华东师范大学 视频聚类方法及检测方法
CN105095318A (zh) * 2014-05-22 2015-11-25 北京启明星辰信息安全技术有限公司 一种实现热点分析的方法和装置
CN108153863A (zh) * 2017-12-25 2018-06-12 北京奇艺世纪科技有限公司 一种视频信息的表示方法及装置
CN109697221A (zh) * 2018-11-22 2019-04-30 东软集团股份有限公司 轨迹规律的挖掘方法、装置、存储介质及电子设备
CN110245298A (zh) * 2019-06-18 2019-09-17 北京百度网讯科技有限公司 用于推送信息的方法和装置
CN111078942A (zh) * 2019-12-18 2020-04-28 腾讯科技(深圳)有限公司 一种推荐视频的方法、装置及存储介质
CN111556326A (zh) * 2020-03-27 2020-08-18 威比网络科技(上海)有限公司 公开课视频片段推送方法、装置、电子设备、存储介质
CN113032623A (zh) * 2021-03-10 2021-06-25 珠海安士佳电子有限公司 一种智能视频数据检索方法
CN115134631A (zh) * 2022-07-25 2022-09-30 北京达佳互联信息技术有限公司 视频处理方法和视频处理装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008093321A1 (en) * 2007-02-01 2008-08-07 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method and system for video indexing and video synopsis
CN101334845A (zh) * 2007-06-27 2008-12-31 中国科学院自动化研究所 一种基于轨迹序列分析和规则归纳的视频行为识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008093321A1 (en) * 2007-02-01 2008-08-07 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method and system for video indexing and video synopsis
CN101334845A (zh) * 2007-06-27 2008-12-31 中国科学院自动化研究所 一种基于轨迹序列分析和规则归纳的视频行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《计算机学报》 20090131 潘雪峰等 基于视觉感知的时空联合视频拷贝检测方法 第107-111页 1-16 第32卷, 第1期 2 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033929A (zh) * 2010-12-15 2011-04-27 百度在线网络技术(北京)有限公司 热点视频集的展现方法及装置
CN102833297A (zh) * 2011-06-13 2012-12-19 微软公司 图操作以及应用图操作的分布式系统的诊断
CN102833297B (zh) * 2011-06-13 2017-07-04 微软技术许可有限责任公司 图操作以及应用图操作的分布式系统的诊断
CN102890698A (zh) * 2012-06-20 2013-01-23 杜小勇 微博话题标签自动化描述方法
CN102890698B (zh) * 2012-06-20 2015-06-24 杜小勇 微博话题标签自动化描述方法
CN103150383A (zh) * 2013-03-15 2013-06-12 中国科学院计算技术研究所 一种短文本数据的事件演化分析方法
CN103150383B (zh) * 2013-03-15 2015-07-29 中国科学院计算技术研究所 一种短文本数据的事件演化分析方法
CN104182421A (zh) * 2013-05-27 2014-12-03 华东师范大学 视频聚类方法及检测方法
CN103605786A (zh) * 2013-11-27 2014-02-26 姚领众 一种基于样本视频片段进行海量视频检索的方法
CN104021140A (zh) * 2014-05-08 2014-09-03 北京奇艺世纪科技有限公司 一种网络视频的处理方法及装置
CN104021140B (zh) * 2014-05-08 2018-01-26 北京奇艺世纪科技有限公司 一种网络视频的处理方法及装置
CN105095318A (zh) * 2014-05-22 2015-11-25 北京启明星辰信息安全技术有限公司 一种实现热点分析的方法和装置
CN105095318B (zh) * 2014-05-22 2019-02-26 北京启明星辰信息安全技术有限公司 一种实现热点分析的方法和装置
CN104166675A (zh) * 2014-07-02 2014-11-26 中国科学院计算技术研究所 一种基于图分解的多模式网络话题生成方法及其系统
CN104166675B (zh) * 2014-07-02 2018-07-06 中国科学院计算技术研究所 一种基于图分解的多模式网络话题生成方法及其系统
CN108153863A (zh) * 2017-12-25 2018-06-12 北京奇艺世纪科技有限公司 一种视频信息的表示方法及装置
CN108153863B (zh) * 2017-12-25 2021-12-17 北京奇艺世纪科技有限公司 一种视频信息的表示方法及装置
CN109697221A (zh) * 2018-11-22 2019-04-30 东软集团股份有限公司 轨迹规律的挖掘方法、装置、存储介质及电子设备
CN109697221B (zh) * 2018-11-22 2021-07-09 东软集团股份有限公司 轨迹规律的挖掘方法、装置、存储介质及电子设备
CN110245298A (zh) * 2019-06-18 2019-09-17 北京百度网讯科技有限公司 用于推送信息的方法和装置
CN111078942A (zh) * 2019-12-18 2020-04-28 腾讯科技(深圳)有限公司 一种推荐视频的方法、装置及存储介质
CN111556326A (zh) * 2020-03-27 2020-08-18 威比网络科技(上海)有限公司 公开课视频片段推送方法、装置、电子设备、存储介质
CN113032623A (zh) * 2021-03-10 2021-06-25 珠海安士佳电子有限公司 一种智能视频数据检索方法
CN113032623B (zh) * 2021-03-10 2024-04-05 珠海安士佳电子有限公司 一种智能视频数据检索方法
CN115134631A (zh) * 2022-07-25 2022-09-30 北京达佳互联信息技术有限公司 视频处理方法和视频处理装置
CN115134631B (zh) * 2022-07-25 2024-01-30 北京达佳互联信息技术有限公司 视频处理方法和视频处理装置

Also Published As

Publication number Publication date
CN101887459B (zh) 2012-07-11

Similar Documents

Publication Publication Date Title
CN101887459B (zh) 网络视频话题检测的方法及其系统
CN108509551B (zh) 一种基于Spark环境下的微博网络关键用户挖掘系统及方法
CN101894170B (zh) 基于语义关联网络的跨模信息检索方法
Xu et al. Topic based context-aware travel recommendation method exploiting geotagged photos
CN101834837A (zh) 基于宽带网络的旅游景区景点在线景观视频主动信息服务系统
CN107644089A (zh) 一种基于网络媒体的热门事件提取方法
CN104572797A (zh) 基于主题模型的个性化服务推荐系统和方法
CN109165367B (zh) 一种基于rss订阅的新闻推荐方法
CN105701191A (zh) 一种推送信息点击率估计方法和装置
CN104268197A (zh) 一种行业评论数据细粒度情感分析方法
CN111259263A (zh) 一种物品推荐方法、装置、计算机设备及存储介质
CN110362740B (zh) 一种水利门户信息混合推荐方法
Clements et al. The influence of personalization on tag query length in social media search
CN105608166A (zh) 一种标签提取方法及装置
CN111429161B (zh) 特征提取方法、特征提取装置、存储介质及电子设备
CN110990670B (zh) 一种成长激励型图书推荐方法及推荐系统
CN109670909A (zh) 一种基于概率矩阵分解和特征融合的旅游产品推荐方法
CN113239111A (zh) 一种基于知识图谱的网络舆情可视化分析方法及系统
CN116362811A (zh) 一种基于大数据的广告自动化投放管理系统
CN112969035A (zh) 一种可视化视频制作方法及制作系统
CN116431919A (zh) 基于用户意图特征的智能新闻推荐方法和系统
Xu et al. Core interest network for click-through rate prediction
CN104281648A (zh) 基于维度标签的搜索结果多维度导航方法
Sun et al. A novel deep recommend model based on rating matrix and item attributes
CN116010696A (zh) 融合知识图谱和用户长短期兴趣的新闻推荐方法、系统及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant