CN104182421A

CN104182421A - 视频聚类方法及检测方法

Info

Publication number: CN104182421A
Application number: CN201310202454.2A
Authority: CN
Inventors: 吕钊; 杨东强
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2013-05-27
Filing date: 2013-05-27
Publication date: 2014-12-03

Abstract

本发明提供一种视频聚类方法及检测方法，其中，所述聚类方法包括：a.获取待聚类视频的集合，并进一步获取与每个所述待聚类视频相适应的文本信息；b.对每个所述待聚类视频，抽取视频特征c.根据所述待聚类视频的集合及其视频特征构造一N分图；d.对所述待聚类视频的集合进行初始化聚类以获得初始的视频聚类以及初始的视频特征聚类，将初始化聚类获得的聚类中心添加到所述N分图中，作为隐藏结点，计算所述视频聚类与所述视频特征聚类之间的权重矩阵并形成初始的关系簇网络；e.迭代更新所述文本特征、所述视频聚类、所述视频特征聚类以及所述关系簇网络以获得最优关系簇网络；以及f.根据获得的最优关系簇网络进行聚类跟踪或视频检测。

Description

视频聚类方法及检测方法

技术领域

涉及多媒体处理领域及信息处理领域，具体地说是话题检测与跟踪技术中的视频话题检测与跟踪技术。

背景技术

话题检测与跟踪是一项面向多媒体信息流进行未知话题探测和已知话题跟踪的信息处理技术。视频话题检测与跟踪希望将大量视频中同一话题的视频自动聚类，实现按话题查找、组织和利用来自多种媒体的信息，提高用户的检索效率。由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性，并面向大规模视频语料，是当前多媒体处理领域的研究热点之一。网络视频主要包括文本特征和视觉特征两方面。然而由于网络视频内容主要由非专业人士进行拍摄整理，视频质量良莠不齐，网络视频的话题检测与跟踪还存在微博视频文本信息稀疏、存在噪声、视觉特征质量不高、话题漂移等问题。

现有的话题检测与跟踪方法主要应用于新闻领域，且针对文本特征的话题检测与跟踪较为成熟。在话题检测领域中，如向量空间模型、语言概率模型的应用较为广泛。其中向量空间模型较为直接常用，但是模型忽略视频对象各特征之间的关联关系。概率语言模型具有一定的理论基础，但是容易引入噪声。在多维度特征融合的模型中，向量空间模型亦可添加相应的视觉特征，通过抽取底层视觉近邻副本结合文本特征，构成多维度的视频话题模型。另外，亦有采取图模型对话题特征进行表示，但其应用尚属探索阶段，可以进行进一步的研究。话题跟踪领域主要有基于查询、分类、聚类等方法，另外在话题跟踪过程中又可分为话题模型可调节与话题模型不可调节两大类方法。

发明内容

本发明提供一种生成最优关系簇网路的视频聚类方法，其特征在于，包括：a.获取待聚类视频的集合，并进一步获取与每个所述待聚类视频相适应的文本信息；b.对每个所述待聚类视频，抽取视频特征，所述文本特征以及所述视觉特征组成所述待聚类视频的视频特征，其中，所述抽取视频特征包括：对所述待聚类视频的文本信息进行数据处理并抽取相应的文本特征；对所述待聚类视频的视频数据进行分割并抽取所述待聚类视频的视觉特征；c.根据所述待聚类视频的集合及其视频特征构造一N分图；d.对所述待聚类视频的集合进行初始化聚类以获得初始的视频聚类以及初始的视频特征聚类，将初始化聚类获得的聚类中心添加到所述N分图中，作为隐藏结点，计算所述视频聚类与所述视频特征聚类之间的权重矩阵并形成初始的关系簇网络；e.迭代更新所述文本特征、所述视频聚类、所述视频特征聚类以及所述关系簇网络，当此次迭代更新的关系簇网络与所述N分图的距离小于第一阈值时，则停止迭代以获得最优关系簇网络；以及f.根据获得的最优关系簇网络进行聚类跟踪或视频检测，其中，所述聚类跟踪包括：输入一视频特征，并与所述最优关系簇网络的视频特征聚类进行匹配，以获取属于与所述视频特征相适应的视频特征聚类的视频的集合；所述视频检测包括：输入一视频，根据所述视频的文本特征与视觉特征与所述最优关系簇网络进行匹配和聚类以获得所述视频所属的视频特征聚类。

优选地，所述抽取所述文本信息的文本特征包括：对所述文本信息进行分词；利用词频-逆向文件频率加权法计算所述文本信息分词后每个词的文本权重；以及将文本权重不小于第二阈值的词作为所述文本信息的关键词，其中，所述文本信息的文本特征包括所述关键词以及相应的文本权重。

优选地，所述文本权重根据如下公式计算并更新：

TFIDF_t=TF_t*log(N/DF_t)，

其中，TFIDF_t为词t的文本权重，N表示全部视频聚类的个数，DF_t表示包含词t的视频聚类的个数，TF_t是词t在与所述文本信息相适应的待聚类视频所属的视频聚类中出现的频数，

其中，利用K-means聚类方法对所述待聚类视频进行初始聚类以初始化所述文本权重。

优选地，所述抽取所述待聚类视频的视觉特征包括：分割所述待聚类视频的镜头，获取所述镜头变换的视频帧；通过K-means聚类方法对所述视频帧根据颜色灰度值进行迭代聚类以获取第一个数个关键帧，所述视觉特征包括所述关键帧以及相适应的16维灰度值表示，其中，所述第一个数根据贝叶斯信息准则确定。

优选地，所述N分图根据如下模型构造：

G = {V, {{S}^{n}}_{n = 1}^{N - 1}, E},

其中，V表示所述待聚类视频的集合，表示所述视频特征的集合，E表示N分图中的边的集合，也就是所述待聚类视频与所述视频特征之间的边的集合，矩阵Mⁿ表示每条边上的权重，

所述关系簇网络根据如下模型构造：

G^{RCN} = {V, C^{v}, {{S}^{n}}_{n = 1}^{N - 1}, {{C}^{n}}_{n = 1}^{N - 1}, E^{RCN}}

其中，V表示所述待聚类视频的集合，C^v表示所述视频聚类的集合，表示所述视频特征的集合，表示N-1个视频特征聚类的集合，E^RCN表示关系簇网络中的边，也就是所述待聚类视频与所述视频聚类之间的边、所述视频聚类与所述视频特征聚类之间的边、所述视频特征聚类与所述视频特征之间的边，其中，边上的权重由权重矩阵进行表示：W^v表示所述待聚类视频与所述视频聚类之间的边的权重，若一待聚类视频能聚类到一视频聚类，则所述待聚类视频与所述视频聚类之间的边上的权重为1；若一待聚类视频不能聚类到一视频聚类，则所述待聚类视频与所述视频聚类之间的边上的权重为0；Wⁿ表示所述视频特征与所述视频特征聚类之间的边的权重，若一视频特征能聚类到一视频特征聚类，则所述视频特征与所述视频特征聚类之间的边上的权重为1；若一视频特征不能聚类到一视频特征聚类，则所述视频特征与所述视频特征聚类之间的边上的权重为0；W^vn表示所述视频聚类与所述视频特征聚类之间的权重。

优选地，所述更新所述视频特征聚类包括：对于每个所述视频特征，将所述视频特征归入一视频特征聚类中，当所述N分图与当前关系簇网络之间的距离最小时，将所述视频特征归入相应的视频特征聚类之中，更新所述视频聚类与所述视频特征聚类之间的权重矩阵；所述更新所述待聚类视频聚类包括：对于每个所述待聚类视频，将所述待聚类视频归入一视频聚类中，当所述N分图与当前关系簇网络之间的距离最小时，将所述待聚类视频归入相应的视频聚类之中，更新所述视频聚类与所述视频特征聚类之间的权重矩阵。

优选地，所述视频聚类与所述视频特征聚类之间的权重矩阵根据如下公式计算和更新：

W_{pq}^{vn} = \frac{1}{| C_{p}^{v} | * | C_{q}^{n} |} \underset{v_{i} &Element; C_{p}^{v}, s_{j}^{n} &Element; C_{q}^{n}}{Σ} M_{ij}^{n}

其中，是一视频聚类与视频特征聚类之间的边的权重，是聚类到视频聚类中所述待聚类视频的个数，是聚类到视频特征聚类中所述视频特征的个数，其中，矩阵中的元素表示视频聚类中的待聚类视频与视频特征聚类中的视频特征之间的边的权重。

优选地，所述N分图与所述关系簇网络之间的距离根据如下公式计算：

D (G, G^{RCN}) = \underset{1 \leq n \leq N - 1}{Σ} α_{n} * D (M^{n}, W^{v} W^{vn} W^{n})

D(G,G^RCN)是所述N分图与所述关系簇网络之间的距离，Mⁿ是所述N分图中各边的权重，W^v、W^vn以及Wⁿ是所述关系簇网络中各边的权重，α_n表示第n个视频特征在视频聚类过程中所占的权重比。

优选地，步骤e之后还包括：对所述最优关系簇网络中的所述视频聚类进行排序，其中，所述视频聚类基于热度进行排序，对所述最优关系簇网络中每一视频聚类中的所述待聚类视频进行排序，其中，通过以下三种方式中的一种或多种进行排序：基于时间的排序；基于所述待聚类视频与其所述的视频聚类的相关度的排序；或者基于热度的排序。

根据本发明又一方面，还提供一种视频检测方法，其特征在于，包括：A.获待检测视频，并进一步获取所述待检测视频相适应的文本信息；B.对所述待检测视频，抽取所述文本信息的文本特征，抽取所述待检测视频的视觉特征，其中，所述文本特征以及所述视觉特征组成所述待检测视频的视频特征；C.根据所述待检测视频及其视频特征更新根据权利要求1-9任一种所述的聚类方法生成的N分图以及相应的最优关系簇网络；D.根据所述待检测视频初始化至与所述待检测视频距离最小的视频聚类，更新所述视频聚类与所述视频特征聚类之间的权重矩阵；以及E.迭代更新所述文本特征、所述视频聚类、所述视频特征聚类以及所述关系簇网络，当此次迭代更新的关系簇网络与所述N分图的距离小于第三阈值时，则停止迭代以获得更新的最优关系簇网络并输出所述待检测视频所属的视频聚类。

优选地，所述N分图与关系簇网络的距离公式为：

D (G, G^{RCN}) = \underset{1 \leq n \leq N - 1}{Σ} α_{n} * D (M^{n}, W^{v} W^{vn} W^{n}) + \underset{1 \leq p \leq d_{cv}}{Σ} \underset{1 \leq τ \leq d_{τ}}{Σ} β_{τ} * D^{τ} (v_{i}, c_{p}^{v})

其中，D(G,G^RCN)是所述N分图与所述关系簇网络之间的距离，Mⁿ是所述N分图中各边的权重，W^v、W^vn以及Wⁿ是所述关系簇网络中各边的权重，α_n表示第n个视频特征在视频聚类过程中所占的权重比，d_τ是其他视频特征的种类数，是第τ种视频特征之间的距离函数，β_τ表示第τ个视频特征在视频聚类过程中所占的权重比，

所述待检测视频与所述视频聚类的距离公式为：

D (v_{ρ}, c_{p}^{v}) = \underset{1 \leq n \leq N - 1}{Σ} α_{n} * D^{n} (v_{ρ}, c_{p}^{v}) \underset{1 \leq τ \leq d_{τ}}{Σ} β_{τ} * D^{τ} (v_{ρ}, c_{p}^{v})

其中，是所述待检测视频与所述视频聚类的距离，表示第n个视频特征中所述待检测视频与所述视频聚类的距离，α_n表示第n个视频特征在视频聚类过程中所占的权重比，d_τ是其他视频特征的种类数，是第τ种视频特征之间的距离函数，β_τ表示第τ个视频特征在视频聚类过程中所占的权重比，

其中，第τ种视频特征包括如下视频特征中的一种或多种：

基于用户反馈时间的视频特征；或者

基于用户反馈次数的视频特征。

本发明通过对网络视频信息结构的研究，结合N分图模型，构建出基于N分图的视频话题检测与跟踪的系统。通过对视频相关信息抽取文本特征，视觉特征的方法，本发明能够获得对话题聚类有效的特征信息。再通过构造N分图有效表示视频与视频特征之间的关系，根据信息熵损失最小原则，迭代获取最优关系簇网络结构作为网络视频话题检测的聚类依据。本发明有效利用信息论联合聚类的有关内容，使话题聚类的准确性得到提高。

附图说明

图1示出了本发明提供的生成最优关系簇网路的视频聚类方法的流程图；

图2示出了本发明提供的迭代聚类生成最优关系簇网络的流程图；

图3示出了本发明提供的视频检测方法的流程图；以及

图4示出了本发明提供的视频检测方法的具体流程图。

具体实施方式

为了进一步说明本发明的原理和结构，现结合附图对本发明的优选实施例进行详细说明。

图1示出了本发明提供的生成最优关系簇网路的视频聚类方法的流程图。具体地，图1示出了5个步骤。

步骤S101，获取待聚类视频的集合，并进一步获取与每个待聚类视频相适应的文本信息。

步骤S102，对每个待聚类视频，抽取文本信息的文本特征，抽取待聚类视频的视觉特征，其中，文本特征以及视觉特征组成待聚类视频的视频特征。

具体地，本发明中文本特征的权重表示主要采用经典的TF-IDF表示方法。不同的是，本发明将此权重的更新与视频聚类过程进行结合，获取视频聚类上的权重更新，从而以反馈迭代过程在聚类中不断更新文本权重与视频聚类。其中，利用K-means聚类方法对所述待聚类视频进行初始聚类以初始化所述文本权重。。

优选地，首先对文本信息进行分词。然后利用TF-IDF计算文本信息分词后每个词的文本权重。将文本权重不小于第二阈值的词作为所述文本信息的关键词。所述文本信息的文本特征包括所述关键词以及相应的文本权重。

其中，文本权重根据如下公式计算：

TFIDF_t=TF_t*log(N/DF_T)，

其中，

T F_{t} = \arg \max {f (t, C_{i}^{v})}

其中，

f (t, C_{i}^{v}) = \frac{N (t, C_{i}^{v})}{| C_{i}^{v} |}

其中，

N (t, C_{i}^{v}) = \underset{v &Element; C_{i}^{v}}{Σ} A (v, t)

之后，抽取视觉特征：

优选地，本发明提供的视觉特征抽取采取先分割镜头，后抽取关键帧的方式进行。本发明使用一种鲁棒性较高的视频镜头切分方法，根据视频领域片段变化的特点提出镜头边界系数模型，并将镜头边界系数与相邻帧差相结合，按照传统的方法计算帧间差，将帧间差与事先确定的阈值进行比较，从而判断是否为镜头之间的转换。

基于聚类的关键帧抽取方法的主要思想是利用K-means将视频镜头中的视频帧根据颜色灰度值进行聚类，聚类中心根据迭代不断更新，从而获得稳定的K个聚类中心，即每个镜头获取K个关键帧。关键帧特征由聚类中心的16维灰度值表示。其中聚类个数K的确定，采用了贝叶斯信息准则方法来度量。

过程中预先设定K∈{1,d_s}，d_s表示对应的镜头个数，进而每次聚类，计算相应的贝叶斯信息，获得贝叶斯信息最小时的K值，表示关键帧聚类个数及最终确定关键帧聚类结果。

步骤S103，根据待聚类视频的集合及其视频特征构造一N分图。

对于网络视频，构造的N分图分析图模型结构包括视频、文本特征、视觉特征三大类结点。构造的N分图可以形式化为其中V表示待聚类视频的集合且根据N分图的构造，V∈R^N-1，即每个视频包含N-1种视频特征。表示第n种特征的特征向量，d_n表示第n种特征的向量维度。E表示N分图中的边的集合，

表示N分图中，第i个视频v_i与第n种特征中第j个特征对象之间的边。此边上的权重，优选地利用共现矩阵来表示，即矩阵中的元素表示边上的权重。

步骤S104，对待聚类视频的集合进行初始化聚类以获得初始的视频聚类以及初始的视频特征聚类，将初始化聚类获得的聚类中心添加到N分图中，作为隐藏结点，计算视频聚类与视频特征聚类之间的权重矩阵并形成初始的关系簇网络。

具体地，N分图通过在已有结构上添加适当的隐藏结点进行重构，从而将N分图结点的结构转化到隐藏结点所反映的结构。重构后的图模型称为关系簇网络（Relation Cluster Network,RCN）结构。对于原N分图需要构造一个最优的关系簇网络G^RCN。最优的关系簇通过计算原N分图模型与重构后的关系簇网络之间的距离，使两者之间的距离达到最小而得到。

在原有N分图基础上，获得的RCN结构图的形式化结构可以表示为

G^{RCN} = {V, C^{v}, {{S}^{n}}_{n = 1}^{N - 1}, {{C}^{n}}_{n = 1}^{N - 1}, E^{RCN}},

其中表示视频聚类，d_cv表示视频聚类的个数。表示n-1个视频特征的聚类，表示第n个视频特征的聚类，其中d_cn表示第n个视频特征聚类的个数。表示关系簇网络中的边。边上的权重由权重矩阵进行表示。如表示视频结点与视频聚类之间的权重，即若视频结点v_i可以聚类到视频聚类则边上的权重反之，若视频结点v_i不能聚类到视频聚类则边上的权重同理，表示视频特征与视频特征聚类之间的权重，即若视频特征可以聚类到视频特征聚类则边上的权重反之，表示视频聚类与视频特征聚类之间的权重，如表示视频聚类与第n个视频特征聚类之间边上的权重。

视频聚类与视频特征聚类之间的权重矩阵通过下式计算：

W_{pq}^{vn} = \frac{1}{| C_{p}^{v} | * | C_{q}^{n} |} \underset{v_{i} &Element; C_{p}^{v}, s_{j}^{n} &Element; C_{q}^{n}}{Σ} M_{ij}^{n}

其中，是聚类到视频聚类中所述待聚类视频的个数，是聚类到视频特征聚类中所述视频特征的个数，是视频聚类结点中视频的集合，表示能够聚类到视频结点的视频的集合；是视频特征聚类结点中视频特征的集合，表示能够聚类到视频特征结点的视频特征对象的集合。其中，1≤p≤d_cv,1≤q≤d_cn;1≤i≤d_v;1≤j≤d_n。

步骤S105，迭代更新文本特征、视频聚类、视频特征聚类以及关系簇网络，当此次迭代更新的关系簇网络与N分图的距离小于第一阈值时，则停止迭代以获得最优关系簇网络。

在是本实施例的一个变化例中，生成最优关系簇网络后还对视频聚类以及视频聚类中的视频进行排序。

优选地，可以通过基于时间的排序、基于相关度的排序和基于热度的排序三种方法进行排序。

基于时间的排序：

采取的基于时间的排序，根据下式定义视频v_i的时间距离

D(v_i)=T_current-T(v_i)

其中T_current表示当前时间。距离越大，排序越靠后，亦即越新的视频，可能被关注到的几率越大，而较为久远的视频，则相对不受人关注。

基于相关度的排序：

基于相关度的排序能够较好地体现视频聚类跟踪的效果，本发明提出的基于相关度的排序，其距离公式如下式所示

D (v_{i}, c_{p}^{v}) = \underset{1 \leq n \leq N - 1}{Σ} α_{n} * D^{n} (v_{i}, c_{p}^{v}) + \underset{1 \leq τ \leq d_{τ}}{Σ} β_{τ} * D^{τ} (v_{i}, c_{p}^{v})

此式中视频v_i包含于视频聚类中，则进一步定义视频簇内视频与话题相关度为：

Sim (v_{i}, c_{p}^{v}) = \frac{1}{D (v_{i}, c_{p}^{v})}

即距离越小，相关度越高。相关度越高的视频，排序越靠前，越贴近此视频聚类。

基于热度的排序：

基于热度的排序指的是采用一个热度的度量方式来表示视频的热门程度，一般定义为该视频被浏览的次数。对于一个视频聚类的，那么此主题的话题热度通过下式计算：

Hot (c_{p}^{v}) = \frac{| C_{p}^{v} | * Σ_{vi &Element; c_{p}^{v}} View (v_{i})}{\max_{v_{i} &Element; c_{p}^{v}} T (v_{i}) - \min_{v_{i} &Element; c_{p}^{v}} T (v_{i})}

其中表示聚类结点中的视频集合，View(v_i)表示视频被浏览的次数，T(v_i)表示视频上传的时间。

视频聚类内部视频v_i亦可通过对应的关系进行热度排序

Hot (v_{i}) = \frac{View (v_{i})}{T_{current} - T (v_{i})}

其中T_current表示当前时间，意即越靠近当前时间，视频越新，则可能的热度就越高。

图2示出了本发明提供的迭代聚类生成最优关系簇网络的流程图。具体地，图2示出了六个步骤。

步骤S201，对待聚类视频的集合进行聚类初始化。

具体地，利用K-means算法进行初始聚类，将相应的聚类中心添加到原有N分图中，作为隐藏结点，从而构建初始的关系簇网络结构。

其中，对于各边的权重，可以得到，若视频结点v_i可以聚类到视频聚类则边上的权重反之，若视频结点v_i不能聚类到视频聚类则边上的权重若视频特征对象可以聚类到视频特征对象聚类则边上的权重反之，对于视频聚类结点与视频特征对象聚类结点之间的权重，通过下式进行计算：

W_{pq}^{vn} = \frac{1}{| C_{p}^{v} | * | C_{q}^{n} |} \underset{v_{i} &Element; C_{p}^{v}, s_{j}^{n} &Element; C_{q}^{n}}{Σ} M_{ij}^{n}

步骤S202，更新视频特征聚类。

对于每个视频特征，尝试将其归入某一个视频特征聚类中，例如对于视频特征将其归入视频特征聚类中，计算N分图与关系簇网络之间的距离，使得当距离最小时，将视频特征归入相应的视频特征聚类之中，也就是在

W_{jq}^{n} = 1

的情况下，获取

\arg \min_{q} D (G, G_{q}^{RCN}) .

当某个视频特征聚类改变时，相应的视频聚类与视频特征聚类之间的权重矩阵也应随之改变，根据下式更新权重矩阵W^vn：

W_{pq}^{vn} = \frac{1}{| C_{p}^{v} | * | C_{q}^{n} |} \underset{v_{i} &Element; C_{p}^{v}, s_{j}^{n} &Element; C_{q}^{n}}{Σ} M_{ij}^{n}

步骤S203，更新视频聚类。

对于每个视频，尝试将其归入某个视频聚类中，例如，对于视频v_i将其归入视频聚类中，计算N分图与关系簇网络之间的距离，使得距离最小时，将视频归入相应的视频聚类之中，即在的情况下，获取

\arg \min_{p} D (G, G_{p}^{RCN}) .

当某个视频聚类改变时，相应的视频聚类与视频特征聚类之间的权重矩阵也应随之改变，即每次迭代，根据下式更新权重矩阵W^vn：

W_{pq}^{vn} = \frac{1}{| C_{p}^{v} | * | C_{q}^{n} |} \underset{v_{i} &Element; C_{p}^{v}, s_{j}^{n} &Element; C_{q}^{n}}{Σ} M_{ij}^{n}

步骤S204，计算N分图与关系簇网络之间的距离。

具体地，更新视频特征聚类结点、视频聚类结点之后，综合计算N分图与重构后关系簇网络之间的距离。

N分图与关系簇网络之间的距离根据如下方法计算：

将N分图可以拆分成N-1个二分图，采取加权方法，构造距离公式，第n个视频特征对象与视频可以形成一个二分图，对于此二分图，其二分图与关系簇网络模型之间的距离如下式所示：

D (G_{n}, G_{n}^{RCN}) = \underset{W_{ip}^{v} = 1, w_{qj}^{n} = 1}{\underset{v_{i} &Element; V, s_{j}^{n} &Element; S^{n}}{Σ}} D (< e (v_{i}, s_{j}^{n}) >, < e (v_{i}, c_{p}^{v}), e (c_{p}^{v}, c_{q}^{n}), e (c_{q}^{n}, s_{j}^{n}) >)

=D(Mⁿ,W^vW^vnWⁿ)

对于不同的N-1个视频特征，采取传统而有效的加权距离计算，如下式所示

D (G, G^{RCN}) = \underset{1 \leq n \leq N - 1}{Σ} α_{n} * D (M^{n}, W^{v} W^{vn} W^{n})

其中α_n表示第n个视频特征在整个视频聚类过程中所占的权重比，可以通过多次训练得到，且

\underset{1 \leq n \leq N - 1}{Σ} α_{n} = 1

其中，N分图与关系簇网络之间的距离D(G,G^RCN)等于信息熵损失I(V;Sⁿ)-I(C^v;Cⁿ)。

步骤S205，判断N分图与关系簇网络之间的距离是否小于第一阈值。若距离不小于第一阈值，则跳至步骤S202。若距离小于第一阈值则继续执行步骤S206。

步骤S206，生成最优关系簇网络。

图3示出了本发明提供的视频检测方法的流程图。具体地，本图示出了六个步骤。

步骤S301，对视频数据中的视频，抽取文本信息，并根据文本信息抽取文本特征。

其中，文本权重根据如下公式计算：

TFIDF_t=TF_t*log(N/DF_t)，

其中，TFIDF_t为词t的文本权重，N表示全部视频聚类的个数，DF_t表示包含词t的视频聚类的个数，TF_t是词t在与所述文本信息相适应的待聚类视频所属的视频聚类中出现的频数。

步骤S302，对视频数据中的视频，抽取视觉特征。

步骤S303，根据视频、文本特征以及视觉特征构造一N分图。

步骤S304，根据N分图对视频、文本特征以及视觉特征进行迭代聚类并生成最优关系簇网络。迭代聚类的步骤如图2所示。

步骤S305，将一待检测视频进行多维度特征聚类。

针对待测视频的特点，在已有文本特征、视觉特征的基础之上，增加其他维度信息，包括用户反馈时间、用户反馈次数等信息。

视频聚类跟踪过程中将多维度特征进行融合，共同构建于原有N分图模型之上。相应的图模型距离为：

D (G, G^{RCN}) = \underset{1 \leq n \leq N - 1}{Σ} α_{n} * D (M^{n}, W^{v} W^{vn} W^{n}) + \underset{1 \leq p \leq d_{cv}}{Σ} \underset{1 \leq τ \leq d_{τ}}{Σ} β_{τ} * D^{τ} (v_{i}, c_{p}^{v})

d_τ是其他视频特征的种类数，是第τ种视频特征之间的距离函数，β_τ表示第τ个视频特征在视频聚类过程中所占的权重比。

其中，进行视频检测，则待测视频v_ρ与任一个视频聚类间的距离公式化为：

D (v_{ρ}, c_{p}^{v}) = \underset{1 \leq n \leq N - 1}{Σ} α_{n} * D^{n} (v_{ρ}, c_{p}^{v}) \underset{1 \leq τ \leq d_{τ}}{Σ} β_{τ} * D^{τ} (v_{ρ}, c_{p}^{v})

对于用户反馈时间，其距离公式可以由时间差表示。首先定义视频聚类的时间为已包含视频的时间平均值（分钟），用下式表示

\overset{&OverBar;}{t_{p}^{v}} = \frac{Σ_{{1 \leq i \leq d}_{p}^{v}} t^{v_{i}}}{d_{p}^{v}}

其中表示视频聚类中的视频个数，表示视频v_i被反馈的时间。定义一基准时间，反馈时间为基准时间至被反馈的时间。

则需检测视频与视频聚类之间的时间距离公式为

D^{time} (v_{ρ}, c_{p}^{v}) = \frac{| t^{v_{ρ}} - \overset{&OverBar;}{t_{p}^{v}} |}{y}

其中，y是一年中的分钟数。

对于用户反馈次数，其距离公式利用余弦向量公式，用户反馈次数可以形成一个时间维度的向量，即形成每一天的用户反馈次数。视频聚类的用户反馈次数可以表示为原各个视频用户反馈次数的总和，即

{comment}^{c_{p}^{v}} = \underset{1 \leq i \leq d_{p}^{v}}{Σ} {comment}^{v_{i}}

其中是对应的向量形式，即视频v_i被用户反馈的次数按时间排序的向量。则需检测视频与视频聚类之间的距离公式利用余弦公式，计算两向量之间的距离：

D^{comment} (v_{ρ}, c_{p}^{v}) = \frac{{comment}^{v_{ρ}} . {comment}^{c_{p}^{v}}}{\sqrt{{comment}^{v_{ρ}}} * \sqrt{{comment}^{c_{p}^{v}}}}

步骤S306，根据待检测视频进行多维度特征聚类的结果更新最优关系簇网络。

图4示出了本发明提供的视频检测方法的具体流程图。具体地，本图示出了五个步骤。

步骤S401，获取待检测视频，并进一步获取与待检测视频相适应的文本信息。

步骤S402，对待检测视频，抽取文本信息的文本特征，抽取待检测视频的视觉特征。

优选地，通过TF-IDF抽取文本信息的文本特征。具体地，首先对文本信息进行分词。然后利用TF-IDF计算文本信息分词后每个词的文本权重。将文本权重不小于第二阈值的词作为所述文本信息的关键词。所述文本信息的文本特征包括所述关键词以及相应的文本权重。

优选地，通过先分割镜头，后抽取关键帧的方式抽取待检测视频的视觉特征。

步骤S403，根据待检测视频及其视频特征更新如图1所示步骤生成的N分图以及相应的关系簇网络。

步骤S404，根据待检测视频初始化至与所述待检测视频距离最小的视频聚类，更新视频聚类与视频特征聚类之间的权重矩阵。视频聚类与视频特征聚类之间的权重矩阵的更新方式与图1所述步骤S104中视频聚类与视频特征聚类之间的权重矩阵的计算公式相同，在此不予赘述。

步骤S405，迭代更新文本特征、视频聚类、视频特征聚类以及关系簇网络，当此次迭代更新的关系簇网络与N分图的距离小于第三阈值时，则停止迭代以获得更新的最优关系簇网络并输出所述待检测视频所属的视频聚类。

其中，步骤S404与步骤S405与图2所示的迭代聚类获得最优关系簇网络的步骤相类似，在此不予赘述。

以下示出了本发明的另一个实施例。

本发明选取新浪微博从2010年11月开始至2013年1月期间其中的869个视频为例子，检测其中的话题。其中一部分视频描述信息举例：

id:1

created_at:Fri Jan1114:14:32CST2013

comment:求辟谣//博联社马晓霖:【黑帮重来】重庆不是打黑很彻底吗？怎么黑社会卷土重来？//点子正:[浮云]//爱国爱党爱人民爱你爱我更爱她:点子正求辟谣

text:【网曝重庆开发商找黑社会持棍棒围殴不愿被征地农民】据发帖者称，1月9日，重庆江北区南桥寺，一伙流氓持棍棒围殴了她父亲和叔叔，这伙人极有可能是光华集团找来的打手。她家因为不愿被强征土地，所以遭此厄运。现在她父亲还躺在医院，昏迷不醒。围殴全程的视频曝光，惨不忍睹。。

url:http://t.cn/zj1DQMf

id:2

created_at:Fri Jan1114:14:19CST2013

comment:罗大佑三首歌献给过去现在未来，鹿港小镇、亚细亚孤儿，未来的主人翁。//高晓松:“我将青春付给了你，将岁月留给我自己，我将你的背影留给我自己，却将自己，给了你???”永远年轻，永远热泪盈眶！

text:如果你喜欢罗大佑崔健黑豹许巍张楚，如果你在卡拉OK只唱老歌，如果你对新歌不屑一顾，如果一句熟悉的旋律会让你忽然热泪盈眶......

url:http://t.cn/zj1uwgs

第一步，对视频中的描述信息进行分词，用TFIDF的方法计算文本特征的权重，剔除其中权重比较低的词语后，其中一个视频的文本特征信息表示如下，词语后面的数字代表此词语的权重：

殴 0.0706799533308

重 0.0205192774167

魔 0.0187405778303

㈡ 0.0450709218152

1月 0.0144378633629

辟谣 0.053201382941

打手 0.0266006914705

找 0.0435625697143

光华 0.0235599844436

帖 0.0266006914705

曝 0.0235599844436

叔叔 0.0235599844436

耳机 0.018064347632

发 0.0169618782438

卷土重来 0.0266006914705

医院 0.0195403883964

点子 0.053201382941

昏迷不醒 0.0266006914705

视频 0.00690988332257

流氓 0.0266006914705

重庆 0.0706799533308

棍棒 0.053201382941

躺 0.0266006914705

围 0.0653438545715

声 0.0147209817831

爱 0.0500007969239

全程 0.0217812848572

虫 0.0410519652917

厄运 0.0266006914705

求 0.0435625697143

集团 0.0217812848572

江北区 0.0266006914705

马晓霖 0.0235599844436

称 0.0128458648441

榄 0.0586211651892

愿 0.0471199688872

曝光 0.0136839884306

强 0.0134589743426

党 0.0235599844436

黑帮 0.0266006914705

正 0.032999362739

现在 0.0150236406051

征 0.0235599844436

征地 0.0266006914705

伙 0.0435625697143

网 0.00657774972263

黑 0.0205192774167

爱国 0.0266006914705

桥 0.0217812848572

[0.0027068734413

浮云 0.0266006914705

联社 0.0235599844436

父亲 0.0410385548334

]0.00268800539953

寺 0.0235599844436

家 0.0134589743426

持 0.0410385548334

黑社会 0.053201382941

土地 0.0266006914705

农民 0.0266006914705

面条 0.0195403883964

人 0.00790111219051

遭 0.0156998708034

博 0.0119829335782

彻底 0.0217812848572

开发商 0.0266006914705

9日 0.0235599844436

惨不忍睹 0.0205192774167

第二步，通过对视频进行镜头分割，获得视频中镜头变换的关键帧画面，再对获得的关键帧画面通过K-means的方法聚类。

第三步，运用前面获得的文本特征，视觉特征，视频通过重构N分图，获得最优关系簇网络的方法进行话题聚类。

其中，若微博话题是娱乐节目中的一些事件，视频帧变化较大，聚类效果不明显。而“中国飞机飞临钓鱼岛”问题则相关视频的内容较为集中，聚类效果好。另外如NBA的话题，相关的视频特征较为复杂，人群、个体、特写镜头多样，然而在文本特征上能够表现较为集中的特征，因此聚类效果也较好。

第四步，话题跟踪

话题跟踪过程中，文本特征、视觉特征选择与话题检测过程类似，另外，本例子中话题检测过程中获得的话题簇将作为话题跟踪的话题模型，话题模型由相应的话题视频、视觉特征、文本特征构成。

对于话题跟踪过程，例子选取109个微博视频作为输入，跟踪其属于某个话题与否。话题跟踪的部分结果如表2所示，挑选图4中分属于不同的10个话题的视频展示其跟踪效果。

下表为10个话题视频的跟踪结果

Topic	#of Video	Precision	Main keywords
				1	8996	0.786	梁静茹，MTV，大手，小手
2	9012	0.797	快乐，大本营，爆笑，谢娜

3	9228	0.873	钓鱼岛，中国，飞机，日本
				4	9269	0.729	年终奖，钱，绩效，过年
5	9317	0.754	广东，毒打，女孩，死亡
				6	9456	0.792	银行卡，保底，归集，转账
7	9688	0.876	文明，埃及，四大，古老
				8	9910	0.832	微软，创意，广告，宣传
9	10151	0.886	NBA，篮球，火箭，赛事
				10	10369	0.795	2012，末日，灾难，玛雅人

综上所述，针对上述视频，我们可以利用本发明准确检测出或跟踪视频所属话题，达到了本发明的目的。

以上所述仅为本发明的较佳可行实施例，并非限制本发明的保护范围，凡运用本发明说明书及附图内容所作出的等效结构变化，均包含在本发明的保护范围内。

Claims

1.一种生成最优关系簇网路的视频聚类方法，其特征在于，包括：

a.获取待聚类视频的集合，并进一步获取与每个所述待聚类视频相适应的文本信息；

b.对每个所述待聚类视频，抽取视频特征，所述文本特征以及所述视觉特征组成所述待聚类视频的视频特征，其中，

所述抽取视频特征包括：

对所述待聚类视频的文本信息进行数据处理并抽取相应的文本特征；

对所述待聚类视频的视频数据进行分割并抽取所述待聚类视频的视觉特征；

c.根据所述待聚类视频的集合及其视频特征构造一N分图；

d.对所述待聚类视频的集合进行初始化聚类以获得初始的视频聚类以及初始的视频特征聚类，将初始化聚类获得的聚类中心添加到所述N分图中，作为隐藏结点，计算所述视频聚类与所述视频特征聚类之间的权重矩阵并形成初始的关系簇网络；

e.迭代更新所述文本特征、所述视频聚类、所述视频特征聚类以及所述关系簇网络，当此次迭代更新的关系簇网络与所述N分图的距离小于第一阈值时，则停止迭代以获得最优关系簇网络；以及

f.根据获得的最优关系簇网络进行聚类跟踪或视频检测，其中，

所述聚类跟踪包括：输入一视频特征，并与所述最优关系簇网络的视频特征聚类进行匹配，以获取属于与所述视频特征相适应的视频特征聚类的视频的集合；

所述视频检测包括：输入一视频，根据所述视频的文本特征与视觉特征与所述最优关系簇网络进行匹配和聚类以获得所述视频所属的视频特征聚类。

2.根据权利要求1所述的聚类方法，其特征在于，所述抽取所述文本信息的文本特征包括：

对所述文本信息进行分词；

利用词频-逆向文件频率加权法计算所述文本信息分词后每个词的文本权重；以及

将文本权重不小于第二阈值的词作为所述文本信息的关键词，其中，所述文本信息的文本特征包括所述关键词以及相应的文本权重。

3.根据权利要求2所述的聚类方法，其特征在于，所述文本权重根据如下公式计算并更新：

TFIDF_t=TF_t*log(N/DF_t)，

4.根据权利要求1所述的聚类方法，其特征在于，所述抽取所述待聚类视频的视觉特征包括：

分割所述待聚类视频的镜头，获取所述镜头变换的视频帧；

通过K-means聚类方法对所述视频帧根据颜色灰度值进行迭代聚类以获取第一个数个关键帧，所述视觉特征包括所述关键帧以及相适应的16维灰度值表示，其中，所述第一个数根据贝叶斯信息准则确定。

5.根据权利要求1所述的聚类方法，其特征在于，

所述N分图根据如下模型构造：

G = {V, {{S}^{n}}_{n = 1}^{N - 1}, E},

其中，V表示所述待聚类视频的集合，表示所述视频特征的集合，，E表示N分图中的边的集合，也就是所述待聚类视频与所述视频特征之间的边的集合，矩阵Mⁿ表示每条边上的权重，

所述关系簇网络根据如下模型构造：

G^{RCN} = {V, C^{v}, {{S}^{n}}_{n = 1}^{N - 1}, {{C}^{n}}_{n = 1}^{N - 1}, E^{RCN}},

其中，V表示所述待聚类视频的集合，C^v表示所述视频聚类的集合，表示所述视频特征的集合，，表示N-1个视频特征聚类的集合，E^RCN表示关系簇网络中的边，也就是所述待聚类视频与所述视频聚类之间的边、所述视频聚类与所述视频特征聚类之间的边、所述视频特征聚类与所述视频特征之间的边，

其中，边上的权重由权重矩阵进行表示：

W^v表示所述待聚类视频与所述视频聚类之间的边的权重，若一待聚类视频能聚类到一视频聚类，则所述待聚类视频与所述视频聚类之间的边上的权重为1；若一待聚类视频不能聚类到一视频聚类，则所述待聚类视频与所述视频聚类之间的边上的权重为0；

Wⁿ表示所述视频特征与所述视频特征聚类之间的边的权重，若一视频特征能聚类到一视频特征聚类，则所述视频特征与所述视频特征聚类之间的边上的权重为1；若一视频特征不能聚类到一视频特征聚类，则所述视频特征与所述视频特征聚类之间的边上的权重为0；

W^vn表示所述视频聚类与所述视频特征聚类之间的权重。

6.根据权利要求5所述的聚类方法，其特征在于，

所述更新所述视频特征聚类包括：

对于每个所述视频特征，将所述视频特征归入一视频特征聚类中，当所述N分图与当前关系簇网络之间的距离最小时，将所述视频特征归入相应的视频特征聚类之中，

更新所述视频聚类与所述视频特征聚类之间的权重矩阵；

所述更新所述待聚类视频聚类包括：

对于每个所述待聚类视频，将所述待聚类视频归入一视频聚类中，当所述N分图与当前关系簇网络之间的距离最小时，将所述待聚类视频归入相应的视频聚类之中，

更新所述视频聚类与所述视频特征聚类之间的权重矩阵。

7.根据权利要求6所述的聚类方法，其特征在于，所述视频聚类与所述视频特征聚类之间的权重矩阵根据如下公式计算和更新：

W_{pq}^{vn} = \frac{1}{| C_{p}^{v} | * | C_{q}^{n} |} \underset{v_{i} &Element; C_{p}^{v}, s_{j}^{n} &Element; C_{q}^{n}}{Σ} M_{ij}^{n}

8.根据权利要求7所述的聚类方法，其特征在于，所述N分图与所述关系簇网络之间的距离根据如下公式计算：

D (G, G^{RCN}) = \underset{1 \leq n \leq N - 1}{Σ} α_{n} * D (M^{n}, W^{v} W^{vn} W^{n})

9.根据权利要求1所述的聚类方法，其特征在于，步骤e之后还包括：

对所述最优关系簇网络中的所述视频聚类进行排序，其中，所述视频聚类基于热度进行排序，

对所述最优关系簇网络中每一视频聚类中的所述待聚类视频进行排序，其中，通过以下三种方式中的一种或多种进行排序：

基于时间的排序；

基于所述待聚类视频与其所述的视频聚类的相关度的排序；或者

基于热度的排序。

10.一种视频检测方法，其特征在于，包括：

A.获待检测视频，并进一步获取所述待检测视频相适应的文本信息；

B.对所述待检测视频，抽取所述文本信息的文本特征，抽取所述待检测视频的视觉特征，其中，所述文本特征以及所述视觉特征组成所述待检测视频的视频特征；

C.根据所述待检测视频及其视频特征更新根据权利要求1-9任一种所述的聚类方法生成的N分图以及相应的最优关系簇网络；

D.根据所述待检测视频初始化至与所述待检测视频距离最小的视频聚类，更新所述视频聚类与所述视频特征聚类之间的权重矩阵；以及

E.迭代更新所述文本特征、所述视频聚类、所述视频特征聚类以及所述关系簇网络，当此次迭代更新的关系簇网络与所述N分图的距离小于第三阈值时，则停止迭代以获得更新的最优关系簇网络并输出所述待检测视频所属的视频聚类。

11.根据权利要求10所述的检测方法，其特征在于，

所述N分图与关系簇网络的距离公式为：

D (G, G^{RCN}) = \underset{1 \leq n \leq N - 1}{Σ} α_{n} * D (M^{n}, W^{v} W^{vn} W^{n}) + \underset{1 \leq p \leq d_{cv}}{Σ} \underset{1 \leq τ \leq d_{τ}}{Σ} β_{τ} * D^{τ} (v_{i}, c_{p}^{v})

所述待检测视频与所述视频聚类的距离公式为：

D (v_{ρ}, c_{p}^{v}) = \underset{1 \leq n \leq N - 1}{Σ} α_{n} * D^{n} (v_{ρ}, c_{p}^{v}) \underset{1 \leq τ \leq d_{τ}}{Σ} β_{τ} * D^{τ} (v_{ρ}, c_{p}^{v})

其中，第τ种视频特征包括如下视频特征中的一种或多种：

基于用户反馈时间的视频特征；或者

基于用户反馈次数的视频特征。