CN107391510A

CN107391510A - 一种网络视频事件挖掘方法及系统

Info

Publication number: CN107391510A
Application number: CN201610324088.1A
Authority: CN
Inventors: 张承德
Original assignee: Zhongnan University Of Economics And Law; Tencent Technology Shenzhen Co Ltd
Current assignee: Zhongnan University Of Economics And Law; Tencent Technology Shenzhen Co Ltd
Priority date: 2016-05-16
Filing date: 2016-05-16
Publication date: 2017-11-24

Abstract

本发明实施例公开了一种网络视频事件挖掘方法，包括：从至少两个类型的多媒体信息中获取视觉信息和文本信息；对所述视觉信息和所述文本信息进行突发性特征挖掘，分别得到视觉突发特征信息和文本突发特征信息；分别计算每个文本突发特征信息在所有各个视觉突发特征信息中的分布权重；根据所述分布权重，通过多重对应分析模型进行训练测试，挖掘出网络视频事件。本发明还公开一种网络视频事件挖掘系统，采用本发明，能够更好的进行文本和视觉信息的融合，解决现有技术中文本信息中的噪声信息很容易扩散到视觉信息甚至起到误导的作用，从而降低了事件挖掘的效果的技术问题。

Description

一种网络视频事件挖掘方法及系统

技术领域

本发明涉及计算机领域，尤其涉及一种网络视频事件挖掘方法及系统。

背景技术

随着互联网技术的迅猛发展和计算机的普及，普通用户越来越容易从谷歌、百度、YouTube和优酷等视频分享网站上获得大量正在发生的事件的网络视频。另外，大量新闻媒体也越来越多的将大量网络视频放到他们的网站。这对普通用户能否快速从搜索引擎返回的海量网络视频中，掌握主要事件是一个挑战。网络视频事件挖掘是一个非常有意义的研究课题。

现有技术的网络视频事件挖掘包括三个部分：视频部分、文本部分以及通过视频和文本信息融合进行事件挖掘。视频部分，相似关键帧检测采用标准相似关键帧检测方法，并提取视觉特征；文本部分，通常针对独立的单词提取特征或采用标准的关联规则方法提取特征；视频和文本信息融合部分，通过文本和视频信息的融合弥补各自的缺陷实现更好的事件分类的目的。

这种网络视频事件挖掘框架，在文本和视觉特征融合过程中，充分利用了文本的语义信息和视觉的视频内容信息间的关系，有效提高了事件挖掘的有效性。但是另一方面，由于语义信息的使用，使得文本信息中的噪声信息很容易扩散到视觉信息甚至起到误导的作用，从而降低了事件挖掘的效果。

发明内容

本发明实施例所要解决的技术问题在于，提供一种网络视频事件挖掘方法及网络视频事件挖掘系统，能够更好的进行文本和视觉信息的融合，解决现有技术中文本信息中的噪声信息很容易扩散到视觉信息甚至起到误导的作用，从而降低了事件挖掘的效果的技术问题。

为了解决上述技术问题，本发明实施例第一方面公开了一种网络视频事件挖掘方法，包括

从至少两个类型的多媒体信息中获取视觉信息和文本信息；

对所述视觉信息和所述文本信息进行突发性特征挖掘，分别得到视觉突发特征信息和文本突发特征信息；

分别计算每个文本突发特征信息在所有各个视觉突发特征信息中的分布权重；

根据所述分布权重，通过多重对应分析模型进行训练测试，挖掘出网络视频事件。

结合第一方面，在第一种可能的实现方式中，通过以下公式计算每个文本突发特征信息在所有各个视觉突发特征信息中的分布权重：

其中，所述为第i个文本突发特征信息在第j个视觉突发特征信息中分布权重；所述F(i,j)为所述第i个文本突发特征信息在所述第j个视觉突发特征信息中出现的频率；所述∑N(j)为所述第j个视觉突发特征信息中出现的所有文本突发特征信息的频率；所述D(G_i)为包含所述第i个文本突发特征信息的视觉突发特征信息的数量；所述N为视觉突发特征信息的数量。

结合第一方面，在第二种可能的实现方式中，所述对所述视觉信息和所述文本信息进行突发性特征挖掘，包括通过特征轨迹挖掘，频繁模式挖掘、关联规则挖掘中的任意组合的挖掘方式进行突发性特征挖掘；其中，

所述特征轨迹挖掘、所述频繁模式挖掘对所述视觉信息和所述文本信息都进行挖掘；所述关联规则挖掘对所述文本信息进行挖掘。

结合第一方面，在第三种可能的实现方式中，所述根据所述分布权重，通过多重对应分析模型进行训练测试，挖掘出网络视频事件，包括：

对所述分布权重进行离散化处理，得到特征值对；并计算所述特征值对与网络视频事件的第一相似度；

根据所述分布权重和所述第一相似度，计算所述视觉突发特征信息与网络视频事件的第二相似度；

根据所述第二相似度挖掘出网络视频事件。

结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，所述计算所述特征值对与网络视频事件的第一相似度，包括：

将所述特征值对与网络视频事件映射到多维空间；

在所述多维空间中通过计算所述特征值对与所述网络视频事件的夹角，分析所述特征值对与所有网络视频事件的相关性，得到第一相似度。

结合第一方面，或者第一方面的第一种可能的实现方式，或者第一方面的第二种可能的实现方式，或者第一方面的第三种可能的实现方式，或者第一方面的第四种可能的实现方式，在第五种可能的实现方式中，所述挖掘出网络视频事件之后，还包括：

对挖掘出的网络视频事件进行事件间关系紧密度程度测量，得出各个网络视频事件的事件间关系紧密度程度信息。

结合第一方面的第五种可能的实现方式，在第六种可能的实现方式中，还包括：

根据所述各个网络视频事件的事件间关系紧密度程度信息，将同一话题的网络视频事件进行关联，并按照事件的发生时间顺序生成并展示事件发展结构信息。

结合第一方面的第六种可能的实现方式，在第七种可能的实现方式中，以图形化的方式展示所述事件发展结构信息；所述事件发展结构信息包括：

目标网络视频事件的缩略图、标注信息，以及当目标网络视频事件之间发生关系时的连接信息；其中，所述目标网络视频事件包括事件间关系紧密度程度大于预设程度的事件。

本发明实施例第二方面公开了一种网络视频事件挖掘系统，包括：

获取模块，用于从至少两个类型的多媒体信息中获取视觉信息和文本信息；

挖掘模块，用于对所述视觉信息和所述文本信息进行突发性特征挖掘，分别得到视觉突发特征信息和文本突发特征信息；

计算模块，用于分别计算每个文本突发特征信息在所有各个视觉突发特征信息中的分布权重；

训练测试模块，用于根据所述分布权重，通过多重对应分析模型进行训练测试，挖掘出网络视频事件。

结合第二方面，在第一种可能的实现方式中，所述计算模块通过以下公式计算每个文本突发特征信息在所有各个视觉突发特征信息中的分布权重：

结合第二方面，在第二种可能的实现方式中，所述挖掘模块对所述视觉信息和所述文本信息进行突发性特征挖掘，包括通过特征轨迹挖掘，频繁模式挖掘、关联规则挖掘中的任意组合的挖掘方式进行突发性特征挖掘；其中，

结合第二方面，在第三种可能的实现方式中，所述训练测试模块包括：

离散化单元，用于对所述分布权重进行离散化处理，得到特征值对；并计算所述特征值对与网络视频事件的第一相似度；

第一相似度计算单元，用于计算所述特征值对与网络视频事件的第一相似度；

第二相似度计算单元，用于根据所述分布权重和所述第一相似度，计算所述视觉突发特征信息与网络视频事件的第二相似度；

事件挖掘单元，用于根据所述第二相似度挖掘出网络视频事件。

结合第二方面的第三种可能的实现方式，在第四种可能的实现方式中，所述第一相似度计算单元包括：

映射单元，用于将所述特征值对与网络视频事件映射到多维空间模型；

计算分析单元，用于在所述多维空间中通过计算所述特征值对与所述网络视频事件的夹角，分析所述特征值对与所有网络视频事件的相关性，得到第一相似度。

结合第二方面，或者第二方面的第一种可能的实现方式，或者第二方面的第二种可能的实现方式，或者第二方面的第三种可能的实现方式，或者第二方面的第四种可能的实现方式，在第五种可能的实现方式中，还包括：

紧密度测量模块，用于在所述训练测试模块挖掘出网络视频事件之后，对挖掘出的网络视频事件进行事件间关系紧密度程度测量，得出各个网络视频事件的事件间关系紧密度程度信息。

结合第二方面的第五种可能的实现方式，在第六种可能的实现方式中，还包括：

关联生成模块，用于根据所述各个网络视频事件的事件间关系紧密度程度信息，将同一话题的网络视频事件进行关联，并按照事件的发生时间顺序生成并展示事件发展结构信息。

结合第二方面的第六种可能的实现方式，在第七种可能的实现方式中，所述关联生成模块以图形化的方式展示所述事件发展结构信息；所述事件发展结构信息包括：

本发明实施例第三方面公开了一种计算机存储介质，所述计算机存储介质存储有程序，所述程序执行时包括本发明实施例第一方面、或者第一方面的第一种可能的实现方式，或者第一方面的第二种可能的实现方式，或者第一方面的第三种可能的实现方式，或者第一方面的第四种可能的实现方式，或者第一方面的第五种可能的实现方式，或者第一方面的第六种可能的实现方式，或者第一方面的第七种可能的实现方式中的网络视频事件挖掘方法的全部步骤。

实施本发明实施例，通过从至少两个类型的多媒体信息中获取视觉信息和文本信息，分别挖掘出视觉突发特征信息和文本突发特征信息；计算每个文本突发特征信息在所有各个视觉突发特征信息中的分布权重；根据该分布权重，通过多重对应分析模型进行训练测试，挖掘出网络视频事件；能够更好的进行文本和视觉信息的融合，解决现有技术中文本信息中的噪声信息很容易扩散到视觉信息甚至起到误导的作用，从而降低了事件挖掘的效果的技术问题；而且，本发明通过研究不同类型多媒体数据间的关系，充分利用不同类型多媒体间的视觉内容相关性、文本语意相关性以及文本与视觉信息间的关系，甚至可以利用社交关系更深入且准确的挖掘事件间关系。另外，可以通过特征轨迹挖掘，频繁模式挖掘、关联规则挖掘以及多重对应分析模型等多个角度对不同类型数据的特点进行分析和对比，遵循数据和方法优缺点互补的原则，不仅可以充分利用不同数据的优点来弥补其它数据自身的缺陷，而且利用了更加合理的方法将多种特征有机融合在一起进行事件挖掘。还有，本发明实施例还可以对挖掘出的网络视频事件进行事件间关系紧密度程度测量，从而得到对同一话题的多个网络核心事件，并可以按时间流顺序并行展示，并在某个时间点核心事件间发生关系时，进行一定程度的标注与连接，并展示有网络核心事件的缩略图，从而使得复杂的事情更简单的明了的表达出来，使用户能够从整体上真正把握事件的起因、发生、发展和消亡的过程，进一步增加了网络事件挖掘的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的网络视频事件挖掘方法的流程示意图；

图2是本发明实施例提供的二维空间的示意图；

图3是本发明实施例提供的突发区间检测的结果示意图；

图4是本发明提供的网络视频事件挖掘方法的另一实施例的流程示意图；

图5是本发明实施例提供的事件发展结构的示意图；

图6是本发明实施例提供的网络视频事件挖掘的框架原理示意图；

图7是本发明提供的网络视频事件挖掘系统的结构示意图；

图8是本发明实施例提供的训练测试模块的结构示意图；

图9是本发明提供的网络视频事件挖掘系统的另一实施例的结构示意图；

图10是本发明提供的网络视频事件挖掘系统的另一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1示出的本发明实施例提供的网络视频事件挖掘方法的流程示意图，该方法包括：

步骤S100：从至少两个类型的多媒体信息中获取视觉信息和文本信息；

具体地，本发明实施例进行网络视频事件挖掘的系统、设备或装置(下面以系统作为统称来描述)可以通过网络获取文本、图片以及视频等不同类型的多媒体信息(即跨媒体信息)，可理解的是，文本包含文本信息、图片和视频包含视觉信息。系统通过研究不同类型多媒体数据间的关系，充分利用了不同类型多媒体间的视觉内容相关性、文本语意相关性以及文本与视觉信息间的关系，甚至可以利用社交关系更深入且准确的挖掘事件间关系。

步骤S102：对所述视觉信息和所述文本信息进行突发性特征挖掘，分别得到视觉突发特征信息和文本突发特征信息；

具体地，本发明实施例中系统可以通过特征轨迹、频繁模式挖掘或关联规则挖掘等方式，对该视觉信息和该文本信息进行突发性特征挖掘，分别得到视觉突发特征信息和文本突发特征信息。

步骤S104：分别计算每个文本突发特征信息在所有各个视觉突发特征信息中的分布权重；

具体地，系统可以通过以下公式计算每个文本突发特征信息在所有各个视觉突发特征信息中的分布权重：

其中，所述为第i个文本突发特征信息在第j个视觉突发特征信息中分布权重；所述F(i,j)为所述第i个文本突发特征信息在所述第j个视觉突发特征信息中出现的频率；所述∑N(j)为所述第j个视觉突发特征信息中出现的所有文本突发特征信息的频率；所述D(G_i)为包含所述第i个文本突发特征信息的视觉突发特征信息的数量；所述N为视觉突发特征信息的数量。如下表1所示：

	文本信息1	…	文本信息N	事件
					视觉信息1	NT₁ ¹	…	NT₁ ^N	0
视觉信息2	NT₂ ¹	…	NT₂ ^N	1
					…	…	…	…	…

表1

可以统计出不同类型数据的分布特征，该视觉信息可以为视觉近似关键帧/图片，那么通过步骤S104可以得出不同文本信息在各个视觉近似关键帧/图片中的TFIDF值TFIDF值利用了文本信息在视觉信息中的分布特征，可以建立语义信息和视觉内容信息间的关系。

步骤S106：根据所述分布权重，通过多重对应分析模型进行训练测试，挖掘出网络视频事件。

具体地，系统根据该分布权重，通过多重对应分析模型进行训练测试，从而建立了跨媒体文本与视觉信息间的桥梁，实现了通过跨媒体文本与视觉信息融合的方式进行网络事件挖掘。

进一步地，多重对应分析是对标准对应分析的扩展，可以计算表格中两个以上变量的相关性。本发明实施例通过多重对应分析模型，可以计算文本信息与事件间的相关性，从而得出视觉信息与事件间的相关性。以文本信息为单词，视觉信息为视觉近似关键帧为例进行说明，首先，如上述表1的单词与视觉近似关键帧间的二维对应关系，可以利用怀卡托智能分析环境(WaikatoEnvironment for Knowledge Analysis，WEKA)的方法将每个文本突发特征信息(即每个单词特征)在所有各个视觉突发特征信息中的分布权重进行离散化，并将每个单词特征分成几个特征值对，并训练多重对应分析模型，那么可以直接使用多重对应分析计算每个单词特征的所有特征值对与每个事件的相关度，其中，离散化后的训练集如表2所示：

Feature 1	Feature 2	Feature 3	…	Feature m
					F¹ ₁	F¹ ₂	F¹ ₃	…	F¹ _m
F² ₁	F² ₂	F² ₃	…	F² _m
					…	…	…	…	…

表2

假设，第s个特征有j_s个特征值对，有n个事件和m个视觉近似关键帧。然后，指针矩阵可以表示为Z，大小为m*(j_s+n)。此矩阵可以用来计算特征值对与事件间的相关度。多重对应分析可以计算指针矩阵的奇异值，即ZTZ称为Burt table，其大小为(j_s+n)*(j_s+n)。然后用奇异值分解(Singular ValueDecomposition，SVD)变换来计算协矩阵，对Burt矩阵进行中心定位和归一化。特征值对和事件间的关系可以映射到多维空间。

多重对应分析可以形象化为对称图，其中特征值对和事件可以可视化为图中的点，事件的个数越多，维度越高。通过在该多维空间中计算特征值对与网络视频事件的角度，即可得出特征值对与网络视频事件的相似度(本发明实施例中特征值对与网络视频事件的相似度统一称作第一相似度)；具体地，特征值对与事件间的相关度就可以量化为特征值对与事件间的角度的余弦值。例如，以多维空间为二维空间为例，图2示出的本发明实施例提供的二维空间的示意图，单词的特征F_i被分成了4个特征值对：F¹ _i,F² _i,F³ _i和F⁴ _i，以及两个事件E₁(正分类)和E₂(负分类)。angle¹ _il则指特征值对F¹ _i与事件E₁间的夹角。如果两者之间的夹角越小，即余弦值越大，那么它们的相关度就越高。所以多重对应分析可用来计算特征值对F^j _i与事件E_n间的相似度。具体计算公式如下：

其中，指特征值对F^j _i与事件E_n间的角度。如果角度小于90度，那么F^j _i与E_n有较强的相关度。它们之间的角度的余弦值可作为该特征值对属于事件E_n的概率。然后，根据步骤S104中分布权重(即表1)和该第一相似度，可以计算视觉突发特征信息与网络视频事件的相似度(本发明实施例中视觉突发特征信息与网络视频事件的相似度统一称作第二相似度)；具体地，步骤S104中分布权重可以获取该特征值对在各个视觉突发特征信息的分布情况，那么视觉近似关键帧k与事件E_n间的相似度可以通过计算视觉近似关键帧中出现的所有的特征值对的平均值得到，其计算公式如下：

其中，Wⁿ _i,j为特征值对F^j _i与事件E_n间的相似度，m为视觉近似关键帧k中出现的特征值对的个数。最后，在得到每一个视觉近似关键帧与所有事件间的相似度后，按相似度大小降序排列，其中相邻两个相似度的差的最大值处为分界线，高于这个相似度的视为有效信息；通过有效信息即可挖掘出网络视频事件。

因此，通过步骤S106，系统根据该分布权重，通过多重对应分析模型进行训练测试，能够更好的进行文本和视觉信息的融合，解决现有技术中文本信息中的噪声信息很容易扩散到视觉信息甚至起到误导的作用，从而降低了事件挖掘的效果的技术问题。

进一步地，步骤S102对该视觉信息和该文本信息进行突发性特征挖掘之前，还可以先进行突发区间检测：

具体地，每个事件话题主要集中发生在一段时间内，要想从这些搜索结果中挖掘事件，根据视频的上传时间定位话题的爆发区间，计算公式可以如下所示：

其中，|V_j|表示在时间t_j内上传的网络视频数量，n是天数。α和w分别用来控制波峰时间和滑动窗口的大小。例如，在图3示出的本发明实施例提供的突发区间检测的结果示意图中，在2008年3月14日观察到报道数量明显增多，暗示有事件大量发生。那么。步骤S100即可以只针对该突发区间时间来获取至少两个类型的多媒体信息，并从中获取视觉信息和文本信息。

需要说明的是，本发明实施例在进行突发区间检测后，为了减少噪声对文本和视觉部分的影响，还可以包括对数据进行预处理，具体地：针对视频信息，可以提取视觉近似关键帧。对于视频数据集，为了确保视频间相似关键帧检测的准确性，首先，可以采用SIFT特征中的Harris-Laplace方法进行局部特征点提取。其次，可以通过公用工具进行相似关键帧的检测，得到相似关键帧集。最后，可以利用相似关键帧集间的相关性信息，通过传递闭包进一步聚类，形成“相似关键帧集”。由于“相似关键帧集”具有识别相似事件的独特特点，因此，所有“相似关键帧集”都被认为是有效信息；针对文本信息，可以从视频的标题和标签中提取的单词作为文本信息。由于用户提供的文本信息比较嘈杂。首先，可以去除无效的特殊字符(如#,？,-)，然后可以通过词干提取对文本信息进行净化，并进行中文分词等处理。

在完成了数据预处理后，可以执行步骤S102的对该视觉信息和该文本信息进行突发性特征挖掘的步骤。

再进一步地，本发明实施例的步骤S102对该视觉信息和该文本信息进行突发性特征挖掘，包括通过特征轨迹挖掘，频繁模式挖掘、关联规则挖掘中的任意组合的挖掘方式进行突发性特征挖掘；其中，该特征轨迹挖掘、该频繁模式挖掘对该视觉信息和该文本信息都进行挖掘；该关联规则挖掘对该文本信息进行挖掘。具体地，分别说明本发明实施例中的特征轨迹挖掘，频繁模式挖掘、关联规则挖掘：

1、特征轨迹是信息检索领域中的一种统计方法，用以评价特征的权重随时间变化的分布情况。我们根据df-idf来定义不同媒体所挖掘的特征在时间轴上的分布情况并进行跟踪，形成突发性特征的时间序列，称之为突发性特征轨迹：

其中df_i(t)是在第t天包括特征f_i的视频数目，df_i是在整个时间段里包含特征f_i的视频数，N(t)是在第t天的视频数，N是整个时间段内总的视频数目。特征f_i的轨迹则可以由如下序列表示：

yf＝[yf(1),yf(2),...,yf(T)]

本发明实施例通过特征轨迹来进行视觉信息和文本信息的突发性特征挖掘，可以利用多种来源的文本与视觉突发性特征轨迹的个性、差异性以及它们间各自的优缺点和互补特性，以便更准确的挖掘核心事件。

2、关于频繁模式挖掘，可以通过向量空间模型或概率模型来进行，而这些项目集中潜在的包含事件信息。其中，共同发生计算公式如下：

对于文本信息，M_i是包含特征f_i的文档集合。给定两个特征f_i和f_j，同时包含特征f_i和f_j的文档集为M_i∩M_j。一个高的共存性估值d(f_i,f_j)表明这两个特征之间有高的相关性和依存性。

3、关于关联规则挖掘，假设T是一系列单词T＝<T₁,T₂,T₃,…,T_n>，本发明实施例可以探索动态关联规则挖掘不同长度的项目集。对于任意两个单词T_i和T_j，如果它们共同出现的视频数越多，则说明它们的相关性越强，支持度计算公式如下：

其中，|T_i∩T_j|指单词T_i和T_j共同包含的视频数，Min(|T_i|,|T_j|)指单词T_i或T_j中包含的最少的视频数。

综上所述，以上三种挖掘方法分别从不同角度提供了潜在信息，但任何一种方法可能均无法产生完美效果，然而以上方法的融合可能从更广泛的角度得出更好的结论，例如可以先进行视觉信息和文本信息的频繁模式挖掘，再进行视觉信息和文本信息的特征轨迹挖掘；或者进行视觉信息和文本信息的特征轨迹挖掘和进行文本信息的关联规则挖掘；又或者既进行视觉信息和文本信息的频繁模式挖掘、进行视觉信息和文本信息的特征轨迹挖掘，又进行文本信息的关联规则挖掘；等等。本发明实施例通过特征轨迹挖掘，频繁模式挖掘、关联规则挖掘中的任意组合的挖掘方式进行突发性特征挖掘，可以充分利用不同类型媒体中不同策略的优越性和互补性，以及这些特性对事件挖掘性能的影响，最终通过以上特征的融合进行事件挖掘。

例如对于单词music和song是语义比较相近的单词，由于表达习惯，一部分人用music来表达某事件中播放的主题曲，而另一部分人则用song来描述具体的歌词或歌曲的名字。另外，由于不同的数据来源表达方式不同，有的用文字来描述主题曲的内容，有的数据则通过图像或视频并加以简单的文字来描述主题歌的内容。由于music、song和相关的图像或视频信息间具有很强的相关性和差异性，因此多种特征的融合可以有效的将语义关系较强的相关信息聚在一起，从而更利于事件的挖掘，以及事件间关系的分析。不仅将尽量多的相关单词聚集在一起增加语义信息的鲁棒性，同时尽量少的将相关性较弱的单词作为噪声去除，达到了阻止文本噪声传播和稳定文本信息在视觉近似关键帧中的分布特征的目的。

再进一步地，如图4示出的本发明提供的网络视频事件挖掘方法的另一实施例的流程示意图，该方法包括：

步骤S400：从至少两个类型的多媒体信息中获取视觉信息和文本信息；

步骤S402：对所述视觉信息和所述文本信息进行突发性特征挖掘，分别得到视觉突发特征信息和文本突发特征信息；

步骤S404：分别计算每个文本突发特征信息在所有各个视觉突发特征信息中的分布权重；

步骤S406：根据所述分布权重，通过多重对应分析模型进行训练测试，挖掘出网络视频事件；

步骤S408：对挖掘出的网络视频事件进行事件间关系紧密度程度测量，得出各个网络视频事件的事件间关系紧密度程度信息；

具体地，

事件间关系紧密程度测量以F1来衡量，其中F1计算公式如下：

其中，|B_i ⁺|指在得到的类A_i中正确的视频个数，B_i分别指真实的分类中A_i这个事件所包含的视频数。

由于F1同时考虑了精确度和覆盖率的影响更有具有代表性也是标准的评价标准，因此采用F1的值来对事件间关系紧密程度进行评价。

步骤S410：根据所述各个网络视频事件的事件间关系紧密度程度信息，将同一话题的网络视频事件进行关联，并按照事件的发生时间顺序生成并展示事件发展结构信息。

具体地，本发明实施例可以以图形化的方式展示所述事件发展结构信息，如图5示出的本发明实施例提供的事件发展结构的示意图，按照事件的发生时间顺序的事件发展结构信息可以包括：目标网络视频事件的缩略图、标注信息，以及当目标网络视频事件之间发生关系时的连接信息；其中，该目标网络视频事件包括事件间关系紧密度程度大于预设程度的事件。如图5中，按照事件的发生时间顺序生成并展示各个事件的发展，缩略图可以为紧密程度最好的，最具有代表性的视频中的某一关键帧；图5中“日本政府派船登岛”、“抗日游行”等文字描述即为针对缩略图的标识信息，缩略图之间存在连接线(即连接信息)的，即为发生关系的目标网络视频事件。

下面，结合图6示出的本发明实施例提供的网络视频事件挖掘的框架原理示意图，进一步描述本发明实施例的网络视频事件挖掘方法：

首先，通过网络获取在突发区间时间的文本、图片以及视频等跨媒体信息；其次，经数据预处理后，通过特征轨迹挖掘，频繁模式挖掘、关联规则挖掘中的任意组合的挖掘方式进行突发性特征挖掘，分别挖掘不同类型文本和视觉信息的突发性特征；然后，充分利用跨媒体文本与视觉突发性特征的共性、差异性和互补性，并利用其互补特性将跨媒体信息有机结合或融合在一起进行事件挖掘；最终，以图形化方式展示事件发展结构，使搜索结果一目了然。

为了便于更好地实施本发明实施例的上述方案，本发明还对应提供了一种网络视频事件挖掘系统，如图7示出的本发明提供的网络视频事件挖掘系统的结构示意图，网络视频事件挖掘系统70包括：获取模块700、挖掘模块702、计算模块704和训练测试模块706，其中，

获取模块700用于从至少两个类型的多媒体信息中获取视觉信息和文本信息；

挖掘模块702用于对所述视觉信息和所述文本信息进行突发性特征挖掘，分别得到视觉突发特征信息和文本突发特征信息；

计算模块704用于分别计算每个文本突发特征信息在所有各个视觉突发特征信息中的分布权重；

训练测试模块706用于根据所述分布权重，通过多重对应分析模型进行训练测试，挖掘出网络视频事件。

具体地，计算模块704可以通过以下公式计算每个文本突发特征信息在所有各个视觉突发特征信息中的分布权重：

其中，该为第i个文本突发特征信息在第j个视觉突发特征信息中分布权重；该F(i,j)为该第i个文本突发特征信息在该第j个视觉突发特征信息中出现的频率；该∑N(j)为该第j个视觉突发特征信息中出现的所有文本突发特征信息的频率；该D(G_i)为包含该第i个文本突发特征信息的视觉突发特征信息的数量；该N为视觉突发特征信息的数量。

进一步地，本发明实施例的挖掘模块702对该视觉信息和该文本信息进行突发性特征挖掘，包括通过特征轨迹挖掘，频繁模式挖掘、关联规则挖掘中的任意组合的挖掘方式进行突发性特征挖掘；其中，

该特征轨迹挖掘、该频繁模式挖掘对该视觉信息和该文本信息都进行挖掘；该关联规则挖掘对该文本信息进行挖掘。

再进一步地，如图8示出的本发明实施例提供的训练测试模块的结构示意图，训练测试模块706可以包括：离散化单元7060、第一相似度计算单元7062、第二相似度计算单元7064和事件挖掘单元7066，其中，

离散化单元7060用于对该分布权重进行离散化处理，得到特征值对；并计算该特征值对与网络视频事件的第一相似度；

第一相似度计算单元7062用于计算所述特征值对与网络视频事件的第一相似度；

第二相似度计算单元7064用于根据所述分布权重和所述第一相似度，计算所述视觉突发特征信息与网络视频事件的第二相似度；

事件挖掘单元7066用于根据所述第二相似度挖掘出网络视频事件。

具体地，第一相似度计算单元7062还可以包括：映射单元70620和计算分析单元70622，其中，

映射单元70620用于将所述特征值对与网络视频事件映射到多维空间模型；

计算分析单元70622用于在所述多维空间中通过计算所述特征值对与所述网络视频事件的夹角，分析所述特征值对与所有网络视频事件的相关性，得到第一相似度。

再进一步地，如图9示出的本发明提供的网络视频事件挖掘系统的另一实施例的结构示意图，网络视频事件挖掘系统70包括获取模块700、挖掘模块702、计算模块704和训练测试模块706外，还可以包括紧密度测量模块708和关联生成模块7010，其中，

紧密度测量模块708用于在训练测试模块706挖掘出网络视频事件之后，对挖掘出的网络视频事件进行事件间关系紧密度程度测量，得出各个网络视频事件的事件间关系紧密度程度信息。

关联生成模块7010用于根据该各个网络视频事件的事件间关系紧密度程度信息，将同一话题的网络视频事件进行关联，并按照事件的发生时间顺序生成并展示事件发展结构信息。

具体地，关联生成模块7010可以以图形化的方式展示该事件发展结构信息；该事件发展结构信息包括：目标网络视频事件的缩略图、标注信息，以及当目标网络视频事件之间发生关系时的连接信息；其中，该目标网络视频事件包括事件间关系紧密度程度大于预设程度的事件。

请参阅图10，图10是本发明提供的网络视频事件挖掘系统的另一实施例的结构示意图。其中，如图10所示，网络视频事件挖掘系统100可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002以及显示屏1006。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储系统。如图10所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及网络视频事件挖掘程序。

在图10所示的网络视频事件挖掘系统100中处理器1001可以用于调用存储器1005中存储的网络视频事件挖掘程序，并执行以下操作：

分别训练N个身份因子I-Vector矩阵，得到N个I-Vector矩阵；该N为大于1的自然数；

从至少两个类型的多媒体信息中获取视觉信息和文本信息；

对该视觉信息和该文本信息进行突发性特征挖掘，分别得到视觉突发特征信息和文本突发特征信息；

根据该分布权重，通过多重对应分析模型进行训练测试，挖掘出网络视频事件。

具体地，处理器1001可以通过以下公式计算每个文本突发特征信息在所有各个视觉突发特征信息中的分布权重：

具体地，处理器1001对该视觉信息和该文本信息进行突发性特征挖掘，包括通过特征轨迹挖掘，频繁模式挖掘、关联规则挖掘中的任意组合的挖掘方式进行突发性特征挖掘；其中，

具体地，处理器1001根据所述分布权重，通过多重对应分析模型进行训练测试，挖掘出网络视频事件，可以具体包括：

对每个文本突发特征信息进行离散化处理，得到特征值对；并计算所述特征值对与网络视频事件的第一相似度；

根据所述第二相似度挖掘出网络视频事件。

具体地，处理器1001计算所述特征值对与网络视频事件的第一相似度，可以具体包括：

将所述特征值对与网络视频事件映射到二维空间模型；

通过在所述二维空间模型中计算所述特征值对与所述网络视频事件的角度，得出所述特征值对与网络视频事件的第一相似度。

具体地，处理器1001在挖掘出网络视频事件之后，还可以执行：

具体地，处理器1001还可以执行：

根据该各个网络视频事件的事件间关系紧密度程度信息，将同一话题的网络视频事件进行关联，并按照事件的发生时间顺序生成并通过显示屏1006展示事件发展结构信息。

具体地，处理器1001可以控制显示屏1006以图形化的方式展示该事件发展结构信息；该事件发展结构信息包括：目标网络视频事件的缩略图、标注信息，以及当目标网络视频事件之间发生关系时的连接信息；其中，该目标网络视频事件包括事件间关系紧密度程度大于预设程度的事件。

需要说明的是，本发明实施例中的网络视频事件挖掘系统70或网络视频事件挖掘系统100可以为个人计算机或移动智能终端、平板电脑等电子终端；网络视频事件挖掘系统70或网络视频事件挖掘系统100中各功能模块的功能可根据上述方法实施例中的方法具体实现，这里不再赘述。

综上所述，实施本发明实施例，通过从至少两个类型的多媒体信息中获取视觉信息和文本信息，分别挖掘出视觉突发特征信息和文本突发特征信息；计算每个文本突发特征信息在所有各个视觉突发特征信息中的分布权重；根据该分布权重，通过多重对应分析模型进行训练测试，挖掘出网络视频事件；能够更好的进行文本和视觉信息的融合，解决现有技术中文本信息中的噪声信息很容易扩散到视觉信息甚至起到误导的作用，从而降低了事件挖掘的效果的技术问题；而且，本发明通过研究不同类型多媒体数据间的关系，充分利用不同类型多媒体间的视觉内容相关性、文本语意相关性以及文本与视觉信息间的关系，甚至可以利用社交关系更深入且准确的挖掘事件间关系。另外，可以通过特征轨迹挖掘，频繁模式挖掘、关联规则挖掘以及多重对应分析模型等多个角度对不同类型数据的特点进行分析和对比，遵循数据和方法优缺点互补的原则，不仅可以充分利用不同数据的优点来弥补其它数据自身的缺陷，而且利用了更加合理的方法将多种特征有机融合在一起进行事件挖掘。还有，本发明实施例还可以对挖掘出的网络视频事件进行事件间关系紧密度程度测量，从而得到对同一话题的多个网络核心事件，并可以按时间流顺序并行展示，并在某个时间点核心事件间发生关系时，进行一定程度的标注与连接，并展示有网络核心事件的缩略图，从而使得复杂的事情更简单的明了的表达出来，使用户能够从整体上真正把握事件的起因、发生、发展和消亡的过程，进一步增加了网络事件挖掘的效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种网络视频事件挖掘方法，其特征在于，包括：

从至少两个类型的多媒体信息中获取视觉信息和文本信息；

2.如权利要求1所述的方法，其特征在于，通过以下公式计算每个文本突发特征信息在所有各个视觉突发特征信息中的分布权重：

<mrow> <msubsup> <mi>NT</mi> <mi>j</mi> <mi>i</mi> </msubsup> <mo>=</mo> <mfrac> <mrow> <mi>F</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>&Sigma;</mi> <mi>N</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>&times;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mi>N</mi> <mrow> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>G</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

3.如权利要求1所述的方法，其特征在于，所述对所述视觉信息和所述文本信息进行突发性特征挖掘，包括通过特征轨迹挖掘，频繁模式挖掘、关联规则挖掘中的任意组合的挖掘方式进行突发性特征挖掘；其中，

4.如权利要求1所述的方法，其特征在于，所述根据所述分布权重，通过多重对应分析模型进行训练测试，挖掘出网络视频事件，包括：

根据所述第二相似度挖掘出网络视频事件。

5.如权利要求4所述的方法，其特征在于，所述计算所述特征值对与网络视频事件的第一相似度，包括：

将所述特征值对与网络视频事件映射到多维空间；

6.如权利要求1-5任一项所述的方法，其特征在于，所述挖掘出网络视频事件之后，还包括：

7.如权利要求6所述的方法，其特征在于，还包括：

8.如权利要求7所述的方法，其特征在于，以图形化的方式展示所述事件发展结构信息；所述事件发展结构信息包括：

9.一种网络视频事件挖掘系统，其特征在于，包括：

10.如权利要求9所述的系统，其特征在于，所述计算模块通过以下公式计算每个文本突发特征信息在所有各个视觉突发特征信息中的分布权重：

11.如权利要求9所述的系统，其特征在于，所述挖掘模块对所述视觉信息和所述文本信息进行突发性特征挖掘，包括通过特征轨迹挖掘，频繁模式挖掘、关联规则挖掘中的任意组合的挖掘方式进行突发性特征挖掘；其中，

12.如权利要求9所述的系统，其特征在于，所述训练测试模块包括：

13.如权利要求12所述的系统，其特征在于，所述第一相似度计算单元包括：

14.如权利要求9-13任一项所述的系统，其特征在于，还包括：

15.如权利要求14所述的系统，其特征在于，还包括：

16.如权利要求15所述的系统，其特征在于，所述关联生成模块以图形化的方式展示所述事件发展结构信息；所述事件发展结构信息包括：