CN102982110A

CN102982110A - 在物理空间上提取网络空间热点事件信息的方法

Info

Publication number: CN102982110A
Application number: CN2012104430724A
Authority: CN
Inventors: 徐常胜; 鲍秉坤
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2012-11-08
Filing date: 2012-11-08
Publication date: 2013-03-20
Anticipated expiration: 2032-11-08
Also published as: CN102982110B

Abstract

本发明公开了一种在物理空间上提取网络空间热点事件信息的方法，包括如下步骤：S1、在网络空间中提取热点事件关键词集；S2、对所述来自网络空间的热点事件关键词集和来自物理空间的数据集进行协同聚类；S3、根据所述协同聚类的聚类结果提取物理空间中与热点事件相关的信息样本。本发明利用物理空间和网络空间的信息样本的关联性与互补性，解决了检索物理空间中与网络空间热点事件相关的信息样本，为网络热点事件的言论提供物理空间关联信息作为参考依据，不仅可以让用户快速、全面地了解热点事件的相关信息，同时也增强了用户对不良信息和谣言的辨别能力。

Description

在物理空间上提取网络空间热点事件信息的方法

技术领域

本发明属于数字信息处理技术领域，具体涉及与网络多媒体信息相关的数字信息处理，特别是基于多源异质媒体集的协同聚类的在物理空间上提取网络空间热点事件信息的方法。

背景技术

随着信息技术的发展和互联网的普遍应用，越来越多的人习惯于在网络上分享新闻、发表个人见解、讨论热门话题，甚至记录日常生活琐屑。网络空间数据是指在互联网上共享的各类社会感知数据，包括用户共享的文本、图像、视频、音频等多媒体数据。由于快速、便捷、普遍等特点，互联网络已经成为人们获取信息的一个重要途径。然而事物总有其两面性，用户在网络上的正当行为可以促使进步、健康、有益的正面信息在网络空间中传播，而不当行为可能散布反动、迷信、低级的具有误导性或危害性的言论。不当行为甚至可能将进一步误导舆论或者妨碍到公共安全。

相对于网络空间，物理空间中的数据主要指能够反映真实物理存在的信息数据，包括新闻、监控视频以及原始照片等。可见，来源于确定的物理空间的信息较为可信、真实，有助于用户辨别来自网络空间的信息的真实性和可靠性。因此研究如何在物理空间中提取网络空间的热点事件信息的方法是非常必要和迫切的。

但是在目前的研究中，网络空间数据的舆情性和物理空间数据的真实性，并没有得到很好的重视和利用。现有方法多数局限于只在单一空间上分析数据，例如对网络空间的热点信息的分析，以及对物理空间数据的异常检测。而针对物理空间和网络空间数据的交互和融合，还没有系统的研究工作。

此外，目前对于热点事件的言论及其相关信息的挖掘，现有方法主要是采用有效的数据集上进行聚类的方法，比如基于谱的分割方法(spectralgraph partition)、k均值聚类(K-means)等，但这些方法都局限于在单一媒体集上。

发明内容

(一)要解决的技术问题

本发明需要解决的技术问题主要为：如何利用多源异质数据集之间语义关联，发现网络空间热点事件在物理空间中最为相关的信息样本，以在物理空间上提取网络空间热点事件信息，从而帮助用户甄别网络空间中信息的真实性。

(二)技术方案

为了解决上述技术问题，本发明提出了一种在物理空间上提取网络空间热点事件信息的方法，包括如下步骤：S1、在网络空间中提取热点事件关键词集；S2、对所述来自网络空间的热点事件关键词集和来自物理空间的数据集进行协同聚类；S3、根据所述协同聚类的聚类结果提取物理空间中与热点事件相关的信息样本。

其中步骤S1可以包括：对热点事件的每个关键词进行分析，根据每个关键词在各个时间间隔上的突发程度，赋予其不同的突发指数，以此在每个时间间隔上返回一组突发程度较高的关键词集。

其中步骤S2包括：S21、计算物理空间中的多源异质信息样本的语义关联度；S22、根据所述热点事件关键词对物理空间中的多源异质数据集进行协同聚类。

返回到第S222步。

其中步骤S3包括：S31、返回物理空间各个数据集中与指定热点事件相关度最高的若干个聚类，其中相关度最高的若干个聚类可以由联合概率大于给定阈值来确定；S32、在各个数据集返回的聚类上，计算其中的每个样本与热点事件的相似度；S33、每个数据集返回相关度最大的指定个样本作为最终的结果。

(三)有益效果

本发明利用物理空间和网络空间的信息样本的关联性与互补性，提出了多源异质数据集的协同聚类方法，解决了检索物理空间中与网络空间热点事件相关的信息样本，为网络热点事件的言论提供物理空间关联信息作为参考依据，不仅可以让用户快速、全面地了解热点事件的相关信息，同时也增强了用户对不良信息和谣言的辨别能力。

本发明通过计算信息样本间的文本、图片、视频等多媒体信息的相关性，极大地提高了聚类和样本检索的准确性。

附图说明

图1示出了来自网络空间的热点事件关键词集与来自物理空间的照片集、视频集、新闻集之间的关系；

图2是本发明所提出的在物理空间上提取网络空间热点事件信息的方法的示意图；

图3是本发明采用的基于信息理论(Information Theoretic)的聚类方法求解一般化结构的协同聚类问题的示意图；

图4示出了本发明的一个实施例在各个时间间隔里提取的前15个热点关键词和突发指数；

图5示出了本发明的一个实施例挖掘出来的网络空间热点事件列表；

图6示出了本发明的一个实施例第一周中与各个热点事件相关的物理空间的信息样本。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

如前所述，在本发明中，网络空间数据是指在互联网上，共享的各类社会感知数据，包括用户共享的文本、图像、视频、音频等多媒体数据，物理空间中的数据主要指能够反映真实物理存在的信息数据，包括新闻、监控视频以及原始照片等。

为了有效地挖掘网络空间的热点事件，同时发现物理空间中与之相关的样本信息，本发明提出多源异质数据集的协同聚类的方法。这一方法与传统的聚类技术比较，具有普遍性，且更适合于当前比较热门的微博平台。

多源异质数据集的协同聚类方法考虑来自不同源数据集样本的跨源跨媒体相关性，利用物理空间与网络空间信息的关联性和互补性，对所有数据源数据进行同时聚类。在本发明中，所涉及到的多源异质数据集包括从网络空间检测到的热点事件关键词集，也包括来自物理空间的照片集、视频集和新闻集。

图1示出了来自网络空间的热点事件关键词集与来自物理空间的照片集、视频集、新闻集之间的关系，如图1所示，物理空间与网络空间的各个数据集之间具有两两的相连性与互补性。

图2是本发明所提出的在物理空间上提取网络空间热点事件信息的方法的示意图。图2示出了来自两个空间的多源异质数据集之间的语义关联。由图2可以看出，任意两个数据集都是相关的，这些关联关系就是本发明所提出的协同聚类方法的基础。

本发明的方法包含三个步骤：S1、在网络空间中提取热点事件关键词集；S2、对来自网络空间的热点事件关键词集和来自物理空间的数据集进行协同聚类；S3、根据聚类结果提取物理空间中与热点事件相关的信息样本。

S1、在网络空间中提取热点事件关键词集。

事件总是与一组关键词相关的，比如日本2011年3月11日的大地震，这一事件就与“地震”、“核泄露”和“福岛”等关键词相关。因此热点事件关键词提取是热点事件检测的关键步骤。不同于一般的事件检测方法，由于热点事件检测注重分析事件在时间维度上的变化特征，所以本发明对每个关键词进行分析，根据其在各个时间间隔上的突发程度，赋予其不同的突发指数，以此在每个时间间隔上返回一组突发程度较高的关键词集。所谓突发是指在短时间内某一事物发生的频率急剧增多。

本发明把每个关键词看成是一个生命体，当一个新的关键词出现时，他的生命就开始了，随后我们可以利用下面的步骤对其进行分析计算。

摄入新营养：在这个关键词存活的每个时间间隔里，它都将根据其当前时间间隔的热度，摄入新的营养，新的营养可以用“词频-比例文档频率”(Term frequency-Proportional document frequency)计算得出。设关键词w的摄入新营养为newNutri(w)，计算公式如下：

newNutri (w) = | F (w) | \exp \frac{n (w)}{N},

其中

| F (w) | = F (w) / \sqrt{Σ_{k} F {(w)}^{2}},

且F_k(w)＝∑_s∈sf(w，s)。其中n_k(w)表示关键词w出现的次数，N表示文档的个数，f(w，s)表示关键词w在第s个文档中出现的次数。

转换能量：新摄入的营养将很快地转换成可供生命延续的能量，转换函数定义如下

getEng (newNutri (w)) = \{\begin{matrix} \frac{newNutri (w)}{1 + newNutri (w)} & newNutri (w) > 0 \\ 0 & otherwise . \end{matrix}

消耗能量：在每个时间间隔，关键词为维持生命也会消耗掉一部分能量，设关键词w的当前能量为eng(w)，消耗函数定义如下

engDacay (eng (w)) = \{\begin{matrix} eng (w) - d & ifeng (w) > d \\ 0 & otherwise, \end{matrix}

其中，d是衰退常量。

死亡：最后当能量完全消耗完时，这个关键词的生命就终止了。

在每个时间间隔上，通过下面的公式计算每个关键词的能量方差：

a^{keyword} (w) = \sqrt{\frac{1}{| t |} Σ {(oldEng (w) - \overset{&OverBar;}{oldEng (w)})}^{2}},

其中a^keyword(w)表示关键词w能量方差，|t|表示时间间隔的个数，oldEng(w)表示关键词w在当前时刻的能量，而热点关键词集则是由突发指数大于给定阈值的关键词所组成。

S2、对来自网络空间的热点事件关键词集和来自物理空间的数据集进行协同聚类。

物理空间与网络空间的信息之间具有非常强关联性与互补性，基于此，本发明创新地结合物理空间的信息，来提高网络空间热点事件挖掘的准确率。利用物理空间的各个数据集(比如，照片集、视频集和新闻集等)与热点关键词集之间的样本语义关联，对这些数据集进行协同聚类。我们将首先介绍来自不同数据集的样本间语义关联的计算方法，再给出多源异质数据集的协同聚类方法。

S21、计算物理空间中的多源异质信息样本的语义关联度。

一般情况下，物理空间的照片集、视频集和新闻集的信息样本都具有多种模态。其中，照片集具有文本和图像模态，其中文本模态包括用户对照片集的标注等；视频集具有文本和视频模态，其中文本模态不仅包括用户标注还包括从视频的音频信息中语音识别出的文本信息；而新闻集具有文本、图像和视频三种模态。因此，来自于多源异质信息样本间的语义关联需要融合了文本、图像以及视频等多种模态的相似度。设这三种相似度分别为S₁，S₂和S₃，其计算公式可以采用目前常用的单模态媒体之间的相似度计算公式，比如

S_{1} = e^{- {[t_{1} t_{2}^{'} / (\sqrt{2} θ | | t_{1} | | t_{2} | |)]}^{2}},

S_{2} = e^{- {[| | m_{1} - m_{2} | | / (\sqrt{2} θ)]}^{2}},

S_{3} = \frac{Σ_{v_{1} &Element; V_{1}} 1_{{v_{2} &Element; V_{2} : d (v_{1}, v_{2}) < &Element;}} + Σ_{v_{2} &Element; V_{2}} 1_{{v_{1} &Element; V_{1} : d (v_{2}, v_{1}) < &Element;}}}{| V_{1} | + | V_{2} |},

其中t₁，t₂分别为来自多源异质信息样本的文本特征，t′₂为t₂的转置，θ为可调参数，m₁，m₂分别为多源异质信息样本的图像特征，而V₁，V₂是多源异质信息样本的两个视频序列，v₁，v₂分别是这两个视频序列里的帧，∈是给定的阈值，|·|表示给定视频里所含帧的个数。

通过融合S₁，S₂和S₃，我们可以得到多源异质信息样本间的相关度C，

C = \frac{τ_{1} S_{1} + τ_{2} S_{2} + τ_{3} S_{3}}{τ_{1} + τ_{2} + τ_{3}},

其中τ₁，τ₂，τ₃是平衡系数。

步骤S22、根据热点事件关键词对物理空间中的多源异质数据集进行协同聚类。

物理空间与网络空间的信息虽然存在于多模态、异质多源的不同数据集中，但这些数据集的样本之间具有非常紧密的语义相关关系，因此对不同来源的数据集进行独立聚类的这一传统事件挖掘方法并不能得到非常好的效果。比如“福冈”和“地震”两个关键词之间并没有太强的语义关系，但是如果与图像、视频与新闻等其它来源的信息载体相结合，这两个关键词就因为“2011年3月11日日本大地震”而聚类到同一事件中。因此在本发明中，我们将考虑来自不同源数据集的样本间的相互语义关联，对多源数据集进行同时聚类。

由于涉及到多个数据集之间的协同聚类，因此需要采用高维聚类的方法。目前高维协同聚类(high-order co-clustering)主要研究星型结构的协同聚类，即在多源数据集中，有一个主数据集，与其它次样本集是相互相关的，而次样本集之间是相互独立的。而在我们的间题中，物理空间和网络空间中的各个样本集相互之间都含有潜在的语义相关关系，因此现有的星型结构并不适用，因此我们需要研究具有一般化结构的协同聚类方法，即任意两个数据集均相互关联。星型结构可以看做为一般化结构的一个特例，即次样本集之间的相关度为0。

在本发明中，我们采用基于信息理论(Information Theoretic)的聚类方法求解这种一般化结构的协同聚类问题。基于信息理论的聚类方法是将跨样本集的相关关系表示为分别位于多个数据集里的离散随机变量的联合概率矩阵，而聚类的目标则是，对于原有的多个数据集找到其对应的聚类，使得在聚类上的联合概率矩阵对于原始的联合概率矩阵的互信息(mutual information)损失最小。如图3所示，对数据集X和Y进行协同聚类，得到的和

需要满足聚类后的联合概率密度

的互信息与聚类前的联合概率密度p(x，y)尽量接近。

在步骤S21中，我们已经得到分别来自两个数据源的任何样本x₁，x₂间的相关度C(x₁，x₂)，则这两个数据源上的联合概率矩阵可以通过下式计算得出

p_{12} (x_{1}, x_{2}) = \frac{C (x_{1}, x_{2})}{Σ_{x_{1}} Σ_{x_{2}} C (x_{1}, x_{2})}

设数据源个数为n个，x₁，x₂，…，x_n为分别来自不同数据源的样本，p₁₂，p₁₃，…，p_n-1，n是任意两个数据集的联合概率矩阵，我们的目标即是找到各个数据集上最优的聚类，使得聚类后的联合概率矩阵

...，

互信息损失最小。

如果我们将这个目标分为各个子目标来完成，即分别寻找从p₁₂到从p₁₃到

……，以及从p_n-1，n到

互信息损失最小的聚类，则有很大的概率所得到的数据集上的聚类并不相同。比如基于p₁₂得到的第一个数据集的聚类与基于p₁₃得到的结果并不相同。因此，我们并不寻找可以使各个子目标达到局部最优的结果，而是寻找使这些子目标的线性组合达到全局最优的结果。其具体的优化步骤如下所述：

S221、首先对每个数据集给定一个初始聚类，得到相应的聚类后的联合概率矩阵，并计算原始数据集的联合概率矩阵的互信息；

S222、对每个数据集{x_i}：寻找这个数据集中任意样本的最优目标聚类，使得满足子目标的线性组合最优，根据{x_i}的新的聚类结构，更新聚类后的联合概率矩阵；

S223、将所有数据集的聚类更新后，计算聚类后的联合概率矩阵的互信息；

S224、如果原始互信息与聚类后的互信息的差小于给定阈值，则结束，否则返回到第S222步。

由此我们可以得到网络空间中各个时间间隔上的热点事件关键词聚类。而各个聚类关键词的平均突发指数则衡量了这个热点事件的突发程度。通过对平均突发指数的排序，可以得到各个时间段的热点事件的排序。

步骤S3、根据聚类结果提取物理空间中与热点事件相关的信息样本。

基于步骤S2中得到的各个时间间隔上的热点事件，本发明可以自动地发现物理空间中与之相关的信息样本。通过浏览这些信息样本，网络用户不但可以较为全面地了解任何时间的热点事件，而且还能提高自身对网络空间中不真实信息的甑别能力。

在步骤S2中，我们不仅可以得到网络空间的热点关键词的聚类，还可以计算出两个空间中多种数据集聚类之间的联合概率。因此，在物理空间中发现与某个网络空间热点事件相关的信息样本可以分别三个步骤：

S31、返回物理空间各个数据集中与指定热点事件相关度最高的若干个聚类，其中相关度最高的若干个聚类可以由联合概率大于给定阈值来确定；

S32、在各个数据集返回的聚类上，计算其中的每个样本与热点事件的相似度；

S33、每个数据集返回相关度最大的指定个样本作为最终的结果。

实施例：

本发明适用于网络空间与物理空间中的所有数据源。为了评估本发明，我们选择2011年3月11日至2011年3月31日这一时间段来展示其实施效果，其中网络空间的数据集为推特数据，物理空间则选择了来着于纽约时报(New York Times)的新闻，和来自于图片分享网站Flickr的原始照片，而时间间隔选为一周时间(本发明适用于任意时间间隔)。

图4显示了各个时间间隔里提取的前15个热点关键词和突发指数。由结果可以看出，第一周前三个关键词都是与日本地震有关，而第四个关键词“Oscars”(奥斯卡)则是与奥斯卡在二月底三月初召开有关。在第三周中，第五个关键词“Taylor”(泰勒)和第十个“Elizabeth”(伊莉莎白)，则是对应著名影星泰勒·伊莉莎白在3月23日逝世。

图5显示挖掘出来的网络空间热点事件列表。其中黑色字体表示不属于这个事件。相比于传统的单数据集聚类和多源数据集星型结构协同聚类，本发明提出的多源异质数据集协同聚类方法(基于一般化结构)更为准确。

图6显示了第一周中与各个热点事件相关的物理空间的信息样本。其中“Nate Dogg逝世”这一事件中，我们发现了粉丝自发展开的悼念活动的照片，这比新闻信息更为丰富。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种在物理空间上提取网络空间热点事件信息的方法，其特征在于，包括如下步骤：

S1、在网络空间中提取热点事件关键词集；

S2、对所述来自网络空间的热点事件关键词集和来自物理空间的数据集进行协同聚类；

S3、根据所述协同聚类的聚类结果提取物理空间中与热点事件相关的信息样本。

2.如权利要求1所述的在物理空间上提取网络空间热点事件信息的方法，其特征在于，所述步骤S1包括：对热点事件的每个关键词进行分析，根据每个关键词在各个时间间隔上的突发程度，赋予其不同的突发指数，以此在每个时间间隔上返回一组突发程度较高的关键词集，所谓突发是指在短时间内某一事物发生的频率急剧增多。

3.如权利要求2所述的在物理空间上提取网络空间热点事件信息的方法，其特征在于，在步骤S1中，在每个时间间隔上，通过下面的公式计算每个关键词的能量方差：

a^{keyword} (w) = \sqrt{\frac{1}{| t |} Σ {(oldEng (w) - \overset{&OverBar;}{oldEng (w)})}^{2}},

并用这个数值作为此关键词在当前时段的突发指数，其中a^keyword(w)表示关键词w能量方差，|t|表示时间间隔的个数，oldEng(w)表示关键词w在当前时刻的能量。

4.如权利要求1所述的在物理空间上提取网络空间热点事件信息的方法，其特征在于，所述步骤S2包括：

S21、计算物理空间中的多源异质信息样本的语义关联度；

S22、根据所述热点事件关键词对物理空间中的多源异质数据集进行协同聚类。

5.如权利要求4所述的在物理空间上提取网络空间热点事件信息的方法，其特征在于，所述多源异质信息样本包括文本、图像和视频信息。

6.如权利要求5所述的在物理空间上提取网络空间热点事件信息的方法，其特征在于，通过下式公式计算所述多源异质信息样本间的语义相关度C：

C = \frac{τ_{1} S_{1} + τ_{2} S_{2} + τ_{3} S_{3}}{τ_{1} + τ_{2} + τ_{3}},

其中τ₁，τ₂，τ₃是平衡系数，S₁，S₂和S₃分别为多源异质信息样本的文本、图像和视频的相似度。

7.如权利要求6所述的在物理空间上提取网络空间热点事件信息的方法，其特征在于，所述多源异质信息样本的文本、图像和视频的相似度的计算公式为：

S_{1} = e^{- {[t_{1} t_{2}^{'} / (\sqrt{2} θ | | t_{1} | | t_{2} | |)]}^{2}},

S_{2} = e^{- {[| | m_{1} - m_{2} | | / (\sqrt{2} θ)]}^{2}},

S_{3} = \frac{Σ_{v_{1} &Element; V_{1}} 1_{{v_{2} &Element; V_{2} : d (v_{1}, v_{2}) < &Element;}} + Σ_{v_{2} &Element; V_{2}} 1_{{v_{1} &Element; V_{1} : d (v_{2}, v_{1}) < &Element;}}}{| V_{1} | + | V_{2} |},

其中t₁，t₂分别为来自多源异质信息样本的文本特征，t′₂为t₂的转置，θ为可调参数。m₁，m₂分别为多源异质信息样本的图像特征，而V₁，V₂是多源异质信息样本的两个视频序列，v₁，v₂分别是这两个视频序列里的帧，∈是给定的阈值，|·|表示给定视频里所含帧的个数。

8.如权利要求4所述的在物理空间上提取网络空间热点事件信息的方法，其特征在于，所述步骤S22包括：

设数据源个数为n个，x₁，x₂，…，x_n为分别来自不同数据源的样本，p₁₂，p₁₃，…，p_n-1，n是任意两个数据集的联合概率矩阵，找到各个数据集上最优的聚类，使得聚类后的联合概率矩阵

…，

互信息损失最小，其中，两个数据源上的联合概率矩阵可以通过下式计算得出：

p_{12} (x_{1}, x_{2}) = \frac{C (x_{1}, x_{2})}{Σ_{x_{1}} Σ_{x_{2}} C (x_{1}, x_{2})} .

9.如权利要求8所述的在物理空间上提取网络空间热点事件信息的方法，其特征在于，所述步骤S22包括：

10.如权利要求8所述的在物理空间上提取网络空间热点事件信息的方法，其特征在于，所述步骤S3包括：