CN104166675B

CN104166675B - 一种基于图分解的多模式网络话题生成方法及其系统

Info

Publication number: CN104166675B
Application number: CN201410313181.3A
Authority: CN
Inventors: 黄庆明; 贾飞; 庞俊彪
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2014-07-02
Filing date: 2014-07-02
Publication date: 2018-07-06
Anticipated expiration: 2034-07-02
Also published as: CN104166675A

Abstract

本发明公开了一种基于图分解的多模式网络话题生成方法及其系统，包括：网络话题检测步骤用于将网络数据转化为一无向图，基于预定阈值将无向图截断为多个截断图，并在截断图中寻找表示候选网络话题的极大团，基于极大团获取多模式种子话题；网络话题排序步骤用于通过种子话题对原始的无向图进行重构，获取种子话题的重构系数，根据重构系数对种子话题进行排序。本发明还公开了一种基于图分解的多模式网络话题生成系统。

Description

一种基于图分解的多模式网络话题生成方法及其系统

技术领域

本发明涉及网络中的话题检测技术，特别涉及一种基于图分解的多模式网络话题生成方法及其系统。

背景技术

随着信息技术的快速发展，用户越来越倾向于从网络上获取所需的信息。然而，高速膨胀的网络数据使得用户很难从中发现感兴趣的内容，因此，按照话题组织网络数据显得愈发重要，从而使得从网络中进行话题检测成为当前研究的热点问题之一。话题检测可以帮助用户快速有效地寻找和了解感兴趣的信息，同时也能帮助网络管理员合理地管理和分析网络数据。

然而，从网络中检测出有意义的话题十分困难，其原因在于：1)在网络上，有助于检测话题的监督信息难以获得；2)网络话题具有稀有性，也就是说，每天网络上会出现大量元素，但是只有一少部分会形成话题；3)网络话题具有重叠性，也即同一个网络元素可能同时属于多个话题，不同的话题会有重叠；4)话题具有不同模式——有些是紧密连接的，有些是疏松连接的；5)用户的网络行为可能出现关注转移，也就是说可能从一个话题转移到另一话题；6)在网络中存在的话题数目难以确定；7)已有的评测标准不能整体衡量话题检测系统的性能。

许多现有的话题检测方法认为话题就是聚类，例如有些方法使用非负矩阵分解来检测话题，但是非负矩阵分解是基于分割的聚类，也就是说，网络上的任何一个元素都属于且仅属于某一个话题，但实际中并非如此，有些元素不属于任何话题，而有些元素可能同时属于多个话题。例如，“石油生产”既可以属于话题“经济”，又可以属于话题“能源”。另外一些方法的核心在于寻找紧密相连的数据子集作为话题，其出发点是同一个话题中所有元素都是高度相似的，但事实并非如此。同时，网络上的用户行为会出现关注转移，即从话题的一部分内容转移到另一部分，即使二者并不高度相似。

目前的算法检测出的话题数目是确定的(不论是预先指定还是算法自适应确定)，但是不同的用户对话题有不同的认识，因此很难确定网络上话题的真实数目。

对于目前的话题检测算法评测标准，也往往只考虑到正确检测到的话题的数目，而忽略了与此同时系统错误检测出的话题数目，但合理的评测标准应该综合考虑两方面的内容。

发明内容

本发明的目的在于提供一种基于图分解的多模式网络话题生成方法及其系统，以解决现有技术中网络话题具有稀疏性和重叠性，而造成不容易检测出的问题。

为达上述目的，本发明提出了一种基于图分解的多模式网络话题生成方法，其特征在于，包括：

网络话题检测步骤：将网络数据转化为一无向图，基于预定阈值将所述无向图截断为多个截断图，并在所述截断图中寻找表示候选网络话题的极大团，基于所述极大团获取多模式种子话题；

网络话题排序步骤：通过所述种子话题对原始的所述无向图进行重构，获取所述种子话题的重构系数，根据所述重构系数对所述种子话题进行排序，使用户发现感兴趣的话题。

上述基于图分解的多模式网络话题生成方法，其特征在于，所述方法还包括：

性能评价步骤：根据检测到的所述种子话题中的正确话题数目和错误话题数目，同时对所述话题生成方法进行综合性能评价。

上述基于图分解的多模式网络话题生成方法，其特征在于，所述网络话题检测步骤还包括：

数据表示步骤：采用所述无向图代表所述网络数据间的关系，所述无向图的节点表示所述网络数据，所述无向图的边表示所述网络数据之间的相似度；

图截断步骤：通过多个所述预定阈值依次将所述无向图截断为多个所述截断图，根据预定门限参数，将所述截断图分为高阈值截断图和低阈值截断图；

寻找话题步骤：在所述高阈值截断图中寻找所述极大团作为种子话题，在所述低阈值截断图中寻找所述种子话题的演化，即包含所述种子话题的极大团。

上述基于图分解的多模式网络话题生成方法，其特征在于，所述性能评价步骤还包括：

话题正确性匹配步骤：检测到的所述种子话题与真正存在话题的匹配度大于预定匹配度阈值，则认为所述种子话题为正确检测的话题，否则所述种子话题为错误检测话题。

上述基于图分解的多模式网络话题生成方法，其特征在于，所述网络数据之间的相似度公式为：

其中，所述无向图的边E＝{e_ij}表示相似度，所述h表示元素的特征直方图，所述h_i(k)表示第i个元素的第k维特征。

上述基于图分解的多模式网络话题生成方法，其特征在于，所述截断图表示为：

在所述预定阈值l_i下将所述无向图截断，得到该阈值下的截断图Gⁱ。

本发明还提供一种基于图分解的多模式网络话题生成系统，采用如所述话题生成方法，其特征在于，所述话题生成系统包括：

网络话题检测模块：采用无向图表示网络数据间的关系，基于预定阈值将所述无向图截断为多个截断图，并在所述截断图中寻找表示候选网络话题的极大团，基于所述极大团获取多模式种子话题；

网络话题排序模块：通过所述种子话题对原始的所述无向图进行重构，获取所述种子话题的重构系数，根据所述重构系数对所述种子话题进行排序，使用户发现感兴趣的话题。

上述基于图分解的多模式网络话题生成系统，其特征在于，所述系统还包括：

性能评价模块：根据检测到的所述种子话题中包含的正确话题数目和错误话题数目，同时对所述话题生成方法进行综合性能评价。

上述基于图分解的多模式网络话题生成系统，其特征在于，所述网络话题检测模块还包括：

数据表示模块：将所述无向图代表所述网络数据间的关系，所述无向图的节点表示所述网络数据，所述无向图的边表示所述网络数据之间的相似度；

图截断模块：通过多个所述预定阈值依次将所述无向图截断为多个所述截断图，根据预定门限参数，所述截断图包含高阈值截断图和低阈值截断图；

寻找话题模块：在所述高阈值截断图中寻找所述极大团作为种子话题，在所述低阈值截断图中寻找所述种子话题的演化，即包含所述种子话题的极大团。

上述基于图分解的多模式网络话题生成系统，其特征在于，所述性能评价模块还包括：

话题正确性匹配模块：检测到的所述种子话题与真正存在话题的匹配度大于预定匹配度，则认为所述种子话题为正确检测的话题，否则所述种子话题为错误检测话题。

相比于现有技术中的方法，本发明主要的有益效果在于：本发明提出一种新的有效的网络话题检测方法，这种方法可以检测出各种模式的话题，并通过图排序的方法对话题排序，将排序结果返回给用户，不需要确定话题的数目。同时，本发明也提供了一种有效的多模式网络话题检测框架，可以根据实际需要，任意添加或更改能够提高性能的某一模块。最后，一种合理的话题检测评价标准的提出，可以更好的评价算法的话题检测性能。本发明具有以下优点：

1、极大团表示话题使得某些网络元素不属于任何一个话题，也使得某些网络元素同时属于多个话题，有效地解决话题的稀有性和重叠性问题；

2、启发式话题寻找方法可以模拟用户的关注转移行为，也可以体现话题的演化和相互关系；

3、通过将排序结果返回给用户，不需要确定话题的数目，排序越靠前，越可能是真正的话题，便于用户发现和理解网络中感兴趣的内容；

4、综合考虑话题检测系统两方面的特性，使评价更加客观全面。

附图说明

图1为本发明在不同阈值下检测话题示意图；

图2为本发明方法步骤示意图；

图3为本发明方法实施例步骤示意图；

图4A～图4C为本发明实施例启发式候选话题寻找方法示意图；

图5为本发明实施例用候选话题重构原始无向图示意图；

图6为本发明实施例提出的性能评价示意图；

图7为本发明系统结构示意图。

其中，附图标记：

1 网络话题检测模块 2 网络话题排序模块

3 性能评价模块

11 数据表示模块 12 图截断模块

13 寻找话题模块

31 话题正确性匹配模块

S1～S3、S11～S13、S31、S10～S60：本发明各实施例的施行步骤

具体实施方式

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

下面结合附图和具体实施方式，对本发明做进一步的说明。

本发明是一种基于图的网络话题检测方法。对于网络话题的稀有性和重叠性，与传统的基于分割的聚类方法不同，使用极大团代表话题；对于网络的多模式特性，本发明将图在不同的阈值下截断，然后在一系列多阈值截断的图中寻找话题；针对话题数目的难以确定，利用图重构的方法对所有寻找到的话题进行排序，然后将排序结果返回给用户，而不需要确定话题的数目。最后，本发明提出了一种新的评测标准，综合考虑了系统正确检测话题和错误检测话题的数目。

本发明的技术关键点如下：

关键点1，利用图中的极大团代表话题；技术效果：极大团表示话题使得某些网络元素不属于任何一个话题，也使得某些网络元素同时属于多个话题，有效地解决话题的稀有性和重叠性问题；

关键点2，将图在不同阈值下进行截断，并在一系列多阈值截断图中寻找话题；技术效果：在不同阈值截断图中可以寻找到具有不同模式的话题——从高阈值截断图中寻找到的话题具有紧密连接性，从低阈值截断图中寻找到的话题具有疏松连接性，图1为本发明在不同阈值下检测话题示意图，如图1所示，其中“层”表示在不同阈值下寻找极大团代表话题；

关键点3，针对关键点2，提出一种启发式话题寻找方法——首先在高阈值截断图中寻找话题，作为“种子”话题，然后根据“种子”话题在低阈值截断图中寻找“种子”话题的演化，以解决网络用户的关注转移行为；技术效果：启发式话题寻找方法可以模拟用户的关注转移行为，也可以体现话题的演化和相互关系；

关键点4，用寻找到的所有话题对原始图进行重构，每个话题产生一个重构系数，根据重构系数对检测到的话题进行排序，将排序结果返回给用户；技术效果：通过将排序结果返回给用户，不需要确定话题的数目，排序越靠前，越可能是真正的话题，便于用户发现和理解网络中感兴趣的内容。

关键点5，提出一种新的话题检测评价标准，既考虑正确检测到的话题数目，也考虑到错误检测到的话题数目；技术效果：综合考虑话题检测系统两方面的特性，使评价更加客观全面。

本发明提供的一种基于图分解的多模式网络话题生成方法，图2为本发明方法流程示意图，如图2所示，该方法包括：

网络话题检测步骤S1：将网络数据抽象为无向图，基于预定阈值将无向图截断为多个截断图，并在截断图中寻找表示候选网络话题的极大团，基于极大团获取多模式种子话题；

网络话题排序步骤S2：通过种子话题对原始的无向图进行重构，获取种子话题的重构系数，根据重构系数对种子话题进行排序，使用户发现感兴趣的话题。

性能评价步骤S3：根据检测到的种子话题中的正确话题数目和错误话题数目，同时对话题生成方法进行综合性能评价。

其中，网络话题检测步骤S1还包括：

数据表示步骤S11：采用无向图代表网络数据间的关系，无向图的节点表示网络数据，无向图的边表示网络数据之间的相似度；

图截断步骤S12：通过多个预定阈值依次将无向图截断为多个截断图，根据预定门限参数，将截断图分为高阈值截断图和低阈值截断图；

寻找话题步骤S13：在高阈值截断图中寻找极大团作为种子话题，在低阈值截断图中寻找种子话题的演化，即包含种子话题的极大团。

其中，性能评价步骤S3还包括：

话题正确性匹配步骤S31：检测到的种子话题与真正存在话题的匹配度大于预定匹配度阈值，则认为种子话题为正确检测的话题，否则种子话题为错误检测话题。

其中，网络数据之间的相似度公式为：

无向图的边E＝{e_ij}表示相似度，h表示元素的特征直方图，h_i(k)表示第i个元素的第k维特征。

其中，截断图表示为：

在预定阈值l_i下将无向图截断，得到该阈值下的截断图Gⁱ。

以下结合图示，对本发明实施例进行详细说明：

本发明首先将网络数据抽象为无向图结构，节点表示数据，边表示对应数据之间的相似度。根据网络数据的多模式特点，首先将无向图在一系列阈值下截断，然后在每个截断的图中寻找极大团，代表网络中可能存在的话题，称为候选话题，然后利用候选话题对原无向图进行重构，对每一个候选话题赋予一个重构系数，根据重构系数对候选话题进行排序，返回用户排序结果，排序越高，越可能成为真正的话题。

考虑到网络用户的关注转移行为以及网络话题的演化特性，将从一系列阈值截断图中寻找极大团作为候选话题部分进行改进。首先给定一个门限参数，在阈值大于该门限的截断图中，我们寻找出所有的极大团作为“种子”话题，然后只从低阈值截断图中寻找包含“种子”话题的极大团，代表“种子”话题在不同阈值下的演化，也体现了网络用户在相关话题间的关注转移行为。

下面介绍本发明各个步骤具体实施方式，图3为本发明实施例步骤示意图，如图3所示：

步骤S10：数据表示：

首先用无向图G表示网络数据间的关系，节点V＝{v_i}表示数据中的元素，边E＝{e_ij}表示对应两个元素间的关系，例如相似度，如下式所示。

其中，h表示元素的特征直方图，h_i(k)表示第i个元素的第k维特征。

步骤S20：图的截断。

给定一系列阈值L＝{l₁,l₂,...,l_T}，在每个阈值l_i下将图G截断，得到该阈值下的截断图Gⁱ:

步骤S30：寻找话题。

给定一个门限参数τ，把阈值不低于τ的截断图(Gⁱ(l_i≥τ))称为高阈值截断图，阈值低于τ的截断图(Gⁱ(l_i＜τ))称为低阈值截断图。

首先从高阈值截断图中寻找出所有的极大团作为“种子”话题，然后从低阈值截断图中只寻找包含“种子”话题的极大团，作为话题在低相似度下的不同演化形式。

图4A～图4C具体显示了启发式话题寻找的过程。该图的边只有两种值，一种是高相似度值，一种是低相似度值，假设所取的门限参数τ位于这两个值之间，也就是说，该图可以被截断为一个高阈值截断图，一个低阈值截断图。

图4A中的黑框部分表示{2,3,4}是在高阈值截断图中寻找出的极大团，也就是“种子”话题。在低阈值下，图4B首先根据“种子”话题找到了一个索引集合I＝{1,2,3,4,5,6}，该集合的确定准则是：集合中的每一个元素与“种子”话题中的所有元素的相似度均不小于低阈值(左侧黑框部分)，然后根据索引集合在低阈值截断图中提取诱导子图(右侧黑框部分)。接下来在提取出的诱导子图中寻找极大团，即图4C中的黑框部分({1,2,3,4}和{2,3,4,5,6})。可见，用这种方法在低阈值截断图中寻找到的极大团均包含对应的“种子”话题(和)，展现了话题在不同相似度下的演化。

在所有阈值截断图中寻找到的所有极大团都可能是网络中真正存在的话题，称为候选话题。

步骤S40：话题排序。

本发明利用得到的所有候选话题在一定条件下对原始无向图进行重构，重构条件可以符合任何有意义的假设，例如泊松假设：

其中，C_k是用矩阵形式表示第k个候选话题，其中b_k是一个N维向量，b_k∈Δ^N,Δ＝{0,1}，b_ki表示b_k的第i维，如果数据中的第i个元素属于第k个话题，则b_ki＝1，否则b_ki＝0。

基于泊松假设的重构系数μ_k可以由最大期望算法得到：

重构系数越高，说明该话题的重要性越高，越有可能是网络中真正的话题。

图5展示了利用候选话题对原始图进行重构的结果。

步骤S50：返回结果。

将所有的候选话题按照重构系数进行排序，并将排序结果返回给用户，而不需要确定网络中话题的数目。

步骤S60：性能评价。

已有的话题检测评测标准只考虑到正确检测到的话题的数目，而未考虑到话题检测的代价——每正确检测出一个话题，系统将会错误检测出话题的数目。因此，我们提出一种新的性能评价标准，将系统正确检测和错误检测出的话题综合考虑。

对于检测到的某个话题C_i，如果其与某个网络中真正存在的话题D_j的匹配度则认为该话题正确检测，否则错误检测。假设网络中存在M个话题，算法检测出T个话题，其中正确检测的话题数目是S，则可以得到一条曲线，如图6所示，纵坐标表示检测精度(Accuracy)，即S/M，横坐标表示在正确检测一个话题的同时会返回的错误话题的数目(False Positive Per Topic(FPPT))，即(T-S)/S。图6本发明提出的性能评价标准。在两种数据集Youtube视频数据集(MCG-WEBV)和优酷新浪数据集(YKS)上对两种话题检测算法(本发明算法和多模态图MMG算法)进行评价。MMG算法检测出话题的数目是确定的，因此在图中只是一个点；本发明算法返回给用户话题排序的结果，因此可以在不同排序位置截断，产生一系列的评测结果，形成曲线。

本发明还提供一种基于图分解的多模式网络话题生成系统，采用如所述话题生成方法，图7为本发明系统结构示意图，如图7所示，该话题生成系统包括：

网络话题检测模块1：采用无向图表示网络数据间的关系，基于预定阈值将无向图截断为多个截断图，并在截断图中寻找表示候选网络话题的极大团，基于极大团获取多模式种子话题；

网络话题排序模块2：通过种子话题对原始的无向图进行重构，获取种子话题的重构系数，根据重构系数对种子话题进行排序，使用户发现感兴趣的话题。

性能评价模块3：根据检测到的种子话题中包含的正确话题数目和错误话题数目，同时对话题生成方法进行综合性能评价。

其中，网络话题检测模块1还包括：

数据表示模块11：将无向图代表网络数据间的关系，无向图的节点表示网络数据，无向图的边表示网络数据之间的相似度；

图截断模块12：通过多个预定阈值依次将无向图截断为多个截断图，根据预定门限参数，截断图包含高阈值截断图和低阈值截断图；

寻找话题模块13：在高阈值截断图中寻找极大团作为种子话题，在低阈值截断图中寻找种子话题的演化，即包含种子话题的极大团。

其中，性能评价模块3还包括：

话题正确性匹配模块31：检测到的种子话题与真正存在话题的匹配度大于预定匹配度，则认为种子话题为正确检测的话题，否则种子话题为错误检测话题。

综上所述，本发明提出了一种多模式网络话题检测和排序方法，可以有效地解决网络话题的稀有性、重叠性、数目难以确定，以及网络用户的关注转移行为等问题。同时，本发明也提供了一种多模式网络话题检测框架，可扩展性强，易行高效。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明做出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于图分解的多模式网络话题生成方法，其特征在于，包括：

网络话题检测步骤：将网络数据转化为一无向图，基于预定阈值将所述无向图截断为多个截断图，并在所述截断图中寻找表示候选网络话题的极大团，基于所述极大团获取多模式种子话题，所述网络话题检测步骤还包括：

寻找话题步骤：在所述高阈值截断图中寻找所述极大团作为种子话题，在所述低阈值截断图中寻找所述种子话题的演化，即包含所述种子话题的极大团；

网络话题排序步骤：通过所述种子话题对原始的所述无向图进行重构，获取所述种子话题的重构系数，根据所述重构系数对所述种子话题进行排序，使用户发现感兴趣的话题；

2.根据权利要求1所述基于图分解的多模式网络话题生成方法，其特征在于，所述性能评价步骤还包括：

3.根据权利要求1所述基于图分解的多模式网络话题生成方法，其特征在于，所述网络数据之间的相似度公式为：

4.根据权利要求1所述基于图分解的多模式网络话题生成方法，其特征在于，所述截断图表示为：

5.一种基于图分解的多模式网络话题生成系统，采用如权利要求1-4中任一项所述话题生成方法，其特征在于，所述话题生成系统包括：

网络话题排序模块：通过所述种子话题对原始的所述无向图进行重构，获取所述种子话题的重构系数，根据所述重构系数对所述种子话题进行排序，使用户发现感兴趣的话题；

6.根据权利要求5所述基于图分解的多模式网络话题生成系统，其特征在于，所述网络话题检测模块还包括：

7.根据权利要求6所述基于图分解的多模式网络话题生成系统，其特征在于，所述性能评价模块还包括：