CN109859054B

CN109859054B - 网络社团挖掘方法、装置、计算机设备及存储介质

Info

Publication number: CN109859054B
Application number: CN201811527426.7A
Authority: CN
Inventors: 卢宁; 黄咏宁; 唐文; 张密
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2024-03-05
Anticipated expiration: 2038-12-13
Also published as: CN109859054A

Abstract

本发明公开了网络社团挖掘方法、装置、计算机设备及存储介质。该方法包括：获取理赔数据对应的节点，通过谱聚类将所述理赔数据对应的节点并行划分为多个子图；将多个子图分别进行织网，得到初始理赔社交网络拓扑图；通过社团检测对初始理赔社交网络拓扑图进行聚类，得到网络社团。该方法实现了对理赔数据的全量数据进行高效的实时织网和并行切网，并基于社团发现算法快速得到网络社团，以便于基于社团聚集查找疑似欺诈的团伙。

Description

网络社团挖掘方法、装置、计算机设备及存储介质

技术领域

本发明涉及网络社团挖掘技术领域，尤其涉及一种网络社团挖掘方法、装置、计算机设备及存储介质。

背景技术

目前，有很多常用的图织网算法，但基本都是基于小规模网络进行织网，不支持并行、切网、定焦运算。例如，有部分保险公司的产品，在进行理赔时是规则匹配，不支持图形算法、社团发现算法功能，在超大规模数据运算(上亿节点时，织网速度超24小时)出现时，运算效率低下。

发明内容

本发明实施例提供了一种网络社团挖掘方法、装置、计算机设备及存储介质，旨在解决现有技术中图织网算法支持的社团算法有限，在超大规模数据运算织网时，运算效率低下的问题。

第一方面，本发明实施例提供了一种网络社团挖掘方法，其包括：

获取理赔数据对应的节点，通过谱聚类将所述理赔数据对应的节点并行划分为多个子图；

将多个子图分别进行织网，得到初始理赔社交网络拓扑图；

通过社团检测对初始理赔社交网络拓扑图进行聚类，得到网络社团。

第二方面，本发明实施例提供了一种网络社团挖掘装置，其包括：

子图划分单元，用于获取理赔数据对应的节点，通过谱聚类将所述理赔数据对应的节点并行划分为多个子图；

初始织网单元，用于将多个子图分别进行织网，得到初始理赔社交网络拓扑图；

社团检测单元，用于通过社团检测对初始理赔社交网络拓扑图进行聚类，得到网络社团。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的网络社团挖掘方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的网络社团挖掘方法。

本发明实施例提供了一种网络社团挖掘方法、装置、计算机设备及存储介质。该方法包括获取理赔数据对应的节点，通过谱聚类将所述理赔数据对应的节点并行划分为多个子图；将多个子图分别进行织网，得到初始理赔社交网络拓扑图；通过社团检测对初始理赔社交网络拓扑图进行聚类，得到网络社团。该方法实现了对理赔数据的全量数据进行高效的实时织网和并行切网，并基于社团发现算法快速得到网络社团，以便于基于社团聚集查找疑似欺诈的团伙。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的网络社团挖掘方法的流程示意图；

图2为本发明实施例提供的网络社团挖掘方法的子流程示意图；

图3为本发明实施例提供的网络社团挖掘方法的另一子流程示意图；

图4为本发明实施例提供的网络社团挖掘方法的另一流程示意图；

图5为本发明实施例提供的网络社团挖掘方法的另一流程示意图；

图6为本发明实施例提供的网络社团挖掘装置的示意性框图；

图7为本发明实施例提供的网络社团挖掘装置的子单元示意性框图；

图8为本发明实施例提供的网络社团挖掘装置的另一子单元示意性框图；

图9为本发明实施例提供的网络社团挖掘装置的另一示意性框图；

图10为本发明实施例提供的网络社团挖掘装置的另一示意性框图；

图11为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1是本发明实施例提供的网络社团挖掘方法的流程示意图，该网络社团挖掘方法应用于智能终端中，该方法通过安装于智能终端中的应用软件进行执行。

如图1所示，该方法包括步骤S110～S140。

S110、获取理赔数据对应的节点，通过谱聚类将所述理赔数据对应的节点并行划分为多个子图。

在本实施例中，是在管理服务器中对理赔数据进行网络社团挖掘。当管理服务器接收了海量的案件数据(例如车险理赔场景下的案件数据包括司机、报案人、受益人和伤者，以及修理厂、报案电话、检修地点、GPS信息等数据)，若采用现有技术中小规模网络织网，会导致织网效率低下。此时，可以选择通过谱聚类算法对海量的节点进行区域的划分，使得不同子图(子图可以视为一块区域，该区域内包括多个节点)内的节点之间的联系权重较小(即未超过预设的联系权重阈值)，而同一子图内的节点之间的联系权重较大(即超过预设的联系权重阈值)。通过谱聚类算法能快速的将所述理赔数据对应的节点并行划分为多个子图。

其中，由于案件数据中不可能每一数据都转化为一个节点，故可有选择性的选择其中一部分数据作为主数据并对应生成节点，而剩余的数据则作为上述生成节点中主数据的属性数据。例如报案人作为主数据，报案人的电话号码、身份证号作为其属性数据。节点与节点之间的联系权重可以通过属性数据中某一个或多个字段的相似性来确定，例如报案人1的电话号码为X1，而报案人2的电话号码也为X2，则报案人1对应的节点与报案人2对应的节点之间的联系权重可以视为1。

在一实施例中，如图2所示，步骤S110包括：

S111、获取所输入的相似度矩阵和目标聚类数目；

S112、根据所述相似度矩阵构建与所述理赔数据对应的节点相应的相似矩阵；

S113、根据所述相似矩阵构建邻接矩阵和对角矩阵，由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵；

S114、获取所述拉普拉斯矩阵中的多个特征值的排名，若判断特征值的排名位于预设排名阈值之前，获取对应的特征向量以组成目标特征向量集合；

S115、将目标特征向量集合中每一特征向量转置为列向量并依次组合，以得到目标向量矩阵；

S116、通过k-means算法将目标向量矩阵中各行向量进行聚类，得到与所述目标聚类数目相同的子团。

在本实施例中，谱聚类是一种基于图论的聚类方法，通过对样本数据的拉普拉斯矩阵的特征向量进行聚类，从而达到对样本数据聚类的目的。谱聚类可以理解为将高维空间的数据映射到低维，然后在低维空间用其它聚类算法(如k-means)进行聚类。

为了实现对高维空间的理赔数据映射到低维空间，需将所述理赔数据对应的节点先根据式(1)进行相似矩阵的构建：

其中，n为赔数据对应的节点个数，x_i和x_j分别表示任意一个节点，σ表示节点的标准差，s_ij则组成了相似矩阵。

由所输入的相似度矩阵来构建与所述理赔数据对应的节点相应的相似矩阵有∈-邻近法，K邻近法和全连接法。例如，全连接法的计算公式如式1。

之后根据式2来计算对角矩阵，式2具体如下：

其中，d_i表示相似矩阵中每一行的元素之和，由d_i组成对角矩阵w_ij则表示相似矩阵中第i行第j列的元素。

当由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵后，即可以拉普拉斯矩阵中对应的每一特征向量转置为列向量，从而组成目标向量矩阵。最后通过k-means算法将目标向量矩阵中各行向量进行聚类，得到与所述目标聚类数目相同的子团，通过谱聚类实现了将由理赔数据组成的全量数据进行社团的快速发现，而且实现了实时织网。

S120、将多个子图分别进行织网，得到初始理赔社交网络拓扑图。

在本实施例中，通过谱聚类将初始的节点划分为多个区域形成多个子图后，形成了多个规模较小的图，此时需要将每个子图进行织网(织网即是将每一子图中所包括的多个节点根据联系权重通过连接边连接起来，连接边的权重值即是连接边两端节点之间的联系权重)，得到初始理赔社交网络拓扑图。之后通过社团检测算法，可对初始理赔社交网络拓扑图进行聚类，得到网络社团。

S130、通过社团检测对初始理赔社交网络拓扑图进行聚类，得到网络社团。

在本实施例中，社团检测，就是要在一个图(包含顶点和边，例如步骤一中的初始理赔社交网络拓扑图)上发现社团结构，也就是要把图中的结点进行聚类，构成多个的社团。关于社团(community)，一般认为社团内部的点之间的连接相对稠密，而不同社团的点之间的连接相对稀疏。例如，输入初始理赔社交网络拓扑图后，通过社团检测算法处理后会输出一种社团划分，也即切图后的网络，通过社团检测实现了并行切网。

当得到了网络社团后，可以对已知的欺诈用户对应的节点进行标签标注，而与已知的欺诈用户对应节点位于同一网络社团中，则表示该网络社团为疑似欺诈社团，需要进一步核实信息以确认是否为欺诈用户。

在一实施例中，如图3所示，步骤S130包括：

S131、将初始理赔社交网络拓扑图中每一节点作为初始网络社团；

S132、将每一初始网络社团划分至多个关联的初始网络社团中，以计算每一初始网络社团与每一关联的初始网络社团组成新社团分别对应的模块度增量，获取多个新社团分别对应的模块度增量中最大值所对应的新社团以作为所每一初始网络社团的当前更新网络社团；

S133、重复执行将当前更新网络社团划分至多个关联的当前更新网络社团中，以计算每一当前网络社团与每一关联的当前网络社团组成当前新社团分别对应的模块度增量，获取多个当前新社团分别对应的模块度增量中最大值所对应的当前新社团的步骤，直至当前新社团中节点数为恒定常数，将当前新社团作为网络社团。

在本实施例中，模块度(一般用参数Q来表示)是用来评估一个社区网络划分好坏的度量方法，它的含义是社区内节点的连边数与随机情况下的边数之差，模块度的取值范围是[-1/2,1)，其定义如下：

其中，A_ij表示节点i和节点j之间边的权重；k_i是所有和i节点相连的边的的权重之和，k_j是所有和j节点相连的边的的权重之和；m是社区网络中所有边的权重之和；ci是节点i的社区，cj是节点j的社区；δ(c_i，c_j)表示若节点i和节点j在同一个社区内则返回1，否则返回0。

基于模块度进行社团检测时，过程如下：

1)将初始理赔社交网络拓扑图中每一节点作为初始网络社团；

2)将某一节点划分到所有有关联的社区中；

3)计算节点被划分至各关联的社区分别对应的模块度增量，并将该节点划分至模块度增量最大时对应的社区；

4)重复执行步骤2)和3)，直至每一社区的模块度不再增加，即得到网络社团。

通过社团检测，能挖掘出社团聚集，有助于查找网络团伙，以便于基于社团聚集查找疑似欺诈的团伙。

在一实施例中，如图4所示，步骤S130之后还包括：

S141、获取所述网络社团中所包括每一社团对应的模块度；

S142、若每一社团对应的模块度均小于1，标识所述网络社团通过社区网络划分验证；

S143、若有社团对应的模块度大于或等于1，标识所述网络社团未通过社区网络划分验证，通过社团检测对模块度大于或等于1的社团进行聚类，得到更新后的社团网络。

在通过社团检测方法对初始理赔社交网络拓扑图进行聚类后，为了进一步核实网络社团中是否可以再次划分，需要对每一社团的模块度进行检测，若无社团的模块度大于1则表示社团检测的聚类结果是准确的且是一种有效划分，而若有社团的模块度大于1则表示社团检测的聚类结果是不准确的且需要针对该社团进一步划分。

在一实施例中，如图5所示，步骤S110之前还包括：

S101、判断初始理赔数据中是否存在频次超过预设的频次阈值的高频数据，若所述初始理赔数据中存在频次超过所述频次阈值的高频数据，将所述高频数据进行删除，得到高频清理后的数据；

S102、判断高频清理后的数据中是否存在数据产生时间超出预设的时间段区间的数据，若高频清理后的数据中存在数据产生时间超出所述时间段区间的数据，将数据产生时间超出所述时间段区间的数据进行删除，得到理赔数据。

在本实施例中，社团检测算法中模块度算法主要评估节点的紧凑密集程度，可以更快的帮助进行定焦，而实际中，往往有很多噪音，影响了社团的挖掘，因此可从以下三个方面进行优化：

a)高频异常点剔除。对于超高频的异常点，往往由于录入异常、错录现象，导致高频点出险，针对这类问题，会剔除高频点后再切网；

b)时间轴处理，通过拉伸时间轴，可以将过去超期限发生的案件进行过滤，从而减小网络的复杂度；

c)将业务规则结合网络模块度结合挖掘高风险网络。

该方法实现了对理赔数据的全量数据进行高效的实时织网和并行切网，并基于社团发现算法快速得到网络社团，以便于基于社团聚集查找疑似欺诈的团伙。

本发明实施例还提供一种网络社团挖掘装置，该网络社团挖掘装置用于执行前述网络社团挖掘方法的任一实施例。具体地，请参阅图6，图6是本发明实施例提供的网络社团挖掘装置的示意性框图。该网络社团挖掘装置100可以配置于智能终端中。

如图6所示，网络社团挖掘装置100包括子图划分单元110、初始织网单元120、社团检测单元130。

子图划分单元110，用于获取理赔数据对应的节点，通过谱聚类将所述理赔数据对应的节点并行划分为多个子图。

在本实施例中，是在管理服务器中对理赔数据进行网络社团挖掘。当管理服务器接收了海量的案件数据(例如车险理赔场景下的案件数据包括司机、报案人、受益人和伤者，以及修理厂、报案电话、检修地点、GPS信息等数据)，若采用现有技术中小规模网络织网，会导致织网效率低下。此时，可以选择通过谱聚类算法对海量的节点进行区域的划分，使得不同子图(子图可以视为一块区域，该区域内包括包括多个节点)内的节点之间的联系权重较小(即未超过预设的联系权重阈值)，而同一子图内的节点之间的联系权重较大(即超过预设的联系权重阈值)。通过谱聚类算法能快速的将所述理赔数据对应的节点并行划分为多个子图。

在一实施例中，如图7所示，所述子图划分单元110包括：

初始录入单元111，用于获取所输入的相似度矩阵和目标聚类数目；

相似矩阵构建单元112，用于根据所述相似度矩阵构建与所述理赔数据对应的节点相应的相似矩阵；

拉普拉斯矩阵构建单元113，用于根据所述相似矩阵构建邻接矩阵和对角矩阵，由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵；

目标特征向量集合获取单元114，用于获取所述拉普拉斯矩阵中的多个特征值的排名，若判断特征值的排名位于预设排名阈值之前，获取对应的特征向量以组成目标特征向量集合；

目标向量矩阵获取单元115，用于将目标特征向量集合中每一特征向量转置为列向量并依次组合，以得到目标向量矩阵；

矩阵聚类单元116，用于通过k-means算法将目标向量矩阵中各行向量进行聚类，得到与所述目标聚类数目相同的子团。

初始织网单元120，用于将多个子图分别进行织网，得到初始理赔社交网络拓扑图。

在本实施例中，通过谱聚类将初始的节点划分为多个区域形成多个子图后，形成了多个规模较小的图，此时需要将每个子图进行织网，得到初始理赔社交网络拓扑图。之后通过社团检测算法，可对初始理赔社交网络拓扑图进行聚类，得到网络社团。

社团检测单元130，用于通过社团检测对初始理赔社交网络拓扑图进行聚类，得到网络社团。

在本实施例中，社团检测，就是要在一个图(包含顶点和边，例如步骤一中的初始理赔社交网络拓扑图)上发现社团结构，也就是要把图中的结点进行聚类，构成多个的社团。关于社团(community)，目前还没有确切的定义，一般认为社团内部的点之间的连接相对稠密，而不同社团的点之间的连接相对稀疏。例如，输入初始理赔社交网络拓扑图后，通过社团检测算法处理后会输出一种社团划分，也即切图后的网络，通过社团检测实现了并行切网。

在一实施例中，如图8所示，所述社团检测单元130，包括：

初始划分单元131，用于将初始理赔社交网络拓扑图中每一节点作为初始网络社团；

初次更新单元132，用于将每一初始网络社团划分至多个关联的初始网络社团中，以计算每一初始网络社团与每一关联的初始网络社团组成新社团分别对应的模块度增量，获取多个新社团分别对应的模块度增量中最大值所对应的新社团以作为所每一初始网络社团的当前更新网络社团；

迭代更新单元133，用于重复执行将当前更新网络社团划分至多个关联的当前更新网络社团中，以计算每一当前网络社团与每一关联的当前网络社团组成当前新社团分别对应的模块度增量，获取多个当前新社团分别对应的模块度增量中最大值所对应的当前新社团的步骤，直至当前新社团中节点数为恒定常数，将当前新社团作为网络社团。

基于模块度进行社团检测时，过程如下：

2)将某一节点划分到所有有关联的社区中；

在一实施例中，如图9所示，所述网络社团挖掘装置100，还包括：

模块度获取单元141，用于获取所述网络社团中所包括每一社团对应的模块度；

第一标识单元142，用于若每一社团对应的模块度均小于1，标识所述网络社团通过社区网络划分验证；

第二标识单元143，用于若有社团对应的模块度大于或等于1，标识所述网络社团未通过社区网络划分验证，通过社团检测对模块度大于或等于1的社团进行聚类，得到更新后的社团网络。

在一实施例中，如图10所示，所述网络社团挖掘装置100还包括：

高频数据清理单元101，用于判断初始理赔数据中是否存在频次超过预设的频次阈值的高频数据，若所述初始理赔数据中存在频次超过所述频次阈值的高频数据，将所述高频数据进行删除，得到高频清理后的数据；

超时数据清理单元102，用于判断高频清理后的数据中是否存在数据产生时间超出预设的时间段区间的数据，若高频清理后的数据中存在数据产生时间超出所述时间段区间的数据，将数据产生时间超出所述时间段区间的数据进行删除，得到理赔数据。

c)将业务规则结合网络模块度结合挖掘高风险网络。

该装置实现了对理赔数据的全量数据进行高效的实时织网和并行切网，并基于社团发现算法快速得到网络社团，以便于基于社团聚集查找疑似欺诈的团伙。

上述网络社团挖掘装置可以实现为计算机程序的形式，该计算机程序可以在如图11所示的计算机设备上运行。

请参阅图11，图11是本发明实施例提供的计算机设备的示意性框图。

参阅图11，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行网络社团挖掘方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行网络社团挖掘方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图11中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下功能：获取理赔数据对应的节点，通过谱聚类将所述理赔数据对应的节点并行划分为多个子图；将多个子图分别进行织网，得到初始理赔社交网络拓扑图；通过社团检测对初始理赔社交网络拓扑图进行聚类，得到网络社团。

在一实施例中，处理器502在执行所述通过谱聚类将所述理赔数据对应的节点并行划分为多个子图的步骤时，执行如下操作：获取所输入的相似度矩阵和目标聚类数目；根据所述相似度矩阵构建与所述理赔数据对应的节点相应的相似矩阵；根据所述相似矩阵构建邻接矩阵和对角矩阵，由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵；获取所述拉普拉斯矩阵中的多个特征值的排名，若判断特征值的排名位于预设排名阈值之前，获取对应的特征向量以组成目标特征向量集合；将目标特征向量集合中每一特征向量转置为列向量并依次组合，以得到目标向量矩阵；通过k-means算法将目标向量矩阵中各行向量进行聚类，得到与所述目标聚类数目相同的子团。

在一实施例中，处理器502在执行所述通过社团检测对初始理赔社交网络拓扑图进行聚类，得到网络社团的步骤时，执行如下操作：将初始理赔社交网络拓扑图中每一节点作为初始网络社团；将每一初始网络社团划分至多个关联的初始网络社团中，以计算每一初始网络社团与每一关联的初始网络社团组成新社团分别对应的模块度增量，获取多个新社团分别对应的模块度增量中最大值所对应的新社团以作为所每一初始网络社团的当前更新网络社团；重复执行将当前更新网络社团划分至多个关联的当前更新网络社团中，以计算每一当前网络社团与每一关联的当前网络社团组成当前新社团分别对应的模块度增量，获取多个当前新社团分别对应的模块度增量中最大值所对应的当前新社团的步骤，直至当前新社团中节点数为恒定常数，将当前新社团作为网络社团。

在一实施例中，处理器502在执行所述通过社团检测对初始理赔社交网络拓扑图进行聚类，得到网络社团的步骤之后，还执行如下操作：获取所述网络社团中所包括每一社团对应的模块度；若每一社团对应的模块度均小于1，标识所述网络社团通过社区网络划分验证；若有社团对应的模块度大于或等于1，标识所述网络社团未通过社区网络划分验证，通过社团检测对模块度大于或等于1的社团进行聚类，得到更新后的社团网络。

在一实施例中，处理器502在执行所述获取理赔数据对应的节点，通过谱聚类将所述理赔数据对应的节点并行划分为多个子图的步骤之前，还执行如下操作：判断初始理赔数据中是否存在频次超过预设的频次阈值的高频数据，若所述初始理赔数据中存在频次超过所述频次阈值的高频数据，将所述高频数据进行删除，得到高频清理后的数据；判断高频清理后的数据中是否存在数据产生时间超出预设的时间段区间的数据，若高频清理后的数据中存在数据产生时间超出所述时间段区间的数据，将数据产生时间超出所述时间段区间的数据进行删除，得到理赔数据。

本领域技术人员可以理解，图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图11所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现以下步骤：获取理赔数据对应的节点，通过谱聚类将所述理赔数据对应的节点并行划分为多个子图；将多个子图分别进行织网，得到初始理赔社交网络拓扑图；通过社团检测对初始理赔社交网络拓扑图进行聚类，得到网络社团。

在一实施例中，所述通过谱聚类将所述理赔数据对应的节点并行划分为多个子图，包括：获取所输入的相似度矩阵和目标聚类数目；根据所述相似度矩阵构建与所述理赔数据对应的节点相应的相似矩阵；根据所述相似矩阵构建邻接矩阵和对角矩阵，由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵；获取所述拉普拉斯矩阵中的多个特征值的排名，若判断特征值的排名位于预设排名阈值之前，获取对应的特征向量以组成目标特征向量集合；将目标特征向量集合中每一特征向量转置为列向量并依次组合，以得到目标向量矩阵；通过k-means算法将目标向量矩阵中各行向量进行聚类，得到与所述目标聚类数目相同的子团。

在一实施例中，所述通过社团检测对初始理赔社交网络拓扑图进行聚类，得到网络社团，包括：将初始理赔社交网络拓扑图中每一节点作为初始网络社团；将每一初始网络社团划分至多个关联的初始网络社团中，以计算每一初始网络社团与每一关联的初始网络社团组成新社团分别对应的模块度增量，获取多个新社团分别对应的模块度增量中最大值所对应的新社团以作为所每一初始网络社团的当前更新网络社团；重复执行将当前更新网络社团划分至多个关联的当前更新网络社团中，以计算每一当前网络社团与每一关联的当前网络社团组成当前新社团分别对应的模块度增量，获取多个当前新社团分别对应的模块度增量中最大值所对应的当前新社团的步骤，直至当前新社团中节点数为恒定常数，将当前新社团作为网络社团。

在一实施例中，所述通过社团检测对初始理赔社交网络拓扑图进行聚类，得到网络社团之后，还包括：获取所述网络社团中所包括每一社团对应的模块度；若每一社团对应的模块度均小于1，标识所述网络社团通过社区网络划分验证；若有社团对应的模块度大于或等于1，标识所述网络社团未通过社区网络划分验证，通过社团检测对模块度大于或等于1的社团进行聚类，得到更新后的社团网络。

在一实施例中，所述获取理赔数据对应的节点，通过谱聚类将所述理赔数据对应的节点并行划分为多个子图之前，还包括：判断初始理赔数据中是否存在频次超过预设的频次阈值的高频数据，若所述初始理赔数据中存在频次超过所述频次阈值的高频数据，将所述高频数据进行删除，得到高频清理后的数据；判断高频清理后的数据中是否存在数据产生时间超出预设的时间段区间的数据，若高频清理后的数据中存在数据产生时间超出所述时间段区间的数据，将数据产生时间超出所述时间段区间的数据进行删除，得到理赔数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种网络社团挖掘方法，其特征在于，包括：

将多个子图分别进行织网，得到初始理赔社交网络拓扑图；

通过社团检测对初始理赔社交网络拓扑图进行聚类，得到网络社团；

所述通过谱聚类将所述理赔数据对应的节点并行划分为多个子图，包括：

获取所输入的相似度矩阵和目标聚类数目；

根据所述相似度矩阵构建与所述理赔数据对应的节点相应的相似矩阵；

根据所述相似矩阵构建邻接矩阵和对角矩阵，由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵；

获取所述拉普拉斯矩阵中的多个特征值的排名，若判断特征值的排名位于预设排名阈值之前，获取对应的特征向量以组成目标特征向量集合；

将目标特征向量集合中每一特征向量转置为列向量并依次组合，以得到目标向量矩阵；

通过k-means算法将目标向量矩阵中各行向量进行聚类，得到与所述目标聚类数目相同的子图；

所述通过社团检测对初始理赔社交网络拓扑图进行聚类，得到网络社团，包括：

将初始理赔社交网络拓扑图中每一节点作为初始网络社团；

将每一初始网络社团划分至多个关联的初始网络社团中，以计算每一初始网络社团与每一关联的初始网络社团组成新社团分别对应的模块度增量，获取多个新社团分别对应的模块度增量中最大值所对应的新社团以作为所每一初始网络社团的当前更新网络社团；

重复执行将当前更新网络社团划分至多个关联的当前更新网络社团中，以计算每一当前更新网络社团与每一关联的当前更新网络社团组成当前新社团分别对应的模块度增量，获取多个当前新社团分别对应的模块度增量中最大值所对应的当前新社团的步骤，直至当前新社团中节点数为恒定常数，将当前新社团作为网络社团。

2.根据权利要求1所述的网络社团挖掘方法，其特征在于，所述通过社团检测对初始理赔社交网络拓扑图进行聚类，得到网络社团之后，还包括：

获取所述网络社团中所包括每一社团对应的模块度；

若每一社团对应的模块度均小于1，标识所述网络社团通过社区网络划分验证；

若有社团对应的模块度大于或等于1，标识所述网络社团未通过社区网络划分验证，通过社团检测对模块度大于或等于1的社团进行聚类，得到更新后的网络社团。

3.根据权利要求1所述的网络社团挖掘方法，其特征在于，所述获取理赔数据对应的节点，通过谱聚类将所述理赔数据对应的节点并行划分为多个子图之前，还包括：

判断初始理赔数据中是否存在频次超过预设的频次阈值的高频数据，若所述初始理赔数据中存在频次超过所述频次阈值的高频数据，将所述高频数据进行删除，得到高频清理后的数据；

判断高频清理后的数据中是否存在数据产生时间超出预设的时间段区间的数据，若高频清理后的数据中存在数据产生时间超出所述时间段区间的数据，将数据产生时间超出所述时间段区间的数据进行删除，得到理赔数据。

4.一种网络社团挖掘装置，其特征在于，包括：

社团检测单元，用于通过社团检测对初始理赔社交网络拓扑图进行聚类，得到网络社团；

所述子图划分单元，包括：

初始录入单元，用于获取所输入的相似度矩阵和目标聚类数目；

相似矩阵构建单元，用于根据所述相似度矩阵构建与所述理赔数据对应的节点相应的相似矩阵；

拉普拉斯矩阵构建单元，用于根据所述相似矩阵构建邻接矩阵和对角矩阵，由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵；

目标特征向量集合获取单元，用于获取所述拉普拉斯矩阵中的多个特征值的排名，若判断特征值的排名位于预设排名阈值之前，获取对应的特征向量以组成目标特征向量集合；

目标向量矩阵获取单元，用于将目标特征向量集合中每一特征向量转置为列向量并依次组合，以得到目标向量矩阵；

矩阵聚类单元，用于通过k-means算法将目标向量矩阵中各行向量进行聚类，得到与所述目标聚类数目相同的子图；

所述社团检测单元，包括：

初始划分单元，用于将初始理赔社交网络拓扑图中每一节点作为初始网络社团；

初次更新单元，用于将每一初始网络社团划分至多个关联的初始网络社团中，以计算每一初始网络社团与每一关联的初始网络社团组成新社团分别对应的模块度增量，获取多个新社团分别对应的模块度增量中最大值所对应的新社团以作为所每一初始网络社团的当前更新网络社团；

迭代更新单元，用于重复执行将当前更新网络社团划分至多个关联的当前更新网络社团中，以计算每一当前更新网络社团与每一关联的当前更新网络社团组成当前新社团分别对应的模块度增量，获取多个当前新社团分别对应的模块度增量中最大值所对应的当前新社团的步骤，直至当前新社团中节点数为恒定常数，将当前新社团作为网络社团。

5.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的网络社团挖掘方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至3任一项所述的网络社团挖掘方法。