CN111339436A

CN111339436A - 一种数据识别方法、装置、设备以及可读存储介质

Info

Publication number: CN111339436A
Application number: CN202010086855.6A
Authority: CN
Inventors: 郑巧玲; 石志林; 应秋芳; 胡彬; 张�浩; 张纪红
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-11
Filing date: 2020-02-11
Publication date: 2020-06-26
Anticipated expiration: 2040-02-11
Also published as: WO2021159766A1; US20220172090A1; CN111339436B

Abstract

本申请实施例公开了一种数据识别方法、装置、设备以及可读存储介质，本申请属于计算机技术领域，方法包括：获取目标用户集合；上述目标用户集合中包括至少两个具有社交关联关系的用户；获取默认异常用户，根据上述默认异常用户确定上述目标用户集合中的异常用户；根据上述异常用户，确定上述目标用户集合的状态；若上述目标用户集合的状态为异常状态，则根据上述异常用户与上述目标用户集合中的待确认用户之间的社交关联关系，在上述待确认用户中识别扩散异常用户；上述待确认用户为上述目标用户集合中除上述异常用户以外的用户。采用本申请，提高数据识别的准确率。

Description

一种数据识别方法、装置、设备以及可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据识别方法、装置、设备以及可读存储介质。

背景技术

在工作与生活中，部分用户存在违法行为，这些存在违法行为的用户可被认为是异常用户。为减少异常用户的违法行为发生，高效快速的识别出异常用户，显得十分有必要。

在现有技术中，对于异常用户的识别，主要是通过对用户的行为特征数据进行识别，若用户的行为特征数据符合异常用户的行为特征数据，则将该用户确定为异常用户，但可能存在异常用户会模仿正常用户的合法行为，使得这类异常用户所对应的行为特征数据更趋近于合法的行为特征数据，这样会使得在识别过程中，会将本该为异常的用户识别为正常用户，从而造成识别不准确。

申请内容

本申请实施例提供一种数据识别方法、装置、设备以及可读存储介质，可以提高数据识别的准确率。

本申请实施例一方面提供了一种数据识别方法，包括：

获取目标用户集合；上述目标用户集合中包括至少两个具有社交关联关系的用户；

获取默认异常用户，根据上述默认异常用户确定上述目标用户集合中的异常用户；

根据上述异常用户，确定上述目标用户集合的状态；

若上述目标用户集合的状态为异常状态，则根据上述异常用户与上述目标用户集合中的待确认用户之间的社交关联关系，在上述待确认用户中识别扩散异常用户；上述待确认用户为上述目标用户集合中除上述异常用户以外的用户。

本申请实施例一方面提供了一种数据识别装置，包括：

目标用户集合获取模块，用于获取目标用户集合；上述目标用户集合中包括至少两个具有社交关联关系的用户；

异常用户确定模块，用于获取默认异常用户，根据上述默认异常用户确定上述目标用户集合中的异常用户；

行为状态检测模块，用于根据上述异常用户，确定上述目标用户集合的状态；

扩散异常用户识别模块，用于若上述目标用户集合的状态为异常状态，则根据上述异常用户与上述目标用户集合中的待确认用户之间的社交关联关系，在上述待确认用户中识别扩散异常用户；上述待确认用户为上述目标用户集合中除上述异常用户以外的用户。

其中，上述异常用户确定模块，包括：

异常用户确定单元，用于将上述目标用户集合中的用户与上述默认异常用户进行匹配，将匹配率达到匹配阈值的用户确定为上述目标用户集合中的异常用户。

其中，上述行为状态检测模块，包括：

用户总数量获取单元，用于获取上述异常用户的数量，获取上述目标用户集合中用户的总数量；

异常浓度确定单元，用于根据上述异常用户的数量以及上述目标用户集合中用户的总数量，确定上述目标用户集合的异常浓度；

第一状态确定单元，用于若上述异常浓度小于浓度阈值，则将上述目标用户集合的状态确定为正常状态；

上述第一状态确定单元，还用于若上述异常浓度大于或等于浓度阈值，则将上述目标用户集合的状态确定为异常状态。

其中，上述行为状态检测模块，包括：

行为特征获取单元，用于获取用户社交行为特征集合；上述用户社交行为特征集合中包括上述用户群中每个用户的社交行为特征；

特征分布度确定单元，用于根据上述用户社交行为特征集合中的社交行为特征，确定上述异常用户的第一特征分布度；上述第一特征分布度用于表征上述异常用户具备的社交行为特征的种类数；

上述特征分布度确定单元，还用于根据上述用户社交行为特征集合中的社交行为特征，确定上述目标用户集合中用户的第二特征分布度；上述第二特征分布度用于表征上述目标用户集合中用户具备的社交行为特征的种类数；

特征分布差异度确定单元，用于根据上述第一特征分布集中度以及上述第二特征分布度，确定上述异常用户与上述目标用户集合中的用户之间的特征分布差异度；

第二状态确定单元，用于根据上述第一特征分布度以及上述特征分布差异度，确定上述目标用户集合的状态。

其中，上述第二状态确定单元，还用于若上述特征分布差异度小于差异度阈值，且上述第一特征分布度小于分布阈值，则将上述目标用户集合的状态确定为正常状态；

上述第二状态确定单元，还用于若上述特征分布差异度大于或等于上述差异度阈值，且上述第一特征分布度大于或等于上述分布阈值，则将上述目标用户集合的状态确定为正常状态；

上述第二状态确定单元，还用于若上述特征分布差异度大于或等于上述差异度阈值，且上述第一特征分布度小于上述分布阈值，则将上述目标用户集合的状态确定为异常状态。

其中，上述目标用户集合获取模块，包括：

关系拓扑图获取单元，用于获取用户群对应的关系拓扑图；上述关系拓扑图包括N个节点k，N个上述节点k与上述用户群中的用户一一对应，N为上述用户群中的用户数；两个节点k之间的边权重是基于上述用户群中的两个用户之间的社交关联关系所确定的；

抽样路径获取单元，用于根据路径抽样数量，在上述关系拓扑图中获取上述节点k对应的抽样路径；

跳转概率确定单元，用于根据上述关系拓扑图中的边权重，确定上述节点 k与上述抽样路径中的关联节点之间的跳转概率；上述关联节点是指上述抽样路径中除上述节点k以外的节点；

目标用户集合确定单元，用于根据上述跳转概率更新上述关系拓扑图，得到更新后的关系拓扑图，在上述更新后的关系拓扑图中确定上述目标用户集合。

其中，上述关系拓扑图获取单元，包括：

用户群获取子单元，用于获取用户群，将上述用户群中的每个用户均作为节点k；

权重设置子单元，用于在具有社交关联关系的用户所对应的节点k之间进行边连接，根据上述具有社交关联关系的用户之间的社交行为记录，对上述节点k之间的边设置初始权重；

概率转换子单元，用于将上述初始权重进行概率转换，得到上述边权重；

关系拓扑图生成子单元，用于根据上述用户群对应的节点k以及上述边权重，生成上述关系拓扑图。

其中，上述跳转概率确定单元，包括：

中间节点获取子单元，用于若上述节点k与上述关联节点之间不具有边，则在上述抽样路径中获取上述节点k与上述关联节点之间的中间节点；上述节点k通过上述中间节点可到达上述关联节点；

连接节点对确定子单元，用于在上述节点k、上述中间节点以及上述关联节点中，将具有边的两个节点，作为连接节点对，获取上述连接节点对对应的边权重；

跳转概率确定子单元，用于根据上述连接节点对对应的边权重，确定上述节点k与上述关联节点之间的跳转概率。

其中，上述目标用户集合确定单元，包括：

更新节点边子单元，用于根据上述节点k和上述关联节点，对上述关系拓扑图中所连接的边进行更新，得到过渡关系拓扑图；上述过渡关系拓扑图中的上述节点k与上述关联节点均连接有边；

边权重设置子单元，用于在上述过渡关系拓扑图中，将上述节点k与上述关联节点之间的跳转概率，设置为上述节点k与上述关联节点之间的边权重，得到目标关系拓扑图；

目标用户集合确定子单元，用于在上述目标关系拓扑图中确定上述目标用户集合。

其中，上述目标用户集合确定子单元，还用于将上述跳转概率进行指数增长，将进行指数增长后得到的跳转概率进行概率转换，得到目标概率，根据上述目标概率更新上述节点k与上述关联节点之间的边权重；

上述目标用户集合确定子单元，还用于将更新后的边权重大于权重阈值的关联节点，确定为上述节点k的重要关联节点；

上述目标用户集合确定子单元，还用于根据上述节点k和上述重要关联节点，将上述目标关系拓扑图划分为至少两个社区拓扑图，在上述至少两个社区拓扑图中获取目标社区拓扑图，作为上述目标用户集合。

其中，上述扩散异常用户识别模块，包括：

第一关联关系用户确定单元，用于若上述目标用户集合的状态为异常状态，则在上述待确认用户中确定出与上述异常用户具有社交关联关系的用户；

第一扩散异常用户确定单元，用于将上述与上述异常用户具有社交关联关系的用户确定为上述扩散异常用户。

其中，上述扩散异常用户识别模块，包括：

第二关联关系用户确定单元，用于若上述目标用户集合的状态为异常状态，则在上述待确认用户中确定出与上述异常用户具有社交关联关系的用户；

第二扩散异常用户确定单元，用于获取上述异常用户对应的异常用户节点，获取上述与上述异常用户具有社交关联关系的用户对应的关联用户节点，将上述异常用户节点与上述关联用户节点之间的边权重大于关联阈值的关联用户节点，确定为扩散异常节点，将上述扩散异常节点对应的用户确定为上述扩散异常用户。

其中，还包括：

待识别用户集合确定模块，用于将上述处于异常状态的上述目标用户集合确定为待识别用户集合；

关键文本数据提取模块，用于获取上述待识别用户集合中用户的用户文本数据，在上述用户文本数据中提取出关键文本数据；

敏感源数据获取模块，用于获取敏感源数据；

异常类别确定模块，用于将上述关键文本数据与上述敏感源数据进行匹配，根据匹配结果确定上述待识别用户集合的异常类别。

本申请实施例一方面提供了一种计算机设备，包括：处理器和存储器；

上述存储器存储有计算机程序，上述计算机程序被上述处理器执行时，使得所诉处理器执行如本申请实施例中的方法。

本申请实施例一方面提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序包括程序指令，上述程序指令当被处理器执行时，执行如本申请实施例中的方法。

本申请实施例通过获取目标用户集合；上述目标用户集合中包括至少两个具有社交关联关系的用户；获取默认异常用户，根据上述默认异常用户确定上述目标用户集合中的异常用户；根据上述异常用户，确定上述目标用户集合的状态；若上述目标用户集合的状态为异常状态，则根据上述异常用户与上述目标用户集合中的待确认用户之间的社交关联关系，在上述待确认用户中识别扩散异常用户；上述待确认用户为上述目标用户集合中除上述异常用户以外的用户。上述可知，通过将具有社交关联关系的用户划分至目标用户集合中，在确定出该目标用户集合中的异常用户，且该目标用户集合为异常状态时，可以在该目标用户集合中获取到与该异常用户具有社交关联关系的用户，直接将上述与该异常用户具有社交关联关系的用户作为扩散异常用户，无需再对每一个用户都进行一次特征匹配，通过社交关联关系即可进行扩散异常用户的识别，因此，即使扩散异常用户具有与正常用户相似的特征，但由于该扩散异常用户与异常用户具有社交关联关系，依然可以被识别出来，从而可以提高识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构图；

图2a是本申请实施例提供的一种确定扩散异常用户的场景示意图；

图2b是本申请实施例提供的一种确定扩散异常用户的场景示意图；

图3是本申请实施例提供的一种数据识别方法的流程示意图；

图4a是本申请实施例提供的一种确定目标用户集合的状态的场景示意图；

图4b是本申请实施例提供的一种确定目标用户集合的状态的场景示意图；

图5是本申请实施例提供的一种获取目标用户集合的流程示意图；

图6a是本申请实施例提供的一种节点关系列表的示意图；

图6b是本申请实施例提供的一种节点关系的示意图；

图6c是本申请实施例提供的一种包含初始权重的节点关系的示意图；

图6d是本申请实施例提供的一种关系拓扑图的示意图；

图7是本申请实施例提供的一种划分社区拓扑图的场景示意图；

图8是本申请实施例提供的一种确定处于异常状态的目标用户集合的异常类别的流程示意图；

图9是本申请实施例提供的一种数据识别装置的结构示意图；

图10是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例提供的一种网络架构图。如图1所示，该网络架构可以包括业务服务器1000以及后台服务器集群，其中，上述后台服务器集群可以包括多个每个后台服务器，如图1所示，具体可以包括后台服务器100a、后台服务器100b、后台服务器100c、…、后台服务器100n。如图1所示，后台服务器100a、后台服务器100b、后台服务器100c、…、后台服务器100n可以分别与上述业务服务器1000进行网络连接，以便于每个后台服务器可以通过该网络连接与业务服务器1000进行数据交互，以便于上述业务服务器1000可以接收到来自于每个后台服务器的业务数据。

如图1所示的每个后台服务器均与用户终端相对应，可以用于存储对应的用户终端的业务数据。每个用户终端均可以集成安装有目标应用，当该目标应用运行于各用户终端中时，则每个用户终端对应的后台服务器可以对应用中的业务数据进行存储，并与上述图1所示的业务服务器1000之间进行数据交互。其中，该目标应用可以包括具有显示文字、图像、音频以及视频等数据信息功能的应用。如，应用可以为支付应用，该支付应用可以用于用户之间进行资金转账；也可以为社交类应用，如即时通讯应用，可以用于用户之间进行沟通联系。本申请中的业务服务器1000可以从这些应用的后台(如上述后台服务器集群)收集到数据，如，该数据可以为用于表征用户的用户身份信息(如用户id)、用户之间的转账记录以及用户之间的通信记录等，根据收集的数据，业务服务器1000可以将这些数据中的用户作为社区中的用户节点，还可以确定这些用户节点之间的社交关联关系。

本申请实施例可以在多个用户终端中选择一个用户终端作为目标用户终端，该目标用户终端可以包括：智能手机、平板电脑、桌上型电脑等携带显示和播放数据信息功能的智能终端。例如，本申请实施例可以将图1所示的后台服务器100a对应的用户终端作为该目标用户终端，该目标用户终端中可以集成有上述目标应用，此时，该目标用户终端对应的后台服务器100a可以与业务服务器 1000之间进行数据交互。如，大量的用户在使用用户终端中的各种应用时，业务服务器1000通过后台服务器可以检测并收集到这些大量用户之间的社交关联关系，如，用户A与用户B具有通信记录，则业务服务器1000可以确定用户A与用户B之间具有社交关联关系，且该社交关联关系为通信关系。在检测到大量用户且确定出这些用户之间的社交关联关系后，业务服务器1000可以将这些大量用户作为用户群，将该用户群中的每个用户均作为一个节点，并将具有社交关联关系的用户所对应的节点之间进行边连接。根据该具有社交关联关系的用户之间的社交行为记录，对节点之间的边设置边权重，根据该用户群以及该边权重，可以构建生成关系拓扑图，根据节点之间的边权重大小，可以在该关系拓扑图中划分出至少两个不同的社区拓扑图。也就是说，业务服务器 1000可以根据用户群中用户之间的社交关联关系以及社交行为记录，将用户群划分成至少两个社区。后续，根据已有的异常用户样本，业务服务器1000可以在上述社区中识别出异常用户，根据每个社区中的异常用户，业务服务器1000 可以确定出社区是正常状态或是异常状态。若社区为异常状态，则业务服务器 1000可以获取该异常社区中的异常用户，根据该异常社区中异常用户与该异常社区中的非异常用户之间的社交关联关系，业务服务器1000可以在该异常社区的非异常用户中确定出扩散异常用户。需要说明的是，这里确定出扩散异常用户的目的在于识别出更大范围的异常用户，因为预先检测出来的异常用户样本可能存在样本数量小，异常用户范围覆盖度不高的情况，进而使得根据异常用户样本在异常社区中识别出的异常用户的覆盖度小，有部分异常用户未被识别出来。所以，为了提高识别的准确率，扩大覆盖度，可以根据异常社区中已识别出的异常用户的社交关联关系来确定出扩散异常用户。

以在一个社区拓扑图中确定扩散异常用户为例，对于确定扩散异常用户，业务服务器1000可以采取以下的实现方式，业务服务器1000可以在划分出的社区拓扑图中选择一个社区拓扑图作为目标用户集合，也就是说，该目标用户集合中包括至少两个具有社交关联关系的用户，业务服务器1000可以获取默认异常用户(即已有的异常用户样本)，根据该默认异常用户，业务服务器1000 可以确定出该目标用户集合中的异常用户，根据该异常用户的数量以及该目标用户集合中用户的总数量，业务服务器1000可以检测出该目标用户集合的状态，当该目标用户集合为异常状态时，业务服务器1000可以根据该异常用户与该目标用户集合中的待确认用户之间的社交关联关系，在该待确认用户中识别出扩散异常用户，并将该扩散异常用户也作为异常用户，其中，该待确认用户为该目标用户集合中除该异常用户之外的用户。在确定出每个关系拓扑图中的异常用户(包括扩散异常用户)后，业务服务器1000可以根据每个关系拓扑图的异常用户生成识别结果，将该识别结果返回至后台服务器。

可选的，可以理解的是，后台服务器可以将各自对应的用户终端所对应的大量用户确定为用户群，根据用户群划分成不同的社区拓扑图，进而得到不同的用户集合，在用户集合中识别出异常用户与扩散异常用户，这里的后台服务器识别出异常用户与扩散异常用户的具体实现方式可以参见上述业务服务器识别出异常用户与扩散异常用户的描述，这里将不再进行赘述。

可以理解的是，本申请实施例提供的方法可以由计算机设备执行，计算机设备包括但不限于终端或服务器。

进一步地，为便于理解，请参见图2a，是本申请实施例提供的一种确定扩散异常用户的场景示意图。如图2a所示，以目标用户集合为200a为例，业务服务器2000可以获取到已有的默认异常用户(即已有的异常用户样本)，，将该默认异常用户与目标用户集合200a中的节点所对应的用户进行匹配，将匹配率达到匹配阈值的用户作为异常用户。如，目标用户集合200a中的用户d与用户 k与默认异常用户的匹配率大于了匹配阈值，则可以将用户d与用户k作为异常用户，则目标用户集合200a的用户总数量为5(用户c+用户e+用户d+用户 g+用户k)，异常用户的数量为2(异常用户d与异常用户k)，根据用户总数量 5以及异常用户数量2，可以确定出目标用户集合200a的异常浓度为40％，大于了浓度阈值30％，则业务服务器2000可以将目标用户集合200a的状态确定为异常状态，即目标用户集合200a为异常社区。后续，根据异常用户d与异常用户k的社交关联关系(即在目标用户集合200a中是否具有边)，可以在异常的目标用户集合200a中确定出扩散异常用户，如，用户d与用户e具有边，且用户d与用户e的边权重为0.8，大于了关联阈值0.75，则可以说明用户e与异常用户d具有很强的关联关系，用户e有极大的概率也为异常用户，则可以将用户e作为扩散异常用户，用户d与用户c之间也具有边，但用户d与用户c 之间的边权重为0.56，可以看出，0.56远小于关联阈值0.75，则可以说明用户 d与用户c之间虽存在社交关联关系，但关联程度很弱，用户c是异常用户的概率很小，则可以将用户c作为非异常用户。同理，用户k与用户g之间具有边，但用户k与用户g之间的边权重为0.5,0.5远小于关联阈值0.75，则可以将用户g作为非异常用户，用户k与用户e之间具有边，但不是由用户k到达用户e的边，所以可以考虑为用户k无法到达用户e,则对于用户k而言，用户e 是非异常用户，但对于用户d而言，用户e是扩散异常用户，则业务与服务器 2000可以将用户e确定为扩散异常用户。后续，业务服务器2000可以确定目标用户集合200a中的异常用户，该异常用户可以包括扩散异常用户e、异常用户d以及异常用户k。

进一步地，请参见图2b，是本申请实施例提供的一种确定扩散异常用户的场景示意图。如图2b所示，以上述图2a所对应实施例中的目标用户集合200a 为例，业务服务器2000可以在目标用户集合200a中识别出用户d与用户k为异常用户，其中，业务服务器2000在目标用户集合200a中识别出用户d与用户k为异常用户的具体实现方式可以参见上述图2a中业务服务器2000在目标用户集合200a中识别出用户d与用户k为异常用户的描述，这里将不再进行赘述。根据异常用户d与异常用户k，业务服务器2000可以确定目标用户集合200a 为异常状态，后续，根据异常用户d与异常用户k的社交关联关系(即在目标用户集合200a中是否具有边)，可以确定出扩散异常用户，如，异常用户d与用户e之间具有边，则可以说明用户e与异常用户d之间具有社交关联关系，用户e有一定概率是异常用户d的同伙，则业务服务器2000可以将用户e确定为扩散异常用户；同理，异常用户d与用户c之间具有边，则业务服务器2000 可以将用户c确定为扩散异常用户；同理，异常用户k与用户g之间具有边，则业务服务器2000可以将用户g确定为扩散异常用户，业务服务器2000可以确定目标用户集合200a中的异常用户，该异常用户为扩散异常用户e、异常用户d、异常用户k、扩散异常用户c以及扩散异常用户g。

进一步地，请参见图3，是本申请实施例提供的一种数据识别方法的流程示意图。如图3所示，该方法的流程可以包括：

步骤S101，获取目标用户集合；上述目标用户集合中包括至少两个具有社交关联关系的用户。

本申请实施例中，目标用户集合可以为社区拓扑图，该社区拓扑图中包括用户对应的节点、节点之间的边以及每条边的边权重，其中，节点之间的边用于表示节点(用户)之间的社交关联关系，边权重用于表示关联程度，可以理解的是，若两个用户具有社交关联关系，则这两个用户对应的节点之间具有边，两个用户的关系越紧密，则关联程度越大，则边权重也会越大，该社区拓扑图可以用于表明节点之间是否具有社交关联关系，以及具有社交关联关系的两个节点的关联程度。其中，这里的社交关联关系可以为支付关系、通信好友关系以及设备关联关系等，如，用户a使用用户b的通信设备(如智能手机)登录过账号，则可以将用户a与用户b确定为具有设备关联关系。对于社交关联关系的包括范围，除支付关系、通信好友关系以及设备关联关系外，还可以为其他形式的关系(如，两个用户社交账号并不具有好友关系，但通过社交账号进行过对话)，本申请对社交关联关系的包括范围不作限制。

目标用户集合可以由用户群对应的关系拓扑图得到，也就是说，该目标用户集合中的节点为用户群的关系拓扑图中的部分节点。根据关系拓扑图中节点之间的边权重(即用户之间的关联程度)，可以对关系拓扑图进行划分，从而可以得到至少两个社区拓扑图，在该至少两个社区拓扑图中任选一个可作为目标用户集合。也就是说，根据用户群中用户之间的社交关联关系以及关联程度，可以将用户群划分成至少两个社区，其中，每个社区中的用户之间的关联程度紧密。

步骤S102，获取默认异常用户，根据上述默认异常用户确定上述目标用户集合中的异常用户。

本申请实施例中，该默认异常用户可以为预设的异常用户样本，该异常用户样本可为预先检测到的异常用户。该默认异常用户的数量可以包括至少两个，默认异常用户可以包括用户的属性信息(如id、姓名、指纹等)，以属性信息为id为例，可将上述目标用户集合中的每个用户的id与该默认异常用户的id 进行匹配，可将该目标用户集合中匹配率达到匹配阈值的用户，确定为该目标用户集合中的异常用户。

可以理解的是，该默认异常用户包括<默认异常用户1，1>与<默认异常用户2，2>，即包括默认异常用户1以及默认异常用户1的id为1，还包括默认异常用户2以及默认异常用户2的id为2，目标用户集合中包括{<用户A，1>， <用户B，4>，<用户C，6>}，则可以将默认异常用户1的id(即1与2)与该目标用户集合用户的id(即1，4，6)进行匹配，可得到匹配结果为用户A的 id1与默认异常用户1的id1匹配，则可将用户A确定为该目标用户集合中的异常用户。

步骤S103，根据上述异常用户，确定上述目标用户集合的状态。

本申请中，可根据异常用户的数量以及该目标用户集合中用户的总数量来对该目标用户集合的状态进行确定。根据该异常用户数量以及该目标用户集合中用户的总数量，可确定出该目标用户集合的异常浓度，其中，该异常浓度是指该目标用户集合中异常用户数量占用户总数量的比例，若该异常浓度小于浓度阈值，则可说明目标用户集合中，异常用户的占比低，则可将该目标用户集合的状态确定为正常状态；若该异常浓度大于浓度阈值，则可说明该目标用户集合中，异常用户的占比高，则可将该目标用户集合的状态确定为异常状态。其中，确定目标用户集合的异常浓度的方法可以如公式(1)所示：

C＝N/M (1)

其中，C可用于表示目标用户集合的异常浓度，N可用于表示目标用户集合中异常用户的数量，M可用于表示目标用户集合中用户的总数量。

可选的，可以通过用户社交行为特征集合来确定目标用户集合的状态，具体为，获取用户社交行为特征集合，这里的用户社交行为特征集合中包括上述用户群中的每个用户的社交行为特征，也就是说，该用户社交行为特征集合中可以包括检测到的用户群中的每个用户的社交行为特征的历史数据，如用户A 去过中心公园与花卉小镇，则可以将用户A去过中心公园与花卉小镇这两个社交行为特征存储至用户社交行为特征集合中。可以理解为，该用户社交行为特征集合可以包括用户使用的通信设备、无线网络以及用户的行为(如频繁去同一个地点)等。根据该用户社交行为特征集合，可以统计出该目标用户集合中异常用户的社交行为特征的种类和数量，根据异常用户具有的每个社交行为特征的分布度，可以确定出信息熵，信息熵越小，则可以表明异常用户在社交行为特征上的分布越集中。信息熵的具体确定方法可以如公式(2)所示：

其中，H(x)可用于表示信息熵，P(x_i)可用于表示用户的每一个社交行为特征的分布度。

可以理解的是，如，上述社交行为特征集包括无线网络、用户的行为以及通信设备这三个社交行为特征，则上述公式(2)中的i可以为1、2以及3。则无线网络这一社交行为特征可用x₁、x₂以及x₃表示，用户的行为这一社交行为特征可以用x₁、x₂以及x₃表示，通信设备这一社交行为特征可用x₁、x₂以及 x₃表示。以下以无线网络用x₁表示、用户的行为用x₂表示以及通信设备用x₃表示为例，对于无线网络这一社交行为特征，异常用户的数量为50个，在这 50个异常用户中，有48个异常用户都使用的同一个无线网络A，有2个异常用户使用的是其他不同的无线网络B，则无线网络这一社交行为特征的数量即为3(1个无线网络A+1个无线网络B+1个无线网络C)。因为在50个异常用户中，有48个异常用户都使用了同一个无线网络A，无线网络的数量小且差异性小则可表明异常用户在无线网络这一社交行为特征上分布集中，可得到异常用户在无线网络这一社交行为特征上的分布度P_{(无线网络)}(即P(x₁)的值为P_{(无线网络)})；对于用户的行为这一社交行为特征，有30个异常用户在同一天都去了同一个咖啡店超过10次，有20个异常用户在相同的一天去过20个不同的其他地方，则异常用户在用户的行为这一社交行为特征上的分布数量即为21(即1个咖啡店+20个其他地方)，因为在50个异常用户中，有30个异常用户都在同一天去了同一个咖啡店，则可表明异常用户在用户的行为这一社交行为上分布较集中，可得到异常用户在用户的行为这一社交行为特征上的分布度P_{(用户的行为)}(即 P(x₂)的值为P_{(用户的行为)})；对于通信设备这一社交行为特征，有10个异常用户使用了同一个通信设备A登录账号，有5个异常用户使用了同一个通信设备B 登录账号，有35个异常用户使用了35个不同的其他通信设备登录账号，则异常用户在通信设备这一社交行为特征上的分布数量为37(即1个通信设备A+1 个通讯设备B+35个其他通信设备)，因为在50个异常用户中，有35个异常用户都使用的是不同的通信设备，通信设备的数量多且差异性大，则可表明异常用户在通信设备这一社交行为特征上分布分散，即集中度低，可得到异常用户在通信设备这一社交行为特征上的分布度P_{(通信设备)}(即P(x₃)的值为P_{(通信设备)})。根据异常用户在无线网络这一社交行为特征上的分布度P_{(无线网络)}、异常用户在用户的行为这一社交行为特征上的分布度P_{(用户的行为)}、异常用户在通信设备这一社交行为特征上的分布度P_{(通信设备)}以及上述公式(2)，可得到异常用户的第一特征分布度为H(x)。也就是说，这里的第一特征分布度H(x)是指异常用户在无线网络、用户的行为以及通信设备这三个社交行为特征上的一个总的分布值。

同理，根据该用户社交行为特征集合中的社交行为特征，可确定出目标用户集合中用户(包括异常用户)的第二特征分布度，即目标用户集合整体的特征分布度。其中，对于确定第二特征分布度的具体实现方式可以参见上述确定第一特征分布度的描述，这里将不再进行赘述。根据该第一特征分布度以及该第二特征分布度，可确定出该异常用户与该目标用户集合中用户之间的特征分布差异度(第一特征分布度与第二特征分布度的差异度)，若该特征分布差异度小于差异度阈值，且该第一特征分布度小于分布度阈值，则可以说明异常用户的社交行为特征分布集中，且与目标用户集合整体的分布差异小，则可以说明该目标用户集合中的异常用户的社交行为特征为正常且大众化的，则该目标用户集合为正常状态；若该特征分布差异度大于或等于差异度阈值，且该第一特征分布度大于或等于分布阈值，则可以说明异常用户的社交行为特征分布分散，且与目标用户集合整体的分布差异大，则可以说明异常用户之间的社交行为特征不一致，且异常用户与非异常用户之间的社交行为特征也不一致，则可以说明该目标用户集合中的异常用户的社交行为特征是具有小众化的特性，则该目标用户集合为正常状态；若该特征分布差异度大于或等于差异度阈值，且该第一特征分布度小于该分布阈值，则可以说明异常用户的社交行为特征分布集中，异常用户之间的社交行为特征比较一致，且异常用户与该目标用户集合中非异常用户之间的社交行为特征差异很大，则该目标用户集合为异常状态。其中，对于特征分布差异度的具体确定方法，可以如公式(3)所示：

其中，D_KL(P||Q)可用于表示特征分布差异度，P(i)可用于表示第一特征分布度(即异常用户的社交行为特征的分布度)，Q(i)可用于表示第二特征分布度(即目标用户集合中用户整体的社交行为特征的分布度)。

可选的，可以理解的是，对于目标用户集合的状态的确定，可以通过目标用户集合的异常浓度来确定，也可以通过用户社交行为特征来确定，还可以通过异常浓度与用户社交行为特征组合的方式来进行确定，即先确定出异常浓度，在异常浓度大于浓度阈值后，再通过用户社交行为特征来确定，也就是说，需同时满足异常浓度大于浓度阈值，且第一特征分布度小于分布阈值，且特征分布差异度大于或等于差异度阈值时，才将目标用户的状态确定为异常状态。

步骤S104，若上述目标用户集合的状态为异常状态，则根据上述异常用户与上述目标用户集合中的待确认用户之间的社交关联关系，在上述待确认用户中识别扩散异常用户；上述待确认用户为上述目标用户集合中除上述异常用户以外的用户。

本申请中，若该目标用户集合的状态为异常状态，则可以在待确认用户中确定出与该异常用户具有社交关联关系的用户，并将该与该异常用户具有社交关联关系的用户确定为扩散异常用户。其中，这里的具有社交关联关系可以是指在异常用户对应的节点所在的社区拓扑图中，异常用户对应的节点与待确认用户对应的节点之间，具有从异常用户出发的边。

可以理解的是，以上述图2b为例，异常用户为用户d与用户k，对于节点 d，可到达节点e与节点c，对于节点k，可到达节点g，则可以将节点e对应的用户e、节点c对应的用户c以及节点g对应的用户g，均确定为扩散异常用户。

可选的，若该目标用户集合的状态为异常状态，则在该待确认用户中确定出与该异常用户具有社交关联关系的用户，并获取该异常用户对应的异常用户节点，获取该与该异常用户具有社交关联关系的用户对应的关联用户节点，将该异常用户节点与该关联用户节点之间的边权重大于关联阈值的关联用户节点，确定为扩散异常节点，将该扩散异常节点对应的用户确定为该扩散异常用户。

可以理解的是，以上述图2a所对应实施例为例，异常用户为用户d与用户 k，对于节点d，可到达节点e与节点c，则可将节点e与节点c确定为节点d 的关联用户节点，节点d到关联用户节点e的边权重为0.8，大于了关联阈值 0.75，节点d到关联用户节点c的边权重为0.56，远小于关联阈值0.75，则可将关联用户节点e确定为扩散异常节点；对于节点k，可到达节点g，可将节点 g确定为节点k的关联用户节点，节点k到关联用户节点g的边权重为0.5，0.5 远小于关联阈值0.75，则关联用户节点g不是扩散异常节点。

上述可知，通过将具有社交关联关系的用户划分至目标用户集合中，在确定出该目标用户集合中的异常用户，且该目标用户集合为异常状态时，可以在该目标用户集合中获取到与该异常用户具有社交关联关系的用户，直接将上述与该异常用户具有社交关联关系的用户作为扩散异常用户，无需再对每一个用户都进行一次特征匹配，通过社交关联关系即可进行扩散异常用户的识别，从而，即使扩散异常用户具有与非异常用户相同的特征，但由于该扩散异常用户与异常用户具有社交关联关系，依然可以被识别出来，从而可以提高识别的准确率。

为便于理解，进一步地，请参见图4a，是本申请实施例提供的一种确定目标用户集合的状态的场景示意图。如图4a所示，以目标用户集合为400a为例，其中，目标用户集合400a中的异常用户为用户e与用户f，根据异常用户e与异常用户f，业务服务器可以统计出异常用户的数量为2，根据目标用户集合 400a中的用户a、用户b、用户c、用户d、用户e以及用户f，业务服务器可以统计出目标用户集合400a的用户总数量为6，则该目标用户集合400a的异常浓度为2/6＝33％，因为该异常浓度33％大于了浓度阈值20％，则业务服务器可以将目标用户集合400a的状态确定为异常状态。

进一步地，请参见图4b，是本申请实施例提供的一种确定目标用户集合的状态的场景示意图。如图4b所示，以目标用户集合为400b为例，其中，目标用户集合400b中的异常用户为用户e、用户f、用户g、用户h以及用户i，用户社交行为特征集合中包括wifi以及用户设备，也就是说，根据该用户社交行为特征集合，可以得知，异常用户h使用的wifi名称为“Z”，异常用户i使用的wifi名称为“X”，异常用户e、异常用户f以及异常用户g使用的wifi名称均为“W”，则可以看出，针对wifi这一社交行为特征，有60％的异常用户都使用同一个wifi，异常用户在wifi这一社交行为特征上的分布较集中，根据这一分布情况，可以得到异常用户在wifi这一社交行为特征上的分布度为P(wifi)；同理，根据该用户社交行为特征集合，可以得知，异常用户e使用过的设备为设备A与设备B、异常用户f使用过的设备为设备B与设备C、异常用户g使用过的设备为设备D、异常用户h使用过的设备为设备A与设备E、异常用户使用过的设备为设备B与设备F，可以看出，有3个异常用户使用过同一个设备，即设备B，有2个异常用户使用过同一个设备A，异常用户在用户设备这一社交行为特征上的分布较为集中，根据这一分布情况，可以得到异常用户在用户设备这一社交行为特征上的分布度为P(用户设备)。根据上述异常用户在 wifi这一社交行为特征上的分布度P(wifi)以及异常用户在用户设备这一社交行为特征上的分布度P(用户设备)以及上述公式(2)，可以得到异常用户在社交行为特征上的第一特征分布度为A；同理，可以求出目标用户集合中用户 (包括异常用户e、异常用户f、异常用户g、异常用户h以及异常用户i)整体的社交行为特征的第二特征分布度为B，根据第一特征分布度A、第二特征分布度B以及上述公式(3)，可以得到异常用户的社交行为特征分布与目标用户集合400b整体的社交行为特征分布的差异度，即异常用户的特征分布差异度为C，其中，因该第一特征分布度A小于分布度阈值D，且该特征分布差异度 C大于差异度阈值E，则业务服务器可以将该目标用户集合400b的状态确定为异常状态。

进一步地，请参见图5，是本申请实施例提供的一种获取目标用户集合的流程示意图。如图5所示，该流程可以包括：

步骤S201，获取用户群对应的关系拓扑图；上述关系拓扑图包括N个节点k，N个上述节点k与上述用户群中的用户一一对应，N为上述用户群中的用户数；两个节点k之间的边权重是基于上述用户群中的两个用户之间的社交关联关系所确定的。

本申请中，N可以该用户群中的用户数，在获取到用户群后，可以将用户群中的每个用户均作为节点k，如，将用户A作为节点A，将用户B作为节点 B，根据该用户群中的两个用户之间的社交关联关系，可以确定出该关系拓扑图中两个节点k之间的边权重。可以理解的是，一个用户群中有N个用户，每个用户可以对应一个节点k，若两个用户之间具有社交关联关系，则可将这两个用户对应的两个节点k之间进行边连接，根据该具有社交关联关系的用户之间的社交行为记录，可以对这些节点k之间的边设置初始权重，并将该初始权重进行概率转换，将概率转换后的结果作为节点k之间的边的边权重，根据该用户群对应的节点k以及该边权重，可以生成用户群对应的关系拓扑图。其中，这里的社交行为记录可以为具有社交关联关系的用户之间的转账金额、转账频次、通信频次以及通信时长等，可以理解的是，两个用户之间的转账金额，或转账频次，或通信频次，或通信时长越大，则对这两个用户的边设置的初始权重越大。其中，这里的概率转换可以指对每条边的初始权重进行标准化处理，如，对于节点i与节点j，节点i与节点j之间存在边，则节点i与节点j之间的边可以表示为M_ij，则对于M_ij的概率转换，可以如公式(4)所示:

其中，W_ij表示节点i与节点j之间的初始权重，

表示n个节点与节点j之间的初始权重之和。

可以理解的是，以用户群中包括用户A、用户B、用户C以及用户D为例，将用户A作为节点A、将用户B作为节点B、将用户C作为节点C以及将用户D作为节点D，为便于直观展现用户之间的社交关联关系，以下以列表的形式表示节点A、节点B、节点C以及节点D之间的关联关系，如图6a所示的列表可以用于表示用户对应的节点关系列表，其中，该节点关系列表可以由第一表头参数、第二表头参数，以及，第一表头参数和第二表头参数共同对应的数据组成。其中，第一表头参数和第二表头参数共同对应的数据可以包括边权重数据。一个边权重数据对应两个节点，边权重数据可以用于指示两个节点之间的关联程度，可以理解的是，边权重越大，则两个节点之间的关联程度越大。其中，第一表头参数可以为行参数，第二表头参数可以为列参数；或者，第一表头参数可以为列参数，第二表头参数可以为行参数。

根据图6a所示的节点关系列表，可得到一个用于表征节点A、节点B、节点C以及节点D之间的关联关系的邻接矩阵A₁，邻接矩阵A₁如下列矩阵所示：

邻接矩阵A₁

其中，邻接矩阵A₁为4×4的矩阵。邻接矩阵A₁中的数值1可以用于表示两个用户之间具有社交关联关系(即节点之间连接有边)，数值0可以用于表示两个用户之间不具有社交关联关系(即节点之间未连接边)。如，用户A与用户B之间存在社交关联关系，需要将节点A与节点B进行边连接，则可以将节点A与节点B共同对应的边权重数据12设置为1；用户D与用户A之间不具有社交关联关系，无需将节点D与节点A进行边连接，则可以将节点D与节点A共同对应的边权重数据41设置为0。需要说明的是，这里对每个节点都添加了自环，也就是说对每个节点都添加了一条到自己的边，也就是说，将边权重数据11、边权重数据22、边权重数据33以及边权重数据44都设置为1。根据邻接矩阵A₁，可以得到用户A、用户B、用户C以及用户D对应的节点关系图，应为图6b所示(将邻接矩阵A₁中，数值1对应的节点之间进行边连接，即可得到图6b)，需要说明的是，这里对每个节点添加自环边的意义在于后续计算过程中，需要使用到自环边对应的边权重(该边权重为1)，即，只需要知道每条自环边的边权重即可，所以在图6b中将不展现出每个节点的自环边。

进一步地，根据用户A、用户B、用户C以及用户D之间的社交行为记录，可以对每条边都设置初始权重，对于用户A与用户B，用户A向用户B转账过两次，其中依次转账金额达到10万，则可以将节点A与节点B的边的初始权重设置为10；对于用户A与用户C，用户A与用户C之间没有社交行为记录(即用户A与用户C之间无转账行为、无通话行为)，则可以将节点A与节点B的边的初始权重设置为1；对于用户B与用户C，用户B与用户C之间通信频繁，且每次的通话时长都于20分钟以上，则可以将节点B与节点C的边的初始权重设置为8；对于用户B与用户D，用户B向用户D转账频繁，则可以将节点B与节点D的边的初始权重设置为9。则根据社交行为记录，可以得到包含初始权重的节点关系图6c，根据初始权重与邻接矩阵A₁，可以得到一个用于表征节点A、节点B、节点C以及节点D之间的关联关系以及关联程度的邻接矩阵A₂，邻接矩阵A₂如下列矩阵所示：

邻接矩阵A₂

邻接矩阵A₂为4×4的矩阵。

对邻接矩阵A₂中的元素(即初始权重)可以进行概率转换(即标准化处理)，具体概率转换的方法可以为，以元素M₁₂(即节点A至节点B的边的初始权重) 为例，可以先获取到节点A到节点B(即元素M₁₂)的初始权重为1，再获取到节点B至节点B的边的初始权重为1，节点C至节点B的初始权重为8，节点D至节点B的边的初始权重为9，即，获取到邻接矩阵A₂中元素M₁₂所在列的元素M₁₂、元素M₂₂、元素M₃₂以及元素M₄₂，将元素M₁₂、元素M₂₂、元素M₃₂以及元素M₄₂的值进行相加，可以得到相加后的结果为28，根据元素 M₁₂的值10与相加结果28，可以得到元素M₁₂进行概率转换后的结果为 10/28＝0.36，则可以将0.36作为节点A至节点B的边权重。同理，可以得到其他边的边权重，根据邻接矩阵A₂以及每个元素进行概率转换后的边权重，可以得到一个用于表征节点A、节点B、节点C以及节点D之间的关联关系以及关联程度的概率矩阵A₃，概率矩阵A₃如下列矩阵所示：

概率矩阵A₃

概率矩阵A₃为4×4的矩阵。

需要说明的是，每个节点到自身节点的边权重(即元素M₁₁、元素M₂₂、元素M₃₃以及元素M₄₄)无需进行概率转换。

根据节点A、节点B、节点C以及节点D以及节点之间的边权重，可以得到用户群(包括用户A、用户B、用户C以及用户D)对应的关系拓扑图为图 6d所示。

步骤S202，根据路径抽样数量，在上述关系拓扑图中获取上述节点k对应的抽样路径。

本申请中，对于关系拓扑图中的每个节点，可以通过游走的方式，计算出每个节点到达该关系拓扑图中其他节点的跳转概率，从而可以得到每个节点的社区归，具体计算方式可以如公式(5)所示：

Expa(M_ij)＝∑_k＝1:nM_ik*M_kj (5)

其中，(M_ij)可以用于表示节点i至节点j的跳转概率，M_ik可以用于表示节点i到节点k的概率(边权重)，M_kj可以用于表示节点k到节点j的概率(边权重)。

如，节点A与节点D之间不具有边连接，但节点A与节点B之间具有边连接，节点B与节点C之间具有边连接，节点C与节点D之间具有边连接，则可以说明节点A可以游走3步到达节点D(即节点A-节点B-节点C-节点D)。其中，节点A到节点B的边权重为0.2，节点B到节点C的边权重为0.3，节点C到节点D的边权重为0.4，则根据上述公式(5)，可以得到节点A到节点 D的跳转概率为0.2×0.3×0.4＝0.024。

因为用户群中用户数量庞大，即节点数量多，若计算关系拓扑图中每个节点到其余节点的跳转概率，则规模巨大，可能会造成时间以及空间上的浪费。为节约时间与空间，本方案采用蒙特卡洛(Monte-Carlo，MCL)抽样游走方法来进行计算，即对每个节点的路径进行抽样，从而计算每个节点到该节点的抽样路径中其他节点的跳转概率，也就是说，本方案不用计算每个节点到其他所有节点的概率，只需根据路径抽样数量度每个节点的路径进行抽样，获取每个节点的抽样路径，再根据跳转阈值可以获取到抽样路径中的关联节点，随后计算每个节点到抽样路径中的关联节点的跳转概率即可。因为只计算了每个节点到关系拓扑图中的部分节点的跳转概率，而无需计算每个节点到关系拓扑图中所有节点的跳转概率，这样可以减少大量的计算，从而可以减少时间消耗以及空间消耗，且对于路径抽样数量以及每个节点的跳转次数是可以人为控制调整的，所以进行抽样后所得到的结果也可以控制在误差范围内；同时，由于对数据进行了抽样，所以在用户群即数据规模庞大时，MCL抽样游走方法也可以快速完成计算并得到高准确率的结果。

其中，本申请中的路径抽样数量为非零的正整数，路径抽样数量可以为人为规定的一个数值，也可以为服务器在数值允许范围内，随机生成的一个数值。根据路径抽样数量，可以在用户群对应的关系拓扑图中，获取每个节点k对应的抽样路径，抽样路径是指在以节点k为起始节点的路径中，抽取出路径抽样数量对应的部分路径。进一步地，根据跳转阈值，可以在每个节点k的抽样路径中，确定出每个节点k的关联节点，其中，该关联节点是在抽样路径中，除节点k以外的节点，具体可以指从节点k开始，在跳转阈值内(含跳转阈值) 进行跳转可到达的节点，如，以上述图6d所对应实施例中的关系拓扑图为例，在图6d的关系拓扑图中，以节点A为起始节点的路径有路径A-B-C、路径A-B-C 以及路径A-C-B，抽样路径数量为1，也就是说需要在节点A的路径中抽取出一条路径出来作为节点A的抽样路径，如路径A-B-C为节点A的抽样路径；跳转阈值为1，也就是说在路径A-B-C中，从节点A开始，从节点A跳转1 步可以到达节点B，则在路径A-B-C中，可将节点B作为节点A的关联节点。可以理解的是，该关联阈值是指在抽样路径中，对跳转步数的最大限制，对于关系拓扑图中的每个节点k，将节点k作为起始节点从跳转步数为1开始跳转，每次跳转的步数进行递增，如，节点c的一条抽样路径为c-e-g-k-i-j，跳转阈值为4，则以节点c开始，从节点c跳转1步可以到达节点e，将跳转步数进行加 1后，跳转步数1递增变为2，则跳转2步可以到达节点g(经过节点e到达节点g)，将跳转步2递增则变为3，则跳转3步(经过节点e与节点g)可以到达节点k，将跳转步数3递增变为4，则跳转4步(经过节点e、节点g以及节点k)可以到达节点i，则在节点c的抽样路径c-e-g-k-i-j中，可以将节点e、节点g、节点k以及节点i均确定为节点c的关联节点。

步骤S203，根据上述关系拓扑图中的边权重，确定上述节点k与上述抽样路径中的关联节点之间的跳转概率；上述关联节点是指上述抽样路径中除上述节点k以外的节点。

本申请中，根据用户群对应的关系拓扑图中的边权重，可以确定节点k与该关联节点的跳转概率，具体的，若节点k与关联节点之间不具有边，则在节点k的抽样路径中，可以获取到节点k与节点k的关联节点之间的中间节点，该节点k可以通过该中间节点达到关联节点，在该节点k、该中间节点以及该关联节点中，可将具有边的两个节点，作为连接节点对，根据该连接节点对对应的边权重，可以确定出节点k与关联节点之间的跳转概率。

可以理解的是，以图6d为例，节点A的抽样路径为A-B-D，跳转阈值为3，跳转步数可为1与2，则节点A的关联节点为节点B与节点D，其中，节点A 与节点D之间不具有边，但节点A可以通过节点B到达节点D，则可将节点B 作为节点A与节点D之间的中间节点，节点A与节点B之间具有边，节点B 与节点C之间具有边，则可将节点A与节点B作为连接节点对AB，可将节点 B与节点C作为连接节点对BC，根据上述概率矩阵A₃，可得到连接节点对AB 之间的边权重为0.36，连接节点对BC之间的边权重为0.8，则节点A与节点C 之间的跳转概率可为0.36×0.8＝0.288。

步骤S204，根据上述跳转概率更新上述关系拓扑图，得到更新后的关系拓扑图，在上述更新后的关系拓扑图中确定上述目标用户集合。

本申请中，根据跳转概率，可以更新上述关系拓扑图，即，根据节点k与关联节点，可以对上述关系拓扑图中所连接的边进行更新，也就是说，将每个节点k与其不具有边的关联节点，进行边连接(在关系拓扑图中增加了新的边)，可得到过渡关系拓扑图。如，以图6d所对应实施例为例，节点A的关联节点为节点B与节点D，其中，节点A可通过节点B到达节点D，则可将节点A 与节点D进行边连接，并将边加上方向，用于指示该边是由节点A到节点D的。在该过渡关系拓扑图中，可将节点k与关联节点之间的跳转概率，设置为节点k与关联节点之间的边权重，得到目标关系拓扑图，该目标关系拓扑图即为更新后的关系拓扑图。

可以理解的是，以图6d所对应实施例为例，节点A的抽样路径为A-B-D，可根据上述概率矩阵A₃得到节点A到节点D的跳转概率为0.36×0.9＝0.324，节点B的抽样路径为B-A-C，可得到节点B到节点C的跳转概率为 0.83×0.1＝0.083，节点C的抽样路径为C-A-B-D，可得到节点C都节点B 的跳转概率为0.08×0.36＝0.029，节点C到节点D的跳转概率为0.08×0.36× 0.9＝0.026，节点D的抽样路径为D-B-A，则节点D到节点A的跳转概率为 0.32×0.83＝0.266。将该跳转概率作为边权重，则可将上述概率矩阵A₃进行更新，可得到一个用于表征节点A、节点B、节点C以及节点D之间的关联关系以及关联程度的概率矩阵A₄，概率矩阵A₄如下列矩阵所示：

概率矩阵A₄

概率矩阵A₄为4×4的矩阵，需要说明的是，上述概率矩阵A₄中的元素0，表示节点之间无法到达。如，以元素M₁₃(即节点A到节点C的边权重)为例，虽在概率矩阵A₃中，节点A到节点C存在概率0.1(也就是节点A可以到达节点C，节点A与节点C之间存在边)，但因为对节点A的抽取路径为A-B-D，则对节点A的其他未抽取路径不再考虑，只需要考虑节点A到节点B以及节点A到节点D(即概率矩阵A₄中的元素M₁₂以及元素M₁₄)。

进一步地，在上述目标关系拓扑图中，可以将该目标关系拓扑图中的边权重(跳转概率)进行凸的变换，即，将边权重进行指数增长，并将进行指数增长后得到的跳转概率进行概率转换(即标准化处理)。通过凸的变换后，可以得到目标概率。根据该目标概率可更新节点k以及节点k的关联节点之间的边权重，在这些更新后的边权重中，若存在大于权重阈值的关联节点，则可将该更新后的边权重大于或等于权重阈值的关联节点，确定为节点k的重要关联节点，根据节点k、以及节点k的重要关联节点，可将该目标关系拓扑图划分为至少两个社区拓扑图，在该至少两个社区拓扑图中获取目标社区拓扑图，可作为目标用户集合。

其中，对跳转概率进行指数增长，并将进行指数增长后得到的跳转概率进行概率转换(标准化处理)，即对跳转概率进行凸的变换，得到目标概率的具体方法可以如公式(6)所示：

其中，Γ_r(M_ij)用于表示节点i到节点j的目标概率，M_ij用于表示节点i到节点j的边权重，(M_ij)^r用于表示节点i到节点j的边权重进行r次指数增长，

表示n个节点到节点j的边权重分别进行r次指数增长后的权重之和。

可以理解的是，以上述概率矩阵A4以及r为3为例，对于节点B到节点A的目标概率(即Γ_r(M₂₁))，可以先将M₂₁进行3次指数增长，即0.83×0.83× 0.83＝0.572，元素M₁₁、元素M₂₁、元素M₃₁以及元素M₄₁分别进行3次指数增长后的和为0³+0.83³+0.08³+0.266＝0.591，则Γ_r(M₂₁)可为 0.572/0.591＝0.968；对于节点D到节点A的目标概率(即Γ_r(M₄₁))，可以先将M₄₁进行3次指数增长，即0.266×0.266×0.266＝0.019，元素M₁₁、元素M₂₁、元素M₃₁以及元素M₄₁分别进行3次指数增长后的和为0³+0.83³+0.08³+ 0.266＝0.591，则Γ_r(M₄₁)可为0.019/0.591＝0.032。元素M₂₁为0.83，进行指数增长并标准化处理后的值为0.968，元素M₄₁为0.266，进行指数增长并标准化处理后的值为0.032，可以看出，通过对元素进行指数增长并标准化处理，可以使元素(边权重)大的值变得更大(如0.83变为0.968)，可以使元素(边权重) 小的值变得更小(如0.266变为0.032)。也就是说，本方案通过MCL抽样游走方法以及凸的变换，可以使用户之间的关联程度紧密的变得更紧密，使用户之间的关联程度弱的变得更弱，这样更有利于社区的划分，使得划分的结果更准确。

可选的，可以理解的是，在划分社区拓扑图前，可以设置迭代次数，以使获取抽样路径到计算目标概率的步骤可以重复进行多次，也就是说，第一次进行对每个节点k的随机抽样，再计算得到节点之间的目标概率后，可将该目标概率作为节点之间的边权重，进行第二次随机抽样并计算节点之间的目标概率，在第二次的抽样路径中，可以以目标概率为边权重来计算节点之间的新的目标概率，这样重复直到达到迭代次数后，可将最终的目标概率确定为稳定的概率，再通过稳定的目标概率进行社区拓扑图的划分。

上述可知，通过将具有社交关联关系的用户划分至目标用户集合中，在确定出该目标用户集合中的异常用户，且该目标用户集合为异常状态时，可以在该目标用户集合中获取到与该异常用户具有社交关联关系的用户，直接将上述与该异常用户具有社交关联关系的用户作为扩散异常用户，无需再对每一个用户都进行一次特征匹配，通过社交关联关系即可进行扩散异常用户的识别，因此，即使扩散异常用户具有与非异常用户相同的特征，但由于该扩散异常用户与异常用户具有社交关联关系，依然可以被识别出来，从而可以提高识别的准确率。

为便于理解，进一步地，请参见图7，是本申请实施例提供的一种划分社区拓扑图的场景示意图。如图7所示，业务服务器1000可以将终端A对应的用户a、终端B对应的用户b、…、终端K对应的用户k，确定为一个用户群 {a，b，c，e，f，g，i，j，k}，业务服务器1000可以将用户群中的每一个用户都作为一个节点，根据用户之间的社交关联关系，业务服务器1000可以在节点之间进行边连接，生成用户群{a，b，c，e，f，g，i，j，k}所分别对应的关系拓扑图，后续，根据用户之间的社交行为记录，可以对该关系拓扑图中的边确定边权重，如图7所示，节点c与节点e的边权重为0.7、节点e与节点d的边权重为0.8、节点e与节点g的边权重为0.6、节点g与节点k的边权重为0.5、节点k与节点i的边权重为0.4、节点i与节点j的边权重为0.8、节点i与节点 a的边权重为0.7、节点i与节点b的边权重为0.5，根据抽样路径数量2，业务服务器1000可以对关系拓扑图(抽样前)20a中的节点进行路径抽样，得到每个节点对应的抽样路径，以下以节点b为例，其他节点与节点b的获取抽样路径的方式一致，这里将不再进行赘述。以节点b为起始节点的路径有b-i-j、b-i-a、 b-i-k-g-e-c以及b-i-k-g-e-d共4条，业务服务器1000可以在b-i-j、b-i-a、b-i-k-g-e-c 以及b-i-k-g-e-d这4条路径中，抽取出b-i-j以及b-i-k-g-e-c这2条路径，并将 b-i-j以及b-i-k-g-e-c作为节点b的抽样路径，后续，业务服务器1000可以获取到跳转阈值为2，根据跳转阈值2，如图7所示，在b-i-j这条抽样路径中，在节点b的位置处跳2次(从节点b跳至与节点b相连接的节点i，再从节点i 跳至与节点i相连接的节点j)，可以到达节点j，即节点b与节点j之间虽不具有边，但具有间接连接的关系，则业务服务器1000可以将节点b与节点j之间进行边连接，并将该边加上方向，用于表示这条边是由节点b到达节点j的，根据节点b与节点i的边权重0.5，以及节点i与节点j的边权重0.8，业务服务器1000可以得到节点b与节点j的边权重为0.4；在b-i-k-g-e-c这条抽样路径中，以节点b位置开始，跳2次可以到达的节点为节点k，则在b-i-k-g-e-c这条抽样路径中，虽然节点g、节点e以及节点c都在这条抽样路径中，但业务服务器1000无需计算节点b与节点g、节点e以及节点c之间的跳转概率，只需计算节点b至节点k之间的跳转概率，根据节点b与节点i的边权重0.5，以及节点i与节点k的边权重0.4，业务服务器1000可以得到节点b到达节点k 的跳转概率为0.2，业务服务器1000可以将节点b与节点k进行边连接，并将该边加上方向，用于表示这条边是由节点b到达节点j的，并将0.2作为节点b 与节点k的边权重，业务服务器1000可以将抽样路径中的除节点b以外的节点 (即节点i、节点j以及节点k)作为节点b的关联节点，则对节点b进行路径抽样后，可以得到节点b与节点b的关联节点(即节点i、节点j以及节点k) 的边权重分别为0.5(节点b到节点i)、0.4(节点b到节点j)以及0.2(节点 b到节点)。同理，业务服务器1000可以得到其他节点的抽样路径以及其他节点到达关联节点的跳转概率，则每个节点的抽样路径以及该节点到达其关联节点的跳转概率可以如表1所示：

表1

在表1中，列数据为起始节点，行数据为到达节点，以节点a为例，节点 a到达节点b的跳转概率为0.35，节点a到达节点i的跳转概率为0.7，节点a 到达节点k的跳转概率为0.28，从表1可以看出，大于或等于权重阈值0.5的边权重有：节点a到节点i的跳转概率为0.7，节点b到节点i的跳转概率为0.5，节点c到节点d的跳转概率为0.56，节点c到节点e的跳转概率为0.7，节点d 到节点c的跳转概率为0.56，节点d到节点e的跳转概率为0.8，节点e到节点 d的跳转概率为0.8，节点e到节点g的跳转概率为0.6，节点g到节点k的跳转概率为0.5，节点i到节点a的跳转概率为0.7，节点j到节点a的跳转概率为 0.7，节点j到节点i的跳转概率为0.8，则业务服务器1000可以将跳转概率作为每条边的边权重，得到目标关系拓扑图(抽样后)20b，可以将边权重大于权重阈值的节点划分至一个社区中，即业务服务器1000可以将节点c、节点e、节点d、节点g以及节点k划分至一个社区中，将节点i、节点j、节点a以及节点b划分至一个社区中，由此，可以由目标关系拓扑图(抽样后)20b来得到社区拓扑图(即社区)200a与社区拓扑图(即社区)200b，如图7所示，可以看出，社区200a与社区200b中的节点之间的边权重都小于了权重阈值或者两个节点之间不具有边(也就是两个社区中的用户之间的关联程度低)，如，以节点k与节点i为例，节点k与节点i的边权重为0.4，小于权重阈值0.5，则可以表明节点k对应的用户k与节点i对应的用户i之间的关联程度低，可以将用户k与用户i划分至不同的社区中，以节点c与节点j为例，节点c与节点 j之间并未有边，则表1中不具有节点c到节点j或节点j到节点c的跳转概率，可以表明节点c与节点j之间的关联程度低，可以将节点c与节点j划分至不同的社区中。

进一步地，请参见图8，是本申请实施例提供的一种确定处于异常状态的目标用户集合的异常类别的流程示意图。如图8所示，该流程可以包括：

步骤S301，将上述处于异常状态的上述目标用户集合确定为待识别用户集合。

步骤S302，获取上述待识别用户集合中用户的用户文本数据，在上述用户文本数据中提取出关键文本数据。

本申请中，用户文本数据可以为用户在进行转账时的备注信息以及在进行通话时的对话信息等，可以对用户文本数据进行关键字识别，以提取出关键文本数据。如，用户在转账时的备注信息为“赌债偿还”，则可以提取关键字“赌债”。

步骤S303，获取敏感源数据。

本申请中，敏感源数据为预设的异常类别集合，该敏感源数据可以包括赌博、套现、诈骗、抢劫、偷窃等异常类别。

步骤S304，将上述关键文本数据与上述敏感源数据进行匹配，根据匹配结果确定上述待识别用户集合的异常类别。

本申请中，可将上述关键文本数据与上述敏感源数据进行匹配，如，关键文本数据为“赌债”，与敏感源数据进行匹配后，可得到“赌债”与“赌博”的匹配率可达到90％，则可将该待识别用户集合的异常类别确定为“赌博”。

请参见图9，是本申请实施例提供的一种数据识别装置的结构示意图。上述数据识别装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该数据识别装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9所示，该数据识别装置1可以包括：目标用户集合获取模块11、异常用户确定模块12、行为状态检测模块13以及扩散异常用户识别模块14。

目标用户集合获取模块11，用于获取目标用户集合；上述目标用户集合中包括至少两个具有社交关联关系的用户；

异常用户确定模块12，用于获取默认异常用户，根据上述默认异常用户确定上述目标用户集合中的异常用户；

行为状态检测模块13，用于根据上述异常用户，确定上述目标用户集合的状态；

扩散异常用户识别模块14，用于若上述目标用户集合的状态为异常状态，则根据上述异常用户与上述目标用户集合中的待确认用户之间的社交关联关系，在上述待确认用户中识别扩散异常用户；上述待确认用户为上述目标用户集合中除上述异常用户以外的用户。

其中，目标用户集合获取模块11、异常用户确定模块12、行为状态检测模块13以及扩散异常用户识别模块14的具体实现方式可以参见上述图3所对应实施例中的步骤S101-步骤S104的描述，这里将不再进行赘述。

请参见图9，异常用户确定模块12可以包括：异常用户确定单元121。

异常用户确定单元122，用于将上述目标用户集合中的用户与上述默认异常用户进行匹配，将上述目标用户集合中匹配率达到匹配阈值的用户确定为上述目标用户集合中的异常用户。

其中，异常用户确定单元121的具体实现方式可以参见上述图4所对应实施例中步骤S102的描述，这里将不再进行赘述。

请参见图9，行为状态检测模块13可以包括：用户总数量获取单元131、异常浓度确定单元132以及第一状态确定单元133。

用户总数量获取单元131，用于获取上述异常用户的数量，获取上述目标用户集合中用户的总数量；

异常浓度确定单元132，用于根据上述异常用户的数量以及上述目标用户集合中用户的总数量，确定上述目标用户集合的异常浓度；

第一状态确定单元133，用于若上述异常浓度小于浓度阈值，则将上述目标用户集合的状态确定为正常状态；

上述第一状态确定单元133，还用于若上述异常浓度大于或等于浓度阈值，则将上述目标用户集合的状态确定为异常状态。

其中，用户总数量获取单元131、异常浓度确定单元132以及第一状态确定单元133的具体实现方式可以参见上述图3所对应实施例中步骤S103的描述，这里将不再进行赘述。

请参见图9，行为状态检测模块13可以包括：行为特征获取单元134、特征分布度确定单元135、特征分布差异度确定单元136以及第二状态确定单元 137。

行为特征获取单元134，用于获取用户社交行为特征集合；上述用户社交行为特征集合中包括上述用户群中每个用户的社交行为特征；

特征分布度确定单元135，用于根据上述用户社交行为特征集合中的社交行为特征，确定上述异常用户的第一特征分布度；上述第一特征分布度用于表征上述异常用户具备的社交行为特征的种类数；

上述特征分布度确定单元135，还用于根据上述用户社交行为特征集合中的社交行为特征，确定上述目标用户集合中用户的第二特征分布度；上述第二特征分布度用于表征上述目标用户集合中用户具备的社交行为特征的种类数；

特征分布差异度确定单元136，用于根据上述第一特征分布集中度以及上述第二特征分布度，确定上述异常用户与上述目标用户集合中的用户之间的特征分布差异度；

第二状态确定单元137，用于根据上述第一特征分布度以及上述特征分布差异度，确定上述目标用户集合的状态。

其中，上述第二状态确定单元137，还用于若上述特征分布差异度小于差异度阈值，且上述第一特征分布度小于分布阈值，则将上述目标用户集合的状态确定为正常状态；

上述第二状态确定单元137，还用于若上述特征分布差异度大于或等于上述差异度阈值，且上述第一特征分布度大于或等于上述分布阈值，则将上述目标用户集合的状态确定为正常状态；

上述第二状态确定单元137，还用于若上述特征分布差异度大于或等于上述差异度阈值，且上述第一特征分布度小于上述分布阈值，则将上述目标用户集合的状态确定为异常状态。

其中，行为特征获取单元134、特征分布度确定单元135、特征分布差异度确定单元136以及第二状态确定单元137的具体实现方式可以参见上述图3所对应实施例中步骤S103的描述，这里将不再进行赘述。

请参见图9，目标用户集合获取模块11可以包括：关系拓扑图获取单元111、抽样路径获取单元112、跳转概率确定单元113以及目标用户集合确定单元114。

关系拓扑图获取单元111，用于获取用户群对应的关系拓扑图；上述关系拓扑图包括N个节点k，N个上述节点k与上述用户群中的用户一一对应，N 为上述用户群中的用户数；两个节点k之间的边权重是基于上述用户群中的两个用户之间的社交关联关系所确定的；

抽样路径获取单元112，用于根据路径抽样数量，在上述关系拓扑图中获取上述节点k对应的抽样路径；

跳转概率确定单元113，用于根据上述关系拓扑图中的边权重，确定上述节点k与上述抽样路径中的关联节点之间的跳转概率；上述关联节点是指上述抽样路径中除上述节点k以外的节点；

目标用户集合确定单元114，用于根据上述跳转概率更新上述关系拓扑图，得到更新后的关系拓扑图，在上述更新后的关系拓扑图中确定上述目标用户集合。

其中，关系拓扑图获取单元111、抽样路径获取单元112、跳转概率确定单元113以及目标用户集合确定单元114的具体实现方式可以参见上述图3所对应实施例中步骤S101的描述，这里将不再进行赘述。

请参见图9，关系拓扑图获取单元111可以包括：用户群获取子单元1111、权重设置子单元1112、概率转换子单元1113以及关系拓扑图生成子单元1114。

用户群获取子单元1111，用于获取用户群，将上述用户群中的每个用户均作为节点k；

权重设置子单元1112，用于在具有社交关联关系的用户所对应的节点k之间进行边连接，根据上述具有社交关联关系的用户之间的社交行为记录，对上述节点k之间的边设置初始权重；

概率转换子单元1113，用于将上述初始权重进行概率转换，得到上述边权重；

关系拓扑图生成子单元1114，用于根据上述用户群对应的节点k以及上述边权重，生成上述关系拓扑图。

其中，用户群获取子单元1111、权重设置子单元1112、概率转换子单元 1113以及关系拓扑图生成子单元1114的具体实现方式可以参见上述图3所对应实施例中步骤S101中获取关系拓扑图的描述，这里将不再进行赘述。

请参见图9，跳转概率确定单元113可以包括：中间节点获取子单元1131、连接节点对确定子单元1132以及跳转概率确定子单元1133。

中间节点获取子单元1131，用于若上述节点k与上述关联节点之间不具有边，则在上述抽样路径中获取上述节点k与上述关联节点之间的中间节点；上述节点k通过上述中间节点可到达上述关联节点；

连接节点对确定子单元1132，用于在上述节点k、上述中间节点以及上述关联节点中，将具有边的两个节点，作为连接节点对，获取上述连接节点对对应的边权重；

跳转概率确定子单元1133，用于根据上述连接节点对对应的边权重，确定上述节点k与上述关联节点之间的跳转概率。

其中，中间节点获取子单元1131、连接节点对确定子单元1132以及跳转概率确定子单元1133的具体实现方式可以参见上述图3所对应实施例中步骤 S101中对于确定跳转概率的描述，这里将不再进行赘述。

请参见图9，目标用户集合确定单元114可以包括：更新节点边子单元1141、边权重设置子单元1142以及目标用户集合确定子单元1143。

更新节点边子单元1141，用于根据上述节点k和上述关联节点，对上述关系拓扑图中所连接的边进行更新，得到过渡关系拓扑图；上述过渡关系拓扑图中的上述节点k与上述关联节点均连接有边；

边权重设置子单元1142，用于在上述过渡关系拓扑图中，将上述节点k与上述关联节点之间的跳转概率，设置为上述节点k与上述关联节点之间的边权重，得到目标关系拓扑图；

目标用户集合确定子单元1143，用于在上述目标关系拓扑图中确定上述目标用户集合。

其中，上述目标用户集合确定子单元1143，还用于将上述跳转概率进行指数增长，将进行指数增长后得到的跳转概率进行概率转换，得到目标概率，根据上述目标概率更新上述节点k与上述关联节点之间的边权重；

上述目标用户集合确定子单元1143，还用于将更新后的边权重大于权重阈值的关联节点，确定为上述节点k的重要关联节点；

上述目标用户集合确定子单元1143，还用于根据上述节点k和上述重要关联节点，将上述目标关系拓扑图划分为至少两个社区拓扑图，在上述至少两个社区拓扑图中获取目标社区拓扑图，作为上述目标用户集合。

其中，更新节点边子单元1141、边权重设置子单元1142以及目标用户集合确定子单元1143的具体实现方式可以参见上述图3所对应实施例中步骤 S101的描述，这里将不再进行赘述。

请参见图9，扩散异常用户识别模块14可以包括：第一关联关系用户确定单元141以及第一扩散异常用户确定单元142。

第一关联关系用户确定单元141，用于若上述目标用户集合的状态为异常状态，则在上述待确认用户中确定出与上述异常用户具有社交关联关系的用户；

第一扩散异常用户确定单元142，用于将上述与上述异常用户具有社交关联关系的用户确定为上述扩散异常用户。

其中，第一关联关系用户确定单元141以及第一扩散异常用户确定单元142 的具体实现方式可以参见上述图3所对应实施例中步骤S104的描述，这里将不再进行赘述。

请参见图9，扩散异常用户识别模块14可以包括：第二关联关系用户确定单元143以及第二扩散异常用户确定单元144。

第二关联关系用户确定单元143，用于若上述目标用户集合的状态为异常状态，则在上述待确认用户中确定出与上述异常用户具有社交关联关系的用户；

第二扩散异常用户确定单元144，用于获取上述异常用户对应的异常用户节点，获取上述与上述异常用户具有社交关联关系的用户对应的关联用户节点，将上述异常用户节点与上述关联用户节点之间的边权重大于关联阈值的关联用户节点，确定为扩散异常节点，将上述扩散异常节点对应的用户确定为上述扩散异常用户。

其中，第二关联关系用户确定单元143以及第二扩散异常用户确定单元144 的具体实现方式可以参见上述图3所对应实施例中步骤S104的描述，这里将不再进行赘述。

请参见图9，该数据识别装置1可以包括目标用户集合获取模块11、异常用户确定模块12、行为状态检测模块13以及扩散异常用户识别模块14，还可以包括：待识别用户集合确定模块15、关键文本数据提取模块16、敏感源数据获取模块17以及异常类别确定模块18。

待识别用户集合确定模块15，用于将上述处于异常状态的上述目标用户集合确定为待识别用户集合；

关键文本数据提取模块16，用于获取上述待识别用户集合中用户的用户文本数据，在上述用户文本数据中提取出关键文本数据；

敏感源数据获取模块17，用于获取敏感源数据；

异常类别确定模块18，用于将上述关键文本数据与上述敏感源数据进行匹配，根据匹配结果确定上述待识别用户集合的异常类别。

其中，待识别用户集合确定模块15、关键文本数据提取模块16、敏感源数据获取模块17以及异常类别确定模块18的具体实现方式可以参见上述图5所对应实施例中步骤S201-步骤S204的描述，这里将不再进行赘述。

本申请实施例通过获取目标用户集合；上述目标用户集合中包括至少两个具有社交关联关系的用户；获取默认异常用户，根据上述默认异常用户确定上述目标用户集合中的异常用户；根据上述异常用户，确定上述目标用户集合的状态；若上述目标用户集合的状态为异常状态，则根据上述异常用户与上述目标用户集合中的待确认用户之间的社交关联关系，在上述待确认用户中识别扩散异常用户；上述待确认用户为上述目标用户集合中除上述异常用户以外的用户。上述可知，通过将具有社交关联关系的用户划分至目标用户集合中，在确定出该目标用户集合中的异常用户，且该目标用户集合为异常状态时，可以在该目标用户集合中获取到与该异常用户具有社交关联关系的用户，直接将上述与该异常用户具有社交关联关系的用户作为扩散异常用户，无需再对每一个用户都进行一次特征匹配，通过社交关联关系即可进行扩散异常用户的识别，从而，即使扩散异常用户具有与非异常用户相同的特征，但由于该扩散异常用户与异常用户具有社交关联关系，依然可以被识别出来，从而可以提高识别的准确率。

进一步地，请参见图10，是本申请实施例提供的一种计算机设备的结构示意图。如图10所示，上述图9所对应实施例中的装置1可以应用于上述计算机设备1000，上述计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM 存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图10所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

根据上述异常用户，确定上述目标用户集合的状态；

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3到图 8所对应实施例中对该视频数据处理方法的描述，也可执行前文图9所对应实施例中对该视频数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的数据处理的计算机设备 1000所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图3到图8所对应实施例中对上述数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

上述计算机可读存储介质可以是前述任一实施例提供的数据识别装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital， SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据识别方法，其特征在于，包括：

获取目标用户集合；所述目标用户集合中包括至少两个具有社交关联关系的用户；

获取默认异常用户，根据所述默认异常用户确定所述目标用户集合中的异常用户；

根据所述异常用户，确定所述目标用户集合的状态；

若所述目标用户集合的状态为异常状态，则根据所述异常用户与所述目标用户集合中的待确认用户之间的社交关联关系，在所述待确认用户中识别扩散异常用户；所述待确认用户为所述目标用户集合中除所述异常用户以外的用户。

2.根据权利要求1所述的方法，其特征在于，所述获取默认异常用户，根据所述默认异常用户确定所述目标用户集合中的异常用户，包括：

将所述目标用户集合中的用户与所述默认异常用户进行匹配，将匹配率达到匹配阈值的用户确定为所述目标用户集合中的异常用户。

3.根据权利要求1所述的方法，其特征在于，所述根据所述异常用户，确定所述目标用户集合的状态，包括：

获取所述异常用户的数量，获取所述目标用户集合中用户的总数量；

根据所述异常用户的数量以及所述目标用户集合中用户的总数量，确定所述目标用户集合的异常浓度；

若所述异常浓度小于浓度阈值，则将所述目标用户集合的状态确定为正常状态；

若所述异常浓度大于或等于浓度阈值，则将所述目标用户集合的状态确定为异常状态。

4.根据权利要求1所述的方法，其特征在于，所述根据所述异常用户，确定所述目标用户集合的状态，包括：

获取用户社交行为特征集合；所述用户社交行为特征集合中包括所述用户群中每个用户的社交行为特征；

根据所述用户社交行为特征集合中的社交行为特征，确定所述异常用户的第一特征分布度；所述第一特征分布度用于表征所述异常用户具备的社交行为特征的种类数；

根据所述用户社交行为特征集合中的社交行为特征，确定所述目标用户集合中用户的第二特征分布度；所述第二特征分布度用于表征所述目标用户集合中用户具备的社交行为特征的种类数；

根据所述第一特征分布集中度以及所述第二特征分布度，确定所述异常用户与所述目标用户集合中的用户之间的特征分布差异度；

根据所述第一特征分布度以及所述特征分布差异度，确定所述目标用户集合的状态。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一特征分布度以及所述特征分布差异度，确定所述目标用户集合的状态，包括：

若所述特征分布差异度小于差异度阈值，且所述第一特征分布度小于分布阈值，则将所述目标用户集合的状态确定为正常状态；

若所述特征分布差异度大于或等于所述差异度阈值，且所述第一特征分布度大于或等于所述分布阈值，则将所述目标用户集合的状态确定为正常状态；

若所述特征分布差异度大于或等于所述差异度阈值，且所述第一特征分布度小于所述分布阈值，则将所述目标用户集合的状态确定为异常状态。

6.根据权利要求1所述的方法，其特征在于，所述获取目标用户集合，包括：

获取用户群对应的关系拓扑图；所述关系拓扑图包括N个节点k，N个所述节点k与所述用户群中的用户一一对应，N为所述用户群中的用户数；两个节点k之间的边权重是基于所述用户群中的两个用户之间的社交关联关系所确定的；

根据路径抽样数量，在所述关系拓扑图中获取所述节点k对应的抽样路径；

根据所述关系拓扑图中的边权重，确定所述节点k与所述抽样路径中的关联节点之间的跳转概率；所述关联节点是指所述抽样路径中除所述节点k以外的节点；

根据所述跳转概率更新所述关系拓扑图，得到更新后的关系拓扑图，在所述更新后的关系拓扑图中确定所述目标用户集合。

7.根据权利要求6所述的方法，其特征在于，所述获取用户群对应的关系拓扑图，包括：

获取用户群，将所述用户群中的每个用户均作为节点k；

在具有社交关联关系的用户所对应的节点k之间进行边连接，根据所述具有社交关联关系的用户之间的社交行为记录，对所述节点k之间的边设置初始权重；

将所述初始权重进行概率转换，得到所述边权重；

根据所述用户群对应的节点k以及所述边权重，生成所述关系拓扑图。

8.根据权利要求6所述的方法，其特征在于，所述根据所述关系拓扑图中的边权重，确定所述节点k与所述抽样路径中的关联节点之间的跳转概率，包括：

若所述节点k与所述关联节点之间不具有边，则在所述抽样路径中获取所述节点k与所述关联节点之间的中间节点；所述节点k通过所述中间节点可到达所述关联节点；

在所述节点k、所述中间节点以及所述关联节点中，将具有边的两个节点，作为连接节点对，获取所述连接节点对对应的边权重；

根据所述连接节点对对应的边权重，确定所述节点k与所述关联节点之间的跳转概率。

9.根据权利要求6所述的方法，其特征在于，所述根据所述跳转概率更新所述关系拓扑图，得到目标关系拓扑图，在所述更新后的关系拓扑图中确定所述目标用户集合，包括：

根据所述节点k和所述关联节点，对所述关系拓扑图中所连接的边进行更新，得到过渡关系拓扑图；所述过渡关系拓扑图中的所述节点k与所述关联节点均连接有边；

在所述过渡关系拓扑图中，将所述节点k与所述关联节点之间的跳转概率，设置为所述节点k与所述关联节点之间的边权重，得到目标关系拓扑图；

在所述目标关系拓扑图中确定所述目标用户集合。

10.根据权利要求9所述的方法，其特征在于，所述在所述目标关系拓扑图中确定所述目标用户集合，包括：

将所述跳转概率进行指数增长，将进行指数增长后得到的跳转概率进行概率转换，得到目标概率，根据所述目标概率更新所述节点k与所述关联节点之间的边权重；

将更新后的边权重大于权重阈值的关联节点，确定为所述节点k的重要关联节点；

根据所述节点k和所述重要关联节点，将所述目标关系拓扑图划分为至少两个社区拓扑图，在所述至少两个社区拓扑图中获取目标社区拓扑图，作为所述目标用户集合。

11.根据权利要求1所述的方法，其特征在于，所述若所述目标用户集合的状态为异常状态，则根据所述异常用户与所述目标用户集合中的待确认用户之间的社交关联关系，在所述待确认用户中识别扩散异常用户，包括：

若所述目标用户集合的状态为异常状态，则在所述待确认用户中确定出与所述异常用户具有社交关联关系的用户；

将所述与所述异常用户具有社交关联关系的用户确定为所述扩散异常用户。

12.根据权利要求6所述的方法，其特征在于，所述若所述目标用户集合的状态为异常状态，则根据所述异常用户与所述目标用户集合中的待确认用户之间的社交关联关系，在所述待确认用户中识别扩散异常用户，包括：

获取所述异常用户对应的异常用户节点，获取所述与所述异常用户具有社交关联关系的用户对应的关联用户节点，将所述异常用户节点与所述关联用户节点之间的边权重大于关联阈值的关联用户节点，确定为扩散异常节点，将所述扩散异常节点对应的用户确定为所述扩散异常用户。

13.根据权利要求1所述的方法，其特征在于，还包括：

将所述处于异常状态的所述目标用户集合确定为待识别用户集合；

获取所述待识别用户集合中用户的用户文本数据，在所述用户文本数据中提取出关键文本数据；

获取敏感源数据；

将所述关键文本数据与所述敏感源数据进行匹配，根据匹配结果确定所述待识别用户集合的异常类别。

14.一种计算机设备，其特征在于，包括：处理器和存储器；

所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至13中任一项所述方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1至13中任一项所述的方法。