CN111709756A

CN111709756A - 一种可疑社团的识别方法、装置、存储介质和计算机设备

Info

Publication number: CN111709756A
Application number: CN202010546897.3A
Authority: CN
Inventors: 陈泽瀛; 吴亚乾; 吴锐; 李欣刚; 陶森林
Original assignee: China Ums Co ltd
Current assignee: China Ums Co ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-09-25
Also published as: WO2021254027A1

Abstract

本发明实施例提供的一种可疑社团的识别方法、装置、存储介质和计算机设备的技术方案中，根据获取的多个商户节点的入网信息以及不同商户节点之间的关联权重数据，构建知识图谱，在知识图谱中，筛选出新增商户节点和新增商户节点的邻近商户节点，根据新增商户节点和新增商户节点的邻近商户节点之间的关联权重数据，对新增商户节点和新增商户节点的邻近商户节点进行社团检测，确定出多个社团群体，根据预设的多个社团指标和预设的多个业务指标，从多个社团群体中，确定出可疑社团，从而能够提高可疑社团的识别效率。

Description

一种可疑社团的识别方法、装置、存储介质和计算机设备

【技术领域】

本发明涉及知识图谱技术领域，具体地涉及一种可疑社团的识别方法、装置、存储介质和计算机设备。

【背景技术】

随着移动互联网和移动支付的快速发展，金融欺诈模式也在不断丰富和发展，比如，在自助签约等入网渠道，涌现出一批虚假申请、套利、盗刷、赌博的作案团伙商户，这种欺诈行为不再局限于个体模式，而是通过有组织的社团模式进行，这些商户利用相同的档案信息进行集中虚假入网申请和短时集中套利，在套利、套刷后，很大可能会变为沉默商户或者注销商户，这种欺诈行为由于体量大、持续时间短，往往会带来较大的金融损失，并且难以侦测。

在相关技术中，新商户入网流程主要是由人工登记商户入网资料后，并由人工审核入网资料是否属实，若入网资料属实，则入网通过。由于商户所提交的入网资料合法，因此通过传统风控规则和人工校验的方式很难对上述可疑社团的入网欺诈行为做出及时的有效预警，从而造成可疑社团的识别效率低的问题。

【发明内容】

有鉴于此，本发明提供一种可疑社团的识别方法、装置、存储介质和计算机设备，能够提高可疑社团的识别效率。

一方面，本发明实施例提供了一种可疑社团的识别方法，包括：

根据获取的多个商户节点的入网信息以及不同商户节点之间的关联权重数据，构建知识图谱；

在所述知识图谱中，筛选出新增商户节点和所述新增商户节点的邻近商户节点；

根据所述新增商户节点和所述新增商户节点的邻近商户节点之间的关联权重数据，对新增商户节点和所述新增商户节点的邻近商户节点进行社团检测，确定出多个社团群体；

根据预设的多个社团指标和预设的多个业务指标，从所述多个社团群体中，确定出可疑社团。

可选地，在所述根据获取的多个商户节点的入网信息以及不同商户节点之间的关联权重数据，构建知识图谱之前，包括：

根据获取的多个商户的入网信息，确定出多个商户节点以及所述多个商户节点之间的关联要素；

对不同的关联要素设定不同的权重，并根据多个商户节点之间的关联要素以及每个关联要素对应的权重，确定出不同商户节点之间的关联权重数据，所述关联权重数据包括不同商户节点之间的关联要素对应的权重之和。

可选地，所述入网信息包括入网时间；

所述筛选出新增商户节点和所述新增商户节点的邻近商户节点，包括：

将所述入网时间处于预设时间段内的商户节点确定为所述新增商户节点；

计算出每个新增商户节点与历史商户节点之间的关联步数，并将所述关联步数小于预设步数的历史商户节点，确定为所述邻近商户节点。

可选地，所述根据所述新增商户节点和所述新增商户节点的邻近商户节点之间的关联权重数据，对新增商户节点和所述新增商户节点的邻近商户节点进行社团检测，确定出多个社团群体，包括：

获取每个新增商户节点和每个邻近商户节点之间的关联要素；

根据每个新增商户节点的关联要素的数量以及关联要素对应的权重，以及每个邻近商户节点的关联要素的数量以及关联要素对应的权重，确定出多个社团群体。

可选地，所述预设的多个社团指标包括社团内节点数、社团内黑商户节点数、社团内边数、社团外边数、社团聚合程度、社团内边权重分布、商户节点的重要程度或者商户节点的连接边最大权重。

可选地，所述预设的多个业务指标包括非正常状态的商户节点占比、撤销商户节点数或者核实商户节点数。

可选地，在所述根据预设的多个社团指标和预设的多个业务指标，从所述多个社团群体中，确定出可疑社团之后，还包括：

通过中心度算法计算出所述可疑社团中每个商户节点的重要程度；

对每个商户节点的重要程度进行高到低排序，并将前N个商户节点确定为高可疑商户。

另一方面，本发明实施例提供了一种可疑社团的识别装置，所述装置包括：

构建模块，用于根据获取的多个商户节点的入网信息以及不同商户节点之间的关联权重数据，构建知识图谱；

筛选模块，用于在所述知识图谱中，筛选出新增商户节点和所述新增商户节点的邻近商户节点；

生成模块，用于根据所述新增商户节点和所述新增商户节点的邻近商户节点之间的关联权重数据，对新增商户节点和所述新增商户节点的邻近商户节点进行社团检测，确定出多个社团群体；

确定模块，用于根据预设的多个社团指标和预设的多个业务指标，从所述多个社团群体中，确定出可疑社团。

另一方面，本发明实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述的可疑社团的识别方法。

另一方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，所述程序指令被处理器加载并执行上述的可疑社团的识别方法的步骤。

本发明实施例提供的技术方案中，根据获取的多个商户节点的入网信息以及不同商户节点之间的关联权重数据，构建知识图谱，在知识图谱中，筛选出新增商户节点和新增商户节点的邻近商户节点，根据新增商户节点和新增商户节点的邻近商户节点之间的关联权重数据，对新增商户节点和新增商户节点的邻近商户节点进行社团检测，确定出多个社团群体，根据预设的多个社团指标和预设的多个业务指标，从所述多个社团群体中，确定出可疑社团，从而能够提高可疑社团的识别效率。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明一实施例所提供的一种可疑社团的识别方法的流程图；

图2是本发明又一实施例所提供的一种可疑社团的识别方法的流程图；

图3是本发明一实施例所提供的商户节点和关联要素的结构示意图；

图4是本发明一实施例所提供的一种知识图谱的结构示意图；

图5是本发明一实施例所提供的一种新增商户节点和邻近商户节点的结构示意图；

图6是本发明一实施例所提供的一种社团群体的结构示意图；

图7是本发明一实施例所提供的一种可疑社团的识别装置的结构示意图；

图8为本发明实施例提供的一种计算机设备的示意图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，甲和/或乙，可以表示：单独存在甲，同时存在甲和乙，单独存在乙这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

在介绍本发明实施例所提供的一种可疑社团的识别方法之前，对相关技术中的欺诈团伙识别方法进行简单介绍：

在相关技术中，可疑社团的识别方法主要包括入网时人工校验的方式以及入网后风控侦测的方式。

在一种实现方案中，入网时人工校验的方式包括：对于新入网的商户，业务人员采集该商户的入网信息，其中，该入网信息包括营业执照信息、法人身份信息、结算账号、所属地区、银行账户名称、入网时间等信息。当业务人员采集入网信息完毕后，在工商或者公安系统验证商户所提供信息是否属实，是否有不良或者违法记录，从而评估申请入网的商户的风险，并据此决定是否允许该商户入网。然而该方式需要高度依赖业务人员经验判断、核查，不仅效率低下，而且不具有对多维度信息的侦测能力。

在另一种实现方案中，入网后风控侦测的方式包括：在商户入网后，根据发生在商户上的交易行为判断该商户是否存在可疑的不正当交易，从而判断该商户是否为可疑商户。然而入网后风控侦测的方式的主要缺点是延迟较高，高度依赖后期的交易行为，且对于大数据量和多维度场景下的侦测存在计算复杂、覆盖场景少、时间成本较高等缺点。

在上述的欺诈团伙识别方法中，入网时进行人工校验，需要审核人员校验数据准确性外，核查与该商户有相同档案信息的其他商户信息，对于大数据量、多维度档案信息、多度关联下的社团信息审核人员无法进行人工核查，因此造成时间成本高的问题，并且相关技术中的方案准确划分社团群体。而入网后风控侦测是针对欺诈行为进行事后侦测，强依赖于发生在商户上的交易信息，对于团伙欺诈入网情况无法有效的及时侦测。

针对相关技术中的欺诈团伙识别方法，本发明实施例中提供了一种可疑社团的识别方法用于解决相关技术中存在的问题。

图1为本发明一实施例提供的一种可疑社团的识别方法的流程图，如图1所示，该方法包括：

步骤101、根据获取的多个商户节点的入网信息以及不同商户节点之间的关联权重数据，构建知识图谱。

本发明实施例中，入网信息可包括入网信息包括营业执照信息、法人身份信息、结算账号、所属地区、银行账户名称、入网时间等信息。商户节点用于指示商户实体。例如获取到商户A的入网信息，则将商户A作为商户节点。关联要素用于指示多个商户节点之间的相同的入网信息。例如，商户节点A和商户节点B的法人身份信息相同，则该法人身份信息则为商户节点A和商户节点B之间的关联要素。

本发明实施例中，关联权重数据包括不同商户节点之间的关联要素对应的权重之和，具体可参见下述实施例的说明。

步骤102、在知识图谱中，筛选出新增商户节点和新增商户节点的邻近商户节点。

本发明实施例中，将入网时间处于预设时间段内的商户节点确定为新增商户节点。计算出每个新增商户节点与历史商户节点之间的关联步数，并将关联步数小于预设步数的历史商户节点，确定为邻近商户节点。

步骤103、根据新增商户节点和新增商户节点的邻近商户节点之间的关联权重数据，对新增商户节点和新增商户节点的邻近商户节点进行社团检测，确定出多个社团群体。

本发明实施例中，获取每个新增商户节点和每个邻近商户节点之间的关联要素，根据每个新增商户节点的关联要素的数量以及关联要素对应的权重，以及每个邻近商户节点的关联要素的数量以及关联要素对应的权重，确定出多个社团群体。

步骤104、根据预设的多个社团指标和预设的多个业务指标，从多个社团群体中，确定出可疑社团。

本发明实施例中，预设的多个社团指标包括社团内节点数、社团内黑商户节点数、社团内边数、社团外边数、社团聚合程度、社团内边权重分布、商户节点的重要程度或者商户节点的连接边最大权重。预设的多个业务指标包括非正常状态的商户节点占比、撤销商户节点数或者核实商户节点数。

本发明实施例提供的技术方案中，根据获取的多个商户节点的入网信息以及不同商户节点之间的关联权重数据，构建知识图谱，在知识图谱中，筛选出新增商户节点和新增商户节点的邻近商户节点，根据新增商户节点和新增商户节点的邻近商户节点之间的关联权重数据，对新增商户节点和新增商户节点的邻近商户节点进行社团检测，确定出多个社团群体，根据预设的多个社团指标和预设的多个业务指标，从多个社团群体中，确定出可疑社团，从而能够提高可疑社团的识别效率。

图2为本发明又一实施例提供的一种可疑社团的识别方法的流程图，如图2所示，该方法包括：

步骤201、根据获取的多个商户的入网信息，确定出多个商户节点以及多个商户节点之间的关联要素。

本发明实施例中，在执行步骤201的过程中，通过大数据组件批量处理多个商户的入网信息，从入网信息中抽取出商户节点与多个商户节点之间的关联要素，从而能快速建立商户节点之间的关系，以便后续步骤构建知识图谱。其中，大数据组件可包括Hive+Hadoop组件。例如，如图3所示，从入网信息中抽取出商户节点0、商户节点1、商户节点2、商户节点3、商户节点4、商户节点5、商户节点6，此外，从入网信息中还抽取出商户节点0和商户节点1之间的关联要素为营业地址，商户节点4和商户节点1、商户节点2之间的关联要素为法人身份信息，商户节点4和商户节点3之间的关联要素为法人身份信息和营业执照信息。商户节点4和商户节点5、商户节点6之间的关联要素为结算账号。

需要说明的是，在执行步骤201之前，还包括对获取的多个商户的入网信息进行数据标准化处理和异常数据过滤处理。由于入网信息的来源途径较多，因此获取的商户的入网信息包括结构化信息和非结构化信息，因此需要对所有的入网信息做数据标准化处理，并对商户的入网信息进行信息勾兑，转换为标准格式。其次，由于原始的入网信息存在录入错误、数据类型转换异常等原因，因此还需要对商户的入网信息中的异常数据做过滤处理，其中，过滤处理可包括空值处理、特殊符号处理等，通过对入网信息进行异常数据过滤处理从而能够避免出现不正常的商户之间的关联关系。

步骤202、对不同的关联要素设定不同的权重，并根据多个商户节点之间的关联要素以及每个关联要素对应的权重，确定出不同商户节点之间的关联权重数据，关联权重数据包括不同商户节点之间的关联要素对应的权重之和。

在执行步骤202之前，需要说明的是，本发明所提供的一种可疑社团的识别方法能够适用于无法处理异构图谱(不同类型的节点)的系统，因此构建知识图谱(同构图谱)之前，需要对不同的关联要素做聚合操作，以便完成异构图谱到同构图谱(同种类型的节点)的转化，关于具体的转换方式可参见下述步骤203的描述。本发明实施例中，由于不同的关联要素的重要性不同，因此在聚合不同的关联要素时，需要对不同的关联要素赋予不同的权重，以便能够完成异构图谱到同构图谱的转化，此外，对不同的关联要素赋予不同的权重，能够进一步提高可疑社团的识别的准确率。

本发明实施例中，由于不同的关联要素的重要程度不同，例如，营业执照信息的重要程度大于法人身份信息的重要程度，因此在设定关联要素的权重时，营业执照信息的权重大于法人身份信息的权重。具体地，通过执行步骤202，以便后续步骤203能够将上述图3的异构图谱进行转换，构建图4的同构图谱，如图4所示，例如，商户节点0和商户节点1之间的营业地址的权重为w4，则商户节点0和商户节点1之间的关联权重数据为w4。商户节点4和商户节点3之间的法人身份信息的权重为w1和营业执照信息的权重为w2，则商户节点4和商户节点3之间的关联权重数据为w1+w2，关于异构图谱转换至同构图谱的过程可参见下述步骤203的描述。

步骤203、根据获取的多个商户节点的入网信息以及不同商户节点之间的关联权重数据，构建知识图谱。

本发明实施例中，在构建知识图谱(同构图谱)之前，对异构图谱(不同类型的节点)转化到同构图谱(同种类型的节点)的过程进行简单介绍：

例如，图3所示，从入网信息中抽取出商户节点0、商户节点1、商户节点2、商户节点3、商户节点4、商户节点5、商户节点6，营业地址1，营业执照1、法人身份信息1以及结算账号1，即图3的异构图谱中包括多个类型的节点，分别包括商户节点、营业地址节点、营业执照节点、法人身份信息节点以及结算账号节点。

由于在后续可疑社团的识别过程中，需要构建知识图谱(同构图谱)。由于同构图谱可以更加直观的看出商户节点之间的关系，同时，由于不同关联要素重要性不同，在聚合不同关联要素时，不同关联要素赋予不同的权重。因此对异构图谱(不同类型的节点)转化到同构图谱(同种类型的节点)的过程中，将不同的关联要素聚合为一条同构边的同时，还需要对不同关联要素的权重进行求和，确定出不同商户节点之间的关联权重数据，从而能够将异构图谱转化为同构图谱。具体地，如图3所示，商户节点0和商户节点1之间的营业地址的权重为w4，则如图4所示，商户节点0和商户节点1之间的关联权重数据为w4。如图3所示，商户节点4和商户节点3之间的法人身份信息的权重为w1和营业执照信息的权重为w2，则如图4所示，商户节点4和商户节点3之间的关联权重数据为w1+w2，以此转换其他类型的节点，使得图4中只包括商户节点这一类型节点，从而完成异构图谱到同构图谱的转换。如图4所示，图4中包括7个商户节点，且每个商户节点与历史商户节点之间具有一个关联权重数据，该关联权重数据包括该商户节点与历史商户节点之间的关联要素对应的权重之和。需要说明的是，本发明的知识图谱即为转换后的同构图谱。

需要说明的是，在一种可选方案中，在构建知识图谱之前，若不同商户节点之间的关联权重数据低于预设值，则不需要根据这些商户节点构建知识图谱，从而能够降低构建知识图谱的计算时间，降低后续识别可疑社团的计算量。

需要说明的是，在构建知识图谱的过程中，可将多个商户节点以及不同商户节点之间的关联权重数据导入到图形数据库，通过图形数据库将商户节点转化为顶点，将不同商户节点之间的关联权重数据转化为边，从而完成知识图谱的构建。本发明实施例在实现构建知识图谱的过程中可采用的图形数据库包括Neo4j，通过该图形数据库能够便于数据查询和数据修改。

步骤204、在知识图谱中，筛选出新增商户节点和新增商户节点的邻近商户节点。

本发明实施例中，在执行步骤204之前，还包括：当新增商户节点入网时，需要把多个新增商户节点的入网信息、多个新增商户节点和其他商户节点之间的关联权重数据添加到已经存在的知识图谱中，其中，多个新增商户节点和其他商户节点之间的关联权重数据可包括多个新增商户节点之间的关联权重数据和新增商户节点与历史商户节点之间的关联权重数据。因此在对完整的知识图谱进行可疑社团的识别时，由于随着数据的不断积累，不仅仅需要极高的时间消耗，而且对单节点服务器的资源要求也比较高。此外，由于非邻近的历史商户节点和新增商户节点关系较远，关联性不强，因此本发明实施例在可疑社团的识别之前，通过执行步骤204在知识图谱中，筛选出新增商户节点和新增商户节点的邻近商户节点，从而能够极大的降低数据量，减少响应时间。

本发明实施例中，步骤204可具体包括：

步骤2041、将入网时间处于预设时间段内的商户节点确定为新增商户节点。

本发明实施例中，商户节点的入网信息包括入网时间。预设时间段可根据需求设定，例如，以1个月为预设时间段为例，5月在内以及5月之前的商户节点均已在知识图谱中，因此将6月内入网的商户节点确定为新增商户节点。

步骤2042、计算出每个新增商户节点与历史商户节点之间的关联步数，并将关联步数小于预设步数的历史商户节点，确定为邻近商户节点。

本发明实施例中，关联步数用于指示知识图谱中边的数量，预设步数可根据需求设定，例如预设步数包括3步。

在一种可选的方案中，例如，如图5所示，商户节点7和商户节点8为新增商户节点，以商户节点7为例，商户节点7与商户节点5之间的关联步数为1步，商户节点7与商户节点6之间的关联步数为2步，商户节点7与商户节点4之间的关联步数为2步，商户节点7与商户节点3之间的关联步数为3步，商户节点7与商户节点2之间的关联步数为3步，商户节点7与商户节点1之间的关联步数为3步，因此，商户节点1-6均为商户节点7的邻近商户节点。

需要说明的是，若新增商户中包括多个新增商户节点，只需任一新增商户节点与历史商户节点之间的关联步数小于预设步数即可。例如，如图5所示，图5中商户节点7和商户节点8为新增商户节点，且商户节点1-6均为商户节点7的邻近商户节点，因此商户节点1-6均为商户节点8的邻近商户节点。

本发明实施例中，通过步骤204，在知识图谱中，筛选出新增商户节点和新增商户节点的邻近商户节点，能够可以大大降低计算可疑社团的时间成本，并且需要短时定期处理新增商户节点的入网信息，从而时间延时较低，风险预警响应较为及时。

步骤205、获取每个新增商户节点和每个邻近商户节点之间的关联要素。

本发明实施例中，步骤205的执行过程可参见上述步骤201，区别在于，步骤201是根据获取的多个商户的入网信息，确定出多个商户节点以及多个商户节点之间的关联要素，而步骤205是根据获取的新增商户的入网信息，确定出多个新增商户节点以及每个新增商户节点和每个邻近商户节点之间的关联要素。

步骤206、根据每个新增商户节点的关联要素的数量以及关联要素对应的权重，以及每个邻近商户节点的关联要素的数量以及关联要素对应的权重，确定出多个社团群体。

本发明实施例中，在确定出多个社团群体的过程可采用标签传播算法(LabelPropagation Algorithm，简称LPA)实现，LPA通过网络结构检测社团群体，从而不需要预先定义的目标函数或者先验信息，将聚集程度越高的商户节点、关联权重数量越大的商户节点，确定为同一个社团群体，并对同一个社团群体中的商户节点预先标记相同的社团标签，以便LPA可以按照半监督方式运行，提高准确度。

在一种可能的实现方案中，例如，如图6所示，通过执行步骤206，确定出商户节点1、商户节点2、商户节点3、商户节点4为同一社团群体，即社团1，确定出商户节点5、商户节点6、商户节点7、商户节点8为同一社团群体，即社团2。

步骤207、根据预设的多个社团指标和预设的多个业务指标，从多个社团群体中，确定出可疑社团。

本发明实施例中，预设的多个社团指标包括社团内节点数、社团内黑商户节点数、社团内边数、社团外边数、社团聚合程度、社团内边权重分布、商户节点的重要程度或者商户节点的连接边最大权重。其中，社团指标用于衡量该社团群体的社团聚合程度，社团内节点数用于指示每个社团群体内的商户节点的数量，社团内黑商户节点数用于指示每个社团群体内的触发风险案例以及黑商户节点的数量，社团内边数用于指示该社团群体内部的商户节点之间的关联边数，社团外边数用于指示该社团群体和外部社团群体的连接边数，社团聚合程度用于指示社团聚合层度即该社团内边数和理论最大边数的比值，社团群体内最大理论边数由社团内节点数计算得出，即对于一个含有n个节点的社团，最大双向理论边数为：

最大单向理论边数为：

社团内边权重分布用于指示分区间统计社团群体内边权重分布值。商户节点的连接边最大权重用于自身每个商户节点所有连接边中的最大权重，即每个商户节点所有关联要素中的最大权重。

本发明实施例中，业务指标包括从业务规则角度计算相关指标预设的多个业务指标包括非正常状态的商户节点占比、撤销商户节点数或者核实商户节点数，除此之外，还可以包括其他参数，本发明对此不做限定。

本发明实施例中，通过上述步骤206，确定出多个社团群体之后，并非每一个社团群体均为可疑社团，因此需要执行步骤207根据预设的多个社团指标和预设的多个业务指标，对所有社团结果进行过滤，筛选出可疑社团，从而能够提高可疑社团的识别准确率。

步骤208、通过中心度算法计算出可疑社团中每个商户节点的重要程度。

本发明实施例中，通过计算出可疑社团中每个商户节点的重要程度，除了可作为上述步骤207中的预设的社团指标之外，还可以便于后续步骤筛选出高可疑商户，并输出高可疑商户，以便审核人员查看。此外，还可以通过PageRank算法计算出可疑社团中每个商户节点的重要程度，PageRank算法可度量商户节点的传递效应，与其他商户节点连接越多的商户节点、关联权重数据越大的商户节点，往往这个商户节点就越重要、越可疑，因此需作为优先核查对象。

步骤209、对每个商户节点的重要程度进行高到低排序，并将前N个商户节点确定为高可疑商户。

本发明实施例中，N的数值可根据需求设定，本发明对此不做限定。通过执行步骤209，将前N个商户节点确定为高可疑商户，以便审核人员核查该高可疑商户是否为欺诈商户。

本发明提供一种基于知识图谱的商户团伙入网欺诈侦测方法，对商户入网时提供的档案信息通过数据标准化处理、数据过滤等流程提取商户关联关系，并针对不同的档案信息设置不同的权重，从而兼容不同维度的档案信息，并构建商户关联关系知识图谱。在已构建的商户关联关系知识图谱基础上，并鉴于远亲商户节点和新入网商户关系较弱，本方法通过对新入网商户的近邻关系商户进行数据采样，从而降低数据量和计算成本，并对采样后的商户关系网运行LPA和PageRank进行无监督加权社团检测和重要性计算。最后，针对社团检测结果，本方法计算社团指标和业务指标，并根据计算的指标筛选出可疑社团(可疑欺诈团伙)，同时输出社团结果和相关计算指标。

图7是本发明一实施例所提供的一种可疑社团的识别装置的结构示意图，如图7所示，该装置包括：构建模块11、筛选模块12、生成模块13和确定模块14。

构建模块11用于根据获取的多个商户节点的入网信息以及不同商户节点之间的关联权重数据，构建知识图谱。

筛选模块12用于在所述知识图谱中，筛选出新增商户节点和所述新增商户节点的邻近商户节点。

生成模块13用于根据所述新增商户节点和所述新增商户节点的邻近商户节点之间的关联权重数据，对新增商户节点和所述新增商户节点的邻近商户节点进行社团检测，确定出多个社团群体。

确定模块14用于根据预设的多个社团指标和预设的多个业务指标，从所述多个社团群体中，确定出可疑社团。

本发明实施例中，该装置还包括：

确定模块14还用于根据获取的多个商户的入网信息，确定出多个商户节点以及所述多个商户节点之间的关联要素；对不同的关联要素设定不同的权重，并根据多个商户节点之间的关联要素以及每个关联要素对应的权重，确定出不同商户节点之间的关联权重数据，所述关联权重数据包括不同商户节点之间的关联要素对应的权重之和。

本发明实施例中，所述入网信息包括入网时间；该装置的筛选模块12具体包括：确定子模块121和计算子模块122。

确定子模块121用于将所述入网时间处于预设时间段内的商户节点确定为所述新增商户节点。

计算子模块122计算出每个新增商户节点与历史商户节点之间的关联步数。

确定子模块121还用于将所述关联步数小于预设步数的历史商户节点，确定为所述邻近商户节点。

本发明实施例中，该装置的生成模块13具体包括：获取子模块131和确定子模块132。

获取子模块131用于获取每个新增商户节点和每个邻近商户节点之间的关联要素。

确定子模块132用于根据每个新增商户节点的关联要素的数量以及关联要素对应的权重，以及每个邻近商户节点的关联要素的数量以及关联要素对应的权重，确定出多个社团群体。

本发明实施例中，所述预设的多个社团指标包括社团内节点数、社团内黑商户节点数、社团内边数、社团外边数、社团聚合程度、社团内边权重分布、商户节点的重要程度或者商户节点的连接边最大权重。

本发明实施例中，所述预设的多个业务指标包括非正常状态的商户节点占比、撤销商户节点数或者核实商户节点数。

本发明实施例中，该装置还包括：计算模块15。

计算模块15用于通过中心度算法计算出所述可疑社团中每个商户节点的重要程度。

确定模块14还用于对每个商户节点的重要程度进行高到低排序，并将前N个商户节点确定为高可疑商户。

本发明实施例提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述可疑社团的识别方法的实施例的各步骤，具体描述可参见上述可疑社团的识别方法的实施例。

本发明实施例提供了一种计算机设备，包括存储器和处理器，存储器用于存储包括程序指令的信息，处理器用于控制程序指令的执行，程序指令被处理器加载并执行时实现上述可疑社团的识别方法的步骤。具体描述可参见上述可疑社团的识别方法的实施例。

图8为本发明实施例提供的一种计算机设备的示意图。如图8所示，该实施例的计算机设备4包括：处理器41、存储器42以及存储在存储42中并可在处理器41上运行的计算机程序43，该计算机程序43被处理器41执行时实现实施例中的应用于可疑社团的识别方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器41执行时实现实施例中应用于可疑社团的识别装置中各模型/单元的功能，为避免重复，此处不一一赘述。

计算机设备4包括，但不仅限于，处理器41、存储器42。本领域技术人员可以理解，图8仅仅是计算机设备4的示例，并不构成对计算机设备4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备4还可以包括输入输出设备、网络接入设备、总线等。

所称处理器41可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器42可以是计算机设备4的内部存储单元，例如计算机设备4的硬盘或内存。存储器42也可以是计算机设备4的外部存储设备，例如计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。进一步地，存储器42还可以既包括计算机设备4的内部存储单元也包括外部存储设备。存储器42用于存储计算机程序以及计算机设备4所需的其他程序和数据。存储器42还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种可疑社团的识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述根据获取的多个商户节点的入网信息以及不同商户节点之间的关联权重数据，构建知识图谱之前，包括：

3.根据权利要求1所述的方法，其特征在于，所述入网信息包括入网时间；

4.根据权利要求2所述的方法，其特征在于，所述根据所述新增商户节点和所述新增商户节点的邻近商户节点之间的关联权重数据，对新增商户节点和所述新增商户节点的邻近商户节点进行社团检测，确定出多个社团群体，包括：

5.根据权利要求1所述的方法，其特征在于，所述预设的多个社团指标包括社团内节点数、社团内黑商户节点数、社团内边数、社团外边数、社团聚合程度、社团内边权重分布、商户节点的重要程度或者商户节点的连接边最大权重。

6.根据权利要求1所述的方法，其特征在于，所述预设的多个业务指标包括非正常状态的商户节点占比、撤销商户节点数或者核实商户节点数。

7.根据权利要求1所述的方法，其特征在于，在所述根据预设的多个社团指标和预设的多个业务指标，从所述多个社团群体中，确定出可疑社团之后，还包括：

8.一种可疑社团的识别装置，其特征在于，包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的可疑社团的识别方法。

10.一种计算机设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，其特征在于，所述程序指令被处理器加载并执行时实现权利要求1至7任意一项所述的可疑社团的识别方法的步骤。