CN112989135B

CN112989135B - 实时风险团伙的识别方法、介质、装置和计算设备

Info

Publication number: CN112989135B
Application number: CN202110407689.XA
Authority: CN
Inventors: 林鑫; 苏跃; 陈炬; 许翔; 杨杰; 罗晓华; 梁钧
Original assignee: Hangzhou Netease Zaigu Technology Co Ltd
Current assignee: Hangzhou Netease Zaigu Technology Co Ltd
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2023-03-24
Anticipated expiration: 2041-04-15
Also published as: CN112989135A

Abstract

本公开的实施方式提供了一种实时风险团伙的识别方法、介质、装置和计算设备。该方法包括：监听实时数据中当前用户的用户信息，根据所述用户信息和离线团伙数据，确定所述当前用户是否已被识别为属于风险团伙成员，在确定所述当前用户未被识别为属于风险团伙成员的情况下，基于实时构建的关系图谱获取所述当前用户的团伙数据，根据所述当前用户的团伙数据确定所述当前用户是否属于风险团伙成员。本公开实施例能够实现大数据环境下风险团伙的实时识别，极大地缩短了识别时间，识别速度控制在毫秒级别内，能够做到及时风险判断和止损，有效地保障了公司和正常消费者的权益。

Description

实时风险团伙的识别方法、介质、装置和计算设备

技术领域

本公开的实施方式涉及数据处理技术领域，更具体地，本公开的实施方式涉及实时风险团伙的识别方法、介质、装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是相关技术。

在金融、电商等领域，经常存在琳琅满目的营销活动，羊毛党为了谋取利益，会批量恶意注册大量虚假账号，伪造多个身份进行领券、刷单、抢红包、套现和申请信贷等行为。这些薅羊毛用户之间往往可以通过某些隐藏的联系构成关系紧密、规模庞大的风险团伙，有组织地进行群体作案。风险团伙相比于单个用户的欺诈行为更难识别，损失也更为严重，如果不加以防控，会极大地损害公司以及正常消费者的权益。

目前，基于构建好的关系图谱可以实现风险团伙的识别，进行风控管理。该方法往往需要实时分析关系图谱中多层级的数据，包括一度关联、二度关联、三度关联，甚至是更多维度关联的数据。但是，在大数据环境下，关系图谱可能包含几十亿甚至上百亿个节点和边，实时分析计算的方式导致计算速度严重受到影响，根本无法达到毫秒级别的响应时效，进而不能及时发现风险进行有效止损。

发明内容

本公开期望提供一种实时风险团伙的识别方法和装置。

在本公开实施方式的第一方面中，提供了一种实时风险团伙的识别方法，包括：

监听实时数据中当前用户的用户信息；

根据所述用户信息和离线团伙数据，确定所述当前用户是否已被识别为属于风险团伙成员；

在确定所述当前用户未被识别为属于风险团伙成员的情况下，基于实时构建的关系图谱获取所述当前用户的团伙数据，根据所述当前用户的团伙数据确定所述当前用户是否属于风险团伙成员。

在本公开的一个实施例中，所述根据所述用户信息和离线团伙数据，确定所述当前用户是否已被识别为属于风险团伙成员，包括：

根据所述用户信息查询风险团伙的离线团伙数据；

在查询到所述用户信息对应的离线团伙数据的情况下，确认所述当前用户已被识别为属于风险团伙成员；在未查询到所述用户信息对应的离线团伙数据的情况下，确认所述当前用户未被识别为属于风险团伙成员。

在本公开的一个实施例中，所述方法还包括：

针对离线数据中的多个用户，读取用于构建所述关系图谱的关系型数据，根据所述关系型数据分别计算出所述多个用户对应的离线团伙数据；

根据计算得到的所述离线团伙数据识别出所述多个用户中属于风险团伙的成员，并记录所述属于风险团伙的成员的离线团伙数据。

在本公开的一个实施例中，所述计算出的离线团伙数据，采用分布式图计算框架计算得到。

在本公开的一个实施例中，所述方法还包括：

将业务数据分流为实时数据和离线数据，按照实时数据和离线数据分流的方式构建所述关系图谱。

在本公开的一个实施例中，所述按照实时数据和离线数据分流的方式构建所述关系图谱，包括：

将所述实时数据实时写入图数据库中得到所述关系图谱，将所述离线数据非实时写入所述图数据库中，更新所述关系图谱。

在本公开的一个实施例中，所述将业务数据分流为实时数据和离线数据，包括：

从业务数据的增量数据中提取实时数据，从所述业务数据的全量数据中提取离线数据。

在本公开的一个实施例中，所述业务数据的增量数据由存储所述业务数据的数据库的增量日志文件中获取，所述业务数据的全量数据由基于分布式系统基础架构的数据仓库工具获取。

在本公开的一个实施例中，所述实时数据包括节点、边以及节点和边的实时属性，所述离线数据包括节点和边的补充属性。

在本公开的一个实施例中，所述实时属性为支持所述关系图谱实时查询的必要属性，所述补充属性为除所述必要属性以外的其他属性。

在本公开的一个实施例中，所述实时数据中的节点包括用户、设备、IP和地址中的至少一项；所述实时数据中的边为节点之间的关系；所述实时数据中节点和边的实时属性包括用户名、用户ID、用户使用福利次数、设备ID、IP和地址编码中的至少一项。

在本公开的一个实施例中，所述离线数据中节点和边的补充属性包括用户订单量、活跃时间、设备活跃时间、地址归属地、关联时间和关联次数中的至少一项。

在本公开的一个实施例中，所述根据所述当前用户的团伙数据确定所述当前用户是否属于风险团伙成员，包括：

判断所述当前用户的团伙数据是否符合预设的风险规则；

在符合所述风险规则的情况下，确定所述当前用户属于风险团伙成员；在不符合所述风险规则的情况下，确定所述当前用户不属于风险团伙成员。

在本公开实施方式的第二方面中，提供了一种实时风险团伙的识别装置，包括：

监听模块，用于监听实时数据中当前用户的用户信息；

确定模块，用于根据所述用户信息和离线团伙数据，确定所述当前用户是否已被识别为属于风险团伙成员；

实时识别模块，用于在确定所述当前用户未被识别为属于风险团伙成员的情况下，基于实时构建的关系图谱中获取所述当前用户的团伙数据，根据所述当前用户的团伙数据确定所述当前用户是否属于风险团伙成员。

在本公开的一个实施例中，所述确定模块具体用于：

根据所述用户信息查询风险团伙的离线团伙数据；

在本公开的一个实施例中，所述装置还包括：

离线计算模块，用于针对离线数据中的多个用户，读取用于构建所述关系图谱的关系型数据，根据所述关系型数据分别计算出所述多个用户对应的离线团伙数据；

记录模块，用于根据计算得到的所述离线团伙数据识别出所述多个用户中属于风险团伙的成员，并记录所述属于风险团伙的成员的离线团伙数据。

在本公开的一个实施例中，所述离线计算模块计算出的离线团伙数据，采用分布式图计算框架计算得到。

在本公开的一个实施例中，所述装置还包括：

构建模块，用于将业务数据分流为实时数据和离线数据，按照实时数据和离线数据分流的方式构建所述关系图谱。

在本公开的一个实施例中，所述构建模块具体用于：

将业务数据分流为实时数据和离线数据，将所述实时数据实时写入图数据库中得到所述关系图谱，将所述离线数据非实时写入所述图数据库中，更新所述关系图谱。

在本公开的一个实施例中，所述构建模块在将业务数据分流为实时数据和离线数据时，具体用于：

在本公开的一个实施例中，所述实时识别模块在根据所述当前用户的团伙数据确定所述当前用户是否属于风险团伙成员时，具体用于：

判断所述当前用户的团伙数据是否符合预设的风险规则；

在本公开实施方式的第三方面中，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现上述实时风险团伙的识别方法的步骤。

在本公开实施方式的第四方面中，提供了一种计算设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实时风险团伙的识别方法的步骤。

根据本公开实施方式的实时风险团伙的识别方法和装置，可以基于离线团伙数据和实时构建的关系图谱对风险团伙进行实时识别，这种实时和离线相结合的方式，实现了大数据环境下风险团伙的实时识别，极大地缩短了识别时间，识别速度控制在毫秒级别内，能够做到及时风险判断和止损，有效地保障了公司和正常消费者的权益。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示意性地示出了根据本公开一实施方式的实时风险团伙的识别方法实现流程图一；

图2示意性地示出了根据本公开一实施方式的实时查询和离线计算结合应用的示意图；

图3示意性地示出了根据本公开一实施方式的实时风险团伙的识别方法实现流程图二；

图4示意性地示出了根据本公开一实施方式的基于neo4j和plato实时风险团伙的识别流程示意图；

图5示意性地示出了根据本公开一实施方式的实时风险团伙的识别方法实现流程图三；

图6示意性地示出了根据本公开一实施方式的构建关系图谱的流程示意图；

图7示意性地示出了根据本公开一实施方式的基于kafka和hive构建关系图谱的流程示意图；

图8示意性地示出了根据本公开一实施方式的用于实时风险团伙的识别方法的介质示意图；

图9示意性地示出了根据本公开一实施方式的实时风险团伙的识别装置结构示意图；

图10示意性地示出了根据本公开一实施方式的计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种实时风险团伙的识别方法、介质、装置和计算设备。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述

本公开人发现，现有的风险团伙识别基于构建好的关系图谱进行识别，往往需要实时分析关系图谱中多层级的数据，在大数据环境下，计算速度严重受到影响，根本无法达到毫秒级别的响应时效，进而不能及时发现风险进行有效止损。

有鉴于此，本公开提供一种实时风险团伙的识别方法和装置，可以基于离线团伙数据和实时构建的关系图谱对风险团伙进行实时识别，这种实时和离线相结合的方式，实现了大数据环境下风险团伙的实时识别，极大地缩短了识别时间，识别速度控制在毫秒级别内，能够做到及时风险判断和止损，有效地保障了公司和正常消费者的权益。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

示例性方法

下面参考图1来描述根据本公开示例性实施方式的实时风险团伙的识别方法。

如图1所示，本公开实施例的实时风险团伙的识别方法包括以下步骤：

S11：监听实时数据中当前用户的用户信息；

S12：根据该用户信息和离线团伙数据，确定当前用户是否已被识别为属于风险团伙成员；

S13：在确定当前用户未被识别为属于风险团伙成员的情况下，基于实时构建的关系图谱获取当前用户的团伙数据，根据当前用户的团伙数据确定当前用户是否属于风险团伙成员。

本公开中，实时数据通常会包括很多个用户的信息，当前用户是指监听到的任一个用户，对监听到的任一个用户都可以执行上述过程，在此不赘述。上述实时构建的关系图谱为即时更新的，该关系图谱中的数据代表最新的数据，因此，基于该关系图谱获取到的团伙数据也是最新的数据，进而能够保证识别风险团伙成员的准确性和及时性。

本公开中，关系图谱的存储可以采用图数据库来实现，图数据库的种类不限制，如可以采用neo4j，具有高性能、高灵活、开源、可拓展、可视化、易于开发部署等优点。当然，也可以采用FlockDB、AllegroGrap、GraphDB、InfiniteGraph或HugeGraph等其他图数据库来实现，具体不限定。

通过上述过程，本公开实施例可以基于离线团伙数据和实时构建的关系图谱对风险团伙进行实时识别，这种实时和离线相结合的方式，实现了大数据环境下风险团伙的实时识别，极大地缩短了识别时间，识别速度控制在毫秒级别内，保证了业务的正常运行，能够做到及时风险判断和止损，有效地保障了公司和正常消费者的权益。

在一种可能的实施方式中，S12包括：根据用户信息查询风险团伙的离线团伙数据；在查询到用户信息对应的离线团伙数据的情况下，确认当前用户已被识别为属于风险团伙成员；在未查询到用户信息对应的离线团伙数据的情况下，确认当前用户未被识别为属于风险团伙成员。

这种基于离线团伙数据进行查询的方式，能够离线优先识别出风险团伙成员，避免对已被识别的用户还进行实时关系图谱的查询，极大地节省了识别时间，避免资源浪费，提高了识别效率，达到了大数据环境下能够快速响应的效果，为有效止损和维护消费者权益提供了强有力的保障。

在一种可能的实施方式中，上述方法还包括：针对离线数据中的多个用户，读取用于构建关系图谱的关系型数据，根据关系型数据分别计算出多个用户对应的离线团伙数据；根据计算得到的离线团伙数据识别出该多个用户中属于风险团伙的成员，并记录属于风险团伙的成员的离线团伙数据。

这种针对离线数据中的多个用户基于离线团伙数据进行识别的方式，无需实时地查询关系图谱，减轻了实时查询关系图谱的压力，而且一次性对多个用户一起进行计算，可以避免频繁计算带来的额外开销，对于识别出的风险团伙成员进行记录，可以用于实时数据中监听到的用户的实时识别，能够达到已被记录用户的快速识别，简化了识别程序，避免了大数据环境下流量瞬间涌入时(比如电商大促销、秒杀等场景中)关系图谱过载的风险，不仅提高了识别的效率和准确率，而且提高了识别的可靠性和稳定性。

其中，离线数据中的多个用户的具体数目并不限制。通常可以根据需要进行批量处理，具体地可以根据需要每天或每N个小时对离线数据中的多个用户进行处理，例如，设置N＝5则每5个小时对离线数据中的多个用户进行处理。因此，每次处理的用户数目可能并不相同。无论每次处理的用户数目如何，都属于批量处理，而不是对其中的每个用户实时处理，从而减轻了实时查询关系图谱的压力，节省了开销，能够避免过载。

图2示意性地示出了根据本公开一实施方式的实时查询和离线计算结合应用的示意图。如图2所示，当在实时数据中监听到当前用户的用户信息时，使用流计算任务提取出用户信息。根据该用户信息在数据库(例如hbase)中查询已经记录的离线团伙数据，如果查询到当前用户的离线团伙数据，则确认当前用户为属于风险团伙成员。如果未查询到当前用户的离线团伙数据，则实时查询实时构建的关系图谱得到当前用户的团伙数据，进而确定出当前用户是否属于风险团伙成员。进一步地，在根据实时构建的关系图谱确定出当前用户属于风险团伙成员时，还可以将当前用户的团伙数据，存储到上述数据库hbase中。

图3示意性地示出了根据本公开一实施方式的实时风险团伙的识别方法实现流程图。如图3所示，本公开实施例的实时风险团伙的识别方法包括以下步骤：

S31：针对离线数据中的多个用户，读取用于构建关系图谱的关系型数据，根据该关系型数据分别计算出多个用户对应的离线团伙数据；

S32：根据计算得到的离线团伙数据识别出该多个用户中属于风险团伙的成员，并记录属于风险团伙的成员的离线团伙数据；

S33：监听实时数据中当前用户的用户信息；

S34：根据该用户信息查询风险团伙的离线团伙数据；

S35：在查询到该用户信息对应的离线团伙数据的情况下，确认当前用户已被识别为属于风险团伙成员；在未查询到该用户信息对应的离线团伙数据的情况下，确认当前用户未被识别为属于风险团伙成员；

S36：在确定当前用户未被识别为属于风险团伙成员的情况下，基于实时构建的关系图谱获取当前用户的团伙数据，根据当前用户的团伙数据确定当前用户是否属于风险团伙成员。

在一种可能的实施方式中，S31中计算出的离线团伙数据采用分布式图计算框架计算得到。采用分布式图计算框架进行计算，具有计算快速的效果，进而节省时间，提高效率。

本公开中，分布式图计算框架有多种实现方式，如Spark Graphx、GraphLab、PowerGraph、Plato等，能够实现快速运算，甚至可以达到分钟级处理十几亿节点大规模图的效果，具体可以根据需要选择，此处不限定。

在一种可能的实施方式中，S36中的根据当前用户的团伙数据确定当前用户是否属于风险团伙成员，包括：判断当前用户的团伙数据是否符合预设的风险规则；在符合风险规则的情况下，确定当前用户属于风险团伙成员；在不符合风险规则的情况下，确定当前用户不属于风险团伙成员。其中，风险规则可以根据不同的应用场景来制定，本公开对此不做具体限定。

图4示意性地示出了根据本公开一实施方式的基于neo4j和plato实时风险团伙的识别流程示意图。如图4所示，首先，使用流计算任务flink job实时监听kafka消息，提取当前用户的主键(如用户ID)。然后根据该主键查询数据库hbase中是否存储有当前用户的离线团伙数据，如果有则直接返回查询结果，即当前用户已被识别为风险团伙成员；如果没有，则调用neo4j driver通过cypher语句查询neo4j图数据库，得到当前用户精确的团伙数据(即N度关系)。其中，数据库hbase用来存放用户的离线团伙数据，可以根据需要按每小时或每天进行更新)。如果根据cypher查询结果确定当前用户属于风险团伙成员，还可以将当前用户的团伙数据也写入hbase，作为对hbase中团伙数据的补充。在完成识别后，风控平台可以读取hbase中的数据，对风险团伙成员配置规则，采取策略进行拦截。另外，对于离线数据中的多个用户，还可以从hive中读取用于构建关系图谱的关系型数据，采用分布式图计算框架plato，计算出每个用户的离线团伙数据，并将其中识别为风险团伙成员的离线团伙数据存入hbase中，作为habse查询的依据。上述流程中关系图谱的数据是只增不减的，如果一个用户依据离线团伙数据就已经能判定为风险团伙成员的话，则其在未来作案时，就可以依据已有的离线团伙数据对其进行拦截，而无需对其进行精确的实时查询。离线团伙数据的计算技术可以实现分分钟处理几十亿节点和边的关系图谱，极大地提高了处理速度。

在一种可能的实施方式中，上述方法还包括：将业务数据分流为实时数据和离线数据，按照实时数据和离线数据分流的方式构建关系图谱。这种实时数据和离线数据分流的方式来构建关系图谱，与全部采用实时数据来构建关系图谱的方式相比，极大地减轻了图数据库的负担，能够更好地适应大数据环境下的应用。

在一种可能的实施方式中，上述按照实时数据和离线数据分流的方式构建关系图谱，包括：将实时数据实时写入图数据库中得到关系图谱，将离线数据非实时写入图数据库中，更新关系图谱。这种方式下，既保证了关系图谱中实时性强的数据的及时更新，又避免了瞬时流量较大情况下写入图数据库所带来的负担，有效地防止了过载，且不会影响关系图谱的构建。

图5示意性地示出了根据本公开一实施方式的实时风险团伙的识别方法实现流程图。如图5所示，本公开实施例的实时风险团伙的识别方法包括以下步骤：

S51：从业务数据的增量数据中提取实时数据，从业务数据的全量数据中提取离线数据；

S52：将实时数据实时写入图数据库中得到关系图谱，将离线数据非实时写入图数据库中，更新关系图谱；

S53：监听实时数据中当前用户的用户信息；

S54：根据用户信息和离线团伙数据，确定当前用户是否已被识别为属于风险团伙成员；

S55：在确定当前用户未被识别为属于风险团伙成员的情况下，基于实时构建的关系图谱获取当前用户的团伙数据；

S56：判断当前用户的团伙数据是否符合预设的风险规则；

S57：在符合风险规则的情况下，确定当前用户属于风险团伙成员；在不符合风险规则的情况下，确定当前用户不属于风险团伙成员。

在一种可能的实施方式中，上述业务数据的增量数据由存储业务数据的数据库的增量日志文件中获取，上述业务数据的全量数据由基于分布式系统基础架构的数据仓库工具获取。

本公开中，上述基于分布式系统基础架构的数据仓库工具是指hive，即基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive的优点是学习成本低，十分适合对数据仓库进行统计分析。本公开采用hive能够更好地适用于离线大规模数据的查询，从而避免数据库过载，减轻系统负担，提高识别效率。

本公开中，关系图谱的构成元素包括节点、边以及节点和边的各种属性信息。在大数据场景下，如果实时将这些数据都写入图数据库(如neo4j)，那么将会对图数据库的写性能带来极大的挑战。因此采用实时数据和离线数据分流的方式可以降低图数据库的写压力。其中，实时数据包括节点、边以及节点和边的实时属性，以确保关系图谱的实时性，离线数据包括节点和边的补充属性，以确保关系图谱的完整性。在一种可能的实施方式中，实时属性为支持关系图谱实时查询的必要属性，即实时需要判断的属性，补充属性为除该必要属性以外的其他属性。通常情况下，节点和边的大部分属性是补充属性，采用离线写入的方式，避免了图数据库不必要的写负担，可以在瞬时流量比较大的情况下，也不会影响到关系图谱的实时构建。

实时数据与离线数据的定义要视具体的业务应用场景而定。在一种可能的实施方式中，实时数据中的节点包括用户、设备、IP和地址中的至少一项；实时数据中的边为节点之间的关系；实时数据中节点和边的实时属性包括用户名、用户ID、用户使用福利次数、设备ID、IP、地址编码和权重中的至少一项。

例如在电子商务领域中，实时数据中的节点包括用户、设备、IP和地址；实时数据中的边为节点之间的关系；实时数据中节点和边的实时属性包括用户名、用户ID和用户使用福利次数。采用上述方式，基于实时构建的关系图谱获取到用户的团伙数据，例如获取到用户使用福利次数超过指定次数时，可以实时判断该用户是否通过多账号薅取福利，从而达到及时止损和维护消费者权益的效果。

在一种可能的实施方式中，离线数据中节点和边的补充属性包括用户订单量、活跃时间、设备活跃时间、地址归属地、关联时间和关联次数中的至少一项。

图6示意性地示出了根据本公开一实施方式的构建关系图谱的流程示意图。如图6所示，将业务数据进行一级存储，并进行实时采集，从实时采集的数据中提取出实时数据，在一级存储的基础上进行二级存储，并提取出离线数据，然后使用图数据库驱动，将提取出的实时数据和离线数据写入图数据库中，得到关系图谱。

图7示意性地示出了根据本公开一实施方式的基于kafka和hive构建关系图谱的流程示意图。如图7所示，首先获取业务数据ODS(Operational Data Store，操作数据存储)，将其存储在数据库mysql中(一级存储)。binlog是mysql的二进制增量日志文件，记录了mysql中发生的所有数据变更。通过canal客户端使用canal，对binlog进行实时采集。其中，canal负责从mysql实时拉取binlog并完成适当解析。binlog采集到的数据由kafka生产者写到kafka队列中，供下游kafka消费者进行消费。其次，还将mysql存储的全量数据同步到hive，并且每次完成binlog采集后得到的增量数据也从kafka同步到hive上(二级存储)。从而hive可以离线还原出所有的mysql数据即业务数据。由一级存储到二级存储，这样做是因为hive更适合做离线大规模数据的查询。然后，由kafka得到的数据中提取出实时数据，包括节点、边以及节点和边的实时属性，从hive中提取出离线数据，包括节点和边的补充属性。最后，由neo4j驱动将这些实时数据和离线数据写入neo4j中，得到关系图谱。

示例性介质

在介绍了本公开示例性实施方式的方法之后，接下来，参考图8对本公开示例性实施方式的介质进行说明。

在一些可能的实施方式中，本公开的各个方面还可以实现为一种计算机可读介质，其上存储有程序，当所述程序被处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的实时风险团伙的识别方法中的步骤。

具体地，上述处理器执行上述程序时用于实现如下步骤：监听实时数据中当前用户的用户信息，根据所述用户信息和离线团伙数据，确定所述当前用户是否已被识别为属于风险团伙成员，在确定所述当前用户未被识别为属于风险团伙成员的情况下，基于实时构建的关系图谱获取所述当前用户的团伙数据，根据所述当前用户的团伙数据确定所述当前用户是否属于风险团伙成员。

需要说明的是：上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图8所示，描述了根据本公开的实施方式的介质80，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序，并可以在设备上运行。然而，本公开不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算设备。

示例性装置

在介绍了本公开示例性实施方式的介质之后，接下来，参考图9对本公开示例性实施方式的装置进行说明。

如图9所示，本公开实施例的实时风险团伙的识别装置可以包括：

监听模块901，用于监听实时数据中当前用户的用户信息；

确定模块902，用于根据用户信息和离线团伙数据，确定当前用户是否已被识别为属于风险团伙成员；

实时识别模块903，用于在确定当前用户未被识别为属于风险团伙成员的情况下，基于实时构建的关系图谱中获取当前用户的团伙数据，根据当前用户的团伙数据确定当前用户是否属于风险团伙成员。

在一种可能的实施方式中，确定模块具体用于：

根据用户信息查询风险团伙的离线团伙数据；

在查询到用户信息对应的离线团伙数据的情况下，确认当前用户已被识别为属于风险团伙成员；在未查询到用户信息对应的离线团伙数据的情况下，确认当前用户未被识别为属于风险团伙成员。

在一种可能的实施方式中，上述装置还包括：

离线计算模块，用于针对离线数据中的多个用户，读取用于构建关系图谱的关系型数据，根据关系型数据分别计算出多个用户对应的离线团伙数据；

记录模块，用于根据计算得到的离线团伙数据识别出该多个用户中属于风险团伙的成员，并记录属于风险团伙的成员的离线团伙数据。

在一种可能的实施方式中，上述离线计算模块计算出的离线团伙数据，采用分布式图计算框架计算得到。

在一种可能的实施方式中，上述装置还包括：

构建模块，用于将业务数据分流为实时数据和离线数据，按照实时数据和离线数据分流的方式构建关系图谱。

在一种可能的实施方式中，上述构建模块具体用于：

将业务数据分流为实时数据和离线数据，将实时数据实时写入图数据库中得到关系图谱，将离线数据非实时写入图数据库中，更新关系图谱。

在一种可能的实施方式中，上述构建模块在将业务数据分流为实时数据和离线数据时，具体用于：

从业务数据的增量数据中提取实时数据，从业务数据的全量数据中提取离线数据。

在一种可能的实施方式中，业务数据的增量数据由存储业务数据的数据库的增量日志文件中获取，业务数据的全量数据由基于分布式系统基础架构的数据仓库工具获取。

在一种可能的实施方式中，实时数据包括节点、边以及节点和边的实时属性，离线数据包括节点和边的补充属性。

在一种可能的实施方式中，实时属性为支持关系图谱实时查询的必要属性，补充属性为除必要属性以外的其他属性。

在一种可能的实施方式中，实时数据中的节点包括用户、设备、IP和地址中的至少一项；实时数据中的边为节点之间的关系；实时数据中节点和边的实时属性包括用户名、用户ID、用户使用福利次数、设备ID、IP和地址编码中的至少一项。

在一种可能的实施方式中，实时识别模块在根据当前用户的团伙数据确定当前用户是否属于风险团伙成员时，具体用于：

判断当前用户的团伙数据是否符合预设的风险规则；

在符合风险规则的情况下，确定当前用户属于风险团伙成员；在不符合风险规则的情况下，确定当前用户不属于风险团伙成员。

示例性计算设备

在介绍了本公开示例性实施方式的方法、介质和装置之后，接下来，参考图10对本公开示例性实施方式的计算设备进行说明。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本公开实施方式的计算设备可以至少包括至少一个处理单元以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本公开的各种示例性实施方式的实时风险团伙的识别方法中的步骤。

下面参照图10来描述根据本公开的这种实施方式的计算设备100。图10显示的计算设备100仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，计算设备100以通用计算设备的形式表现。计算设备100的组件可以包括但不限于：上述至少一个处理单元1001、上述至少一个存储单元1002，连接不同系统组件(包括处理单元1001和存储单元1002)的总线1003。

总线1003包括数据总线、控制总线和地址总线。

存储单元1002可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)10021和/或高速缓存存储器10022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)10023。

存储单元1002还可以包括具有一组(至少一个)程序模块10024的程序/实用工具10025，这样的程序模块10024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备100也可以与一个或多个外部设备1004(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口1005进行。并且，计算设备100还可以通过网络适配器1006与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图10所示，网络适配器1006通过总线1003与计算设备100的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备100使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了实时风险团伙的识别装置的若干单元/模块或子单元/子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种实时风险团伙的识别方法，其特征在于，包括：

监听实时数据中当前用户的用户信息；

在确定所述当前用户未被识别为属于风险团伙成员的情况下，基于实时构建的关系图谱获取所述当前用户的团伙数据，根据所述当前用户的团伙数据确定所述当前用户是否属于风险团伙成员；

其中，所述关系图谱按照以下方式构建：

从业务数据的增量数据中提取实时数据，从所述业务数据的全量数据中提取离线数据，将所述实时数据实时写入图数据库中得到所述关系图谱，将所述离线数据非实时写入所述图数据库中，更新所述关系图谱；

所述增量数据由存储所述业务数据的数据库的增量日志文件中获取，所述全量数据由基于分布式系统基础架构的数据仓库工具获取，所述实时数据包括节点、边以及节点和边的实时属性，所述离线数据包括节点和边的补充属性，所述实时属性为支持所述关系图谱实时查询的必要属性，所述补充属性为除所述必要属性以外的其他属性。

2.根据权利要求1所述的方法，其特征在于，所述根据所述用户信息和离线团伙数据，确定所述当前用户是否已被识别为属于风险团伙成员，包括：

根据所述用户信息查询风险团伙的离线团伙数据；

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述计算出的离线团伙数据，采用分布式图计算框架计算得到。

5.根据权利要求1所述的方法，其特征在于，

所述实时数据中的节点包括用户、设备、IP和地址中的至少一项；

所述实时数据中的边为节点之间的关系；

所述实时数据中节点和边的实时属性包括用户名、用户ID、用户使用福利次数、设备ID、IP和地址编码中的至少一项。

6.根据权利要求1所述的方法，其特征在于，所述离线数据中节点和边的补充属性包括用户订单量、活跃时间、设备活跃时间、地址归属地、关联时间和关联次数中的至少一项。

7.根据权利要求1所述的方法，其特征在于，所述根据所述当前用户的团伙数据确定所述当前用户是否属于风险团伙成员，包括：

判断所述当前用户的团伙数据是否符合预设的风险规则；

8.一种实时风险团伙的识别装置，其特征在于，包括：

构建模块，用于从业务数据的增量数据中提取实时数据，从所述业务数据的全量数据中提取离线数据，将所述实时数据实时写入图数据库中得到关系图谱，将所述离线数据非实时写入所述图数据库中，更新所述关系图谱，所述增量数据由存储所述业务数据的数据库的增量日志文件中获取，所述全量数据由基于分布式系统基础架构的数据仓库工具获取，所述实时数据包括节点、边以及节点和边的实时属性，所述离线数据包括节点和边的补充属性，所述实时属性为支持所述关系图谱实时查询的必要属性，所述补充属性为除所述必要属性以外的其他属性；

监听模块，用于监听实时数据中当前用户的用户信息；

9.根据权利要求8所述的装置，其特征在于，所述确定模块具体用于：

根据所述用户信息查询风险团伙的离线团伙数据；

10.根据权利要求8或9所述的装置，其特征在于，所述装置还包括：

11.根据权利要求10所述的装置，其特征在于，所述离线计算模块计算出的离线团伙数据，采用分布式图计算框架计算得到。

12.根据权利要求8所述的装置，其特征在于，

所述实时数据中的边为节点之间的关系；

13.根据权利要求8所述的装置，其特征在于，所述离线数据中节点和边的补充属性包括用户订单量、活跃时间、设备活跃时间、地址归属地、关联时间和关联次数中的至少一项。

14.根据权利要求8所述的装置，其特征在于，所述实时识别模块在根据所述当前用户的团伙数据确定所述当前用户是否属于风险团伙成员时，具体用于：

判断所述当前用户的团伙数据是否符合预设的风险规则；

15.一种介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。

16.一种计算设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。