CN111325350A

CN111325350A - 可疑组织发现系统和方法

Info

Publication number: CN111325350A
Application number: CN202010102203.7A
Authority: CN
Inventors: 秦一焜; 郑佳尔
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2020-06-23
Anticipated expiration: 2040-02-19
Also published as: CN111325350B

Abstract

提供了一种可疑组织发现系统和方法。所述可疑组织发现系统包括：图计算模块，被配置为基于用户数据建立用户关联图，其中，用户关联图中的各个节点分别表示不同用户，连接各个节点的边表示在与所连接的节点对应的用户之间存在关联，并且边的权重指示与所连接的节点对应的用户之间的相关性；组织划分模块，被配置为对用户关联图进行划分来获得至少一个组织；组织排序模块，被配置为估计所述至少一个组织的可疑度，对所述至少一个组织进行可疑度排序，并按照排序结果确定可疑组织。

Description

可疑组织发现系统和方法

技术领域

本申请涉及人工智能领域，更具体地，涉及一种可疑组织发现系统和方法。

背景技术

在金融风控领域，金融犯罪行为几乎都是有组织地进行作案。现有的金融风控系统通常集中在个体粒度进行建模，用于发现单一异常用户，然后通过用户之间的关联关系等将这样的用户关联，从而找出相关组织。通过这样的方式，虽然能够发现相关组织，但使用这种简单的弱关联关系找出的组织数量往往非常大并且组织之间无优先级区分，还需要人工参与对找出的各个组织进行业务审核以确认是否确实存在危害行为，因而难以及时有效地找出这类组织。

此外，现有的金融风控方案主要使用业务规则或者简单的机器学习模型检测单个异常用户，因而所检测到的单个用户必然在某些属性上有较高的对应特点，但是仍然有很大一部分异常用户，从他们个体的交易行为上完全无法识别出他们的真实意图，而必须把他们放在整体组织的视角下综合判断，才可以确定他们是异常组织中的一员。而现有金融风控方案往往只能发现散落的单个异常用户，而无法发现隐藏在这些单个异常用户周围的异常组织，也无法详细刻画异常用户之间的关系网络。

此外，传统的异常组织发现方法更多的着眼于发现组织但是并未对找到的组织进行优先级排序，因而通常还需要业务审核专家对找出的组织进行进一步的业务审核。而由于现实情况中资源(如业务审核专家人力)往往是有限的，难以及时逐一审核所有上报的组织。

另一方面，由于异常组织为了逃避处罚，往往采用和正常用户类似的行为活动以此蒙混过关。对于银行等金融机构来说，检测难度也随之加大，因此，用于训练预测异常组织的机器学习模型的历史样本数据往往不足，这进一步加大了发现异常组织的难度。

因此，如何能够在减少人力资源的使用的情况下以有限的资源及时准确地找出尽量多的异常组织已成为一个亟待解决的问题。

发明内容

根据本公开的示例性实施例，提供了一种可疑组织发现系统，所述系统包括：图计算模块，被配置为基于用户数据建立用户关联图，其中，用户关联图中的各个节点分别表示不同用户，连接各个节点的边表示在与所连接的节点对应的用户之间存在关联，并且边的权重指示与所连接的节点对应的用户之间的相关性；组织划分模块，被配置为对用户关联图进行划分来获得至少一个组织；组织排序模块，被配置为估计所述至少一个组织的可疑度，对所述至少一个组织进行可疑度排序，并按照排序结果确定可疑组织。

可选地，图计算模块可被配置为使用第一预设业务规则、第一有监督模型和第一无监督模型中的至少一个来确定用户关联图中的各个边的权重。

可选地，图计算模块可基于第一预设业务规则计算或设置用户关联图中的各个边的权重，其中，第一预设业务规则可包括以下至少一项：与每条边对应的两个用户在预设时间段期间是否产生交易、交易的总额、交易的次数、以及共同的交易对手的数量。

可选地，图计算模块可使用第一有监督模型，针对输入的用户数据来预测用户关联图中的各个边的权重，其中，第一有监督模型可以是基于历史数据，以用户对为训练样本训练得到的用于预测两个用户之间的相关性的有监督模型，其中，所述训练样本可使用包括在用户对中的两个用户的预设特征构成样本特征，并且可将包括在用户对中的两个用户是否属于同一异常组织用作训练样本的标签。

可选地，图计算模块可使用图计算算法作为第一无监督模型来计算与用户关联图中的每条边对应的两个用户的嵌入表示之间的欧式距离或余弦距离作为用户关联图中的每条边的权重。

可选地，图计算模块还可被配置为：在用户关联图中确定种子节点，并利用种子节点来更新用户关联图中的各个边的权重，其中，种子节点的对应用户可以为可疑用户。

可选地，图计算模块可被配置为使用第二预设业务规则、第二有监督模型以及第二无监督模型中的至少一个来确定用户关联图中的种子节点。

可选地，图计算模块可按照第二预设业务规则直接在用户关联图中确定种子节点，其中，第二预设业务规则可包括以下至少一项：用户的贷款金额、用户的贷款次数、用户在预设时间段期间内交易的总额、以及用户在预设时间段期间内交易的次数。

可选地，图计算模块可使用第二有监督模型来预测用户关联图中的用户是否为异常用户或用户为异常用户的得分，并基于预测结果确定种子节点，其中，第二有监督模型可以是基于历史用户数据，以用户为训练样本训练得到的用于预测用户是否为异常用户或用于预测用户为异常用户的得分的有监督模型，其中，所述训练样本可使用用户的预设特征构成样本特征，并且将用户是否为异常用户用作样本的标签。

可选地，图计算模块可使用自动编码算法作为第二无监督模型来判断用户是否为异常用户，并基于判断结果确定种子节点。

可选地，组织划分模块可使用自动超参搜索来确定对用户关联图进行划分的最优划分权重阈值，并基于所述最优划分权重阈值对用户关联图进行划分以获得所述至少一个组织。

可选地，组织排序模块可通过提取各个组织的组织特征，使用第三模型来估计所述至少一个组织的可疑度。

可选地，组织排序模块可基于第三预设业务规则和组织统计指标中的至少一个来构建每个组织的组织特征。

可选地，组织划分模块可使用自动超参搜索，通过对用户关联图执行至少一次划分操作来确定所述最优划分权重阈值，其中，每次划分操作可包括：确定用于对用户关联图进行划分的划分权重阈值；通过从用户关联图删除权重小于所确定的划分权重阈值的边来更新用户关联图；使用最大连通子集算法在更新后的用户关联图中确定至少一个连通子集；基于与各个连通子集对应的组织的组织信息，确定每个组织的业务得分，其中，所述最优划分权重阈值可以是在所确定的各个业务得分满足预设停止条件的划分操作中所使用的划分权重阈值。

可选地，所述用于对用户关联图进行划分的划分权重阈值可以是从多个预设划分权重阈值或预设范围的值之中选择的，或者是在依次执行多次划分操作的过程中按照预定规则对在每次划分操作中所使用的划分权重阈值逐步调整获得的。

可选地，所述第三模型可包括第三有监督模型或第三无监督模型。

可选地，组织排序模块可基于被用于对第三模型进行训练的历史组织数据来选择第三有监督模型或第三无监督模型作为第三模型。当所述历史组织数据中的组织标签数量超过预定义数量时，组织排序模块可选择使用第三有监督模型作为第三模型，其中，第三有监督模型可以是基于历史组织数据，以组织为训练样本训练得到的用于预测组织为异常组织的可疑度的有监督模型，并且第三有监督模型的训练样本可使用组织的组织特征构成样本特征，并将组织是否为异常组织用作样本的组织标签。当所述历史组织数据中的组织标签数量未超过所述预定义数量时，组织排序模块可选择使用第三无监督模型作为第三模型。所述组织标签可指示对应组织为异常组织。

根据本公开的另一示例性实施例，提供了一种可疑组织发现方法，所述方法包括：基于用户数据建立用户关联图，其中，用户关联图中的各个节点分别表示不同用户，连接各个节点的边表示在与所连接的节点对应的用户之间存在关联，并且边的权重指示与所连接的节点对应的用户之间的相关性；对用户关联图进行划分来获得至少一个组织；估计所述至少一个组织的可疑度，对所述至少一个组织进行可疑度排序，并按照排序结果确定可疑组织。

可选地，建立用户关联图的步骤可包括：使用第一预设业务规则、第一有监督模型和第一无监督模型中的至少一个来确定用户关联图中的各个边的权重。

可选地，确定用户关联图中的各个边的权重的步骤可包括：基于第一预设业务规则计算或设置用户关联图中的各个边的权重，其中，第一预设业务规则可包括以下至少一项：与每条边对应的两个用户在预设时间段期间是否产生交易、交易的总额、交易的次数、以及共同的交易对手的数量。

可选地，确定用户关联图中的各个边的权重的步骤可包括：使用第一有监督模型，针对输入的用户数据来预测用户关联图中的各个边的权重，其中，第一有监督模型可以是基于历史数据，以用户对为训练样本训练得到的用于预测两个用户之间的相关性的有监督模型，其中，所述训练样本可使用包括在用户对中的两个用户的预设特征构成样本特征，并且可将包括在用户对中的两个用户是否属于同一异常组织用作训练样本的标签。

可选地，确定用户关联图中的各个边的权重的步骤可包括：使用图计算算法作为第一无监督模型来计算与用户关联图中的每条边对应的两个用户的嵌入表示之间的欧式距离或余弦距离作为用户关联图中的每条边的权重。

可选地，建立用户关联图的步骤还可包括：在用户关联图中确定种子节点，并利用种子节点来更新用户关联图中的各个边的权重，其中，种子节点的对应用户可以为可疑用户。

可选地，确定种子节点的步骤可包括：使用第二预设业务规则、第二有监督模型以及第二无监督模型中的至少一个来确定用户关联图中的种子节点。

可选地，确定用户关联图中的种子节点的步骤可包括：按照第二预设业务规则直接在用户关联图中确定种子节点，其中，第二预设业务规则可包括以下至少一项：用户的贷款金额、用户的贷款次数、用户在预设时间段期间内交易的总额、以及用户在预设时间段期间内交易的次数。

可选地，确定用户关联图中的种子节点的步骤可包括：使用第二有监督模型来预测用户关联图中的用户是否为异常用户或用户为异常用户的得分，并基于预测结果确定种子节点，其中，第二有监督模型可以是基于历史用户数据，以用户为训练样本训练得到的用于预测用户是否为异常用户或用于预测用户为异常用户的得分的有监督模型，其中，所述训练样本可使用用户的预设特征构成样本特征，并且可将用户是否为异常用户用作样本的标签。

可选地，确定用户关联图中的种子节点的步骤可包括：使用自动编码算法作为第二无监督模型来判断用户是否为异常用户，并基于判断结果确定种子节点。

可选地，对用户关联图进行划分的步骤可包括：使用自动超参搜索来确定对用户关联图进行划分的最优划分权重阈值，并基于所述最优划分权重阈值对用户关联图进行划分以获得所述至少一个组织。

可选地，估计所述至少一个组织的可疑度的步骤可包括：通过提取各个组织的组织特征，使用第三模型来估计所述至少一个组织的可疑度。

可选地，提取各个组织的组织特征的步骤可包括：基于第三预设业务规则和组织统计指标中的至少一个来构建每个组织的组织特征。

可选地，确定对用户关联图进行划分的最优划分权重阈值的步骤可包括：通过对用户关联图执行至少一次划分操作来确定所述最优划分权重阈值，其中，每次划分操作可包括：确定用于对用户关联图进行划分的划分权重阈值；通过从用户关联图删除权重小于所确定的划分权重阈值的边来更新用户关联图；使用最大连通子集算法在更新后的用户关联图中确定至少一个连通子集；基于与各个连通子集对应的组织的组织信息，确定每个组织的业务得分，其中，所述最优划分权重阈值可以是在所确定的各个业务得分满足预设停止条件的划分操作中所使用的划分权重阈值。

可选地，所述第三模型可包括第三有监督模型或第三无监督模型，其中，可基于被用于对第三模型进行训练的历史组织数据来选择第三有监督模型或第三无监督模型作为第三模型。当所述历史组织数据中的组织标签数量超过预定义数量时，可选择使用第三有监督模型作为第三模型，其中，第三有监督模型是基于历史组织数据，以组织为训练样本训练得到的用于预测组织为异常组织的可疑度的有监督模型，并且第三有监督模型的训练样本使用组织的组织特征构成样本特征，并将组织是否为异常组织用作样本的组织标签。当所述历史组织数据中的组织标签数量未超过所述预定义数量时，可选择使用第三无监督模型作为第三模型。所述组织标签可指示对应组织为异常组织

根据本公开的另一示例性实施例，提供了一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行上述可疑组织发现方法。

根据本公开的另一示例性实施例，提供了一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行上述可疑组织发现方法。

有益效果

通过应用本发明的示例性实施例，能够在减少或者甚至无需人工参与的情况下及时准确地检测可疑的异常组织。此外，通过应用本发明的示例性实施例，即使用于训练预测异常用户或异常组织的机器学习模型的历史数据不足，也能够以有限的资源及时准确地找出可能的异常组织。

附图说明

从下面结合附图对本发明实施例的详细描述中，本发明的这些和/或其他方面和优点将变得更加清楚并更容易理解，其中：

图1是示出根据本公开的示例性实施例的可疑组织发现系统的框图；

图2是示出根据本公开的示例性实施例的图计算模块确定用户关联图的示例的示意图；

图3是示出根据本公开的示例性实施例组织划分模块执行组织划分操作的流程图；

图4是示出根据本公开的示例性实施例的可疑组织发现方法的流程图。

在整个附图中，应注意，相同的参考标号用于表示相同或相似的元件、特征和结构。

具体实施方式

在下文中，将参照附图详细描述本发明的实施例。在描述本发明的示例性实施例时，将不详细描述公知功能或结构，这是因为它们会不必要地模糊对本发明的理解。附图中的相同的组成元件由相同的参考标号来表示，并且对相同元件的重复描述将被省略。

可对本发明做出各种修改，并且存在本发明的各种实施例。现在将参照附图提供所述各种实施例的示例并且将详细描述所述各种实施例的示例。然而，本发明不限于此，尽管示例性实施例可被解释为包括本发明的技术构思和技术范围内的所有修改、等同形式或替换形式也是如此。在本发明的以下详细描述中，对通过图示的方式示出可实施本发明的具体实施例的附图进行参照。这些实施例被足够详细地描述以使本领域技术人员能够实施本公开。

图1是示出根据本公开的示例性实施例的可疑组织发现系统100的框图。

参照图1，跟据本公开的示例性实施例的可疑组织发现系统100包括：图计算模块110、组织划分模块120以及组织排序模块130。

图计算模块110可基于用户数据建立用户关联图。用户关联图中的各个节点可分别表示不同用户，连接各个节点的边可表示在与所连接的节点对应的用户之间存在关联，并且边的权重指示与所连接的节点对应的用户之间的相关性。

在本发明的示例性实施例中，图计算模块110可使用第一预设业务规则、第一有监督模型和第一无监督模型中的至少一个来确定用户关联图中的各个边的权重。

具体地讲，图计算模块110可基于第一预设业务规则直接计算或设置用户关联图中的各个边的权重。这里，所述第一预设业务规则可包括以下至少一项：与每条边对应的两个用户在预设时间段期间(例如，60天内)是否产生交易、交易的总额、交易的次数、以及共同的交易对手的数量等。然而，应该理解，所述第一预设业务规则所包含的规则不限于此，而是还可根据需要设置更少或更多的规则，例如，所述第一预设业务规则还可包括两个用户是否在同一ATM取款等各种规则。

仅作为示例，图计算模块110可预先设置所述第一预设业务规则中的各项规则与边的权重之间的关系(例如，计算方式)，然后在计算用户关联图中的各个边的权重时，依据每个边所对应的两个用户在所述各个规则上的具体数据，按照预先设置的关系来确定每个边的权重。

可选地，图计算模块110也可使用一个经过训练的有监督模型(即，第一有监督模型)，针对输入的用户数据来预测用户关联图中的各个边的权重。这里，第一有监督模型可以是基于已知的历史数据(例如，先前构建的历史用户关联图和/或历史已知组织数据等)，以已知的用户对为训练样本训练得到的用于预测两个用户之间的相关性的有监督模型。在本发明的示例性实施例中，第一有监督模型的训练样本可使用包括在用户对中的两个用户的已知预设特征构成其样本特征，并且可将已知的包括在用户对中的两个用户是否属于同一异常组织用作该样本的标签。

例如，假设使用用户对(用户1，用户2)作为一条训练样本，则该训练样本的样本特征可由(用户1的特征，用户2的特征，用户1和用户2之间特征的差)构成。例如，如果户1是男性、25岁，用户2是女性、20岁，则训练样本的样本特征可以是(男，25，女，20，性别不同，年龄差5岁)。该样本特征中的第5个特征“性别不同”是离散特征，取值只有两个(“性别相同”及“性别不同”)，第6个特征“年龄差”是两个用户之间年龄差值的绝对值。然而，应该理解，所述样本特征不限于此，还可根据需要以类似方式设置或构造更多特征，例如，用户1在一个月内的平均交易次数和一个月内的平均交易金额，用户2在一个月内的平均交易次数和一个月内的平均交易金额，所述两个用户在一个月内的平均交易次数的差值的绝对值，以及所述两个用户在一个月内平均交易金额的差值的绝对值等均可被设置为所述样本特征。

上述样本的标签可指示两个用户是否属于同一个异常组织。也就是说，如果在历史数据中，这两个用户曾经属于一个异常组织，则这两个用户组成的训练样本的标签值可以是第一值(例如，1)。如果一个用户属于某个异常组织而另一个用户不属于任何异常组织或者这两个用户属于不同的异常组织，则这两个用户组成的训练样本的标签值可以是是第二值(例如，0)。此外，由于在实际应用中普通用户的数量远远大于异常用户的数量，通过这样的方式构造出来的正样本(即，标签值为第一值的训练样本)的数量通常远远多于负样本(即，标签值为第二值的训练样本)的数量，因此在使用这样的训练样本对有监督模型进行训练时可对负样本进行抽样，仅使用部分负样本进行训练，以便获得稳定且准确的有监督模型。

可选地，图计算模块110还可使用一个无监督模型(即，第一无监督模型)来计算用户关联图中的各个边的权重。具体地讲，由于在历史数据(例如，先前构建的历史用户关联图和/或历史已知组织数据等)中的标签(例如，指示两个用户属于一个异常组织的标签)不足的情况下，难以通过使用这样的数据样本训练获得一个良好且稳定的模型来预测用户关联图中的各个边的权重，因此在本发明的示例性实施例中可使用无需这样的标签数据的无监督模型来计算用户关联图中的各个边的权重。仅作为示例，图计算模块110可使用图计算算法(例如，node2vec)作为第一无监督模型来计算与用户关联图中的每条边对应的两个用户的嵌入表示(即，embedding)之间的欧式距离或余弦距离作为所述每条边的权重。

尽管以上描述中具体解释了分别使用第一预设业务规则、第一有监督模型和第一无监督模型来确定用户关联图中的各个边的权重的示例，但本发明不限于此，还可结合使用第一预设业务规则、第一有监督模型和第一无监督模型中的两种或更多种方式来综合确定权重。例如，用户关联图中的各个边的权重可由所述三种方式分别计算出的权重的加权平均来确定。

此外，在以上描述中通过使用第一预设业务规则、第一有监督模型和第一无监督模型中的至少一个来确定用户关联图中的各个边的权重，然而，在这样确定权重的过程中，由于规则设置和/或样本及特征选取等因素，这样确定出的权重有时可能仅能反映出两个用户之间的相关性大小或两个用户属于同一组织的可能性，而难以反映出这两个用户属于同一异常组织的可能性。因此，在本发明的示例性实施例中，图计算模块110还可进一步在用户关联图中确定对应于可疑用户(即，可能为异常用户的用户)的种子节点，并利用种子节点来更新通过第一预设业务规则、第一有监督模型和第一无监督模型中的至少一个确定的用户关联图中的各个边的权重，由此使得用户关联图能够更加准确地体现各个用户之间的在异常组织方面的关系并能够利用这样的用户关联图准确地实现组织划分。以下将结合图2对此进行详细描述。

图2是示出根据本公开的示例性实施例的图计算模块110确定用户关联图的示例的示意图。

如图2所示，除使用第一预设业务规则、第一有监督模型和第一无监督模型中的至少一个来确定用户关联图中的各个边的权重以外，图计算模块110 还可使用第二预设业务规则、第二有监督模型以及第二无监督模型中的至少一个来确定用户关联图中的种子节点(即，可疑用户)，然后将所述权重和种子节点作为输入，使用半监督算法(例如，个性化PageRank算法等)来再次确定用户关联图中的各个边的权重，从而实现对用户关联图中的边的权重的更新，以确定最终将被用于组织划分的用户关联图。

具体来讲，图计算模块110可按照第二预设业务规则直接在用户关联图中确定种子节点。这里，第二预设业务规则可包括以下至少一项：用户的贷款金额、用户的贷款次数、用户在预设时间段期间内交易的总额、以及用户在预设时间段期间内交易的次数等。例如，图计算模块110可将按照每个用户的贷款金额多少选择出的预设数量的用户(例如，贷款金额最大的前K个用户，这里，K是大于等于1的正整数)的对应节点确定为种子节点。然而，应该理解，所述第二预设业务规则所包含的规则不限于此，而是还可根据需要设置更少或更多的规则。

可选地，图计算模块10也可使用一个经过训练的有监督模型(即，第二有监督模型)来预测用户关联图中的用户是否为异常用户或用户为异常用户的得分(例如，概率)，并基于预测结果确定种子节点。这里，第二有监督模型可以是基于已知的历史用户数据(例如，来自历史用户关联图和/或历史已知组织数据等的历史用户数据)，以已知的用户为训练样本训练得到的用于预测用户是否为异常用户或用于预测用户为异常用户的得分的有监督模型。在本发明的示例性实施例中，第二有监督模型的训练样本可使用用户的已知预设特征构成样本特征，并且可将已知的用户是否为异常用户用作样本的标签(例如，当用户为异常用户时，对应标签为1，当用户不是异常用户时，对应标签为0)。

图计算模块110可将使用第二有监督模型针对输入的用户数据预测出的异常用户、得分超过预设分数值的用户、或者是按照得分大小所确定的预定数量的用户确定为与种子节点对应的可疑用户。仅作为示例，图计算模块110 可使用前置的二分类模型学习已知异常用户的模式，从而对新用户进行预测，并根据预测分数从高到低取预定数量的用户作为与种子节点对应的可疑用户。

此外，图计算模块110也可使用一个无监督模型(即，第二无监督模型) 来确定用户关联图中的各个节点是否为种子节点。具体地讲，在本发明的示例性实施例中，图计算模块110可使用自动编码算法作为第二无监督模型来判断用户是否为异常用户，并基于判断结果确定种子节点。仅作为示例，图计算模块110可将每个用户样本经过自动编码算法模型后得到的“新特征”和该用户样本的“原始特征”进行比较，按照差异大小从高到低依次取预设数量的用户作为与种子节点对应的可疑用户。具体来讲，当使用自动编码算法时，如果用户样本是“正常样本”，则该用户样本在经过自动编码算法模型前后的两组特征之间的差异会较小，而如果该用户样本是“异常样本”，则在使用自动编码算法模型进行自训练时，难以将该用户的样本在经过自训练前后的两组特征之间的差异优化为最小，由此能够使用自动编码算法模型找出用户关联图中的种子节点。

尽管以上描述具体解释了分别使用第二预设业务规则、第二有监督模型和第二无监督模型来确定用户关联图中的种子节点的示例，但本发明不限于此，还可结合使用第二预设业务规则、第二有监督模型和第二无监督模型中的两种或更多种方式来综合确定种子节点。仅作为示例，用户关联图中的种子节点可由所述三种方式分别确定的种子节点的交集或并集来确定。

在完成种子节点的确定之后，可对这些种子节点设置种子标签，并如图 2所示将这样的种子节点和前面通过第一预设业务规则、第一有监督模型和第一无监督模型中的至少一个确定的边的权重作为半监督模型的输入，通过标签传播的方法(即，半监督学习算法)进行用户相似度的二次计算，由此能够实现对用户关联图中的各个边的权重的再次确定，从而确定出最终将被用于组织划分的用户关联图。

在通过图计算模块110建立了用户关联图之后，可通过组织划分模块120 对用户关联图进行划分来获得至少一个组织。在本发明的示例性实施例中，组织划分模块120可使用自动超参搜索来确定对用户关联图进行划分的最优划分权重阈值，并基于所述最优划分权重阈值对用户关联图进行划分以获得至少一个组织。以下将结合图3对组织划分模块120的操作进行详细描述。

图3是示出根据本公开的示例性实施例组织划分模块120执行组织划分操作的处理。

如图3所示，组织划分模块120可使用自动超参搜索，通过对用户关联图执行至少一次划分操作(即，图3的步骤S310至S330所示的一系列操作) 来确定所述最优划分权重阈值。

具体来说，组织划分模块120可首先确定一个用于对用户关联图进行划分的划分权重阈值(S310)。这里，所述用于对用户关联图进行划分的划分权重阈值可以是从多个预设划分权重阈值或预设范围的值之中选择的，或者可以是在依次执行多次划分操作的过程中按照预定规则对在每次划分操作中所使用的划分权重阈值逐步调整获得的(例如，第N+1次划分操作所使用的划分权重阈值可以是基于所述预设规则从第N次划分操作所使用的划分权重阈值调整得到的，这里，N是正整数)。

然后，组织划分模块120可通过从用户关联图删除权重小于所确定的划分权重阈值的边来更新用户关联图，并且使用最大连通子集算法在更新后的用户关联图中确定至少一个连通子集(S320)。在本发明的示例性实施例中，每个连通子集可对应于一个组织。

组织划分模块120可基于与各个连通子集对应的组织的组织信息，确定每个组织的业务得分(S330)。举例来说，针对划分出的每个组织，可基于历史数据确定该组织中的已知异常用户和正常用户的数量，然后，该组织的业务得分可如下计算：

业务得分＝异常用户数量×1–正常用户数量×2...(1)

应该理解，以上计算业务得分的方式仅是示例，还可根据各种其他方式来确定每个组织的业务得分。

在完成对每个组织的业务得分计算之后，组织划分模块120可确定本次划分操作中所确定的各个业务得分是否满足预设停止条件(S340)。

当满足所述预设停止条件时(S340-是)，组织划分模块120可将此次划分操作中所使用的划分权重阈值确定为最优划分权重阈值并输出该最优划分权重阈值(S350)，然后基于该最优划分权重阈值对图计算模块110建立的用户关联图再次进行用户关联图划分操作，以最终确定一个或更多个组织 (S360)。

而当不满足所述预设停止条件时(S340-否)，组织划分模块120可返回步骤S310，选择一个新的划分权重阈值来对图计算模块110建立的用户关联图再次进行划分操作，直至达到停止条件为止。

在本发明的示例性实施例中，所述预设停止条件可以是例如：存在业务得分超过预定得分的组织、业务得分超过预定得分的组织数量或比例超过预定数量或比例等。

然而，应该理解，所述预设停止条件不限于以上列出的条件，而是可根据用户需求设置为其它各种条件。

可选地，在步骤S340，组织划分模块120也可不使用业务得分作为判断是否满足预设停止条件的依据，而是例如，可确定对用户关联图的划分操作被执行的次数是否达到预设次数，并在完成了预设次数的划分操作之后停止划分操作。在这种情况下，组织划分模块120可按照预设标准，根据所述预设次数的划分操作的划分结果(例如，相应业务得分计算结果)选择其中一次划分操作中所使用的划分权重阈值作为最优划分权重阈值(例如，可将业务得分超过预定得分的组织的数量或比例最高的划分操作中所使用的划分权重阈值作为最优划分权重阈值)。

在组织划分模块120完成组织划分操作之后，组织排序模块130可估计组织划分模块120划分出的至少一个组织的可疑度，对所述至少一个组织进行可疑度排序，并按照排序结果确定可疑组织。

具体地讲，组织排序模块130可通过提取各个组织的组织特征，使用第三模型来估计所述至少一个组织的可疑度。这里，组织排序模块130可基于第三预设业务规则和组织统计指标中的至少一个来构建每个组织的组织特征。仅作为示例，所述第三预设业务规则可以是例如组织成员逾期数、不良贷款率等，所述组织统计指标可以是例如组织成员数、30日内最大交易金额等。此外，组织排序模块130所构建的组织特征可包括组织结构特征和组织统计特征中的至少一个，仅作为示例，所述组织结构特征可包括例如以下至少一项：组织中的各节点的平均出入度、组织中的边的平均权重、组织中各节点的PageRank值等。所述组织统计特征可包括例如以下至少一项：单一用户特征的最大值、最小值、平均值方、差等，例如，组织中的各个人的上个月交易总额的平均值、最大值、最小值、方差，各个人的交易对手的平均值、最大值、最小值、方差等。然而，应该理解，所述第三预设业务规则和组织统计指标所包含的规则或指标不限于此，而是还可根据需要设置更少或更多的规则或指标。

此外，在本发明的示例性实施例中，所述第三模型可包括第三有监督模型或第三无监督模型。组织排序模块130可基于可被用于对第三模型进行训练的历史组织数据(例如，来自历史用户关联图和/或历史已知组织数据等的历史组织数据)来选择第三有监督模型或第三无监督模型作为第三模型。

当历史组织数据中的组织标签(指示对应组织已知为异常组织)数量超过预定义数量时，由于通过使用这样的历史组织数据对第三有监督模型进行训练可得到稳定且预测较为准确的模型，因此组织排序模块130可选择第三有监督模型作为第三模型来预测每个组织的异常可疑度。这里，所使用的第三有监督模型可以是基于历史组织数据，以已知的组织为训练样本训练得到的用于预测组织为异常组织的可疑度的有监督模型。在本发明的示例性实施例中，第三有监督模型的训练样本可使用组织的组织特征构成样本特征，并且可将已知的组织是否为异常组织用作样本的组织标签(例如，当组织为异常组织时，对应组织标签为1，当组织不是异常组织时，对应组织标签为0)。

然而，当历史组织数据中的组织标签数量未超过所述预定义数量时，由于通过使用这样的历史组织数据对第三有监督模型进行训练得到的模型不够稳定，难以使用这样的有监督模型来进行准确预测。因此此时，组织排序模块130可选择第三无监督模型(例如，异常检测算法模型(例如，iForest算法等))作为第三模型，从而获得每个组织的异常可疑度。

之后，组织排序模块130可进行可疑度排序，并按照排序结果确定可疑组织(即，为异常组织的可能性高的组织)，例如，可按照排序结果将可疑度最高的前X(X为大于0的正整数)个组织确定为可疑组织，或者可将可疑度超过预设值的组织确定为可疑组织。

尽管在以上描述中具体描述了按照排序结果自动确定可疑组织的方式，但本申请不限于此，这样的可疑度排序结果或者是确定可疑组织的结果可进一步提供给相关业务审核专家进行进一步检查或审核，从而能够以较少的人力资源准确找出异常组织。

参照图4，在步骤S410，可由图计算模块110基于用户数据建立用户关联图。这里，用户关联图中的各个节点可分别表示不同用户，连接各个节点的边可表示在与所连接的节点对应的用户之间存在关联，并且边的权重可指示与所连接的节点对应的用户之间的相关性。

在本发明的示例性实施例中，图计算模块110可在步骤S410中使用第一预设业务规则、第一有监督模型和第一无监督模型中的至少一个来确定用户关联图中的各个边的权重。

具体地讲，当使用第一预设业务规则时，图计算模块110可基于第一预设业务规则直接计算或设置用户关联图中的各个边的权重。这里，所述第一预设业务规则可包括以下至少一项：与每条边对应的两个用户在预设时间段期间是否产生交易、交易的总额、交易的次数、以及共同的交易对手的数量等。

此外，当使用第一有监督模型时，图计算模块110可使用该第一有监督模型，针对输入的用户数据来预测用户关联图中的各个边的权重。这里，第一有监督模型可以是基于已知的历史数据(例如，先前构建的历史用户关联图和/或历史已知组织数据等)，以已知的用户对为训练样本训练得到的用于预测两个用户之间的相关性的有监督模型。在本发明的示例性实施例中，第一有监督模型的训练样本可使用包括在用户对中的两个用户的已知预设特征构成其样本特征，并且可将已知的包在用户对中的两个用户是否属于同一异常组织用作该样本的标签。

而当使用第一无监督模型时，图计算模块110可使用图计算算法(例如，node2vec)作为第一无监督模型来计算与每条边对应的两个用户的嵌入表示 (即，embedding)之间的欧式距离或余弦距离作为所述每条边的权重。

尽管以上描述具体解释了分别使用第一预设业务规则、第一有监督模型和第一无监督模型来确定用户关联图中的各个边的权重的示例，但本发明不限于此，还可结合使用第一预设业务规则、第一有监督模型和第一无监督模型中的两种或更多种方式来综合确定权重。

可选地，在本发明的示例性实施例中，图计算模块110还可在用户关联图中确定对应于可疑用户(即，可能为异常用户的用户)的种子节点，并利用种子节点来更新通过第一预设业务规则、第一有监督模型和第一无监督模型中的至少一个确定的用户关联图中的各个边的权重。

具体地，图计算模块110可使用第二预设业务规则、第二有监督模型以及第二无监督模型中的至少一个来确定用户关联图中的种子节点。

当使用第二预设业务规则时，图计算模块110可按照第二预设业务规则直接在用户关联图中确定种子节点。这里，第二预设业务规则可包括以下至少一项：用户的贷款金额、用户的贷款次数、用户在预设时间段期间内交易的总额、以及用户在预设时间段期间内交易的次数等。

此外，当使用第二有监督模型时，图计算模块10可使用该第二有监督模型来预测用户关联图中的用户是否为异常用户或用户为异常用户的得分，并基于预测结果确定种子节点。这里，第二有监督模型可以是基于已知的历史用户数据，以已知的用户为训练样本训练得到的用于预测用户是否为异常用户或用于预测用户为异常用户的得分的有监督模型。在本发明的示例性实施例中，第二有监督模型的训练样本可使用用户的已知预设特征构成样本特征，并且可将已知的用户是否为异常用户用作样本的标签。

而当使用第二无监督模型时，图计算模块110可使用自动编码算法作为第二无监督模型来判断用户是否为异常用户，并基于判断结果确定种子节点。

在步骤S410中建立了用户关联图之后，在步骤S420，可由组织划分模块120对用户关联图进行划分来获得至少一个组织。

在本发明的示例性实施例中，组织划分模块120可使用自动超参搜索来确定对用户关联图进行划分的最优划分权重阈值，并基于所述最优划分权重阈值对用户关联图进行划分以获得至少一个组织。具体地讲，组织划分模块 120可使用自动超参搜索，通过对用户关联图执行至少一次划分操作(即，图3的步骤S310至S330所示的一系列操作)来确定所述最优划分权重阈值。在前面已参照图3对此进行了详细描述，因此为了简明在此将不再进行赘述。

最后，在步骤S430，可由组织排序模块130估计步骤S420获得的至少一个组织的可疑度，对所述至少一个组织进行可疑度排序，并按照排序结果确定可疑组织。

在本发明的示例性实施例中，组织排序模块130可通过提取各个组织的组织特征，使用第三模型来估计所述至少一个组织的可疑度。这里，组织排序模块130可基于第三预设业务规则和组织统计指标中的至少一个来构建每个组织的组织特征。此外，组织排序模块130可基于可被用于对第三模型进行训练的历史组织数据来选择第三有监督模型或第三无监督模型作为第三模型。当历史组织数据中的组织标签(指示对应组织已知为异常组织)数量超过预定义数量时，组织排序模块130可选择第三有监督模型作为第三模型来预测每个组织的异常可疑度。这里，第三有监督模型可以是基于历史组织数据，以已知的组织为训练样本训练得到的用于预测组织为异常组织的可疑度的有监督模型。第三有监督模型的训练样本可使用组织的组织特征构成样本特征，并且可将已知的组织是否为异常组织用作样本的组织标签(例如，当组织为异常组织时，对应组织标签为1，当组织不是异常组织时，对应组织标签为0)。然而，当历史组织数据中的组织标签数量未超过所述预定义数量时，组织排序模块130可选择第三无监督模型(例如，异常检测算法模型(例如，iForest算法等))作为第三模型，从而获得每个组织的异常可疑度。

以上已结合图1和图3详细描述了图4的各步骤中由根据本公开的示例性实施例的可疑组织发现系统100的各个组成元件所执行的详细操作，因此为了简明，在此将不再赘述。

以上参照图1至图4描述了根据本公开的示例性实施例的可疑组织发现方法和系统。然而，应理解的是：附图中示出的装置和系统可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，这些系统、装置可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的模块。此外，这些系统或装置所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

此外，上述方法可通过记录在计算机可读存储介质上的指令来实现，例如，根据本申请的示例性实施例，可提供一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行以下步骤：基于用户数据建立用户关联图，其中，用户关联图中的各个节点分别表示不同用户，连接各个节点的边表示在与所连接的节点对应的用户之间存在关联，并且边的权重指示与所连接的节点对应的用户之间的相关性；对用户关联图进行划分来获得至少一个组织；估计所述至少一个组织的可疑度，对所述至少一个组织进行可疑度排序，并按照排序结果确定可疑组织。

上述计算机可读存储介质中存储的指令可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，所述指令还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经在参照图1至图4进行相关方法的描述过程中提及，因此这里为了避免重复将不再进行赘述。

应注意，根据本公开示例性实施例的可疑组织发现系统可完全依赖计算机程序或指令的运行来实现相应的功能，即，各个装置在计算机程序的功能架构中与各步骤相应，使得整个系统通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，当图1所示的系统和装置以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得至少一个处理器或至少一个计算装置可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

例如，根据本申请示例性实施例，可提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行下述步骤：基于用户数据建立用户关联图，其中，用户关联图中的各个节点分别表示不同用户，连接各个节点的边表示在与所连接的节点对应的用户之间存在关联，并且边的权重指示与所连接的节点对应的用户之间的相关性；对用户关联图进行划分来获得至少一个组织；估计所述至少一个组织的可疑度，对所述至少一个组织进行可疑度排序，并按照排序结果确定可疑组织。

具体说来，上述系统可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点上。此外，所述系统可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。此外，所述系统还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。另外，所述系统的所有组件可经由总线和/或网络而彼此连接。

这里，所述系统并非必须是单个系统，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。所述系统还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在所述系统中，所述至少一个计算装置可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，所述至少一个计算装置还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。计算装置可运行存储在存储装置之一中的指令或代码，其中，所述存储装置还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，所述网络接口装置可采用任何已知的传输协议。

存储装置可与计算装置集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储装置可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储装置和计算装置可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得计算装置能够读取存储在存储装置中的指令。

以上描述了本申请的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，本申请不限于所披露的各示例性实施例。在不偏离本申请的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本申请的保护范围应该以权利要求的范围为准。

Claims

1.一种可疑组织发现系统，所述系统包括：

图计算模块，被配置为基于用户数据建立用户关联图，其中，用户关联图中的各个节点分别表示不同用户，连接各个节点的边表示在与所连接的节点对应的用户之间存在关联，并且边的权重指示与所连接的节点对应的用户之间的相关性；

组织划分模块，被配置为对用户关联图进行划分来获得至少一个组织；

组织排序模块，被配置为估计所述至少一个组织的可疑度，对所述至少一个组织进行可疑度排序，并按照排序结果确定可疑组织。

2.如权利要求1所述的系统，其中，图计算模块被配置为使用第一预设业务规则、第一有监督模型和第一无监督模型中的至少一个来确定用户关联图中的各个边的权重。

3.如权利要求2所述的系统，其中，

图计算模块基于第一预设业务规则计算或设置用户关联图中的各个边的权重，

其中，第一预设业务规则包括以下至少一项：与每条边对应的两个用户在预设时间段期间是否产生交易、交易的总额、交易的次数、以及共同的交易对手的数量。

4.如权利要求2所述的系统，其中，

图计算模块使用第一有监督模型，针对输入的用户数据来预测用户关联图中的各个边的权重，

其中，第一有监督模型是基于历史数据，以用户对为训练样本训练得到的用于预测两个用户之间的相关性的有监督模型，

其中，所述训练样本使用包括在用户对中的两个用户的预设特征构成样本特征，并且将包括在用户对中的两个用户是否属于同一异常组织用作训练样本的标签。

5.如权利要求2所述的系统，其中，

图计算模块使用图计算算法作为第一无监督模型来计算与用户关联图中的每条边对应的两个用户的嵌入表示之间的欧式距离或余弦距离作为用户关联图中的每条边的权重。

6.如权利要求2所述的系统，其中，图计算模块还被配置为：在用户关联图中确定种子节点，并利用种子节点来更新用户关联图中的各个边的权重，

其中，种子节点的对应用户为可疑用户。

7.如权利要求6所述的系统，其中，图计算模块被配置为使用第二预设业务规则、第二有监督模型以及第二无监督模型中的至少一个来确定用户关联图中的种子节点。

8.一种可疑组织发现方法，所述方法包括：

基于用户数据建立用户关联图，其中，用户关联图中的各个节点分别表示不同用户，连接各个节点的边表示在与所连接的节点对应的用户之间存在关联，并且边的权重指示与所连接的节点对应的用户之间的相关性；

对用户关联图进行划分来获得至少一个组织；

估计所述至少一个组织的可疑度，对所述至少一个组织进行可疑度排序，并按照排序结果确定可疑组织。

9.一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求8所述的方法。

10.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求8所述的方法。