CN111090729B

CN111090729B - 欺诈团伙的识别方法、装置、服务器和存储介质

Info

Publication number: CN111090729B
Application number: CN201911294766.4A
Authority: CN
Inventors: 何子欣
Original assignee: Shenzhen Kaniu Technology Co ltd
Current assignee: Shenzhen Kaniu Technology Co ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2024-04-09
Anticipated expiration: 2039-12-16
Also published as: CN111090729A

Abstract

本发明实施例提供了一种欺诈团伙的识别方法、装置、服务器和存储介质。该欺诈团伙的识别方法包括：获取多个用户的通话数据；根据所述通话数据计算每两个用户之间的通话相似度；根据所述通话相似度以每个用户为节点构建网络图；基于预设划分算法对所述网络图进行社团划分；基于每一个社团的连通度确定欺诈团伙。达到提高识别欺诈团伙的效率的效果。

Description

欺诈团伙的识别方法、装置、服务器和存储介质

技术领域

本发明实施例涉及智能识别技术领域，尤其涉及一种欺诈团伙的识别方法、装置、服务器和存储介质。

背景技术

目前，业内对于欺诈团伙的识别主要手段是通过人工识别。中介团伙隐匿性强，一般方法难以识别。在贷前的审核电话问答中可能存在一些线索。有经验的专业人员可从中分辨出欺诈团伙。

然而，通过人工识别的方式来对欺诈团伙进行识别，识别效率低下，费时费力。

发明内容

本发明实施例提供一种欺诈团伙的识别方法、装置、服务器和存储介质，以实现提高识别欺诈团伙的效率的效果。

第一方面，本发明实施例提供了一种欺诈团伙的识别方法，包括：

获取多个用户的通话数据；

根据所述通话数据计算每两个用户之间的通话相似度；

根据所述通话相似度以每个用户为节点构建网络图；

基于预设划分算法对所述网络图进行社团划分；

基于每一个社团的连通度确定欺诈团伙。

可选的，所述根据所述通话数据计算每两个用户之间的通话相似度，包括：

计算每个用户关联的电话号码集合；

基于每两个用户关联的相同电话号码，计算每两个用户的重叠值；

基于每两个用户的重叠值和对应两个用户关联的电话号码集合的数量确定所述通话相似度。

可选的，所述电话号码集合包括互不相同的多个电话号码。

可选的，在所述根据所述通话数据计算每两个用户之间的通话相似度之前，包括：

对所述通话数据进行数据清洗，以剔除非电话号码的通话数据。

可选的，所述基于每一个社团的连通度确定欺诈团伙，包括：

判断每一个社团的连通度是否大于预设连通度阈值；

将连通度大于所述预设连通度阈值的社团列为所述欺诈团伙。

可选的，所述根据所述通话相似度以每个用户为节点构建网络图，包括：

以每个用户为节点，保留通话相似度大于预设相似度阈值的边构建网络图。

以每个用户为节点和所述通话相似度为边权重构建所述网络图。

第二方面，本发明实施例提供了一种欺诈团伙的识别装置，包括：

获取模块，用于获取多个用户的通话数据；

相似度计算模块，用于根据所述通话数据计算每两个用户之间的通话相似度；

网络图构建模块，用于根据所述通话相似度以每个用户为节点构建网络图；

社团划分模块，用于基于预设划分算法对所述网络图进行社团划分；

欺诈团伙确定模块，用于基于每一个社团的连通度确定欺诈团伙。

第三方面，本发明实施例提供了一种服务器，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所述的欺诈团伙的识别方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的欺诈团伙的识别方法。

本发明实施例通过获取多个用户的通话数据；根据所述通话数据计算每两个用户之间的通话相似度；根据所述通话相似度以每个用户为节点构建网络图；基于预设划分算法对所述网络图进行社团划分；基于每一个社团的连通度确定欺诈团伙，解决了通过人工识别的方式来对欺诈团伙进行识别，识别效率低下，费时费力的问题，实现了提高识别欺诈团伙的效率的效果。

附图说明

图1是本发明实施例一提供的一种欺诈团伙的识别方法的流程示意图；

图2是本发明实施例二提供的一种欺诈团伙的识别方法的流程示意图；

图3是本发明实施例三提供的一种欺诈团伙的识别装置的结构示意图；

图4是本发明实施例四提供的一种服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

此外，术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等，但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一信息为第二信息，且类似地，可将第二信息称为第一信息。第一信息和第二信息两者都是信息，但其不是同一信息。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

实施例一

图1为本发明实施例一提供的一种欺诈团伙的识别方法的流程示意图，可适用于识别欺诈团伙的场景，该方法可以由欺诈团伙的识别装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成在服务器上。

如图1所示，本发明实施例一提供的欺诈团伙的识别方法包括：

S110、获取多个用户的通话数据。

其中，通话数据是指与通话相关的数据。在本实施例中，通话数据是指用户的历史通话记录、通话时间等，历史通话记录包括用户拨打的电话号码。具体的，电话号码包括但不限于手机号码和座机号码等，此处不作限制。

S120、根据所述通话数据计算每两个用户之间的通话相似度。

其中，通话相似度是指基于通话数据计算得到的两个用户之间的关联程度。在本步骤中，优选的，根据用户关联的手机号码和座机号码计算每两个用户之间的通话相似度。

在一可选的实施方式中，根据所述通话数据计算每两个用户之间的通话相似度，可以包括：

计算每个用户关联的电话号码集合；

其中，电话号码集合是指用户关联的多个电话号码的集合。具体的，每个用户的电话号码集合一般都不完全相同。在本实施方式中，优选的，电话号码集合包括互不相同的多个电话号码。具体的，可以对用户的通话数据进行去重处理，每个拨打或接通的手机号码指保留一次记录，则电话号码集合中的多个电话号码互不相同。重叠值是指两个用户之间的相同电话号码的数量，可以用来作为确定每两个用户的通话相似度的条件之一。示例性的，用户甲有A、B、C多个关联电话号码，用户乙有C、D、E多个关联电话号码，则甲和乙的重叠值为1。在本实施例方式中，可以通过每两个用户的重叠值，和对应两个用户关联的电话号码集合中的多个电话号码的数量确定。具体的，可以通过以下公式确定通话相似度：sij＝mij*预设系数/(ni+nj)。其中，sij是指通话相似度，mij是指重叠值，ni是指每两个用户之间的其中一个用户关联的电话号码的总数量，nj是指每两个用户之间的另一个用户关联的电话号码的总数量。在本实施方式中，预设系数可以是0以上的任意数值，此处不作限制。优选的，预设系数为2，即sij＝mij*2/(ni+nj)。

示例性的，用户甲有A、B、C多个关联电话号码，用户乙有C、D、E、F多个关联电话号码，则甲和乙的重叠值为1，甲关联的电话号码的总数量为3，乙关联的电话号码的总数量为4，则甲和乙之间的通话相似度为1*2/(3+4)。

S130、根据所述通话相似度以每个用户为节点构建网络图。

其中，网络图是指以每个用户为节点，以每两个有关联的用户连线，构建成的能体现社交关系的结构图。

在一可选的实施方式中，根据所述通话相似度以每个用户为节点构建网络图，可以包括：

其中，预设相似度阈值是指确定网络图中每两个用户之间是否需要连线的阈值。可选的，预设相似度阈值可以是0-1，此处不作限制。优选的，预设相似度阈值为0.4。具体的，即两个用户的通话相似度大于0.4，才保留在网络图的边。通过在网络图中保留大于预设相似度阈值的边，得到的网络图更准确。

在另一可选的实施方式中，根据所述通话相似度以每个用户为节点构建网络图，可以包括：

其中，网络图包括有权网络图和无权网络图。在本实施方式中，网络图为有权网络图。将通话相似度作为有权网络图的边权重构建网络图，得到的网络图更准确。

以每个用户为节点和所述通话相似度为边权重构建所述网络图；

在本实施方式中，既通过通话相似度大于预设相似度阈值的边，又通过以相似度为边权重的方式构建网络图，得到的网络图更具有参考意义。

S140、基于预设划分算法对所述网络图进行社团划分。

其中，预设划分算法是指用于划分社团的算法。在本实施例中，可选的，预设划分算法是louvain算法。通过louvain算法对网络图进行社团划分，得到每个社团对应存在哪几个点的数据。

S150、基于每一个社团的连通度确定欺诈团伙。

其中，连通度是指该社团的连通程度。在本实施例中，连通度可以代表在社团中的多个用户之间的关联程度。欺诈团伙是指有欺诈风险的团伙。通过确定欺诈团伙，可以对在欺诈团伙中对应社团的用户进行风险管控。例如，如果有一个用户在欺诈团伙对应的社团中，则给予“拒绝放款”的决策建议，以规避欺诈风险，此处不作限制。

在一个可选的实施方式中，基于每一个社团的连通度确定欺诈团伙，可以包括：

判断每一个社团的连通度是否大于预设连通度阈值；

其中，预设连通度阈值是指用于区分社团是否为欺诈团伙的阈值。在本实施方式中，可选的，预设连通度阈值可以是0.5-1的任一数值，此处不作限制。优选的，预设连通度阈值为0.85，此时的判断效果更佳。

本发明实施例的技术方案，通过获取多个用户的通话数据；根据所述通话数据计算每两个用户之间的通话相似度；根据所述通话相似度以每个用户为节点构建网络图；基于预设划分算法对所述网络图进行社团划分；基于每一个社团的连通度确定欺诈团伙，达到提高识别欺诈团伙的效率的技术效果。此外，本实施例的技术方案，不需要通过基于标签扩散的有监督社交网络识别，也不需要对部分欺诈标签进行运算，还降低了运算的资源。此外，也不需要进行基于无监督的社交网络识别，大大降低了网络图的维度，提高了计算制作网络图的效率。

实施例二

图2是本发明实施例二提供的一种欺诈团伙的识别方法的流程示意图。本实施例是在上述技术方案的进一步细化，适用于识别欺诈团伙的场景。该方法可以由欺诈团伙的识别装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成在服务器上。

如图2所示，本发明实施例二提供的欺诈团伙的识别方法包括：

S210、获取多个用户的通话数据。

S220、对所述通话数据进行数据清洗，以剔除非电话号码的通话数据。

具体的，通话数据包括了例如基站标识、地区、通话记录、通话记录又包括通话时间、通话号码等多种通话数据。在本步骤对通话数据进行数据清洗，只保留电话号码的通话数据。通过对通话数据进行数据清洗，保留了需要计算的通话数据，提高了计算的准确性。

S230、根据所述通话数据计算每两个用户之间的通话相似度。

计算每个用户关联的电话号码集合；

S240、根据所述通话相似度以每个用户为节点构建网络图。

S250、基于预设划分算法对所述网络图进行社团划分。

S260、基于每一个社团的连通度确定欺诈团伙。

本发明实施例的技术方案，通过获取多个用户的通话数据；根据所述通话数据计算每两个用户之间的通话相似度；根据所述通话相似度以每个用户为节点构建网络图；基于预设划分算法对所述网络图进行社团划分；基于每一个社团的连通度确定欺诈团伙，达到提高识别欺诈团伙的效率的技术效果。

实施例三

图3是本发明实施例三提供的一种欺诈团伙的识别装置的结构示意图，本实施例可适用于识别欺诈团伙的场景，该装置可以采用软件和/或硬件的方式实现，并可集成在服务器上。

如图3所示，本实施例提供的欺诈团伙的识别装置可以包括获取模块310、相似度计算模块320、网络图构建模块330、社团划分模块340和欺诈团伙确定模块350，其中：

获取模块310，用于获取多个用户的通话数据；

相似度计算模块320，用于根据所述通话数据计算每两个用户之间的通话相似度；

网络图构建模块330，用于根据所述通话相似度以每个用户为节点构建网络图；

社团划分模块340，用于基于预设划分算法对所述网络图进行社团划分；

欺诈团伙确定模块350，用于基于每一个社团的连通度确定欺诈团伙。

可选的，相似度计算模块320可以包括：

电话号码集合单元，用于计算每个用户关联的电话号码集合；

重叠值计算单元，用于基于每两个用户关联的相同电话号码，计算每两个用户的重叠值；

通话相似度确定单元，用于基于每两个用户的重叠值和对应两个用户关联的电话号码集合的数量确定所述通话相似度。

可选的，所述电话号码集合包括互不相同的多个电话号码。

可选的，该装置还包括：

剔除模块，用于对所述通话数据进行数据清洗，以剔除非电话号码的通话数据。

可选的，欺诈团伙确定模块350包括：

判断单元，用于判断每一个社团的连通度是否大于预设连通度阈值；

欺诈团伙确定单元，用于将连通度大于所述预设连通度阈值的社团列为所述欺诈团伙。

可选的，网络图构建模块330具体用于以每个用户为节点，保留通话相似度大于预设相似度阈值的边构建网络图。

可选的，网络构建模块具体还用于以每个用户为节点和所述通话相似度为边权重构建所述网络图。

本发明实施例所提供的欺诈团伙的识别装置可执行本发明任意实施例所提供的欺诈团伙的识别方法，具备执行方法相应的功能模块和有益效果。本发明实施例中未详尽描述的内容可以参考本发明任意方法实施例中的描述。

实施例四

图4是本发明实施例四提供的一种服务器的结构示意图。图4示出了适于用来实现本发明实施方式的示例性服务器612的框图。图4显示的服务器612仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，服务器612以通用服务器的形式表现。服务器612的组件可以包括但不限于：一个或者多个处理器616，存储装置628，连接不同系统组件(包括存储装置628和处理器616)的总线618。

总线618表示几类总线结构中的一种或多种，包括存储装置总线或者存储装置控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry SubversiveAlliance，ISA)总线，微通道体系结构(Micro Channel Architecture，MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

服务器612典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器612访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置628可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)630和/或高速缓存存储器632。服务器612可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统634可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘，例如只读光盘(Compact Disc Read-Only Memory，CD-ROM),数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线618相连。存储装置628可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块642的程序/实用工具640，可以存储在例如存储装置628中，这样的程序模块642包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块642通常执行本发明所描述的实施例中的功能和/或方法。

服务器612也可以与一个或多个外部设备614(例如键盘、指向终端、显示器624等)通信，还可与一个或者多个使得用户能与该服务器612交互的终端通信，和/或与使得该服务器612能与一个或多个其它计算终端进行通信的任何终端(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口622进行。并且，服务器612还可以通过网络适配器620与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide AreaNetwork，WAN)和/或公共网络，例如因特网)通信。如图4所示，网络适配器620通过总线618与服务器612的其它模块通信。应当明白，尽管图中未示出，可以结合服务器612使用其它硬件和/或软件模块，包括但不限于：微代码、终端驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器616通过运行存储在存储装置628中的程序，从而执行各种功能应用以及数据处理，例如实现本发明任意实施例所提供的一种欺诈团伙的识别方法，该方法可以包括：

获取多个用户的通话数据；

根据所述通话数据计算每两个用户之间的通话相似度；

根据所述通话相似度以每个用户为节点构建网络图；

基于预设划分算法对所述网络图进行社团划分；

基于每一个社团的连通度确定欺诈团伙。

实施例五

本发明实施例五还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的一种欺诈团伙的识别方法，该方法可以包括：

获取多个用户的通话数据；

根据所述通话数据计算每两个用户之间的通话相似度；

根据所述通话相似度以每个用户为节点构建网络图；

基于预设划分算法对所述网络图进行社团划分；

基于每一个社团的连通度确定欺诈团伙。

本发明实施例的计算机可读存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

存储介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种欺诈团伙的识别方法，其特征在于，包括：

获取多个用户的通话数据；

根据所述通话数据计算每两个用户之间的通话相似度；

根据所述通话相似度以每个用户为节点构建网络图；

基于预设划分算法对所述网络图进行社团划分；

基于每一个社团的连通度确定欺诈团伙；

所述基于每一个社团的连通度确定欺诈团伙，包括：

判断每一个社团的连通度是否大于预设连通度阈值；

将连通度大于所述预设连通度阈值的社团列为所述欺诈团伙；

其中，所述连通度代表在社团中的至少一个用户之间的关联程度。

2.如权利要求1所述的欺诈团伙的识别方法，其特征在于，所述根据所述通话数据计算每两个用户之间的通话相似度，包括：

计算每个用户关联的电话号码集合；

3.如权利要求2所述的欺诈团伙的识别方法，其特征在于，所述电话号码集合包括互不相同的多个电话号码。

4.如权利要求1所述的欺诈团伙的识别方法，其特征在于，在所述根据所述通话数据计算每两个用户之间的通话相似度之前，包括：

5.如权利要求1所述的欺诈团伙的识别方法，其特征在于，所述根据所述通话相似度以每个用户为节点构建网络图，包括：

6.如权利要求1所述的欺诈团伙的识别方法，其特征在于，所述根据所述通话相似度以每个用户为节点构建网络图，包括：

7.一种欺诈团伙的识别装置，其特征在于，包括：

获取模块，用于获取多个用户的通话数据；

欺诈团伙确定模块，用于基于每一个社团的连通度确定欺诈团伙；

所述欺诈团伙确定模块包括：

欺诈团伙确定单元，用于将连通度大于所述预设连通度阈值的社团列为所述欺诈团伙；

8.一种服务器，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一项所述的欺诈团伙的识别方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的欺诈团伙的识别方法。