CN113962712A - 一种诈骗团伙的预测方法及相关设备 - Google Patents

一种诈骗团伙的预测方法及相关设备 Download PDF

Info

Publication number
CN113962712A
CN113962712A CN202111271863.9A CN202111271863A CN113962712A CN 113962712 A CN113962712 A CN 113962712A CN 202111271863 A CN202111271863 A CN 202111271863A CN 113962712 A CN113962712 A CN 113962712A
Authority
CN
China
Prior art keywords
node
information
nodes
abnormal
fraud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111271863.9A
Other languages
English (en)
Inventor
陈丽娜
咸瑞
化国伟
彭超
陈小军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhenai Jieyun Information Technology Co ltd
Original Assignee
Shenzhen Zhenai Jieyun Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhenai Jieyun Information Technology Co ltd filed Critical Shenzhen Zhenai Jieyun Information Technology Co ltd
Priority to CN202111271863.9A priority Critical patent/CN113962712A/zh
Publication of CN113962712A publication Critical patent/CN113962712A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/405Establishing or using transaction specific rules

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Computer Security & Cryptography (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种诈骗团伙的预测方法,所述方法包括:获取异常账户信息,确定所述异常账户信息对应关系节点图中的异常节点;根据预置风险传播算法和所述异常节点在所述关系节点图中对其他节点进行筛选,得到可疑节点集,其中,所述其他节点为所述关系节点图中除所述异常节点外的节点;将所述可疑节点集输入至预先训练好的诈骗团伙的预测模型中,并控制所述诈骗团伙的预测模型对所述可疑节点集进行分类提取处理,得到所述诈骗团伙对应的节点集合。

Description

一种诈骗团伙的预测方法及相关设备
技术领域
本发明涉及反诈骗技术领域,特别涉及一种诈骗团伙的预测方法及相关设备。
背景技术
随着互联网的快速发展,电信诈骗频繁发生。电信诈骗是基于电话、互联网平台进行的一种诈骗方式。目前主要的反诈骗方式是基于反诈骗策略人员的经验以及教训,通过分析历史诈骗用户特征和操作,制定反诈骗规则。当用户操作请求和操作行为触发了反诈骗规则时,即被认定为诈骗行为并启动拦截,反诈骗规则主要是基于行为聚集度等。
但是这种方案也存在较强的缺陷,当已经知道某一个账户为诈骗用户所使用的账户时,为了找到诈骗集团,诈骗检测专家需要从已识别的诈骗账户开始,沿着关系一一查询,找到诈骗密集的子图,通过分析相关业务,动作等来对可疑账户进行判断,这需要大量的人力需求,同时检测时间也较长。随着数据规模变大,该问题越发明显。而且相关专家只能通过对已有的诈骗事件进行关联和分析,使用一个或几个维度的标量进行计算和识别,没有办法覆盖所有因素以及因素之间的内部复杂关联,所以这种技术往往会存在误报或者漏报的情况。
因此,需要解决现有的诈骗团伙的预测方案寻找其他诈骗用户费时费力的问题。
发明内容
本发明要解决的技术问题在于现有的诈骗团伙的预测方案寻找其他诈骗用户费时费力,针对现有技术的不足,提供一种诈骗团伙的预测方法。
为了解决上述技术问题,本发明所采用的技术方案如下:
获取异常账户信息,确定所述异常账户信息对应关系节点图中的异常节点;根据预置风险传播算法和所述异常节点在所述关系节点图中对其他节点进行筛选,得到可疑节点集,其中,所述其他节点为所述关系节点图中除所述异常节点外的节点;
将所述可疑节点集输入至预先训练好的诈骗团伙的预测模型中,并控制所述诈骗团伙的预测模型对所述可疑节点集进行分类提取处理,得到所述诈骗团伙对应的节点集合。
可选的,在本发明第一方面的第一种实现方式中,所述根据预置风险传播算法和所述异常节点在所述关系节点图中对其他节点进行筛选,得到可疑节点集包括:
设置所述异常节点对应的第一重要度参数,设置所述其他节点的第二重要度参数;
将所述第一重要度参数和所述第二重要度参数代入至预置收敛规则中,得到新的收敛规则,以及根据所述收敛规则,以所述异常节点为起点,在所述关系节点图中其他节点进行游走直至收敛,记录收敛节点;
统计所有收敛节点对应的收敛概率,得到收敛概率集;
在所述收敛概率集中筛选出大于预置风险概率阈值的收敛概率,得到筛选的收敛概率集;
将所述筛选的收敛概率集对应的收敛节点确定为可疑节点,得到可疑节点集。
可选的,在本发明第一方面的第二种实现方式中,所述收敛规则包括衰减因子,所述根据所述收敛规则,以所述异常节点为起点,在所述关系节点图中其他节点进行游走直至收敛,记录收敛节点包括:
基于预置游走总数,以所述异常节点为起点,根据所述衰减因子,对所述关系图谱进行随机游走,记录每个收敛节点。
可选的,在本发明第一方面的第三种实现方式中,在所述获取异常账户信息,确定所述异常账户信息对应关系节点图中的异常节点之前,还包括:
查询出所述异常账户信息对应的网络社区;
获取所述网络社区中所有账户信息,将每一个所述账户信息作为节点,构建所有账户信息对应的关系节点图;
将所述关系节点图确定为所述异常账户信息对应的关系节点图。
可选的,在本发明第一方面的第四种实现方式中,所述将所述可疑节点集输入至预先训练好的诈骗团伙的预测模型中,并控制所述诈骗团伙的预测模型对所述可疑节点集进行分类提取处理,得到所述诈骗团伙对应的节点集合之前,还包括:
获取N个样本信息,其中,N为正整数;
对所述样本信息进行训练样本化处理,得到每一个所述样本信息对应的特征信息,其中,所述特征信息包括所述特征数据以及所述特征数据对应的标注信息;
对所有所述特征信息进行数据划分,得到M个训练测试集合,其中,所述训练测试集合包括测试信息集和训练信息集,M不大于N的正整数;
基于所述训练测试集合,对预设的初始模型进行训练,得到诈骗团伙的预测模型。
可选的,在本发明第一方面的第五种实现方式中,所述对所有所述特征信息进行数据划分,得到M个训练测试集合包括:
将所述特征信息进行数据划分,得到M个信息集;
针对每一个所述信息集,将该信息集作为测试信息集,将其他的信息集作为训练信息集,得到每一个所述信息集对应的训练测试集合。
可选的,在本发明第一方面的第六种实现方式中,所述基于所述训练测试集合,对预设的初始模型进行训练,得到诈骗团伙的预测模型包括:
针对每一个所述训练测试集合,将所述训练测试集合中的每一个所述特征数据输入所述初始模型中,并控制初始模型对该特征数据进行计算,得到该特征数据对应的预测值;
根据所述预测值和该特征数据对应的标注信息,对所述初始模型进行参数调整,直至所述初始模型收敛,得到该训练测试集合对应的中间模型;
基于该训练测试集合对应的测试信息集,计算所述中间模型对应的性能值;
选择所述性能值最大的中间模型作为所述诈骗团伙的预测模型。
本发明第二方面提供了一种诈骗团伙的预测装置,其特征在于,所述诈骗团伙的预测装置包括:
获取模块,用于获取诈骗团伙的单个成员账户信息;
确定模块,用于根据所述单个成员账户信息,确定所述单个成员账户信息对应关系节点图中的异常节点;
分析模块,用于根据预设的风险传播算法,基于所述异常节点,分析在所述关系节点图中其他节点中所有的可疑节点,得到可疑节点集,其中,所述其他节点为所述关系节点图中所述异常节点以外的节点;
分类模块,用于将所述可疑节点集输入至预先训练好的诈骗团伙的预测模型中,并控制所述诈骗团伙的预测模型对所述可疑节点集进行分类,得到所述诈骗团伙对应的节点集合。
本发明第三方面提供了一种诈骗团伙的预测设备,其包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如上任一所述的诈骗团伙的预测方法中的步骤。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任一所述的诈骗团伙的预测方法中的步骤。
可见,本方案预先构建服务平台上的关系图谱,在获取异常信息时,确定关系图谱中与该异常信息对应的节点作为异常节点,然后以异常节点为起点,通过风险传播,确定其他节点中的可疑节点。最后再基于预先训练好的诈骗团伙的预测模型,对可疑节点进行二分类,从而确定可疑节点中的诈骗节点,也就是极有可能为诈骗用户所对应的节点。
由此,解决当前诈骗团伙查询困难的问题,可以使得后续平台可在诈骗节点的基础上快速预警措施,以更有效的速度保护其他用户的安全。
附图说明
图1为本发明实施例中的诈骗团伙的预测方法的总体流程图;
图2为本发明实施例中的诈骗团伙的预测方法的风险传播算法的流程图;
图3为本发明实施例中风险节点的检测装置的一个实施例示意图;
图4为本发明实施例中风险节点的检测装置的另一个实施例示意图;
图5为本发明实施例中风险节点的检测设备的一个实施例示意图。
具体实施方式
本发明提供一种诈骗团伙的预测方法及相关设备,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
目前的电信欺诈现象主要发生在聊天交友平台,欺诈者身份的用户在该聊天交友上制作虚假的身份信息,向其他用户进行欺诈。因此,本实施例也主要以聊天交友平台为例介绍本方案的具体实施过程,其执行主体为聊天交友平台的服务器,或者安装在该服务器上的某一诈骗团伙的预测软件等。本实施例以诈骗团伙的预测软件为例,对方案的执行进行具体描述。
需要注意的是,上述应用场景仅是为了便于理解本发明而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
下面结合附图,通过对实施例的描述,对发明内容作进一步说明。
如图1所示,本实施提供了一种诈骗团伙的预测方法,诈骗团伙的预测方法包括以下步骤:
S10、获取异常账户信息,确定所述异常账户信息对应关系节点图中的异常节点;
具体地,当某一个账户被认定为诈骗分子所使用的账户时,通过扫描、读取等方式,获取该账户,并将与该账户相关的信息作为异常信息。
本实施例中,账户信息包括登录信息、交易信息以及使用行为信息等。登录信息包括登录地点、登录时间、登录采用的设备等,交易信息包括基于该平台,待检测用户与其他用户之间的交易次数、交易金额、交易时间等,使用行为信息包括用户在该聊天交友平台上的购物、提现、发送图片等行为的记录信息。
具体地,确定所述异常账户信息对应关系节点图中的异常节点之前,读取服务器中预先存储的若干个账户信息,然后构建与服务器对应的关系图谱,将每一个所述账户信息作为节点,根据所述账户信息,构建所述账户对应的关系图谱。
其中,账户信息包括两种类型,一种是账户数据,一种是关系数据。账户数据主要包括该账户的属性,如账户ID、账户头像等。而关系账户是用于描述两个账户之间的联系。由于本实施例中的关系图谱主要用于对诈骗账户进行预测,因此,在描述账户之间的关系时,也应当以可能存在诈骗团伙内部的诈骗关联作为关系数据。
本实施例中,关系的强弱采用评价值进行描述。其中,评价值是通过预设的评价标准对账户信息进行评估后得到的值。评价标准包括在使用时使用共用同一个设备、注册时的ID地址是否相同,注册的手机号是否相同、注册的时间是否接近、注册后关联的支付账号是否相同,在预设的时间间隔内使用的GPS地址是否相同、在预设的时间内登录的IP地址是否相同等。相同的评价标准越多,评价值越高,不同的评价标准越多,评价值越低。
以每一个账户信息作为一个节点,根据账户信息中的关系数据,对该账户信息与其他账户信息进行建边,得到关系图谱。关系图谱可用G=(V,E)表示,其中,V为所有节点(v)的集合,E表示节点与节点之间的边(e),其中,e的大小与关系强弱正相关,当两个节点之间不存在关系时,e为零。此外,节点的边还可包括与自己连接的自连边,边还可包括方向,方向可根据注册时间的先后等确定。例如注册时间在前的账户对应的节点指向注册时间在后的账户对应的节点。
当得到异常信息时,根据异常信息,确定预设的关系图谱中的异常节点。异常信息可以是一个账户名称,由于关系图谱中的每一个节点都对应一个账户信息,因此,根据异常信息,进而在关系图谱中进行检索,确定关系图谱中的异常节点。
在S10步骤之前,还可以执行以下步骤:
S101、查询出所述异常账户信息对应的网络社区;
S102、获取所述网络社区中所有账户信息,将每一个所述账户信息作为节点,构建所有账户信息对应的关系节点图;
S103、将所述关系节点图确定为所述异常账户信息对应的关系节点图。
在S101-103步骤中,异常账户信息是诈骗团伙中一员,但已经被标记出来,而诈骗团伙一般是以社区作为活动单元,将异常账户的网络社区中所有账号信息基于不同维度数据,写入到关系节点图中,由此可以得到后续要分析的关系节点图。
S20、根据预置风险传播算法和所述异常节点在所述关系节点图中对其他节点进行筛选,得到可疑节点集,其中,所述其他节点为所述关系节点图中除所述异常节点外的节点;
具体地,将关系图谱中,异常节点以外的节点成为其他节点。风险传播是指已经知道某一个风险源,以风险源为起点,计算其他节点存在风险的概率。本实施例中,将异常节点作为风险源,确定可疑节点的过程就是计算每一个其他节点存在风险的概率。现有的风险传播算法只要以单源作为风险源,都可以应用于本实施例中。
如图2所示,本实施例提供一种风险传播算法,其具体过程为:
S201、设置所述异常节点对应的第一重要度参数,设置所述关系节点图中其他节点的第二重要度参数;
S202、根据预置收敛规则,以所述异常节点为起点,在所述关系节点图中其他节点进行游走直至收敛,记录收敛节点;
S203、统计所有收敛节点对应的收敛概率,得到收敛概率集;
S204、在所述收敛概率集中筛选出大于预置风险概率阈值的收敛概率,得到筛选的收敛概率集;
S205、将所述筛选的收敛概率集对应的收敛节点确定为可疑节点,得到可疑节点集。
具体地,预先设定第一重要度参数和第二重要度参数,重要度参数是根据异常节点游走时的赋值,第二重要度参数为0是关系节点图中除了异常节点以外其他节点的初始重要值,而异常节点的第一重要度参数为风险源设置为1,随着游走,调整第二重要度参数的大小。
以异常节点为起点,对每一个节点进行游走,并在此过程中,根据异常节点与其他节点之间的关系直至收敛,基于概率收敛关系,来判断异常节点与其他节点之间的关联度。
例如,异常节点的第一重要度参数为1,其他节点的第二重要度参数为0,其与其他节点A和其他节点B连接,两者与异常节点之间的边的数值分别为0.2和0.05。将异常节点与自身连接的边作为1,则其他节点对应的第二重要度参数分别为0.16和0.04。上述例子仅用于举例说明根据边的值,可计算两个节点对应的初始向量,其他根据边,例如根据边的方向、边的大小等方式,都可作为计算的方式。
在本实施例中的第二种计算方式中,每一个节点对应的初始向量为
Figure BDA0003329018660000091
其中,
Figure BDA0003329018660000092
为初始向量方向是随机选择的,α为阻尼系数,P为所述关系图谱的概率转移矩阵,
Figure BDA0003329018660000093
为起始向量。由于每一个节点对应的P值由该节点自身以及与该节点连接的节点决定,不同节点对应的P值不同,因此,随着游走的进行,节点的初始向量会随之改变。即可以用任一节点入邻居的重要性得分不断更新该节点的得分,并不断迭代至收敛。
持续上述的游走过程,直至收敛,得到每一个节点对应的目标向量。本实施例中设定两种不同的收敛规则,一种收敛规则为预先设定一个衰减因子,衰减因子介于0到1之间,衰减因子为停止游走概率。游走过程为随机游走,每当游走到一个节点时(包括异常节点),游走停止在该节点的概率等于衰减因子。当游走停止在某一个节点时,达到收敛条件。
另一种收敛规则为当游走到整个关系图谱中每一个节点的向量都趋于稳定时,结束游走。由于不可能存在绝对的稳定,因此,这里的趋于稳定是一个相对值。随着游走的进行,风险源的风险值在进行传播,当传播到若干个次后,每一个节点更新前和更新后的向量之间差距小于阈值时,则确定整个关系图谱趋于稳定,因此,确定游走已达到收敛条件。
在根据初始向量计算目标向量的过程中,可以针对每一个节点,计算该节点对应的若干个初始向量的平均值,并将该平均值作为目标向量。也可以预先根据这一个节点与异常节点之间关系的强弱,设定来源于不同的初始向量的权重值,最后通过权重求和,得到该节点对应的目标向量。
进一步的,在S202步骤中,还可以执行以下步骤:
S2021、基于预置游走总数,以所述异常节点为起点,根据所述衰减因子,对所述关系图谱进行随机游走,记录每个收敛节点。
具体的,不断的游走计算,以异常节点为起点时,在关系节点图中每个节点收敛次数,再将收敛次数与总数相比得到收敛概率,预先设定一个风险概率阈值,当某一个其他节点的目标向量大于风险概率阈值时,确定该其他节点为可疑节点。
S30、将所述可疑节点集输入至预先训练好的诈骗团伙的预测模型中,并控制所述诈骗团伙的预测模型对所述可疑节点集进行分类提取处理,得到所述诈骗团伙对应的节点集合。
具体地,确定可疑节点后,将可疑节点输入至预先训练好的诈骗团伙的预测模型中。诈骗团伙的预测模型是通过与可疑节点组成相类似的数据进行训练后得到的模型。因此,将可疑节点输入诈骗团伙的预测模型后,诈骗团伙的预测模型计算可疑节点为不同节点类别的概率。本实施例中的节点类别包括正常节点以及诈骗节点。选择概率高的节点类别作为可疑节点对应的节点类别。
本实施例中诈骗团伙的预测模型的训练过程为:
B10、获取N个样本信息,其中,N为正整数;
具体地,首先获取若干个样本信息,该样本信息为与判断是否为诈骗相关的信息以及属性信息,属性信息即样本编号、注册地址、性别、收入情况、婚姻状况、年龄等,与诈骗相关的信息包括注册地址、登录地址、登录时间、与其他账户的一度关联程度、与其他账户一度关联次数、是否与存在诈骗行为的节点存在关联的特征、目标向量等。
B20、对所述样本信息进行训练样本化处理,得到每一个所述样本信息对应的特征信息,其中,所述特征信息包括所述特征数据以及所述特征数据对应的标注信息;
具体地,对样本信息进行训练样本化处理。先对样本信息进行预处理,得到所述样本信息中的有效信息。预处理包括数据清洗和数据填充,数据清洗是指将无效的数据,例如样本信息中对应无效账号、已经注销的账号的信息进行剔除,数据填充是将缺失的部分数据通过预设值或其他算法进行补充。例如某一个样本信息中的年龄为无,可根据婚姻状况、收入水平、添加的喜好标签等用户画像,确定该样本信息对应的年龄区间。
然后根据预设的提取规则,对所述有效信息进行提取,得到每一个所述样本信息对应的特征数据。这里的特征数据是指将样本信息中属性特征、登录操作相关特征、用户之间一度关联特征、风险相关特征等关联的信息转换为编码形式的特征向量。
同时,通过人工,对每一个样本信息进行是否为可疑样本进行判断,并将判断结果作为该样本信息对应的标注信息。将每一个特征数据以及所述特征数据对应的标注信息作为一个特征信息,即得到了若干个特征信息。
B30、对所有所述特征信息进行数据划分,得到M个训练测试集合,其中,所述训练测试集合包括测试信息集和训练信息集,M不大于N的正整数;
具体地,再对特征信息进行数据划分。预先设定划分后得到的训练测试集合的数量,例如为3。其中,每一个训练测试集合都包括所有的特征信息,不同的划分方式得到不同的训练测试集。
进一步的,B301可以执行以下步骤:
B301、将所述特征信息进行数据划分,得到M个信息集;
B302、针对每一个所述信息集,将该信息集作为测试信息集,将其他的信息集作为训练信息集,得到每一个所述信息集对应的训练测试集合。
在本实施例的第一种实现方式中,每一次划分都对所有的特征信息进行划分,得到若干个训练测试集合。
在本实施例的第二种实现方式中,采用交叉检验的方式,首先将特征信息分为三组信息集,例如A组、B组和C组。
针对每一个所述信息集,将该信息集作为测试信息集,将其他的信息集作为训练信息集,得到每一个所述信息集对应的训练测试集合。例如上述例子中,三个测试信息集中的测试信息集分别为A组、B组和C组,训练信息集分别为B组和C组、A组和C组,以及A组和B组。
B40、基于所述训练测试集合,对预设的初始模型进行训练,得到诈骗团伙的预测模型。
具体地,基于所述训练测试集合,对预设的初始模型进行训练。
在本实施例可以具体为以下步骤:
B401、针对每一个所述训练测试集合,将所述训练测试集合中的每一个所述特征数据输入所述初始模型中,并控制初始模型对该特征数据进行计算,得到该特征数据对应的预测值;
B402、根据所述预测值和该特征数据对应的标注信息,对所述初始模型进行参数调整,直至所述初始模型收敛,得到该训练测试集合对应的中间模型;
B403、基于该训练测试集合对应的测试信息集,计算所述中间模型对应的性能值;
B404、选择所述性能值最大的中间模型作为所述诈骗团伙的预测模型。
在B401-B402步骤中,可预先设定一个用于计算预测值和标注信息的公式,即损失函数。基于损失函数,可计算预测值和真实值(也就是标注信息)之间的误差值。将误差值方向传输回初始模型中,以对初始模型中的参数进行优化调整。重复上述的输入特征数据、计算预测值、计算误差值、参数调整的过程,直至模型收敛,得到中间模型。本实施例中,初始模型的收敛条件可以为达到一定的训练次数或者误差值小于阈值等。
由于本实施例中,存在若干个训练测试集合,每一个训练测试集合训练出来的中间模型的参数各不相同,为了选择其中最优的中间模型作为诈骗团伙的预测模型。
针对每一个训练测试集合,得到中间模型后,将该集合中的测试信息集输入至中间模型中,并控制中间模型对测试信息集中的每一个特征数据进行计算,得到每一个特征数据对应的测试值。然后根据测试值以及特征数据对应的真实值(即标注信息),基于预设的二值分类器,生成该测试信息集对应的混淆矩阵。
本实施例中的二值分类器将每一次中间模型计算的测试值划分为以下四类:
1、真正类(True Positive,简称TP):实际为正类(正常节点),且被模型预测为正类(正常节点)的样本。
2、假正类(False Positive,简称FP):实际为负类(诈骗节点),但被模型预测为正类(正常节点)的样本。
3、真负类(True Negative,简称TN):实际为负类(诈骗节点),且被模型预测为负类(诈骗节点)的样本。
4、假负类(False Negative,简称FN):实际为正类(正常节点),但被模型预测为负类(诈骗节点)的样本。
经过测试集合测试后,二值分类器中的每一类都有对应的数量。根据每一类的数量,计算该中间模型对应的性能值。
本实施例中的性能值包括准确率和召回率。其中,准确率的公式为
Figure BDA0003329018660000131
召回率的公式为
Figure BDA0003329018660000132
其中,n(x)为x这一类别的数量,x可为TP、TN、FP以及FN。
准确率越高,通常该模型性能较好,召回率则是覆盖面的度量,度量有多少正列被分为正列,召回率越低,且准确率越高,则确定为诈骗团伙的预测模型的概率越高。因此,预先设定一个性能值计算函数,将准确率以及召回率代入该计算函数中,计算得到对应的性能值。最后选择所述性能值最大的中间模型作为所述诈骗团伙的预测模型。
进一步地,在选择初始模型方面,本实施例采用的初始模型为提升决策树模型。例如,XGBoost模型。
提升决策树模型将许多树模型结合在一起,形成一个强力的分类器。每一个决策树都是树形结构,将特征数据输入决策树时,在决策树的内部节点处,根据输入的特征数据进行属性分类,计算该特征数据进入不同子节点的概率,并选择概率高的子节点作为进入的节点,持续此过程,直至达到叶节点,得到最终的分类结果。
针对预设的决策树,每当分类一次,都添加一棵新的决策树,用于拟合在这一次分类中的残差。此外,当训练结束,得到k棵树后,针对每一个输入的特征数据,该特征数据对应的预测值为每一个决策树的叶节点得到的概率之和。
上面对本发明实施例中诈骗团伙的预测方法进行了描述,下面对本发明实施例中诈骗团伙的预测装置进行描述,请参阅图3,本发明实施例中诈骗团伙的预测装置一个实施例包括:
获取模块301,用于获取异常账户信息,确定所述异常账户信息对应关系节点图中的异常节点;
筛选模块302,用于根据预置风险传播算法和所述异常节点在所述关系节点图中对其他节点进行筛选,得到可疑节点集;
分类提取模块303,用于将所述可疑节点集输入至预先训练好的诈骗团伙的预测模型中,并控制所述诈骗团伙的预测模型对所述可疑节点集进行分类提取处理,得到所述诈骗团伙对应的节点集合。
在本发明实施例中,本技术一方面使用用户特征学习的方法,从用户特征,关系特征,特征之间的关联三个维度,确定用户特征与风险预测之间的映射关系。另外一方面通过构建用户事件关联图,使用图的相关算法,挖掘节点之间的关联信息。通过这两方面,能够更加全面准确的鉴定欺诈群体、欺诈用户。将该技术的检测结果交给相关专家,极大简化了专家的工作内容,加快了检测和采取对策的的速度,解决现有技术还不能准确快速的找到欺诈的可疑账户的技术问题。
请参阅图4,本发明实施例中诈骗团伙的预测装置的一个实施例包括:
获取模块301,用于获取异常账户信息,确定所述异常账户信息对应关系节点图中的异常节点;
筛选模块302,用于根据预置风险传播算法和所述异常节点在所述关系节点图中对其他节点进行筛选,得到可疑节点集;
分类提取模块303,用于将所述可疑节点集输入至预先训练好的诈骗团伙的预测模型中,并控制所述诈骗团伙的预测模型对所述可疑节点集进行分类提取处理,得到所述诈骗团伙对应的节点集合。
其中,所述诈骗团伙的预测装置还包括查询模块304,所述查询模块304具体用于:
查询出所述异常账户信息对应的网络社区;
获取所述网络社区中所有账户信息,将每一个所述账户信息作为节点,构建所有账户信息对应的关系节点图;
将所述关系节点图确定为所述异常账户信息对应的关系节点图。
其中,所述分类提取模块303具体用于:
设置所述异常节点对应的第一重要度参数,设置所述其他节点的第二重要度参数;
将所述第一重要度参数和所述第二重要度参数代入至预置收敛规则中,得到新的收敛规则,以及根据所述收敛规则,以所述异常节点为起点,在所述关系节点图中其他节点进行游走直至收敛,记录收敛节点;
统计所有收敛节点对应的收敛概率,得到收敛概率集;
在所述收敛概率集中筛选出大于预置风险概率阈值的收敛概率,得到筛选的收敛概率集;
将所述筛选的收敛概率集对应的收敛节点确定为可疑节点,得到可疑节点集。
其中,所述分类提取模块303还可以具体用于:
基于预置游走总数,以所述异常节点为起点,根据所述衰减因子,对所述关系图谱进行随机游走,记录每个收敛节点。
其中,所述诈骗团伙的预测装置还包括训练模块305,所述训练模块305具体用于:
获取N个样本信息,其中,N为正整数;
对所述样本信息进行训练样本化处理,得到每一个所述样本信息对应的特征信息,其中,所述特征信息包括所述特征数据以及所述特征数据对应的标注信息;
对所有所述特征信息进行数据划分,得到M个训练测试集合,其中,所述训练测试集合包括测试信息集和训练信息集,M不大于N的正整数;
基于所述训练测试集合,对预设的初始模型进行训练,得到诈骗团伙的预测模型。
其中,所述训练模块305还可以具体用于:
将所述特征信息进行数据划分,得到M个信息集;
针对每一个所述信息集,将该信息集作为测试信息集,将其他的信息集作为训练信息集,得到每一个所述信息集对应的训练测试集合。
其中,所述训练模块305还可以具体用于:
针对每一个所述训练测试集合,将所述训练测试集合中的每一个所述特征数据输入所述初始模型中,并控制初始模型对该特征数据进行计算,得到该特征数据对应的预测值;
根据所述预测值和该特征数据对应的标注信息,对所述初始模型进行参数调整,直至所述初始模型收敛,得到该训练测试集合对应的中间模型;
基于该训练测试集合对应的测试信息集,计算所述中间模型对应的性能值;
选择所述性能值最大的中间模型作为所述诈骗团伙的预测模型。
在本发明实施例中,本技术一方面使用用户特征学习的方法,从用户特征,关系特征,特征之间的关联三个维度,确定用户特征与风险预测之间的映射关系。另外一方面通过构建用户事件关联图,使用图的相关算法,挖掘节点之间的关联信息。通过这两方面,能够更加全面准确的鉴定欺诈群体、欺诈用户。将该技术的检测结果交给相关专家,极大简化了专家的工作内容,加快了检测和采取对策的速度,解决现有技术还不能准确快速的找到欺诈的可疑账户的技术问题。
上面图3和图4从模块化功能实体的角度对本发明实施例中的诈骗团伙的预测装置进行详细描述,下面从硬件处理的角度对本发明实施例中诈骗团伙的预测设备进行详细描述。
图5是本发明实施例提供的一种诈骗团伙的预测设备的结构示意图,该诈骗团伙的预测设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对诈骗团伙的预测设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在诈骗团伙的预测设备500上执行存储介质530中的一系列指令操作。
基于诈骗团伙的预测设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的诈骗团伙的预测设备结构并不构成对基于诈骗团伙的预测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述诈骗团伙的预测方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种诈骗团伙的预测方法,其特征在于,所述方法包括:
获取异常账户信息,确定所述异常账户信息对应关系节点图中的异常节点;
根据预置风险传播算法和所述异常节点在所述关系节点图中对其他节点进行筛选,得到可疑节点集,其中,所述其他节点为所述关系节点图中除所述异常节点外的节点;
将所述可疑节点集输入至预先训练好的诈骗团伙的预测模型中,并控制所述诈骗团伙的预测模型对所述可疑节点集进行分类提取处理,得到所述诈骗团伙对应的节点集合。
2.根据权利要求1所述诈骗团伙的预测方法,其特征在于,所述根据预置风险传播算法和所述异常节点在所述关系节点图中对其他节点进行筛选,得到可疑节点集包括:
设置所述异常节点对应的第一重要度参数,设置所述其他节点的第二重要度参数;
将所述第一重要度参数和所述第二重要度参数代入至预置收敛规则中,得到新的收敛规则,以及根据所述收敛规则,以所述异常节点为起点,在所述关系节点图中其他节点进行游走直至收敛,记录收敛节点;
统计所有收敛节点对应的收敛概率,得到收敛概率集;
在所述收敛概率集中筛选出大于预置风险概率阈值的收敛概率,得到筛选的收敛概率集;
将所述筛选的收敛概率集对应的收敛节点确定为可疑节点,得到可疑节点集。
3.根据权利要求2所述诈骗团伙的预测方法,其特征在于,所述收敛规则包括衰减因子,所述根据所述收敛规则,以所述异常节点为起点,在所述关系节点图中其他节点进行游走直至收敛,记录收敛节点包括:
基于预置游走总数,以所述异常节点为起点,根据所述衰减因子,对所述关系图谱进行随机游走,记录每个收敛节点。
4.根据权利要求1所述诈骗团伙的预测方法,其特征在于,在所述获取异常账户信息,确定所述异常账户信息对应关系节点图中的异常节点之前,还包括:
查询出所述异常账户信息对应的网络社区;
获取所述网络社区中所有账户信息,将每一个所述账户信息作为节点,构建所有账户信息对应的关系节点图;
将所述关系节点图确定为所述异常账户信息对应的关系节点图。
5.根据权利要求1-4中任意一项所述诈骗团伙的预测方法,其特征在于,所述将所述可疑节点集输入至预先训练好的诈骗团伙的预测模型中,并控制所述诈骗团伙的预测模型对所述可疑节点集进行分类提取处理,得到所述诈骗团伙对应的节点集合之前,还包括:
获取N个样本信息,其中,N为正整数;
对所述样本信息进行训练样本化处理,得到每一个所述样本信息对应的特征信息,其中,所述特征信息包括所述特征数据以及所述特征数据对应的标注信息;
对所有所述特征信息进行数据划分,得到M个训练测试集合,其中,所述训练测试集合包括测试信息集和训练信息集,M不大于N的正整数;
基于所述训练测试集合,对预设的初始模型进行训练,得到诈骗团伙的预测模型。
6.根据权利要求5所述诈骗团伙的预测方法,其特征在于,所述对所有所述特征信息进行数据划分,得到M个训练测试集合包括:
将所述特征信息进行数据划分,得到M个信息集;
针对每一个所述信息集,将该信息集作为测试信息集,将其他的信息集作为训练信息集,得到每一个所述信息集对应的训练测试集合。
7.根据权利要求5所述诈骗团伙的预测方法,其特征在于,所述基于所述训练测试集合,对预设的初始模型进行训练,得到诈骗团伙的预测模型包括:
针对每一个所述训练测试集合,将所述训练测试集合中的每一个所述特征数据输入所述初始模型中,并控制初始模型对该特征数据进行计算,得到该特征数据对应的预测值;
根据所述预测值和该特征数据对应的标注信息,对所述初始模型进行参数调整,直至所述初始模型收敛,得到该训练测试集合对应的中间模型;
基于该训练测试集合对应的测试信息集,计算所述中间模型对应的性能值;
选择所述性能值最大的中间模型作为所述诈骗团伙的预测模型。
8.一种诈骗团伙的预测装置,其特征在于,所述诈骗团伙的预测装置包括:
获取模块,用于获取异常账户信息,确定所述异常账户信息对应关系节点图中的异常节点;
筛选模块,用于根据预置风险传播算法和所述异常节点在所述关系节点图中对其他节点进行筛选,得到可疑节点集;
分类提取模块,用于将所述可疑节点集输入至预先训练好的诈骗团伙的预测模型中,并控制所述诈骗团伙的预测模型对所述可疑节点集进行分类提取处理,得到所述诈骗团伙对应的节点集合。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-7任意一项所述的诈骗团伙的预测方法中的步骤。
10.一种诈骗团伙的预测设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如权利要求1-7任意一项所述的诈骗团伙的预测方法中的步骤。
CN202111271863.9A 2021-10-29 2021-10-29 一种诈骗团伙的预测方法及相关设备 Pending CN113962712A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111271863.9A CN113962712A (zh) 2021-10-29 2021-10-29 一种诈骗团伙的预测方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111271863.9A CN113962712A (zh) 2021-10-29 2021-10-29 一种诈骗团伙的预测方法及相关设备

Publications (1)

Publication Number Publication Date
CN113962712A true CN113962712A (zh) 2022-01-21

Family

ID=79468220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111271863.9A Pending CN113962712A (zh) 2021-10-29 2021-10-29 一种诈骗团伙的预测方法及相关设备

Country Status (1)

Country Link
CN (1) CN113962712A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114756716A (zh) * 2022-04-18 2022-07-15 马上消费金融股份有限公司 信息处理方法、装置、设备及存储介质
CN114897608A (zh) * 2022-04-14 2022-08-12 广东启链科技有限公司 一种区块链的诈骗账户检测方法、装置及相关设备
CN115243268A (zh) * 2022-07-20 2022-10-25 中国联合网络通信集团有限公司 一种团体诈骗关系识别方法、系统及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766719A (zh) * 2018-12-28 2019-05-17 微梦创科网络科技(中国)有限公司 一种敏感信息检测方法、装置及电子设备
CN109919608A (zh) * 2018-11-28 2019-06-21 阿里巴巴集团控股有限公司 一种高危交易主体的识别方法、装置及服务器
CN111612635A (zh) * 2020-04-18 2020-09-01 北京淇瑀信息科技有限公司 用户金融风险分析方法、装置及电子设备
CN112053221A (zh) * 2020-08-14 2020-12-08 百维金科(上海)信息科技有限公司 一种基于知识图谱的互联网金融团伙欺诈行为检测方法
CN112926990A (zh) * 2021-03-25 2021-06-08 支付宝(杭州)信息技术有限公司 欺诈识别的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919608A (zh) * 2018-11-28 2019-06-21 阿里巴巴集团控股有限公司 一种高危交易主体的识别方法、装置及服务器
CN109766719A (zh) * 2018-12-28 2019-05-17 微梦创科网络科技(中国)有限公司 一种敏感信息检测方法、装置及电子设备
CN111612635A (zh) * 2020-04-18 2020-09-01 北京淇瑀信息科技有限公司 用户金融风险分析方法、装置及电子设备
CN112053221A (zh) * 2020-08-14 2020-12-08 百维金科(上海)信息科技有限公司 一种基于知识图谱的互联网金融团伙欺诈行为检测方法
CN112926990A (zh) * 2021-03-25 2021-06-08 支付宝(杭州)信息技术有限公司 欺诈识别的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张之刚等: "RiskRank: 一种网络风险传播分析方法", 《重庆大学学报》, vol. 44, no. 09, 30 September 2021 (2021-09-30), pages 132 - 138 *
张瑜: "支持向量机在电信客户欺诈检测的应用研究", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑 (月刊)》, no. 06, 15 June 2011 (2011-06-15), pages 155 - 12 *
梅子行: "《智能风控 原理、算法与工程实践》", 31 January 2020, 北京:机械工业出版社, pages: 200 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114897608A (zh) * 2022-04-14 2022-08-12 广东启链科技有限公司 一种区块链的诈骗账户检测方法、装置及相关设备
CN114756716A (zh) * 2022-04-18 2022-07-15 马上消费金融股份有限公司 信息处理方法、装置、设备及存储介质
CN115243268A (zh) * 2022-07-20 2022-10-25 中国联合网络通信集团有限公司 一种团体诈骗关系识别方法、系统及可读存储介质

Similar Documents

Publication Publication Date Title
CN112417439B (zh) 账号检测方法、装置、服务器及存储介质
US20230316076A1 (en) Unsupervised Machine Learning System to Automate Functions On a Graph Structure
CN110417721B (zh) 安全风险评估方法、装置、设备及计算机可读存储介质
CN113962712A (zh) 一种诈骗团伙的预测方法及相关设备
CN109460793B (zh) 一种节点分类的方法、模型训练的方法及装置
CN109889538B (zh) 用户异常行为检测方法及系统
CN110852755B (zh) 针对交易场景的用户身份识别方法和装置
TWI724896B (zh) 基於隱私保護的關係網路構建方法及裝置
US10866998B2 (en) System and method for identifying contacts of a target user in a social network
CN111651741B (zh) 用户身份识别方法、装置、计算机设备和存储介质
CN110162958B (zh) 用于计算设备的综合信用分的方法、装置和记录介质
CN112632609A (zh) 异常检测方法、装置、电子设备及存储介质
CN110445772B (zh) 一种基于主机关系的互联网主机扫描方法及系统
CN115329338A (zh) 基于云计算服务的信息安全风险分析方法及分析系统
CN117376228B (zh) 一种网络安全测试工具确定方法及装置
CN115065545A (zh) 基于大数据威胁感知的安全防护构建方法及ai防护系统
CN115293235A (zh) 建立风险识别模型的方法及对应装置
CN114626744A (zh) 一种基于科技创新能力的评估方法、系统和可读存储介质
WO2023035362A1 (zh) 用于模型训练的污染样本数据的检测方法及装置
CN114841705A (zh) 一种基于场景识别的反欺诈监测方法
CN117785993A (zh) 图模式的挖掘方法及装置
CN109587248B (zh) 用户识别方法、装置、服务器及存储介质
CN116562824A (zh) 一种公路工程全生命周期项目管理方法及系统
CN112700277B (zh) 用户行为数据的处理方法和多行为序列转化模型训练方法
CN110472680B (zh) 目标分类方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination