CN110415107A - 数据处理方法、装置、存储介质及电子设备 - Google Patents
数据处理方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN110415107A CN110415107A CN201910683458.4A CN201910683458A CN110415107A CN 110415107 A CN110415107 A CN 110415107A CN 201910683458 A CN201910683458 A CN 201910683458A CN 110415107 A CN110415107 A CN 110415107A
- Authority
- CN
- China
- Prior art keywords
- order
- incidence edge
- group
- weight
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Abstract
本发明实施例提供一种数据处理方法、装置、存储介质及电子设备,该方法包括:获取待检测的订单;基于所述订单中具有相同的属性的订单以及每个属性的权重,获取关联边数据,所述关联边数据包括:具有关联边的两个订单以及所述关联边的权值;基于所述关联边数据以及图连通模型获取初始欺诈群组;基于所述关联边数据以及所述初始欺诈群组,获取目标欺诈群组,利用关联的属性的异常度,获取到高概率的初始欺诈群组,提升了欺诈群组识别的精准度。
Description
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种数据处理方法、装置、存储介质及电子设备。
背景技术
随着互联网的飞速发展,在线的金融申请服务更加普及,典型的金融在线申请服务包括在线申请信用卡、在线申请贷款等。
信用卡欺诈申请是指申请者通过编造虚假个人身份信息、冒用他人身份信息、提供虚假证明材料,欺骗银行发放信用卡或贷款。在我国的行用卡业务中,由于身份欺诈造成的损失在逐年以较快的速度上升,欺诈申请的形势比较严峻。当信用卡欺诈风险产生时,发卡行虽然会及时采取冻结账户、异常交易排查和降低账户额度等多种手段进行管控,但是风险损失已经产生。要遏制住信用卡欺诈风险,预防才是关键。随着目前各个银行信息技术的发展,搭建高效准确的在线申请反欺诈系统是目前业内重点完善的问题。信用卡在线申请欺诈的模式随时间不断演化和发展,随着反欺诈技术的进步,欺诈越来越难以由个体完成,而是通过团伙有组织地进行。
信贷业务是商业银行及互金机构的主要利润来源,对银行和机构的经营举足轻重。在信贷行业,据悉70%以上的风险来自欺诈风险,而欺诈形式多种多样,如身份造假、中介黑产、内外勾结等等。从欺诈主体来看,可以分为第一方欺诈、第二方欺诈、第三方欺诈。第一方欺诈,主要是申请贷款本人恶意骗贷、还款意愿极低、拒绝还款等;第二方欺诈是指内部欺诈或内外勾结;而第三方欺诈主要是盗用冒用他人身份、他人账号以及团伙欺诈等。这其中团伙欺诈已形成一个黑色产业链,黑中介通过购买个人信息、和客户联合等手段进行欺诈。所以,信贷反欺诈就是和欺诈人员斗智斗勇的过程:欺诈分子一直在寻找业务的漏洞,而反欺诈人员则需要在不断变化的漏洞中打上一个个补丁。
目前,机器学习一般可包括:有监督学习,这种方式需要大量人工标注数据来训练检测模型,可用于检测已知的欺诈行为,不能检测未知的欺诈行为。无监督学习,无监督学习可以在损失发生前,提早发现恶意欺诈者。无监督学习的典型处理包括聚类、降维等。聚类是把数据集分成一个个的簇cluster,典型的聚类方法有K-means聚类、DBSCAN聚类等。降维是对数据压缩,典型的方法有主成分分析等。以及半监督学习,半监督学习可以在仅有少量标记样本的情况下,充分利用标记样本中的知识,同时可以发挥无监督学习的主动发现优势。
在对欺诈团伙进行识别时,大多数情况下,采用无监督学习的图数据、聚类以及半监督学习的标签传播(Label Propagation Algorithm,LPA)。
在实现本发明的过程中,发明人发现上述欺诈团伙识别方法至少存在以下技术问题:
基于图数据的连通分量计算方案,需要基于订单之间的属性关联建立关联边,然后进行连通分量计算并输出结果子图。但是连通不一定就是异常。
基于聚类进行欺诈团伙识别的方案,从数据里找出在多个特征上具有强关联和相似性的群组。没有充分发挥业务数据的价值,同时针对大数据的并行聚类处理一般较复杂。
基于欺诈样例进行欺诈标签传播计算,在欺诈样例本身很少的情况下,传播计算所发现的欺诈样例也会比较少,因而无法发现较多的欺诈样例和欺诈团伙。
因此,需要一种新的数据处理方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种数据处理方法、装置、存储介质及电子设备,提升了识别欺诈群组的准确度。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明实施例的第一方面,提供一种数据处理方法,其中,所述方法包括:获取待检测的订单;基于所述订单中具有相同的属性的订单以及每个属性的权重,获取关联边数据,所述关联边数据包括:具有关联边的两个订单以及所述关联边的权值;基于所述关联边数据以及图连通模型获取初始欺诈群组;基于所述关联边数据以及所述初始欺诈群组,获取目标欺诈群组。
在本发明的一些示例性实施例中,基于前述方案,所述方法包括:获取每个属性的权重;获取每个属性的权重,包括:基于具有相同的属性的样本订单中黑样本的比例获取所述属性的权重。
在本发明的一些示例性实施例中,基于前述方案,基于所述订单中具有相同的属性的订单以及每个属性的权重,获取关联边数据,包括:基于所述订单中的第N个订单的各个属性遍历所述订单,提取出与所述第N个订单具有相同属性的其他订单;基于所述相同属性生成所述第N个订单与其他订单的关联边;基于所述第N个订单与所述其他订单具有相同属性的每个属性的权重,获取所述第N个订单与所述其他订单的所述关联边的权值;基于所述关联边以及所述关联边的权值,获取所述第N个订单的关联边数据;其中,N为大于1的整数。
在本发明的一些示例性实施例中,基于前述方案,基于所述关联边数据以及连通图模型获取初始欺诈群组,包括:比较所述关联边数据中的每条关联边的权值与阈值;基于所述关联边的权值超过所述阈值的关联边数据以及所述图联通模型获取初始欺诈群组。
在本发明的一些示例性实施例中,基于前述方案,基于所述关联边的权值超过所述阈值的关联边数据以及所述图联通模型获取初始欺诈群组,包括:将所述关联边的权值超过所述阈值的关联边数据输入至所述图联通模型,基于输出的每个联通分量获取一个初始欺诈群组。
在本发明的一些示例性实施例中,基于前述方案,基于所述关联边数据以及所述初始欺诈群组,获取目标欺诈群组,包括:基于所述初始欺诈群组内订单数目以及每条关联边的权值确定所述初始欺诈群组中的每条关联边的权值的均值;基于所述初始欺诈群组内已知欺诈订单的占比、所述初始欺诈群组内订单的数目以及所述每条关联边的权值的均值,获取所述初始欺诈群组的得分;基于所述初始欺诈群组的得分,获取目标欺诈群组。
在本发明的一些示例性实施例中,基于前述方案,所述方法还包括:基于输出的每个联通分量的标识获取所述初始欺诈群组的标识;
所述获取目标欺诈群组,包括:获取所述目标欺诈群组内的订单、所述目标欺诈群组对应的初始欺诈群组的标识以及所述初始欺诈群组的得分。
根据本发明实施例的第二方面,提供一种数据处理装置,其中,所述装置包括:
第一获取模块,配置为获取待检测的订单;
第二获取模块,配置为基于所述订单中具有相同的属性的订单以及每个属性的权重,获取关联边数据,所述关联边数据包括:具有关联边的两个订单以及所述关联边的权值;
第三获取模块,配置为基于所述关联边数据以及图连通模型获取初始欺诈群组;
第四获取模块,配置为基于所述关联边数据以及所述初始欺诈群组,获取目标欺诈群组。
在本发明的一些示例性实施例中,基于前述方案,所述装置还包括:第五获取模块,配置为获取每个属性的权重;
所述第五获取模块,配置为基于具有相同的属性的样本订单中黑样本的比例获取所述属性的权重。
在本发明的一些示例性实施例中,基于前述方案,所述第二获取模块,包括:
遍历单元,配置为基于所述订单中的第N个订单的各个属性遍历所述订单,提取出与所述第N个订单具有相同属性的其他订单;
生成单元,配置为基于所述相同属性生成所述第N个订单与其他订单的关联边;
第一获取单元,配置为基于所述第N个订单与所述其他订单具有相同属性的每个属性的权重,获取所述第N个订单与所述其他订单的所述关联边的权值;
第二获取单元,配置为基于所述关联边以及所述关联边的权值,获取所述第N个订单的关联边数据;其中,N为大于1的整数。
在本发明的一些示例性实施例中,基于前述方案,第三获取模块,配置为比较所述关联边数据中的每条关联边的权值与阈值;基于所述关联边的权值超过所述阈值的关联边数据以及所述图联通模型获取初始欺诈群组。
在本发明的一些示例性实施例中,基于前述方案,所述第三获取模块,配置为将所述关联边的权值超过所述阈值的关联边数据输入至所述图联通模型,基于输出的每个联通分量获取一个初始欺诈群组。
在本发明的一些示例性实施例中,基于前述方案,所述第四获取模块,配置为基于所述初始欺诈群组内订单数目以及每条关联边的权值确定所述初始欺诈群组中的每条关联边的权值的均值;基于所述初始欺诈群组内已知欺诈订单的占比、所述初始欺诈群组内订单的数目以及所述每条关联边的权值的均值,获取所述初始欺诈群组的得分;基于所述初始欺诈群组的得分,获取目标欺诈群组。
在本发明的一些示例性实施例中,基于前述方案,所述装置还包括:第六获取模块,配置为基于输出的每个联通分量的标识获取所述初始欺诈群组的标识;
所述第四获取模块,配置为获取所述目标欺诈群组内的订单、所述目标欺诈群组对应的初始欺诈群组的标识以及所述初始欺诈群组的得分。
根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现第一方面所述的方法步骤。
根据本发明实施例的第四方面,提供一种电子设备,其中,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如第一方面所述的方法步骤。
本发明实施例中,通过获取待检测的订单;基于所述订单中具有相同的属性的订单以及每个属性的权重,获取关联边数据,所述关联边数据包括:具有关联边的两个订单以及所述关联边的权值;基于所述关联边数据以及图连通模型获取初始欺诈群组;基于所述关联边数据以及所述初始欺诈群组,获取目标欺诈群组,利用关联的属性的异常度,获取到高概率的初始欺诈群组,提升了欺诈群组识别的精准度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出一种连通分量结果的示意图;
图2示出了一种二维的聚类结果示意图;
图3是根据一示例性实施例示出的一种数据处理方法的流程图;
图4为本发明实施例示出的一个联通结果子图;
图5是根据一示例性实施例示出的一种数据处理装置的结构示意图;
图6是根据一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本发明将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
下面对图数据、聚类以及半监督学习的标签传播(Label PropagationAlgorithm,LPA)的方法进行详细的说明。
图数据将数据相关方分别定位为一个点,而他们之间的互相联系抽象为边,那所有不同事物之间的错综复杂的联系就构成了一张张的图。无向图、有向图和网络能运用很多常用的图算法,这些算法包括:各种遍历算法(类似于树的遍历)、寻找最短路径、寻找网络中最低代价路径、图连通判断等。常见的算法有PageRank、最短路径、社区发现等。
使用连通分量发现欺诈团伙时,可以利用深度优先搜索算法(Depth-First-Search,DFS,一种用于遍历或搜索树或图的算法)沿着树的深度遍历树的节点,尽可能深的搜索树的分支。当节点v的所在边都己被探寻过,搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。如果还存在未被发现的节点,则选择其中一个作为源节点并重复以上过程,整个进程反复进行直到所有节点都被访问为止。对于深度遍历算法来说,有一个很好的优点,就是能够非常方便地计算图中的连通分量。例如,图1示出一种连通分量结果的示意图。在图1中,存在3个连通分量。连通分量和连通分量之间没有任何边相连。在通过深度遍历算法来计算一个图中的连通分量时,可以从左上角的第一个点开始进行深度遍历,当遍历4个点之后将会结束遍历,这说明这4个点属于同一个连通分量之中。接下来,再从所有的点中找出下一个未被访问过的点,再执行一深度遍历算法,直到算法停止,说明又找到一个连通分量。接下来又继续找一个未被访问过的点进行深度遍历操作,直到停止。
无监督机器学习引擎无需任何训练样本和标签,算法原理包括以下3个步骤:
a.特征工程,基于用户原始数据进行特征工程,从而创建能够使无监督机器学习算法达到最佳性能的特征。特征工程使得更多更高质量的特征能够更好的描述原始数据,这些特征将会是下一步聚类的核心基础。
b.聚类,在数据特征基础上,通过关联分析和相似性分析,找出呈现聚群的结构。聚类的核心是从数据里找出在多个特征上具有强关联和相似性的群组,换句话说,这些群组的异常关联性很大。这些群组往往就是大规模欺诈群组,比如这些群组的用户都拥有相似的欺诈IP地址,邮件地址的构造方式,或者用户行为。无监督机器学习引擎在聚类的过程中也会同时确保了群组的规模和解释性。例如,图2示出了一种二维的聚类结果示意图。如图2中,欺诈群组为F1和F2,其他为没有异常关联性而散落的数据。
c.评分,在聚类的基础上,无监督机器学习引擎根据群组的规模和异常性程度给予不同的风险评分。通常来说,群组规模越大且在多个重要特征上异常相似性越高,这个群组的风险评分越高。
基于标签传播(Label Propagation Algorithm,LPA)的半监督学习,是为网络中所有的节点赋予不同的标签,设计一个传播规则,标签根据这个规则在网络上迭代传播,直到所有节点的标签传播达到稳定,最后将具有相同标签的节点划分到一个社区中。在每次迭代传播时,每个节点的标签都更新为最多数量的邻居节点拥有的标签。这个传播规则定义了网络的社区结构,即网络中每个节点选择加入的社区是它最多数量的邻居节点属于的社区。
该算法具体的步骤如下:
a.开始时,所有节点使用独一无二的标签初始化;
b.按照随机的顺序扫描所有的节点,每个节点的标签被更新为其最大数量的邻居所具有的标签。如果同时有多个标签被最多的邻居节点使用,则随机的选择一个标签;
c.当所有节点的标签与其最大数量的邻居拥有的标签相同时,进行步骤d,否则返回步骤b;
d.最后,将网络中每一个具有相同标签的连通部分作为一个社区。
下面结合具体的实施例,对本发明实施例提出的数据处理方法进行详细的说明。需要说明的是,执行本发明实施例的执行主体可以包括具有计算处理能力的装置执行,例如:服务器和/或终端设备,但本发明并不限于此。本发明实施例中的数据处理方法可以应用于多种反欺诈场景。
图3是根据一示例性实施例示出的一种数据处理方法的流程图。
如图3所示,该方法可以包括但不限于以下步骤:
在S310中,获取待检测的订单。
需要指出的是,待检测的订单的数目为多个。
在S320中,基于所述订单中具有相同的属性的订单以及每个属性的权重,获取关联边数据。
本发明实施例中,属性可以包括但不限于:Cookie账号、手机号码、身份证、邮箱地址、直亲电话、直亲姓名、联系人电话、联系人姓名、家庭座机、家庭地址、单位电话、单位名称、单位地址。在获取到待检测的订单后,可以对待检测的订单进行预处理,如进行过采样,去掉一些信息不全、信息错误的订单。
本发明实施例中,为每个属性设置不同的权重,权重可以表示关联属性(相同属性)与欺诈行为的关联度,即具有该关联属性(相同属性)的订单为欺诈订单(异常)的异常度。
本发明实施例中,关联边数据包括:具有关联边的两个订单以及所述关联边的权值。例如<订单01,订单02,权值>。其中,订单01表示该关联边的第一个结点,订单02表示该关联边的第二个结点。需要指出的是,<订单01,订单02,权值>与<订单02,订单01,权值>相同。
本发明实施例,在获取关联边数据时,可以针对待检测的所有订单中的任意一个订单的每个属性,例如,第N个订单,则基于该第N个订单的各个属性,遍历所有待检测的订单,提取与该第N个订单具有相同的属性的其他订单,基于这些相同的属性生成该第N个订单与其他订单的关联边。进一步的,基于第N个订单与其他订单具有相同属性的每个属性的权重,获取该第N个订单与其他订单的所述关联边的权值,从而基于该关联边以及所述关联边的权值,获取该第N个订单的关联边数据,其中,N为大于1的整数。
需要指出的是,基于第N个订单与其他订单具有相同属性的每个属性的权重,获取该第N个订单与其他订单的所述关联边的权值时,可以通过对两个订单之间的多个属性的权重进行加权组合或者多个属性权重取最大值的方式得到两个订单的关联边的权值。
需要说明的是,通过将N取不同的值,可以获取到待检测的所有订单中的所有具有相同属性的两个订单的关联边数据。
例如,待检测订单中包括8个订单,为订单01-08,基于对订单中具有相同的属性的订单遍历,获取到如表1所示的关联边信息:
表1
其中,各属性的权重是预设置或者基于样本订单获取的。在获取到如表1所示的关联边信息后,可以得到如表2所示的关联边数据:
结点1 | 结点2 | 权值 |
订单01 | 订单02 | 10 |
订单02 | 订单03 | 6 |
订单05 | 订单08 | 4 |
表2
如表2所示,订单01和订单02的关联边的权值为各相同的属性的权重之和:6+4=12,订单02和订单03的关联边的权值为相同的属性的手机号码的权重:6。订单05和订单08的关联边的权值为相同的属性的家庭地址的权重:4。需要指出的是,表2中省略了以订单02为结点1以订单01为结点2的关联边数据、以订单03为结点1以订单02为结点2的关联边数据、以订单08为结点1以订单05为结点2的关联边数据。
在S330中,基于所述关联边数据以及图连通模型获取初始欺诈群组。
本发明实施例中,在获取初始欺诈群组时,可以基于阈值对关联边数据进行筛选,基于筛选后的关联边数据以及图联通模型获取初始欺诈群组。
根据本发明实施例,在基于阈值对关联边数据筛选时,可以比较所述关联边数据中的每条关联边的权值与阈值,获取到关联边的权值超过所述阈值的关联边数据,基于该关联边数据以及图联通模型获取初始欺诈群组。
例如,如表2所示的关联边数据,假设阈值为5,则超过该阈值的关联边的权值对应的关联边数据如表3所示:
结点1 | 结点2 | 权值 |
订单01 | 订单02 | 10 |
订单02 | 订单03 | 6 |
表3
可以基于如表3所示的这两组关联边数据以及图联通模型获取初始欺诈群组。需要指出的是,以订单02为结点1以订单01为结点2的关联边数据、以订单03为结点1以订单02为结点2的关联边数据,其对应的关联边数据的关联边权值也超过了该阈值,但是由于该关联边数据与以<订单01,订单02,10>以及<订单02,订单03,6>的关联边数据相同,因此,无论是否将该关联边数据输入至图联通模型,均不会对初始欺诈群组造成影响。
需要说明的是,基于阈值对关联边数据进行筛选,一方面,剔除了待检测的订单中与其他订单不存在关联边的订单,即,剔除了没有在群组内的订单,另一方面,通过阈值约束关联边数据,提升了后续获取的初始欺诈群组的准确率。
本发明实施例中,图联通模型可以为GraphX,GraphX是一个使用非常广泛的图计算框架,定义了独特的图计算AP I并且简化了图算法的实现,比通用的数据驱动的计算引擎更快。
本发明实施例中,在获取初始欺诈群组时,将关联边的权值超过阈值的关联边数据输入至GraphX模型,利用该GraphX模型进行connected component连通计算生成至少一个连通结果子图,每个联通结果子图内仅包含一个联通分量,基于每个联通分量生成一个初始欺诈群组。
本发明实施例中,采用GraphX模型这种成熟的连通子图算法进行并行计算,相对于一般的聚类算法具有更高的计算效率。
需要指出的是,GraphX模型输出的联通结果子图都具有一个标识,该标识也可以为该联通结果子图内的联通分量的标识,基于该标识可以获取其对应的初始欺诈群组的标识。
例如,基于表3所示的关联边数据,可以获取到一个联通结果子图,图4为本发明实施例示出的一个联通结果子图,其中,基于图4可以获取到如表4所示的初始欺诈群组列表:
初始欺诈群组标识 | 成员列表 |
初始欺诈群组01 | 订单01、订单02、订单03 |
表4
在S340中,基于所述关联边数据以及所述初始欺诈群组,获取目标欺诈群组。
本发明实施例中,在获取初始欺诈群组后,可以基于基于所述初始欺诈群组内订单数目以及每条关联边的权值确定所述初始欺诈群组中的每条关联边的权值的均值。
例如,表4所示的初始欺诈群组01中,共包括订单01、订单02、订单03,其中,共包括两条关联边,基于表3所示的关联边数据,可以计算出该初始欺诈群组01中的每条关联边的权值的均值:=(10+6)/2=8。
本发明实施例中,在获取到初始欺诈群组内每条关联边的权值的均值后,基于该初始欺诈群组内已知欺诈订单的占比、该初始欺诈群组内订单的数目以及每条关联边的权值的均值,获取该初始欺诈群组的得分。
本发明实施例中,基于初始欺诈群组的得分,能够知晓获取的初始欺诈群组内的订单的欺诈概率,使得后续获取的目标欺诈群组更准确,更有解释力。
本发明实施例中,可以通过以下公式计算初始欺诈群组的得分:
Score=AVG(Weight)*(1+log10M)*(1+SpamRatio) (1)
上述公式(1)中,AVG(Weight)表示初始欺诈群组内每条关联边的权值的均值,M为初始欺诈群组内成员的数目,SpamRatio为初始欺诈群组中已知欺诈样例的占比。
需要指出的是,可以在待检测的订单中加入部分欺诈样例,从而提升公式(1)得到的初始欺诈群组的得分的准确率,仅依据少量欺诈样例实现类似标签传播计算,提升识别欺诈群组的精准度。
需要说明的是,公式(1)中的SpamRatio可以等于0,即初始欺诈群组内不包含已知欺诈样例。
本发明实施例中,在获取到初始欺诈群组的得分后,可以基于初始欺诈群组的得分,获取目标欺诈群组。获取到目标欺诈群组的方法可以包括但不限于:
(1)设置得分阈值,得分超过该得分阈值的初始欺诈群组为目标欺诈群组。
(2)依照得分对初始欺诈群组排序,选择TOPN为目标欺诈群组。
本发明实施例中,在获取到目标欺诈群组时,可以获取到目标欺诈群组内的订单、所述目标欺诈群组对应的初始欺诈群组的标识以及所述初始欺诈群组的得分。
例如,假设表4的初始欺诈群组为获取的目标欺诈群组,则该目标欺诈群组如表5所示:
成员 | 初始欺诈群组标识 | 得分 |
订单01 | 01 | 918 |
订单02 | 01 | 918 |
表5
需要指出的是,在获取到目标欺诈群组后,可以对目标欺诈群组进行显示,显示的方式不仅包括以上列表形式展示,还可以以联通结果子图的方式进行显示。
本发明实施例中,通过获取待检测的订单;基于所述订单中具有相同的属性的订单以及每个属性的权重,获取关联边数据,所述关联边数据包括:具有关联边的两个订单以及所述关联边的权值;基于所述关联边数据以及图连通模型获取初始欺诈群组;基于所述关联边数据以及所述初始欺诈群组,获取目标欺诈群组,利用关联的属性的异常度,获取到高概率的初始欺诈群组,提升了欺诈群组识别的精准度。
下面结合具体的实施例,对本发明实施例中提出的获取属性的权重的方法进行详细的说明。
本发明实施例中,可以基于具有标签的样本数据获取每个属性的权重。样本数据可以为历史订单。针对在线申请的订单,机构会基于业务规则进行人工审核并例行标记欺诈样例。本发明中的样本订单可以包括以下信息:订单号、订单日期、标签(是否欺诈)、多维度订单关联属性等。
在获取到样本订单后,可以对样本订单进行预处理,如进行分析及清洗,比如去除无效值、去除重复样例等。预处理会使得欺诈群组的关联和挖掘结果更可信。
在对样本订单预处理后,可以基于具有相同的属性的样本订单中黑样本的比例获取所述属性的权重。
本发明实施例中,可以采用如S320的步骤,获取样本订单中具有相同的属性的样本订单中黑样本的比例。例如,样本订单中,具有相同的家庭座机的订单的总数量为20,其中10个为已标记为欺诈订单,则10/20即为该属性家庭座机的权重,即异常度或欺诈概率。
本发明实施例中,基于业务已标记样例统计多个维度关联的异常度,进而生成样本之间的关联边并量化边的异常度,提升获取的欺诈群组的准确度。
应清楚地理解,本发明描述了如何形成和使用特定示例,但本发明的原理不限于这些示例的任何细节。相反,基于本发明公开的内容的教导,这些原理能够应用于许多其它实施例。
下述为本发明装置实施例,可以用于执行本发明方法实施例。在下文对装置的描述中,与前述方法相同的部分,将不再赘述。
图5是根据一示例性实施例示出的一种数据处理装置的结构示意图,其中,所述装置500包括:
第一获取模块510,配置为获取待检测的订单;
第二获取模块520,配置为基于所述订单中具有相同的属性的订单以及每个属性的权重,获取关联边数据,所述关联边数据包括:具有关联边的两个订单以及所述关联边的权值;
第三获取模块530,配置为基于所述关联边数据以及图连通模型获取初始欺诈群组;
第四获取模块540,配置为基于所述关联边数据以及所述初始欺诈群组,获取目标欺诈群组。
本发明实施例中,通过获取待检测的订单;基于所述订单中具有相同的属性的订单以及每个属性的权重,获取关联边数据,所述关联边数据包括:具有关联边的两个订单以及所述关联边的权值;基于所述关联边数据以及图连通模型获取初始欺诈群组;基于所述关联边数据以及所述初始欺诈群组,获取目标欺诈群组,利用关联的属性的异常度,获取到高概率的初始欺诈群组,提升了欺诈群组识别的精准度。
图6是根据一示例性实施例示出的一种电子设备的结构示意图。需要说明的是,图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分508加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的终端中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一获取模块、第二获取模块、第三获取模块以及第四获取模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
以上具体示出和描述了本发明的示例性实施例。应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取待检测的订单;
基于所述订单中具有相同的属性的订单以及每个属性的权重,获取关联边数据,所述关联边数据包括:具有关联边的两个订单以及所述关联边的权值;
基于所述关联边数据以及图连通模型获取初始欺诈群组;
基于所述关联边数据以及所述初始欺诈群组,获取目标欺诈群组。
2.如权利要求1所述的方法,其特征在于,所述方法包括:获取每个属性的权重;
获取每个属性的权重,包括:
基于具有相同的属性的样本订单中黑样本的比例获取所述属性的权重。
3.如权利要求1或2所述的方法,其特征在于,基于所述订单中具有相同的属性的订单以及每个属性的权重,获取关联边数据,包括:
基于所述订单中的第N个订单的各个属性遍历所述订单,提取出与所述第N个订单具有相同属性的其他订单;
基于所述相同属性生成所述第N个订单与其他订单的关联边;
基于所述第N个订单与所述其他订单具有相同属性的每个属性的权重,获取所述第N个订单与所述其他订单的所述关联边的权值;
基于所述关联边以及所述关联边的权值,获取所述第N个订单的关联边数据;
其中,N为大于1的整数。
4.如权利要求1所述的方法,其特征在于,基于所述关联边数据以及连通图模型获取初始欺诈群组,包括:
比较所述关联边数据中的每条关联边的权值与阈值;
基于所述关联边的权值超过所述阈值的关联边数据以及所述图联通模型获取初始欺诈群组。
5.如权利要求4所述的方法,其特征在于,基于所述关联边的权值超过所述阈值的关联边数据以及所述图联通模型获取初始欺诈群组,包括:
将所述关联边的权值超过所述阈值的关联边数据输入至所述图联通模型,基于输出的每个联通分量获取一个初始欺诈群组。
6.如权利要求1或5所述的方法,其特征在于,基于所述关联边数据以及所述初始欺诈群组,获取目标欺诈群组,包括:
基于所述初始欺诈群组内订单数目以及每条关联边的权值确定所述初始欺诈群组中的每条关联边的权值的均值;
基于所述初始欺诈群组内已知欺诈订单的占比、所述初始欺诈群组内订单的数目以及所述每条关联边的权值的均值,获取所述初始欺诈群组的得分;
基于所述初始欺诈群组的得分,获取目标欺诈群组。
7.如权利要求6所述的方法,其特征在于,所述方法还包括:基于输出的每个联通分量的标识获取所述初始欺诈群组的标识;
所述获取目标欺诈群组,包括:
获取所述目标欺诈群组内的订单、所述目标欺诈群组对应的初始欺诈群组的标识以及所述初始欺诈群组的得分。
8.一种数据处理装置,其特征在于,所述装置包括:
第一获取模块,配置为获取待检测的订单;
第二获取模块,配置为基于所述订单中具有相同的属性的订单以及每个属性的权重,获取关联边数据,所述关联边数据包括:具有关联边的两个订单以及所述关联边的权值;
第三获取模块,配置为基于所述关联边数据以及图连通模型获取初始欺诈群组;
第四获取模块,配置为基于所述关联边数据以及所述初始欺诈群组,获取目标欺诈群组。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910683458.4A CN110415107B (zh) | 2019-07-26 | 2019-07-26 | 数据处理方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910683458.4A CN110415107B (zh) | 2019-07-26 | 2019-07-26 | 数据处理方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110415107A true CN110415107A (zh) | 2019-11-05 |
CN110415107B CN110415107B (zh) | 2021-10-01 |
Family
ID=68363347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910683458.4A Active CN110415107B (zh) | 2019-07-26 | 2019-07-26 | 数据处理方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110415107B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110856115A (zh) * | 2019-11-28 | 2020-02-28 | 北京明略软件系统有限公司 | 一种诈骗组织犯案区域的识别方法、识别装置及电子设备 |
CN110991505A (zh) * | 2019-11-22 | 2020-04-10 | 拉扎斯网络科技(上海)有限公司 | 异常对象识别方法和装置以及异常行为识别方法和装置 |
CN111131626A (zh) * | 2019-12-20 | 2020-05-08 | 珠海高凌信息科技股份有限公司 | 基于流数据图谱的群组有害呼叫检测方法、装置及可读介质 |
CN111815034A (zh) * | 2020-06-20 | 2020-10-23 | 中国人民解放军战略支援部队信息工程大学 | 基于模体演化的电信诈骗流程预测方法及系统 |
CN112990919A (zh) * | 2019-12-17 | 2021-06-18 | 中国银联股份有限公司 | 一种信息处理的方法及装置 |
CN113870009A (zh) * | 2021-09-30 | 2021-12-31 | 浙江创邻科技有限公司 | 基于图数据库的反洗钱管控方法、装置、系统及存储介质 |
CN117349358A (zh) * | 2023-12-04 | 2024-01-05 | 中国电子投资控股有限公司 | 基于分布式图处理框架的数据匹配与合并的方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8856923B1 (en) * | 2012-06-29 | 2014-10-07 | Emc Corporation | Similarity-based fraud detection in adaptive authentication systems |
CN105894360A (zh) * | 2016-03-31 | 2016-08-24 | 百度在线网络技术(北京)有限公司 | 作弊订单识别方法、装置及系统 |
WO2016154419A1 (en) * | 2015-03-25 | 2016-09-29 | Equifax, Inc. | Detecting synthetic online entities |
CN107481019A (zh) * | 2017-07-28 | 2017-12-15 | 上海携程商务有限公司 | 订单欺诈识别方法、系统、存储介质和电子设备 |
CN108898505A (zh) * | 2018-05-28 | 2018-11-27 | 武汉斗鱼网络科技有限公司 | 作弊团伙的识别方法、相关存储介质和电子设备 |
CN109978538A (zh) * | 2017-12-28 | 2019-07-05 | 阿里巴巴集团控股有限公司 | 确定欺诈用户、训练模型、识别欺诈风险的方法及装置 |
-
2019
- 2019-07-26 CN CN201910683458.4A patent/CN110415107B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8856923B1 (en) * | 2012-06-29 | 2014-10-07 | Emc Corporation | Similarity-based fraud detection in adaptive authentication systems |
WO2016154419A1 (en) * | 2015-03-25 | 2016-09-29 | Equifax, Inc. | Detecting synthetic online entities |
CN105894360A (zh) * | 2016-03-31 | 2016-08-24 | 百度在线网络技术(北京)有限公司 | 作弊订单识别方法、装置及系统 |
CN107481019A (zh) * | 2017-07-28 | 2017-12-15 | 上海携程商务有限公司 | 订单欺诈识别方法、系统、存储介质和电子设备 |
CN109978538A (zh) * | 2017-12-28 | 2019-07-05 | 阿里巴巴集团控股有限公司 | 确定欺诈用户、训练模型、识别欺诈风险的方法及装置 |
CN108898505A (zh) * | 2018-05-28 | 2018-11-27 | 武汉斗鱼网络科技有限公司 | 作弊团伙的识别方法、相关存储介质和电子设备 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991505A (zh) * | 2019-11-22 | 2020-04-10 | 拉扎斯网络科技(上海)有限公司 | 异常对象识别方法和装置以及异常行为识别方法和装置 |
CN110991505B (zh) * | 2019-11-22 | 2023-12-26 | 拉扎斯网络科技(上海)有限公司 | 异常对象识别方法和装置以及异常行为识别方法和装置 |
CN110856115A (zh) * | 2019-11-28 | 2020-02-28 | 北京明略软件系统有限公司 | 一种诈骗组织犯案区域的识别方法、识别装置及电子设备 |
CN110856115B (zh) * | 2019-11-28 | 2021-02-12 | 北京明略软件系统有限公司 | 一种诈骗组织犯案区域的识别方法、识别装置及电子设备 |
CN112990919A (zh) * | 2019-12-17 | 2021-06-18 | 中国银联股份有限公司 | 一种信息处理的方法及装置 |
CN111131626A (zh) * | 2019-12-20 | 2020-05-08 | 珠海高凌信息科技股份有限公司 | 基于流数据图谱的群组有害呼叫检测方法、装置及可读介质 |
CN111815034A (zh) * | 2020-06-20 | 2020-10-23 | 中国人民解放军战略支援部队信息工程大学 | 基于模体演化的电信诈骗流程预测方法及系统 |
CN111815034B (zh) * | 2020-06-20 | 2023-04-07 | 中国人民解放军战略支援部队信息工程大学 | 基于模体演化的电信诈骗流程预测方法及系统 |
CN113870009A (zh) * | 2021-09-30 | 2021-12-31 | 浙江创邻科技有限公司 | 基于图数据库的反洗钱管控方法、装置、系统及存储介质 |
CN117349358A (zh) * | 2023-12-04 | 2024-01-05 | 中国电子投资控股有限公司 | 基于分布式图处理框架的数据匹配与合并的方法和系统 |
CN117349358B (zh) * | 2023-12-04 | 2024-02-20 | 中国电子投资控股有限公司 | 基于分布式图处理框架的数据匹配与合并的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110415107B (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110415107A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN110009174B (zh) | 风险识别模型训练方法、装置及服务器 | |
US11659050B2 (en) | Discovering signature of electronic social networks | |
US11763100B2 (en) | System and method for controllable machine text generation architecture | |
Ge et al. | Multi-source deep learning for information trustworthiness estimation | |
CN111932130B (zh) | 业务类型识别方法及装置 | |
Wang et al. | Representing fine-grained co-occurrences for behavior-based fraud detection in online payment services | |
Rathore et al. | Identifying groups of fake reviewers using a semisupervised approach | |
CN109933514A (zh) | 一种数据测试方法和装置 | |
CN111861595A (zh) | 一种基于知识图谱的循环开票风险识别方法 | |
Kolomeets et al. | Bot detection by friends graph in social networks. | |
Khodabakhshi et al. | Fraud detection in banking using knn (k-nearest neighbor) algorithm | |
CN110348516A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN110929525A (zh) | 一种网贷风险行为分析检测方法、装置、设备和存储介质 | |
CN111245815B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN111277433B (zh) | 基于属性网络表征学习的网络服务异常检测方法及装置 | |
CN112132589A (zh) | 一种基于多次融合构建欺诈识别模型的方法 | |
Bouzidi et al. | LSTM-based automated learning with smart data to improve marketing fraud detection and financial forecasting | |
Cao et al. | Fake reviewer group detection in online review systems | |
CN116318974A (zh) | 站点风险识别方法、装置、计算机可读介质及电子设备 | |
CN113988878B (zh) | 一种基于图数据库技术的反欺诈方法及系统 | |
CN110992194A (zh) | 一种基于含属性的多进程采样图表示学习模型的用户参考指数算法 | |
Mulahuwaish et al. | Topic modeling based on two-step flow theory: Application to Tweets about bitcoin | |
Do et al. | A network-based approach to detect spammer groups | |
Meng et al. | Decoupling Graph Neural Network with Contrastive Learning for Fraud Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |