CN113344469A - 欺诈识别方法、装置、计算机设备及存储介质 - Google Patents

欺诈识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113344469A
CN113344469A CN202110878098.0A CN202110878098A CN113344469A CN 113344469 A CN113344469 A CN 113344469A CN 202110878098 A CN202110878098 A CN 202110878098A CN 113344469 A CN113344469 A CN 113344469A
Authority
CN
China
Prior art keywords
sample
user
detection models
detection
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110878098.0A
Other languages
English (en)
Other versions
CN113344469B (zh
Inventor
吴枭
吕文勇
周智杰
金秋
赵小诣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu New Hope Finance Information Co Ltd
Original Assignee
Chengdu New Hope Finance Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu New Hope Finance Information Co Ltd filed Critical Chengdu New Hope Finance Information Co Ltd
Priority to CN202110878098.0A priority Critical patent/CN113344469B/zh
Publication of CN113344469A publication Critical patent/CN113344469A/zh
Application granted granted Critical
Publication of CN113344469B publication Critical patent/CN113344469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及人工智能技术领域,提供一种欺诈识别方法、装置、计算机设备及存储介质,所述方法包括:获取样本集,其中,样本集包括样本用户及样本用户的行为特征;分别利用多个检测模型对行为特征进行分析,得到多个检测模型输出的样本用户是否为欺诈用户的多个评分;利用多个检测模型之间的相关因子,对多个评分进行综合分析,以识别样本用户是否为欺诈用户。与现有技术相比,本发明通过对多个检测模型输出的评分进行综合决策,提高了不同场景下欺诈识别的准确性,推动了检测模型的推广和应用。

Description

欺诈识别方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能技术领域,具体而言,涉及一种欺诈识别方法、装置、计算机设备及存储介质。
背景技术
随着移动互联网的普及,金融、医疗、电商等各行业的业务模式重心逐渐由线下转移至线上,但线上开展业务过程中,由于缺乏对客户信息真实性的强校验管控,因此无疑给一些黑产团体、恶意欺诈客户提供了更大的操作空间。
基于目前快速发展的人工智能技术,利用深度学习、机器学习等模型对客户的欺诈风险进行有效判定,并已经在各个领域取得了良好的风险防范和欺诈识别效果。但是由于每种检测模型基于的识别理论和识别原理各有不同,在适应不同场景时,不同检测模型输出的识别效果也相差甚远,极大地影响了检测模型的推广和应用。
发明内容
本发明的目的在于提供了一种欺诈识别方法、装置、计算机设备及存储介质,其能够利用多个检测模型之间的相关因子,对多个检测模型输出的评分进行综合决策,提高了不同场景下欺诈识别的准确性,推动了检测模型的推广和应用。
为了实现上述目的,本发明采用的技术方案如下:
第一方面,本发明提供一种欺诈识别方法,所述方法包括:获取样本集,其中,所述样本集包括样本用户及所述样本用户的行为特征;分别利用多个检测模型对所述行为特征进行分析,得到所述多个检测模型输出的所述样本用户是否为欺诈用户的多个评分;利用所述多个检测模型之间的相关因子,对所述多个评分进行综合分析,以识别所述样本用户是否为欺诈用户。
第二方面,本发明提供一种欺诈识别装置,所述装置包括:获取模块,用于获取样本集,其中,所述样本集包括样本用户及所述样本用户的行为特征;分析模块,用于分别利用多个检测模型对所述行为特征进行分析,得到所述多个检测模型输出的所述样本用户是否为欺诈用户的多个评分;分析模块,还用于利用所述多个检测模型之间的相关因子,对所述多个评分进行综合分析,以识别所述样本用户是否为欺诈用户。
第三方面,本发明提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述的欺诈识别方法。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述的欺诈识别方法。
与现有技术相比,本发明首先利用多个检测模块对样本集中的行为特征进行分析,得到多个检测模型输出的样本用户是否为欺诈用户的多个评分,然后利用多个检测模型之间的相关因子,对多个评分进行综合分析,以识别样本用户是否为欺诈用户,本发明通过对多个检测模型输出的评分进行综合决策,提高了不同场景下欺诈识别的准确性,推动了检测模型的推广和应用。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种欺诈识别方法的流程示意图。
图2为本发明实施例提供的获取样本集的欺诈识别方法的流程示意图。
图3为本发明实施例提供的判断原始特征的欺诈识别方法的流程示意图。
图4为本发明实施例提供的单一棵树的切割过程的示例图。
图5为本发明实施例提供的多棵树的集成结果的示例图。
图6为本发明实施例提供的一种识别样本用户的欺诈识别方法的流程示意图。
图7为本发明实施例提供的置信度分布的示例图。
图8为本发明实施例提供的另一种识别样本用户的欺诈识别方法的流程示意图。
图9为本发明实施例提供的欺诈识别装置的方框示意图。
图10为本发明实施例提供的计算机设备的方框示意图。
图标:10-计算机设备;11-处理器;12-存储器;13-总线;14-通信接口;100-欺诈识别装置;110-获取模块;120-分析模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
随着欺诈手段的升级,利用高科技手段进行网络欺诈的行为呈急速上升趋势,如何有效、准确地识别欺诈行为成为当前亟待解决的问题。
以客户办理业务的场景为例,为了有效识别客户办理业务过程中的欺诈风险,线上业务越来越注重客户在各个业务流程中的信息采集,包括设备信息、上传资料信息等,同时基于人工智能技术,利用不同的检测模型对客户的欺诈风险进行有效判定,并已经在各个领域取得了良好的风险防范和欺诈识别效果。
然而目前得到广泛应用的主要是监督学习方法,即通过对特定标签或特定风险场景进行检测模型训练和学习,从而对该类风险情况进行判定,此类方法对通过对已经发现的风险场景具有良好的识别效果,但无法防范未知风险。
为了有效防范未知风险,通常采用无监督异常检测的方法,无监督异常检测方法作为机器学习领域的一个分支,不需要特定标签,仅从数据层面对可能存在的异常进行检测,因此能够更有效地发现未知风险,对日新月异的诈骗手段进行防范,从而解决各行业反欺诈存在的滞后性问题,在工业界也具有非常广泛的应用场景。
例如,利用无监督异常检测方法,对用户输入的文本数据进行分析,能够发现不同于一般性文本填写和输入行为的异常数据,因此在识别人机模拟共计、虚假信息以及其他未知欺诈风险的场景下能够取得良好的效果。
目前,利用无监督异常检测进行反欺诈识别主要的技术难点在于以下方面:
1、无监督异常检测除了在数据维度受到干扰,同时也因为检测理论的多样化,采用不同的检测方法也可能会产生不同的效果。而由于缺乏标签进行模型验证,因此在实际应用上,无法对模型检测效果进行判断,同时也会影响模型的推广和应用。
2、无监督异常检测本质上是筛选“不太一样”的数据,并将其判断为异常点,然而目前大数据时代,能够获取到的信息维度越来越多,随之而来的信息噪音也越来越多,如何有效区分噪音和异常点,增强模型鲁棒性和有效性是需要进一步解决的问题。
有鉴于此,本发明实施例提供一种欺诈识别方法、装置、计算机设备及存储介质,用于解决上述问题,下面将对其进行详细描述。
请参考图1,图1为本发明实施例提供的一种欺诈识别方法的流程示意图,该方法包括以下步骤:
步骤S100,获取样本集,其中,样本集包括样本用户及样本用户的行为特征。
在本实施例中,样本用户可以是在预设时间段内注册的新用户,或者登录老用户,例如,在最近半年内登录A网站或者登录应用APP或者登录小程序和/或在A网站注册或者在应用APP注册或者在小程序注册的用户。
在本实施例中,行为特征用于表征样本用户在页面上的操作行为的特征,操作行为包括输入行为、滑动行为、或者停留在页面的行为等,行为特征可以是输入行为特征,例如,输入次数,输入时长最大值,输入时长最小值,也可以是页面交互类行为特征,例如触碰/滑动次数,滑动时长最大值、滑动时长最小值等,还可以是页面停留行为特征,例如停留次数,停留时长最大值、停留时长最小值等,还可以是输入行为特征、页面交互类行为特征及页面停留行为特征中的一种或多种。
步骤S110,分别利用多个检测模型对行为特征进行分析,得到多个检测模型输出的样本用户是否为欺诈用户的多个评分。
在本实施例中,不同的检测模型对相同的行为特征的进行分析,得到的分析结果也可能不同,将样本用户的行为特征分别输入每一个检测模型,得到每一个检测模型输出的评分,该评分用于判定样本用户是否为欺诈用户,例如,行为特征包括特征A~Z,每一检测模型都将A~Z作为输入,通过各自检测模型的分析,得到每一检测模型输出的评分。
在本实施例中,检测模型可以是预先创建、并经过训练的无监督学习模型。
步骤S120,利用多个检测模型之间的相关因子,对多个评分进行综合分析,以识别样本用户是否为欺诈用户。
在本实施例中,任意两个检测模型的相关因子用于表征两个检测模型的相关程度,相关因子的取值范围可以在[-1,1]之间,相关因子大于0时,则表明两个检测模型是正相关,相关因子小于0时,则表明两个检测模型是负相关,相关因子等于0,则表明两个检测模型不相关。
本发明实施例提供的上述方法,利用多个检测模型之间的相关因子,对多个检测模型输出的评分进行综合决策,提高了不同场景下欺诈识别的准确性,推动了检测模型的推广和应用。
在图1的基础上,本发明实施例还提供了一种获取样本集的具体实施方式,请参照图2,图2为本发明实施例提供的另一种欺诈识别方法的流程示意图,步骤S100包括以下子步骤:
子步骤S1001,获取原始特征,其中,原始特征是针对样本用户的输入行为进行特征提取后得到。
在本实施例中,以输入行为为用户输入文本数据为例,可以通过在文本填写页面预设埋点获取到用户文本探针数据,用户文本探针数据指记录用户在文本填写页面的点击坐标和点击时间戳等数据,能够准确描述用户在文本填写页面的详细行为,例如,用户文本探针数据可以包括:1)输入姓名、联系电话、联系地址等输入行为;2)页面触碰、页面滑动等页面交互行为;3)页面停留等浏览行为;作为一种具体实施方式,用户文本探针数据的格式如下表1所示。
表1
Figure P_210728151145870_870091001
作为一种具体表达方式,基于页面埋点获取到的用户文本探针数据可以表示为:
Figure F_210728151132900_900846001
,其中,
Figure F_210728151133075_075692002
表示用户
Figure F_210728151133236_236357003
的用户文本探针数据,
Figure F_210728151133419_419455004
可以分别表示用户
Figure F_210728151133577_577800005
采集到的姓名、联系电话、地址、页面触碰、页面滑动等m个数据。
在用户文本探针数据的基础上,可以提取其原始特征,例如,原始特征可以包括:1)输入行为类衍生特征,如输入次数,输入时长最大值、最小值、极差、方差、均值等;2)页面交互类衍生特征,如触碰/滑动次数,滑动时长最大值、最小值、极差、方差、均值,滑动距离最大值、最小值、极差、方差、均值等;3)页面停留类衍生特征,如停留次数,停留时长最大值、最小值、极差、方差、均值等。
子步骤S1002,对原始特征进行稳定性分析,判断原始特征是否满足预设条件。
在本实施例中,稳定性分析可以从两个因素进行分析:变异系数和稳定度,稳定度用于表征特征群体稳定性,当然,在具体的应用场景中,也可以只使用变异系数进行稳定性分析。对应地,满足预设条件包括变异系数满足第一预设条件和/或稳定度满足第二预设条件。
子步骤S1003,将满足预设条件的原始特征确定为行为特征。
在本实施例中,原始特征可以包括一个特征,也可以包括多个特征,当原始特征包括多个特征时,对原始特征中的每一个特征均进行稳定性分析,判断是否满足预设条件,将原始特征中满足预设条件的特征确定为行为特征。
本发明实施例提供的上述方法,通过对原始特征进行稳定性分析,从原始特征中确定出满足预设条件的行为特征,一方面可以筛除一部分信息噪音,减少了信息处理量,提高了欺诈识别的效率,另一方面,利用稳定性较强的行为特征进行欺诈识别,使得识别结果更准确。
在图2的基础上,本发明实施例还提供了一种判断原始特征是否满足预设条件的具体实现方式,请参照图3,图3为本发明实施例提供的另一种欺诈识别方法的流程示意图,子步骤S1002包括以下子步骤:
子步骤S10021,根据所有样本用户的原始特征,计算原始特征的变异系数。
在本实施例中,样本用户为预设时段内获取的多个用户,预设时段包括多个子时段,例如,预设时段为最近6个月内获取的用户,一个月为一个子时段,则预设时段包括6个子时段,若这6个月分别为:1月、3月、4月、5月、7月,则1月和3月为相邻子时段,3月和4月为相邻子时段,以此类推。
在本实施例中,每一样本用户均有一个原始特征,一个原始特征可以包括多个特征,例如,一个原始特征包括数据的输入次数、修改次数、输入总时长、输入时长均值、输入时长方差、最大长度、最终长度等特征。作为一种具体表达方式,原始特征可以表示为
Figure F_210728151133751_751941006
,其中,
Figure F_210728151133940_940856007
表示用户
Figure F_210728151134097_097678008
的原始特征,
Figure F_210728151134302_302243009
表示用户
Figure F_210728151134444_444412010
的原始特征中包括的输入次数、修改次数、输入总时长、输入时长均值、输入时长方差、最大长度、最终长度等m个特征。
在本实施例中,当原始特征包括多个特征时,对原始特征中的每一特征均计算其变异系数,对于原始特征中的任意特征,作为一种具体实施方式,可以采用如下公式计算对应的原始特征的变异系数:
Figure F_210728151134628_628908011
,其中,
Figure F_210728151134835_835531012
表示原始特征中特征
Figure F_210728151135025_025440013
的变异系数,
Figure F_210728151135215_215520014
表示所有样本用户的原始特征中特征
Figure F_210728151135390_390574015
的标准差,
Figure F_210728151135551_551237016
表示所有样本用户的原始特征中特征
Figure F_210728151135723_723103017
的均值。
子步骤S10022,根据每一对相邻子时段的样本用户的原始特征,计算每一对相邻子时段的稳定度。
在本实施例中,对原始特征中的每一特征均计算其对应的稳定度,作为一种具体实施方式,对于原始特征中的特征
Figure F_210728151135884_884816018
,其稳定度可以采用如下公式计算:
Figure F_210728151136059_059635019
,其中,
Figure F_210728151136249_249652020
表示特征
Figure F_210728151136457_457525021
的稳定度,
Figure F_210728151136630_630832022
表示第n-1个子时段的样本用户的特征
Figure F_210728151136818_818368023
Figure F_210728151136991_991746024
表示第n个子时段的样本用户的特征
Figure F_210728151137153_153805025
Figure F_210728151137345_345178026
表示相邻的第n-1个子时段和第n个子时段的稳定度。
子步骤S10023,若变异系数小于或者等于第一预设值,且所有相邻子时段的稳定度中的最大值小于或者等于第二预设值,则判定原始特征满足预设条件。
在本实施例中,当原始特征为多个时,对于原始特征中每一个特征均进行子步骤S10021- S10023的处理,判断原始特征中的每一个特征是否满足预设条件,将原始特征中满足预设条件的特征筛选出来作为行为特征,也就是说,行为特征可能为原始特征的子集,也可能就是原始特征,具体根据原始特征中每一特征是否满足预设条件的判断结果而定,若原始特征中的每一特征均满足预设条件,则行为特征就是原始特征,否则,行为特征就只包括原始特征中满足预设条件的特征。
在本实施例中,作为一种具体实施方式,对于原始特征中特征
Figure F_210728151137519_519534027
,其满足的预设条件可以表示为:
Figure F_210728151137692_692865028
,其中,第一预设值为1,第二预设值为0.25。
也就是说,如果行为特征表示为:
Figure F_210728151137825_825649029
,其中,
Figure F_210728151137997_997525030
,有:
Figure F_210728151138140_140059031
本发明实施例提供的上述方法,通过利用变异系数和稳定度来筛选稳定的行为特征,避免因特征本身的波动性造成正常数据的在检测模型中的误判断,提高了欺诈识别的正确率。
在本实施例中,多个检测模型可以是采用不同的建模方法生成的无监督学习模型,例如,检测模型可以是采用孤立森林的方式生成的,也可以是利用线性复杂度的异常检测hbos(Histogram-based Outlier Score,hbos)算法生成的,还可以是利用局部异常因子lof算法(Local Outlier Factor,lof)生成的等等,下面以孤立森林的方法为例,说明建立一个检测模型的过程,该过程包括以下步骤:
S1,从全量样本集中随机选取
Figure F_210728151138281_281236032
个样本构成子集放入一棵树中;
在本实施例中,全量样本集是指用于构建检测模型的所有样本的集合,例如,本发明实施例上述步骤S100中的样本集,k可以根据具体的应用场景进行设置,随机选取k个样本构成子集放入一棵树中是指以树的形式组织样本子集中的样本。
S2,从
Figure F_210728151138425_425826033
中随机选定某一特征
Figure F_210728151138624_624042034
为根节点特征,并在特征范围内随机产生切割点
Figure F_210728151138790_790018035
进行切分,其中,
Figure F_210728151138948_948729036
在本实施例中,
Figure F_210728151139104_104960037
为行为特征组成的集合。
S3,基于切割点产生的超平面,将当前数据空间划分为两个子空间:特征小于切割点的放在节点左分支,大于等于切割点的放在节点右分值;
S4,递归S2和S3步骤并不断构造新的子节点,直至子节点只包含单个数据或树已达到目标高度;
在本实施例中,目标高度可以根据实际场景进行设置。
S5,递归S1~S4步骤,并构造多棵树,直至树数量达到孤立森林目标数目;
在本实施例中,孤立森林目标数目可以根据实际场景进行设置。
通过上述步骤S1~S5,建立由多棵孤立树形成的孤立森林,因单一树在筛选样本和特征过程中具有极强的随机性,因此孤立森立采用集成方法,利用多棵树的共同决策机制来实现检测模型的增强。
请参照图4,图4为本发明实施例提供的单一棵树的切割过程的示例图,图4(a)为本发明实施例提供的单一棵树的切割过程的正常数据点的示例,图4(b)为本发明实施例提供的单一棵树的切割过程的异常数据点的示例,Xi为正常数据点,X0为异常数据点,由图4可以看出,异常数据点仅需少量的切割次数变可被孤立出来,在树中则表现为树路径长度较短。
请参照图5,图5为本发明实施例提供的多棵树的集成结果的示例图,如图5所示,随着森林中树数目增加,平均路径长度将趋于稳定。
通过上述步骤S1~S5即可建立一个孤立森林的检测模型,对于每一个样本用户,采用该孤立森林的检测模型均可以得到模型输出的结果,即每一样本用户的评分。
在本实施例中,对于每一个样本用户,利用每一检测模型,均可以得到其输出的该样本用户是否为欺诈用户的评分,在得到多个检测模型的多个评分之后,为了对多个检测模型的评分进行综合分析,在图1的基础上,本发明实施例还提供了一种对多个评分进行综合分析,以识别样本用户是否为欺诈用户的具体实施方式,请参照图6,图6为本发明实施例提供的另一种欺诈识别方法的流程示意图,步骤S120包括以下子步骤:
子步骤S1201,按照每一检测模型的置信度分布,将每一检测模型的评分映射在同一个预设区间,得到每一检测模型的评分在预设区间内的参考分。
在本实施例中,对于每一样本,利用每一检测模型,都可以计算该样本的评分。以前述的孤立森林模型为例,可以采用如下公式计算样本x的评分:
Figure F_210728151139264_264615038
其中,
Figure F_210728151139438_438444039
表示样本x的评分,
Figure F_210728151139611_611813040
为样本x在孤立森林中的路径长度平均值,
Figure F_210728151139768_768197041
Figure F_210728151139940_940946042
个样本在孤立森林中的平均路径长度。可以看出:
1)当S→1时,即S趋近于1时,样本x将被判定为异常,即该样本x对应的用户(即样本用户x)被判定为欺诈用户;
2)当S→0时,即S趋近于0时,样本x将被判定为正常,即该样本x对应的用户(即样本用户x)被判定为正常用户。
在本实施例中,为了对样本异常程度进行直观量化,也为了对所有检测模型的评分进行相同标准的归一化,在得到检测模型的评分之后,还需要基于样本置信度将每一检测模型的评分均映射在相同的预设区间。例如,在0.95、0.98、0.99条件下设定评价阈值,请参照图7,图7为本发明实施例提供的置信度分布的示例图,如图7所示,当用户异常值分数处在不同置信水平时,将获得0~3分的评价分数:
Figure F_210728151140128_128876043
,其中,
Figure F_210728151140307_307189044
表示样本用户x的参考分,
Figure F_210728151140465_465336045
表示样本用户x的评分。
子步骤S1202,根据多个检测模型中两两检测模型之间的相关因子及每一检测模型的参考分,计算综合评分。
在本实施例中,多个检测模型中两两检测模型之间的相关因子可以用矩阵表示,例如,检测模型为3个,则3个检测模型的相关因子的矩阵可以表示为:
Figure F_210728151140638_638718046
,例如,a12=1/3,表示第1个检测模型和第2个检测模型的相关因子为1/3,矩阵中的其他元素代表的含义与之类似,此处不再赘述。
在本实施例中,作为一种具体实施方式,根据多个检测模型中两两检测模型之间的相关因子及每一检测模型的参考分,利用公式:
Figure F_210728151140848_848604047
计算综合评分,其中,
Figure F_210728151141025_025848048
表示样本用户x的综合评分,i表示第i个检测模型,j表示第j个检测模型, m为检测模型的个数,
Figure F_210728151141217_217773049
表示第i个检测模型和第j个检测模型之间的相关因子,
Figure F_210728151141415_415034050
Figure F_210728151141591_591808051
表示样本用户x采用第j个检测模型的参考分。
子步骤S1203,根据检测模型的个数及综合评分,判断样本用户是否为欺诈用户。
在本实施例中,作为一种具体实施方式,判断样本用户x是否为欺诈用户的方式可以是:
1)当m=1时:
Figure F_210728151141765_765396052
,则判定样本用户为欺诈客户;
2)当m=2时:
Figure F_210728151141955_955111053
,则判定样本用户x为欺诈客户;
3)当m≥3时:
Figure F_210728151142111_111273054
,则判定样本用户x为欺诈客户。
本发明实施例提供的上述方法,通过检测模型的个数及综合评分,判断样本用户是否为欺诈用户,可以将不同个数的检测模型的综合评判统一起来,提高了本方法的通用性。
需要说明的是,当存在多个模型时,为了提升识别欺诈用户的精确性,本发明实施例采用基于相关性校验方法来对多个检测模型进行综合评价,作为另一种具体实施方式,还可以以多个检测模型作为基模型,利用bagging装袋法来对多个检测模型进行综合训练,实现多个检测模型的“平均”,从而减小单个模型泛化带来的识别误差。
在本实施例中,当检测模型为多个时,本发明实施例还提供了另一种识别样本用户是否为欺诈用户的方式,请参照图8,图8为本发明实施例提供的另一种欺诈识别方法的流程示意图,该方法包括以下步骤:
步骤S200,利用多个检测模型输出的多个评分,识别样本用户是否为欺诈用户。
在本实施例中,当检测模型为多个时,还可以采用如下方式识别样本用户是否为欺诈用户:
首先,按照每一检测模型的置信度分布,将每一检测模型的评分映射在同一个预设区间,得到每一检测模型的评分在预设区间内的参考分。
在本实施例中,根据评分得到参考分的步骤与前述步骤S1021相同。
其次,若多个检测模型的参考分的最大值大于或者等于预设阈值,则判定样本用户为欺诈用户。
在本实施例中,作为一种具体实施方式,判断样本用户x是否为欺诈用户的方式可以是:
Figure F_210728151142267_267822055
,则判定样本用户x为欺诈客户。
本发明实施例提供的上述方法,在检测模型为多个时,利用多个检测模型输出的多个评分识别样本用户是否为欺诈用户,扩充了判断样本用户是否为欺诈用户的判断方式。
需要说明的是,为了使识别率更高,避免误识别,可以将步骤S200和子步骤S1203组合使用,此时,判断样本用户是否为欺诈用户的方式可以是:
1)当m=1时:
Figure F_210728151142446_446307056
,则判定样本用户x为欺诈客户;
2)当m=2时:
Figure F_210728151142588_588459057
Figure F_210728151142747_747069058
,则判定样本用户x为欺诈客户;
3)当m≥3时:
Figure F_210728151142918_918946059
Figure F_210728151143061_061492060
,则判定样本用户x为欺诈客户。
例如,检测模型为3个,3个检测模型的相关因子的矩阵可以表示为:
Figure F_210728151143220_220195061
,三个检测模型的参考分值分别为3,1,0,则样本用户x的综合评分为:
Figure F_210728151143397_397032062
结合上述判断标准,
1)当m=1时:
Figure F_210728151143538_538553063
,则判定样本用户x为欺诈客户;
2)当m=2时:
Figure F_210728151143648_648429064
Figure F_210728151143795_795897065
,则判定样本用户x为欺诈客户;
3)当m≥3时:
Figure F_210728151143969_969713066
Figure F_210728151144143_143496067
,则判定样本用户x为欺诈客户。
对于上述例子,虽然F(x)=2/3,但是m=3,
Figure F_210728151144300_300325068
,因此判定样本用户x为欺诈客户,由此避免了误识别,提高了识别率。
需要说明的是,本发明实施例中的方法应用于用户通过网页进行文本输入的场景时,可以通过对用户在文本填写和输入过程中的全链路行为进行异常检测,同时采用模型集成思想,提高异常检测和风险反欺诈的准确率。当然,本发明实施例中的方法还可以应用于其他应用场景,例如,识别网上购物平台的恶意刷单用户等。
为了执行上述实施例及各个可能的实施方式中欺诈识别方法的相应步骤,下面给出一种欺诈识别装置100的实现方式。请参照图9,图9示出了本发明实施例提供的欺诈识别装置100的方框示意图。需要说明的是,本实施例所提供的欺诈识别装置100,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及指出。
欺诈识别装置100包括获取模块110和分析模块120。
获取模块110,用于获取样本集,其中,样本集包括样本用户及样本用户的行为特征。
作为一种具体实施方式,获取模块110具体用于:获取原始特征,其中,原始特征是针对样本用户的输入行为进行特征提取后得到;对原始特征进行稳定性分析,判断原始特征是否满足预设条件;将满足预设条件的原始特征确定为行为特征。
作为一种具体实施方式,样本用户为预设时段内获取的多个用户,预设时段包括多个子时段,每一样本用户均有一个原始特征,获取模块110在用于对原始特征进行稳定性分析,判断原始特征是否满足预设条件时,具体用于:根据所有样本用户的原始特征,计算原始特征的变异系数;根据每一对相邻子时段的样本用户的原始特征,计算每一对相邻子时段的稳定度;若变异系数小于或者等于第一预设值,且所有相邻子时段的稳定度中的最大值小于或者等于第二预设值,则判定原始特征满足预设条件。
分析模块120,用于分别利用多个检测模型对行为特征进行分析,得到多个检测模型输出的样本用户是否为欺诈用户的多个评分。
作为一种具体实施方式,分析模块120具体用于:按照每一检测模型的置信度分布,将每一检测模型的评分映射在同一个预设区间,得到每一检测模型的评分在预设区间内的参考分;根据多个检测模型中两两检测模型之间的相关因子及每一检测模型的参考分,计算综合评分;根据检测模型的个数及综合评分,判断样本用户是否为欺诈用户。
分析模块120,还用于利用多个检测模型之间的相关因子,对多个评分进行综合分析,以识别样本用户是否为欺诈用户。
作为一种具体实施方式,分析模块120在用于根据多个检测模型中两两检测模型之间的相关因子及每一检测模型的参考分,计算综合评分时,具体用于:根据多个检测模型中两两检测模型之间的相关因子及每一检测模型的参考分,利用公式
Figure F_210728151144476_476546069
计算综合评分,其中,
Figure F_210728151144674_674298070
表示样本用户x的综合评分,i表示第i个检测模型,j表示第j个检测模型, m为检测模型的个数,
Figure F_210728151144816_816869071
表示第i个检测模型和第j个检测模型之间的相关因子,
Figure F_210728151144990_990746072
Figure F_210728151145357_357882073
表示样本用户x采用第j个检测模型得到的参考分。
作为一种具体实施方式,分析模块120还用于:利用多个检测模型输出的多个评分,识别样本用户是否为欺诈用户。
作为一种具体实施方式,分析模块120在用于利用多个检测模型输出的多个评分,识别样本用户是否为欺诈用户时,具体用于:按照每一检测模型的置信度分布,将每一检测模型的评分映射在同一个预设区间,得到每一检测模型的评分在预设区间内的参考分;若多个检测模型的参考分的最大值大于或者等于预设阈值,则判定样本用户为欺诈用户。
本发明实施例还给出了计算机设备10的方框示意图,请参照图10,图10为本发明实施例提供的计算机设备10的方框示意图,计算机设备10包括处理器11、存储器12、总线13、通信接口14。处理器11、存储器12通过总线13连接,处理器11通过通信接口14与外部设备通信。
处理器11可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器11中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器11可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器12用于存储程序,例如本发明实施例中的欺诈识别装置100,欺诈识别装置100均包括至少一个可以软件或固件(firmware)的形式存储于存储器12中的软件功能模块,处理器11在接收到执行指令后,执行所述程序以实现本发明实施例中的欺诈识别方法。
存储器12可能包括高速随机存取存储器(RAM:Random Access Memory),也可能还包括非易失存储器(non-volatile memory)。可选地,存储器12可以是内置于处理器11中的存储装置,也可以是独立于处理器11的存储装置。
总线13可以是ISA总线、PCI总线或EISA总线等。图10仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述的欺诈识别方法。
综上所述,本发明实施例提供了一种欺诈识别方法、装置、计算机设备及存储介质,所述方法包括:获取样本集,其中,样本集包括样本用户及样本用户的行为特征;分别利用多个检测模型对行为特征进行分析,得到多个检测模型输出的样本用户是否为欺诈用户的多个评分;利用多个检测模型之间的相关因子,对多个评分进行综合分析,以识别样本用户是否为欺诈用户。与现有技术相比,本发明首先利用多个检测模块对样本集中的行为特征进行分析,得到多个检测模型输出的样本用户是否为欺诈用户的多个评分,然后利用多个检测模型之间的相关因子,对多个评分进行综合分析,以识别样本用户是否为欺诈用户,本发明通过对多个检测模型输出的评分进行综合决策,提高了不同场景下欺诈识别的准确性,推动了检测模型的推广和应用。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种欺诈识别方法,其特征在于,所述方法包括:
获取样本集,其中,所述样本集包括样本用户及所述样本用户的行为特征;
分别利用多个检测模型对所述行为特征进行分析,得到所述多个检测模型输出的所述样本用户是否为欺诈用户的多个评分;
利用所述多个检测模型之间的相关因子,对所述多个评分进行综合分析,以识别所述样本用户是否为欺诈用户。
2.如权利要求1所述的欺诈识别方法,其特征在于,所述利用所述多个检测模型之间的相关因子,对所述多个评分进行综合分析,以识别所述样本用户是否为欺诈用户的步骤包括:
按照每一所述检测模型的置信度分布,将每一所述检测模型的评分映射在同一个预设区间,得到每一所述检测模型的评分在所述预设区间内的参考分;
根据所述多个检测模型中两两检测模型之间的相关因子及每一所述检测模型的参考分,计算综合评分;
根据检测模型的个数及所述综合评分,判断所述样本用户是否为欺诈用户。
3.如权利要求2所述的欺诈识别方法,其特征在于,所述根据所述多个检测模型中两两检测模型之间的相关因子及每一所述检测模型的参考分,计算综合评分的步骤包括:
根据所述多个检测模型中两两检测模型之间的相关因子及每一所述检测模型的参考分,利用公式
Figure F_210728151129814_814535001
计算综合评分,其中,
Figure F_210728151130009_009313002
表示样本用户x的综合评分,i表示第i个检测模型,j表示第j个检测模型, m为检测模型的个数,
Figure F_210728151130198_198230003
表示第i个检测模型和第j个检测模型之间的相关因子,
Figure F_210728151130404_404827004
Figure F_210728151130578_578625005
表示样本用户x采用第j个检测模型得到的参考分。
4.如权利要求1所述的欺诈识别方法,其特征在于,所述获取样本集的步骤包括:
获取原始特征,其中,所述原始特征是针对所述样本用户的输入行为进行特征提取后得到;
对所述原始特征进行稳定性分析,判断所述原始特征是否满足预设条件;
将满足预设条件的所述原始特征确定为所述行为特征。
5.如权利要求4所述的欺诈识别方法,其特征在于,所述样本用户为预设时段内获取的多个用户,所述预设时段包括多个子时段,每一所述样本用户均有一个原始特征,所述对所述原始特征进行稳定性分析,判断所述原始特征是否满足预设条件的步骤包括:
根据所有样本用户的原始特征,计算所述原始特征的变异系数;
根据每一对相邻子时段的样本用户的原始特征,计算每一对相邻子时段的稳定度;
若所述变异系数小于或者等于第一预设值,且所有相邻子时段的稳定度中的最大值小于或者等于第二预设值,则判定所述原始特征满足预设条件。
6.如权利要求1所述的欺诈识别方法,其特征在于,所述分别利用多个检测模型对所述行为特征进行分析,得到所述多个检测模型输出的所述样本用户是否为欺诈用户的多个评分步骤之后还包括:
利用所述多个检测模型输出的多个评分,识别所述样本用户是否为欺诈用户。
7.如权利要求6所述的欺诈识别方法,其特征在于,所述利用所述多个检测模型输出的多个评分,识别所述样本用户是否为欺诈用户的步骤包括:
按照每一所述检测模型的置信度分布,将每一所述检测模型的评分映射在同一个预设区间,得到每一所述检测模型的评分在所述预设区间内的参考分;
若所述多个检测模型的参考分的最大值大于或者等于预设阈值,则判定所述样本用户为欺诈用户。
8.一种欺诈识别装置,其特征在于,所述装置包括:
获取模块,用于获取样本集,其中,所述样本集包括样本用户及所述样本用户的行为特征;
分析模块,用于分别利用多个检测模型对所述行为特征进行分析,得到所述多个检测模型输出的所述样本用户是否为欺诈用户的多个评分;
分析模块,还用于利用所述多个检测模型之间的相关因子,对所述多个评分进行综合分析,以识别所述样本用户是否为欺诈用户。
9.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的欺诈识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的欺诈识别方法。
CN202110878098.0A 2021-08-02 2021-08-02 欺诈识别方法、装置、计算机设备及存储介质 Active CN113344469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110878098.0A CN113344469B (zh) 2021-08-02 2021-08-02 欺诈识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110878098.0A CN113344469B (zh) 2021-08-02 2021-08-02 欺诈识别方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113344469A true CN113344469A (zh) 2021-09-03
CN113344469B CN113344469B (zh) 2021-11-30

Family

ID=77480507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110878098.0A Active CN113344469B (zh) 2021-08-02 2021-08-02 欺诈识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113344469B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116112630A (zh) * 2023-04-04 2023-05-12 成都新希望金融信息有限公司 一种智能视频面签的切换方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0891069A2 (de) * 1997-07-10 1999-01-13 Siemens Aktiengesellschaft Erkennung eines betrügerischen Anrufs mittels eines neuronalen Netzes
CN102622552A (zh) * 2012-04-12 2012-08-01 焦点科技股份有限公司 一种基于数据挖掘的b2b平台欺诈访问的检测方法和系统
CN105005901A (zh) * 2015-07-09 2015-10-28 厦门快商通信息技术有限公司 一种面向金融领域的交易欺诈检测系统与方法
CN106022900A (zh) * 2016-08-08 2016-10-12 北京京东尚科信息技术有限公司 用户风险数据挖掘方法和装置
CN107103548A (zh) * 2011-11-17 2017-08-29 阿里巴巴集团控股有限公司 网络行为数据的监控方法和系统以及风险监控方法和系统
CN111641594A (zh) * 2020-05-09 2020-09-08 同济大学 基于页面行为的欺诈用户检测方法、系统、介质及设备
CN112967053A (zh) * 2021-03-03 2021-06-15 中国银联股份有限公司 一种欺诈交易的检测方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0891069A2 (de) * 1997-07-10 1999-01-13 Siemens Aktiengesellschaft Erkennung eines betrügerischen Anrufs mittels eines neuronalen Netzes
CN107103548A (zh) * 2011-11-17 2017-08-29 阿里巴巴集团控股有限公司 网络行为数据的监控方法和系统以及风险监控方法和系统
CN102622552A (zh) * 2012-04-12 2012-08-01 焦点科技股份有限公司 一种基于数据挖掘的b2b平台欺诈访问的检测方法和系统
CN105005901A (zh) * 2015-07-09 2015-10-28 厦门快商通信息技术有限公司 一种面向金融领域的交易欺诈检测系统与方法
CN106022900A (zh) * 2016-08-08 2016-10-12 北京京东尚科信息技术有限公司 用户风险数据挖掘方法和装置
CN111641594A (zh) * 2020-05-09 2020-09-08 同济大学 基于页面行为的欺诈用户检测方法、系统、介质及设备
CN112967053A (zh) * 2021-03-03 2021-06-15 中国银联股份有限公司 一种欺诈交易的检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TIEP NGUYEN等: "A functional design of a cost benefit analysis methodology for transport infrastructure projects", 《2018 5TH INTERNATIONAL CONFERENCE ON INDUSTRIAL ENGINEERING AND APPLICATIONS》 *
刘祥东 等: "我国商业银行信用风险识别的多模型比较研究", 《经济经纬》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116112630A (zh) * 2023-04-04 2023-05-12 成都新希望金融信息有限公司 一种智能视频面签的切换方法
CN116112630B (zh) * 2023-04-04 2023-06-23 成都新希望金融信息有限公司 一种智能视频面签的切换方法

Also Published As

Publication number Publication date
CN113344469B (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN110399925B (zh) 账号的风险识别方法、装置及存储介质
CN108416198B (zh) 人机识别模型的建立装置、方法及计算机可读存储介质
CN107341716B (zh) 一种恶意订单识别的方法、装置及电子设备
CN107818344B (zh) 用户行为进行分类和预测的方法和系统
JP6771751B2 (ja) リスク評価方法およびシステム
CN107066616B (zh) 用于账号处理的方法、装置及电子设备
CN109241711A (zh) 基于预测模型的用户行为识别方法及装置
Ekina et al. Application of bayesian methods in detection of healthcare fraud
CN111625516B (zh) 检测数据状态的方法、装置、计算机设备和存储介质
CN110336838B (zh) 账号异常检测方法、装置、终端及存储介质
US20170032270A1 (en) Method for predicting personality trait and device therefor
CN112329816A (zh) 数据分类方法、装置、电子设备和可读存储介质
CN110674144A (zh) 用户画像生成方法、装置、计算机设备和存储介质
CN107679626A (zh) 机器学习方法、装置、系统、存储介质及设备
CN109801151B (zh) 财务造假风险监控方法、装置、计算机设备和存储介质
CN114143049B (zh) 异常流量检测方法、装置、存储介质以及电子设备
CN110729054B (zh) 异常就诊行为检测方法、装置、计算机设备及存储介质
CN111767192B (zh) 基于人工智能的业务数据检测方法、装置、设备和介质
CN114879613A (zh) 一种工业控制系统信息安全攻击风险评估方法及系统
CN112508456A (zh) 食品安全风险评估方法、系统、计算机设备及存储介质
CN113987182A (zh) 基于安全情报的欺诈实体识别方法、装置及相关设备
CN113344469B (zh) 欺诈识别方法、装置、计算机设备及存储介质
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
CN112347457A (zh) 异常账户检测方法、装置、计算机设备和存储介质
CN110263106B (zh) 协同舆论欺诈检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant