CN113420789A - 一种预测风险账号的方法、装置、存储介质和计算机设备 - Google Patents

一种预测风险账号的方法、装置、存储介质和计算机设备 Download PDF

Info

Publication number
CN113420789A
CN113420789A CN202110603478.3A CN202110603478A CN113420789A CN 113420789 A CN113420789 A CN 113420789A CN 202110603478 A CN202110603478 A CN 202110603478A CN 113420789 A CN113420789 A CN 113420789A
Authority
CN
China
Prior art keywords
risk
samples
data
account
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110603478.3A
Other languages
English (en)
Inventor
王胜
王宁
李健
景晓志
甘人才
朱建生
单杏花
赵颖
李文宝
李昂
王兴成
李燕波
郝雅青
刘凯
魏佳代
徐佳
宋潇琪
李倩文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Railway Sciences Corp Ltd CARS
Institute of Computing Technologies of CARS
Beijing Jingwei Information Technology Co Ltd
Original Assignee
China Academy of Railway Sciences Corp Ltd CARS
Institute of Computing Technologies of CARS
Beijing Jingwei Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Railway Sciences Corp Ltd CARS, Institute of Computing Technologies of CARS, Beijing Jingwei Information Technology Co Ltd filed Critical China Academy of Railway Sciences Corp Ltd CARS
Priority to CN202110603478.3A priority Critical patent/CN113420789A/zh
Publication of CN113420789A publication Critical patent/CN113420789A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了一种预测风险账号的方法、装置、存储介质和计算机设备。该方法包括:通过提升树模型对获取的训练测试集进行训练,生成风险模型;将获取的多个灰样本输入风险模型,生成每个灰样本对应的风险概率;将多个风险概率中大于设定概率的一个或多个风险概率对应的灰样本,确定为风险账户;将一个或多个风险账户和多个黑样本对应的用户账号数据确定为风险账号。本发明实施例提供的技术方案中,能够将一个或多个风险账户和多个黑样本对应的用户账号数据确定为风险账号,可以全面、准确、高效地预测出风险账号。

Description

一种预测风险账号的方法、装置、存储介质和计算机设备
【技术领域】
本发明涉及计算机技术领域,尤其涉及一种预测风险账号的方法、装置、存储介质和计算机设备。
【背景技术】
随着居民日常出行的增加,互联网售票量也在快速增加。由于大量的第三方购票平台、抢票软件等利用互联网票额的动态变化,为旅客代购车票,用其技术、设备或网络优势“加价抢票”,不断查询互联网售票的余票,发现有余票时立即下单购票,消耗互联网售票平台的处理资源,影响互联网售票平台稳定运行,扰乱正常售票秩序。相关技术中,不能有效地通过预测风险账号来减少“加价抢票”的行为,缺少全面、准确、高效地预测风险账号的方法。
【发明内容】
有鉴于此,本发明实施例提供了一种预测风险账号的方法、装置、存储介质和计算机设备,用以全面、准确、高效地预测出风险账号。
一方面,本发明实施例提供了一种预测风险账号的方法,包括:
通过提升树模型对获取的训练测试集进行训练,生成风险模型;
将获取的多个灰样本输入所述风险模型,生成每个所述灰样本对应的风险概率;
将多个所述风险概率中大于设定概率的一个或多个所述风险概率对应的灰样本,确定为风险账户;
将一个或多个所述风险账户和多个黑样本对应的用户账号数据确定为风险账号。
可选地,所述通过提升树模型对获取的训练测试集进行训练,生成风险模型之前包括:
通过专家经验算法对获取的特征表进行分类,生成多个黑样本、多个白样本和多个灰样本;
从多个所述白样本中随机提取设定数量个白样本,生成多个随机白样本;
根据多个所述随机白样本和多个所述黑样本,生成训练测试集。
可选地,所述通过专家经验判断算法对获取的特征表进行分类,生成多个黑样本、多个白样本和多个灰样本之前包括:
判断获取的业务类型数据是否包括退票标识;
若判断出所述业务类型数据包括退票标识,将获取的交易时间减去获取的付款交易时间生成退款时长;
根据获取的业务类型数据、渠道类型数据、用户账号数据、付款流水号数据、交易IP数据和所述退款时长,生成基表;
通过特征算法对所述基表进行特征计算,生成特征表。
可选地,所述判断获取的付款流水号数据是否包括退票标识之前包括:
根据获取的支付数据生成逗号分隔值文件;
从所述逗号分隔值文件中提取业务类型数据、渠道类型数据、用户账号数据、付款流水号数据和交易IP数据。
可选地,还包括:
若判断出所述业务类型数据不包括退票标识,根据获取的业务类型数据、渠道类型数据、用户账号数据、付款流水号数据和交易IP数据,生成基表,并继续执行所述通过存储的特征算法对所述基表进行特征计算,生成特征表的步骤。
可选地,所述将一个或多个所述风险账户和多个黑样本对应的用户账号数据确定为风险账号之后包括:
显示所述风险账号。
另一方面,本发明实施例提供了一种预测风险账号的装置,包括:
第一生成模块,用于通过提升树模型对获取的训练测试集进行训练,生成风险模型;
第二生成模块,用于将获取的多个灰样本输入所述风险模型,生成每个所述灰样本对应的风险概率;
第一确定模块,用于将多个所述风险概率中大于设定概率的一个或多个所述风险概率对应的灰样本,确定为风险账户;
第二确定模块,用于将一个或多个所述风险账户和多个黑样本对应的用户账号数据确定为风险账号。
可选地,还包括:
第三生成模块,用于通过专家经验算法对获取的特征表进行分类,生成多个黑样本、多个白样本和多个灰样本;
第四生成模块,用于从多个所述白样本中随机提取设定数量个白样本,生成多个随机白样本;
第五生成模块,用于根据多个所述随机白样本和多个所述黑样本,生成训练测试集。
另一方面,本发明实施例提供了一种存储介质,包括:所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述预测风险账号的方法。
另一方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,其特征在于,所述程序指令被处理器加载并执行时实现上述预测风险账号的方法的步骤。
本发明实施例提供的预测风险账号的方法的技术方案中,通过提升树模型对获取的训练测试集进行训练,生成风险模型;将获取的多个灰样本输入风险模型,生成每个灰样本对应的风险概率;将多个风险概率中大于设定概率的一个或多个风险概率对应的灰样本,确定为风险账户;将一个或多个风险账户和多个黑样本对应的用户账号数据确定为风险账号。本发明实施例提供的技术方案中,能够将一个或多个风险账户和多个黑样本对应的用户账号数据确定为风险账号,可以全面、准确、高效地预测出风险账号。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种预测风险账号的方法的流程图;
图2为本发明实施例提供的另一种预测风险账号的方法的流程图;
图3为本发明实施例提供的一种预测风险账号的装置的结构示意图;
图4为本发明实施例提供的一种计算机设备的示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,甲和/或乙,可以表示:单独存在甲,同时存在甲和乙,单独存在乙这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本发明实施例提供了一种预测风险账号的方法,图1为本发明实施例提供的一种预测风险账号的方法的流程图,如图1所示,该方法包括:
步骤102、通过提升树模型对获取的训练测试集进行训练,生成风险模型。
本发明实施例中,各步骤由计算机设备执行。
本发明实施例中,提升树模型包括极端梯度提升(eXtreme Gradient Boosting,简称XGBoost)模型。其中,XGBoost模型属于提升树模型,能够以回归树作为基学习器,通过梯度提升的方式拟合前一轮预测误差得到本轮弱分类器,通过迭代得到所有弱学习器的加权求和,进而得到最后的强分类器,以生成风险模型。
步骤104、将获取的多个灰样本输入风险模型,生成每个灰样本对应的风险概率。
步骤106、将多个风险概率中大于设定概率的一个或多个风险概率对应的灰样本,确定为风险账户。
本发明实施例中,能够根据实际情况设置设定概率。例如,设定概率为0.5。
例如,将多个风险概率中大于0.5的一个或多个风险概率对应的灰样本,确定为风险账户。
步骤108、将一个或多个风险账户和多个黑样本对应的用户账号数据确定为风险账号。
本发明实施例中,计算机设备中存储有风险账户对应的用户账号数据和黑样本对应的用户账号数据,能够根据风险账户对应的用户账号数据和黑样本对应的用户账号数据查询出一个或多个风险账户和多个黑样本对应的用户账号数据,并将一个或多个风险账户和多个黑样本对应的用户账号数据确定为风险账号。
作为一种可选方案,可对预测为风险账户的用户账号数据进行拦截,比如人脸核验或滑块等方式。
本发明实施例提供的技术方案中,通过提升树模型对获取的训练测试集进行训练,生成风险模型;将获取的多个灰样本输入风险模型,生成每个灰样本对应的风险概率;将多个风险概率中大于设定概率的一个或多个风险概率对应的灰样本,确定为风险账户;将一个或多个风险账户和多个黑样本对应的用户账号数据确定为风险账号。本发明实施例提供的技术方案中,能够将一个或多个风险账户和多个黑样本对应的用户账号数据确定为风险账号,可以全面、准确、高效地预测出风险账号。
本发明实施例提供了另一种预测风险账号的方法,图2为本发明实施例提供的另一种预测风险账号的方法的流程图,如图2所示,该方法包括:
步骤202、根据获取的支付数据生成逗号分隔值文件。
本发明实施例中,各步骤由计算机设备执行。
本步骤中,计算机设备从第一数据库中获取支付数据,根据支付数据生成逗号分隔值(Comma-Separated Values,简称CSV)文件。其中,支付数据包括业务类型数据、渠道类型数据、用户账号数据、付款流水号数据和交易IP数据。例如,第一数据库包括Oracle数据库。
作为一种可选方案,将CSV文件导入第二数据库中。例如,第二数据库包括ClickHouse数据库。
步骤204、从逗号分隔值文件中提取业务类型数据、渠道类型数据、用户账号数据、付款流水号数据和交易IP数据。
步骤206、判断业务类型数据是否包括退票标识,若是,执行步骤208;若否,执行步骤230。
本发明实施例中,业务类型数据包括交易类型数据和订单类型数据。作为一种可选方案,当交易类型数据为01且订单类型数据为0时,业务类型数据包括购票标识;当交易类型数据为01且订单类型数据为1时,业务类型数据包括候补购票标识;当交易类型数据为02且订单类型数据为0时,业务类型数据包括退票标识;当交易类型数据为02且订单类型数据为1时,业务类型数据包括候补退票标识。
本发明实施例中,若判断出业务类型数据包括退票标识,表明该业务类型数据对应的票已完成退票;若判断出业务类型数据未包括退票标识,表明该业务类型数据对应的票未完成退票。
步骤208、将获取的交易时间减去获取的付款交易时间生成退款时长。
本步骤中,获取交易时间和付款交易时间,并将交易时间减去付款交易时间生成退款时长。
步骤210、根据获取的业务类型数据、渠道类型数据、用户账号数据、付款流水号数据、交易IP数据和退款时长,生成基表。
本发明实施例中,渠道类型数据包括移动端数据和网站端数据。
本发明实施例中,从逗号分隔值文件中获取返回交易状态页面地址,从返回交易状态页面地址中提取用户账号数据。
本发明实施例中,从逗号分隔值文件中获取支付流水号数据,从支付流水号数据中提取交易IP数据。
例如,基表如下表1所示:
表1
Figure RE-GDA0003206119160000081
如上表1所示,数据内容的数量为多个,例如,业务类型数据的数据内容包括退票和购票,渠道类型数据的数据内容包括移动端和网站端,用户账号数据的数据内容包括188***5250和182***2583,付款流水号数据的数据内容包括23589 和23588,交易IP数据的数据内容包括5689451329和5658421929,退款时长的数据内容包括20和0。
步骤212、通过特征算法对基表进行特征计算,生成特征表。
例如,特征表包括设定时间段内移动端支付数量、设定时间段内网站端支付数量、设定时间段内退票数量、设定时间段内移动端支付金额、设定时间段内网站端支付金额、设定时间段内退票金额和/或设定时间段内候补金额。其中,能够根据实际情况设置设定时间段,例如,设定时间段包括:1天、7天、 30天、半年或一年。
步骤214、通过专家经验算法对获取的特征表进行分类,生成多个黑样本、多个白样本和多个灰样本。
作为一种可选方案,将30天支付金额大于20000,30天支付次数大于100 次,30天关联ip数大于10且30天关联用户数大于10的样本确定为黑样本。将 30天支付金额小于500,30天支付次数小于5次,30天关联ip数小于5且30天关联用户数小于3的样本确定为白样本,并将剩余的样本确定为灰样本。
例如,黑样本的数量为1374个,白样本的数量为59393874个,灰样本的数量为21202390个。
步骤216、从多个白样本中随机提取设定数量个白样本,生成多个随机白样本。
本发明实施例中,能够根据实际情况设置设定数量。例如,设定数量为400000 个。
本步骤中,例如,从59393874个白样本中随机提取400000个白样本,生成 400000个随机白样本。
步骤218、根据多个随机白样本和多个黑样本,生成训练测试集。
例如,根据400000个随机白样本和1374个黑样本,生成训练测试集。
步骤220、通过提升树模型对获取的训练测试集进行训练,生成风险模型。
本发明实施例中,提升树模型包括XGBoost模型。其中,XGBoost模型属于提升树模型,能够以回归树作为基学习器,通过梯度提升的方式拟合前一轮预测误差得到本轮弱分类器,通过迭代得到所有弱学习器的加权求和,进而得到最后的强分类器,以生成风险模型。
步骤222、将获取的多个灰样本输入风险模型,生成每个灰样本对应的风险概率。
步骤224、将多个风险概率中大于设定概率的一个或多个风险概率对应的灰样本,确定为风险账户。
本发明实施例中,能够根据实际情况设置设定概率。例如,设定概率为0.5。
例如,将多个风险概率中大于0.5的一个或多个风险概率对应的灰样本,确定为风险账户。
步骤226、将一个或多个所述风险账户和多个黑样本对应的用户账号数据确定为风险账号。
本发明实施例中,计算机设备中存储有风险账户对应的用户账号数据和黑样本对应的用户账号数据,能够根据风险账户对应的用户账号数据和黑样本对应的用户账号数据查询出一个或多个风险账户和多个黑样本对应的用户账号数据,并将一个或多个风险账户和多个黑样本对应的用户账号数据确定为风险账号。
作为一种可选方案,可对预测为风险账户的用户账号数据进行拦截,比如人脸核验或滑块等方式。
步骤228、显示风险账号,流程结束。
作为一种可选方案,根据风险账号生成银行分布的银行风险概率。计算机设备中存储有每个银行中风险账号的数据,计算出每个银行中风险账号占总的风险账号的比值,作为银行风险概率。例如,A银行的银行风险概率为59%,B银行的银行风险概率为35%,C银行的银行风险概率为6%,并显示A银行的银行风险概率为59%,B银行的银行风险概率为35%,C银行的银行风险概率为6%。
作为另一种可选方案,根据风险账号生成渠道类型数据的渠道风险概率。渠道类型数据包括移动端数据和网站端数据。计算机设备中存储有每个渠道类型数据中风险账号的数据,计算出每个渠道类型数据中风险账号占总的风险账号的比值,作为的渠道风险概率。例如,移动端数据的渠道风险概率为 13%,网站端数据的渠道风险概率为46%,并显示移动端数据的渠道风险概率为13%,网站端数据的渠道风险概率为46%。
步骤230、根据获取的业务类型数据、渠道类型数据、用户账号数据、付款流水号数据和交易IP数据,生成基表,并继续执行步骤212。
本发明实施例提供的技术方案中,通过提升树模型对获取的训练测试集进行训练,生成风险模型;将获取的多个灰样本输入风险模型,生成每个灰样本对应的风险概率;将多个风险概率中大于设定概率的一个或多个风险概率对应的灰样本,确定为风险账户;将一个或多个风险账户和多个黑样本对应的用户账号数据确定为风险账号。本发明实施例提供的技术方案中,能够将一个或多个风险账户和多个黑样本对应的用户账号数据确定为风险账号,可以全面、准确、高效地预测出风险账号。
本发明实施例提供的技术方案中,能够基于支付数据,使用XGBoost算法实现对目标属性明显的电子支付交易数据进行特征处理和模型训练,再用训练好的模型对所有支付数据进行预测,预测出风险账号,能够为业务决策部门提供一个有效的风险分析的模型,也能够展示支付账号风险度、支付核心指标和支付整体情况。
本发明实施例提供的技术方案中,能够基于用户账号数据的风险分析的流程是获取网站端或移动端的交易数据,将采集到的数据写入到行为分析数据仓库,然后对数据进行处理和计算,业务专家介入进来,根据经验,对准备的数据安装业务规则确定黑白样本数据集(黑样本表示有风险的,白样本表示无风险),然后算法工程师介入进来划分测试和训练样本数据集(用来进行模型训练和模型预测验证),根据既有的数据进行特征计算,然后进行模型训练和模型预测,最后输出风险模型,判断用户支付行为是否存在风险,能够输出特征的风险识别贡献度,输出各支付账号的历史支付特征记录和输出各银行的风险概率等。
本发明实施例提供的技术方案中,基于铁路客运电子支付的银行账号进行交易行为特征分析和查询,提高了数据分析效率,创新了铁路电子支付风险分析方法论和实现手段,能让分析人员对于当前支付交易风险度有一定的预判,从而可以支持进一步的风险对抗决策。
本发明实施例提供的技术方案中,使用先进的采集、存储和计算技术,提高了数据的使用率,与生产环境隔离,对生产系统的安全稳定运行无影响。
本发明实施例提供了一种预测风险账号的装置。图3为本发明实施例提供的一种预测风险账号的装置的结构示意图,如图3所示,该装置包括:第一生成模块11、第二生成模块12、第一确定模块13和第二确定模块14。
第一生成模块11用于通过提升树模型对获取的训练测试集进行训练,生成风险模型。
第二生成模块12用于将获取的多个灰样本输入所述风险模型,生成每个灰样本对应的风险概率。
第一确定模块13用于将多个风险概率中大于设定概率的一个或多个风险概率对应的灰样本,确定为风险账户。
第二确定模块14用于将一个或多个风险账户和多个黑样本对应的用户账号数据确定为风险账号。
本发明实施例中,该装置还包括:第三生成模块15、第四生成模块16和第五生成模块17。
第三生成模块15用于通过专家经验算法对获取的特征表进行分类,生成多个黑样本、多个白样本和多个灰样本。
第四生成模块16用于从多个白样本中随机提取设定数量个白样本,生成多个随机白样本。
第五生成模块17用于根据多个随机白样本和多个所述黑样本,生成训练测试集。
本发明实施例中,该装置还包括:判断模块18、第六生成模块19、第七生成模块20和第八生成模块21。
判断模块18用于判断获取的业务类型数据是否包括退票标识;若判断出所述业务类型数据包括退票标识,触发第六生成模块19将获取的交易时间减去获取的付款交易时间生成退款时长。
第七生成模块20用于根据获取的业务类型数据、渠道类型数据、用户账号数据、付款流水号数据、交易IP数据和所述退款时长,生成基表。
第八生成模块21用于通过特征算法对所述基表进行特征计算,生成特征表。
本发明实施例中,该装置还包括:第九生成模块22和提取模块23。
第九生成模块22用于根据获取的支付数据生成逗号分隔值文件。
提取模块23用于从逗号分隔值文件中提取业务类型数据、渠道类型数据、用户账号数据、付款流水号数据和交易IP数据。
本发明实施例中,该装置还包括:第十生成模块24。
判断模块18若判断出业务类型数据不包括退票标识,触发第十生成模块24 根据获取的业务类型数据、渠道类型数据、用户账号数据、付款流水号数据和交易IP数据,生成基表,并触发第八生成模块21继续执行通过存储的特征算法对所述基表进行特征计算,生成特征表的步骤。
本发明实施例中,该装置还包括:显示模块25。
显示模块25用于显示风险账号。
本发明实施例提供的技术方案中,通过提升树模型对获取的训练测试集进行训练,生成风险模型;将获取的多个灰样本输入风险模型,生成每个灰样本对应的风险概率;将多个风险概率中大于设定概率的一个或多个风险概率对应的灰样本,确定为风险账户;将一个或多个风险账户和多个黑样本对应的用户账号数据确定为风险账号。本发明实施例提供的技术方案中,能够将一个或多个风险账户和多个黑样本对应的用户账号数据确定为风险账号,可以全面、准确、高效地预测出风险账号。
本实施例提供的预测风险账号的装置可用于实现上述图1和图2中的预测风险账号的方法,具体描述可参见上述预测风险账号的方法的实施例,此处不再重复描述。
本发明实施例提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述预测风险账号的方法的实施例的各步骤,具体描述可参见上述预测风险账号的方法的实施例。
本发明实施例提供了一种计算机设备,包括存储器和处理器,存储器用于存储包括程序指令的信息,处理器用于控制程序指令的执行,程序指令被处理器加载并执行时实现上述预测风险账号的方法的实施例的各步骤,具体描述可参见上述预测风险账号的方法的实施例。
图4为本发明实施例提供的一种计算机设备的示意图。如图4所示,该实施例的计算机设备40包括:处理器41、存储器42以及存储在存储器42中并可在处理器41上运行的计算机程序43,该计算机程序43被处理器41执行时实现实施例中的应用于预测风险账号的方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器41执行时实现实施例中应用于预测风险账号的装置中各模型/单元的功能,为避免重复,此处不一一赘述。
计算机设备40包括,但不仅限于,处理器41、存储器42。本领域技术人员可以理解,图4仅仅是计算机设备40的示例,并不构成对计算机设备40 的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器41可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器42可以是计算机设备40的内部存储单元,例如计算机设备40的硬盘或内存。存储器42也可以是计算机设备40的外部存储设备,例如计算机设备40上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器 42还可以既包括计算机设备40的内部存储单元也包括外部存储设备。存储器 42用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器42还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器 (Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种预测风险账号的方法,其特征在于,包括:
通过提升树模型对获取的训练测试集进行训练,生成风险模型;
将获取的多个灰样本输入所述风险模型,生成每个所述灰样本对应的风险概率;
将多个所述风险概率中大于设定概率的一个或多个所述风险概率对应的灰样本,确定为风险账户;
将一个或多个所述风险账户和多个黑样本对应的用户账号数据确定为风险账号。
2.根据权利要求1所述的方法,其特征在于,所述通过提升树模型对获取的训练测试集进行训练,生成风险模型之前包括:
通过专家经验算法对获取的特征表进行分类,生成多个黑样本、多个白样本和多个灰样本;
从多个所述白样本中随机提取设定数量个白样本,生成多个随机白样本;
根据多个所述随机白样本和多个所述黑样本,生成训练测试集。
3.根据权利要求2所述的方法,其特征在于,所述通过专家经验判断算法对获取的特征表进行分类,生成多个黑样本、多个白样本和多个灰样本之前包括:
判断获取的业务类型数据是否包括退票标识;
若判断出所述业务类型数据包括退票标识,将获取的交易时间减去获取的付款交易时间生成退款时长;
根据获取的业务类型数据、渠道类型数据、用户账号数据、付款流水号数据、交易IP数据和所述退款时长,生成基表;
通过特征算法对所述基表进行特征计算,生成特征表。
4.根据权利要求3所述的方法,其特征在于,所述判断获取的付款流水号数据是否包括退票标识之前包括:
根据获取的支付数据生成逗号分隔值文件;
从所述逗号分隔值文件中提取业务类型数据、渠道类型数据、用户账号数据、付款流水号数据和交易IP数据。
5.根据权利要求3所述的方法,还包括:
若判断出所述业务类型数据不包括退票标识,根据获取的业务类型数据、渠道类型数据、用户账号数据、付款流水号数据和交易IP数据,生成基表,并继续执行所述通过存储的特征算法对所述基表进行特征计算,生成特征表的步骤。
6.根据权利要求1所述的方法,其特征在于,所述将一个或多个所述风险账户和多个黑样本对应的用户账号数据确定为风险账号之后包括:
显示所述风险账号。
7.一种预测风险账号的装置,其特征在于,包括:
第一生成模块,用于通过提升树模型对获取的训练测试集进行训练,生成风险模型;
第二生成模块,用于将获取的多个灰样本输入所述风险模型,生成每个所述灰样本对应的风险概率;
第一确定模块,用于将多个所述风险概率中大于设定概率的一个或多个所述风险概率对应的灰样本,确定为风险账户;
第二确定模块,用于将一个或多个所述风险账户和多个黑样本对应的用户账号数据确定为风险账号。
8.根据权利要求7所述的装置,其特征在于,还包括:
第三生成模块,用于通过专家经验算法对获取的特征表进行分类,生成多个黑样本、多个白样本和多个灰样本;
第四生成模块,用于从多个所述白样本中随机提取设定数量个白样本,生成多个随机白样本;
第五生成模块,用于根据多个所述随机白样本和多个所述黑样本,生成训练测试集。
9.一种存储介质,其特征在于,包括:所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至6任意一项所述的预测风险账号的方法。
10.一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,其特征在于,所述程序指令被处理器加载并执行时实现权利要求1至6任意一项所述的预测风险账号的方法的步骤。
CN202110603478.3A 2021-05-31 2021-05-31 一种预测风险账号的方法、装置、存储介质和计算机设备 Pending CN113420789A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110603478.3A CN113420789A (zh) 2021-05-31 2021-05-31 一种预测风险账号的方法、装置、存储介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110603478.3A CN113420789A (zh) 2021-05-31 2021-05-31 一种预测风险账号的方法、装置、存储介质和计算机设备

Publications (1)

Publication Number Publication Date
CN113420789A true CN113420789A (zh) 2021-09-21

Family

ID=77713361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110603478.3A Pending CN113420789A (zh) 2021-05-31 2021-05-31 一种预测风险账号的方法、装置、存储介质和计算机设备

Country Status (1)

Country Link
CN (1) CN113420789A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114978616A (zh) * 2022-05-06 2022-08-30 支付宝(杭州)信息技术有限公司 风险评估系统的构建方法及装置、风险评估方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111262887A (zh) * 2020-04-26 2020-06-09 腾讯科技(深圳)有限公司 基于对象特征的网络风险检测方法、装置、设备及介质
CN111461216A (zh) * 2020-03-31 2020-07-28 浙江邦盛科技有限公司 一种基于机器学习的案件风险识别方法
CN112465331A (zh) * 2020-11-23 2021-03-09 北京嘀嘀无限科技发展有限公司 乘车安全控制方法、模型训练方法、装置、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461216A (zh) * 2020-03-31 2020-07-28 浙江邦盛科技有限公司 一种基于机器学习的案件风险识别方法
CN111262887A (zh) * 2020-04-26 2020-06-09 腾讯科技(深圳)有限公司 基于对象特征的网络风险检测方法、装置、设备及介质
CN112465331A (zh) * 2020-11-23 2021-03-09 北京嘀嘀无限科技发展有限公司 乘车安全控制方法、模型训练方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114978616A (zh) * 2022-05-06 2022-08-30 支付宝(杭州)信息技术有限公司 风险评估系统的构建方法及装置、风险评估方法及装置
CN114978616B (zh) * 2022-05-06 2024-01-09 支付宝(杭州)信息技术有限公司 风险评估系统的构建方法及装置、风险评估方法及装置

Similar Documents

Publication Publication Date Title
CN110009174B (zh) 风险识别模型训练方法、装置及服务器
CN102890803B (zh) 电子商品异常交易过程的确定方法及其装置
CN108062674B (zh) 基于gps的订单欺诈识别方法、系统、存储介质和电子设备
CN105354210A (zh) 移动游戏支付账户行为数据处理方法和装置
CN112329816A (zh) 数据分类方法、装置、电子设备和可读存储介质
CN111325248A (zh) 降低贷前业务风险的方法及系统
CN110659961A (zh) 一种用于识别线下商户的方法和装置
CN113706291A (zh) 欺诈风险预测方法、装置、设备及存储介质
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
CN113420789A (zh) 一种预测风险账号的方法、装置、存储介质和计算机设备
CN112487284A (zh) 银行客户画像生成方法、设备、存储介质及装置
CN112950347A (zh) 资源数据处理的优化方法及装置、存储介质、终端
CN117114901A (zh) 基于人工智能的投保数据处理方法、装置、设备及介质
CN109636627B (zh) 基于区块链的保险产品管理方法、装置、介质及电子设备
CN116522131A (zh) 对象表示方法、装置、电子设备及计算机可读存储介质
CN110570301B (zh) 风险识别方法、装置、设备及介质
CN113781201B (zh) 电子金融活动的风险评估方法和装置
CN114119107A (zh) 一种钢贸企业交易测评方法、装置、设备及存储介质
CN113220947A (zh) 对事件特征进行编码的方法和装置
CN113052604A (zh) 一种对象检测方法、装置、设备及存储介质
CN111161042A (zh) 个人风险评估方法、装置、终端及存储介质
CN112396513B (zh) 一种数据处理的方法及装置
CN117745338B (zh) 基于曲波变换的酒类消费预测方法、电子设备及存储介质
CN116451125A (zh) 一种新能源车车主识别方法、装置、设备及存储介质
CN117314501A (zh) 卡券数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination