CN108805580A - 帐号分析方法、装置及存储介质 - Google Patents

帐号分析方法、装置及存储介质 Download PDF

Info

Publication number
CN108805580A
CN108805580A CN201810642346.XA CN201810642346A CN108805580A CN 108805580 A CN108805580 A CN 108805580A CN 201810642346 A CN201810642346 A CN 201810642346A CN 108805580 A CN108805580 A CN 108805580A
Authority
CN
China
Prior art keywords
account number
risk
account
analyzed
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810642346.XA
Other languages
English (en)
Inventor
李凤辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Silver Competition Computer Science And Technology Co Ltd
Original Assignee
Shanghai Silver Competition Computer Science And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Silver Competition Computer Science And Technology Co Ltd filed Critical Shanghai Silver Competition Computer Science And Technology Co Ltd
Priority to CN201810642346.XA priority Critical patent/CN108805580A/zh
Publication of CN108805580A publication Critical patent/CN108805580A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Computer Security & Cryptography (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本公开揭示了一种帐号分析方法、装置及存储介质,属于机器学习领域。该方法包括:获取待分析帐号在最近预设时长内的金融产品交易记录;确定待分析帐号的帐号数据;将帐号数据输入预设决策树模型,预设决策树模型是通过预设训练集训练得到的模型,预设训练集中包括风险帐号和非风险帐号,以及对应的帐号数据,风险帐号为通过非正当方式进行套利的帐号;通过预设决策树模型输出得到待分析帐号的风险情况。通过预先训练决策树模型得到预设决策树模型,并通过该预设决策树模型预测待分析帐号是否为风险帐号,提高了对该待分析帐号的分析效率,能够在该待分析帐号对金融公司造成损失之前预测出其为风险帐号,提高了对风险用户进行识别的及时性。

Description

帐号分析方法、装置及存储介质
技术领域
本公开涉及机器学习领域,特别涉及一种帐号分析方法、装置及存储介质。
背景技术
在金融产品公司中,保证用户的金融安全是首要任务。通常,在保证用户的金融安全之前,需要确定用户为风险用户还是非风险用户。其中,风险用户是指可能进行非法金融交易获得利益的用户,或者通过非法金融交易损害其他用户的利益的用户。
在对风险用户进行识别时,管理员通常对用户的数据进行观察,当用户的数据发生明显的异常时,则认为该用户为风险用户,并限制该用户的金融交易。
然后通过上述方式对风险用户进行识别时,效率较低,且通常识别出风险用户时已造成了一定程度的损失,对风险用户的识别不够及时。
发明内容
本公开实施例提供一种帐号分析方法、装置及存储介质,可以解决对风险用户进行识别时,效率较低,且通常识别出风险用户时已造成了一定程度的损失,对风险用户的识别不够及时的问题。所述技术方案如下:
第一方面,提供了一种帐号分析方法,应用于服务器中,所述方法包括:
获取所述待分析帐号在最近预设时长内的金融产品交易记录;
确定所述待分析帐号的帐号数据,所述帐号数据中包括所述金融产品交易记录;
将所述帐号数据输入预设决策树模型,所述预设决策树模型是通过预设训练集训练得到的模型,所述预设训练集中包括风险帐号和非风险帐号,以及与所述风险帐号和所述非风险帐号对应的帐号数据,所述风险帐号为通过非正当方式进行套利的帐号;
通过所述预设决策树模型输出得到所述待分析帐号的风险情况,所述风险情况用于指示所述待分析帐号是否为风险帐号。
在一个可选的实施例中,所述获取所述待分析帐号在最近预设时长内的金融产品交易记录之后,还包括:
根据所述金融产品交易记录获取所述相对数据,所述相对数据用于反应所述金融产品交易记录针对所述最近预设时长的平均数,占最大累计出入金的比值;
所述确定所述待分析帐号的帐号数据,所述帐号数据中包括所述金融产品交易记录,包括:
所述确定所述待分析帐号的帐号数据,所述帐号数据中包括所述金融产品交易记录和所述相对数据。
在一个可选的实施例中,所述根据所述金融产品交易记录获取所述相对数据,包括:
当所述金融产品交易记录中包括总成交额、交易天数以及所述最大累计出入金时,根据所述总成交额与所述交易天数的比值得到日均成交额,根据所述日均成交额与所述最大累计出入金的比值得到所述相对数据;
和/或,
当所述金融产品交易记录中包括总交易费用、所述交易天数以及所述最大累计出入金时,根据所述总交易费用与所述交易天数的比值得到日均交易费用,根据所述日均交易费用与所述最大累计出入金的比值得到所述相对数据。
在一个可选的实施例中,所述将所述帐号数据输入预设决策树模型之前,还包括:
获取训练集,所述训练集用于对待训练决策树模型进行训练,所述训练集包括标注有所述风险情况的风险帐号和非风险帐号,以及与所述风险帐号和所述非风险帐号对应的帐号数据;
根据所述训练集对所述待训练决策树模型进行训练,得到所述预设决策树模型。
在一个可选的实施例中,所述获取训练集,包括:
获取初始训练集,所述初始训练集中包括p个风险帐号和q个非风险帐号,p≤q;
对所述初始训练集中的q个非风险帐号进行下采样,得到n个非风险帐号,所述下采样是指使采样后的非风险帐号的数量少于采样前的非风险帐号的数量的采样方式,q≥n;
根据所述n个非风险帐号和所述p个风险帐号确定所述训练集。
在一个可选的实施例中,所述对所述初始训练集中的q个非风险帐号进行下采样,得到n个非风险帐号,包括:
获取所述初始训练集中的q个非风险帐号;
从所述q个非风险帐号中随机获取n个非风险帐号。
在一个可选的实施例中,所述获取训练集,包括:
获取初始训练集,所述初始训练集中包括p个风险帐号和q个非风险帐号,p≤q;
对所述初始训练集中的p个风险帐号进行上采样,得到m个风险帐号,所述上采样是指使采样后的风险帐号的数量多于采样前的风险帐号的数量的采样方式,p≤m;
根据所述q个非风险帐号和所述m个风险帐号确定所述训练集。
在一个可选的实施例中,所述对所述初始训练集中的p个风险帐号进行上采样,得到m个风险帐号,包括:
获取所述初始训练集中的p个风险帐号;
根据所述p个风险帐号,采用人工合成数据算法得到所述m个风险帐号。
在一个可选的实施例中,所述方法,还包括:
获取至少两个所述训练集;
通过所述至少两个训练集对所述待训练决策树模型进行训练,得到至少两个决策树模型;
获取所述至少两个决策树模型的分析准确率;
在所述至少两个决策树模型中选择所述分析准确率最高的决策树模型作为所述预设决策树模型。
在一个可选的实施例中,所述对所述初始训练集中的q个非风险帐号进行下采样,得到n个非风险帐号,包括:
获取所述q个非风险帐号的最大累计出入金;
将所述q个非风险帐号按所述最大累计出入金的r个阈值范围进行归类,其中,r≥1;
依次循环根据所述r个阈值范围内选取一次非风险帐号,直至选取出所述n个非风险帐号。
第二方面,提供了一种帐号分析装置,应用于服务器中,所述装置包括:
获取模块,用于获取所述待分析帐号在最近预设时长内的金融产品交易记录;
确定模块,用于确定所述待分析帐号的帐号数据,所述帐号数据中包括所述金融产品交易记录;
输入模块,用于将所述帐号数据输入预设决策树模型,所述预设决策树模型是通过预设训练集训练得到的模型,所述预设训练集中包括风险帐号和非风险帐号,以及与所述风险帐号和所述非风险帐号对应的帐号数据,所述风险帐号为通过非正当方式进行套利的帐号;
输出模块,用于通过所述预设决策树模型输出得到所述待分析帐号的风险情况,所述风险情况用于指示所述待分析帐号是否为风险帐号。
在一个可选的实施例中,所述获取模块,还用于根据所述金融产品交易记录获取所述相对数据,所述相对数据用于反应所述金融产品交易记录针对所述最近预设时长的平均数,占最大累计出入金的比值;
所述确定模块,还用于所述确定所述待分析帐号的帐号数据,所述帐号数据中包括所述金融产品交易记录和所述相对数据。
在一个可选的实施例中,所述获取模块,包括:
计算单元,用于当所述金融产品交易记录中包括总成交额、交易天数以及所述最大累计出入金时,根据所述总成交额与所述交易天数的比值得到日均成交额,根据所述日均成交额与所述最大累计出入金的比值得到所述相对数据;
所述计算单元,还用于当所述金融产品交易记录中包括总交易费用、所述交易天数以及所述最大累计出入金时,根据所述总交易费用与所述交易天数的比值得到日均交易费用,根据所述日均交易费用与所述最大累计出入金的比值得到所述相对数据。
在一个可选的实施例中,所述获取模块,还用于获取训练集,所述训练集用于对待训练决策树模型进行训练,所述训练集包括标注有所述风险情况的风险帐号和非风险帐号,以及与所述风险帐号和所述非风险帐号对应的帐号数据;
所述装置,还包括:
训练模块,用于根据所述训练集对所述待训练决策树模型进行训练,得到所述预设决策树模型。
在一个可选的实施例中,所述获取模块,还用于获取初始训练集,所述初始训练集中包括p个风险帐号和q个非风险帐号,p≤q;
所述装置,还包括:
采样模块,用于对所述初始训练集中的q个非风险帐号进行下采样,得到n个非风险帐号,所述下采样是指使采样后的非风险帐号的数量少于采样前的非风险帐号的数量的采样方式,q≥n;
所述确定模块,还用于根据所述n个非风险帐号和所述p个风险帐号确定所述训练集。
在一个可选的实施例中,所述采样模块,还用于获取所述初始训练集中的q个非风险帐号;从所述q个非风险帐号中随机获取n个非风险帐号。
在一个可选的实施例中,所述获取模块,还用于获取初始训练集,所述初始训练集中包括p个风险帐号和q个非风险帐号,p≤q;
所述装置,还包括:
采样模块,用于对所述初始训练集中的p个风险帐号进行上采样,得到m个风险帐号,所述上采样是指使采样后的风险帐号的数量多于采样前的风险帐号的数量的采样方式,p≤m;
所述确定模块,还用于根据所述q个非风险帐号和所述m个风险帐号确定所述训练集。
在一个可选的实施例中,所述采样模块,还用于获取所述初始训练集中的p个风险帐号;根据所述p个风险帐号,采用人工合成数据算法得到所述m个风险帐号。
在一个可选的实施例中,所述获取模块,还用于获取至少两个所述训练集;
所述装置,还包括:
训练模块,用于通过所述至少两个训练集对所述待训练决策树模型进行训练,得到至少两个决策树模型;
所述获取模块,还用于获取所述至少两个决策树模型的分析准确率;在所述至少两个决策树模型中选择所述分析准确率最高的决策树模型作为所述预设决策树模型。
在一个可选的实施例中,所述获取模块,还用于获取所述q个非风险帐号的最大累计出入金;将所述q个非风险帐号按所述最大累计出入金的r个阈值范围进行归类,其中,r≥1;依次循环根据所述r个阈值范围内选取一次非风险帐号,直至选取出所述n个非风险帐号。
第三方面,提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请的第一方面及其可选的实施例中任一所述的帐号分析方法。
第四方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请的第一方面及其可选的实施例中任一所述的帐号分析方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过预先训练决策树模型得到预设决策树模型,并通过该预设决策树模型预测待分析帐号是否为风险帐号,提高了对该待分析帐号的分析效率,能够在该待分析帐号对金融公司造成损失之前预测出其为风险帐号,提高了对风险用户进行识别的及时性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并于说明书一起用于解释本公开的原理。
图1是根据一示例性的实施例示出的一种帐号分析方法的流程图;
图2是根据另一示例性的实施例示出的一种帐号分析方法的流程图;
图3是根据另一示例性的实施例示出的一种帐号分析方法的流程图;
图4是根据一示例性的实施例示出的一种帐号分析装置的结构框图;
图5是根据一示例性实施例示出的服务器的结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
首先,对本申请实施例涉及的名词作出解释:
风险帐号:风险帐号是指通过非正当方式进行套利的帐号,可选地,该风险帐号是通过非法金融交易获得利益的帐号,或者通过非法金融交易损害其他帐号利益的帐号。可选地,风险帐号的金融产品交易记录有一定的规律,如:短期内成交额数量大、短期内交易费用较高、短期内金融交易较为频繁等,该金融产品交易记录为对金融产品进行买入或者卖出时产生的记录,其中,金融产品为货币、贵金属、外汇、证券、股票、期货、期权、债券、保单中的至少一种。
帐号数据:帐号数据用于反应帐号的交易情况,该帐号数据包括金融产品交易记录,该金融产品交易记录包括该帐号的总成交额、交易天数、总交易费用、最大累计出入金中的至少一个,可选地,该帐号数据还包括帐号的基本信息,该基本信息包括该帐号对应的用户姓名、年龄、性别、身份证号、照片、出生年月中的至少一个。其中,最大累计出入金用于对客户的总资金进行表示,该最大累计出入金是由帐号的出金数额以及入金数额确定的,出金是指资金由交易账户划入银行账户的过程,入金是指用户在贵金属投资或者农产品现货等投资产品开户后将资金投入市场的过程,通常,最大累计出入金是指多个设时间段内出金数额和入金数额之和中最大的数额,其中,出金数额以及入金数额的其中一个以负数表示,如:出金数额用负数表示,入金数额用正数表示。
决策树模型:决策树模型是一种用于预测的模型,可选地,该决策树模型是通过预设训练集训练得到的模型,该预设训练集中包括风险帐号、非风险帐号以及与该风险帐号和非风险帐号对应的帐号数据。可选地,本公开实施例中,该决策树模型用于对帐号的风险情况进行预测,其中,风险情况用于指示帐号是否是风险帐号。
上采样:上采样是指使采样后的样本数量多于采样前的样本数量的采样方式,可选地,可以通过随机选择样本进行复制的方式进行上采样,也可以通过人工合成数据(Synthetic Minority Oversampling Technique,SMOTE)算法进行上采样。
下采样:下采样是指采样后的样本数量少于采样前的样本数量的采样方式,可选地,可以通过从样本集合中随机抽取一定数量的样本进行下采样。
结合上述本公开实施例中的名词,对本公开提供的帐号分析方法进行说明,图1是本公开一个示例性的实施例提供的帐号分析方法的流程图,以该帐号分析方法应用在服务器中为例进行说明,如图1所示,该帐号分析方法包括:
步骤101,获取待分析帐号在最近预设时长内的金融产品交易记录。
可选地,该最近预设时长可以是预先设定的时长,如:最近一周、最近一月、最近一年或者待分析帐号的所有历史金融产品交易记录,也可以是管理员选择的时长。
该金融产品交易记录为对金融产品进行买入或者卖出时产生的记录,其中,金融产品为货币、贵金属、外汇、证券、股票、期货、期权、债券、保单中的至少一种
可选地,服务器获取待分析帐号在最近预设时长内的金融产品交易记录的方式包括如下方式中的至少一种:
第一,管理员将该待分析帐号的金融产品交易记录输入服务器中;
第二,服务器中预存有每个帐号的金融产品交易记录,并每隔预设时间对每个帐号进行分析,服务器从预存的金融产品交易记录中获取该待分析帐号的金融产品交易记录。
步骤102,确定待分析帐号的帐号数据。
可选地,该帐号数据中包括上述金融产品交易记录,该金融产品交易记录包括该待分析帐号的总成交额、交易天数、总交易费用、最大累计出入金中的至少一个,可选地,该帐号数据还包括待分析帐号的基本信息,该基本信息包括该待分析帐号对应的用户姓名、年龄、性别、身份证号、照片、出生年月中的至少一个。示意性的,该帐号数据中包括金融产品交易记录内容如下:“总成交额:10000,交易天数:2,总交易费用:100,最大累计出入金:8000”,该帐号数据中包括基本信息如下:“姓名:小王,年龄:28,性别:男”。
步骤103,将帐号数据输入预设决策树模型。
可选地,该决策树模型是通过预设训练集训练得到的模型,该预设训练集中包括风险帐号和非风险帐号,以及与上述风险帐号和非风险帐号对应的帐号数据,其中,风险帐号是通过非正当方式进行套利的帐号。
可选地,本实施例中的决策树模型用于预测待分析帐号是否为风险帐号。
步骤104,通过预设决策树模型输出得到待分析帐号的风险情况。
该风险情况用于指示该待分析帐号是否为风险帐号。
可选地,该风险情况包括风险帐号或者非风险帐号,即通过预设决策树模型输出得到的待分析帐号的风险情况分为:该待分析帐号为风险帐号,或者该待分析帐号为非风险帐号。
可选地,该风险情况还可以包括风险帐号、非风险帐号以及待定帐号,其中,待定帐号为无法确定是否为风险帐号的帐号,该风险帐号可以通过对预设决策树模型再次进行训练后,再进行分析。
综上所述,本实施例提供的帐号分析方法,通过预先训练决策树模型得到预设决策树模型,并通过该预设决策树模型预测待分析帐号是否为风险帐号,提高了对该待分析帐号的分析效率,能够在该待分析帐号对金融公司造成损失之前预测出其为风险帐号,提高了对风险用户进行识别的及时性。
在一个可选的实施例中,帐号数据中还包括相对数据,该相对数据更能够体现出待分析帐号的金融交易数据是否异常,图2是本申请另一个示例性的实施例提供的帐号分析方法的流程图,如图2所示,该帐号分析方法包括:
步骤201,获取训练集。
该训练集用于对待训练决策树模型进行训练,该训练集包括标注有风险情况的风险帐号和非风险帐号,以及与风险帐号和非风险帐号对应的帐号数据。示意性的,以该训练集的形式为表格形式为例进行说明,该训练集形式如下表一所示:
表一
帐号编号 风险情况 总成交额 交易天数
帐号1 非风险 10000 10
帐号2 非风险 100000 120
帐号3 非风险 20000 18
帐号4 风险 1000000 5
帐号5 风险 1000000 7
可选地,该训练集可以是由初始训练集通过数据平衡(英文:Class Balance)得到的。其中,数据平衡的方式包括:对样本数较多的第一样本进行下采样,和/或,对样本数较少的第二样本进行上采样,使第一样本的数量和第二样本的数量较为接近。
步骤202,根据训练集对待训练决策树模型进行训练,得到预设决策树模型。
可选地,可以将该训练集输入待训练决策树模型,根据待训练决策树模型输出的风险情况与表一中的风险情况进行比较,并对预测错误的风险情况进行纠正从而对待训练决策树模型进行训练。
步骤203,获取待分析帐号在最近预设时长内的金融产品交易记录。
可选地,该最近预设时长可以是预先设定的时长,如:最近一周、最近一月、最近一年或者待分析帐号的所有历史金融产品交易记录,也可以是管理员选择的时长。
可选地,服务器获取待分析帐号在最近预设时长内的金融产品交易记录的方式包括如下方式中的至少一种:
第一,管理员将该待分析帐号的金融产品交易记录输入服务器中;
第二,服务器中预存有每个帐号的金融产品交易记录,并每隔预设时间对每个帐号进行分析,服务器从预存的金融产品交易记录中获取该待分析帐号的金融产品交易记录。
步骤204,根据金融产品交易记录获取相对数据。
可选地,该相对数据用于反应金融产品交易记录针对最近预设时长的平均数,占最大累计出入金的比值。
可选地,根据金融产品交易记录获取相对数据的方式包括如下方式中的至少一种:
第一,当金融产品交易记录中包括总成交额、交易天数以及最大累计出入金时,根据总成交额和交易天数的比值得到日均成交额,并根据日均成交额和最大累计出入金的比值得到相对数据;
第二,当金融产品交易记录中总交易费用、交易天数以及最大累计出入金时,根据总交易费用和交易天数的比值得到日均交易费用,并根据日均交易费用和最大累计出入金的比值得到相对数据。
步骤205,确定待分析帐号的帐号数据。
可选地,该帐号数据中包括上述金融产品交易记录以及相对数据,该金融产品交易记录包括该待分析帐号的总成交额、交易天数、总交易费用、最大累计出入金中的至少一个,可选地,该帐号数据还包括待分析帐号的基本信息,该基本信息包括该待分析帐号对应的用户姓名、年龄、性别、身份证号、照片、出生年月中的至少一个。示意性的,该帐号数据中包括金融产品交易记录内容如下:“总成交额:10000,交易天数:2,总交易费用:100,最大累计出入金:8000”;该帐号数据中包括相对数据“相对数据:0.625”,该相对数据是根据总成交额、交易天数以及最大累计出入金计算得到的,具体地,该相对数据是总成交额和交易天数的比值,比上最大累计出入金得到的;该帐号数据中包括基本信息如下:“姓名:小王,年龄:28,性别:男”。
步骤206,将帐号数据输入预设决策树模型。
可选地,该决策树模型是通过预设训练集训练得到的模型,该预设训练集中包括风险帐号和非风险帐号,以及与上述风险帐号和非风险帐号对应的帐号数据,其中,风险帐号是通过非正当方式进行套利的帐号。
可选地,本实施例中的决策树模型用于预测待分析帐号是否为风险帐号。
步骤207,通过预设决策树模型输出得到待分析帐号的风险情况。
该风险情况用于指示该待分析帐号是否为风险帐号。
可选地,该风险情况包括风险帐号或者非风险帐号,即通过预设决策树模型输出得到的待分析帐号的风险情况分为:该待分析帐号为风险帐号,或者该待分析帐号为非风险帐号。
可选地,该风险情况还可以包括风险帐号、非风险帐号以及待定帐号,其中,待定帐号为无法确定是否为风险帐号的帐号,该风险帐号可以通过对预设决策树模型再次进行训练后,再进行分析。
值得注意的是,上述步骤201至步骤202可以执行在步骤203之前,也可以执行在步骤203之后、步骤206之前,本申请实施例对步骤201至步骤202的具体实施时刻不作限定。
综上所述,本实施例提供的帐号分析方法,通过预先训练决策树模型得到预设决策树模型,并通过该预设决策树模型预测待分析帐号是否为风险帐号,提高了对该待分析帐号的分析效率,能够在该待分析帐号对金融公司造成损失之前预测出其为风险帐号,提高了对风险用户进行识别的及时性。
本实施例提供的帐号分析方法,通过总成交额、总交易费用、交易天数以及最大累计出入金对相对数据进行计算,并将该相对数据增加在帐号数据中,通过金融产品交易记录、相对数据以及基本信息对待分析帐号的风险情况进行预测,提高了预测的准确度。
在一个可选的实施例中,对待训练决策树模型进行训练的训练集是通过对初始训练集进行预处理后得到的,图3是本申请另一个示例性的实施例提供的帐号分析方法的流程图,如图3所示,该帐号分析方法包括:
步骤301,获取初始训练集。
可选地,初始训练集中包括p个风险帐号和q个非风险帐号,其中,p≤q。
可选地,初始训练集中非风险帐号的数量远大于风险帐号的数量,如:初始训练集中共包括100个帐号,其中,风险帐号的数量为5个,非风险帐号的数量为95个,则非风险帐号的数量远大于风险帐号的数量,从而导致对待训练决策树模型进行训练时,过于拟合到非风险帐号,得到的预设决策树模型对待分析帐号进行预测时,将风险帐号预测为非风险帐号的可能性增大。
步骤302,对初始训练集中的q个非风险帐号进行下采样,得到n个非风险帐号。
可选地,下采样是指使采样后的非风险帐号的数量少于采样前的非风险帐号的数量的采样方式,q≥n。
可选地,对q个非风险帐号进行下采样的方式包括如下方式中的至少一种:
第一,获取初始训练集中的q个非风险帐号,从q个非风险帐号中随机获取n个非风险帐号;
第二,获取初始训练集中的q个非风险帐号并按顺序排列,从q个非风险帐号中按规律获取n个非风险帐号,如:获取第1、3、5、7…个非风险帐号直至获取到第n个非风险帐号;
第三,获取q个非风险帐号的最大累计出入金,将该q个非风险帐号按最大累计出入金的r个阈值范围进行归类,其中,r≥1,依次循环根据r个阈值范围内选取一次非风险帐号,直至选取出n个非风险帐号。
示意性的,结合上述下采样方式的第三种情况进行举例说明,初始训练集中有8个非风险帐号,需要从这8个非风险帐号中获取5个非风险帐号,假设8个非风险帐号的最大累计出入金如下表二所示:
表二
帐号 1 2 3 4 5 6 7 8
最大累计出入金 50000 20070 89000 300200 505000 10000 15000 1000000
设置最大累计出入金的3个阈值范围:范围一:0-30000、范围二:30000-100000、范围三:100000-2000000,则帐号2、帐号6以及帐号7属于范围一,帐号1、帐号3属于范围二,帐号4、帐号5以及帐号8属于范围三,依次循环从范围一、范围二以及范围三选取非风险帐号时,可以在每个范围内随机选取,也可以在每个范围内依次选取,以依次选取为例,首先在范围一中选取帐号2、在范围二中选取帐号1、在范围三中选取帐号4,然后再次循环,在范围一中选取帐号6、在范围二中选取帐号3,至此选取出5个非风险帐号。其中,当在某个范围中进行选取时,该范围中没有非风险帐号时,可以顺次在下一个范围中进行选取。上述是按照最大累计出入金进行阈值范围的分类,实际操作中,还可以按照总成交额、总交易费用、交易天数中的任意一个进行分类,本申请实施例对此不加以限定。
步骤303,根据n个非风险帐号和p个风险帐号确定训练集。
可选地,该训练集中包括上述n个非风险帐号以及p个风险帐号。
步骤304,对初始训练集中的p个风险帐号进行上采样,得到m个风险帐号。
可选地,上采样是指使采样后的风险帐号的数量多于采样前的风险帐号的数量的采样方式,p≤m。
可选地,对p个风险帐号进行下采样的方式包括如下方式中的至少一种:
第一,获取初始训练集中的p个风险帐号,对p个风险帐号中随机选取风险帐号进行复制得到m个风险帐号;
第二,获取初始训练集中的p个风险帐号;根据该p个风险帐号采用人工合成数据算法得到m个风险帐号。
第三,获取p个风险帐号的最大累计出入金,将该p个风险帐号按最大累计出入金的r个阈值范围进行归类,其中,r≥1,将r个阈值范围内风险帐号数量较少的对风险帐号进行复制,直至得到出m个风险帐号。
示意性的,结合上述上采样方式的第三种情况进行举例说明,初始训练集中有3个风险帐号,需要根据这3个风险帐号获取4个风险帐号,假设3个非风险帐号的最大累计出入金如下表三所示:
表三
帐号 1 2 3
最大累计出入金 50000 20070 89000
设置最大累计出入金的2个阈值范围:范围一:0-60000、范围二:60000-1000000,则帐号1、帐号2属于范围一,帐号3属于范围二,由于范围二中的风险帐号的数量较少,对帐号3进行复制,得到4个风险帐号。其中,当某个范围在进行复制时,范围内不止一个帐号时,可以随机选择一个帐号进行复制,也可以依次选择帐号进行复制。上述是按照最大累计出入金进行阈值范围的分类,实际操作中,还可以按照总成交额、总交易费用、交易天数中的任意一个进行分类,本申请实施例对此不加以限定。
步骤305,根据q个非风险帐号和m个风险帐号确定训练集。
可选地,该训练集中包括上述n个非风险帐号以及p个风险帐号。
值得注意的是,上述步骤302至步骤303以及步骤304至步骤305可以只执行其中一组,也可以同时执行两组,当同时执行两组时,训练集中包括n个非风险帐号以及m个风险帐号。
步骤306,根据训练集对待训练决策树模型进行训练,得到预设决策树模型。
可选地,可以将该训练集输入待训练决策树模型,根据待训练决策树模型输出的风险情况与表一中的风险情况进行比较,并对预测错误的风险情况进行纠正从而对待训练决策树模型进行训练。
可选地,上述步骤301至步骤306可以进行多次,并选取分析准确率最高的决策树模型作为预设决策树模型,即,获取至少两个训练集,通过上述至少两个训练集对待训练决策树模型进行训练,得到至少两个决策树模型,获取该至少两个决策树模型的分析准确率,并在至少两个决策树模型中选择分析准确率最高的决策树模型作为预设决策树模型。
步骤307,获取待分析帐号在最近预设时长内的金融产品交易记录。
可选地,该最近预设时长可以是预先设定的时长,如:最近一周、最近一月、最近一年或者待分析帐号的所有历史金融产品交易记录,也可以是管理员选择的时长。
可选地,服务器获取待分析帐号在最近预设时长内的金融产品交易记录的方式包括如下方式中的至少一种:
第一,管理员将该待分析帐号的金融产品交易记录输入服务器中;
第二,服务器中预存有每个帐号的金融产品交易记录,并每隔预设时间对每个帐号进行分析,服务器从预存的金融产品交易记录中获取该待分析帐号的金融产品交易记录。
步骤308,根据金融产品交易记录获取相对数据。
可选地,该相对数据用于反应金融产品交易记录针对最近预设时长的平均数,占最大累计出入金的比值。
可选地,根据金融产品交易记录获取相对数据的方式包括如下方式中的至少一种:
第一,当金融产品交易记录中包括总成交额、交易天数以及最大累计出入金时,根据总成交额和交易天数的比值得到日均成交额,并根据日均成交额和最大累计出入金的比值得到相对数据;
第二,当金融产品交易记录中总交易费用、交易天数以及最大累计出入金时,根据总交易费用和交易天数的比值得到日均交易费用,并根据日均交易费用和最大累计出入金的比值得到相对数据。
步骤309,确定待分析帐号的帐号数据。
可选地,该帐号数据中包括上述金融产品交易记录以及相对数据,该金融产品交易记录包括该待分析帐号的总成交额、交易天数、总交易费用、最大累计出入金中的至少一个,可选地,该帐号数据还包括待分析帐号的基本信息,该基本信息包括该待分析帐号对应的用户姓名、年龄、性别、身份证号、照片、出生年月中的至少一个。示意性的,该帐号数据中包括金融产品交易记录内容如下:“总成交额:10000,交易天数:2,总交易费用:100,最大累计出入金:8000”;该帐号数据中包括相对数据“相对数据:0.625”,该相对数据是根据总成交额、交易天数以及最大累计出入金计算得到的,具体地,该相对数据是总成交额和交易天数的比值,比上最大累计出入金得到的;该帐号数据中包括基本信息如下:“姓名:小王,年龄:28,性别:男”。
可选地,当该待分析帐号的金融产品交易记录以及基本信息中包括空值和/或不相关列时,对该空值和/或不相关列进行删除操作,对比数据依然保留在帐号数据内,其中,不相关列是指在预设决策树模型得到待分析帐号的风险情况的过程中不起作用的数据列。
示意性的,待分析帐号的帐号数据如下表四所示:
表四
总成交额 交易天数 总交易费用 最大累计出入金 姓名 年龄 性别 身份证号
100000 10 1000 80000 小王 28
其中,身份证号为空值,则将身份证号列的相关数据删除,年龄列为无相关列,则将年龄列的相关数据删除,得到如下表五:
表五
总成交额 交易天数 总交易费用 最大累计出入金 姓名 性别
100000 10 1000 80000 小王
值得注意的是,上述无相关列的确定过程可以参考如下方式中的至少一种:
第一,通过调用python中的sklearn.tree.DecisionTreeClassifier的feature_importances方法对比每列数据对预测结果的影响权重,将影响权重较高的数据列增加在帐号数据中,将影响权重较低的数据列确定为无相关列;
第二,通过weka里面AttributeSelection方法,对数据列进行重新筛选测试,选出提高决策树模型准确率最多的数据列,将提高决策树模型准确率最少的数据列确定为无相关列。
步骤310,将帐号数据输入预设决策树模型。
可选地,该决策树模型是通过预设训练集训练得到的模型,该预设训练集中包括风险帐号和非风险帐号,以及与上述风险帐号和非风险帐号对应的帐号数据,其中,风险帐号是通过非正当方式进行套利的帐号。
可选地,本实施例中的决策树模型用于预测待分析帐号是否为风险帐号。
步骤311,通过预设决策树模型输出得到待分析帐号的风险情况。
该风险情况用于指示该待分析帐号是否为风险帐号。
可选地,该风险情况包括风险帐号或者非风险帐号,即通过预设决策树模型输出得到的待分析帐号的风险情况分为:该待分析帐号为风险帐号,或者该待分析帐号为非风险帐号。
可选地,该风险情况还可以包括风险帐号、非风险帐号以及待定帐号,其中,待定帐号为无法确定是否为风险帐号的帐号,该风险帐号可以通过对预设决策树模型再次进行训练后,再进行分析。
可选地,在完成通过预设决策树模型输出得到待分析帐号的风险情况之后,还可以继续通过训练集对该预设决策树模型进行训练,进一步提高该预设决策树模型的预测准确率。
综上所述,本实施例提供的帐号分析方法,通过预先训练决策树模型得到预设决策树模型,并通过该预设决策树模型预测待分析帐号是否为风险帐号,提高了对该待分析帐号的分析效率,能够在该待分析帐号对金融公司造成损失之前预测出其为风险帐号,提高了对风险用户进行识别的及时性。
本实施例提供的帐号分析方法,通过总成交额、总交易费用、交易天数以及最大累计出入金对相对数据进行计算,并将该相对数据增加在帐号数据中,通过金融产品交易记录、相对数据以及基本信息对待分析帐号的风险情况进行预测,提高了预测的准确度。
本实施例提供的帐号分析方法,通过对非风险帐号进行下采样和/或对风险帐号进行上采样,平衡风险帐号和非风险帐号的数量,避免了非风险帐号数量远大于风险帐号的数量而导致的预设决策树模型过于拟合向非风险帐号,以及避免预设决策树模型将风险帐号预测为非风险帐号的概率增大。
本实施例提供的帐号分析方法,通过对初始训练集中的非风险帐号按照某个参数阈值范围分类,并从每个阈值范围分类中依次获取非风险帐号,得到的训练集中,每个阈值范围的非风险帐号的数量较为平均,避免了由于某个阈值范围的非风险帐号数量较多时,预设决策树模型进行预测时,对参数在该阈值范围内的帐号预测较准确而对其他阈值范围内的帐号预测不够准确的问题。
图4是本申请一个示例性的实施例提供的帐号分析装置的结构框图,如图4所示,该帐号分析装置包括:获取模块41、确定模块42、输入模块43以及输出模块44;
获取模块41,用于获取所述待分析帐号在最近预设时长内的金融产品交易记录;
确定模块42,用于确定所述待分析帐号的帐号数据,所述帐号数据中包括所述金融产品交易记录;
输入模块43,用于将所述帐号数据输入预设决策树模型,所述预设决策树模型是通过预设训练集训练得到的模型,所述预设训练集中包括风险帐号和非风险帐号,以及与所述风险帐号和所述非风险帐号对应的帐号数据,所述风险帐号为通过非正当方式进行套利的帐号;
输出模块44,用于通过所述预设决策树模型输出得到所述待分析帐号的风险情况,所述风险情况用于指示所述待分析帐号是否为风险帐号。
在一个可选的实施例中,所述获取模块41,还用于根据所述金融产品交易记录获取所述相对数据,所述相对数据用于反应所述金融产品交易记录针对所述最近预设时长的平均数,占最大累计出入金的比值;
所述确定模块42,还用于所述确定所述待分析帐号的帐号数据,所述帐号数据中包括所述金融产品交易记录和所述相对数据。
在一个可选的实施例中,所述获取模块41,包括:
计算单元,用于当所述金融产品交易记录中包括总成交额、交易天数以及所述最大累计出入金时,根据所述总成交额与所述交易天数的比值得到日均成交额,根据所述日均成交额与所述最大累计出入金的比值得到所述相对数据;
所述计算单元,还用于当所述金融产品交易记录中包括总交易费用、所述交易天数以及所述最大累计出入金时,根据所述总交易费用与所述交易天数的比值得到日均交易费用,根据所述日均交易费用与所述最大累计出入金的比值得到所述相对数据。
在一个可选的实施例中,所述获取模块41,还用于获取训练集,所述训练集用于对待训练决策树模型进行训练,所述训练集包括标注有所述风险情况的风险帐号和非风险帐号,以及与所述风险帐号和所述非风险帐号对应的帐号数据;
所述装置,还包括:
训练模块,用于根据所述训练集对所述待训练决策树模型进行训练,得到所述预设决策树模型。
在一个可选的实施例中,所述获取模块41,还用于获取初始训练集,所述初始训练集中包括p个风险帐号和q个非风险帐号,p≤q;
所述装置,还包括:
采样模块,用于对所述初始训练集中的q个非风险帐号进行下采样,得到n个非风险帐号,所述下采样是指使采样后的非风险帐号的数量少于采样前的非风险帐号的数量的采样方式,q≥n;
所述确定模块42,还用于根据所述n个非风险帐号和所述p个风险帐号确定所述训练集。
在一个可选的实施例中,所述采样模块,还用于获取所述初始训练集中的q个非风险帐号;从所述q个非风险帐号中随机获取n个非风险帐号。
在一个可选的实施例中,所述获取模块41,还用于获取初始训练集,所述初始训练集中包括p个风险帐号和q个非风险帐号,p≤q;
所述装置,还包括:
采样模块,用于对所述初始训练集中的p个风险帐号进行上采样,得到m个风险帐号,所述上采样是指使采样后的风险帐号的数量多于采样前的风险帐号的数量的采样方式,p≤m;
所述确定模块42,还用于根据所述q个非风险帐号和所述m个风险帐号确定所述训练集。
在一个可选的实施例中,所述采样模块,还用于获取所述初始训练集中的p个风险帐号;根据所述p个风险帐号,采用人工合成数据算法得到所述m个风险帐号。
在一个可选的实施例中,所述获取模块41,还用于获取至少两个所述训练集;
所述装置,还包括:
训练模块,用于通过所述至少两个训练集对所述待训练决策树模型进行训练,得到至少两个决策树模型;
所述获取模块41,还用于获取所述至少两个决策树模型的分析准确率;在所述至少两个决策树模型中选择所述分析准确率最高的决策树模型作为所述预设决策树模型。
在一个可选的实施例中,所述获取模块41,还用于获取所述q个非风险帐号的最大累计出入金;将所述q个非风险帐号按所述最大累计出入金的r个阈值范围进行归类,其中,r≥1;依次循环根据所述r个阈值范围内选取一次非风险帐号,直至选取出所述n个非风险帐号。
本申请还提供了一种服务器,该服务器包括处理器和存储器,存储器中存储有至少一条指令,至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的帐号分析方法。需要说明的是,该服务器可以是如下图5所提供的服务器。
请参考图5,其示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲:所述服务器500包括中央处理单元(CPU)501、包括随机存取存储器(RAM)502和只读存储器(ROM)503的系统存储器504,以及连接系统存储器504和中央处理单元501的系统总线505。所述服务器500还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)506,和用于存储操作系统513、应用程序514和其他程序模块515的大容量存储设备507。
所述基本输入/输出系统506包括有用于显示信息的显示器508和用于用户输入信息的诸如鼠标、键盘之类的输入设备509。其中所述显示器508和输入设备509都通过连接到系统总线505的输入输出控制器510连接到中央处理单元501。所述基本输入/输出系统506还可以包括输入输出控制器510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器510还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备507通过连接到系统总线505的大容量存储控制器(未示出)连接到中央处理单元501。所述大容量存储设备507及其相关联的计算机可读介质为服务器500提供非易失性存储。也就是说,所述大容量存储设备507可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器504和大容量存储设备507可以统称为存储器。
存储器存储有一个或多个程序,一个或多个程序被配置成由一个或多个中央处理单元501执行,一个或多个程序包含用于实现上述帐号分析方法的指令,中央处理单元501执行该一个或多个程序实现上述各个方法实施例提供的帐号分析方法。
根据本发明的各种实施例,所述服务器500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器500可以通过连接在所述系统总线505上的网络接口单元511连接到网络512,或者说,也可以使用网络接口单元511来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本发明实施例提供的帐号分析方法中由服务器所执行的步骤。
本申请实施例还提供一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器510加载并执行以实现如图1至图3任一所述的帐号分析方法。
本申请还提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述各个方法实施例提供的帐号分析方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如图1至图3任一所述的帐号分析方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种帐号分析方法,其特征在于,应用于服务器中,所述方法包括:
获取所述待分析帐号在最近预设时长内的金融产品交易记录,所述金融产品交易记录为对金融产品进行买入或者卖出时产生的记录;
确定所述待分析帐号的帐号数据,所述帐号数据中包括所述金融产品交易记录;
将所述帐号数据输入预设决策树模型,所述预设决策树模型是通过预设训练集训练得到的模型;所述预设训练集中包括风险帐号和非风险帐号,以及与所述风险帐号和所述非风险帐号对应的帐号数据,所述风险帐号为通过非正当方式进行套利的帐号;
通过所述预设决策树模型输出得到所述待分析帐号的风险情况,所述风险情况用于指示所述待分析帐号是否为风险帐号。
2.根据权利要求1所述的方法,其特征在于,所述获取所述待分析帐号在最近预设时长内的金融产品交易记录之后,还包括:
根据所述金融产品交易记录获取相对数据,所述相对数据用于反应所述金融产品交易记录针对所述最近预设时长的平均数占最大累计出入金的比值;
所述确定所述待分析帐号的帐号数据,所述帐号数据中包括所述金融产品交易记录,包括:
所述确定所述待分析帐号的帐号数据,所述帐号数据中包括所述金融产品交易记录和所述相对数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述金融产品交易记录获取所述相对数据,包括:
当所述金融产品交易记录中包括总成交额、交易天数以及所述最大累计出入金时,根据所述总成交额与所述交易天数的比值得到日均成交额,根据所述日均成交额与所述最大累计出入金的比值得到所述相对数据;
和/或,
当所述金融产品交易记录中包括总交易费用、所述交易天数以及所述最大累计出入金时,根据所述总交易费用与所述交易天数的比值得到日均交易费用,根据所述日均交易费用与所述最大累计出入金的比值得到所述相对数据。
4.根据权利要求1至3任一所述的方法,其特征在于,所述将所述帐号数据输入预设决策树模型之前,还包括:
获取训练集,所述训练集用于对待训练决策树模型进行训练,所述训练集包括标注有所述风险情况的风险帐号和非风险帐号,以及与所述风险帐号和所述非风险帐号对应的帐号数据;
根据所述训练集对所述待训练决策树模型进行训练,得到所述预设决策树模型。
5.根据权利要求4所述的方法,其特征在于,所述获取训练集,包括:
获取初始训练集,所述初始训练集中包括p个风险帐号和q个非风险帐号,p≤q;
对所述初始训练集中的q个非风险帐号进行下采样,得到n个非风险帐号,所述下采样是指使采样后的非风险帐号的数量少于采样前的非风险帐号的数量的采样方式,q≥n;
根据所述n个非风险帐号和所述p个风险帐号确定所述训练集。
6.根据权利要求4所述的方法,其特征在于,所述获取训练集,包括:
获取初始训练集,所述初始训练集中包括p个风险帐号和q个非风险帐号,p≤q;
对所述初始训练集中的p个风险帐号进行上采样,得到m个风险帐号,所述上采样是指使采样后的风险帐号的数量多于采样前的风险帐号的数量的采样方式,p≤m;
根据所述q个非风险帐号和所述m个风险帐号确定所述训练集。
7.根据权利要求5所述的方法,其特征在于,所述对所述初始训练集中的q个非风险帐号进行下采样,得到n个非风险帐号,包括:
获取所述q个非风险帐号的最大累计出入金;
将所述q个非风险帐号按所述最大累计出入金的r个阈值范围进行归类,其中,r≥1;
依次循环根据所述r个阈值范围内选取一次非风险帐号,直至选取出所述n个非风险帐号。
8.一种帐号分析装置,其特征在于,应用于服务器中,所述装置包括:
获取模块,用于获取所述待分析帐号在最近预设时长内的金融产品交易记录;
确定模块,用于确定所述待分析帐号的帐号数据,所述帐号数据中包括所述金融产品交易记录;
输入模块,用于将所述帐号数据输入预设决策树模型,所述预设决策树模型是通过预设训练集训练得到的模型,所述预设训练集中包括风险帐号和非风险帐号,以及与所述风险帐号和所述非风险帐号对应的帐号数据,所述风险帐号为通过非正当方式进行套利的帐号;
输出模块,用于通过所述预设决策树模型输出得到所述待分析帐号的风险情况,所述风险情况用于指示所述待分析帐号是否为风险帐号。
9.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的帐号分析方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7所述的帐号分析方法。
CN201810642346.XA 2018-06-21 2018-06-21 帐号分析方法、装置及存储介质 Withdrawn CN108805580A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810642346.XA CN108805580A (zh) 2018-06-21 2018-06-21 帐号分析方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810642346.XA CN108805580A (zh) 2018-06-21 2018-06-21 帐号分析方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN108805580A true CN108805580A (zh) 2018-11-13

Family

ID=64083828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810642346.XA Withdrawn CN108805580A (zh) 2018-06-21 2018-06-21 帐号分析方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN108805580A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110473083A (zh) * 2019-07-08 2019-11-19 阿里巴巴集团控股有限公司 树状风险账户识别方法、装置、服务器及存储介质
CN110827036A (zh) * 2019-11-07 2020-02-21 深圳乐信软件技术有限公司 一种欺诈交易的检测方法、装置、设备及存储介质
CN111383027A (zh) * 2020-03-10 2020-07-07 中国建设银行股份有限公司 一种账户的涉案检测方法、装置、设备及存储介质
CN111652525A (zh) * 2020-06-16 2020-09-11 深圳前海微众银行股份有限公司 风险尾端客户分析方法、装置、设备及计算机存储介质
CN113222611A (zh) * 2021-05-21 2021-08-06 中国农业银行股份有限公司 卡片安全级别识别方法、装置、设备、存储介质及产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050283429A1 (en) * 2004-06-17 2005-12-22 Bates Michael R Scored negative file system and method
CN101620692A (zh) * 2008-06-30 2010-01-06 上海全成通信技术有限公司 一种移动通信业务的客户流失分析方法
CN105095238A (zh) * 2014-05-04 2015-11-25 中国银联股份有限公司 用于检测欺诈交易的决策树生成方法
CN105590261A (zh) * 2014-12-31 2016-05-18 中国银联股份有限公司 商户风险估算方法及系统
CN106372938A (zh) * 2015-07-21 2017-02-01 华为技术有限公司 异常账号识别方法及系统
CN106709513A (zh) * 2016-12-10 2017-05-24 中泰证券股份有限公司 一种基于有监督机器学习的证券配资账户识别方法
CN107832581A (zh) * 2017-12-15 2018-03-23 百度在线网络技术(北京)有限公司 状态预测方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050283429A1 (en) * 2004-06-17 2005-12-22 Bates Michael R Scored negative file system and method
CN101620692A (zh) * 2008-06-30 2010-01-06 上海全成通信技术有限公司 一种移动通信业务的客户流失分析方法
CN105095238A (zh) * 2014-05-04 2015-11-25 中国银联股份有限公司 用于检测欺诈交易的决策树生成方法
CN105590261A (zh) * 2014-12-31 2016-05-18 中国银联股份有限公司 商户风险估算方法及系统
CN106372938A (zh) * 2015-07-21 2017-02-01 华为技术有限公司 异常账号识别方法及系统
CN106709513A (zh) * 2016-12-10 2017-05-24 中泰证券股份有限公司 一种基于有监督机器学习的证券配资账户识别方法
CN107832581A (zh) * 2017-12-15 2018-03-23 百度在线网络技术(北京)有限公司 状态预测方法和装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110473083A (zh) * 2019-07-08 2019-11-19 阿里巴巴集团控股有限公司 树状风险账户识别方法、装置、服务器及存储介质
CN110473083B (zh) * 2019-07-08 2023-07-14 创新先进技术有限公司 树状风险账户识别方法、装置、服务器及存储介质
CN110827036A (zh) * 2019-11-07 2020-02-21 深圳乐信软件技术有限公司 一种欺诈交易的检测方法、装置、设备及存储介质
CN111383027A (zh) * 2020-03-10 2020-07-07 中国建设银行股份有限公司 一种账户的涉案检测方法、装置、设备及存储介质
CN111652525A (zh) * 2020-06-16 2020-09-11 深圳前海微众银行股份有限公司 风险尾端客户分析方法、装置、设备及计算机存储介质
CN111652525B (zh) * 2020-06-16 2024-05-03 深圳前海微众银行股份有限公司 风险尾端客户分析方法、装置、设备及计算机存储介质
CN113222611A (zh) * 2021-05-21 2021-08-06 中国农业银行股份有限公司 卡片安全级别识别方法、装置、设备、存储介质及产品

Similar Documents

Publication Publication Date Title
CN108805580A (zh) 帐号分析方法、装置及存储介质
Hussainey et al. The effects of voluntary disclosure and dividend propensity on prices leading earnings
US20170148027A1 (en) Training and selection of multiple fraud detection models
US7860774B1 (en) System and method for providing financial advice for an investment portfolio
CN107798607A (zh) 资产配置策略获取方法、装置、计算机设备和存储介质
CN110322085A (zh) 一种客户流失预测方法和装置
CN110428322A (zh) 一种业务数据的适配方法及装置
CN108665366A (zh) 确定用户风险等级的方法、终端设备及计算机可读存储介质
WO2001077925A1 (en) Personalized investment consulting system implemented on network and method for the same
EP2288986A1 (en) Method for providing personalized recommendations of financial products based on user data
CN107437227A (zh) 股票投资分析装置与方法
US20210182906A1 (en) Method and system for predicting relevant offerings for users of data management systems using machine learning processes
WO2019232551A1 (en) Intelligent diversification tool
US20100217725A1 (en) Apparatus for automatic financial portfolio monitoring and associated methods
CN108596393A (zh) 一种金融电子资源预测模型的训练方法和装置
WO2020180739A1 (en) Computer platforms designed for improved electronic execution of electronic transactions and methods of use thereof
CN108596765A (zh) 一种金融电子资源推荐方法和装置
CN115438821A (zh) 一种智能排队方法和相关装置
TWM613536U (zh) 對於基金商品的投資風險評分系統
CN117541397A (zh) 一种基于ai投研策略的智能投资辅助方法、装置及系统
TWI776370B (zh) 對於基金商品的投資風險評分方法及系統
CN115456078A (zh) 资金流向分类方法、装置、设备、介质及产品
US20160284026A1 (en) Investment advisor system and method
Wang et al. Two‐Factor Decomposition Analysis for Correlation between Mainland C hina and H ong K ong Stock Markets
Chan et al. Time‐varying jump risk premia in stock index futures returns

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20181113