CN106875185A - 一种风控模型训练方法及装置 - Google Patents
一种风控模型训练方法及装置 Download PDFInfo
- Publication number
- CN106875185A CN106875185A CN201710063767.2A CN201710063767A CN106875185A CN 106875185 A CN106875185 A CN 106875185A CN 201710063767 A CN201710063767 A CN 201710063767A CN 106875185 A CN106875185 A CN 106875185A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- type
- data mining
- accounts information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/382—Payment protocols; Details thereof insuring higher security of transaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Accounting & Taxation (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Educational Administration (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Security & Cryptography (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种风控模型训练方法,所述方法包括:获取已知结果的第一历史数据组,所述第一历史数据组包括异常用户的账户信息;根据所述账户信息的类型选取拟合度最高的数据挖掘模型为初阶模型;使用所述初阶模型调整所述第一历史数据中的账户信息的维度,生成第二历史数据组;使用所述第二历史数据组中的第一数据集合训练所述初阶模型后,使用所述第二历史数据组中的第二数据集合验证所述初阶模型,根据验证结果选取风控模型,所述风控模型用于识别话费支付中异常用户。本发明还公开了一种风控模型训练装置。采用本发明提供的风控模型训练方法及装置,可以降低投诉率。
Description
技术领域
本发明涉及数据处理技术,尤其涉及一种风控模型训练方法及装置。
背景技术
在网络和电信的付费业务运行过程中,会出现支付异常的情况。例如,用户的账户被合作方采用代收、暗扣等违规方式进行扣费时,会导致用户出现财产损失,引起用户投诉;服务商使用某些非真实账户以自消费刷卡等方式进行消费,干扰付费业务正常运行;此外,某些对消费情况较为敏感的用户在付费业务扣费超过敏感值时,投诉可能性会大幅增长。
只有准确地对网络和电信的付费业务运行过程中出现的异常用户进行识别,才能及时对异常用户采取相应的措施。
发明内容
为解决上述技术问题,本发明实施例提供一种风控模型训练方法及装置,以准确识别付费业务运行过程中出现的异常用户,降低投诉率。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种风控模型训练方法,包括:
获取已知结果的第一历史数据组,所述第一历史数据组包括异常用户的账户信息;
根据所述账户信息的类型选取拟合度最高的数据挖掘模型为初阶模型;
使用所述初阶模型调整所述第一历史数据中的账户信息的维度,生成第二历史数据组;
使用所述第二历史数据组中的第一数据集合训练所述初阶模型后,使用所述第二历史数据组中的第二数据集合验证所述初阶模型,根据验证结果选取风控模型,所述风控模型用于识别话费支付中异常用户。
上述方案中,所述账户信息包括多种类型;
所述根据所述账户信息的类型选取拟合度最高的数据挖掘模型为初阶模型,包括:
根据所述账户信息的类型,为每种所述账户信息的类型选取对应的第一数据挖掘模型,根据所述第一数据挖掘模型生成数据挖掘模型组;
在所述数据挖掘模型组中针对所有所述账户信息的类型选取拟合度最高的数据挖掘模型为初阶模型。
上述方案中,所述账户信息的类型包括如下至少一种:消费敏感型、订购异常型、非真实型。
上述方案中,所述根据所述账户信息的类型,为每种所述账户信息的类型选取对应的第一数据挖掘模型,包括:
使用所述第一历史数据组中的第三数据集合训练各种数据挖掘模型后,使用所述第一历史数据组中的第四数据集合验证所述数据挖掘模型;
选取所述账户信息的类型对应的拟合度最高的数据挖掘模型为第一数据挖掘模型。
上述方案中,所述数据挖掘模型的类型包括如下至少一种:CRT、C5.0、CHAID、Logistic、SVM、自动分类器和贝叶斯网络。
本发明实施例提供一种风控模型训练装置,所述装置包括:
获取单元,用于获取已知结果的第一历史数据组,所述第一历史数据组包括异常用户的账户信息;
第一选取单元,用于根据所述账户信息的类型选取拟合度最高的数据挖掘模型为初阶模型;
生成单元,用于使用所述初阶模型调整所述第一历史数据中的账户信息的维度,生成第二历史数据组;
第二选取单元,用于使用所述第二历史数据组中的第一数据集合训练所述初阶模型后,使用所述第二历史数据组中的第二数据集合验证所述初阶模型,根据验证结果选取风控模型,所述风控模型用于识别话费支付中异常用户。
上述方案中,所述账户信息包括多种类型;所述第一选取单元包括:
生成子单元,用于根据所述账户信息的类型,为每种所述账户信息的类型选取对应的第一数据挖掘模型,根据所述第一数据挖掘模型生成数据挖掘模型组;
选取子单元,用于在所述数据挖掘模型组中针对所有所述账户信息的类型选取拟合度最高的数据挖掘模型为初阶模型。
上述方案中,所述账户信息的类型包括如下至少一种:消费敏感型、订购异常型、非真实型。
上述方案中,所述生成子单元还用于:
使用所述第一历史数据组中的第三数据集合训练各种数据挖掘模型后,使用所述第一历史数据组中的第四数据集合验证所述数据挖掘模型;
选取所述账户信息的类型对应的拟合度最高的数据挖掘模型为第一数据挖掘模型。
上述方案中,所述数据挖掘模型的类型包括如下至少一种:CRT、C5.0、CHAID、Logistic、SVM、自动分类器和贝叶斯网络。
本发明实施例所提供的风控模型训练方法及装置,获取已知结果的历史数据组后,根据所述账户信息的类型选取拟合度最高的初阶模型;使用所述第二历史数据组中的数据训练并验证所述初阶模型后,根据验证结果选取风控模型,并使用所述风控模型识别异常用户。该技术方案可以准确识别付费业务运行过程中出现的异常用户,降低投诉率。
附图说明
图1为本发明实施例风控模型训练方法的实现流程图;
图2为本发明实施例中异常订购型账户的决策树分析图;
图3为本发明实施例中非真实型账户的决策树分析图;
图4为本发明实施例风控模型训练装置的组成结构示意图。
具体实施方式
为了能够更加详尽地了解本发明的特点与技术内容,下面结合附图对本发明的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明。
图1为本发明实施例风控模型训练方法的实现流程图,如图1所示,本发明实施例提供的风控模型训练方法,包括:
步骤101,获取已知结果的第一历史数据组,第一历史数据组包括异常用户的账户信息。
步骤102,根据账户信息的类型选取拟合度最高的初阶模型。
步骤103,使用初阶模型调整第一历史数据中的账户信息的维度,生成第二历史数据组。
步骤104,使用第二历史数据组中的第一数据集合训练初阶模型后,使用第二历史数据组中的第二数据集合验证初阶模型,根据验证结果选取风控模型,所述风控模型用于识别话费支付中异常用户。
本发明实施例中,上述数据挖掘模型应用在数据挖掘软件中,其中,本发明实施例中的数据挖掘模型的类型包括如下至少一种:CRT、C5.0、CHAID、Logistic、SVM、自动分类器和贝叶斯网络,且并不局限于这八种类型。本发明实施例使用数据挖掘软件进行数据挖掘时,从多种类型的数据挖掘模型中选取拟合度最高的数据挖掘模型类型,并将该类型的数据挖掘模型进行训练、验证后,使用该训练、验证后的数据挖掘模型识别异常用户。相比较现有技术,使用该方案得到的训练验证后的最优数据挖掘模型识别异常用户时,可以得到更准确的识别结果。
步骤101中的异常用户的账户信息与异常账户的类型相关。异常账户按照账户出现扣费异常的原因可以分为不同的种类。账户信息包括多种类型,在本发明实施例中,账户类型包括消费敏感型、订购异常型、非真实型三种,但在实际应用中并不局限于此。
其中,消费敏感型账户对付费业务例如游戏类业务消费金额的敏感度较高,当消费金额超过敏感值时,用户的投诉的可能性将大幅增大。消费敏感型账户的账户信息包含以下数据信息的部分或全部:当月和上月的投诉结论、消费金额、消费次数、消费天数、小额道具付费次数、中额道具付费次数、高额道具付费次数、最高付费单价。
订购异常型账户因为合作方的违规扣费等出现过财产损失。订购异常型账户的账户信息包含以下数据信息的部分或全部:国际移动设备身份码(IMEI)变动频繁、国际移动用户识别码(IMSI)变动频繁、业务消费类型与终端类型不一致、用户短时间消费多款业务/用户短时间内发起多款业务计费请求、启动游戏至第一次消费时间短、最后一次消费至退出游戏时间短、用户短时间多次消费一款业务/用户短时间内多次发起一款业务的计费请求、日消费金额、付费活跃度(最近60天付费次数)、使用活跃度(最近60天游戏使用次数)。
非真实型账户是服务商自刷卡消费的卡号。非真实型账户的账户信息包括以下数据信息的部分或者全部:月累计消费金额、月累计消费次数、月累计消费业务数、月累计消费内容提供商(CP)数、月累计消费天数、日均消费金额、日均消费次数、日均消费业务数、日均消费CP数、月号段用户数、11次号段消费次数、7次号段消费次数、4次号段消费次数、2次号段消费次数。
在步骤102中,根据账户信息的类型选取拟合度最高的数据挖掘模型为初阶模型的过程分为两步:根据账户信息的类型,为每种账户信息的类型选取对应的第一数据挖掘模型,根据第一数据挖掘模型生成数据挖掘模型组;在数据挖掘模型组中针对所有账户信息的类型选取拟合度最高的数据挖掘模型为初阶模型。
为每种账户信息的类型对应选取拟合度最高的数据挖掘模型为第一数据挖掘模型时,首先需使用第一历史数据组中的数据训练、验证各种数据挖掘模型,从各种数据挖掘模型中选取最优的一种。该方案具体实施过程为:使用第一历史数据组中的第三数据集合训练各种数据挖掘模型后,使用第一历史数据组中的第四数据集合验证该数据挖掘模型;选取所述账户信息的类型对应的拟合度最高的数据挖掘模型为第一数据挖掘模型。
在将第一历史数据组划分为第三数据集合和第四数据集合时,两个数据集合可以由重复也可以相互独立,划分时的划分逻辑可有多种,例如:可依据时间先后进行划分,以上月数据为第三数据集合、以当月数据为第四数据集合。另外,上述技术方案中,在将第二历史数据组划分为第一数据集合和第二数据集合时,两个数据集合的划分方法与将第一历史数据组划分为第三数据集合和第四数据集合的方法相同。
具体地,当为消费敏感型账户选取拟合度最高的数据挖掘模型时,首先将第一历史数据组划分为两个集合:训练数据集和验证数据集。之后,将这两个集合输入数据挖掘软件IBM SPSS Modeler来选取拟合度最高的数据挖掘模型。
其中,训练数据集中的数据内容包括:9月投诉用户,8至9月消费行为,输入数据主要为9月数据和两个月累计数据,维度包括:月消费金额、月消费次数、月消费天数、月6元至10元道具付费次数、月10元至20元道具付费次数、月20元及以上道具付费次数、月最高付费单价。
验证数据集中的数据内容包括:10月投诉用户,9-10月消费行为,输入数据主要为10月数据和两个月累计数据,维度包括:月消费金额、月消费次数、月消费天数、月6元至10元道具付费次数、月10元至20元道具付费次数、月20元及以上道具付费次数、月最高付费单价。
通过训练数据集和验证数据集进行处理后,各种数据挖掘模型的拟合度数据如表1至表5。其中,表1为数据挖掘模型C5.0的拟合度数据;表2为数据挖掘模型QUEST的拟合度数据;表3为数据挖掘模型CRT的拟合度数据;表4为数据挖掘模型Logistic的拟合度数据;表5为数据挖掘模型自动分类器的拟合度数据。表1至表5中的建模过程即训练过程。
表1数据挖掘模型C5.0的拟合度数据
表2数据挖掘模型QUEST的拟合度数据
表3数据挖掘模型CRT的拟合度数据
表4数据挖掘模型Logistic的拟合度数据
表5数据挖掘模型自动分类器的拟合度数据
从表1至表5的数据可知,在建模和验证过程中,数据挖掘模型C5.0对于有投诉的判定正确率最高,其中,数据挖掘模型C5.0在建模阶段对有投诉的判定正确率为40.28%,在验证阶段对于有投诉的判定正确率为47.11%。
在本发明实施例中,为订购异常型账户选取拟合度最高的数据挖掘模型时,按日统计的数据样本中异常订购用户和正常订购用户的消费数据数量为221048条。选取其中63365个记录作为建模数据,其中49465个记录为正常订购用户行为、13900个记录为异常订购用户行为。
通过SPSS Statistics采用CRT算法,数据集分为训练集和测试集,两者比例为7:3。训练集用于训练模型,测试集用于验证模型。采用CRT算法处理样本得到的拟合度数据如表6所示。
表6采用CRT算法处理样本得到的拟合度数据
同样通过预设模型进行训练和校验,确定决策树模型为拟合度最高的预设模型,利用决策树模型做数据分析结果如图2所示。
在经过验证后,将选取准确率>90%的规则作为异常订购用户的判定依据,其规则分别“5分钟内用户付费次数(max)>=4次”且“日消费金额>=40元”且“1天付费次数>=9次”,或者为“1分钟内用户付费次数(max)>=3次”且“5分钟内用户付费次数(max)>=4次”且“日消费金额>99元”。
在本发明实施例中,为非真实型账户选取拟合度最高的数据挖掘模型时,选取的样本源包括94277个用户,其中,拨测到的停机、关机、无法接通、空号等状态异常的号码的数量为2850个。
如表7所示,通过不同的数据挖掘模型对样本数据进行训练和校验,确定决策树模型为拟合度最高的预设模型。
表7采用不同数据挖掘模型处理样本数据得到的拟合度数据
采用CRT算法处理样本得到的拟合度数据如表8所示。其中,按照CRT算法对数据样本进行分析,其中70%作为训练集、30%作为验证集,数据准确性为79.9%,其中真实用户准确度为86%,非真实用户准确度为62%。
表8采用CRT算法处理样本得到的拟合度数据
利用决策树模型做数据分析结果如图3所示。经过验证后的分析结果如表9所示,其中,号段号码数>10.5的准确率最高,为97.6%,号段号码数>7.5、号段号码数>6.5的准确性也较高达90%左右,但是整体占比较小。为提升非真实用户的整体判定占比,需增加其他维度进行分析,故最终号段号码数门限值定为准确率最高的11、准确率较高的下限值7、整体占比最高值的2以及号段中间值4。
表9使用决策树模型的不同号段号码数的准确率
在步骤103中,根据初阶模型添加、删除或细化第一历史数据组中的账户信息的项目,可以生成新的历史数据组,即第二历史数据组。
在使用风控模型识别异常用户后,可以根据识别出的用户的类型对进行处理,例如针对消费敏感类用户,可以调整其计费策略;针对非真实用户和异常订购类用户则可以进行拉黑或拉灰处理等。
本发明实施例所提供的风控模型训练方法,获取已知结果的历史数据组后,根据所述账户信息的类型选取拟合度最高的初阶模型;使用所述第二历史数据组中的数据训练并验证所述初阶模型后,根据验证结果选取风控模型,并使用所述风控模型识别异常用户。该技术方案可以准确识别付费业务运行过程中出现的异常用户,降低投诉率。
如图4所示,本发明实施例提供的风控模型训练装置包括:
获取单元410,用于获取已知结果的第一历史数据组,第一历史数据组包括异常用户的账户信息;
第一选取单元420,用于根据账户信息的类型选取拟合度最高的数据挖掘模型为初阶模型;
生成单元430,用于使用初阶模型调整第一历史数据中的账户信息的维度,生成第二历史数据组;
第二选取单元440,用于使用第二历史数据组中的第一数据集合训练初阶模型后,使用第二历史数据组中的第二数据集合验证初阶模型,根据验证结果选取风控模型,所述风控模型用于识别话费支付中异常用户。
本发明实施例中,上述数据挖掘模型应用在数据挖掘软件中,其中,本发明实施例中的数据挖掘模型的类型包括如下至少一种:CRT、C5.0、CHAID、Logistic、SVM、自动分类器和贝叶斯网络,且并不局限于这八种类型。
获取单元410获取的第一历史数据组中,异常用户的账户信息与异常账户的类型相关。异常账户按照账户出现扣费异常的原因可以分为不同的种类。账户信息包括多种类型,在本发明实施例中的,账户类型包括消费敏感型、订购异常型、非真实型三种,但在实际应用中并不局限于此。
其中,消费敏感型账户对付费业务例如游戏类业务消费金额的敏感度较高,当消费金额超过敏感值时,用户的投诉的可能性将大幅增大。订购异常型账户因为合作方的违规扣费等出现过财产损失。非真实型账户是服务商自刷卡消费的卡号。
第一选取单元420包括生成子单元421和选取子单元422,其中,
生成子单元421,用于根据账户信息的类型,为每种账户信息的类型选取对应的第一数据挖掘模型,根据第一数据挖掘模型生成数据挖掘模型组;
选取子单元422,用于在数据挖掘模型组中针对所有账户信息的类型选取拟合度最高的数据挖掘模型为初阶模型。
生成子单元421为每种账户信息的类型对应选取对应的第一数据挖掘模型时,首先需使用第一历史数据组中的数据训练、验证各种数据挖掘模型,从各种数据挖掘模型中选取最优的一种。具体地,生成子单元421使用第一历史数据组中的第三数据集合训练各种数据挖掘模型后,使用第一历史数据组中的第四数据集合验证数据挖掘模型;选取账户信息的类型对应的拟合度最高的数据挖掘模型为第一数据挖掘模型。
在将第一历史数据组划分为第三数据集合和第四数据集合时,两个数据集合可以由重复也可以相互独立,划分时的划分逻辑可有多种,例如:可依据时间先后进行划分,以上月数据为第三数据集合、以当月数据为第四数据集合。另外,上述技术方案中,在将第二历史数据组划分为第一数据集合和第二数据集合时,两个数据集合的划分方法与将第一历史数据组划分为第三数据集合和第四数据集合的方法相同。
具体地,当为消费敏感型账户选取拟合度最高的数据挖掘模型时,首先将第一历史数据组划分为两个集合:训练数据集和验证数据集。之后,将这两个集合输入数据挖掘软件IBM SPSS Modeler来选取拟合度最高的数据挖掘模型。
在本发明实施例中,为订购异常型账户选取拟合度最高的数据挖掘模型时,按日统计的数据样本中异常订购用户和正常订购用户的消费数据数量为221048条。选取其中63365个记录作为建模数据,其中49465个记录为正常订购用户行为、13900个记录为异常订购用户行为。
通过SPSS Statistics采用CRT算法,数据集分为训练集和测试集,两者比例为7:3。训练集用于训练模型,测试集用于验证模型。
同样通过预设模型进行训练和校验,确定决策树模型为拟合度最高的预设模型,利用决策树模型做数据分析结果如图2所示。
在本发明实施例中,为非真实型账户选取拟合度最高的数据挖掘模型时,选取的样本源包括94277个用户,其中,拨测到的停机、关机、无法接通、空号等状态异常的号码的数量为2850个。
通过不同的数据挖掘模型对样本数据进行训练和校验,确定决策树模型为拟合度最高的预设模型。利用决策树模型做数据分析结果如图3所示。
生成单元430根据初阶模型添加、删除或细化第一历史数据组中的账户信息的项目,可以生成新的历史数据组,即第二历史数据组。
使用风控模型识别异常用户后,可以根据识别出的用户的类型对进行处理,例如针对消费敏感类用户,可以调整其计费策略;针对非真实用户和异常订购类用户则可以进行拉黑或拉灰处理等。
本发明实施例所提供的风控模型训练装置,获取已知结果的历史数据组后,根据所述账户信息的类型选取拟合度最高的初阶模型;使用所述第二历史数据组中的数据训练并验证所述初阶模型后,根据验证结果选取风控模型,并使用所述风控模型识别异常用户。该技术方案可以准确识别付费业务运行过程中出现的异常用户,降低投诉率。
实际应用中,获取单元410、第一选取单元420、生成单元430、第二选取单元440、生成子单元421以及选取子单元422均可由位于风控模型训练装置上的中央处理器(CPU,Central Processing Unit)、微处理器(MPU,Micro Processor Unit)、数字信号处理器(DSP,Digital Signal Processor)、或现场可编程门阵列(FPGA,Field ProgrammableGate Array)等实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (10)
1.一种风控模型训练方法,其特征在于,所述方法包括:
获取已知结果的第一历史数据组,所述第一历史数据组包括异常用户的账户信息;
根据所述账户信息的类型选取拟合度最高的数据挖掘模型为初阶模型;
使用所述初阶模型调整所述第一历史数据中的账户信息的维度,生成第二历史数据组;
使用所述第二历史数据组中的第一数据集合训练所述初阶模型后,使用所述第二历史数据组中的第二数据集合验证所述初阶模型,根据验证结果选取风控模型,所述风控模型用于识别话费支付中异常用户。
2.根据权利要求1所述的方法,其特征在于,所述账户信息包括多种类型;
所述根据所述账户信息的类型选取拟合度最高的数据挖掘模型为初阶模型,包括:
根据所述账户信息的类型,为每种所述账户信息的类型选取对应的第一数据挖掘模型,根据所述第一数据挖掘模型生成数据挖掘模型组;
在所述数据挖掘模型组中针对所有所述账户信息的类型选取拟合度最高的数据挖掘模型为初阶模型。
3.根据权利要求2所述的方法,其特征在于,所述账户信息的类型包括如下至少一种:消费敏感型、订购异常型、非真实型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述账户信息的类型,为每种所述账户信息的类型选取对应的第一数据挖掘模型,包括:
使用所述第一历史数据组中的第三数据集合训练各种数据挖掘模型后,使用所述第一历史数据组中的第四数据集合验证所述数据挖掘模型;
选取所述账户信息的类型对应的拟合度最高的数据挖掘模型为第一数据挖掘模型。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述数据挖掘模型的类型包括如下至少一种:CRT、C5.0、CHAID、Logistic、SVM、自动分类器和贝叶斯网络。
6.一种风控模型训练装置,其特征在于,所述装置包括:
获取单元,用于获取已知结果的第一历史数据组,所述第一历史数据组包括异常用户的账户信息;
第一选取单元,用于根据所述账户信息的类型选取拟合度最高的数据挖掘模型为初阶模型;
生成单元,用于使用所述初阶模型调整所述第一历史数据中的账户信息的维度,生成第二历史数据组;
第二选取单元,用于使用所述第二历史数据组中的第一数据集合训练所述初阶模型后,使用所述第二历史数据组中的第二数据集合验证所述初阶模型,根据验证结果选取风控模型,所述风控模型用于识别话费支付中异常用户。
7.根据权利要求6所述的装置,其特征在于,所述账户信息包括多种类型;所述第一选取单元包括:
生成子单元,用于根据所述账户信息的类型,为每种所述账户信息的类型选取对应的第一数据挖掘模型,根据所述第一数据挖掘模型生成数据挖掘模型组;
选取子单元,用于在所述数据挖掘模型组中针对所有所述账户信息的类型选取拟合度最高的数据挖掘模型为初阶模型。
8.根据权利要求7所述的装置,其特征在于,所述账户信息的类型包括如下至少一种:消费敏感型、订购异常型、非真实型。
9.根据权利要求8所述的装置,其特征在于,所述生成子单元还用于:
使用所述第一历史数据组中的第三数据集合训练各种数据挖掘模型后,使用所述第一历史数据组中的第四数据集合验证所述数据挖掘模型;
选取所述账户信息的类型对应的拟合度最高的数据挖掘模型为第一数据挖掘模型。
10.根据权利要求6至9任一项所述的装置,其特征在于,所述数据挖掘模型的类型包括如下至少一种:CRT、C5.0、CHAID、Logistic、SVM、自动分类器和贝叶斯网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710063767.2A CN106875185A (zh) | 2017-02-03 | 2017-02-03 | 一种风控模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710063767.2A CN106875185A (zh) | 2017-02-03 | 2017-02-03 | 一种风控模型训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106875185A true CN106875185A (zh) | 2017-06-20 |
Family
ID=59165764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710063767.2A Pending CN106875185A (zh) | 2017-02-03 | 2017-02-03 | 一种风控模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106875185A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108663582A (zh) * | 2017-11-30 | 2018-10-16 | 全球能源互联网研究院有限公司 | 一种变压器的故障诊断方法及系统 |
CN109344583A (zh) * | 2018-08-22 | 2019-02-15 | 阿里巴巴集团控股有限公司 | 阈值确定及核身方法、装置、电子设备及存储介质 |
CN109598479A (zh) * | 2018-10-25 | 2019-04-09 | 北京奇虎科技有限公司 | 一种账单提取方法、装置、电子设备及介质 |
WO2020042503A1 (zh) * | 2018-08-27 | 2020-03-05 | 深圳壹账通智能科技有限公司 | 风控系统的验证方法、装置、设备及存储介质 |
CN111861703A (zh) * | 2020-07-10 | 2020-10-30 | 深圳无域科技技术有限公司 | 数据驱动的风控策略规则生成方法及系统、风险控制方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102065449A (zh) * | 2010-12-13 | 2011-05-18 | 哈尔滨工业大学 | 一种基于聚类ls-svm的移动通信话务量预测方法 |
CN103116711A (zh) * | 2013-03-11 | 2013-05-22 | 华北电力大学(保定) | 基于辐照度特征参数的天气类型辨识方法 |
CN103559655A (zh) * | 2013-11-15 | 2014-02-05 | 哈尔滨工业大学 | 基于数据挖掘的微网新型馈线负荷的预测方法 |
-
2017
- 2017-02-03 CN CN201710063767.2A patent/CN106875185A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102065449A (zh) * | 2010-12-13 | 2011-05-18 | 哈尔滨工业大学 | 一种基于聚类ls-svm的移动通信话务量预测方法 |
CN103116711A (zh) * | 2013-03-11 | 2013-05-22 | 华北电力大学(保定) | 基于辐照度特征参数的天气类型辨识方法 |
CN103559655A (zh) * | 2013-11-15 | 2014-02-05 | 哈尔滨工业大学 | 基于数据挖掘的微网新型馈线负荷的预测方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108663582A (zh) * | 2017-11-30 | 2018-10-16 | 全球能源互联网研究院有限公司 | 一种变压器的故障诊断方法及系统 |
CN109344583A (zh) * | 2018-08-22 | 2019-02-15 | 阿里巴巴集团控股有限公司 | 阈值确定及核身方法、装置、电子设备及存储介质 |
CN109344583B (zh) * | 2018-08-22 | 2020-10-23 | 创新先进技术有限公司 | 阈值确定及核身方法、装置、电子设备及存储介质 |
US11074336B2 (en) | 2018-08-22 | 2021-07-27 | Advanced New Technologies Co., Ltd. | Threshold determining and identity verification method, apparatus, electronic device, and storage medium |
WO2020042503A1 (zh) * | 2018-08-27 | 2020-03-05 | 深圳壹账通智能科技有限公司 | 风控系统的验证方法、装置、设备及存储介质 |
CN109598479A (zh) * | 2018-10-25 | 2019-04-09 | 北京奇虎科技有限公司 | 一种账单提取方法、装置、电子设备及介质 |
CN109598479B (zh) * | 2018-10-25 | 2024-04-05 | 三六零科技集团有限公司 | 一种账单提取方法、装置、电子设备及介质 |
CN111861703A (zh) * | 2020-07-10 | 2020-10-30 | 深圳无域科技技术有限公司 | 数据驱动的风控策略规则生成方法及系统、风险控制方法及系统 |
CN111861703B (zh) * | 2020-07-10 | 2024-05-10 | 深圳无域科技技术有限公司 | 数据驱动的风控策略规则生成方法及系统、风险控制方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106875185A (zh) | 一种风控模型训练方法及装置 | |
CN107766929B (zh) | 模型分析方法及装置 | |
CN108846520A (zh) | 贷款逾期预测方法、装置以及计算机可读存储介质 | |
CN109978538A (zh) | 确定欺诈用户、训练模型、识别欺诈风险的方法及装置 | |
CN110895758B (zh) | 存在作弊交易的信用卡账户的筛选方法、装置及系统 | |
CN108460523A (zh) | 一种风控规则生成方法和装置 | |
Schreyer et al. | Adversarial learning of deepfakes in accounting | |
US11042930B1 (en) | Insufficient funds predictor | |
CN108491474A (zh) | 一种数据分类方法、装置、设备及计算机可读存储介质 | |
CN106649517A (zh) | 数据挖掘方法、装置及系统 | |
CN108711047A (zh) | 一种自动还款方法、系统及终端设备 | |
CN109308615B (zh) | 基于统计序列特征的实时欺诈交易检测方法、系统、存储介质及电子终端 | |
CN109102396A (zh) | 一种用户信用评级方法、计算机设备及可读介质 | |
CN110060053A (zh) | 一种识别方法、设备及计算机可读介质 | |
CN109583978A (zh) | 一种识别虚开发票企业的方法、装置及设备 | |
CN110533521A (zh) | 动态贷后预警方法、装置、设备及可读存储介质 | |
CN106910054A (zh) | 一种支付业务数据处理的方法和装置 | |
CN111242319A (zh) | 模型预测结果的解释方法和装置 | |
US20130013506A1 (en) | Variable Service Fee For Overdraft Protection | |
CN110069545A (zh) | 一种行为数据评估方法及装置 | |
CN105245351A (zh) | 一种计费方法及装置 | |
CN118134652A (zh) | 一种资产配置方案生成方法、装置、电子设备及介质 | |
CN106485521A (zh) | 用户信用度评估方法及装置 | |
CN112634048A (zh) | 一种反洗钱模型的训练方法及装置 | |
CN116228431A (zh) | 一种异常交易账户确定方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170620 |
|
RJ01 | Rejection of invention patent application after publication |