CN113222732A - 信息处理方法、装置、设备及存储介质 - Google Patents
信息处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113222732A CN113222732A CN202110536768.0A CN202110536768A CN113222732A CN 113222732 A CN113222732 A CN 113222732A CN 202110536768 A CN202110536768 A CN 202110536768A CN 113222732 A CN113222732 A CN 113222732A
- Authority
- CN
- China
- Prior art keywords
- target user
- data
- user
- time sequence
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 37
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 230000006399 behavior Effects 0.000 claims abstract description 220
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000005070 sampling Methods 0.000 claims description 73
- 238000012549 training Methods 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 14
- 230000000694 effects Effects 0.000 description 22
- 238000012550 audit Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 12
- 230000000306 recurrent effect Effects 0.000 description 11
- 238000012706 support-vector machine Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000003542 behavioural effect Effects 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000005291 magnetic effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 235000019580 granularity Nutrition 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000002364 input neuron Anatomy 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 238000013058 risk prediction model Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007474 system interaction Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Marketing (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种信息处理方法、装置、设备及存储介质,该方法包括:获取目标用户的历史数据,历史数据包括画像数据和行为数据,根据画像数据,确定目标用户的画像特征之间的关联关系,根据行为数据,确定目标用户的行为之间的时序关系,根据关联关系及时序关系,预测目标用户对应各属性的概率值,基于概率值,预测目标用户的目标属性。本申请能够更加准确地预测目标用户的目标属性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种信息处理方法、装置、设备 及存储介质。
背景技术
面对互联网金融业务中的潜在风险,金融风险审计将审计力量着重放在 高风险领域,力求规避审计风险。预测金融审计中的金融风险事项,对于提 高金融治理水平、维护国家金融安全具有重要的作用。
目前,预测金融风险的主要方法是通过长期观测某类型的风险事项,以 专家经验的工作方式对风险事项进行预测,即专家在长时间对于某类型的风 险事项进行审计工作的过程中,会从问题发生的用户或机构上,总结出容易 发生此类问题的用户特征和前置条件,从而对具备了特定的用户特征或特定 前置条件的对象进行风险事项的预测。但是,上述基于专家经验通过人工对 金融风险进行预测的方式,效率低,且不能够准确地预测金融风险。
发明内容
本申请提供一种信息处理方法、装置、设备及存储介质,以解决基于专 家经验通过人工对金融风险进行预测的方式,存在的效率低,且不能够准确 地预测金融风险的问题。
第一方面,本申请提供一种信息处理方法,包括:
获取目标用户的历史数据,历史数据包括画像数据和行为数据;
根据画像数据,确定目标用户的画像特征之间的关联关系;
根据行为数据,确定目标用户的行为之间的时序关系;
根据关联关系及时序关系,预测目标用户对应各属性的概率值;
基于概率值,预测目标用户的目标属性。
可选的,根据行为数据,确定目标用户的行为之间的时序关系,包括: 确定目标用户在各时刻对应的行为数据;针对每一时刻对应的行为数据进行 独热编码,生成目标用户的行为特征集;根据行为特征集,确定目标用户的 行为之间的时序关系。
可选的,根据行为特征集,确定目标用户的行为之间的时序关系,包括: 将行为特征集输入至组合预测模型包括的时序关系模型,确定目标用户的行 为之间的时序关系,时序关系模型用于反映用户在不同时刻的行为之间的时 序关系。
可选的,根据画像数据,确定目标用户的画像特征之间的关联关系,包 括:根据画像数据,生成目标用户的画像特征集;将画像特征集输入至组合 预测模型包括的关联关系模型,确定目标用户的画像特征之间的关联关系, 关联关系模型用于反映用户的画像特征间的关联关系。
可选的,关联关系和时序关系均表现为概率值,根据关联关系及时序关 系,预测目标用户对应各属性的概率值,包括:将关联关系包含的概率值和 时序关系包含的概率值进行加权处理,预测目标用户对应各属性的概率值。
第二方面,本申请提供一种组合预测模型的训练方法,组合预测模型 包括时序关系模型和关联关系模型,该训练方法包括:
获取样本数据,样本数据包括多个抽样用户的画像数据和行为数据;
针对每一抽样用户,执行以下操作:
根据抽样用户的画像数据,生成画像特征集;
根据抽样用户的行为数据,生成行为特征集;
将画像特征集输入关联关系模型,得到抽样用户的画像特征之间的关 联关系;
将行为特征集输入时序关系模型,得到抽样用户的行为之间的时序关系;
将关联关系包含的概率值和时序关系包含的概率值进行加权处理,预测 抽样用户对应各属性的概率值;
根据抽样用户对应各属性的概率值以及抽样用户对应的属性标识,调整 初始组合预测模型的模型参数,直至初始组合预测模型的损失值小于或等于 预设损失值,得到组合预测模型。
可选的,根据抽样用户的行为数据,生成行为特征集,包括:确定抽样 用户在各时刻对应的行为数据;针对每一时刻对应的行为数据进行独热编码, 生成抽样用户的行为特征集。
第三方面,本申请提供一种信息处理装置,包括:
获取模块,用于获取目标用户的历史数据,历史数据包括画像数据和行 为数据;
第一确定模块,用于根据画像数据,确定目标用户的画像特征之间的关 联关系;
第二确定模块,用于根据行为数据,确定目标用户的行为之间的时序关 系;
第一预测模块,用于根据关联关系及时序关系,预测目标用户对应各属 性的概率值;
第二预测模块,用于基于概率值,预测目标用户的目标属性。
可选的,第二确定模块具体用于:确定目标用户在各时刻对应的行为数 据;针对每一时刻对应的行为数据进行独热编码,生成目标用户的行为特征 集;根据行为特征集,确定目标用户的行为之间的时序关系。
可选的,第二确定模块具体用于:将行为特征集输入至组合预测模型包 括的时序关系模型,确定目标用户的行为之间的时序关系,时序关系模型用 于反映用户在不同时刻的行为之间的时序关系。
可选的,第一确定模块具体用于:根据画像数据,生成目标用户的画像 特征集;将画像特征集输入至组合预测模型包括的关联关系模型,确定目标 用户的画像特征之间的关联关系,关联关系模型用于反映用户的画像特征间 的关联关系。
可选的,第一预测模块具体用于:将关联关系包含的概率值和时序关系 包含的概率值进行加权处理,预测目标用户对应各属性的概率值。
第四方面,本申请提供一种组合预测模型的训练装置,组合预测模型 包括时序关系模型和关联关系模型,该训练装置包括:
获取模块,用于获取样本数据,样本数据包括多个抽样用户的画像数 据和行为数据;
训练模块,用于针对每一抽样用户,执行以下操作:
根据抽样用户的画像数据,生成画像特征集;
根据抽样用户的行为数据,生成行为特征集;
将画像特征集输入关联关系模型,得到抽样用户的画像特征之间的关 联关系;
将行为特征集输入时序关系模型,得到抽样用户的行为之间的时序关系;
将关联关系包含的概率值和时序关系包含的概率值进行加权处理,预测 抽样用户对应各属性的概率值;
根据抽样用户对应各属性的概率值以及抽样用户对应的属性标识,调整 初始组合预测模型的模型参数,直至初始组合预测模型的损失值小于或等于 预设损失值,得到组合预测模型。
可选的,训练模块具体用于:确定抽样用户在各时刻对应的行为数据; 针对每一时刻对应的行为数据进行独热编码,生成抽样用户的行为特征集。
第五方面,本申请提供一种电子设备,包括:存储器和处理器;
存储器用于存储程序指令;
处理器用于调用存储器中的程序指令执行如本申请第一方面所述的信息 处理方法。
第六方面,本申请提供一种电子设备,包括:存储器和处理器;
存储器用于存储程序指令;
处理器用于调用存储器中的程序指令执行如本申请第二方面所述的组合 预测模型的训练方法。
第七方面,本申请提供一种计算机可读存储介质,计算机可读存储介质 中存储有计算机程序指令,计算机程序指令被执行时,实现如本申请第一方 面所述的信息处理方法。
第八方面,本申请提供一种计算机可读存储介质,计算机可读存储介质 中存储有计算机程序指令,计算机程序指令被执行时,实现如本申请第二方 面所述的组合预测模型的训练方法。
第九方面,本申请提供一种计算机程序产品,包括计算机程序,该计算 机程序被处理器执行时实现如本申请第一方面所述的信息处理方法。
第十方面,本申请提供一种计算机程序产品,包括计算机程序,该计算 机程序被处理器执行时实现如本申请第二方面所述的组合预测模型的训练方 法。
本申请提供的信息处理方法、装置、设备及存储介质,通过获取目标用 户的历史数据,历史数据包括画像数据和行为数据,根据画像数据,确定目 标用户的画像特征之间的关联关系,根据行为数据,确定目标用户的行为之 间的时序关系,根据关联关系及时序关系,预测目标用户对应各属性的概率 值,基于概率值,预测目标用户的目标属性。由于本申请在预测目标用户的 目标属性时,能够结合目标用户的画像数据和行为数据,根据画像数据获得 的画像特征之间的关联关系以及根据行为数据获得的行为之间的时序关系, 预测目标用户对应各属性的概率值,与基于专家经验通过人工对金融风险进 行预测的方式相比,效率更高,且能够更加准确地预测目标用户的目标属性 (即金融风险)。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下 面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在 不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的确定风险用户的流程图;
图2为本申请一实施例提供的应用场景示意图;
图3为本申请一实施例提供的信息处理方法的流程图;
图4为本申请另一实施例提供的信息处理方法的流程图;
图5为本申请一实施例提供的对目标用户各时刻对应的行为数据进行独 热编码的示意图;
图6为本申请一实施例提供的传统的深广模型的示意图;
图7为本申请一实施例提供的改进的深广模型的示意图;
图8为本申请一实施例提供的组合预测模型的训练方法的流程图;
图9为本申请一实施例提供的通过组合预测模型预测用户风险的示意图;
图10为本申请一实施例提供的信息处理装置的结构示意图;
图11为本申请一实施例提供的组合预测模型的训练装置的结构示意图;
图12为本申请一实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申 请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于 本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获 得的所有其他实施例,都属于本申请保护的范围。
首先,对本申请涉及的部分技术术语进行解释说明:
交易流水数据,即用户的银行卡消费、转账、入账记录等。
历史行为数据,即用户的理财行为、大额转账行为、贷款行为、信用卡 消费、逾期行为等。
用户行为建模,即对于复杂的用户行为(操作行为,交易行为)进行抽 象表达的过程。
时间序列特征,即对于历史交易数据这一类具有时间顺序性的数据提取 到的与时间相关的特征,表现为一个特征序列(token)。
多标签分类,即对于目标集同时标注多个标签,可以提高分类或预测模 型的准确率。
面对互联网金融业务中的潜在风险,金融审计突出风险审计已是大势所 趋。它将审计力量着重放在高风险领域,力求规避审计风险。预测金融审计 中的风险事项,加强对重点金融机构审计监督,防范和化解金融风险,对于 提高金融治理水平、维护国家金融安全具有重要的作用。风险审计需要通过 海量的用户历史数据(比如用户基本信息、交易流水数据、历史行为数据等) 识别潜在的具有风险嫌疑的用户。
随着银行业的发展壮大,在银行内外有着各种部门机构对银行内部员工 和外部用户进行金融审计。金融风险审计将过去的以贷款风险审计为主扩大 到经营风险、市场风险、盈利风险和政策风险等更多领域的全面风险审计, 主要关注重大和可疑金融业务,避免审计人员陷于大量繁杂的金融业务而失 去审计目标。对金融风险进行系统的分析和评价,主要分析外部环境因素对 内部控制的影响,将发觉风险的时点提前到事件发生之前,是减少风险事件 发生概率、维系银行健康发展的重要课题。图1为本申请一实施例提供的确 定风险用户的流程图。如图1所示,用户A在某银行开户一张储蓄卡后,会 在该账户信息中存储申办人的个人信息和账户信息。银行会在用户A对该账 户进行每一次交易时,将交易的信息存储在交易流水表中。用户A在某项网 络活动平台会绑定交易账号,并参与该项网络活动,会根据该项网络活动进 行转账行为,在交易明细表留下交易记录。审计人员根据用户A的账户交易 明细的特征(比如:快入快出、多地转入、零存整取等),将用户A纳入该项网络活动的高风险名单,并实施现场审计,审计证实用户A涉及该项网络 活动。此过程中的用户A即为涉及某项网络活动的金融风险客户,这不仅可 能给银行带来名誉风险,还可能给个人的家庭带来永久的伤害。
另外,还有以风险为导向,对业务庞杂、数据众多的金融企业进行的金 融创新审计,对于金融审计者来说任务艰巨。金融创新审计的重点是审查高 度复杂和投机性强的交易及表外业务等创新业务,目的是为防范和化解由金 融创新所带来的各种金融风险服务。金融创新审计从事后间断性审计向全过 程在线持续审计转变。在日新月异的互联网金融背景下的金融创新审计需要 调整审计对象,将网络平台的审计纳入审计范围,降低区块链金融的风险, 不断满足互联网金融业务规制的要求。
目前银行审计工作中,对于预测风险的方案主要为:长期观测某类型的 风险事项,以专家经验的工作方式对风险事项进行预测。这种方案的流程大 致可以分为三个步骤:风险线索获取、专家审计和形成预测模型。其中,风 险线索获取是指,从原始数据中,根据特定风险事项的特征进行编模获取, 例如:要获取“在个人贷款一个月内,将贷款资金流入股市”的风险线索, 将交易明细数据和个贷借款凭证基础表进行连表比对,得到风险线索数据。 专家审计阶段是指,某一审计人员在常年对于特定几个风险事项审计,会知 晓对于特定人群,发生此类风险的可能性非常高,例如:对于“在个人贷款 一个月内,将贷款资金流入股市”,男性人数大于女性人数,年龄集中分布在 40岁左右。最后,对于效果优异的关联方法建立预测模型,例如:某审计平 台会按月运算“信用卡逾期超过5天的机构和用户名单”作为用户黑名单之 一,常年储备和使用。上述专家经验法基于专家的先验知识,根据经验做出 判断。这种人工标注的方法在数据量巨大的情景下费时费力,需要消耗巨大 的人力成本和时间成本,且这种方法由于带有较强的主观性,且在数据量巨 大的情况下难以发现隐藏的风险预测影响因素,对于未确定原因的风险类别 难以做出准确地识别和预测。对于专家经验的方式而言,只能从表面的数据 进行总结,例如:个人信息、资金流水信息等,无法全方位根据用户行为信 息,对风险线索发生概率进行总结。
还可以基于传统机器学习方法构建模型进行风险预测。这种方法通常包 括数据处理,模型构建,模型优化和结果预测几个部分。数据处理包括两个 部分,根据用户数据计算特征以及对历史数据进行标注(此处指标注为哪类 风险)。模型构建则是根据不同的机器学习算法(支持向量机、朴素贝叶斯等) 构建模型,模型优化则是根据原始标注过的数据划分为训练集和验证集来训 练模型,最后是优化模型,优化模型的参数,得到最终预测准确率最高的模 型,并使用该模型进行结果预测。对于基于传统机器学习算法构建模型的预测方法而言,存在以下问题:(1)特征也需要人工计算,缺乏先验知识难以 提出具有代表性的特征;(2)在处理大数据问题时,算法的复杂性和计算能 力不够,不适用于大数据场景;(3)无法贴合正常的用户交易情境,由于没 有考虑到银行用户行为的连续性和行为发生的场景,所以构建出来的模型往 往难以准确预测用户风险;(4)忽视了用户的特性,即用户的个性对于其行 为和最终风险产生带来的影响,不同性别,不同年龄,不同背景,不同职业,不同经济实力的人肯定具有不同的风险。
基于上述问题,本申请提供一种信息处理方法、装置、设备及存储介质, 通过用户的历史行为形成用户基于时间顺序的行为链(即行为序列),根据 用户的带有时间特征的行为序列和带有个性化特征的用户基本信息数据构建 风险预测模型,从而更加准确地预测用户风险。
以下,首先对本申请提供的方案的应用场景进行示例说明。
图2为本申请一实施例提供的应用场景示意图。如图2所示,本应用场 景中,客户端210向服务器220发起针对一用户的金融风险预测请求,服务 器220对该用户进行金融风险预测。其中,服务器220对该用户进行金融风 险预测的具体实现过程可以参见下述各实施例的方案。
需要说明的是,图2仅是本申请实施例提供的一种应用场景的示意图, 本申请实施例不对图2中包括的设备进行限定,也不对图2中设备之间的位 置关系进行限定。例如,在图2所示的应用场景中,还可以包括数据存储设 备,该数据存储设备相对客户端210或者服务器备220可以是外部存储器, 也可以是集成在客户端210或者服务器220中的内部存储器。
接下来,通过具体实施例介绍信息处理方法。
图3为本申请一实施例提供的信息处理方法的流程图。本申请实施例的 方法可以应用于电子设备中,该电子设备可以是服务器或服务器集群等。如 图3所示,本申请实施例的方法包括:
S301、获取目标用户的历史数据,历史数据包括画像数据和行为数据。
本申请实施例中,示例性地,可以获取目标用户一段时间内的历史数据, 比如获取目标用户近10年的历史数据。该历史数据包括目标用户的行为数据, 该行为数据比如为目标用户的历史交易明细数据、资金流水数据和系统交互 行为数据等,其中,历史交易明细数据比如为目标用户的银行卡消费、转账、 入账记录等。该历史数据包括目标用户的画像数据,该画像数据比如为目标 用户的性别信息、年龄信息、资金持有信息和用户购买理财产品信息等。
S302、根据画像数据,确定目标用户的画像特征之间的关联关系。
该步骤中,在获得了目标用户的画像数据后,可以根据该画像数据,确 定目标用户的画像特征之间的关联关系。对于如何确定目标用户的画像特征 之间的关联关系,可参考相关技术或者后续实施例,此处不再赘述。
S303、根据行为数据,确定目标用户的行为之间的时序关系。
该步骤中,在获得了目标用户的行为数据后,可以根据该行为数据,确 定目标用户的行为之间的时序关系。对于如何确定目标用户的行为之间的时 序关系,可参考相关技术或者后续实施例,此处不再赘述。
S304、根据关联关系及时序关系,预测目标用户对应各属性的概率值。
在获得了目标用户的关联关系及时序关系后,可以根据该关联关系及该 时序关系,预测目标用户对应各属性的概率值。可以理解,预测目标用户对 应各属性的概率值即为预测目标用户对应各种风险的概率值。示例性地,预 测目标用户对应信用卡逾期风险的概率值、涉及某项网络活动的风险概率值 等。可以根据关联关系及时序关系,预测目标用户对应一种风险的概率值, 也可以预测目标用户对应多种风险的概率值,即同时获得目标用户对应多种 风险的概率值。对于如何预测目标用户对应各属性的概率值,可参考相关技术或者后续实施例,此处不再赘述。
S305、基于概率值,预测目标用户的目标属性。
在获得了目标用户对应各属性的概率值后,可以基于各属性的概率值, 预测目标用户的目标属性,比如可以基于目标用户产生各种风险的概率,预 测目标用户可能产生哪几类风险。示例性地,获得了目标用户对应信用卡逾 期风险的概率值比如为93.5%、涉及某项网络活动的风险概率值比如为4.1%, 则可以预测目标用户为信用卡逾期风险用户,目标用户不为涉及某项网络活 动的风险用户。
本申请实施例提供的信息处理方法,通过获取目标用户的历史数据,历 史数据包括画像数据和行为数据,根据画像数据,确定目标用户的画像特征 之间的关联关系,根据行为数据,确定目标用户的行为之间的时序关系,根 据关联关系及时序关系,预测目标用户对应各属性的概率值,基于概率值, 预测目标用户的目标属性。由于本申请实施例在预测目标用户的目标属性时, 能够结合目标用户的画像数据和行为数据,根据画像数据获得的画像特征之 间的关联关系以及根据行为数据获得的行为之间的时序关系,预测目标用户 对应各属性的概率值,与基于专家经验通过人工对金融风险进行预测的方式 相比,效率更高,且能够更加准确地预测目标用户的目标属性(即金融风险)。
图4为本申请另一实施例提供的信息处理方法的流程图。在上述实施例 的基础上,本申请实施例对如何进行信息处理进行进一步说明。如图4所示, 本申请实施例的方法可以包括:
S401、获取目标用户的历史数据,历史数据包括画像数据和行为数据。
该步骤的具体描述可以参见图3所示实施例中S301的相关描述,此处不 再赘述。
本申请实施例中,图3中S302步骤可以进一步细化为如下所述的S402 至S403两个步骤:
S402、根据画像数据,生成目标用户的画像特征集。
在获得了目标用户的画像数据后,可以根据该画像数据,生成目标用户 的画像特征集(即个性特征集)。示例性地,用户画像数据基本都是离散值, 使用向量进行表示即可。例如,画像数据为目标用户的性别信息,该性别信 息分为、男女,分别使用0、1进行表示;画像数据为目标用户的年龄信息, 则可以用不同的年龄范围区间进行表示。因此,可以根据画像数据,生成目 标用户的画像特征集。
S403、将画像特征集输入至组合预测模型包括的关联关系模型,确定目 标用户的画像特征之间的关联关系。
其中,关联关系模型用于反映用户的画像特征间的关联关系。
该步骤中,可以理解,组合预测模型为预先训练好的模型,组合预测模 型包括关联关系模型。组合预测模型可以理解为深广模型,组合预测模型包 括的关联关系模型可以理解为深广模型包括的广度模型,该广度模型反映了 用户的画像特征间的关联关系。该广度模型可以为预先训练好的任何一类可 以实现记忆机制的传统机器学习算法模型,比如为线性模型(Linear)、朴素 贝叶斯、支持向量机(Support Vector Machine,SVM)、多层感知机等。当广 度模型选用线性模型时,该线性模型表示为y=Wx+b,其中,W为权重,x 为输入,b为偏置量,y为模型的输出。该步骤中,在获得了目标用户的画像 特征集后,将画像特征集输入至组合预测模型包括的关联关系模型,可以确 定目标用户的画像特征之间的关联关系。可选的,该关联关系表现为概率值。 示例性地,将画像特征集(比如包括目标用户的性别、年龄等)输入至广度 模型(比如为SVM),则可以确定目标用户对应信用卡逾期风险的概率值比 如为90%、涉及某项网络活动的风险概率值比如为2%。
本申请实施例中,图3中S303步骤可以进一步细化为如下所述的S404 至S406三个步骤:
S404、确定目标用户在各时刻对应的行为数据。
在获得了目标用户的行为数据后,可以确定目标用户在各时刻对应的行 为数据。示例性地,可以确定目标用户在比如一个月内对应的行为数据,该 行为数据比如为用户是否发生过信用卡逾期的行为、用户是否参与过某项网 络活动的行为等。
S405、针对每一时刻对应的行为数据进行独热编码,生成目标用户的行 为特征集。
该步骤中的独热(One-Hot)编码,又称为一位有效编码,主要是采用K 位状态寄存器来对K个状态进行编码,每个状态都由他独立的寄存器位,并 且在任意时候只有一位有效。One-Hot编码是分类变量作为二进制向量的表 示。这首先要求将分类值映射到整数值,然后,每个整数值被表示为二进制 向量,除了整数的索引之外,它都是零值,根据不同分类值标记为1。例如, 红黄蓝三种颜色,使用One-Hot编码即为红(001),绿(010),蓝(100)。 该步骤中,在确定了目标用户在各时刻对应的行为数据后,可以针对每一时 刻对应的行为数据进行独热编码,生成目标用户的行为特征集(即时序行为 特征集)。具体地,根据目标用户在各时刻对应的行为数据构建出目标用户的 时序行为,并提取对应目标用户的时序行为的特征表示,即将目标用户的典 型行为按照时间序列展开,然后根据该行为的发生与否使用One-Hot进行编 码,得到N位的代码表示。示例性地,图5为本申请一实施例提供的对目标 用户各时刻对应的行为数据进行独热编码的示意图。如图5所示,在时间T0至TN-1范围内,对应每一个时间,比如时间T0,预设了不同的用户行为,如 图5中的用户行为1至用户行为M的用户行为链,判断目标用户是否出现用 户行为1至用户行为M中的用户行为,比如目标用户出现了用户行为1,则 对应One-Hot编码的最右边一位为1,其余各位均为0。通过上述方式,可以 对T0至TN-1中每一时间对应的行为数据进行独热编码,生成目标用户的行为特征集。
S406、根据行为特征集,确定目标用户的行为之间的时序关系。
在获得了目标用户的行为特征集后,可以根据该行为特征集,确定目标 用户的行为之间的时序关系。
进一步地,根据行为特征集,确定目标用户的行为之间的时序关系,可 以包括:将行为特征集输入至组合预测模型包括的时序关系模型,确定目标 用户的行为之间的时序关系,时序关系模型用于反映用户在不同时刻的行为 之间的时序关系。
可以理解,组合预测模型为预先训练好的模型,组合预测模型包括时序 关系模型。组合预测模型可以理解为深广模型,组合预测模型包括的时序关 系模型可以理解为深广模型包括的深度模型,该深度模型反映了用户在不同 时刻的行为之间的时序关系。该深度模型可以为循环神经网络(Recurrent Neural Network,RNN),这里的RNN表示一类通过加入循环层实现深度模 型的记忆机制的网络模型,比如为长短期记忆网络(Long Short-Term Memory, LSTM)、门控循环单元(Gated Recurrent Unit,GRU)、双向循环神经网络(Bidirectional-Recurrent Neural Network,Bi-RNN)、双向长短期记忆网络(Bidirectional-Long Short-Term Memory,Bi-LSTM)、基于注意力机制的循 环神经网络等。在获得了目标用户的行为特征集后,可以将行为特征集输入 至组合预测模型包括的时序关系模型,确定目标用户的行为之间的时序关系。 可选的,该时序关系表现为概率值。示例性地,深度模型为RNN,将图5所 示的目标用户的行为特征集输入至深度模型RNN,则可以确定目标用户对应 信用卡逾期风险的概率值比如为95%、涉及某项网络活动的风险概率值比如 为5%。
本申请实施例中,图3中S304步骤可以进一步细化为如下所述的S407 步骤:
S407、将关联关系包含的概率值和时序关系包含的概率值进行加权处理, 预测目标用户对应各属性的概率值。
在获得了目标用户的画像特征之间的关联关系以及目标用户的行为之间 的时序关系后,可以将关联关系包含的概率值和时序关系包含的概率值进行 加权处理,预测目标用户对应各属性的概率值。示例性地,关联关系包含的 概率值有:目标用户对应信用卡逾期风险的概率值比如为90%、涉及某项网 络活动的风险概率值比如为2%,时序关系包含的概率值有:目标用户对应信 用卡逾期风险的概率值比如为95%、涉及某项网络活动的风险概率值比如为 5%。将目标用户对应信用卡逾期风险的两个概率值90%和95%按照3:7的比 例进行加权,可以获得目标用户对应信用卡逾期风险的概率值为93.5%。将 目标用户对应涉及某项网络活动风险的两个概率值2%和5%按照3:7的比例 进行加权,可以获得目标用户对应涉及某项网络活动风险的概率值为4.1%。
S408、基于概率值,预测目标用户的目标属性。
该步骤的具体描述可以参见图3所示实施例中S301的相关描述,此处不 再赘述。
本申请实施例提供的信息处理方法,通过获取目标用户的历史数据,历 史数据包括画像数据和行为数据,根据画像数据,生成目标用户的画像特征 集,将画像特征集输入至组合预测模型包括的关联关系模型,确定目标用户 的画像特征之间的关联关系,确定目标用户在各时刻对应的行为数据,针对 每一时刻对应的行为数据进行独热编码,生成目标用户的行为特征集,根据 行为特征集,确定目标用户的行为之间的时序关系,将关联关系包含的概率 值和时序关系包含的概率值进行加权处理,预测目标用户对应各属性的概率值,基于概率值,预测目标用户的目标属性。由于本申请实施例在预测目标 用户的目标属性时,根据关联关系模型确定目标用户的画像特征之间的关联 关系,根据时序关系模型确定目标用户的行为之间的时序关系,将关联关系 包含的概率值和时序关系包含的概率值进行加权处理,预测目标用户对应各 属性的概率值,与基于专家经验通过人工对金融风险进行预测的方式相比, 效率更高,且能够更加准确地预测目标用户的目标属性(即金融风险)。
图6为本申请一实施例提供的传统的深广模型的示意图,如图6所示, 传统的深广模型包括线性模型(可以理解为广度模型)、深度神经网络(可以 理解为深度模型),其中,深度神经网络包括隐藏层,该深广模型的具体实现 可以参见相关技术,此处不再赘述。
图7为本申请一实施例提供的改进的深广模型的示意图,如图7所示, 该改进的深广模型包括支持向量机(即广度模型)、循环神经网络(即深度模 型),其中,具体地,根据提取到的特征个数可以确定输入神经元的个数和隐 藏层的层数,根据需要预测的风险类别可以确定输出神经元的个数,即可得 到循环神经网络的结构。通过循环神经网络的循环层,使得深度模型不仅具 有泛化能力,还具有记忆能力,可以根据历史数据进行预测。图7所示的改 进的深广模型即为本申请上述实施例中的组合预测模型,将目标用户的画像 特征集(即个性特征1至个性特征n)输入至支持向量机,将目标用户的行 为特征集(即时序行为特征集)输入至循环神经网络,经过S型函数(即sigmoid 函数)输出目标用户对应各风险类别(即风险类别1至风险类别m)的概率 值。
图8为本申请一实施例提供的组合预测模型的训练方法的流程图。在上 述实施例的基础上,本申请实施例对如何训练获得组合预测模型进行说明。
如图8所示,本申请实施例的方法包括:
S801、获取样本数据,样本数据包括多个抽样用户的画像数据和行为数 据。
示例性地,可以选取比如近10年(也可为其他粒度)风险审计用户的历 史数据做为样本数据,样本数据包括多个抽样用户的画像数据和行为数据。 采用比如十重交叉验证(也可以为五重交叉验证或者其他多重交叉验证,本 申请不以此为限制)将样本数据划分为训练集、测试集和验证集三部分,使 用训练集的数据训练模型,其中,使用比如网格搜索的方法对模型参数进行 调优;使用测试集的数据测试模型;使用验证集的数据验证模型。
针对每一抽样用户,执行以下步骤S802至S808:
S802、根据抽样用户的画像数据,生成画像特征集。
在获得了抽样用户的画像数据后,可以根据抽样用户的画像数据,生成 画像特征集。具体生成画像特征集的方式可以参见图4所示实施例中S402的 相关描述,此处不再赘述。
S803、根据抽样用户的行为数据,生成行为特征集。
在获得了抽样用户的行为数据后,可以根据抽样用户的行为数据,生成 行为特征集。
进一步地,根据抽样用户的行为数据,生成行为特征集,可以包括:确 定抽样用户在各时刻对应的行为数据;针对每一时刻对应的行为数据进行独 热编码,生成抽样用户的行为特征集。
示例性地,可以确定目标用户在比如一个月内对应的行为数据。具体针 对每一时刻对应的行为数据进行独热编码,生成抽样用户的行为特征集的方 式可以参见图4所示实施例中S405的相关描述,此处不再赘述。
S804、将画像特征集输入关联关系模型,得到抽样用户的画像特征之 间的关联关系。
示例性地,关联关系模型为图7所示的支持向量机,在获得了抽样用 户的画像特征集后,将该画像特征集输入支持向量机,得到抽样用户的画 像特征之间的关联关系。
S805、将行为特征集输入时序关系模型,得到抽样用户的行为之间的时 序关系。
示例性地,时序关系模型为图7所示的循环神经网络,在获得了抽样用 户的行为特征集后,将该行为特征集输入循环神经网络,得到抽样用户的行 为之间的时序关系。
S806、将关联关系包含的概率值和时序关系包含的概率值进行加权处理, 预测抽样用户对应各属性的概率值。
在获得了抽样用户的画像特征之间的关联关系以及抽样用户的行为之间 的时序关系后,可以将关联关系包含的概率值和时序关系包含的概率值进行 加权处理,预测抽样用户对应各属性的概率值。具体可以参见图4所示实施 例中S407的相关描述,此处不再赘述。
S807、根据抽样用户对应各属性的概率值以及抽样用户对应的属性标识, 调整初始组合预测模型的模型参数。
示例性地,抽样用户对应的属性标识可以理解为抽样用户对应的风险标 识,该风险标识是通过以下方式获得的:将抽样用户的样本数据进行打标, 即:首先确定时间粒度,如图5所示的T0,T0比如可以表示一个月的时间, 那么根据抽样用户对应的预测风险类别对抽样用户的样本数据进行打标,比 如T0时间对于风险类别1至风险类别m,出现了风险类别1、风险类别2和 风险类别m,则对应的风险标识(即标签)为1100...1;然后确定时间范围,如图5所示的T0至TN-1,可以从T0到TN-1分别将抽样用户的样本数据进行打 标,获得对应每一个时间的风险标识。在获得了抽样用户对应各属性的概率 值以及抽样用户对应的属性标识后,可以调整初始组合预测模型的模型参数, 具体参数调优的方式比如为网格搜索。
S808、判断初始组合预测模型的损失值是否小于或等于预设损失值。
示例性地,初始组合预测模型使用的损失函数为logistic损失函数。在基 于抽样用户对应各属性的概率值以及抽样用户对应的属性标识,对初始组合 预测模型的模型参数进行调整时,判断初始组合预测模型的损失值是否小于 或等于预设损失值。示例性地,通过反向传播算法(Back Propagation Through Time,BPTT)判断初始组合预测模型的损失值是否小于或等于预设损失值, 即获得的预测准确率是否趋于稳定,当预测准确率越来越稳定,保持在一个 较高点上下波动即为收敛了。具体通过BPTT实现初始组合预测模型收敛的 方式可以参见相关技术,此处不再赘述。
若初始组合预测模型的损失值小于或等于预设损失值,则执行步骤S809; 若初始组合预测模型的损失值大于预设损失值,则针对下一个抽样用户执行 步骤S802至S808。
S809、得到组合预测模型。
若初始组合预测模型的损失值大于预设损失值,则表示组合预测模型收 敛了,进而得到预测效果最优的参数配置和和该配置下的组合预测模型。
本申请实施例提供的组合预测模型的训练方法,由于结合了关联关系模 型和时序关系模型对目标用户的目标属性进行预测,因此,能够更加准确地 预测目标用户的目标属性。
图9为本申请一实施例提供的通过组合预测模型预测用户风险的示意图, 如图9所示,首先,获取目标用户的历史数据(即用户数据),用户数据包括 用户画像数据和用户行为数据(即时间序列数据)。根据用户画像数据,生成 目标用户的画像特征集(即用户个性特征集),将目标用户个性特征集输入至 改进的深广模型(如图7所示的改进的深广模型)包括的广度模型(比如为 支持向量机),确定目标用户的画像特征之间的关联关系。根据目标用户的时 间序列数据,进行行为建模,即将用户典型风险行为(比如理财产品购买行 为等)按照时间序列展开,得到用户行为序列,然后根据该行为的发生与否 使用One-Hot进行编码,得到目标用户行为编码表示,该目标用户行为编码 表示即为目标用户的行为特征集,也是包含时序特征的目标用户行为矩阵。 将目标用户行为矩阵输入至改进的深广模型(如图7所示的改进的深广模型) 包括的深度模型(比如为循环神经网络),确定目标用户的行为之间的时序关 系。将关联关系包含的概率值和时序关系包含的概率值进行加权处理,预测 目标用户对应各风险(需要说明的是,具体的风险类别和用户典型风险行为一一对应)的概率值,基于该概率值,预测目标用户的可能产生哪几类风险, 比如目标用户为理财产品购买风险用户。
综上,本申请提供的技术方案,至少具有如下优势:
(1)能够对用户行为进行合理的特征抽取和表示,通过分别抽取用户的 画像信息(个性特征)和历史交易信息(时序特征)构建用户完整的行为情 境。
(2)提供了一种自动预测用户风险的方法。通过将深度模型加入循环机 制,可以确保对于交易信息的记忆性,通过多标签分类预测方法改进原有模 型只能预测某一种风险出现与否的特性,实现对多种风险是否同时出现,及 出现概率的预测。
(3)可以发掘风险预测结果的隐含关系,分析用户风险的可能影响因素, 提炼作为专家经验并改进现有的预测方法。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申 请装置实施例中未披露的细节,请参照本申请方法实施例。
图10为本申请一实施例提供的信息处理装置的结构示意图,如图10所 示,本申请实施例的信息处理装置1000包括:获取模块1001、第一确定模 块1002、第二确定模块1003、第一预测模块1004和第二预测模块1005。其 中:
获取模块1001,用于获取目标用户的历史数据,历史数据包括画像数据 和行为数据。
第一确定模块1002,用于根据画像数据,确定目标用户的画像特征之间 的关联关系。
第二确定模块1003,用于根据行为数据,确定目标用户的行为之间的时 序关系。
第一预测模块1004,用于根据关联关系及时序关系,预测目标用户对应 各属性的概率值。
第二预测模块1005,用于基于概率值,预测目标用户的目标属性。
在一些实施例中,第二确定模块1003可以具体用于:确定目标用户在各 时刻对应的行为数据;针对每一时刻对应的行为数据进行独热编码,生成目 标用户的行为特征集;根据行为特征集,确定目标用户的行为之间的时序关 系。
可选的,第二确定模块1003可以具体用于:将行为特征集输入至组合预 测模型包括的时序关系模型,确定目标用户的行为之间的时序关系,时序关 系模型用于反映用户在不同时刻的行为之间的时序关系。
在一些实施例中,第一确定模块1002可以具体用于:根据画像数据,生 成目标用户的画像特征集;将画像特征集输入至组合预测模型包括的关联关 系模型,确定目标用户的画像特征之间的关联关系,关联关系模型用于反映 用户的画像特征间的关联关系。
可选的,第一预测模块1004可以具体用于:将关联关系包含的概率值和 时序关系包含的概率值进行加权处理,预测目标用户对应各属性的概率值。
本申请实施例的装置,可以用于执行上述任一方法实施例中信息处理方 法的方案,其实现原理和技术效果类似,此处不再赘述。
图11为本申请一实施例提供的组合预测模型的训练装置的结构示意图, 组合预测模型包括时序关系模型和关联关系模型。如图11所示,本申请实施 例的组合预测模型的训练装置1100包括:获取模块1101和训练模块1102。
其中:
获取模块1101,用于获取样本数据,样本数据包括多个抽样用户的画 像数据和行为数据。
训练模块1102,用于针对每一抽样用户,执行以下操作:
根据抽样用户的画像数据,生成画像特征集;
根据抽样用户的行为数据,生成行为特征集;
将画像特征集输入关联关系模型,得到抽样用户的画像特征之间的关 联关系;
将行为特征集输入时序关系模型,得到抽样用户的行为之间的时序关系;
将关联关系包含的概率值和时序关系包含的概率值进行加权处理,预测 抽样用户对应各属性的概率值;
根据抽样用户对应各属性的概率值以及抽样用户对应的属性标识,调整 初始组合预测模型的模型参数,直至初始组合预测模型的损失值小于或等于 预设损失值,得到组合预测模型。
在一些实施例中,训练模块1102可以具体用于:确定抽样用户在各时刻 对应的行为数据;针对每一时刻对应的行为数据进行独热编码,生成抽样用 户的行为特征集。
本申请实施例的装置,可以用于执行上述任一方法实施例中组合预测模 型的训练方法的方案,其实现原理和技术效果类似,此处不再赘述。
图12为本申请一实施例提供的电子设备的结构示意图。示例性地,电 子设备可以被提供为一服务器或计算机。参照图12,电子设备1200包括处 理组件1201,其进一步包括一个或多个处理器,以及由存储器1202所代表 的存储器资源,用于存储可由处理组件1201的执行的指令,例如应用程序。 存储器1202中存储的应用程序可以包括一个或一个以上的每一个对应于一 组指令的模块。此外,处理组件1201被配置为执行指令,以执行上述任一方 法实施例。
电子设备1200还可以包括一个电源组件1203被配置为执行电子设备 1200的电源管理,一个有线或无线网络接口1204被配置为将电子设备1200 连接到网络,和一个输入输出(I/O)接口1205。电子设备1200可以操作基 于存储在存储器1202的操作系统,例如Windows ServerTM,Mac OS XTM, UnixTM,LinuxTM,FreeBSDTM或类似。
本申请还提供一种计算机可读存储介质,计算机可读存储介质中存储有 计算机执行指令,当处理器执行计算机执行指令时,实现如上信息处理方法 的方案。
本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序 被处理器执行时实现如上的信息处理方法的方案。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易 失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器 (SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存 储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存 储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能 够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读 存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质 也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路 (Application SpecificIntegrated Circuits,简称:ASIC)中。当然,处理器和可 读存储介质也可以作为分立组件存在于信息处理装置中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步 骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可 读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而 前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码 的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对 其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通 技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改, 或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并 不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (11)
1.一种信息处理方法,其特征在于,包括:
获取目标用户的历史数据,所述历史数据包括画像数据和行为数据;
根据所述画像数据,确定所述目标用户的画像特征之间的关联关系;
根据所述行为数据,确定所述目标用户的行为之间的时序关系;
根据所述关联关系及所述时序关系,预测所述目标用户对应各属性的概率值;
基于所述概率值,预测所述目标用户的目标属性。
2.根据权利要求1所述的信息处理方法,其特征在于,所述根据所述行为数据,确定所述目标用户的行为之间的时序关系,包括:
确定所述目标用户在各时刻对应的行为数据;
针对每一时刻对应的行为数据进行独热编码,生成所述目标用户的行为特征集;
根据所述行为特征集,确定所述目标用户的行为之间的时序关系。
3.根据权利要求2所述的信息处理方法,其特征在于,所述根据所述行为特征集,确定所述目标用户的行为之间的时序关系,包括:
将所述行为特征集输入至组合预测模型包括的时序关系模型,确定所述目标用户的行为之间的时序关系,所述时序关系模型用于反映用户在不同时刻的行为之间的时序关系。
4.根据权利要求1所述的信息处理方法,其特征在于,所述根据所述画像数据,确定所述目标用户的画像特征之间的关联关系,包括:
根据所述画像数据,生成所述目标用户的画像特征集;
将所述画像特征集输入至组合预测模型包括的关联关系模型,确定所述目标用户的画像特征之间的关联关系,所述关联关系模型用于反映用户的画像特征间的关联关系。
5.根据权利要求1至4中任一项所述的信息处理方法,其特征在于,所述关联关系和所述时序关系均表现为概率值,所述根据所述关联关系及所述时序关系,预测所述目标用户对应各属性的概率值,包括:
将所述关联关系包含的概率值和所述时序关系包含的概率值进行加权处理,预测所述目标用户对应各属性的概率值。
6.一种组合预测模型的训练方法,其特征在于,所述组合预测模型包括时序关系模型和关联关系模型,所述训练方法包括:
获取样本数据,所述样本数据包括多个抽样用户的画像数据和行为数据;
针对每一抽样用户,执行以下操作:
根据抽样用户的画像数据,生成画像特征集;
根据抽样用户的行为数据,生成行为特征集;
将所述画像特征集输入所述关联关系模型,得到抽样用户的画像特征之间的关联关系;
将所述行为特征集输入所述时序关系模型,得到抽样用户的行为之间的时序关系;
将所述关联关系包含的概率值和所述时序关系包含的概率值进行加权处理,预测抽样用户对应各属性的概率值;
根据抽样用户对应各属性的概率值以及抽样用户对应的属性标识,调整初始组合预测模型的模型参数,直至所述初始组合预测模型的损失值小于或等于预设损失值,得到所述组合预测模型。
7.根据权利要求6所述的组合预测模型的训练方法,其特征在于,所述根据抽样用户的行为数据,生成行为特征集,包括:
确定抽样用户在各时刻对应的行为数据;
针对每一时刻对应的行为数据进行独热编码,生成抽样用户的行为特征集。
8.一种信息处理装置,其特征在于,包括:
获取模块,用于获取目标用户的历史数据,所述历史数据包括画像数据和行为数据;
第一确定模块,用于根据所述画像数据,确定所述目标用户的画像特征之间的关联关系;
第二确定模块,用于根据所述行为数据,确定所述目标用户的行为之间的时序关系;
第一预测模块,用于根据所述关联关系及所述时序关系,预测所述目标用户对应各属性的概率值;
第二预测模块,用于基于所述概率值,预测所述目标用户的目标属性。
9.一种电子设备,其特征在于,包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用所述存储器中的程序指令执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序指令,所述计算机程序指令被执行时,实现如权利要求1至7任一项所述的方法。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110536768.0A CN113222732B (zh) | 2021-05-17 | 信息处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110536768.0A CN113222732B (zh) | 2021-05-17 | 信息处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113222732A true CN113222732A (zh) | 2021-08-06 |
CN113222732B CN113222732B (zh) | 2024-07-02 |
Family
ID=
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642657A (zh) * | 2021-08-18 | 2021-11-12 | 一数智融(广州)科技有限公司 | 数据推送方法、装置及电子设备 |
CN113989043A (zh) * | 2021-10-28 | 2022-01-28 | 支付宝(杭州)信息技术有限公司 | 一种事件的风险识别方法、装置及设备 |
WO2023103584A1 (zh) * | 2021-12-08 | 2023-06-15 | 腾讯科技(深圳)有限公司 | 对象处理方法、装置、计算机设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105404947A (zh) * | 2014-09-02 | 2016-03-16 | 阿里巴巴集团控股有限公司 | 用户质量侦测方法及装置 |
CN106022900A (zh) * | 2016-08-08 | 2016-10-12 | 北京京东尚科信息技术有限公司 | 用户风险数据挖掘方法和装置 |
CN108846520A (zh) * | 2018-06-22 | 2018-11-20 | 北京京东金融科技控股有限公司 | 贷款逾期预测方法、装置以及计算机可读存储介质 |
CN110349003A (zh) * | 2019-07-02 | 2019-10-18 | 北京淇瑀信息科技有限公司 | 基于社交数据的关联风险评估方法、装置及电子设备 |
CN110765110A (zh) * | 2019-10-24 | 2020-02-07 | 深圳前海微众银行股份有限公司 | 泛化能力处理方法、装置、设备及存储介质 |
CN111047429A (zh) * | 2019-12-05 | 2020-04-21 | 中诚信征信有限公司 | 一种概率预测方法及装置 |
CN111145006A (zh) * | 2019-12-26 | 2020-05-12 | 南京三百云信息科技有限公司 | 基于用户画像的汽车金融反欺诈模型训练方法和装置 |
CN111681102A (zh) * | 2020-06-05 | 2020-09-18 | 深圳市卡牛科技有限公司 | 信贷预测方法、装置、设备和存储介质 |
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105404947A (zh) * | 2014-09-02 | 2016-03-16 | 阿里巴巴集团控股有限公司 | 用户质量侦测方法及装置 |
CN106022900A (zh) * | 2016-08-08 | 2016-10-12 | 北京京东尚科信息技术有限公司 | 用户风险数据挖掘方法和装置 |
CN108846520A (zh) * | 2018-06-22 | 2018-11-20 | 北京京东金融科技控股有限公司 | 贷款逾期预测方法、装置以及计算机可读存储介质 |
CN110349003A (zh) * | 2019-07-02 | 2019-10-18 | 北京淇瑀信息科技有限公司 | 基于社交数据的关联风险评估方法、装置及电子设备 |
CN110765110A (zh) * | 2019-10-24 | 2020-02-07 | 深圳前海微众银行股份有限公司 | 泛化能力处理方法、装置、设备及存储介质 |
CN111047429A (zh) * | 2019-12-05 | 2020-04-21 | 中诚信征信有限公司 | 一种概率预测方法及装置 |
CN111145006A (zh) * | 2019-12-26 | 2020-05-12 | 南京三百云信息科技有限公司 | 基于用户画像的汽车金融反欺诈模型训练方法和装置 |
CN111681102A (zh) * | 2020-06-05 | 2020-09-18 | 深圳市卡牛科技有限公司 | 信贷预测方法、装置、设备和存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642657A (zh) * | 2021-08-18 | 2021-11-12 | 一数智融(广州)科技有限公司 | 数据推送方法、装置及电子设备 |
CN113989043A (zh) * | 2021-10-28 | 2022-01-28 | 支付宝(杭州)信息技术有限公司 | 一种事件的风险识别方法、装置及设备 |
WO2023103584A1 (zh) * | 2021-12-08 | 2023-06-15 | 腾讯科技(深圳)有限公司 | 对象处理方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI788529B (zh) | 基於lstm模型的信用風險預測方法及裝置 | |
Wang et al. | Ponzi scheme detection via oversampling-based long short-term memory for smart contracts | |
Benchaji et al. | Enhanced credit card fraud detection based on attention mechanism and LSTM deep model | |
WO2019196546A1 (zh) | 确定业务请求事件的风险概率的方法及装置 | |
Ashofteh et al. | A conservative approach for online credit scoring | |
Wu et al. | A graph‐based convolutional neural network stock price prediction with leading indicators | |
Alenzi et al. | Fraud detection in credit cards using logistic regression | |
Voican | Credit Card Fraud Detection using Deep Learning Techniques. | |
Fu et al. | A sentiment-aware trading volume prediction model for P2P market using LSTM | |
Daneshvar et al. | Brent crude oil price forecast utilizing deep neural network architectures | |
CN112214652A (zh) | 一种报文生成方法、装置及设备 | |
Li et al. | A time attention based fraud transaction detection framework | |
Chen et al. | Mixed credit scoring model of logistic regression and evidence weight in the background of big data | |
Potluru et al. | Synthetic data applications in finance | |
Xu | Bitcoin price forecast using LSTM and GRU recurrent networks, and hidden Markov model | |
Kadam et al. | Loan approval prediction system using logistic regression and CIBIL score | |
CN110782339A (zh) | 一种违约概率预测方法、系统和可读存储介质 | |
CN113222732B (zh) | 信息处理方法、装置、设备及存储介质 | |
Aljojo | Predicting financial risk associated to bitcoin investment by deep learning | |
CN113222732A (zh) | 信息处理方法、装置、设备及存储介质 | |
Meltsov et al. | Development of an Intelligent Module for Monitoring and Analysis of Client's Bank Transactions | |
Kaur | Development of Business Intelligence Outlier and financial crime analytics system for predicting and managing fraud in financial payment services | |
Zhang et al. | A ResNet‐LSTM Based Credit Scoring Approach for Imbalanced Data | |
Hegde et al. | Performance analysis of machine learning algorithm for the credit risk analysis in the banking sector | |
Xiao et al. | Automatic Deduction Path Learning via Reinforcement Learning with Environmental Correction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |