CN112734560B - 变量构造方法、装置、设备及计算机可读存储介质 - Google Patents
变量构造方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112734560B CN112734560B CN202011644492.XA CN202011644492A CN112734560B CN 112734560 B CN112734560 B CN 112734560B CN 202011644492 A CN202011644492 A CN 202011644492A CN 112734560 B CN112734560 B CN 112734560B
- Authority
- CN
- China
- Prior art keywords
- variable
- information
- basic
- unit time
- time length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 58
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 45
- 230000006399 behavior Effects 0.000 claims description 23
- 238000012544 monitoring process Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000013508 migration Methods 0.000 claims description 11
- 230000005012 migration Effects 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 6
- 238000011835 investigation Methods 0.000 claims description 5
- 238000007477 logistic regression Methods 0.000 claims description 5
- 230000002354 daily effect Effects 0.000 description 32
- 230000006870 function Effects 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000003203 everyday effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007620 mathematical function Methods 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 230000003442 weekly effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种变量构造方法、装置、设备及计算机可读存储介质,本发明通过将变量的构造分两步进行,增加了衍生变量的构造,使得在每一小于月单位时长的第一单位时长内就可进行一次流水信息收集与基础变量的构造,尤其是在第一单位时长为日级别时长,第二单位时长为月份级别时长时,基础变量库即可仅承担当天数据的计算功能,会将每天的流水信息的计算量降低到原有的1/(30*N),其中N为需要统计的月份数,因此每天可将大批量的流水数据整合为基础变量,再汇总多月的基础变量以构造衍生变量,而由多月的基础变量再构造衍生变量时的数据量往往会大大减小,从而明显提升运算效率,进而解决了现有的基于多月流水信息构造变量的方式效率低下的技术问题。
Description
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及变量构造方法、装置、设备及计算机可读存储介质。
背景技术
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。
流水信息是互联网渠道常见的信息源类型,开发人员可根据这些流水信息构建变量来进行建模,因此需要每天对流水信息进行加工处理,将其转换为建模过程中可用的变量形式,再通过变量库将每天计算出的变量加以存储。
现有的变量库通常是直接从数据库中选取多月的流水信息,再对多月的流水信息进行整体频数信息的统计,最后再将统计得到的频数信息进行加工处理以构建变量,进而建模。但是由于多月的流水信息往往数据量庞大,因此对其进行计算处理构造变量的效率也比较低下。
发明内容
本发明的主要目的在于提出一种变量构造方法、装置、设备及计算机可读存储介质,旨在解决现有的基于多月流水信息构造变量的方式效率低下的技术问题。
为实现上述目的,本发明提供一种变量构造方法,所述变量构造方法包括:
获取预设的第一单位时长内的流水信息,对所述流水信息进行整合以构造出与所述第一单位时长对应的基础变量,其中,所述第一单位时长小于每月单位时长;
汇总预设的第二单位时长内的所有所述基础变量作为基础变量集合,其中,所述第二单位时长大于所述第一单位时长;
根据所述基础变量集合构造与所述第二单位时长对应的衍生变量。
可选地,所述流水信息包括记录用户行为的基础信息,
所述对所述流水信息进行整合以构造出与所述第一单位时长对应的基础变量的步骤包括:
获取所述基础信息,并识别所述基础信息的信息类型;
按照所述信息类型对所述基础信息进行统计,构造出第一基础变量,以作为所述基础变量。
可选地,所述流水信息还包括时段信息,
所述按照所述信息类型对所述基础信息进行统计,构造出第一基础变量的步骤之后,还包括:
获取所述流水信息中的时段信息,其中,所述时段信息包括日间时段信息、夜间时段信息、工作时段信息和/或非工作时段信息;
根据所述时段信息对所述第一基础变量进行时段整合,得到各时段对应的第二基础变量,以将所述第一基础变量与所述第二基础变量作为所述基础变量,并基于所述第二基础变量进行征信建模。
可选地,所述第一单位时长包括每日单位时长,
所述获取预设的第一单位时长内的流水信息的步骤包括:
捕捉用户终端上的用户行为数据,并将所述用户行为数据记录为后台日志信息;
每隔一所述每日单位时长获取新增的后台日志信息,以基于所述新增的后台日志信息得到每日的流水信息。
可选地,所述对所述流水信息进行整合以构造出与所述第一单位时长对应的基础变量的步骤包括:
基于Embedding算法将所述流水信息进行转化,以构造出嵌入变量作为所述基础变量。
可选地,所述基于Embedding算法将所述流水信息进行转化,以构造出嵌入变量的步骤包括:
利用独热编码方式将所述流水信息转化为编码向量,并对所述编码向量进行降维映射以得到低维向量;
基于所述低维向量进行逻辑回归训练,以预测出目标嵌入向量,并根据所述目标嵌入向量得到所述嵌入变量。
可选地,所述根据所述基础变量集合构造与所述第二单位时长对应的衍生变量的步骤之后,还包括:
监控所述衍生变量在预设监控指标上的指标数值;
在检测到所述指标数值符合预设风险条件时,生成并推送所述衍生变量对应的变量迁移风险提示消息。
此外,为实现上述目的,本发明还提供一种变量构造装置,所述变量构造装置包括:
基础变量构造模块,用于获取预设的第一单位时长内的流水信息,对所述流水信息进行整合以构造出与所述第一单位时长对应的基础变量,其中,所述第一单位时长小于每月单位时长;
基础变量汇总模块,用于汇总预设的第二单位时长内的所有所述基础变量作为基础变量集合,其中,所述第二单位时长大于所述第一单位时长;
衍生变量构造模块,用于根据所述基础变量集合构造与所述第二单位时长对应的衍生变量。
可选地,所述流水信息包括记录用户行为的基础信息,
所述基础变量构造模块包括:
信息类型识别单元,用于获取所述基础信息,并识别所述基础信息的信息类型;
第一变量构造单元,用于按照所述信息类型对所述基础信息进行统计,构造出第一基础变量,以作为所述基础变量。
可选地,所述流水信息还包括时段信息,
所述基础变量构造模块包括:
时段信息获取单元,用于获取所述流水信息中的时段信息,其中,所述时段信息包括日间时段信息、夜间时段信息、工作时段信息和/或非工作时段信息;
第二变量构造单元,用于根据所述时段信息对所述第一基础变量进行时段整合,得到各时段对应的第二基础变量,以将所述第一基础变量与所述第二基础变量作为所述基础变量,并基于所述第二基础变量进行征信建模。
可选地,所述第一单位时长包括每日单位时长,
所述基础变量构造模块包括:
日志信息记录单元,用于捕捉用户终端上的用户行为数据,并将所述用户行为数据记录为后台日志信息;
每日流水获取单元,用于每隔一所述每日单位时长获取新增的后台日志信息,以基于所述新增的后台日志信息得到每日的流水信息。
可选地,所述基础变量构造模块还包括:
嵌入变量构造单元,用于基于Embedding算法将所述流水信息进行转化,以构造出嵌入变量作为所述基础变量。
可选地,所述嵌入变量构造单元还用于:
利用独热编码方式将所述流水信息转化为编码向量,并对所述编码向量进行降维映射以得到低维向量;
基于所述低维向量进行逻辑回归训练,以预测出目标嵌入向量,并根据所述目标嵌入向量得到所述嵌入变量。
可选地,所述变量构造装置还包括:
指标数值监控模块,用于监控所述衍生变量在预设监控指标上的指标数值;
风险条件检测单元,用于在检测到所述指标数值符合预设风险条件时,生成并推送所述衍生变量对应的变量迁移风险提示消息。
此外,为实现上述目的,本发明还提供一种变量构造设备,所述变量构造设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的变量构造程序,所述变量构造程序被所述处理器执行时实现如上所述的变量构造方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有变量构造程序,所述变量构造程序被处理器执行时实现如上所述的变量构造方法的步骤。
本发明提供一种变量构造方法、装置、设备及计算机可读存储介质。以往无衍生变量的流水信息变量库是每天根据近若干月内的全部流水信息统一进行汇总,然后再对这些大数据量的汇总流水信息进行计算以构造出若干月内的变量,而本发明通过将变量的构造分两步进行,增加了衍生变量的构造,使得在每一小于月单位时长的第一单位时长内就可进行一次流水信息收集与基础变量的构造,然后再在大于第一单位时长的第二单位时长内对基础变量进行汇总以构造衍生变量,尤其是在第一单位时长为日级别时长,第二单位时长为月份级别时长时,基础变量库即可仅承担当天数据的计算功能,会将每天的流水信息的计算量降低到原有的1/(30*N),其中N为需要统计的月份数,因此每天可将大批量的流水数据整合为基础变量,再汇总多月的基础变量以构造衍生变量,而由多月的基础变量再构造衍生变量时的数据量往往会大大减小,从而明显提升运算效率,进而解决了现有的基于多月流水信息构造变量的方式效率低下的技术问题。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明变量构造方法第一实施例的流程示意图;
图3为本发明变量构造方法第三实施例中嵌入变量生成的逻辑流程图;
图4为本发明变量构造方法第四实施例中一具体实施例的流程示意图;
图5为本发明变量构造装置的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
如图1所示,该变量构造装置可以包括:处理器1001,例如CPU,用户接口1003,网络接口1004,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及变量构造程序。
在图1所示的设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(程序员端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的变量构造程序,并执行下述变量构造方法中的操作:
获取预设的第一单位时长内的流水信息,对所述流水信息进行整合以构造出与所述第一单位时长对应的基础变量,其中,所述第一单位时长小于每月单位时长;
汇总预设的第二单位时长内的所有所述基础变量作为基础变量集合,其中,所述第二单位时长大于所述第一单位时长;
根据所述基础变量集合构造与所述第二单位时长对应的衍生变量。
进一步地,所述流水信息包括记录用户行为的基础信息,
所述对所述流水信息进行整合以构造出与所述第一单位时长对应的基础变量的步骤包括:
获取所述基础信息,并识别所述基础信息的信息类型;
按照所述信息类型对所述基础信息进行统计,构造出第一基础变量,以作为所述基础变量。
进一步地,所述流水信息还包括时段信息,
所述按照所述信息类型对所述基础信息进行统计,构造出第一基础变量的步骤之后,处理器1001可以调用存储器1005中存储的变量构造程序,还执行以下操作:
获取所述流水信息中的时段信息,其中,所述时段信息包括日间时段信息、夜间时段信息、工作时段信息和/或非工作时段信息;
根据所述时段信息对所述第一基础变量进行时段整合,得到各时段对应的第二基础变量,以将所述第一基础变量与所述第二基础变量作为所述基础变量,并基于所述第二基础变量进行征信建模。
进一步地,所述第一单位时长包括每日单位时长,
所述获取预设的第一单位时长内的流水信息的步骤包括:
捕捉用户终端上的用户行为数据,并将所述用户行为数据记录为后台日志信息;
每隔一所述每日单位时长获取新增的后台日志信息,以基于所述新增的后台日志信息得到每日的流水信息。
进一步地,所述对所述流水信息进行整合以构造出与所述第一单位时长对应的基础变量的步骤包括:
基于Embedding算法将所述流水信息进行转化,以构造出嵌入变量作为所述基础变量。
进一步地,所述基于Embedding算法将所述流水信息进行转化,以构造出嵌入变量的步骤包括:
利用独热编码方式将所述流水信息转化为编码向量,并对所述编码向量进行降维映射以得到低维向量;
基于所述低维向量进行逻辑回归训练,以预测出目标嵌入向量,并根据所述目标嵌入向量得到所述嵌入变量。
进一步地,所述根据所述基础变量集合构造与所述第二单位时长对应的衍生变量的步骤之后,处理器1001可以调用存储器1005中存储的变量构造程序,还执行以下操作:
监控所述衍生变量在预设监控指标上的指标数值;
在检测到所述指标数值符合预设风险条件时,生成并推送所述衍生变量对应的变量迁移风险提示消息。
基于上述硬件结构,提出本发明变量构造方法实施例。
为解决上述问题,本发明提供一种变量构造方法,即通过将变量的构造分两步进行,增加了衍生变量的构造,使得在每一小于月单位时长的第一单位时长内就可进行一次流水信息收集与基础变量的构造,尤其是在第一单位时长为日级别时长,第二单位时长为月份级别时长时,基础变量库即可仅承担当天数据的计算功能,会将每天的流水信息的计算量降低到原有的1/(30*N),其中N为需要统计的月份数,因此每天可将大批量的流水数据整合为基础变量,再汇总多月的基础变量以构造衍生变量,而由多月的基础变量再构造衍生变量时的数据量往往会大大减小,从而明显提升运算效率,进而解决了现有的基于多月流水信息构造变量的方式效率低下的技术问题。
参照图2,图2为本发明变量构造方法第一实施例的流程示意图。所述变量构造方法包括;
步骤S10,获取预设的第一单位时长内的流水信息,对所述流水信息进行整合以构造出与所述第一单位时长对应的基础变量,其中,所述第一单位时长小于每月单位时长;
在本实施例中,本方法应用于终端设备,通常应用于计算机。每月单位时长指的是以月为频次获取流水信息的时间范围。第一单位时长指的是用于限定获取流水信息的时间范围。由于现有的方式中对于获取流水信息的频率通常为数月一次,导致每次所获取的数据量过大,不便于后续的计算,因此须将第一单位时长设置为比每月单位时长更小的时间范围,例如可设置为每周单位时长、每日单位时长等。另外,第一单位时长在设定之后,可根据实际需求随时进行更改。流水信息指的是客户行为流水,通常指在App上用户的各种点击行为,互联网公司通过以后台日志的方式记录下来的包括点击时间,点击按钮ID等行为信息。基础变量指的是在根据第一单位时间内所收集到的流水信息所构造的特征变量,可包含同种类型变量,也可包含不同类型变量。例如,可包含当天点击A页面/按钮的次数、点击A页面/按钮的时长,还可包含将流水信息基于Embedding算法自动生成的嵌入变量等。
终端在每获取到第一单位时长内,例如每日的流水信息,则对每日的流水信息进行频数统计等的汇总整合,以构造出每日的基础变量。具体可利用可实现每日程序化定时计算的运算平台进行计算;或是基于Embedding算法自动构造出嵌入变量。
另外,作为一种实施方式,终端可通过监控历史获取到的流水信息的数据量,自适应地更改第一单位时长。例如,若终端当前按照每日单位时长来收集流水信息,并监测到在过去的某一时间段内,每日获取到的流水信息的总数量未达到某一数据量阈值,则可将第一单位时长由当前的每日单位时长自行更改或是提示相关人员更改为每周单位时长;再更改为每周单位时长后,终端继续监控的每周获取到的流水信息的数据量,若每周流水信息的数据量超出某一数据量阈值,则将第一单位时长由当前的每周单位时长更改为每日单位时长。
预设某一数据量阈值,若终端在过去的某一时间段内
步骤S20,汇总预设的第二单位时长内的所有所述基础变量作为基础变量集合,其中,所述第二单位时长大于所述第一单位时长;
在本实施例中,第二单位时长指的是用于限定构造衍生变量频次的时间范围,大于上述第一单位时长,通常与现有方式中对于流水信息的获取频次对应,例如每月单位时长、每季度单位时长、每半年单位时长等。另外,可根据实际需求随时更改已设定的第二单位时长。
终端在每一第二单位时长内,将当前所收集到的基础变量汇总为一个整体,也即是上述基础变量集合,以便构造衍生变量。具体地,假设第一单位时长为每日单位时长,第二单位时长为每季度单位时长。服务器将每日收集到的流水信息构造为单日的变量数据,然后在每季度收集这一季度内所有单日的变量数据,将其汇集在同一个变量集合中,以便后续进行计算。
步骤S30,根据所述基础变量集合构造与所述第二单位时长对应的衍生变量。
在本实施例中,衍生变量指的是由第二单位时长内的基础变量衍生计算出的特征变量。终端对处于基础变量集合中的所有基础变量进行求和、求最值、求平均数。求方差等计算,具体可基于大数据分布式数据库实现,以构造出与第二单位时长对应的衍生变量;对于采用Embedding算法自动构造出的嵌入变量,终端可将每个变量求均值得到其衍生变量。
也即是将现有方式中直接一步完成的变量构造过程拆分为两步,第一步先较之现有方式采用更高频率收集流水数据,及时根据每次收集到的流水数据构造基础变量,然后在更大的时间范围内收集这段时间所构造的所有基础变量,基于此衍生出更大时间范围内的衍生变量,以减小数据处理量,提高数据处理效率。
本发明提供一种变量构造方法。所述变量构造方法通过获取预设的第一单位时长内的流水信息,对所述流水信息进行整合以构造出与所述第一单位时长对应的基础变量,其中,所述第一单位时长小于每月单位时长;汇总预设的第二单位时长内的所有所述基础变量作为基础变量集合,其中,所述第二单位时长大于所述第一单位时长;根据所述基础变量集合构造与所述第二单位时长对应的衍生变量。以往无衍生变量的流水信息变量库是每天根据近若干月内的全部流水信息统一进行汇总,然后再对这些大数据量的汇总流水信息进行计算以构造出若干月内的变量,而本发明通过将变量的构造分两步进行,增加了衍生变量的构造,使得在每一小于月单位时长的第一单位时长内就可进行一次流水信息收集与基础变量的构造,然后再在大于第一单位时长的第二单位时长内对基础变量进行汇总以构造衍生变量,尤其是在第一单位时长为日级别时长,第二单位时长为月份级别时长时,基础变量库即可仅承担当天数据的计算功能,会将每天的流水信息的计算量降低到原有的1/(30*N),其中N为需要统计的月份数,因此每天可将大批量的流水数据整合为基础变量,再汇总多月的基础变量以构造衍生变量,而由多月的基础变量再构造衍生变量时的数据量往往会大大减小,从而明显提升运算效率,进而解决了现有的基于多月流水信息构造变量的方式效率低下的技术问题。
进一步地,基于上述图2所示的第一实施例,提出本发明变量构造方法的第二实施例。在本实施例中,所述流水信息包括记录用户行为的基础信息,
所述对所述流水信息进行整合以构造出与所述第一单位时长对应的基础变量的步骤包括:
获取所述基础信息,并识别所述基础信息的信息类型;
按照所述信息类型对所述基础信息进行统计,构造出第一基础变量,以作为所述基础变量。
在本实施例中,信息类型具体可包括点击次数信息类型、点击时长信息类型等。基础信息中可包含某一种信息类型的信息,也可包含不同类型的多种信息。例如,基础信息中既可既包含用户点击次数信息或用户点击时长信息,也可同时包括用户点击次数信息与用户点击时长信息。第一基础变量指的是在流水信息仅包含基础信息时所对应的基础变量。
以第一单位时长为每日单位时长为例,终端在获取到每日的基础信息后,需要识别出这些基础信息所包含的信息类型。如果基础信息中包含了多种不同的信息类型,则需要针对不同的信息类型对相应的点击记录进行频数统计,以构造出不同的第一基础变量。
信息类型的识别方式具体可为,在获取时组成基础信息的各条记录已标注有对应标识,终端直接通过识别标识即可判定该条记录对应的信息类型。
进一步地,所述流水信息还包括时段信息,
所述按照所述信息类型对所述基础信息进行统计,构造出第一基础变量的步骤之后,还包括:
获取所述流水信息中的时段信息,其中,所述时段信息包括日间时段信息、夜间时段信息、工作时段信息和/或非工作时段信息;
根据所述时段信息对所述第一基础变量进行时段整合,得到各时段对应的第二基础变量,以将所述第一基础变量与所述第二基础变量作为所述基础变量,并基于所述第二基础变量进行征信建模。
在本实施例中,时段信息指的是,具体可包括日间时段信息、夜间时段信息、工作时段行与非工作时段信息中的一项或者多项。另外,还可根据其他时段划分方式增加其他的时段信息。第二基础变量指的是在流水信息中除了基础信息之外还包括时段信息时,根据时段信息得到的基础变量。
由于在基础变量中除了覆盖有传统的信息刻画变量如:当前点击A页面/按钮的次数,当天点击A页面/按钮的时长等信息,还可能覆盖有刻画用户时段行为的变量如当天夜间点击A页面/按钮的次数,当天工作时段点击A页面/按钮的次数等信息。因此,在流水信息中还包含时段信息时,终端还需要获取时段信息,并按照时段信息将第二单位时长内每天的第一基础变量进行分时段汇总集合,以得到第二基础变量。之后终端再将第一基础变量与第二基础变量共同作为基础变量以得到基础变量集合,例如,将半年内每天用户夜间点击A页面/按钮的次数的数据,半年内用户每天工作时段点击A页面/按钮的时长等的数据分别作为一个个子集,然后将多个子集连同第一基础变量一起列为基础变量集合。
另外,由于现有方式中仅对多月的流水信息直接进行整体的频数统计,很少考虑到时段(尤其是夜间时段)等方面的信息,而这些信息在征信建模中较之整体的频数统计数据更为有效,因此,本发明还根据时段信息构造出第二基础变量,进而可直接将第二基础变量用于征信建模,或是基于第二基础变量衍生出对应的衍生基础变量后再用于征信建模。
进一步地,所述第一单位时长包括每日单位时长,
所述获取预设的第一单位时长内的流水信息的步骤包括:
捕捉用户终端上的用户行为数据,并将所述用户行为数据记录为后台日志信息;
每隔一所述每日单位时长获取新增的后台日志信息,以基于所述新增的后台日志信息得到每日的流水信息。
在本实施例中,用户终端可为手机、笔记本等。互联网公司通过以后台日志的方式记录下用户在APP等页面上的各种点击行为信息,例如点击时间、点击按钮ID等。然后终端即可按照每日一次的频率获取当天新增的后台日志信息,以作为每日的流水信息。
进一步地,由于现有常见的变量库,多数是对流水信息直接进行频数统计并加以处理,例如构造近六个月所有点击A页面的次数等变量,很少考虑时段(尤其是夜间时段)等这些在征信建模中非常有效的信息;而本实施例通过在流水信息组成的变量库中增加时段信息,从而为建模提供了更加有效且充分的变量信息,进而提升模型效果。
进一步地,基于上述图2所示的第一实施例,提出本发明变量构造方法的第三实施例。在本实施例中,所述对所述流水信息进行整合以构造出与所述第一单位时长对应的基础变量的步骤包括:
基于Embedding算法将所述流水信息进行转化,以构造出嵌入变量作为所述基础变量。
在本实施例中,Embedding指的是一种将高维稀疏向量转变为连续向量的方式,并尽量在低维下保持向量间在高维下的相似关系。嵌入变量包括在Embedding算法下,通过one-hot向量化、向量映射、softmax回归等一系列手段构造的嵌入向量的每一维度。
进一步地,所述基于Embedding算法将所述流水信息进行转化,以构造出嵌入变量的步骤包括:
利用独热编码方式将所述流水信息转化为编码向量,并对所述编码向量进行降维映射以得到低维向量;
基于所述低维向量进行逻辑回归训练,以预测出目标嵌入向量,并根据所述目标嵌入向量得到所述嵌入变量。
在本实施例中,独热编码即为one-hot Encoding.具体步骤如图4所示。
第一步:one-hot向量化。终端将产品的每个页面/按钮记做向量的一个维度(共N个维度),若用户点击了某个页面/按钮,则对应的维度取值为1,否则为0。并将用户连续的M个行为组成一个长向量也即是上述编码向量作为输入层。
第二步:构造映射层。映射层可以用直接用对M个向量求和的方式进行映射,映射为一个N维向量。也可以通过其他映射函数将N*M维向量将其映射为一个N维向量也即是上述低维向量。
第三步:终端利用多个softmax函数来拟合下一个出现的页面/按钮向量,一般可选用的softmax函数为来给出估计的下一个页面/按钮向量,并通过真实的页面/按钮向量值与估计的页面/按钮向量残差,反向传导来训练,通过反复迭代将残差残差降低到某个阈值以内。
第四步:每个页面/按钮向量为其one-hot向量通过训练后的softmax函数,可以估计出一个N维向量,该N维向量即为embedding后得到的向量,也即是上述目标嵌入向量。每个用户的向量为当天所有的行为向量的各个维度的均值。而变量库可以将这个N维向量中的每一维度保存下来,放入变量库中,以备后续建模使用。
进一步地,由于现有技术中除了未能考虑到时段方面的信息之外,对于行为的前后关系方面的信息也未能很好利用。比如用户先点击A按钮再点击B按钮,和先点击B按钮再点击A按钮往往代表了不同的意义,而这些信息在建模过程中非常有效;而本实施例通过增加了将流水信息基于Embedding算法自动生成嵌入变量,从而能够为后续的建模过程提供更为有效充分的变量信息,进一步提升了模型效果。
进一步地,基于上述图2所示的第一实施例,提出本发明变量构造方法的第四实施例。在本实施例中,所述第二单位时长包括若干月单位时长,步骤S30包括:
利用预设数学函数对所述基础变量集合中的所有所述基础变量进行计算,得到计算结果,以基于所述计算结果构造所述若干月单位时长对应的衍生变量。
在本实施例中,预设数学函数具体可为求和函数、求均值函数、求最值函数、求方差函数等,可根据实际需求随时更改。
若干月单位时长为三个月时长为例进行说明。终端在得到基础变量集合中近三个月内每天的基础变量后,根据指定的数学函数对其进行统计计算,例如,统计出近三个月内合计A页面/按钮的点击次数,近三个月内平均A页面/按钮的点击时长、近三个月内合计A页面/按钮的点击天数等。终端得到计算结果后,即可将其作为近三月对应的衍生变量。
进一步地,步骤S30之后,还包括:
监控所述衍生变量在预设监控指标上的指标数值;
在检测到所述指标数值符合预设风险条件时,生成并推送所述衍生变量对应的变量迁移风险提示消息。
在本实施例中,指标数值具体可包括信息值(IV,Information Value)指标、群体稳定性指标(PSI,population stability index)等。IV指标主要用来对输入变量进行编码和预测能力评估。特征变量IV值的大小即表示该变量预测能力的强弱;而PSI值则是衡量某一分布与基准分布之间的差异。
预设风险条件可基于一种指标数值或是多种不同指标数值进行设定,例如分别为不同的指标数值设置不用的安全取值范围,若存在一个或是多个指标数值超出安全取值范围,终端即可判定当前的指标数值满足预设风险条件。变量迁移风险提示消息中具体可包括具体的指标数值、预估的风险等级、以及指标数值对应的衍生变量信息等。具体的推送方式可为短信推送、邮件推送等。
进一步地,所述预设监控指标包括PSI指标,
所述在检测到所述指标数值符合预设风险条件时,生成并推送所述衍生变量对应的变量迁移风险提示消息的步骤包括:
判断所述衍生变量每日在所述PSI指标上的实际取值是否超出预设阈值;
若是,则生成所述衍生变量对应的变量迁移风险提示消息,并将所述变量迁移风险提示消息邮件发送至对应处理人终端。
在本实施例中,预设阈值可根据实际情况灵活设置。
终端需要参照以往某一时间段内计算得到的PSI值得到当天衍生变量在PSI指标上的实际取值,判断其是否超出某一阈值,例如0.1。若终端判定其超出0.1,则说明对应的衍生变量的稳定性不佳,需要生成对应的变量迁移风险提示消息,并通过邮件的形式及时通知到对应处理人;若否,则继续监测。
作为一具体实施例,如图4所示。在本发明中变量库包括基础变量模块、衍生变量模块以及监控模块。基础变量模块包括统计变量和Embedding变量。基础信息即通常的流水变量库中的变量,如按钮/页面的点击次数/时长等。Embedding变量包括根据用户的流水信息通过one-hot向量化、向量映射、softmax回归等一系列手段构造的embedding向量的每一维度。
衍生变量模块是针对基础变量中的每天的变量信息进行进一步的衍生。例如根据近六个月每天基础变量模块中的A按钮的点击次数,进行加和构造出近6个月A按钮的点击次数之和;
监控模型是针对每天计算的变量与六个月前计算的同变量的PSI值。若出现PSI高于0.1情况的变量,将其输出并通过邮件报警,这样可以及时发现发生产品功能变更的按钮/页面,从而提前评估变更对模型的影响。
进一步地,由于变量库往往仅具有记录变量取值相关功能,但是在实际场景中经常会遇到网页功能迭代,部分功能下架或者替换的情况,这会造成记录的变量取值发生明显迁移,从而影响线上模型效果,本实施例针对下降或被替换的功能按钮,通过及时获取变量对应的指标数值并判断,变量库可及时发现这些按钮对应的变量,从而报警提示变量库维护人员及时进行变量更新。
如图5所示,本发明还提供一种变量构造装置,所述变量构造装置包括:
基础变量构造模块10,用于获取预设的第一单位时长内的流水信息,对所述流水信息进行整合以构造出与所述第一单位时长对应的基础变量,其中,所述第一单位时长小于每月单位时长;
基础变量汇总模块20,用于汇总预设的第二单位时长内的所有所述基础变量作为基础变量集合,其中,所述第二单位时长大于所述第一单位时长;
衍生变量构造模块30,用于根据所述基础变量集合构造与所述第二单位时长对应的衍生变量。
上述各程序模块所执行的方法可参照本发明变量构造方法各个实施例,此处不再赘述。
本发明还提供一种变量构造设备。
所述变量构造设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的变量构造程序,其中所述变量构造程序被所述处理器执行时,实现如上所述的变量构造方法的步骤。
其中,所述变量构造程序被执行时所实现的方法可参照本发明变量构造方法的各个实施例,此处不再赘述。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有变量构造程序,所述变量构造程序被处理器执行时实现如上所述的变量构造方法的步骤。
其中,所述变量构造程序被执行时所实现的方法可参照本发明变量构造方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种变量构造方法,其特征在于,所述变量构造方法包括:
每隔一预设的第一单位时长获取新增的流水信息,对新增的流水信息进行整合以构造出与所述第一单位时长对应的基础变量,其中,所述第一单位时长小于每月单位时长,所述第一单位时长依据所述流水信息的数据量进行自适应更改;
每隔一预设的第二单位时长汇总所有新增的基础变量作为基础变量集合,其中,所述第二单位时长大于所述第一单位时长;
对所述基础变量集合中所有的基础变量进行预设处理,得到与所述第二单位时长对应的衍生变量,其中,所述预设处理包括但不限于求和、求最值、求平均值和求方差;
所述流水信息包括记录用户行为的基础信息,所述对新增的流水信息进行整合以构造出与所述第一单位时长对应的基础变量的步骤包括:
识别所述基础信息中各子信息的信息类型;
按照信息类型对所述基础信息中各子信息进行统计,构造出第一基础变量,以作为所述基础变量。
2.如权利要求1所述的变量构造方法,其特征在于,所述流水信息还包括时段信息,
所述按照信息类型对所述基础信息中各子信息进行统计,构造出第一基础变量的步骤之后,还包括:
获取所述流水信息中的时段信息,其中,所述时段信息包括日间时段信息、夜间时段信息、工作时段信息和/或非工作时段信息;
根据所述时段信息对所述第一基础变量进行时段整合,得到各时段对应的第二基础变量,以将所述第一基础变量与所述第二基础变量作为所述基础变量,并基于所述第二基础变量进行征信建模。
3.如权利要求1所述的变量构造方法,其特征在于,所述第一单位时长包括每日单位时长,
所述每隔一预设的第一单位时长获取新增的流水信息的步骤包括:
捕捉用户终端上的用户行为数据,并将所述用户行为数据记录为后台日志信息;
每隔一所述每日单位时长获取新增的后台日志信息,以基于所述新增的后台日志信息得到每日的流水信息。
4.如权利要求1所述的变量构造方法,其特征在于,所述对新增的流水信息进行整合以构造出与所述第一单位时长对应的基础变量的步骤包括:
基于Embedding算法将所述流水信息进行转化,以构造出嵌入变量作为所述基础变量。
5.如权利要求4所述的变量构造方法,其特征在于,所述基于Embedding算法将所述流水信息进行转化,以构造出嵌入变量的步骤包括:
利用独热编码方式将所述流水信息转化为编码向量,并对所述编码向量进行降维映射以得到低维向量;
基于所述低维向量进行逻辑回归训练,以预测出目标嵌入向量,并根据所述目标嵌入向量得到所述嵌入变量。
6.如权利要求1-5中任一所述的变量构造方法,其特征在于,所述对所述基础变量集合中所有的基础变量进行预设处理,得到与所述第二单位时长对应的衍生变量的步骤之后,还包括:
监控所述衍生变量在预设监控指标上的指标数值;
在检测到所述指标数值符合预设风险条件时,生成并推送所述衍生变量对应的变量迁移风险提示消息。
7.一种变量构造装置,其特征在于,所述变量构造装置包括:
基础变量构造模块,用于每隔一预设的第一单位时长获取新增的流水信息,对新增的流水信息进行整合以构造出与所述第一单位时长对应的基础变量,其中,所述第一单位时长小于每月单位时长,所述第一单位时长依据所述流水信息的数据量进行自适应更改;
基础变量汇总模块,用于每隔一预设的第二单位时长汇总所有新增的基础变量作为基础变量集合,其中,所述第二单位时长大于所述第一单位时长;
衍生变量构造模块,用于对所述基础变量集合中所有的基础变量进行预设处理,得到与所述第二单位时长对应的衍生变量,其中,所述预设处理包括但不限于求和、求最值、求平均值和求方差;
所述流水信息包括记录用户行为的基础信息,所述基础变量构造模块还用于:
识别所述基础信息中各子信息的信息类型;
按照信息类型对所述基础信息中各子信息进行统计,构造出第一基础变量,以作为所述基础变量。
8.一种变量构造设备,其特征在于,所述变量构造设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的变量构造程序,所述变量构造程序被所述处理器执行时实现如权利要求1至6中任一项所述的变量构造方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有变量构造程序,所述变量构造程序被处理器执行时实现如权利要求1至6中任一项所述的变量构造方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011644492.XA CN112734560B (zh) | 2020-12-31 | 2020-12-31 | 变量构造方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011644492.XA CN112734560B (zh) | 2020-12-31 | 2020-12-31 | 变量构造方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112734560A CN112734560A (zh) | 2021-04-30 |
CN112734560B true CN112734560B (zh) | 2024-05-14 |
Family
ID=75609421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011644492.XA Active CN112734560B (zh) | 2020-12-31 | 2020-12-31 | 变量构造方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112734560B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670724A (zh) * | 2018-12-29 | 2019-04-23 | 重庆誉存大数据科技有限公司 | 风险评估方法及装置 |
WO2020037942A1 (zh) * | 2018-08-20 | 2020-02-27 | 平安科技(深圳)有限公司 | 风险预测处理方法、装置、计算机设备和介质 |
CN111079937A (zh) * | 2019-11-15 | 2020-04-28 | 苏州金智渠信息技术有限公司 | 一种快速建模的方法 |
CN111178675A (zh) * | 2019-12-05 | 2020-05-19 | 佰聆数据股份有限公司 | 基于LR-Bagging算法的电费回收风险预测方法、系统、存储介质及计算机设备 |
CN111192133A (zh) * | 2019-12-12 | 2020-05-22 | 北京淇瑀信息科技有限公司 | 用户贷后风险模型生成方法、装置及电子设备 |
CN111782611A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 预测模型建模方法、装置、设备及存储介质 |
-
2020
- 2020-12-31 CN CN202011644492.XA patent/CN112734560B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020037942A1 (zh) * | 2018-08-20 | 2020-02-27 | 平安科技(深圳)有限公司 | 风险预测处理方法、装置、计算机设备和介质 |
CN109670724A (zh) * | 2018-12-29 | 2019-04-23 | 重庆誉存大数据科技有限公司 | 风险评估方法及装置 |
CN111079937A (zh) * | 2019-11-15 | 2020-04-28 | 苏州金智渠信息技术有限公司 | 一种快速建模的方法 |
CN111178675A (zh) * | 2019-12-05 | 2020-05-19 | 佰聆数据股份有限公司 | 基于LR-Bagging算法的电费回收风险预测方法、系统、存储介质及计算机设备 |
CN111192133A (zh) * | 2019-12-12 | 2020-05-22 | 北京淇瑀信息科技有限公司 | 用户贷后风险模型生成方法、装置及电子设备 |
CN111782611A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 预测模型建模方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112734560A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8583568B2 (en) | Systems and methods for detection of satisficing in surveys | |
CN112951443B (zh) | 症候群监测预警方法、装置、计算机设备及存储介质 | |
CN114496264B (zh) | 基于多维数据的健康指数分析方法、装置、设备及介质 | |
CN110781167B (zh) | 一种基于聚类压缩感知的用户缺失电量数据修复方法 | |
CN115600840A (zh) | 用户群体碳排放动态画像模型构建方法、装置及设备 | |
WO2021077226A1 (en) | Method and system for individual demand forecasting | |
CN114693409A (zh) | 产品匹配方法、装置、计算机设备、存储介质和程序产品 | |
CN117314593B (zh) | 一种基于用户行为分析的保险项目推送方法及系统 | |
CN111339163B (zh) | 获取用户流失状态的方法、装置、计算机设备和存储介质 | |
CN112734560B (zh) | 变量构造方法、装置、设备及计算机可读存储介质 | |
CN114495137B (zh) | 票据异常检测模型生成方法与票据异常检测方法 | |
CN117312657A (zh) | 金融应用的异常功能定位方法、装置、计算机设备和介质 | |
CN111898249A (zh) | 滑坡位移非参数概率密度预测方法、设备及存储介质 | |
CN115392953A (zh) | 舆情风险预警方法、装置、计算机设备和存储介质 | |
CN114925919A (zh) | 业务资源处理方法、装置、计算机设备和存储介质 | |
CN114282952A (zh) | 电价计费异常识别方法、装置、计算机设备和存储介质 | |
CN113962508A (zh) | 用电对象的识别方法及识别装置、电子设备 | |
CN112862179A (zh) | 一种用能行为的预测方法、装置及计算机设备 | |
CN112686702A (zh) | 羊毛党识别方法、装置、计算机设备及存储介质 | |
CN114329213B (zh) | 基于用户行为的电商平台优化方法、装置、设备及介质 | |
CN111340099A (zh) | 确定对象的状态的方法、装置、存储介质及电子装置 | |
CN113744081B (zh) | 窃电行为分析方法 | |
CN117853266A (zh) | 电网业务推荐方法、装置、电子设备和存储介质 | |
CN118331831A (zh) | 一种应用系统效能评估方法、装置、电子设备及存储介质 | |
CN118095565A (zh) | 一种基于核密度估计的事件发生时间概率预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |