CN112348094A - 数据处理方法及装置 - Google Patents

数据处理方法及装置 Download PDF

Info

Publication number
CN112348094A
CN112348094A CN202011249216.3A CN202011249216A CN112348094A CN 112348094 A CN112348094 A CN 112348094A CN 202011249216 A CN202011249216 A CN 202011249216A CN 112348094 A CN112348094 A CN 112348094A
Authority
CN
China
Prior art keywords
time points
decision
user
time sequence
continuous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011249216.3A
Other languages
English (en)
Inventor
刘楚
李东晨
康绍舜
杨青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Du Xiaoman Technology Beijing Co Ltd
Original Assignee
Shanghai Youyang New Media Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Youyang New Media Information Technology Co ltd filed Critical Shanghai Youyang New Media Information Technology Co ltd
Priority to CN202011249216.3A priority Critical patent/CN112348094A/zh
Publication of CN112348094A publication Critical patent/CN112348094A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种数据处理方法及装置、电子设备,其中方法包括:响应于用户于决策时点的决策请求,获取基于所述决策时点确定的预设时间窗口内的用户时序数据;对所述用户时序数据执行特征提取操作,获得用户时序特征;输入所述用户时序特征至预先训练好的时序特征分类模型,获得所述时序特征分类模型的输出概率;其中所述时序特征分类模型为基于时序特征训练集训练后得到的、用于区分用户信用度的机器模型;基于所述输出概率确定所述决策请求对应的决策结果。本申请可以在互联网大数据的扰动下,尽量保证在不同时间点对对同一用户的决策的稳定性。

Description

数据处理方法及装置
技术领域
本申请涉及互联网技术领域,尤其涉及数据处理方法及装置。
背景技术
在一些互联网应用场景中,需要收集用户于多个方面的用户数据,并输入用户数据至分类模型,分类模型进行决策并输出决策概率。相关技术中,分类模型会较多的关注于某个决策时点(某一时间点)。
例如,分类模型可以基于一用户在决策时点A的用户数据A计算得到决策概率A;分类模型可以基于同一用户在决策时间点B的用户数据B计算得到决策概率B。
在互联网大数据的快速发展下,同一用户的用户数据也在发生变化。在互联网大数据的扰动下,当同一用户的用户数据发生较大变化后,同一用户的决策概率也会发生较大变化,导致对同一用户的决策发生变化。
相关技术中,分类模型更多地关注于某个决策时点,导致不同时间点对同一用户的决策的稳定性较差。
发明内容
鉴于此,本申请提供数据处理方法及装置,在互联网大数据的扰动下,尽量保证在不同时间点对对同一用户的决策的稳定性。
为了实现上述目的,本发明提供了下述技术特征:
一种数据处理方法,包括:
响应于用户于决策时点的决策请求,获取基于所述决策时点确定的预设时间窗口内的用户时序数据;
对所述用户时序数据执行特征提取操作,获得用户时序特征;
输入所述用户时序特征至预先训练好的时序特征分类模型,获得所述时序特征分类模型的输出概率;其中所述时序特征分类模型为基于时序特征训练集训练后得到的、用于区分用户信用度的机器模型;
基于所述输出概率确定所述决策请求对应的决策结果。
其中,在响应于用户于决策时点的决策请求之前,还包括在备选时序特征集中确定稳定性能较高的多个时序特征,以及,确定所述多个时序特征所涉及的用户参数;
则所述获取所述决策时点之前预设时间窗口内的用户时序数据包括:
在所述决策时点之前的预设时间窗口内,按所述多个时序特征所涉及的用户参数,获取用户时序数据。
其中,所述在备选时序特征集中确定稳定性能较高的多个时序特征包括:
获取多个连续前期决策时点的多个训练样本,以及,多个连续后期决策时点的多个测试样本;其中每个训练样本包括备选时序特征集,每个测试样本包括备选时序特征集;
输入多个连续前期决策时点对应的多个训练样本和多个连续后期决策时点对应的多个测试样本至分类模型,获得所述多个连续前期决策时点对应的多个输出结果以及多个连续后期决策时点对应的多个输出结果;
对所述多个连续前期决策时点对应的多个输出结果以及多个连续后期决策时点对应的多个输出结果进行分尺度转化操作,获得所述多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分;
基于所述多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分,计算用于衡量备选时序特征集稳定性的第一度量指标;
在所述第一度量指标大于第一度量阈值的情况下,从所述备选时序特征集中删除部分稳定性能较差的备选时序特征,进入所述输入多个连续前期决策时点对应的多个训练样本和多个连续后期决策时点对应的多个测试样本至分类模型,获得所述多个连续前期决策时点对应的多个输出结果以及多个连续后期决策时点对应的多个输出结果的步骤;
重复上述迭代过程,直到所述第一度量指标小于所述第一度量阈值。
其中,所述基于所述多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分,计算用于衡量备选时序特征集稳定性的第一度量指标包括:
对多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分,按用户标识执行分类操作并对每个用户标识按照决策时点执行排序操作;
计算每个用户标识对应的整数评分的波动幅度;
统计整数评分的波动幅度在指定范围内的用户数量,并计算所述用户数量于整体用户数量的人数占比;
将所述人数占比,作为用于衡量备选时序特征集稳定性的第一度量指标。
其中,在获取多个连续前期决策时点的多个训练样本,以及,多个连续后期决策时点的多个测试样本之后,还包括:
基于所述多个训练样本,计算各个备选时序特征的稳定性能指标;
从所述多个训练样本以及多个测试样本中,排除稳定性能指标不满足稳定条件的备选时序特征。
其中,所述在备选时序特征集中确定稳定性能较高的多个时序特征包括:
基于多个用户时序数据计算得到多个备选特征集;
针对每个备选特征,基于所述多个备选特征集计算用于表示稳定性能高低的稳定度指标、用于表示信息量高低的信息值以及覆盖率;
从备选特征集中,筛选稳定度指标小于所述第一阈值,信息量大于第二阈值,以及覆盖率大于第三阈值的多个时序特征。
其中,所述时序特征分类模型的训练过程包括:
获取多个连续前期决策时点的多个训练样本,以及,多个连续后期决策时点的多个测试样本;其中每个训练样本包括时序特征集,每个测试样本包括时序特征集;
基于所述多个训练样本训练分类模型,获得训练好的分类模型;
输入多个连续前期决策时点对应的多个训练样本和多个连续后期决策时点对应的多个测试样本至所述分类模型,获得所述多个连续前期决策时点对应的多个输出结果以及多个连续后期决策时点对应的多个输出结果;
对所述多个连续前期决策时点对应的多个输出结果以及多个连续后期决策时点对应的多个输出结果进行分尺度转化操作,获得所述多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分;
基于所述多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分,计算用于衡量分类模型稳定性的第二度量指标;
在所述第二度量指标大于第二度量阈值的情况下,调整所述分类模型的初始模型参数,进入所述基于所述多个训练样本训练分类模型,获得训练好的分类模型的步骤,直到所述第二度量指标小于第二度量阈值;
在所述第二度量指标小于第二度量阈值的情况下,将所述训练好的分类模型确定为所述时序特征分类模型。
其中,所述基于所述多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分,计算用于衡量分类模型稳定性的第二度量指标包括:
对各个训练样本和各个测试样本的整数评分进行分段操作获得多个评分段;
针对每个评分段:计算评分段的统计逾期率与真实逾期率,并计算统计逾期率与所述真实逾期率的差值,计算每个评分段的用户数量于整体用户数量之间的人数占比;
计算各个评分段的差值与人数占比的乘积和;
将所述乘积和,作为计算用于衡量分类模型稳定性的第二度量指标。
一种数据处理装置,包括:
获取单元,用于响应于用户于决策时点的决策请求,获取基于所述决策时点确定的预设时间窗口内的用户时序数据;
提取单元,用于对所述用户时序数据执行特征提取操作,获得用户时序特征;
输入单元,用于输入所述用户时序特征至预先训练好的时序特征分类模型,获得所述时序特征分类模型的输出概率;其中所述时序特征分类模型为基于时序特征训练集训练后得到的、用于区分用户信用度的机器模型;
确定单元,用于基于所述输出概率确定所述决策请求对应的决策结果。
一种电子设备,包括:
存储器,用于存储软件程序;
处理器,用于执行存储器中的软件程序并实现如权利要求1-8任一项所述的数据处理方法。
通过上述技术特征可知,本申请具有以下有益效果:
本申请提出不再采用决策时点的用户特征,而是采用决策时点之前预设时间窗口内的用户时序特征。由于预设时间窗口为一个时间段,一个时间段的用户时序特征相比于单个时间点的用户特征而言,其稳定性会增强。
后续基于预设时间窗口的用户特征进行特征提取,获得用户时序特征;并将用户时序特征输入至时序特征分类模型中,以便获得输出概率,最终基于输出概率确定所述决策请求对应的决策结果。
本申请可以在互联网大数据的扰动下,尽量保证在不同时间点对对同一用户的决策的稳定性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种特征筛选方法的流程图;
图2为本申请实施例公开的一种时序特征分类模型的训练方法的流程图;
图3为本申请实施例公开的一种数据处理方法的流程图;
图4为本申请实施例公开的一种数据处理装置的结构示意图;
图5为本申请实施例公开的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
由于互联网大数据的快速发展,同一用户在不同决策时点的用户数据很大程度是不同的,所以分类模型基于某个决策时点的用户特征来执行分类操作,必然会导致决策概率会发生变化,导致对同一用户的决策不稳定。
为此,本申请提出可以不再采用决策时点的用户特征,而是采用决策时点之前预设时间窗口内的用户时序特征,由于预设时间窗口为一个时间段,一个时间段的用户时序特征相比于单个时间点的用户特征而言,其稳定性会增强。
可以理解的是,可以基于用户时序数据来提取用户时序特征。为了更加全面的提取用户时序特征,本申请提供备选时序特征集,备选时序特征集包括备选时序特征。
由于备选时序特征集包括多个备选时序特征,有的备选时序特征可能受互联网大数据影响较大、稳定性较差,有的备选时序特征可能受互联网大数据影响较小、稳定性较好。
为了使得本申请的分类效果更加稳定,所以可以对备选时序特征集进行筛选,以便在备选时序特征集中确定稳定性能较高的多个时序特征。
参见图1,提供了一种特征筛选方法,包括以下步骤:
步骤S101:获取基于多个连续前期决策时点确定的多个预设时间窗口对应的多个用户时序数据,以及,获取基于多个连续后期决策时点确定的多个预设时间窗口对应的多个用户时序数据。
预先设定一批用户标识集,用于训练样本的多个连续前期决策时点,用于测试样本的多个连续后期决策时点,以及,预设时间窗口。
为了便于理解,以一个具体应用场景为例进行介绍:以多个连续前期决策时点为2019年1月到6月为例,假设每个月的15号为一个决策时点,则具有六个前期决策时点。
在多个前期决策时点之后确定多个后期决策时点,以多个连续后期决策时点为2019年7月到12月为例,仍然以每个月的15号为一个决策时点,则具有六个后期决策时点。
本申请会预先确定预设时间窗口,预设时间窗口可以根据具体应用场景而调整。例如,一年、一个季度、半年或一个月。以半年为例,假设决策时点为2019年1月,该决策时点的预设时间窗口为起始点为2018年8月、结束点为2019年1月,共半年时间。
针对每个前期决策时点:基于前期决策时点确定预设时间窗口,并在预设时间窗口内提取用户时序数据。用户时序数据可以包括每个月的用户数据。
针对每个后期决策时点:基于后期决策时点确定预设时间窗口,并在预设时间窗口内提取用户时序数据。用户时序数据可以包括每个月的用户数据。
以信贷应用场景为例,在预设时间窗口内提取用户时序数据,用户时序数据包括每个月的借贷数据,借贷数据可以包括:借贷次数、借贷金额、还款次数、是否逾期、银行卡是否有余额、账龄等等。
步骤S102:获取多个连续前期决策时点的多个训练样本,以及,多个连续后期决策时点的多个测试样本;其中每个训练样本包括备选时序特征集,每个测试样本包括备选时序特征集。
分别对多个连续前期决策时点对应的多个用户时序数据执行特征提取操作,获得多个备选时序特征集,为每个用户时序数据设置标签,将添加有标签的备选时序特征集作为多个训练样本。
分别对多个连续后期决策时点对应的多个用户时序数据执行特征提取操作,获得多个备选时序特征集,为每个用户时序数据设置标签,将添加有标签的备选时序特征集作为多个训练样本。
备选时序特征集包括多个备选时序特征。仍然以信贷应用场景为例,多个备选时序特征包括:借贷次数总数、借贷次数增长率、相邻月份的借贷次数变化、前三个月与后三个月之间的借贷次数变化、相邻月份之间的逾期变化、前三个月与后三个月之间的逾期变化等等预先设定的各个备选时序特征。
标签可以设置为“0”或“1”,其中“0”表示用户未有连续30天超期记录,其中“1”表示用户有连续30天超期记录。
步骤S103:计算各个备选时序特征的稳定性能指标;从所述多个训练样本以及多个测试样本中,排除稳定性能指标不满足稳定条件的备选时序特征。
由于备选时序特征集中备选时序特征较多,为了便于后续处理,可以基于多个训练样本计算各个备用时序特征的稳定性能指标。
以一个备选时序特征为例,计算多个测试样本中该备选时序特征的多个稳定性能指标。稳定性能指标可以包括:用于表示稳定性能高低的稳定度指标PSI、用于表示信息量高低的信息值IV以及覆盖率,当然还可以包括其它稳定性能指标。
从备选时序特征集中,筛选稳定度指标PSI小于所述第一阈值(例如PSI<=0.05),信息量IV大于第二阈值(IV>0.02),以及覆盖率大于第三阈值(覆盖率>=10%)的多个时序特征。
步骤S104:基于所述多个训练样本训练分类模型,获得训练好的分类模型。
初始化分类模型,分类模型中的模型参数均为初始参数。
按照多个训练样本训练分类模型,在达到训练结束条件后,获得训练好的分类模型。
因为多个训练样本中的备选时序特征可能有不稳定的备用时序特征,为了保证分类模型的稳定性,所以可以验证各个备用时序特征的稳定性能。
步骤S105:输入多个连续后期决策时点对应的多个测试样本至分类模型,获得多个连续后期决策时点对应的多个输出结果。
输入多个连续后期决策时点对应的多个测试样本至分类模型,获得多个连续后期决策时点对应的多个输出结果。此处输出结果为一个概率值。
步骤S106:对多个连续后期决策时点对应的多个输出结果进行分尺度转化操作,获得所述多个连续后期决策时点对应的多个整数评分。
由于概率值不方便处理,所以对多个连续后期决策时点对应的多个输出结果进行分尺度转化操作,获得所述多个连续后期决策时点对应的多个整数评分。例如,分尺度转化后,将概率值范围[0,1]转换为的整数评分范围[230,890]。
步骤S107:基于多个连续后期决策时点对应的多个整数评分,计算用于衡量备选时序特征集稳定性的第一度量指标。
S1:对多个连续后期决策时点对应的多个整数评分,按用户标识执行分类操作并对每个用户标识按照决策时点执行排序操作。
按照用户标识为主键,对多个后期决策时点的整数评分进行分类操作,获得多个分组。对每个分组按照决策时点的先后顺序进行排序操作。
为了保证决策时点的数量是一致的,针对每个用户标识,均基于预设时间窗口确定多个决策时点。延续上述举例,预设时间窗口有六个决策时点,则针对每个用户标识,在用户标识的分组中由前至后的顺序确定六个决策时点。
S2:计算每个用户标识对应的整数评分的波动幅度。
延续上述举例,针对每个用户标识分组中六个决策时点的整数评分,计算整数评分的波动幅度。关于具体的计算方式,已为成熟技术,本申请不再赘述。
S3:统计整数评分的波动幅度在指定范围内的用户数量,并计算所述用户数量于整体用户数量的人数占比。
在确定每个用户标识对应的波动幅度之后,可以统计波动幅度在指定范围内的用户数量,指定范围为预先设定的一个用于指示波动幅度较小的一个范围。
将整数评分的波动幅度在指定范围内的用户数量于测试样本中整体用户数量的比值,作为波动幅度较小的人数占比。
S4:将所述人数占比,作为用于衡量备选时序特征集稳定性的第一度量指标。
可以理解的是,人数占比越大则表示备选时序特征的稳定性越好,反之,则表示备选时序特征的稳定性越差。
步骤S108:在所述第一度量指标大于第一度量阈值的情况下,从所述备选时序特征集中删除部分稳定性能较差的备选时序特征,进入步骤S104。
在第一度量指标大于第一度量阈值的情况下,表示备选时序特征集中包含较多波动幅度较大的特征,为此,对多个训练样本和多个测试样本中备选时序特征进行调整,以便删除部分稳定性能较差的备选时序特征。然后再进入步骤S104,重新训练分类模型。
在删除稳定性能较差的备选时序特征时,可以按照稳定度指标PSI来删除,PSI较大的一个或多个备选时序特征。PSI越大表示测试样本与训练样本之间的差异越大。
步骤S109:在第一度量指标小于第一度量阈值的情况下,确定多个训练样本和多个测试样本中备选时序特征已经调整完毕。
在经过多轮备选时序特征调整后,可以删除稳定性能较差的备选时序特征,获得稳定性能较好的多个训练样本和多个测试样本。
本实施例,可以对备选时序特征集进行筛选,以便在备选时序特征集中确定稳定性能较高的多个时序特征。
参见图2,介绍时序特征分类模型的训练方法,包括以下步骤:
步骤S201:获取多个连续前期决策时点的多个训练样本,以及,多个连续后期决策时点的多个测试样本;其中每个训练样本包括时序特征集,每个测试样本包括时序特征集。
可以理解的是,多个训练样本和多个测试样本为在经过图1所示特征筛选方法之后确定的,多个训练样本和多个测试样本中已经排除稳定性能较差的备选时序特征。
步骤S202:基于所述多个训练样本训练分类模型,获得训练好的分类模型。
基于多个训练样本对分类模型进行训练,获得训练好的分类模型。
步骤S203:输入多个连续后期决策时点对应的多个测试样本至所述分类模型,获得多个连续后期决策时点对应的多个输出结果。
步骤S204:对多个连续后期决策时点对应的多个输出结果进行分尺度转化操作,获得所述多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分。
步骤S205:基于多个连续后期决策时点对应的多个整数评分,计算用于衡量分类模型稳定性的第二度量指标。
S1:各个测试样本的整数评分进行分段操作获得多个评分段。
对各个测试样本的整数评分进行分段,例如按照10分一个评分段。
S2:针对每个评分段:计算评分段的统计逾期率与真实逾期率,并计算统计逾期率与所述真实逾期率的差值,计算每个评分段的用户数量于整体用户数量之间的人数占比。
由于整数评分是基于概率值转换而来的,所以每个评分段对应一个概率值范围,例如,230-240这个分数段对应的概率值为0~0.5这个概率值范围。
计算每个评分段中的统计逾期率,可以计算每个评分段中各个测试样本的概率值取平均值,将平均值作为该分数段的统计逾期率。
计算每个评分段的真实逾期率,每个评分段统计测试样本的样本总数量,统计标签为逾期的样本数量,将样本数量与样本总数量的商,确定为真实逾期率。
计算每个评分段中的统计逾期率与真实逾期率之间的差值,并计算每个评分段中用户数量于整体用户数量之间的人数占比。
S3:计算各个评分段的差值与人数占比的乘积和。
乘积和可以反映统计逾期率与真实逾期率之间的差距,也即可以反映分类模型的稳定性。
S4:将所述乘积和,作为计算用于衡量分类模型稳定性的第二度量指标。
可以理解的是,乘积和越小则表示分类模型越稳定,乘积和越大则表示分类模型越不稳定。
步骤S206:在所述第二度量指标大于第二度量阈值的情况下,调整所述分类模型的初始模型参数,进入步骤S202。
重新调整分类模型的初始模型参数,例如调整模型树的数量、调整模型树的深度等初始化参数,以便使得分类模型更加趋向于稳定性。
步骤S207:在所述第二度量指标小于第二度量阈值的情况下,将所述训练好的分类模型确定为所述时序特征分类模型。
参见图3,本发明提供了一种数据处理方法,应用于处理设备,所述方法包括:
步骤S301:响应于用户于决策时点的决策请求,获取基于所述决策时点确定的预设时间窗口内的用户时序数据。
响应于用户于决策时点的决策请求,以信贷场景为例,当用户发起信贷请求时,放贷平台可以接收用户于当前时间点发起的借贷请求。
处理设备基于决策时点确定包含决策时点在内的预设时间窗口的用户时序数据,以决策时点为2020年1月为例,则预设时间窗口为2019年8月至2020年1月。处理设备获取预设时间窗口内的用户时序数据。
步骤S302:对所述用户时序数据执行特征提取操作,获得用户时序特征。
处理设备按照图1特征筛选方法确定的稳定性能较好的多个时序特征,对用户时序数据执行特征提取操作,获得用户时序特征。
步骤S303:输入所述用户时序特征至预先训练好的时序特征分类模型,获得所述时序特征分类模型的输出概率;其中所述时序特征分类模型为基于时序特征训练集训练后得到的、用于区分用户信用度的机器模型;
输入用户时序特征至预先训练好的时序特征分类模型中,从而时序特征分类模型输出的输出概率。在信贷应用场景下,输出概率可以表示用户信用度高低。
步骤S304:基于所述输出概率确定所述决策请求对应的决策结果。
当输出概率大于预设阈值则表示用户有较大概率违约,所以确定决策请求对应的决策结果为否定结果。
当输出概率小于预设阈值则表示用户有较小概率违约,所以可以确定决策请求对应的决策结果为确定结果。
参见图4,本发明提供一种数据处理装置,包括:
获取单元41,用于响应于用户于决策时点的决策请求,获取基于所述决策时点确定的预设时间窗口内的用户时序数据;
提取单元42,用于对所述用户时序数据执行特征提取操作,获得用户时序特征;
输入单元43,用于输入所述用户时序特征至预先训练好的时序特征分类模型,获得所述时序特征分类模型的输出概率;其中所述时序特征分类模型为基于时序特征训练集训练后得到的、用于区分用户信用度的机器模型;
确定单元44,用于基于所述输出概率确定所述决策请求对应的决策结果。
其中,在响应于用户于决策时点的决策请求之前,还包括在备选时序特征集中确定稳定性能较高的多个时序特征,以及,确定所述多个时序特征所涉及的用户参数;
则所述获取所述决策时点之前预设时间窗口内的用户时序数据包括:
在所述决策时点之前的预设时间窗口内,按所述多个时序特征所涉及的用户参数,获取用户时序数据。
其中,所述在备选时序特征集中确定稳定性能较高的多个时序特征包括:
获取多个连续前期决策时点的多个训练样本,以及,多个连续后期决策时点的多个测试样本;其中每个训练样本包括备选时序特征集,每个测试样本包括备选时序特征集;
输入多个连续前期决策时点对应的多个训练样本和多个连续后期决策时点对应的多个测试样本至分类模型,获得所述多个连续前期决策时点对应的多个输出结果以及多个连续后期决策时点对应的多个输出结果;
对所述多个连续前期决策时点对应的多个输出结果以及多个连续后期决策时点对应的多个输出结果进行分尺度转化操作,获得所述多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分;
基于所述多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分,计算用于衡量备选时序特征集稳定性的第一度量指标;
在所述第一度量指标大于第一度量阈值的情况下,从所述备选时序特征集中删除部分稳定性能较差的备选时序特征,进入所述输入多个连续前期决策时点对应的多个训练样本和多个连续后期决策时点对应的多个测试样本至分类模型,获得所述多个连续前期决策时点对应的多个输出结果以及多个连续后期决策时点对应的多个输出结果的步骤;
重复上述迭代过程,直到所述第一度量指标小于所述第一度量阈值。
其中,所述基于所述多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分,计算用于衡量备选时序特征集稳定性的第一度量指标包括:
对多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分,按用户标识执行分类操作并对每个用户标识按照决策时点执行排序操作;
计算每个用户标识对应的整数评分的波动幅度;
统计整数评分的波动幅度在指定范围内的用户数量,并计算所述用户数量于整体用户数量的人数占比;
将所述人数占比,作为用于衡量备选时序特征集稳定性的第一度量指标。
其中,在获取多个连续前期决策时点的多个训练样本,以及,多个连续后期决策时点的多个测试样本之后,还包括:
基于所述多个训练样本,计算各个备选时序特征的稳定性能指标;
从所述多个训练样本以及多个测试样本中,排除稳定性能指标不满足稳定条件的备选时序特征。
其中,所述在备选时序特征集中确定稳定性能较高的多个时序特征包括:
基于多个用户时序数据计算得到多个备选特征集;
针对每个备选特征,基于所述多个备选特征集计算用于表示稳定性能高低的稳定度指标、用于表示信息量高低的信息值以及覆盖率;
从备选特征集中,筛选稳定度指标小于所述第一阈值,信息量大于第二阈值,以及覆盖率大于第三阈值的多个时序特征。
其中,所述时序特征分类模型的训练过程包括:
获取多个连续前期决策时点的多个训练样本,以及,多个连续后期决策时点的多个测试样本;其中每个训练样本包括时序特征集,每个测试样本包括时序特征集;
基于所述多个训练样本训练分类模型,获得训练好的分类模型;
输入多个连续前期决策时点对应的多个训练样本和多个连续后期决策时点对应的多个测试样本至所述分类模型,获得所述多个连续前期决策时点对应的多个输出结果以及多个连续后期决策时点对应的多个输出结果;
对所述多个连续前期决策时点对应的多个输出结果以及多个连续后期决策时点对应的多个输出结果进行分尺度转化操作,获得所述多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分;
基于所述多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分,计算用于衡量分类模型稳定性的第二度量指标;
在所述第二度量指标大于第二度量阈值的情况下,调整所述分类模型的初始模型参数,进入所述基于所述多个训练样本训练分类模型,获得训练好的分类模型的步骤,直到所述第二度量指标小于第二度量阈值;
在所述第二度量指标小于第二度量阈值的情况下,将所述训练好的分类模型确定为所述时序特征分类模型。
其中,所述基于所述多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分,计算用于衡量分类模型稳定性的第二度量指标包括:
对各个训练样本和各个测试样本的整数评分进行分段操作获得多个评分段;
针对每个评分段:计算评分段的统计逾期率与真实逾期率,并计算统计逾期率与所述真实逾期率的差值,计算每个评分段的用户数量于整体用户数量之间的人数占比;
计算各个评分段的差值与人数占比的乘积和;
将所述乘积和,作为计算用于衡量分类模型稳定性的第二度量指标。
具体实现过程可以详见1-图3所示的详细内容,在此不再赘述。
参见图5,本发明提供一种电子设备,包括:
存储器,用于存储软件程序;
处理器,用于执行存储器中的软件程序并实现所述的数据处理方法。
具体实现过程可以详见1-图3所示的详细内容,在此不再赘述。
本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
响应于用户于决策时点的决策请求,获取基于所述决策时点确定的预设时间窗口内的用户时序数据;
对所述用户时序数据执行特征提取操作,获得用户时序特征;
输入所述用户时序特征至预先训练好的时序特征分类模型,获得所述时序特征分类模型的输出概率;其中所述时序特征分类模型为基于时序特征训练集训练后得到的、用于区分用户信用度的机器模型;
基于所述输出概率确定所述决策请求对应的决策结果。
2.如权利要求1所述的方法,其特征在于,在响应于用户于决策时点的决策请求之前,还包括在备选时序特征集中确定稳定性能较高的多个时序特征,以及,确定所述多个时序特征所涉及的用户参数;
则所述获取所述决策时点之前预设时间窗口内的用户时序数据包括:
在所述决策时点之前的预设时间窗口内,按所述多个时序特征所涉及的用户参数,获取用户时序数据。
3.如权利要求2所述的方法,其特征在于,所述在备选时序特征集中确定稳定性能较高的多个时序特征包括:
获取多个连续前期决策时点的多个训练样本,以及,多个连续后期决策时点的多个测试样本;其中每个训练样本包括备选时序特征集,每个测试样本包括备选时序特征集;
输入多个连续前期决策时点对应的多个训练样本和多个连续后期决策时点对应的多个测试样本至分类模型,获得所述多个连续前期决策时点对应的多个输出结果以及多个连续后期决策时点对应的多个输出结果;
对所述多个连续前期决策时点对应的多个输出结果以及多个连续后期决策时点对应的多个输出结果进行分尺度转化操作,获得所述多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分;
基于所述多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分,计算用于衡量备选时序特征集稳定性的第一度量指标;
在所述第一度量指标大于第一度量阈值的情况下,从所述备选时序特征集中删除部分稳定性能较差的备选时序特征,进入所述输入多个连续前期决策时点对应的多个训练样本和多个连续后期决策时点对应的多个测试样本至分类模型,获得所述多个连续前期决策时点对应的多个输出结果以及多个连续后期决策时点对应的多个输出结果的步骤;
重复上述迭代过程,直到所述第一度量指标小于所述第一度量阈值。
4.如权利要求3所述的方法,其特征在于,所述基于所述多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分,计算用于衡量备选时序特征集稳定性的第一度量指标包括:
对多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分,按用户标识执行分类操作并对每个用户标识按照决策时点执行排序操作;
计算每个用户标识对应的整数评分的波动幅度;
统计整数评分的波动幅度在指定范围内的用户数量,并计算所述用户数量于整体用户数量的人数占比;
将所述人数占比,作为用于衡量备选时序特征集稳定性的第一度量指标。
5.如权利要求3所述的方法,其特征在于,在获取多个连续前期决策时点的多个训练样本,以及,多个连续后期决策时点的多个测试样本之后,还包括:
基于所述多个训练样本,计算各个备选时序特征的稳定性能指标;
从所述多个训练样本以及多个测试样本中,排除稳定性能指标不满足稳定条件的备选时序特征。
6.如权利要求2所述的方法,其特征在于,所述在备选时序特征集中确定稳定性能较高的多个时序特征包括:
基于多个用户时序数据计算得到多个备选特征集;
针对每个备选特征,基于所述多个备选特征集计算用于表示稳定性能高低的稳定度指标、用于表示信息量高低的信息值以及覆盖率;
从备选特征集中,筛选稳定度指标小于所述第一阈值,信息量大于第二阈值,以及覆盖率大于第三阈值的多个时序特征。
7.如权利要求2所述的方法,其特征在于,所述时序特征分类模型的训练过程包括:
获取多个连续前期决策时点的多个训练样本,以及,多个连续后期决策时点的多个测试样本;其中每个训练样本包括时序特征集,每个测试样本包括时序特征集;
基于所述多个训练样本训练分类模型,获得训练好的分类模型;
输入多个连续前期决策时点对应的多个训练样本和多个连续后期决策时点对应的多个测试样本至所述分类模型,获得所述多个连续前期决策时点对应的多个输出结果以及多个连续后期决策时点对应的多个输出结果;
对所述多个连续前期决策时点对应的多个输出结果以及多个连续后期决策时点对应的多个输出结果进行分尺度转化操作,获得所述多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分;
基于所述多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分,计算用于衡量分类模型稳定性的第二度量指标;
在所述第二度量指标大于第二度量阈值的情况下,调整所述分类模型的初始模型参数,进入所述基于所述多个训练样本训练分类模型,获得训练好的分类模型的步骤,直到所述第二度量指标小于第二度量阈值;
在所述第二度量指标小于第二度量阈值的情况下,将所述训练好的分类模型确定为所述时序特征分类模型。
8.如权利要求7所述的方法,其特征在于,所述基于所述多个连续前期决策时点对应的多个整数评分以及多个连续后期决策时点对应的多个整数评分,计算用于衡量分类模型稳定性的第二度量指标包括:
对各个训练样本和各个测试样本的整数评分进行分段操作获得多个评分段;
针对每个评分段:计算评分段的统计逾期率与真实逾期率,并计算统计逾期率与所述真实逾期率的差值,计算每个评分段的用户数量于整体用户数量之间的人数占比;
计算各个评分段的差值与人数占比的乘积和;
将所述乘积和,作为计算用于衡量分类模型稳定性的第二度量指标。
9.一种数据处理装置,其特征在于,包括:
获取单元,用于响应于用户于决策时点的决策请求,获取基于所述决策时点确定的预设时间窗口内的用户时序数据;
提取单元,用于对所述用户时序数据执行特征提取操作,获得用户时序特征;
输入单元,用于输入所述用户时序特征至预先训练好的时序特征分类模型,获得所述时序特征分类模型的输出概率;其中所述时序特征分类模型为基于时序特征训练集训练后得到的、用于区分用户信用度的机器模型;
确定单元,用于基于所述输出概率确定所述决策请求对应的决策结果。
10.一种电子设备,其特征在于,包括:
存储器,用于存储软件程序;
处理器,用于执行存储器中的软件程序并实现如权利要求1-8任一项所述的数据处理方法。
CN202011249216.3A 2020-11-10 2020-11-10 数据处理方法及装置 Pending CN112348094A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011249216.3A CN112348094A (zh) 2020-11-10 2020-11-10 数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011249216.3A CN112348094A (zh) 2020-11-10 2020-11-10 数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN112348094A true CN112348094A (zh) 2021-02-09

Family

ID=74362564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011249216.3A Pending CN112348094A (zh) 2020-11-10 2020-11-10 数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN112348094A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978680A (zh) * 2019-03-18 2019-07-05 杭州绿度信息技术有限公司 一种细分客群信贷业务风控差异化定价的风控方法和系统
CN110060108A (zh) * 2019-04-25 2019-07-26 上海优扬新媒信息技术有限公司 一种用户行为分析方法及装置
CN110135701A (zh) * 2019-04-23 2019-08-16 北京淇瑀信息科技有限公司 控制规则的自动生成方法、装置、电子设备及可读介质
CN110147925A (zh) * 2019-04-10 2019-08-20 阿里巴巴集团控股有限公司 一种风险决策方法、装置、设备及系统
CN110197426A (zh) * 2018-04-16 2019-09-03 腾讯科技(深圳)有限公司 一种信用评分模型的建立方法、装置及可读存储介质
CN110472798A (zh) * 2019-08-22 2019-11-19 腾讯科技(深圳)有限公司 时间序列数据的预测方法、装置及计算机可读存储介质
CN111222982A (zh) * 2020-01-16 2020-06-02 随手(北京)信息技术有限公司 一种互联网信贷逾期预测方法、装置、服务器和存储介质
CN111294239A (zh) * 2015-06-29 2020-06-16 阿里巴巴集团控股有限公司 一种确定网络关系稳定度、互联网业务推荐方法和设备
CN111476296A (zh) * 2020-04-07 2020-07-31 上海优扬新媒信息技术有限公司 样本生成方法、分类模型训练方法、识别方法及对应装置
CN111652279A (zh) * 2020-04-30 2020-09-11 中国平安财产保险股份有限公司 基于时序数据的行为评价方法、装置及可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111294239A (zh) * 2015-06-29 2020-06-16 阿里巴巴集团控股有限公司 一种确定网络关系稳定度、互联网业务推荐方法和设备
CN110197426A (zh) * 2018-04-16 2019-09-03 腾讯科技(深圳)有限公司 一种信用评分模型的建立方法、装置及可读存储介质
CN109978680A (zh) * 2019-03-18 2019-07-05 杭州绿度信息技术有限公司 一种细分客群信贷业务风控差异化定价的风控方法和系统
CN110147925A (zh) * 2019-04-10 2019-08-20 阿里巴巴集团控股有限公司 一种风险决策方法、装置、设备及系统
CN110135701A (zh) * 2019-04-23 2019-08-16 北京淇瑀信息科技有限公司 控制规则的自动生成方法、装置、电子设备及可读介质
CN110060108A (zh) * 2019-04-25 2019-07-26 上海优扬新媒信息技术有限公司 一种用户行为分析方法及装置
CN110472798A (zh) * 2019-08-22 2019-11-19 腾讯科技(深圳)有限公司 时间序列数据的预测方法、装置及计算机可读存储介质
CN111222982A (zh) * 2020-01-16 2020-06-02 随手(北京)信息技术有限公司 一种互联网信贷逾期预测方法、装置、服务器和存储介质
CN111476296A (zh) * 2020-04-07 2020-07-31 上海优扬新媒信息技术有限公司 样本生成方法、分类模型训练方法、识别方法及对应装置
CN111652279A (zh) * 2020-04-30 2020-09-11 中国平安财产保险股份有限公司 基于时序数据的行为评价方法、装置及可读存储介质

Similar Documents

Publication Publication Date Title
CN111291816B (zh) 针对用户分类模型进行特征处理的方法及装置
CN108898479B (zh) 信用评价模型的构建方法及装置
CN105787025B (zh) 网络平台公共账号分类方法及装置
CN111080442A (zh) 信用评分模型的构建方法、装置、设备及存储介质
CN101616101A (zh) 一种用户信息过滤方法及装置
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN111476296A (zh) 样本生成方法、分类模型训练方法、识别方法及对应装置
CN110046251A (zh) 社区内容风险评估方法及装置
CN108076032B (zh) 一种异常行为用户识别方法及装置
CN115271282A (zh) 基于模糊逻辑的客户价值确定方法及装置
CN111930885A (zh) 文本话题的抽取方法、装置及计算机设备
CN114943285B (zh) 互联网新闻内容数据智能审核系统
CN112348094A (zh) 数据处理方法及装置
CN113011503B (zh) 一种电子设备的数据取证方法、存储介质及终端
CN114626940A (zh) 数据分析方法、装置及电子设备
CN113313582A (zh) 拒客回捞模型训练方法、装置及电子设备
CN111090742A (zh) 一种问答对的评价方法、装置、存储介质及设备
CN108733824B (zh) 考虑专家知识的交互式主题建模方法及装置
CN113010673A (zh) 一种基于熵优化支持向量机的漏洞自动分类方法
CN113255324B (zh) 一种用于专利数据中发明人姓名消歧的方法
CN112948646B (zh) 数据识别方法和装置
CN114020643B (zh) 一种知识库测试方法及装置
CN111723223B (zh) 一种基于主体推断的多标签图像检索方法
CN114626340B (zh) 基于手机信令的行为特征提取方法及相关装置
CN109947927B (zh) 一种信息处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: B7-7-2, Yuxing Plaza, No.5, Huangyang Road, Yubei District, Chongqing

Applicant after: Chongqing duxiaoman Youyang Technology Co.,Ltd.

Address before: 201800 room 307, 3 / F, building 8, 55 Huiyuan Road, Jiading District, Shanghai

Applicant before: SHANGHAI YOUYANG NEW MEDIA INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211220

Address after: 100193 Room 606, 6 / F, building 4, West District, courtyard 10, northwest Wangdong Road, Haidian District, Beijing

Applicant after: Du Xiaoman Technology (Beijing) Co.,Ltd.

Address before: B7-7-2, Yuxing Plaza, No.5, Huangyang Road, Yubei District, Chongqing

Applicant before: Chongqing duxiaoman Youyang Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication

Application publication date: 20210209