CN110728323B - 目标类型用户的识别方法、装置、电子设备及存储介质 - Google Patents

目标类型用户的识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110728323B
CN110728323B CN201910967496.2A CN201910967496A CN110728323B CN 110728323 B CN110728323 B CN 110728323B CN 201910967496 A CN201910967496 A CN 201910967496A CN 110728323 B CN110728323 B CN 110728323B
Authority
CN
China
Prior art keywords
user
sample
behavior
target
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910967496.2A
Other languages
English (en)
Other versions
CN110728323A (zh
Inventor
郭延祥
王湾湾
姚明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ccx Credit Technology Co ltd
Original Assignee
Ccx Credit Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ccx Credit Technology Co ltd filed Critical Ccx Credit Technology Co ltd
Priority to CN201910967496.2A priority Critical patent/CN110728323B/zh
Publication of CN110728323A publication Critical patent/CN110728323A/zh
Application granted granted Critical
Publication of CN110728323B publication Critical patent/CN110728323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了一种目标类型用户的识别方法、装置、电子设备及存储介质,方法包括:将待识别用户的用户行为特征和第一变量值输入到预先训练好的用户识别模型中;用户识别模型为:预先用实验组训练样本的用户行为特征和第一变量值,及对照组训练样本的用户行为特征和第二变量值训练好的净提升模型Uplift Model;获取模型输出的第一预测概率;将待识别用户的用户行为特征和第二变量值输入到用户识别模型中,获取模型输出的第二预测概率;判断第一预测概率与第二预测概率的差值是否大于预设的阈值;如果是,则确定待识别用户为目标类型用户。可见,应用本发明实施例,可以识别出目标类型用户,采集的样本较全面,对目标类型用户的识别较准确。

Description

目标类型用户的识别方法、装置、电子设备及存储介质
技术领域
本发明涉及信息处理的技术领域,特别是涉及一种目标类型用户的识别方法、装置、电子设备及存储介质。
背景技术
目前,很多行业领域都采用大数据处理对商品信息、业务信息及用户信息的不同类型的数据进行处理。
其中,从海量的用户信息数据中,识别出某目标类型的用户是对用户信息进行处理中的一个重要内容。
相关技术中,可以先从大量的用户信息中,获取待识别用户的用户行为数据,从待识别用户的用户行为数据中提取用户行为特征,将待识别用户的用户行为特征输入到按目标类型预设的二分类模型中,判断出该待识别用户是否是目标类型用户。但是,由于在训练二分类模型时所采集的样本是无规律的,导致采集的样本不够全面。因此相关技术中对目标类型用户的识别不够准确。
发明内容
本发明实施例的目的在于提供一种目标类型用户的识别方法、装置、电子设备及存储介质,以较准确的识别出目标类型用户。具体技术方案如下:
第一方面,本发明提供一种目标类型用户的识别方法,所述方法包括:
获得待识别用户的用户行为数据;
从所述用户行为数据中,提取所述待识别用户的用户行为特征;
将所述待识别用户的用户行为特征和第一变量值输入到预先训练好的用户识别模型中;所述用户识别模型为:针对目标类型用户对应的目标行为,预先用实验组训练样本的用户行为特征和第一变量值,及对照组训练样本的用户行为特征和第二变量值训练好的净提升模型Uplift Model;所述实验组训练样本的用户行为特征和对照组训练样本的用户行为特征分别为从实验组训练样本的用户行为数据和对照组训练样本的用户行为数据中提取的;所述实验组训练样本的用户行为数据为:满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据;所述对照组训练样本的用户行为数据为:不满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据;
获取用户识别模型输出的用户执行所述目标行为的第一预测概率;
将所述待识别用户的用户行为特征和第二变量值输入到所述用户识别模型中;
获取用户识别模型输出的用户执行所述目标行为的第二预测概率;
计算所述第一预测概率与所述第二预测概率的差值作为在只有满足预设条件的情况下,用户执行所述目标行为的条件预测概率;
判断所述条件预测概率是否大于预设的阈值;
如果是,则确定所述待识别用户为目标类型用户。
可选的,所述用户识别模型的训练过程包括:
将实验组样本的用户行为数据标记为实验组,将对照组样本的用户行为数据标记为对照组;
将实验组样本的用户行为数据和对照组样本的用户行为数据合并为数据集;
按预设比例抽取数据集中的样本,构成训练样本集;所述训练样本集中包含实验组训练样本和对照组训练样本;
获得从实验组训练样本的用户行为数据和对照组训练样本的用户行为数据中提取的用户行为特征的交集,作为输入当前初始用户识别模型的用户行为特征;
获得针对实验组训练样本预设的第一变量值和针对对照组训练样本预设的第二变量值;所述第一变量值,用于标识该样本为实验组训练样本;所述第二变量值用于标识该样本为对照组训练样本;
将各个实验组训练样本的用户行为特征和第一变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第一预测概率;
将各个对照组训练样本的用户行为特征和第二变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第二预测概率;
根据各个实验组训练样本的用户行为数据中是否执行目标行为的真实结果、第一预测概率,以及各个对照组训练样本的用户行为数据中是否执行目标行为的真实结果、第二预测概率和预设的损失函数,计算损失值;
根据预设的损失函数的损失值判断当前初始用户识别模型是否收敛;
如果收敛,则确定当前初始用户识别模型为训练完成的用户识别模型;
如果未收敛,则调整当前初始用户识别模型的模型参数,返回所述将各个实验组训练样本的用户行为特征和第一变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第一预测概率的步骤。
可选的,所述当前初始用户识别模型的模型函数为:
Figure GDA0003577269050000021
其中,α,β,γ,δ为待训练的模型的模型参数;Xi为用户行为特征;Ti为第一变量值或第二变量值;E(Yi|Xi)为用户执行目标行为的第一预测概率或第二预测概率;
所述预设的损失函数为:
cost(hθ(x),y)=∑(-y(log(hθ(x))-(1-y)log(1-hθ(x)))+λ∑(|α|+|β|+|γ|+|δ|);
其中,λ惩罚系数为经验值;α,β,γ,δ为待训练的模型的模型参数;hθ(x)为用户执行目标行为的第一预测概率或第二预测概率;y为用户是否执行目标行为的真实结果。
可选的,所述方法,还包括:
获得除去数据集中构成训练样本集的剩余的各个样本,构成测试样本集;所述测试样本集中包含实验组测试样本和对照组测试样本;
分别将测试样本集中的各个样本的用户行为特征和第一变量值,输入到所述训练完成的用户识别模型;
获得所述训练完成的用户识别模型输出的用户执行目标行为的第一预测概率;
将测试样本集中的各个样本的用户行为特征和第二变量值,输入到所述训练完成的用户识别模型;
获得所述训练完成的用户识别模型输出的用户执行所述目标行为的第二预测概率;
将每个样本的第一预测概率和第二预测概率之差作为测试样本集中的各个样本在只有满足预设条件的情况下,用户执行目标行为的各个条件测试预测概率;
将所述各个条件测试预测概率,按照从高到低的顺序进行排序,获得条件测试概率序列;
基于所述条件测试概率序列中的每个实验组测试样本和对照组测试样本是否执行目标行为的真实结果,判断所述训练完成的用户识别模型预测的结果是否准确;
如果是,则将所述训练完成的用户识别模型作为最终训练好的用户识别模型;
如果否,则继续对该训练完成的用户识别模型进行训练。
可选的,所述基于所述条件测试概率序列中的每个实验组测试样本或对照组测试样本是否执行目标行为的真实结果,判断所述训练完成的用户识别模型预测的结果是否准确的步骤,包括:
按照预设的每组中包含样本的个数,将所述条件测试概率序列分组,获得各组条件测试概率序列;
根据每组条件测试概率序列中各个样本是否执行目标行为的真实结果,计算每组条件测试概率序列中真实结果为执行目标行为的各个样本的个数与该组中样本的总个数的比值作为正样本率;
判断各组条件测试概率序列的正样本率是否呈下降趋势;
如果是,则计算每组条件测试概率序列中实验组测试样本的正样本率和对照组测试样本的正样本率;
判断条件测试概率序列中预设组别中的实验组测试样本的正样本率是否大于对照组测试样本的正样本率。
第二方面,本发明提供一种目标类型用户的识别装置,所述装置包括:
用户行为数据获得单元,用于获得待识别用户的用户行为数据;
用户行为特征提取单元,用于从所述用户行为数据中,提取所述待识别用户的用户行为特征;
用户行为特征和第一变量值输入单元,用于将所述待识别用户的用户行为特征和第一变量值输入到预先训练好的用户识别模型中;所述用户识别模型为:针对目标类型用户对应的目标行为,预先用实验组训练样本的用户行为特征和第一变量值,及对照组训练样本的用户行为特征和第二变量值训练好的净提升模型Uplift Model;所述实验组训练样本的用户行为特征和对照组训练样本的用户行为特征分别为从实验组训练样本的用户行为数据和对照组训练样本的用户行为数据中提取的;所述实验组训练样本的用户行为数据为:满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据;所述对照组训练样本的用户行为数据为:不满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据;
第一预测概率获取单元,用于获取用户识别模型输出的用户执行所述目标行为的第一预测概率;
用户行为特征和第二变量值输入单元,用于将所述待识别用户的用户行为特征和第二变量值输入到所述用户识别模型中;
第二预测概率获取单元,用于获取用户识别模型输出的用户执行所述目标行为的第二预测概率;
条件预测概率计算单元,用于计算所述第一预测概率与所述第二预测概率的差值作为在只有满足预设条件的情况下,用户执行所述目标行为的条件预测概率;
判断单元,用于判断所述条件预测概率是否大于预设的阈值;
目标类型用户确定单元,用于如果是,则确定所述待识别用户为目标类型用户。
可选的,所述装置,还包括:用户识别模型训练单元;
所述用户识别模型训练单元,包括:
标记模块,用于将实验组样本的用户行为数据标记为实验组,将对照组样本的用户行为数据标记为对照组;
合并模块,用于将实验组样本的用户行为数据和对照组样本的用户行为数据合并为数据集;
训练样本集构成模块,用于按预设比例抽取数据集中的样本,构成训练样本集;所述训练样本集中包含实验组训练样本和对照组训练样本;
用户行为特征获得模块,用于获得从实验组训练样本的用户行为数据和对照组训练样本的用户行为数据中提取的用户行为特征的交集,作为输入当前初始用户识别模型的用户行为特征;
变量值获得模块,用于获得针对实验组训练样本预设的第一变量值和针对对照组训练样本预设的第二变量值;所述第一变量值,用于标识该样本为实验组训练样本;所述第二变量值用于标识该样本为对照组训练样本;
第一预测概率获得模块,用于将各个实验组训练样本的用户行为特征和第一变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第一预测概率;
第二预测概率获得模块,用于将各个对照组训练样本的用户行为特征和第二变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第二预测概率;
损失值计算模块,用于根据各个实验组训练样本的用户行为数据中是否执行目标行为的真实结果、第一预测概率,以及各个对照组训练样本的用户行为数据中是否执行目标行为的真实结果、第二预测概率和预设的损失函数,计算损失值;
收敛判断模块,用于根据预设的损失函数的损失值判断当前初始用户识别模型是否收敛;
确定模块,用于如果收敛,则确定当前初始用户识别模型为训练完成的用户识别模型;
触发模块,用于如果未收敛,则调整当前初始用户识别模型的模型参数,触发所述第一预测概率获得模块将各个实验组训练样本的用户行为特征和第一变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第一预测概率。
可选的,所述当前初始用户识别模型的模型函数为:
Figure GDA0003577269050000051
其中,α,β,γ,δ为待训练的模型的模型参数;Xi为用户行为特征;Ti为第一变量值或第二变量值;E(Yi|Xi)为用户执行目标行为的第一预测概率或第二预测概率;
所述预设的损失函数为:
cost(hθ(x),y)=∑(-y(log(hθ(x))-(1-y)log(1-hθ(x)))+λ∑(|α|+|β|+|γ|+|δ|);
其中,λ惩罚系数为经验值;α,β,γ,δ为待训练的模型的模型参数;hθ(x)为用户执行目标行为的第一预测概率或第二预测概率;y为用户是否执行目标行为的真实结果。
第三方面,本发明提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一目标类型用户的识别的方法步骤。
第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行上述任一目标类型用户的识别方法的步骤。
第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的目标类型用户的识别方法。
本发明实施例提供的一种目标类型用户的识别方法、装置、电子设备及存储介质,可以将待识别用户的用户行为特征和第一变量值输入到预先训练好的用户识别模型中;所述用户识别模型为:针对目标类型用户对应的目标行为,预先用实验组训练样本的用户行为特征和第一变量值,及对照组训练样本的用户行为特征和第二变量值训练好的净提升模型Uplift Model;获取用户识别模型输出的用户执行所述目标行为的第一预测概率;将所述待识别用户的用户行为特征和第二变量值输入到所述用户识别模型中;获取用户识别模型输出的用户执行所述目标行为的第二预测概率;计算所述第一预测概率与所述第二预测概率的差值作为在只有满足预设条件的情况下,用户执行目标行为的条件预测概率;判断所述条件预测概率是否大于预设的阈值;如果是,则确定所述待识别用户为目标类型用户。可见,应用本发明实施例,可以识别出目标类型用户,在训练用户识别模型时所采集的样本是有规律的,采集的样本较全面,对目标类型用户的识别较准确。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的目标类型用户的识别的方法的一种流程图;
图2为本发明实施例提供的用户识别模型的一种训练流程图;
图3为本发明实施例提供的用户识别模型的另一种训练流程图;
图4为本发明实施例提供的目标类型用户的识别方法应用于信贷数据处理的场景,以只有经过人工电话催收,才会还款的用户为目标类型用户的示例;
图5为本发明实施例提供的目标类型用户的识别的装置的结构示意图;
图6为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决相关技术中对目标类型用户的识别不够准确的问题,本发明实施例提供了一种目标类型用户的识别的方法、装置、电子设备及存储介质。
本发明实施例所提供的目标类型用户的识别的方法可以应用于任意需要对目标类型用户进行识别的电子设备,如:电脑或移动终端等,在此不做具体限定。为了描述方便,以下简称电子设备。
参见图1,为本发明实施例提供的目标类型用户的识别的方法,如图1所示,该方法的具体处理流程可以包括:
步骤S101,获得待识别用户的用户行为数据。
可实施的,待识别用户的用户行为数据为包含用户行为特征的数据。
步骤S102,从所述用户行为数据中,提取所述待识别用户的用户行为特征。
步骤S103,将所述待识别用户的用户行为特征和第一变量值输入到预先训练好的用户识别模型中;所述用户识别模型为:针对目标类型用户对应的目标行为,预先用实验组训练样本的用户行为特征和第一变量值,及对照组训练样本的用户行为特征和第二变量值训练好的净提升模型Uplift Model。
其中,第一变量值和第二变量值为预先设置的不同的常数,分别用来表明满足预设条件和不满足预设条件。
所述实验组训练样本的用户行为特征和对照组训练样本的用户行为特征分别为从实验组训练样本的用户行为数据和对照组训练样本的用户行为数据中提取的;所述实验组训练样本的用户行为数据为:满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据;所述对照组训练样本的用户行为数据为:不满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据。
可实施的,可以利用创建分组哑变量Treatment Dummy方法对净提升模型UpliftModel进行训练。
步骤S104,获取用户识别模型输出的用户执行所述目标行为的第一预测概率。
步骤S105,将所述待识别用户的用户行为特征和第二变量值输入到所述用户识别模型中。
步骤S106,获取用户识别模型输出的用户执行所述目标行为的第二预测概率。
实际应用中,对先计算第一预测概率还是先计算第二预测概率没有限定。
步骤S107,计算所述第一预测概率与所述第二预测概率的差值作为在只有满足预设条件的情况下,用户执行所述目标行为的条件预测概率。
步骤S108,判断所述条件预测概率是否大于预设的阈值。
可实施的,技术人员可以根据实际情况设置该阈值,例如,该阈值可以为0.5。
如果判断的结果为是,即所述条件预测概率大于预设的阈值,则执行步骤S109;如果判断的结果为否,即所述条件预测概率不大于预设的阈值,则执行步骤S110。
步骤S109,确定所述待识别用户为目标类型用户。
步骤S110,确定所述待识别用户不是目标类型用户。
可见,应用本发明实施例,可以识别出目标类型用户,在训练用户识别模型时所采集的样本是有规律的,采集的样本较全面,对目标类型用户的识别较准确。
可实施的,上述实施例提到的用户识别模型的训练流程可以参见图2。
如图2所示,为本发明实施例提供的用户识别模型的一种训练流程图,可以包括:
步骤S201,将实验组样本的用户行为数据标记为实验组,将对照组样本的用户行为数据标记为对照组。
其中,实验组样本的用户行为数据为:满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据;对照组样本的用户行为数据为:不满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据。
步骤S202,将实验组样本的用户行为数据和对照组样本的用户行为数据合并为数据集。
步骤S203,按预设比例抽取数据集中的样本,构成训练样本集;所述训练样本集中包含实验组训练样本和对照组训练样本。
可实施的,可以随机抽取数据集中50%的样本,构成训练样本集。
步骤S204,获得从实验组训练样本的用户行为数据和对照组训练样本的用户行为数据中提取的用户行为特征的交集,作为输入当前初始用户识别模型的用户行为特征。
可实施的,可以人工对从实验组训练样本的用户行为数据中提取的用户行为特征,和对照组训练样本的用户行为数据中提取的用户行为特征进行筛选。例如:在实验组训练样本中是否执行目标行为和学历有关系,在对照组训练样本中是否执行目标行为和学历没关系,则取交集,将学历特征保留;但是如果在实验组训练样本中是否执行目标行为和对照组训练样本中是否执行目标行为跟运营商类型都没关系,则将运营商类型特征剔除。
步骤S205,获得针对实验组训练样本预设的第一变量值和针对对照组训练样本预设的第二变量值。
所述第一变量值,用于标识该样本为实验组训练样本,即满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据;
所述第二变量值用于标识该样本为对照组训练样本,即不满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据。
可实施的,所述第一变量值可以为1,所述第二变量值可以为0。
步骤S206,将各个实验组训练样本的用户行为特征和第一变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第一预测概率。
步骤S207,将各个对照组训练样本的用户行为特征和第二变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第二预测概率。
可实施的,实际应用中,可以将训练样本依次输入到用户识别模型中,利用实验组训练样本的用户行为特征和第一变量值,及对照组训练样本的用户行为特征和第二变量值对所述当前初始用户识别模型进行训练。
步骤S208,根据各个实验组训练样本的用户行为数据中是否执行目标行为的真实结果、第一预测概率,以及各个对照组训练样本的用户行为数据中是否执行目标行为的真实结果、第二预测概率和预设的损失函数,计算损失值。
所述预设的损失函数具体可以为:
cost(hθ(x),y)=∑(-y(log(hθ(x))-(1-y)log(1-hθ(x)))+λ∑(|α|+|β|+|γ|+|δ|);
其中,λ惩罚系数为经验值;α,β,γ,δ为待训练的模型的模型参数;hθ(x)为用户执行目标行为的第一预测概率或第二预测概率;y为用户是否执行目标行为的真实结果。
可实施的,λ可以为0.5。
步骤S209,根据预设的损失函数的损失值判断当前初始用户识别模型是否收敛。
可实施的,可以用所有的实验组训样本和对照组训练样本进行多轮次的训练。具体的:在第一轮训练过程中用所有样本对当前初始用户识别模型进行训练,将所有样本是否执行目标行为的真实结果和对应的预测概率,带入到损失函数公式中,计算一个损失值;在下一轮训练开始前,先将模型的待训练参数按照负梯度方向调整,再用所有样本对调整后的当前初始用户识别模型进行训练,将所有样本是否执行目标行为的真实结果和对应的预测概率,带入到损失函数公式中,计算另一个损失值;以此进行每轮训练,根据每轮的损失函数的损失值是否逐渐变小并且趋于稳定,判断模型是否收敛。可实施的,可以在这一轮计算出的损失函数的损失值与上一轮计算出的损失函数损失值之差的绝对值小于预设的收敛阈值时,判断出损失函数的损失值趋于稳定,该收敛阈值可以根据实际情况设置为0.1或0.01等数值,在此不做具体限定。
如果判断的结果为否,即模型未收敛,则执行步骤S210;如果判断的结果为是,即模型收敛,则执行步骤S211。
步骤S210,调整当前初始用户识别模型的模型参数。返回执行步骤S206。
可实施的,可以采用梯度下降法调整模型参数。
可实施的,所述当前初始用户识别模型的模型函数为:
Figure GDA0003577269050000091
其中,α,β,γ,δ为待训练的模型的模型参数;Xi为用户行为特征;Ti为第一变量值或第二变量值;E(Yi|Xi)为用户执行目标行为的第一预测概率或第二预测概率。
步骤S211,确定当前初始用户识别模型为训练完成的用户识别模型。
可实施的,训练好用户识别模型后,可以将模型封装为编程语言python算法包,以在程序中可以直接被调用,后续使用用户识别模型时较方便。
可见,应用本发明实施例,可以识别出目标类型用户,在训练用户识别模型时所采集的样本是有规律的,采集的样本较全面,对目标类型用户的识别较准确。
实际应用中,在用户识别模型收敛后,还可以对其进行测试,以获得最终训练好的用户识别模型。具体的,参见图3。
本发明实施例提供的用户识别模型的另一种训练流程图,如图3所示,包括:
步骤S301,将实验组样本的用户行为数据标记为实验组,将对照组样本的用户行为数据标记为对照组。
步骤S302,将实验组样本的用户行为数据和对照组样本的用户行为数据合并为数据集。
步骤S303,按预设比例抽取数据集中的样本,构成训练样本集;所述训练样本集中包含实验组训练样本和对照组训练样本。
步骤S304,获得从实验组训练样本的用户行为数据和对照组训练样本的用户行为数据中提取的用户行为特征的交集,作为输入当前初始用户识别模型的用户行为特征。
步骤S305,获得针对实验组训练样本预设的第一变量值和针对对照组训练样本预设的第二变量值。
步骤S306,将各个实验组训练样本的用户行为特征和第一变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第一预测概率。
步骤S307,将各个对照组训练样本的用户行为特征和第二变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第二预测概率。
步骤S308,根据各个实验组训练样本的用户行为数据中是否执行目标行为的真实结果、第一预测概率,以及各个对照组训练样本的用户行为数据中是否执行目标行为的真实结果、第二预测概率和预设的损失函数,计算损失值。
步骤S309,根据预设的损失函数的损失值判断当前初始用户识别模型是否收敛。
如果未收敛,则执行步骤S310;如果收敛,则执行步骤S311。
步骤S310,调整当前初始用户识别模型的模型参数。返回执行步骤S306。
步骤S311,确定当前初始用户识别模型为训练完成的用户识别模型。
实际应用中,步骤S301~S311可以与图2中的步骤S201~S211相同,这里不再详细说明。
步骤S312,获得除去数据集中构成训练样本集的剩余的各个样本,构成测试样本集;所述测试样本集中包含实验组测试样本和对照组测试样本。
步骤S313,将测试样本集中的各个样本的用户行为特征和第一变量值,输入到所述训练完成的用户识别模型。
步骤S314,获得所述训练完成的用户识别模型输出的用户执行目标行为的第一预测概率。
步骤S315,将测试样本集中的各个样本的用户行为特征和第二变量值,输入到所述训练完成的用户识别模型。
步骤S316,获得所述训练完成的用户识别模型输出的用户执行所述目标行为的第二预测概率。
步骤S317,将每个样本的第一预测概率和第二预测概率之差作为测试样本集中的各个样本在只有满足预设条件的情况下,用户执行目标行为的各个条件测试预测概率。
步骤S318,将所述各个条件测试预测概率,按照从高到低的顺序进行排序,获得条件测试概率序列。
步骤S319,基于所述条件测试概率序列中的每个实验组测试样本和对照组测试样本是否执行目标行为的真实结果,判断所述训练完成的用户识别模型预测的结果是否准确。
可实施的,可以按照预设的每组中包含样本的个数,将所述条件测试概率序列分组,获得各组条件测试概率序列;根据每组条件测试概率序列中各个样本是否执行目标行为的真实结果,计算每组条件测试概率序列中真实结果为执行目标行为的各个样本的个数与该组中样本的总个数的比值作为正样本率;判断各组条件测试概率序列的正样本率是否呈下降趋势;如果是,则计算每组条件测试概率序列中实验组测试样本的正样本率和对照组测试样本的正样本率;判断条件测试概率序列中预设组别中的实验组测试样本的正样本率是否大于对照组测试样本的正样本率。
如果判断的结果为是,即所述训练完成的用户识别模型预测的结果准确,则执行步骤S320;如果判断的结果为否,即所述训练完成的用户识别模型预测的结果不准确,则执行步骤S321。
步骤S320,将所述训练完成的用户识别模型作为最终训练好的用户识别模型。
步骤S321,继续对该训练完成的用户识别模型进行训练。
可实施的,继续对该训练完成的用户识别模型进行训练具体的可以返回步骤S306。
可实施的,在获得训练完成的用户识别模型后,可以利用测试样本集中的各个样本对该训练完成的用户识别模型进行测试,进一步验证了该训练完成的用户识别模型预测的结果是否准确,如果不准确,则继续对该训练完成的用户识别模型进行训练,进一步提高了识别目标类型用户的准确性。
而且,在本实施例中,根据加入了L1正则化的损失函数的损失值判断当前初始用户识别模型是否收敛,解决了模型训练过程中由于多重共线性造成的模型估计失真或难以估计准确的问题。
可实施的,本发明实施例可以应用在不同领域中进行数据处理。例如:在信贷领域的贷后数据处理场景中,一部分欠款逾期的用户“在短暂的欠款逾期后,不经过人工电话催收也会还款”;一部分欠款逾期的用户“经过人工电话催收才会还款,而不经过人工电话催收就不会还款”,应用上述本发明实施例的方法可以将“经过人工电话催收才会还款,而不经过人工电话催收就不会还款”的用户识别出来,从而只对这部分用户进行人工电话催收,可以提升催收的效率。
本发明实施例提供的目标类型用户的识别方法应用于信贷数据处理的场景,以只有经过人工电话催收,才会还款的用户为目标类型用户的示例,如图4所示,可以包括:
步骤S401,获得待识别用户的历史行为数据。
可实施的,待识别用户的历史行为数据可以为包含用户行为特征的数据。
例如:用户年龄数据、学历数据和历史还款表现数据等数据中的一种或多种。
步骤S402,从所述历史行为数据中,提取所述待识别用户的用户行为特征。
可实施的,用户行为特征可以包括:年龄、学历、城市、婚姻状况、运营商信息(在网时长、在网状态、运营商消费水平、运营商类型、常用联系人、通话记录等)、多重风险信息(近30天是否命中多重申请、近90天是否命中多重申请、近180天是否命中多重申请、近365天是否命中多重申请等)、还款表现信息(提前还款次数、逾期次数、历史最大逾期天数等)、设备信息等(设备品牌、设备型号、设备出厂日期、设备行为信息等)。用户行为特征具体确定可以在训练用户识别模型的过程中,人工筛选确定用户行为特征的类别。例如:在实验组训练样本中是否还款和学历有关系,在对照组训练样本中是否还款和学历没关系,则取交集,将学历特征保留;但是如果在实验组训练样本中是否还款和对照组训练样本中是否还款跟运营商类型都没关系,则将运营商类型特征剔除。
步骤S403,将所述待识别用户的用户行为特征和第一变量值输入到预先训练好的用户识别模型中;所述用户识别模型为:预先以实验组训练样本的用户行为特征和第一变量值,及对照组训练样本的用户行为特征和第二变量值训练好的净提升模型UpliftModel;所述实验组训练样本的用户行为特征和对照组训练样本的用户行为特征分别为从实验组训练样本的用户行为数据和对照组训练样本的用户行为数据中提取的。
其中,第一变量值和第二变量值为预先设置的不同的常数,分别用来表明满足预设条件和不满足预设条件。可实施的,第一变量值可以为1,第二变量值可以为0。
所述实验组训练样本的用户行为数据为:逾期预设天数后经过人工电话催收,用户还款的正样本数据或用户不还款的负样本数据;所述对照组训练样本的用户行为数据为:逾期预设天数后没经过人工电话催收,用户还款的正样本数据或用户不还款的负样本数据。其中,预设条件为逾期预设天数后经过人工电话催收。
可实施的,用户识别模型的训练过程可以参照上述图2和图3。
步骤S404,获取用户识别模型输出的用户还款的第一预测概率。
步骤S405,将所述待识别用户的用户行为特征和第二变量值输入到所述用户识别模型中。
步骤S406,获取用户识别模型输出的用户还款的第二预测概率。
步骤S407,计算所述第一预测概率与所述第二预测概率的差值作为只有经过人工电话催收,用户才会还款的的条件预测概率。
步骤S408,判断所述条件预测概率是否大于预设的阈值。
可实施的,该阈值可以为0.5。
如果判断的结果为是,即所述条件预测概率大于预设的阈值,则执行步骤S409;如果判断的结果为否,即所述条件预测概率不大于预设的阈值,则执行步骤S410。
步骤S409,确定所述待识别用户为只有经过人工电话催收,才会还款的用户。
步骤S410,确定所述待识别用户不是只有经过人工电话催收,才会还款的用户。
可见,应用本发明实施例,可以识别出真正需要被人工电催的逾期用户,在训练用户识别模型时所采集的样本是有规律的,采集的样本较全面,对目标类型用户的识别较准确。
而且,识别出真正需要被人工电催的逾期用户,进而只对这部分用户进行人工电话催收,提高了催收的效率,节省催收成本。模型的损失函数为加入了L1正则化的损失函数,一定程度上解决了多重共线性的问题。
本发明实施例提供的目标类型用户的识别的装置的结构示意图,如图5所示,所述装置包括:
用户行为数据获得单元501,用于获得待识别用户的用户行为数据;
用户行为特征提取单元502,用于从所述用户行为数据中,提取所述待识别用户的用户行为特征;
用户行为特征和第一变量值输入单元503,用于将所述待识别用户的用户行为特征和第一变量值输入到预先训练好的用户识别模型中;所述用户识别模型为:针对目标类型用户对应的目标行为,预先用实验组训练样本的用户行为特征和第一变量值,及对照组训练样本的用户行为特征和第二变量值训练好的净提升模型Uplift Model;所述实验组训练样本的用户行为特征和对照组训练样本的用户行为特征分别为从实验组训练样本的用户行为数据和对照组训练样本的用户行为数据中提取的;所述实验组训练样本的用户行为数据为:满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据;所述对照组训练样本的用户行为数据为:不满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据;
第一预测概率获取单元504,用于获取用户识别模型输出的用户执行所述目标行为的第一预测概率;
用户行为特征和第二变量值输入单元505,用于将所述待识别用户的用户行为特征和第二变量值输入到所述用户识别模型中;
第二预测概率获取单元506,用于获取用户识别模型输出的用户执行所述目标行为的第二预测概率;
条件预测概率计算单元507,用于计算所述第一预测概率与所述第二预测概率的差值作为在只有满足预设条件的情况下,用户执行所述目标行为的条件预测概率;
判断单元508,用于判断所述条件预测概率是否大于预设的阈值;
目标类型用户确定单元509,用于如果是,则确定所述待识别用户为目标类型用户。
可选的,所述装置,还包括:用户识别模型训练单元;
所述用户识别模型训练单元,包括:
标记模块,用于将实验组样本的用户行为数据标记为实验组,将对照组样本的用户行为数据标记为对照组;
合并模块,用于将实验组样本的用户行为数据和对照组样本的用户行为数据合并为数据集;
训练样本集构成模块,用于按预设比例抽取数据集中的样本,构成训练样本集;所述训练样本集中包含实验组训练样本和对照组训练样本;
用户行为特征获得模块,用于获得从实验组训练样本的用户行为数据和对照组训练样本的用户行为数据中提取的用户行为特征的交集,作为输入当前初始用户识别模型的用户行为特征;
变量值获得模块,用于获得针对实验组训练样本预设的第一变量值和针对对照组训练样本预设的第二变量值;所述第一变量值,用于标识该样本为实验组训练样本;所述第二变量值用于标识该样本为对照组训练样本;
第一预测概率获得模块,用于将各个实验组训练样本的用户行为特征和第一变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第一预测概率;
第二预测概率获得模块,用于将各个对照组训练样本的用户行为特征和第二变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第二预测概率;
损失值计算模块,用于根据各个实验组训练样本的用户行为数据中是否执行目标行为的真实结果、第一预测概率,以及各个对照组训练样本的用户行为数据中是否执行目标行为的真实结果、第二预测概率和预设的损失函数,计算损失值;
收敛判断模块,用于根据预设的损失函数的损失值判断当前初始用户识别模型是否收敛;
确定模块,用于如果收敛,则确定当前初始用户识别模型为训练完成的用户识别模型;
触发模块,用于如果未收敛,则调整当前初始用户识别模型的模型参数,触发所述第一预测概率获得模块将各个实验组训练样本的用户行为特征和第一变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第一预测概率。
可选的,所述当前初始用户识别模型的模型函数为:
Figure GDA0003577269050000151
其中,α,β,γ,δ为待训练的模型的模型参数;Xi为用户行为特征;Ti为第一变量值或第二变量值;E(Yi|Xi)为用户执行目标行为的第一预测概率或第二预测概率;
所述预设的损失函数为:
cost(hθ(x),y)=∑(-y(log(hθ(x))-(1-y)log(1-hθ(x)))+λ∑(|α|+|β|+|γ|+|δ|);
其中,λ惩罚系数为经验值;α,β,γ,δ为待训练的模型的模型参数;hθ(x)为用户执行目标行为的第一预测概率或第二预测概率;y为用户是否执行目标行为的真实结果。
可见,应用本发明实施例,可以识别出目标类型用户,在训练用户识别模型时所采集的样本是有规律的,采集的样本较全面,对目标类型用户的识别较准确。
本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,存储器603,用于存放计算机程序;处理器601,用于执行存储器603上所存放的程序时,实现如下步骤:
获得待识别用户的用户行为数据;从所述用户行为数据中,提取所述待识别用户的用户行为特征;将所述待识别用户的用户行为特征和第一变量值输入到预先训练好的用户识别模型中;所述用户识别模型为:针对目标类型用户对应的目标行为,预先用实验组训练样本的用户行为特征和第一变量值,及对照组训练样本的用户行为特征和第二变量值训练好的净提升模型Uplift Model;所述实验组训练样本的用户行为特征和对照组训练样本的用户行为特征分别为从实验组训练样本的用户行为数据和对照组训练样本的用户行为数据中提取的;所述实验组训练样本的用户行为数据为:满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据;所述对照组训练样本的用户行为数据为:不满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据;获取用户识别模型输出的用户执行所述目标行为的第一预测概率;将所述待识别用户的用户行为特征和第二变量值输入到所述用户识别模型中;获取用户识别模型输出的用户执行所述目标行为的第二预测概率;计算所述第一预测概率与所述第二预测概率的差值作为在只有满足预设条件的情况下,用户执行所述目标行为的条件预测概率;判断所述条件预测概率是否大于预设的阈值;如果是,则确定所述待识别用户为目标类型用户。
可见,应用本发明实施例,可以识别出目标类型用户,在训练用户识别模型时所采集的样本是有规律的,采集的样本较全面,对目标类型用户的识别较准确。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一目标类型用户的识别方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一目标类型用户的识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质及计算机程序产品等实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种目标类型用户的识别方法,其特征在于,所述方法包括:
获得待识别用户的用户行为数据;
从所述用户行为数据中,提取所述待识别用户的用户行为特征;
将所述待识别用户的用户行为特征和第一变量值输入到预先训练好的用户识别模型中;所述用户识别模型为:针对目标类型用户对应的目标行为,预先用实验组训练样本的用户行为特征和第一变量值,及对照组训练样本的用户行为特征和第二变量值训练好的净提升模型Uplift Model;所述实验组训练样本的用户行为特征和对照组训练样本的用户行为特征分别为从实验组训练样本的用户行为数据和对照组训练样本的用户行为数据中提取的;所述实验组训练样本的用户行为数据为:满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据;所述对照组训练样本的用户行为数据为:不满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据;
获取用户识别模型输出的用户执行所述目标行为的第一预测概率;
将所述待识别用户的用户行为特征和第二变量值输入到所述用户识别模型中;
获取用户识别模型输出的用户执行所述目标行为的第二预测概率;
计算所述第一预测概率与所述第二预测概率的差值作为在只有满足预设条件的情况下,用户执行所述目标行为的条件预测概率;
判断所述条件预测概率是否大于预设的阈值;
如果是,则确定所述待识别用户为目标类型用户;
其中,所述用户识别模型的训练过程包括:
将实验组样本的用户行为数据标记为实验组,将对照组样本的用户行为数据标记为对照组;
将实验组样本的用户行为数据和对照组样本的用户行为数据合并为数据集;
按预设比例抽取数据集中的样本,构成训练样本集;所述训练样本集中包含实验组训练样本和对照组训练样本;
获得从实验组训练样本的用户行为数据和对照组训练样本的用户行为数据中提取的用户行为特征的交集,作为输入当前初始用户识别模型的用户行为特征;
获得针对实验组训练样本预设的第一变量值和针对对照组训练样本预设的第二变量值;所述第一变量值,用于标识该样本为实验组训练样本;所述第二变量值用于标识该样本为对照组训练样本;
将各个实验组训练样本的用户行为特征和第一变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第一预测概率;
将各个对照组训练样本的用户行为特征和第二变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第二预测概率;
根据各个实验组训练样本的用户行为数据中是否执行目标行为的真实结果、第一预测概率,以及各个对照组训练样本的用户行为数据中是否执行目标行为的真实结果、第二预测概率和预设的损失函数,计算损失值;
根据预设的损失函数的损失值判断当前初始用户识别模型是否收敛;
如果收敛,则确定当前初始用户识别模型为训练完成的用户识别模型;
如果未收敛,则调整当前初始用户识别模型的模型参数,返回所述将各个实验组训练样本的用户行为特征和第一变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第一预测概率的步骤。
2.根据权利要求1所述的方法,其特征在于,所述当前初始用户识别模型的模型函数为:
Figure FDA0003577269040000021
其中,α,β,γ,δ为待训练的模型的模型参数;Xi为用户行为特征;Ti为第一变量值或第二变量值;E(Yi|Xi)为用户执行目标行为的第一预测概率或第二预测概率;
所述预设的损失函数为:
cost(hθ(x),y)=∑(-y(log(hθ(x))-(1-y)log(1-hθ(x)))+λ∑(|α|+|β|+|γ|+|δ|);
其中,λ惩罚系数为经验值;α,β,γ,δ为待训练的模型的模型参数;hθ(x)为用户执行目标行为的第一预测概率或第二预测概率;y为用户是否执行目标行为的真实结果。
3.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
获得除去数据集中构成训练样本集的剩余的各个样本,构成测试样本集;所述测试样本集中包含实验组测试样本和对照组测试样本;
分别将测试样本集中的各个样本的用户行为特征和第一变量值,输入到所述训练完成的用户识别模型;
获得所述训练完成的用户识别模型输出的用户执行目标行为的第一预测概率;
将测试样本集中的各个样本的用户行为特征和第二变量值,输入到所述训练完成的用户识别模型;
获得所述训练完成的用户识别模型输出的用户执行所述目标行为的第二预测概率;
将每个样本的第一预测概率和第二预测概率之差作为测试样本集中的各个样本在只有满足预设条件的情况下,用户执行目标行为的各个条件测试预测概率;
将所述各个条件测试预测概率,按照从高到低的顺序进行排序,获得条件测试概率序列;
基于所述条件测试概率序列中的每个实验组测试样本和对照组测试样本是否执行目标行为的真实结果,判断所述训练完成的用户识别模型预测的结果是否准确;
如果是,则将所述训练完成的用户识别模型作为最终训练好的用户识别模型;
如果否,则继续对该训练完成的用户识别模型进行训练。
4.根据权利要求3所述的方法,其特征在于,所述基于所述条件测试概率序列中的每个实验组测试样本或对照组测试样本是否执行目标行为的真实结果,判断所述训练完成的用户识别模型预测的结果是否准确的步骤,包括:
按照预设的每组中包含样本的个数,将所述条件测试概率序列分组,获得各组条件测试概率序列;
根据每组条件测试概率序列中各个样本是否执行目标行为的真实结果,计算每组条件测试概率序列中真实结果为执行目标行为的各个样本的个数与该组中样本的总个数的比值作为正样本率;
判断各组条件测试概率序列的正样本率是否呈下降趋势;
如果是,则计算每组条件测试概率序列中实验组测试样本的正样本率和对照组测试样本的正样本率;
判断条件测试概率序列中预设组别中的实验组测试样本的正样本率是否大于对照组测试样本的正样本率。
5.一种目标类型用户的识别装置,其特征在于,所述装置包括:
用户行为数据获得单元,用于获得待识别用户的用户行为数据;
用户行为特征提取单元,用于从所述用户行为数据中,提取所述待识别用户的用户行为特征;
用户行为特征和第一变量值输入单元,用于将所述待识别用户的用户行为特征和第一变量值输入到预先训练好的用户识别模型中;所述用户识别模型为:针对目标类型用户对应的目标行为,预先用实验组训练样本的用户行为特征和第一变量值,及对照组训练样本的用户行为特征和第二变量值训练好的净提升模型Uplift Model;所述实验组训练样本的用户行为特征和对照组训练样本的用户行为特征分别为从实验组训练样本的用户行为数据和对照组训练样本的用户行为数据中提取的;所述实验组训练样本的用户行为数据为:满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据;所述对照组训练样本的用户行为数据为:不满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据;
第一预测概率获取单元,用于获取用户识别模型输出的用户执行所述目标行为的第一预测概率;
用户行为特征和第二变量值输入单元,用于将所述待识别用户的用户行为特征和第二变量值输入到所述用户识别模型中;
第二预测概率获取单元,用于获取用户识别模型输出的用户执行所述目标行为的第二预测概率;
条件预测概率计算单元,用于计算所述第一预测概率与所述第二预测概率的差值作为在只有满足预设条件的情况下,用户执行所述目标行为的条件预测概率;
判断单元,用于判断所述条件预测概率是否大于预设的阈值;
目标类型用户确定单元,用于如果是,则确定所述待识别用户为目标类型用户;
还包括:用户识别模型训练单元;
所述用户识别模型训练单元,包括:
标记模块,用于将实验组样本的用户行为数据标记为实验组,将对照组样本的用户行为数据标记为对照组;
合并模块,用于将实验组样本的用户行为数据和对照组样本的用户行为数据合并为数据集;
训练样本集构成模块,用于按预设比例抽取数据集中的样本,构成训练样本集;所述训练样本集中包含实验组训练样本和对照组训练样本;
用户行为特征获得模块,用于获得从实验组训练样本的用户行为数据和对照组训练样本的用户行为数据中提取的用户行为特征的交集,作为输入当前初始用户识别模型的用户行为特征;
变量值获得模块,用于获得针对实验组训练样本预设的第一变量值和针对对照组训练样本预设的第二变量值;所述第一变量值,用于标识该样本为实验组训练样本;所述第二变量值用于标识该样本为对照组训练样本;
第一预测概率获得模块,用于将各个实验组训练样本的用户行为特征和第一变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第一预测概率;
第二预测概率获得模块,用于将各个对照组训练样本的用户行为特征和第二变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第二预测概率;
损失值计算模块,用于根据各个实验组训练样本的用户行为数据中是否执行目标行为的真实结果、第一预测概率,以及各个对照组训练样本的用户行为数据中是否执行目标行为的真实结果、第二预测概率和预设的损失函数,计算损失值;
收敛判断模块,用于根据预设的损失函数的损失值判断当前初始用户识别模型是否收敛;
确定模块,用于如果收敛,则确定当前初始用户识别模型为训练完成的用户识别模型;
触发模块,用于如果未收敛,则调整当前初始用户识别模型的模型参数,触发所述第一预测概率获得模块将各个实验组训练样本的用户行为特征和第一变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第一预测概率。
6.根据权利要求5所述的装置,其特征在于,所述当前初始用户识别模型的模型函数为:
Figure FDA0003577269040000051
其中,α,β,γ,δ为待训练的模型的模型参数;Xi为用户行为特征;Ti为第一变量值或第二变量值;E(Yi|Xi)为用户执行目标行为的第一预测概率或第二预测概率;
所述预设的损失函数为:
cost(hθ(x),y)=∑(-y(log(hθ(x))-(1-y)log(1-hθ(x)))+λ∑(|α|+|β|+|γ|+|δ|);
其中,λ惩罚系数为经验值;α,β,γ,δ为待训练的模型的模型参数;hθ(x)为用户执行目标行为的第一预测概率或第二预测概率;y为用户是否执行目标行为的真实结果。
7.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一所述的方法步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。
CN201910967496.2A 2019-10-12 2019-10-12 目标类型用户的识别方法、装置、电子设备及存储介质 Active CN110728323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910967496.2A CN110728323B (zh) 2019-10-12 2019-10-12 目标类型用户的识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910967496.2A CN110728323B (zh) 2019-10-12 2019-10-12 目标类型用户的识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110728323A CN110728323A (zh) 2020-01-24
CN110728323B true CN110728323B (zh) 2022-06-21

Family

ID=69219928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910967496.2A Active CN110728323B (zh) 2019-10-12 2019-10-12 目标类型用户的识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110728323B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860299B (zh) * 2020-07-17 2023-09-08 北京奇艺世纪科技有限公司 目标对象的等级确定方法、装置、电子设备及存储介质
CN111967798B (zh) * 2020-09-07 2023-10-03 度小满科技(北京)有限公司 实验样本分配的方法及装置、设备及计算机可读存储介质
CN112131079B (zh) * 2020-09-22 2024-05-14 北京达佳互联信息技术有限公司 数据监控方法、装置、电子设备和存储介质
CN112529623B (zh) * 2020-12-14 2023-07-11 中国联合网络通信集团有限公司 恶意用户的识别方法、装置和设备
CN112926690B (zh) * 2021-03-31 2023-09-01 北京奇艺世纪科技有限公司 数据处理方法、装置、设备及存储介质
CN113313582A (zh) * 2021-06-25 2021-08-27 上海冰鉴信息科技有限公司 拒客回捞模型训练方法、装置及电子设备
CN113626699B (zh) * 2021-08-06 2024-02-20 广州虎牙科技有限公司 目标用户识别方法、装置、电子设备和存储介质
CN113705682B (zh) * 2021-08-27 2024-05-14 微民保险代理有限公司 用户行为特征的处理方法及装置
CN114298232A (zh) * 2021-12-30 2022-04-08 深圳前海微众银行股份有限公司 用户的类型信息的确定方法、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242470A (zh) * 2018-08-14 2019-01-18 阿里巴巴集团控股有限公司 身份识别方法、装置、设备及计算机可读存储介质
CN109388674A (zh) * 2018-08-31 2019-02-26 阿里巴巴集团控股有限公司 数据处理方法、装置、设备及可读存储介质
CN110009042A (zh) * 2019-04-08 2019-07-12 中诚信征信有限公司 一种数据预测方法、装置、电子设备及存储介质
CN110070399A (zh) * 2019-04-24 2019-07-30 北京三快在线科技有限公司 一种优惠券推送方法及装置
CN110288362A (zh) * 2019-07-03 2019-09-27 北京工业大学 刷单的预测方法、装置及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9754211B2 (en) * 2014-12-17 2017-09-05 Ebay Inc. Incrementality modeling
US11651326B2 (en) * 2017-11-22 2023-05-16 United Parcel Service Of America, Inc. Automatically predicting shipper behavior using machine learning models

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242470A (zh) * 2018-08-14 2019-01-18 阿里巴巴集团控股有限公司 身份识别方法、装置、设备及计算机可读存储介质
CN109388674A (zh) * 2018-08-31 2019-02-26 阿里巴巴集团控股有限公司 数据处理方法、装置、设备及可读存储介质
CN110009042A (zh) * 2019-04-08 2019-07-12 中诚信征信有限公司 一种数据预测方法、装置、电子设备及存储介质
CN110070399A (zh) * 2019-04-24 2019-07-30 北京三快在线科技有限公司 一种优惠券推送方法及装置
CN110288362A (zh) * 2019-07-03 2019-09-27 北京工业大学 刷单的预测方法、装置及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
uplift model学习笔记;爱丽丝的小宇宙;《博客园》;20181129;第1-3页 *
基于数据挖掘的社交网络信息推荐与预测方法研究;陈婉等;《内蒙古师范大学学报(自然科学汉文版)》;20180315(第02期);全文 *
基于梯度提升模型的行为式验证码人机识别;欧阳志友等;《信息网络安全》;20170910(第09期);全文 *

Also Published As

Publication number Publication date
CN110728323A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
CN110728323B (zh) 目标类型用户的识别方法、装置、电子设备及存储介质
CN110222791B (zh) 样本标注信息的审核方法及装置
CN109816200B (zh) 任务推送方法、装置、计算机设备和存储介质
CN111275491A (zh) 一种数据处理方法及装置
CN113538070B (zh) 用户生命价值周期检测方法、装置和计算机设备
CN113052676A (zh) 一种智能风控决策方法、装置、设备及可读存储介质
CN108197795B (zh) 恶意团体账户识别方法、装置、终端及存储介质
CN111951008A (zh) 一种风险预测方法、装置、电子设备和可读存储介质
CN107038165B (zh) 一种业务参数获取方法及装置
CN107871213B (zh) 一种交易行为评价方法、装置、服务器以及存储介质
CN111404835B (zh) 流量控制方法、装置、设备及存储介质
CN111147441A (zh) 网络购票的舞弊行为自动检测方法、设备及可读存储介质
CN115914363A (zh) 消息推送方法、装置、计算机设备和存储介质
CN115130577A (zh) 一种欺诈号码识别方法、装置及电子设备
CN113298642B (zh) 一种订单检测方法、装置、电子设备及存储介质
CN115984734A (zh) 模型训练、视频召回方法、装置、电子设备及存储介质
CN115660060A (zh) 一种模型训练方法以及检测方法、装置、设备及存储介质
CN116127450A (zh) 一种模型评估方法及装置
CN110570301B (zh) 风险识别方法、装置、设备及介质
CN111507829A (zh) 境外信用卡风控模型迭代方法、装置、设备以及存储介质
CN110705975B (zh) 一种扣款指令发起方法及装置
CN113052604A (zh) 一种对象检测方法、装置、设备及存储介质
CN112417007A (zh) 一种数据分析方法、装置、电子设备及存储介质
CN111833142A (zh) 信息推送处理方法、装置、设备和存储介质
CN110675136A (zh) 信息处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant