CN112819499A - 信息发送方法、装置、服务器及存储介质 - Google Patents

信息发送方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN112819499A
CN112819499A CN202010707549.XA CN202010707549A CN112819499A CN 112819499 A CN112819499 A CN 112819499A CN 202010707549 A CN202010707549 A CN 202010707549A CN 112819499 A CN112819499 A CN 112819499A
Authority
CN
China
Prior art keywords
user
target
sample
user account
retention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010707549.XA
Other languages
English (en)
Inventor
毕超波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Domain Computer Network Co Ltd
Original Assignee
Shenzhen Tencent Domain Computer Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Domain Computer Network Co Ltd filed Critical Shenzhen Tencent Domain Computer Network Co Ltd
Priority to CN202010707549.XA priority Critical patent/CN112819499A/zh
Publication of CN112819499A publication Critical patent/CN112819499A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • G06Q30/0224Discounts or incentives, e.g. coupons or rebates based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种信息发送方法、装置、服务器及存储介质,属于网络技术领域。包括:获取样本用户账号的至少两个用户特征和样本标签;基于该样本用户账号的样本标签,分析该至少两个用户特征对用户留存的影响程度,从该至少两个用户特征中筛选出影响程度符合第一目标条件的目标特征;基于该目标特征,从该目标应用的至少两个用户账号中筛选出用户特征不符合该目标特征的目标用户账号集合;向该目标用户账号集合发送该目标特征对应的用户引导信息,该用户引导信息用于引导该目标用户账号集合执行目标操作,该目标操作用于将用户特征调整为该目标特征。本申请可以提高用户在目标应用上留存的可能性,信息发送过程的准确性较高。

Description

信息发送方法、装置、服务器及存储介质
技术领域
本申请涉及网络技术领域,尤其涉及一种信息发送方法、装置、服务器及存储介质。
背景技术
随着网络技术的发展,许多网络平台与用户的日常生活工作等息息相关。而用户留存是衡量一个网络平台上的业务的健康度的重要指标。用户留存是指当天使用该网络平台上的业务的用户,在一段时间后仍使用该业务。例如,游戏平台的7日留存是指当天玩游戏的用户,第7天继续在该游戏平台玩游戏。本领域中,通常采取一定的运营策略来提升用户留存,例如,向网络平台上的用户发送广告、优惠活动等信息,以挽留该网络平台上的用户。
相关技术中,信息发送过程可以包括:工作人员依据历史经验来筛选出不会留存的用户,并基于运营策略向筛选出的用户发送活动信息,以促使该用户在目标应用上留存。例如,工作人员依据经验判断连续登陆游戏平台14天以上的用户次月会留存,或者在购物平台上购物超过10次的用户次月会留存;则服务器可以向游戏平台中连续登录13天的用户的账户中赠送游戏币,促使用户登录达到14天;或者,服务器可以向购物9次的用户发送购物优惠券,促使用户购物达到10次。
上述过程实际上是服务器先基于经验来筛选用户,并发送活动信息。由于依赖经验进行筛选的过程极易不准确,用户接收到活动信息后可能并不会留存,使得上述信息发送过程的准确性较低。
发明内容
本申请实施例提供了一种信息发送方法、装置、服务器及存储介质,可以提高信息发送过程的准确性。所述技术方案如下:
一方面,提供了一种信息发送方法,所述方法包括:
获取样本用户账号的至少两个用户特征和样本标签,所述样本标签用于指示所述样本用户账号使用目标应用后是否在所述目标应用上留存;
基于所述样本用户账号的样本标签,分析所述至少两个用户特征对用户留存的影响程度,从所述至少两个用户特征中筛选出影响程度符合第一目标条件的目标特征;
基于所述目标特征,从所述目标应用的至少两个用户账号中筛选出用户特征不符合所述目标特征的目标用户账号集合;
向所述目标用户账号集合发送所述目标特征对应的用户引导信息,所述用户引导信息用于引导所述目标用户账号集合执行目标操作,所述目标操作用于将用户特征调整为所述目标特征。
在一种可能实现方式中,所述根据所述至少两个用户特征分别对用户留存的信息增益,建立决策树包括:
根据所述至少两个用户特征中对用户留存的信息增益最大的用户特征,生成所述决策树的根节点;
响应于所述决策树的初始树深度大于1,重复执行抽取样本用户账号、确定信息增益以及生成决策树的节点的步骤,直至所述决策树的节点数达到所述初始树深度。
一方面,提供了一种信息发送装置,所述装置包括:
获取模块,用于获取样本用户账号的至少两个用户特征和样本标签,所述样本标签用于指示所述样本用户账号使用目标应用后是否在所述目标应用上留存;
分析模块,用于基于所述样本用户账号的样本标签,分析所述至少两个用户特征对用户留存的影响程度,从所述至少两个用户特征中筛选出影响程度符合第一目标条件的目标特征;
筛选模块,用于基于所述目标特征,从所述目标应用的至少两个用户账号中筛选出用户特征不符合所述目标特征的目标用户账号集合;
发送模块,用于向所述目标用户账号集合发送所述目标特征对应的用户引导信息,所述用户引导信息用于引导所述目标用户账号集合执行目标操作,所述目标操作用于将用户特征调整为所述目标特征。
在一种可能实现方式中,所述分析模块,包括:
训练单元,用于将所述样本用户账号的至少两个用户特征和样本标签输入初始模型,基于所述初始模型输出的用户留存结果,对所述初始模型进行训练,得到目标模型,所述目标模型包括用于确定用户账号是否在所述目标应用上留存的用户特征和所述用户特征对用户留存的影响程度;
提取单元,用于从所述目标模型中提取影响程度符合所述第一目标条件的目标特征。
在一种可能实现方式中,所述训练单元,包括:
建立子单元,用于将所述样本用户账号的至少两个用户特征和样本标签输入所述初始模型,基于所述至少两个用户特征对用户留存的影响程度,建立至少两个决策树;
调整子单元,用于基于所述初始模型输出的用户留存结果以及所述至少两个决策树所确定的所述样本用户账号的用户留存结果,调整所述初始模型的参数,直至所述初始模型输出的用户留存结果符合第二目标条件时停止调整,得到所述目标模型。
在一种可能实现方式中,所述建立子单元,用于从所述样本用户账号中抽取第一目标数量的样本用户账号作为第一训练集;基于所述第一训练集的至少两个用户特征和样本标签,确定所述至少两个用户特征分别对用户留存的信息增益,所述信息增益用于表示用户特征对用户留存的影响程度;根据所述至少两个用户特征分别对用户留存的信息增益,建立决策树。
在一种可能实现方式中,所述建立子单元,用于根据所述至少两个用户特征中对用户留存的信息增益最大的用户特征,生成所述决策树的根节点;响应于所述决策树的初始树深度大于1,重复执行抽取样本用户账号、确定信息增益以及生成决策树的节点的步骤,直至所述决策树的节点数达到所述初始树深度。
在一种可能实现方式中,所述调整子单元,用于基于所述样本用户账号的样本标签和所述初始模型输出的用户留存结果,确定所述初始模型的准确率;响应于所述准确率小于目标阈值,基于所述第一训练集的至少两个用户特征对用户留存的信息增益,增加所述至少两个决策树的树深度;从所述样本用户账号中抽取第二目标数量的样本用户账号作为第二训练集;基于所述至少两个决策树所确定的所述第二训练集的用户留存结果,从所述至少两个决策树中筛选出符合第三目标条件的决策树;重复执行确定准确率、增加树深度、抽取样本用户账号以及筛选决策树的步骤,直至所述初始模型输出的用户留存结果符合所述第二目标条件时,停止执行,得到所述目标模型,所述树深度是指从决策树的叶子节点与根节点的距离。
在一种可能实现方式中,所述筛选模块,用于基于至少两个所述目标特征中影响程度最大的第一目标特征,从所述目标应用的至少两个用户账号中筛选出用户特征不符合所述第一目标特征的第一目标用户账号集合;基于所述至少两个目标特征中除所述第一目标特征以外的第二目标特征,从所述第一用户账号集合中筛选出不符合所述第二目标特征的第二目标用户账号集合。
在一种可能实现方式中,所述发送模块,用于获取所述第一目标特征对应的第一引导信息和所述第二目标特征对应的第二引导信息;向所述第一目标用户账号集合发送所述第一引导信息,向所述第二目标用户账号集合发送所述第二引导信息。
一方面,提供了一种服务器,所述服务器包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行以实现上述信息发送方法。
一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现上述信息发送方法。
一方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括程序代码,所述程序代码存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述程序代码,处理器执行所述程序代码,使得所述计算机设备执行上述信息发送方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过样本用户的用户特征和用于指示样本用户在目标应用上留存情况的样本标签,来分析用户特征对用户留存的影响情况,从而筛选出对用户留存影响较大的目标特征,这样可以基于该目标特征,准确的定位出目标应用上需要进行引导的用户群体,通过有针对性的向该用户群体发送用户引导信息,来对该用户群体施加运营干预,引导该用户群体执行目标操作,促使该用户群体的用户特征转变为该目标特征,从而可以提高用户在目标应用上留存的可能性,上述信息发送过程的准确性较高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种信息发送方法的实施环境的示意图;
图2是本申请实施例提供的一种信息发送方法的流程图;
图3是本申请实施例提供的一种信息发送方法的流程图;
图4是本申请实施例提供的一种随机森林模型的逻辑图;
图5是本申请实施例提供的一种随机森林模型的指标的数值示意图;
图6是本申请实施例提供的一种用户留存随登录天数的变化的示意图;
图7是本申请实施例提供的一种分流对比的运营过程示意图图;
图8是本申请实施例提供的一种信息发送过程的流程示意图;
图9是本申请实施例提供的一种目标应用的用户生命周期示意图;
图10是本申请实施例提供的一种目标应用的用户留存变化示意图;
图11是本申请实施例提供的一种信息发送装置的结构示意图;
图12是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1是本申请实施例提供的一种信息发送方法的实施环境的示意图,参见图1,该实施环境包括:终端101和服务器102。该终端101上可以安装有目标应用,该服务器102可以为目标应用的后台服务器,该服务器102和该终端101之间可以基于该目标应用进行信息交互。
在一种可能场景中,用户可以在该终端101上登录该目标应用,该服务器102可以基于该目标应用,向终端101发送用户引导信息,例如,运营活动信息,以吸引用户,提高用户在该目标应用留存的可能性,进而提升该目标应用的用户留存率。例如,该服务器102可以向终端101发送登录满7天的活动奖励信息。
终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端101安装和运行有支持多媒体技术的应用程序。该应用程序可以是游戏应用类应用程序、购物应用类应用程序或者社交应用类应用程序,例如,该社交应用类应用程序还可以具有音视频播放等功能,该应用程序还可以是多媒体分享类应用程序,例如直播应用等。示例性的,终端101是用户使用的终端,终端101中运行的应用程序内登录有用户账号。
服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
终端101以及服务器102可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
终端101可以泛指多个终端中的一个,本实施例仅以终端101来举例说明。
本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端可以仅为一个,或者上述终端为几十个或几百个,或者更多数量,此时上述实施环境中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。
图2是本申请实施例提供的一种信息发送方法的流程图。该方法由服务器执行,参见图2,该方法可以包括:
201、获取样本用户账号的至少两个用户特征和样本标签,该样本标签用于指示该样本用户账号使用目标应用后是否在该目标应用上留存。
202、基于该样本用户账号的样本标签,分析该至少两个用户特征对用户留存的影响程度,从该至少两个用户特征中筛选出影响程度符合第一目标条件的目标特征。
203、基于该目标特征,从该目标应用的至少两个用户账号中筛选出用户特征不符合该目标特征的目标用户账号集合。
204、向该目标用户账号集合发送该目标特征对应的用户引导信息,该用户引导信息用于引导该目标用户账号集合执行目标操作,该目标操作用于将用户特征调整为该目标特征。
本申请实施例中,通过样本用户的用户特征和用于指示样本用户在目标应用上留存情况的样本标签,来分析用户特征对用户留存的影响情况,从而筛选出对用户留存影响较大的目标特征,这样可以基于该目标特征,准确的定位出目标应用上需要进行引导的用户群体,通过有针对性的向该用户群体发送用户引导信息,来对该用户群体施加运营干预,引导该用户群体执行目标操作,促使该用户群体的用户特征转变为该目标特征,从而可以提高用户在目标应用上留存的可能性,上述信息发送过程的准确性较高。
上述图2所示的流程为本申请实施例的基本流程,下面基于该基本流程对本申请实施例的详细流程进行介绍。
图3是本申请实施例提供的一种信息发送方法的流程图。该方法由服务器执行,参见图3,该方法可以包括:
301、服务器获取样本用户账号的至少两个用户特征和样本标签。
本申请实施例中,该样本用户账号为目标应用的用户账号。该样本标签用于指示该样本用户账号使用目标应用后是否在该目标应用上留存,也即是,该样本用户账号开始使用该目标应用后,在目标时段后是否继续使用该目标应用。如果该样本用户账号开始使用该目标应用后,在目标时段后继续使用该目标应用,则该样本用户账号在该目标应用上留存,即为该目标应用上的留存用户账号,该样本标签可以为该用户账号会留存。如果该样本用户账号开始使用该目标应用后,在目标时段后不继续使用该目标应用,则该样本用户账号在该目标应用上不留存,该样本标签可以为该用户账号不留存。
在一种可能实现方式中,用户账号是否留存是衡量目标应用上的业务健康度的重要指标,目标应用上留存的用户账号越多,用户留存率越大,表示该业务健康度也越高。该目标时段可以基于需要进行设置,本申请实施例对此不做具体限定。例如,该目标时段可以为、一天、一周、一个月等,则可以用次日留存、7日留存、次月留存等衡量目标应用上的业务健康度。例如,以游戏应用为例,次日留存是指当天有玩游戏的用户账号,次日第二天还有来玩游戏;7日留存是指当天有玩游戏的用户账号,第7天还继续来玩游戏;次月留存同理。
在一种可能实现方式中,该服务器可以选取该目标应用上起始使用时间在目标时段之前的用户账号作为样本用户账号,并获取该样本用户账号的用户特征和对该目标应用的使用状态,该服务器根据该使用状态,确定该样本用户账号在目标时段后是否在该目标应用上继续留存,得到样本标签。该样本用户账号的数量可以基于需要进行配置,例如,该服务器可以获取1000或100万的样本用户账号。本申请实施例对此不做具体限定。
在一种可能实现方式中,该服务器可以从用户账号数据中提取至少两个特征数据,并进一步对提取的特征数据进行数据处理,得到用户特征。在一个可能示例中,该至少两个用户特征可以包括分类特征和连续特征。该连续特征是指特征取值为在一定数值范围内的多个数值的连续型特征。例如,登录天数的特征取值可以为0至100之间的任意数值,充值金额可以为1至10000之间的数值等。该分类特征是指用户特征的特征取值范围不连续的特征。对于分类特征,该服务器可以对分类特征的特征取值进行离散化处理,例如,用户账号所在区域、性别、年龄等特征。例如,该服务器可以基于用户账号所处年龄段,将用户账号划分为小学、中学、青年、中年等多个阶段。对于连续特征,该服务器可以对连续特征的特征取值进行归一化处理,例如,将充值金额的取值范围均归一处理为0至1之间的数值范围。在一个可能示例中,该服务器可以对特征数据执行特征工程的处理流程,基于该特征工程的处理流程进行特征构建,得到多个用户特征。例如,该特征工程的处理流程可以包括但不限于:特征装箱、特征哈希(Hashing Trick)、特征缩放(Scaling)等。
在一个可能示例中,该服务器可以获取用户账号在基础属性、社交关系、行为特征、付费特征这四个方面的特征,具体举例如下:
基础属性:年龄、性别、职业标识、工会ID、战力值、活跃度等。
社交关系:好友人数、近一个月好友活跃天数及趋势、近一个月好友付费天数及趋势、活跃比例及变化趋势、付费比例及变化趋势、聊天人数、聊天次数、聊天人数及次数变化趋势、近一个月新增好友数及变化趋势等。
行为特征:用户账号登录天数及变化趋势(例如,近一个月连续登录)、用户账号登录次数及变化趋势、用户账号在线时长及变化趋势、好友登录天数及变化趋势、好友登录次数及变化趋势、好友在线时长及变化趋势、用户账号升级变化、用户账号装备变化、用户账号组队次数、踩空间次数等。
付费特征:充值频次、金额、日期,消耗频次、金额、日期,账户余额等。
需要说明的是,通过获取样本用户账号的用户特征和样本标签,从而得到目标应用上的用户账号的留存情况以及用户特征;并且,该服务器可以选取起始使用时间在目标时段之前的用户账号作为样本用户账号,进而保证了该样本用户账号的样本标签的准确性。该服务器还可以对特征数据进行离散化处理或者归一化处理,从而使得用户特征的特征取值更加规范化,保证了后续筛选目标特征和用户账号集合的准确性,进一步保证了发送信息过程的准确性。
302、服务器将该样本用户账号的至少两个用户特征和样本标签输入初始模型,基于该初始模型输出的用户留存结果,对该初始模型进行训练,得到目标模型。
该目标模型包括用于确定用户账号是否在该目标应用上留存的用户特征和该用户特征对用户留存的影响程度。本步骤中,该服务器将样本用户账号的至少两个用户特征和样本标输入初始模型中,基于该初始模型输出对该样本用户账号的用户留存结果,该服务器基于初始模型输出的用户留存结果和样本标签,对该初始模型进行训练,得到目标模型。该目标模型包括分类器,该分类器包括用于判断条件,该判断条件可以包括判断用户账号是否在目标应用上留存的用户特征,也即是,该服务器基于该目标模型中的判断条件来判断所输入样本用户是否会留存,输出对该样本用户账号的用户留存结果。例如,该初始模型可以包括初始分类器,每次训练初始模型时,该服务器可以确定样本用户的至少两个用户特征分别对用户留存的影响程度,基于该影响程度,调整初始分类器所包括的判断条件,直至得到目标模型。
在一个可能示例中,该服务器可以重复执行将样本用户账号的至少两个养护特征和样本标签输入初始模型,基于输出的该用户留存结果和样本标签之间的差异程度,调整初始模型中的模型参数的步骤,以对初始模型进行训练,直至该用户留存结果和样本标签之间的差异程度符合收敛条件,得到目标模型。例如,该服务器还可以采用该样本用户留存结果中的真实值所占比例,来衡量用户留存结果和样本标签之间的差异程度。样本用户账号的用户留存结果与该样本用户账号的样本标签相同的用户留存结果即为真实值。例如,初始模型输出的10万样本用户账号的用户留存结果中,真实值占80%,也即是,初始模型的准确率达到80%,确定用户留存结果和样本标签之间的差异程度符合收敛条件。
在一种可能实现方式中,该分类器可以为决策树,该目标模型可以包括至少两个决策树,每个决策树包括多个节点,每个节点包括用于判断样本用户是否留存的判断条件,该服务器通过对初始模型的决策树进行迭代训练的过程,得到目标模型。相应的,本步骤可以通过以下步骤3021-3022实现。
3021、服务器将该样本用户账号的至少两个用户特征和样本标签输入该初始模型,基于该至少两个用户特征对用户留存的影响程度,建立至少两个决策树。
本步骤中,该服务器可以采用信息增益表示用户特征对用户留存的影响程度。在一个可能示例中,服务器建立每个决策树的过程可以包括:该服务器从该样本用户账号中抽取第一目标数量的样本用户账号作为第一训练集;该服务器基于该第一训练集的至少两个用户特征和样本标签,确定该至少两个用户特征分别对用户留存的信息增益;该服务器根据该至少两个用户特征分别对用户留存的信息增益,建立决策树。其中,该信息增益用于表示用户特征对用户留存的影响程度。信息增益越大,表示用户特征对用户留存的影响程度越大。该服务器在建立每个决策树时,均抽取第一训练集,保证了每个决策树上节点的随机性;并且,该服务器采用新抽取的第一训练集的用户特征对用户留存的信息增益,来表示影响程度,从而采用数值的形式进一步量化出影响程度的大小,提高基于决策树所判断的用户留存结果的准确性,保证了目标模型的准确性。
在一个可能示例中,决策树是一种树形结构,决策树包括根节点以及叶子节点。该服务器可以利用随机抽取的训练集来生成每个节点。则该服务器根据该至少两个用户特征分别对用户留存的信息增益,建立决策树的步骤包括:该服务器根据该至少两个用户特征中对用户留存的信息增益最大的用户特征,生成该决策树的根节点;响应于该决策树的初始树深度大于1,该服务器重复执行抽取样本用户账号、确定信息增益以及生成决策树的节点的步骤,直至该决策树的节点数达到该初始树深度。该初始树深度是指初始模型中决策树所包括的节点数。例如,初始树深度为1,则包括根节点;初始树深度为2,则包括根节点和根节点的下一层节点。在一个可能示例中,该决策树中每个节点包括判断条件,每个判断条件包括用于判断样本用户账号是否留存的用户特征。该决策树可以基于该判断条件在该节点处进行分裂,该判断条件具体可以包括该用户特征的特征取值,对于连续特征,该用户特征的特征取值是指该用户特征对用户留存的信息熵最大时采用的分割值所分割的特征区间。该服务器可以根据该判断条件中用户特征的特征取值以及样本用户账号的用户特征的特征取值,在对应节点处对样本用户账号进行分类。每个节点距离根节点越近,代表该节点对应的用户特征对用户留存的影响程度越大。在一个具体示例中,该服务器建立初始树深度的决策树的过程可以包括:该服务器可以从该样本用户账号中抽取第一目标数量的样本用户账号作为第一训练集,获取初始树深度,根据该第一训练集的样本标签和至少两个用户特征,计算第一训练集的每个用户特征对用户留存的信息增益,该服务器根据每个用户账号对用户留存的信息增益,将信息增益最大的用户特征生成决策树的根节点,根据该信息增益最大的用户特征的特征取值确定该根节点的判断条件。当决策树的初始树深度等于1时,该服务器建立包括根节点的决策树;当初始树深度大于1时,可以再次抽取第一目标数量的样本用户账号作为第三训练集,并按照上述确定根节点的同理方式,生成根节点的下一层节点,直到节点数达到初始树深度,得到初始树深度的决策树。该服务器可以按照上述过程以此建立多个决策树。
需要说明的是,在建立决策树过程中,当初始树深度大于1,也即是决策树包括根节点以及下一层节点时,均基于重新抽取的训练集生成新的节点,通过保证生成新节点时采用的数据的随机性,从而提高了每个决策树中新生成的节点的准确性,进一步提高了决策树的准确性。
在一个可能示例中,该服务器可以从样本用户账号中随机抽取第一目标数量的样本用户账号作为第一训练集;以及,当初始数深度大于1时,每次建立下一层节点过程中,该服务器可以从样本用户账号中再次随机抽取第一目标数量的样本用户账号作为第三训练集,并基于该第三训练集的至少两个用户特征和样本标签,计算第三训练集的每个用户特征对用户留存的信息增益,根据每个用户账号对用户留存的信息增益,基于第三训练集中至少两个用户特征中信息增益最大的用户特征生成该下一层节点。
在一个可能示例中,对于每个用户特征,该服务器可以计算该用户特征对用户留存的信息熵,以及用户特征对用户留存的条件熵,将信息熵与条件熵之间的差值作为该用户特征对用户留存的信息增益。
在一个可能示例中,对于每个用户特征,该服务器确定第一训练集中正样本,该正样本的样本标签为样本用户账号会留存。该服务器根据该正样本中该用户特征的每个特征取值所包括的用户账号的出现概率,通过以下公式一,确定该用户特征对该用户留存的信息熵。
公式一:
Figure BDA0002594863150000121
该公式一中,H(x)表示用户特征对用户留存的信息熵,n用于表示该用户特征的n个特征取值。P(xi)表示n个特征取值中第i个特征取值所包括的样本用户账号的出现概率。该P(xi)表示多个特征取值中第i个特征取值所包括的用户账号的出现概率。例如,对于所在地理位置是否属于省会这一特征,x1表示所在地理位置属于省会,x2表示所在地理位置不属于省会。例如,10万正样本中有8万样本用户账号所在地理位置属于省会,2万样本用户账号所在地理位置不属于省会,则P(x1)=0.8表示正样本中所在地理位置属于省会的样本用户账号的出现概率,P(x2)=0.2表示正样本中所在地理位置不属于省会的样本用户账号的出现概率,该服务器可以将P(x1)、P(x2)代入上述公式一,得到所在地理位置是否属于省会这一特征对于用户留存的信息熵。
在一种可能的实施方式中,对于连续特征,该服务器可以对连续特征的特征取值范围进行多次分割,基于每次分割计算一次信息熵,结合多次分割的多个信息熵来确定最终的信息熵。例如,对于每次分割,该服务器根据分割值,将连续特征的特征取值范围分割为至少两个取值区间,基于本次分割对应的每个取值区间所包括的用户账号的出现概率,确定本次分割时该连续特征对该用户留存的信息熵,从而每次分割对应一个信息熵,该服务器将多次分割对应的多个信息熵中最大值,确定为该连续特征对该用户留存的信息熵。该服务器还可以保存信息熵最大值所对采用的分割值。例如,对于连续特征,上述公式一中P(xi)表示本次分割时一个取值区间所包括的样本用户账号的出现概率。
在一个可能示例中,该服务器可以通过以下公式二,确定每个用户特征对于用户留存的条件熵:
公式二:
Figure BDA0002594863150000131
其中,H(Y|X)为在用户特征对用户留存的条件熵,表示已知用户特征X的条件下用户留存Y的不确定性,X表示用户特征,Y表示用户留存;p(xi)表示用户特征包括的n个特征取值中第i个特征取值所包括的样本用户账号的出现概率。H(Y|X=xi)表示特征取值为xi条件下对用户留存的条件熵。
需要说明的是,每个节点代表基于一项用户特征对用户账号进行了一次该特征属性上的测试,也即是,该服务器可以根据用户特征的特征取值来确定节点的判断条件,例如,某一节点的判断条件可以为登录天数是否大于5,每个节点分裂后可以包括至少两个分支,每个分支代表一个测试输出,输出部分表示符合判断条件的部分用户账号。在一个可能示例中,上述仅以信息增益为例来表示用户特征对用户留存的影响程度,在另一个可能示例中,还可以直接采用信息熵、基尼系数等来表示用户特征对用户留存的影响程度,本申请实施例对此不做限制。
需要说明的是,服务器基于用户特征对用户留存的影响程度,建立决策树,使得所建立的决策树可以依据具有一定影响程度的用户特征作为判断条件,准确判断用户账号是否留存。该服务器还可以采用第一训练集的用户特征对用户留存的信息增益,来表示该影响程度,提高决策树的准确性,实现对用户的精准定位,从而提高了后续将用户账号转化为留存用户账号的可能性,进一步提高了发送信息过程的实际发送效率以及准确性。
3022、服务器基于该初始模型输出的用户留存结果以及该至少两个决策树所确定的该样本用户账号的用户留存结果,调整该初始模型的参数,直至该初始模型输出的用户留存结果符合第二目标条件时停止调整,得到该目标模型。
该服务器可以先根据初始模型所输出的用户留存结果,初步评估初始模型的准确性。该过程可以包括:该服务器可以基于该样本用户账号的样本标签和该初始模型输出的用户留存结果,确定该初始模型的准确率;该服务器根据该准确率的大小,对初始模型中决策树进行迭代训练,得到目标模型。在一个可能示例中,该服务器迭代训练过程可以包括:该服务器响应于该准确率小于目标阈值,基于该第一训练集的至少两个用户特征对用户留存的信息增益,增加该至少两个决策树的树深度;该服务器从该样本用户账号中抽取第二目标数量的样本用户账号作为第二训练集;该服务器基于该至少两个决策树所确定的该第二训练集的用户留存结果,从该至少两个决策树中筛选出符合第三目标条件的决策树;该服务器重复执行确定准确率、增加树深度、抽取样本用户账号以及筛选决策树的步骤,直至该初始模型输出的用户留存结果符合该第二目标条件时,停止执行,得到该目标模型。其中,在每次重复执行时,该服务器可以基于上一次筛选出的符合第三目标条件的决策树,执行确定准确率、增加树深度的过程。例如,该服务器还可以删除初始模型中不符合第三目标条件的决策树。该树深度是指从决策树的叶子节点与根节点的距离。在一个可能示例中,该第二目标条件可以为初始模型输出的用户留存结果的准确率不小于该目标阈值。该目标阈值可以基于需要进行设置。例如,该目标阈值可以为0.8、0.75等,本申请实施例对此不作限制。通过该服务器基于初试模型的准确率对模型进行不断训练,直至初试模型输出的结果满足第二目标条件才停止训练,保证了目标模型的准确性。而在训练模型过程中,通过增加树深度实现对决策树的多次迭代,从而提高每决策树的准确性;且每次增加树深度后均基于重新抽取的第二训练集,对决策树进行筛选,保证所保留的决策树均为较为准确的决策树,去除不准确的决策树对目标模型的影响,从而进一步提高了目标模型的准确性。
信息增益建立决策树,并多次迭代训练决策树,直到模型的准确率不小于目标阈值,从而大大提高了目标模型判断用户账号是否留存的准确性。
在一个可能示例中,当初始模型输出的用户留存结果的准确率小于目标阈值时,该服务器可以增加决策树的树深度。对于每个决策树,该服务器增加该决策树的树深度的过程可以包括:该服务器可以从该样本用户账号中随机抽取第一目标数量的样本用户账号作为第四训练集,根据该第四训练集的样本标签和至少两个用户特征,计算每个用户特征对用户留存的信息增益,该服务器根据每个用户特征对用户留存的信息增益,将信息增益最大的用户特征作为决策树的新增节点。该服务器根据该信息增益最大的用户特征的特征取值确定该新增节点的判断条件。
在一个可能示例中,该服务器还可以确定该决策树所判断的用户留存结果,对决策树进行筛选。该过程可以包括:对于每个决策树,该服务器从样本用户账号中随机抽取第二目标数量的样本用户账号作为第二训练集,利用增加节点后的决策树,确定第二训练集中每个样本用户账号的用户留存结果,并根据决策树所确定的第二训练集中每个样本用户账号的用户留存结果和该样本用户账号的样本标签,确定该决策树所确定的用户留存结果和样本标签之间的差异程度,从而得到多个决策树对应的多个差异程度,该服务器可以从多个决策树中筛选出差异程度符合第三目标条件的决策树。例如,该第三目标条件可以为决策树的准确率高于目标准确率阈值。例如,对于任一决策树,该服务器可以根据该决策树所确定的第二训练集用户留存结果以及该第二训练集的样本标签,确定该决策树的准确率,筛选出准确率高于目标准确率阈值的决策树。
在一个可能的实现方式中,该服务器可以确定每个决策树的ROC(ReceiverOperating Characteristic Curve,受试者工作特征)曲线,基于该ROC曲线来表示每个决策树的差异程度。例如,该服务器可以根据第二训练集中每个样本用户账号的用户留存结果和样本标签,确定该决策树的真阳性率和假阳性率,根据该决策树的真阳性率和假阳性率,生成该决策树对应的ROC曲线,并确定该ROC曲线的AUC(Area Under Curve,ROC曲线下与坐标轴围成的面积)值;例如,该服务器可以将决策树对应的ROC曲线的AUC值作为该决策树对应的差异程度。该服务器根据每个决策树对应的AUC值,从多个决策树中筛选出符合第三目标条件的决策树。该第三目标条件可以为AUC值位于前50%、AUC值大于目标阈值等。例如,该目标阈值可以为0.8、0.85等。
需要说明的是,ROC曲线是是根据一系列不同的二分类方式,以真阳性率(敏感性)为纵坐标,假阳性率(1-特异性)为横坐标绘制的曲线。ROC曲线中,AUC越接近1.0,说明该决策树的判断结果的真实性越高,也即是,判断的准确率越高;等于0.5时,则真实性较低,无应用价值。
在一个可能示例中,该服务器还可以根据决策树包括的节点,计算每个决策树与每个决策树之间的相似度,将相似度超过目标相似度阈值的决策树删除。或者,该服务器还可以将相似度超过目标相似度阈值的两个或多个决策树合并为一个决策树。该服务器通过删除AUC较小的决策树,删除或合并较为相似的决策树,从而进一步保证决策树判断的准确性,避免随机森林模型的过拟合。
在一个可能示例中,在上述步骤3021中服务器建立决策树时,或者步骤3022中,服务器增加决策树的节点以增加树深度时,该服务器可以从大量样本用户账号群体中有放回的随机抽取训练集。例如,以第一训练集为例,该服务器可以从样本用户账号中有放回的随机抽取一定数量的用户账号作为第一训练集,在增加下一节点时,该服务器还可以有放回的随机抽取一定数量的用户账号作为第三训练集或第四训练集。当该目标应用的样本数量足够大时,可以保证所抽取的训练集的样本随机性,进一步提高建立决策树过程的准确性,该样本数量可以为1000万、500万等。例如,该服务器从1000万用户账号群体中抽取10万样本用户作为第一训练集。
以该目标模型为随机森林模型为例,每次增加多个决策树的树深度的过程,即为对每个决策树进行一次迭代的过程,每次迭代多个决策树,得到本次迭代过程对应的一个随机森林模型。对于每次迭代得到的随机森林模型,该服务器可以再次从样本用户账号中抽取第三目标数目的第五训练集,输入该随机森林模型,输出第五训练集的用户留存结果,该服务器根据输出的第五训练集中每个样本用户账号的用户留存结果和第五训练集中每个样本用户账号的样本标签,计算该随机森林模型的准确率。当该准确率小于目标阈值时,也即是,随机森林模型输出的用户留存结果不符合第二目标条件时,该服务器重复上述对决策树的迭代过程,并再次计算最新迭代过程对应的随机森林模型的准确率;直至该随机森林模型的准确率不小于目标阈值时停止调整,也即是,不再对决策树进行迭代,直接基于最后一次迭代得到的决策树,得到目标模型。例如,该服务器可以采用投票的方式,基于该多个决策树所确定的用户留存结果,输出随机森林模型的用户留存结果。例如,对于样本用户A,随机森林模型包括的100个决策树中,有10个决策树确定该样本用户A会留存,90个决策树确定该样本用户A不会留存,则服务器将样本用户A不会留存作为随机森林模型的结果进行输出。
如图4所示的随机森林模型的逻辑图,该服务器可以随机采样的方式抽取D1、D2、……、Di个训练集,分别进行分类训练,对应得到C1、C2、……、Ci共i个决策树作为分类器,利用随机森林模型的投票的方式来输出最终结果,从而得到一个强分类器的随机森林模型。需要说明的是,随机森林模型是指通过组合多棵弱决策树,将多颗弱决策树结果通过投票或取均值,使得整体模型的结果具有较高的精确度和泛化性能。随机森林模型的核心是“随机”的实现。这里的“随机”有两层含义,一是采样随机,是指构造每颗决策树的样本抽样是随机的。也即是,上述从样本用户账号中抽取训练集时,该服务器可以采取有放回的随机抽取的方式。二是特征选取随机,是指只考虑特征的子集来分割每棵决策树中的节点。
需要说明的是,上述步骤302中,先得到一个初始模型,在基于迭代决策树的过程,通过不断调整模型参数,以对初始模型进行优化,得到更为精准的随机森林模型。其中,该模型参数可以包括:随机数种子、模型中所包括的决策树个数、纯度、决策树的最大树深度、特征最大装箱数、验证集比例等。其中,随机数种子是指模型进行多轮迭代时,需要指定迭代的起始点,这个起始点就是随机数种子。纯度表示表示一个随机选中的样本在模型中被分正确的可能性。常见的纯度表示方法有基尼系数、熵等。上述步骤302中,采用信息增益、信息熵等进行表示。基尼系数用于表征在二分类问题中,正负两种标签的分配合理程度。最大树深度是停止决策树迭代的临界点,当决策树深度达到最大树深度时,决策树会停止分裂。特征装箱数是指将连续特征转化为离散型特征的过程。验证集比例是指,构造和训练模型时,会将数据集切分成训练集、验证集。训练集数据用来构造模型,验证集数据用来检验模型的准确率;也即是,上述过程中,从样本用户账号中收取的训练集和验证集。例如,最终优化得到的随机森林模型的各个模型参数取值可以是,随机数种子:42;决策树个数:8;纯度:基尼系数;最大树深度:6;特征最大装箱数:32;验证集比例:10%。
需要说明的是,对于通过本申请实施例所训练得到的随机森林模型,该服务器使用上述最终优化得到的随机森林模型的各个模型参数取值,将该多个模型参数代入,并抽取一定数目的验证集进行验证,并采用多个指标来表示验证效果;该随机森林模型的多个指标的数值可以如图5所示。其中,该多个指标的释义如下:真阳性(True Positive,TP):样本的真实类别是正例,并且模型预测的结果也是正例。其中,正例,也即是正样本。
真阴性(True Negative,TN):样本的真实类别是负例,并且模型将其预测成为负例。其中,负例,也即是负样本。
假阳性(False Positive,FP):样本的真实类别是负例,但是模型将其预测成为正例。
假阴性(False Negative,FN):样本的真实类别是正例,但是模型将其预测成为负例。
真阳率(True Positive Rate):分类器预测为正例的样本占实际正例样本数量的比例。又叫查全率(recall)。
假阳率(False Positive Rate):分类器预测为正例的样本占实际负例样本数量的比例。
精度(Precision):在所有判别为正例的结果中,真正的正例所占的比例。
需要说明的是,本申请实施例通过初始模型输出的用户留存结果以及决策树确定的用户留存结果,不断对模型参数进行调整,从而实现对模型的精准训练;且训练过程中,利用用户特征的信息增益多次迭代决策树,并基于抽取的第二训练集对模型所包括的决策树进行筛选,最终得到更优的目标模型,从而进一步提高了所得到的模型的准确性。且该服务器还可以采取有放回的随机抽取训练集的方式,对决策树进行迭代,通过保证决策树迭代过程中采用的数据的随机性,进一步保证多个决策树的准确性;该服务器还可以通过决策树的AUC,对迭代的多个决策树进行删减优化,通过去除不好决策树以尽量减少模型的误差,尽可能的提高了目标模型的准确性。
303、服务器从该目标模型中提取影响程度符合该第一目标条件的目标特征。
该第一目标条件可以包括但不限于:影响程度高于目标程度阈值、影响程度的大小位于前50%等。该服务器可以根据目标模型所包括的用户特征对用户留存的影响程度,从目标模型所包括的用户特征中,筛选出影响程度符合第一目标条件的目标特征。在一种可能实现方式中,该目标模型包括多个决策树时,该服务器根据该多个决策树的多个节点,统计该多个节点对应的用户特征的信息增益,将信息增益超过目标增益阈值的用户特征确定为该目标特征。在一个可能示例中,当至少两个节点对应的用户特征相同时,该服务器可以将该至少两个节点对应的用户特征的信息增益之间的均值,确定为该用户特征的信息增益。
在一个可能示例中,该服务器还可以从决策树的节点的判断条件中提取目标特征和该目标特征的目标特征取值。其中,对于分类特征,该服务器获取该分类特征的目标特征取值,对于连续特征,该服务器可以获取该连续特征的目标取值区间。例如,对于登录天数,当登录天数分割为大于0且小于4,和不小于4两个取值区间时,信息增益值最大,相应节点对应的判断条件为登录天数不小于4,则该服务器提取目标特征和目标取值区间为:登录天数不小于4。
在一个可能示例中,该目标特征的数目还可以为多个,该服务器还可以根据各个目标特征的信息增益,确定每个目标特征的权重,例如,该服务器可以根据每个目标特征的信息增益,从信息增益和权重的对应关系中,获取目标特征的权重。信息增益越大,权重越大,对用户留存的影响程度越大。在一个可能示例中,该服务器也可以根据信息增益的大小或者权重的大小,对该多个目标特征进行排序。例如,该服务器基于训练得到的随机森林模型,从该随机森林模型中提取出影响游戏应用上的用户留存的7个用户特征,按照权重大小降序排序为:登录天数、活跃度、聊天次数、好友数量、踩空间次数、战力值、余额。
需要说明的是,上述步骤302-303实际上是步骤“基于该样本用户账号的样本标签,分析该至少两个用户特征分别对用户留存的影响程度,从该至少两个用户特征中筛选出影响程度符合第一目标条件的目标特征”的一种具体实现方式。上述步骤302-303实际上是先基于样本用户账号的样本标签和用户特征,实时训练得到目标模型,利用实时迭代出的决策树中提取出目标特征。在另一个可能实现方式中,该服务器还可以事先生成该目标模型,每次需要发送用户引导信息时,该服务器可以直接从该目标模型中提取出目标特征,从而通过简单的调用模型便可得到目标特征,无需重复执行训练出目标模型的过程,大大提高了处理效率。
需要说明的是,该目标模型为基于上述步骤302进行训练得到,该目标模型的准确率较高,该目标模型中包括的用于判断用户账号是否留存的判断条件的准确性也较高,该服务器通过从该目标模型中提取符合第一目标条件的目标特征,从而提取出影响程度较高的目标特征;且该服务器还可以基于信息增益筛选满足第一目标条件的目标特征,进一步准确的量化目标特征的影响程度,从而提高了所提取目标特征的准确性,后续基于该目标特征筛选出有效的用户,提高了后续信息发送过程的准确性。
304、服务器基于该目标特征,从该目标应用的至少两个用户账号中筛选出用户特征不符合该目标特征的目标用户账号集合。
该用户特征不符合目标特征是指用户特征的特征取值与该目标特征的目标特征取值不相同。在一种可能实现方式中,该服务器可以根据该目标特征的目标特征取值,从至少两个用户账号中筛选出用户账号的目标特征的取值不为该目标特征取值的目标用户账号集合。在一个可能示例中,对于连续特征,该服务器可以根据该目标特征的目标取值区间,从至少两个用户账号中筛选出用户账号的目标特征的取值不位于该目标取值区间的目标用户账号集合。例如,该目标特征的特征取值可以为:登录天数超过4天,则不符合该目标特征的用户特征可以为:登录天数小于4天,例如,登录天数为3天、2天等。
在一个可能示例中,当该目标特征的数目为至少两个时,该服务器还可以分层筛选出多个目标用户账号集合,该过程可以包括:该服务器基于该目标特征中影响程度最大的第一目标特征,从至少两个用户账号中筛选出用户特征不符合该第一目标特征的第一目标用户账号集合;该服务器基于该至少两个目标特征中除该第一目标特征以外的第二目标特征,从该第一用户账号集合中筛选出不符合该第二目标特征的第二目标用户账号集合。在一个可能示例中,当第二目标特征的数目大于1时,该服务器可以重复执行以下过程:该服务器可以按照影响程度的大小,将该多个第二目标特征降序排列,该服务器按照该多个第二目标特征的排列顺序,从排序首位的第二目标特征开始,依次从第一用户账号集合中筛选出不符合排序首位的第二目标特征的第二目标用户账号集合;从第二目标用户账号集合中筛选出不符合排序第二位的第二目标特征的第三目标用户账号集合,以此循环,直至循环至排序末位的第二目标特征为止。当目标特征的数目为至少两个时,该服务器通过先基于影响程度最大的第一目标特征进行用户筛选,再基于影响程度次之的第二目标特征进行用户筛选,从而按照影响程度对用户集合进行精准筛选。并且,当第二目标特征为多个时,该服务器还可以通过降序排序的第二目标特征的排列顺序,对用户集合再次进行层层筛选,通过多次筛选得到多个影响程度不同的多个用户集合,从而将大量用户一一按照影响程度层次分明的划分开来,进一步提高了用户筛选过程的精准性。
例如,第一目标特征为登录天数的目标特征区间为不小于4,第二目标特征为活跃度高于0.8,则该服务器先筛选出登录条数小于4的用户账号群体,再从登录条数小于4的用户账号群体中筛选出活跃度低于0.8的用户账号群体。
需要说明的是,该服务器通过基于目标特征进行用户账号的筛选,从而保证所筛选的用户账号为不符合目标特征的用户账号,当目标特征数目有多个时,该服务器还可以基于多个目标特征的影响程度的大小,对用户群体进行精准分层,从而准确的定位出不同影响程度的用户群体,后续基于分层后的用户群体进行信息发送,实现了对用户群体分层的精准信息分发,提高了信息发送的准确性。
305、服务器向该目标用户账号集合发送该目标特征对应的用户引导信息,该用户引导信息用于引导该目标用户账号集合执行目标操作,该目标操作用于将用户特征调整为该目标特征。
该服务器可以获取该目标特征对应的用户引导信息,向不符合该目标特征的目标用户账号集合发送该引导信息,以引导该目标用户账号集合在目标应用上执行目标操作,促使目标应用账号集合的用户特征的特征取值达到该目标特征的目标特征取值。例如,该服务器可以向游戏平台中登录天数低于4天的用户账号发送登录达到4天奖励大礼包的运营活动消息,以吸引用户多次登录游戏平台,促使用户账号登录天数超过4天。
在一个可能示例中,当目标特征的数目为至少两个时,该服务器可以存储每个目标特征对应的引导消息。则本步骤可以包括:该服务器获取该第一目标特征对应的第一引导信息和该第二目标特征对应的第二引导信息;该服务器向该第一目标用户账号集合发送该第一引导信息,该服务器向该第二目标用户账号集合发送该第二引导信息。例如,该服务器先筛选出登录条数小于4的第一用户账号群体,再从登录条数小于4的第一用户账号群体中筛选出活跃度低于0.8的第二用户账号群体。该服务器可以向第一用户账号群体发送登录达到4天奖励大礼包的运营活动消息,向第二用户账号群体发送活跃参加PK活动的奖励信息,提高了第二用户账号群体的用户活跃度。当目标特征的数目为至少两个时,通过该服务器针对每个用户集合发送对应特征的引导消息,实现分层次的对多个用户集合的精准投放,提高信息发送过程中对大量用户的精准发送;使得每个用户集合均会被准确的引导消息所引导而执行目标操作,从而每个用户集合的用户特征被调整为该目标特征,进而提高了用户转化为留存用户的可能性。
需要说明的是,服务器按照上述步骤301-304得到的重要目标特征,筛选出目标用户账号集合,向目标用户账号集合发送用户引导信息,以使用户受到用户引导信息的引导,进一步促使用户特征转变为目标特征,且该服务器还可以基于多个目标特征对用户进一步的进行精准分层,并根据分层后的用户账号的用户特征的不同,针对性的施加不同的运营干预,发放不同的活动引导信息,以引导用户特征符合目标特征,从而大大提高了用户的留存概率,提升了整个目标应用的用户留存率。
如下图6所示,横坐标表示登录天数,纵坐标中柱状条表示用户数量、直线表示用户留存率,游戏内周登录天数达到4天时用户账号次月留存会出现明显拐点。那么运营侧可以引导游戏用户账号完成4天登录,提升玩家留存。
需要说明的是,服务器利用本申请实施例得到的目标特征,对用户账号进行分层,并分层次的对不同用户账号群体施加运营干预,例如,该服务器利用如下图7所示的分流方案,对周登录天数影响因子施加运营干预,例如,将9月登陆用户中筛选出10万用户划分为对照组和实验组,对照组不采取运营干预,对实验组采取本申请实施例的方法进行运营干预,对比运营规则常规维系,通过观察次月留存率、人均活跃天数,发现实验组相比对照组次月留存率提升11.8%,人均活跃天数提升4.1%。
为了更加清晰的对本申请实施例的步骤进行说明,下面以图8所示的流程,对本申请实施例的整体流程进行介绍,如图8所示,该服务器可以基于游戏应用中用户特征,选取随机森林模型为初始模型,对初始模型进行优化训练,得到目标模型,并从目标模型中提取目标特征,例如,还可以对提取的多个目标特征按照影响程度进行排序,基于多个目标特征对游戏应用的用户群体进行用户分层,并采用离线的验证集验证留存效果后,便可将本申请实施例的方法进行线上使用。如图9所示,图9为目标应用上的用户生命周期图,例如游戏应用的用户生命周期,从用户生命周期角度看,通常用户的生命周期会从拉取到新用户、用户活跃、用户留存,再到用户沉默,最后用户流失。如图10所示,图10为两个目标应用上用户的次月留存率,例如游戏应用的次月留存率,其中一个目标应用的次月留存率明显下滑严重,则可以通过本申请实施例的方法,实现拉长用户留存的时期,以提高用户的次月留存率;本申请实施例的方法同样适用于其他类型的应用,例如,购物应用、社交应用、音频或视频应用等。
本申请实施例提供的方法,通过样本用户的用户特征和用于指示样本用户在目标应用上留存情况的样本标签,来分析用户特征对用户留存的影响情况,从而筛选出对用户留存影响较大的目标特征,这样可以基于该目标特征,准确的定位出目标应用上需要进行引导的用户群体,通过有针对性的向该用户群体发送用户引导信息,来对该用户群体施加运营干预,引导该用户群体执行目标操作,促使该用户群体的用户特征转变为该目标特征,从而可以提高用户在目标应用上留存的可能性,上述信息发送过程的准确性较高。
图11是本申请实施例提供的一种信息发送装置的结构示意图,参照图11,该装置包括:
获取模块1101,用于获取样本用户账号的至少两个用户特征和样本标签,该样本标签用于指示该样本用户账号使用目标应用后是否在该目标应用上留存;
分析模块1102,用于基于该样本用户账号的样本标签,分析该至少两个用户特征对用户留存的影响程度,从该至少两个用户特征中筛选出影响程度符合第一目标条件的目标特征;
筛选模块1103,用于基于该目标特征,从该目标应用的至少两个用户账号中筛选出用户特征不符合该目标特征的目标用户账号集合;
发送模块1104,用于向该目标用户账号集合发送该目标特征对应的用户引导信息,该用户引导信息用于引导该目标用户账号集合执行目标操作,该目标操作用于将用户特征调整为该目标特征。
在一种可能实现方式中,该分析模块1102,包括:
训练单元,用于将该样本用户账号的至少两个用户特征和样本标签输入初始模型,基于该初始模型输出的用户留存结果,对该初始模型进行训练,得到目标模型,该目标模型包括用于确定用户账号是否在该目标应用上留存的用户特征和该用户特征对用户留存的影响程度;
提取单元,用于从该目标模型中提取影响程度符合该第一目标条件的目标特征。
在一种可能实现方式中,该训练单元,包括:
建立子单元,用于将该样本用户账号的至少两个用户特征和样本标签输入该初始模型,基于该至少两个用户特征对用户留存的影响程度,建立至少两个决策树;
调整子单元,用于基于该初始模型输出的用户留存结果以及该至少两个决策树所确定的该样本用户账号的用户留存结果,调整该初始模型的参数,直至该初始模型输出的用户留存结果符合第二目标条件时停止调整,得到该目标模型。
在一种可能实现方式中,该建立子单元,用于从该样本用户账号中抽取第一目标数量的样本用户账号作为第一训练集;基于该第一训练集的至少两个用户特征和样本标签,确定该至少两个用户特征分别对用户留存的信息增益,该信息增益用于表示用户特征对用户留存的影响程度;根据该至少两个用户特征分别对用户留存的信息增益,建立决策树。
在一种可能实现方式中,该建立子单元,用于根据该至少两个用户特征中对用户留存的信息增益最大的用户特征,生成该决策树的根节点;响应于该决策树的初始树深度大于1,重复执行抽取样本用户账号、确定信息增益以及生成决策树的节点的步骤,直至该决策树的节点数达到该初始树深度。
在一种可能实现方式中,该调整子单元,用于基于该样本用户账号的样本标签和该初始模型输出的用户留存结果,确定该初始模型的准确率;响应于该准确率小于目标阈值,基于该第一训练集的至少两个用户特征对用户留存的信息增益,增加该至少两个决策树的树深度;从该样本用户账号中抽取第二目标数量的样本用户账号作为第二训练集;基于该至少两个决策树所确定的该第二训练集的用户留存结果,从该至少两个决策树中筛选出符合第三目标条件的决策树;重复执行确定准确率、增加树深度、抽取样本用户账号以及筛选决策树的步骤,直至该初始模型输出的用户留存结果符合该第二目标条件时,停止执行,得到该目标模型,该树深度是指从决策树的叶子节点与根节点的距离。
在一种可能实现方式中,该筛选模块1103,用于基于至少两个该目标特征中影响程度最大的第一目标特征,从该目标应用的至少两个用户账号中筛选出用户特征不符合该第一目标特征的第一目标用户账号集合;基于该至少两个目标特征中除该第一目标特征以外的第二目标特征,从该第一用户账号集合中筛选出不符合该第二目标特征的第二目标用户账号集合。
在一种可能实现方式中,该发送模块1104,用于获取该第一目标特征对应的第一引导信息和该第二目标特征对应的第二引导信息;向该第一目标用户账号集合发送该第一引导信息,向该第二目标用户账号集合发送该第二引导信息。
本申请实施例中,通过样本用户的用户特征和用于指示样本用户在目标应用上留存情况的样本标签,来分析用户特征对用户留存的影响情况,从而筛选出对用户留存影响较大的目标特征,这样可以基于该目标特征,准确的定位出目标应用上需要进行引导的用户群体,通过有针对性的向该用户群体发送用户引导信息,来对该用户群体施加运营干预,引导该用户群体执行目标操作,促使该用户群体的用户特征转变为该目标特征,从而可以提高用户在目标应用上留存的可能性,上述信息发送过程的准确性较高。
需要说明的是:上述实施例提供的信息发送装置在发送信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的信息发送装置与信息发送方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图12是本申请实施例提供的一种服务器的结构示意图,该服务器1200可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)1201和一个或多个存储器1202,其中,所述存储器1202中存储有至少一条程序代码,所述至少一条程序代码由所述处理器1201加载并执行以实现上述各个方法实施例提供的信息发送方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种存储有至少一条程序代码的计算机可读存储介质,例如存储有至少一条程序代码的存储器,上述至少一条程序代码由处理器加载并执行,以实现上述实施例中的信息发送方法。例如,所述计算机可读存储介质可以是只读内存(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括程序代码,该程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该程序代码,处理器执行该程序代码,使得该计算机设备执行上述实施例中的信息发送方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种信息发送方法,其特征在于,所述方法包括:
获取样本用户账号的至少两个用户特征和样本标签,所述样本标签用于指示所述样本用户账号使用目标应用后是否在所述目标应用上留存;
基于所述样本用户账号的样本标签,分析所述至少两个用户特征对用户留存的影响程度,从所述至少两个用户特征中筛选出影响程度符合第一目标条件的目标特征;
基于所述目标特征,从所述目标应用的至少两个用户账号中筛选出用户特征不符合所述目标特征的目标用户账号集合;
向所述目标用户账号集合发送所述目标特征对应的用户引导信息,所述用户引导信息用于引导所述目标用户账号集合执行目标操作,所述目标操作用于将用户特征调整为所述目标特征。
2.根据权利要求1所述的方法,其特征在于,所述基于所述样本用户账号的样本标签,分析所述至少两个用户特征对用户留存的影响程度,从所述至少两个用户特征中筛选出影响程度符合第一目标条件的目标特征包括:
将所述样本用户账号的至少两个用户特征和样本标签输入初始模型,基于所述初始模型输出的用户留存结果,对所述初始模型进行训练,得到目标模型,所述目标模型包括用于确定用户账号是否在所述目标应用上留存的用户特征和所述用户特征对用户留存的影响程度;
从所述目标模型中提取影响程度符合所述第一目标条件的目标特征。
3.根据权利要求2所述的方法,其特征在于,所述将所述样本用户账号的至少两个用户特征和样本标签输入初始模型,基于所述初始模型输出的用户留存结果,对所述初始模型进行训练,得到目标模型包括:
将所述样本用户账号的至少两个用户特征和样本标签输入所述初始模型,基于所述至少两个用户特征对用户留存的影响程度,建立至少两个决策树;
基于所述初始模型输出的用户留存结果以及所述至少两个决策树所确定的所述样本用户账号的用户留存结果,调整所述初始模型的参数,直至所述初始模型输出的用户留存结果符合第二目标条件时停止调整,得到所述目标模型。
4.根据权利要求3所述的方法,其特征在于,所述将所述样本用户账号的至少两个用户特征和样本标签输入所述初始模型,基于所述至少两个用户特征对用户留存的影响程度,建立至少两个决策树包括:
从所述样本用户账号中抽取第一目标数量的样本用户账号作为第一训练集;
基于所述第一训练集的至少两个用户特征和样本标签,确定所述至少两个用户特征分别对用户留存的信息增益,所述信息增益用于表示用户特征对用户留存的影响程度;
根据所述至少两个用户特征分别对用户留存的信息增益,建立决策树。
5.根据权利要求4所述的方法,其特征在于,所述基于所述初始模型输出的用户留存结果以及所述至少两个决策树所确定的所述样本用户账号的用户留存结果,调整所述初始模型的参数,直至所述初始模型输出的用户留存结果符合第二目标条件时停止调整,得到所述目标模型包括:
基于所述样本用户账号的样本标签和所述初始模型输出的用户留存结果,确定所述初始模型的准确率;
响应于所述准确率小于目标阈值,基于所述第一训练集的至少两个用户特征对用户留存的信息增益,增加所述至少两个决策树的树深度;
从所述样本用户账号中抽取第二目标数量的样本用户账号作为第二训练集;
基于所述至少两个决策树所确定的所述第二训练集的用户留存结果,从所述至少两个决策树中筛选出符合第三目标条件的决策树;
重复执行确定准确率、增加树深度、抽取样本用户账号以及筛选决策树的步骤,直至所述初始模型输出的用户留存结果符合所述第二目标条件时,停止执行,得到所述目标模型,所述树深度是指从决策树的叶子节点与根节点的距离。
6.根据权利要求1所述的方法,其特征在于,所述目标特征的数目为至少两个,所述基于所述目标特征,从所述目标应用的至少两个用户账号中筛选出用户特征不符合所述目标特征的目标用户账号集合包括:
基于至少两个所述目标特征中影响程度最大的第一目标特征,从所述目标应用的至少两个用户账号中,筛选出用户特征不符合所述第一目标特征的第一目标用户账号集合;
基于所述至少两个目标特征中除所述第一目标特征以外的第二目标特征,从所述第一用户账号集合中筛选出不符合所述第二目标特征的第二目标用户账号集合。
7.根据权利要求6所述的方法,其特征在于,所述向所述目标用户账号集合发送所述目标特征对应的用户引导信息包括:
获取所述第一目标特征对应的第一引导信息和所述第二目标特征对应的第二引导信息;
向所述第一目标用户账号集合发送所述第一引导信息,向所述第二目标用户账号集合发送所述第二引导信息。
8.一种信息发送装置,其特征在于,所述装置包括:
获取模块,用于获取样本用户账号的至少两个用户特征和样本标签,所述样本标签用于指示所述样本用户账号使用目标应用后是否在所述目标应用上留存;
分析模块,用于基于所述样本用户账号的样本标签,分析所述至少两个用户特征对用户留存的影响程度,从所述至少两个用户特征中筛选出影响程度符合第一目标条件的目标特征;
筛选模块,用于基于所述目标特征,从所述目标应用的至少两个用户账号中筛选出用户特征不符合所述目标特征的目标用户账号集合;
发送模块,用于向所述目标用户账号集合发送所述目标特征对应的用户引导信息,所述用户引导信息用于引导所述目标用户账号集合执行目标操作,所述目标操作用于将用户特征调整为所述目标特征。
9.一种服务器,其特征在于,所述终端包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行,以实现如权利要求1至7任一项所述的信息发送方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至7任一项所述的信息发送方法。
CN202010707549.XA 2020-07-21 2020-07-21 信息发送方法、装置、服务器及存储介质 Pending CN112819499A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010707549.XA CN112819499A (zh) 2020-07-21 2020-07-21 信息发送方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010707549.XA CN112819499A (zh) 2020-07-21 2020-07-21 信息发送方法、装置、服务器及存储介质

Publications (1)

Publication Number Publication Date
CN112819499A true CN112819499A (zh) 2021-05-18

Family

ID=75853164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010707549.XA Pending CN112819499A (zh) 2020-07-21 2020-07-21 信息发送方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN112819499A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688923A (zh) * 2021-08-31 2021-11-23 中国平安财产保险股份有限公司 订单异常智能检测方法、装置、电子设备及存储介质
CN113791975A (zh) * 2021-08-25 2021-12-14 网易(杭州)网络有限公司 一种游戏测试方法、装置、计算机设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113791975A (zh) * 2021-08-25 2021-12-14 网易(杭州)网络有限公司 一种游戏测试方法、装置、计算机设备及存储介质
CN113791975B (zh) * 2021-08-25 2023-09-12 网易(杭州)网络有限公司 一种游戏测试方法、装置、计算机设备及存储介质
CN113688923A (zh) * 2021-08-31 2021-11-23 中国平安财产保险股份有限公司 订单异常智能检测方法、装置、电子设备及存储介质
CN113688923B (zh) * 2021-08-31 2024-04-05 中国平安财产保险股份有限公司 订单异常智能检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111339433B (zh) 基于人工智能的信息推荐方法、装置、电子设备
CN110837862B (zh) 用户分类方法及装置
CN111311338A (zh) 用户价值的预测方法以及用户价值预测模型的训练方法
CN111973996A (zh) 一种游戏资源投放方法和装置
CN111967971A (zh) 银行客户数据处理方法及装置
CN112153426A (zh) 一种内容账号管理方法、装置、计算机设备及存储介质
Ahmed et al. Discovering diverse, high quality design ideas from a large corpus
CN112819499A (zh) 信息发送方法、装置、服务器及存储介质
CN110956210A (zh) 一种基于ap聚类的半监督网络水军识别方法及系统
CN111986027A (zh) 基于人工智能的异常交易处理方法、装置
CN110598129A (zh) 基于两级信息熵的跨社交网络用户身份识别方法
CN114154672A (zh) 一种用于客户流失预测的数据挖掘方法
CN112245934B (zh) 虚拟场景应用中虚拟资源的数据分析方法、装置及设备
CN115131052A (zh) 一种数据处理方法、计算机设备和存储介质
CN111443973A (zh) 备注信息的填入方法、装置、设备及存储介质
CN111984842B (zh) 银行客户数据处理方法及装置
CN116048912A (zh) 一种基于弱监督学习的云服务器配置异常识别方法
CN113448876B (zh) 一种业务测试方法、装置、计算机设备及存储介质
CN112463964B (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN110874609A (zh) 基于用户行为的用户聚类方法、存储介质、设备及系统
CN112507185B (zh) 用户肖像的确定方法和装置
CN114418604A (zh) 一种掌银易流失客户促活成功概率预测方法、装置及存储介质
CN111127184B (zh) 一种分布式组合信用评估方法
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN113457167A (zh) 用户分类网络的训练方法、用户分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40048393

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination