CN109559172A - 数据处理方法、装置、电子设备及计算机可读存储介质 - Google Patents

数据处理方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109559172A
CN109559172A CN201811446323.8A CN201811446323A CN109559172A CN 109559172 A CN109559172 A CN 109559172A CN 201811446323 A CN201811446323 A CN 201811446323A CN 109559172 A CN109559172 A CN 109559172A
Authority
CN
China
Prior art keywords
historical behavior
client
behavior feature
sample
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811446323.8A
Other languages
English (en)
Inventor
霍海龙
庞丹
张雪媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Car Federation World Information Technology Co Ltd
Original Assignee
Beijing Car Federation World Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Car Federation World Information Technology Co Ltd filed Critical Beijing Car Federation World Information Technology Co Ltd
Priority to CN201811446323.8A priority Critical patent/CN109559172A/zh
Publication of CN109559172A publication Critical patent/CN109559172A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种数据处理方法、装置、电子设备及计算机可读存储介质,涉及数据挖掘技术领域,本发明所述的数据处理方法包括:获取多个客户样本的历史行为特征;将多个客户样本的历史行为特征进行分箱,得到不同客户样本类型分别对应的历史行为特征;将每种客户样本类型对应的历史行为特征作为用于训练客户流失模型的一个输入特征,将每种客户样本类型对应的客户流失概率作为用于训练客户流失模型的一个输出特征,训练所述客户流失模型。本申请的目的在于提供一种数据处理方法、装置、电子设备及计算机可读存储介质,对客户样本数据进行预处理,降低客户流失模型的计算复杂度,提高处理效率。

Description

数据处理方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及数据挖掘技术领域,尤其是涉及一种数据处理方法、装置、电子设备及计算机可读存储介质。
背景技术
根据最近一次购买情况、消费金额、消费频率等指标可以对重要客户进行客户行为分析,在重要客户流失时发出预警。
在对客户流失情况进行预测时,可以使用预设的指标和训练的客户流失模型来预测,但是由于在客户流失模型训练和使用中,进行数据处理的复杂度比较高,导致处理效率较低。
发明内容
有鉴于此,本申请的目的在于提供一种数据处理方法、装置、电子设备及计算机可读存储介质,对客户样本数据进行预处理,降低客户流失模型的计算复杂度,提高处理效率。
第一方面,本申请实施例提供了一种数据处理方法,包括:
获取多个客户样本的历史行为特征;
将多个客户样本的历史行为特征进行分箱,得到不同客户样本类型分别对应的历史行为特征;
将每种客户样本类型对应的历史行为特征作为用于训练客户流失模型的一个输入特征,将每种客户样本类型对应的客户流失概率作为用于训练客户流失模型的一个输出特征,训练所述客户流失模型。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,获取多个客户样本的历史行为特征之后,将多个客户样本的历史行为特征进行分箱之前,还包括:
计算获取的每个客户样本的历史行为特征与其它多个客户样本的历史行为特征的相关性;
剔除与其它多个客户样本的历史行为特征的相关性低于第一预设阈值的客户样本的历史行为特征。
结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述将多个客户样本的历史行为特征进行分箱,包括:
根据每个客户样本的历史行为特征对客户流失概率的影响度,和多个客户样本的历史行为特征的数量,确定每个客户样本的历史行为特征的信息增益率;
在所述信息增益率小于第二预设阈值的情况下,对对应的客户样本的历史行为特征进行等距分割。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,其中,根据以下步骤计算获取的每个客户样本的历史行为特征与其它多个客户样本的历史行为特征的相关性:
根据获取的多个客户样本的历史行为特征的数量,和每个客户样本的历史行为特征与客户流失概率之间的关系类型,确定回归方程;
利用所述回归方程,计算获取的每个客户样本的历史行为特征与其它多个客户样本的历史行为特征的相关性。
结合第一方面,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述历史行为特征包括:车辆状态特征、消费情况特征和行驶轨迹特征。
第二方面,本申请实施例还提供一种数据处理装置,包括:
获取模块,用于获取多个客户样本的历史行为特征;
分箱模块,用于将多个客户样本的历史行为特征进行分箱,得到不同客户样本类型分别对应的历史行为特征。
客户流失模型,使用每种客户样本类型对应的历史行为特征作为用于训练客户流失模型的一个输入特征,每种客户样本类型对应的客户流失概率作为用于训练客户流失模型的一个输出特征,进行训练。
结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中,所述分箱模块,具体用于:
根据每个客户样本的历史行为特征对客户流失概率的影响度,和多个客户样本的历史行为特征的数量,确定每个客户样本的历史行为特征的信息增益率;
在所述信息增益率小于第二预设阈值的情况下,对对应的客户样本的历史行为特征进行等距分割。
结合第二方面,本申请实施例提供了第二方面的第三种可能的实施方式,其中,还包括:
特征筛选模块,用于在所述获取多个客户样本的历史行为特征之后,将多个客户样本的历史行为特征进行分箱之前,计算获取的每个客户样本的历史行为特征与其它多个客户样本的历史行为特征的相关性,并剔除与其它多个客户样本的历史行为特征的相关性低于第一预设阈值的客户样本的历史行为特征。特征筛选模块,用于计算获取的每个客户样本的历史行为特征与其它多个客户样本的历史行为特征的相关性,并剔除与其它多个客户样本的历史行为特征的相关性低于第一预设阈值的客户样本的历史行为特征。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面的第一种到第四种中任一种可能的实施方式中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面的第一种到第四种中任一种可能的实施方式中的步骤。
本申请实施例提供的数据处理方法、系统、客户流失模型及电子设备,对客户样本数据进行预处理,通过将多个客户样本的历史行为特征进行分箱,将模型的输入特征由每个客户样本的历史行为特征,变为一类客户样本的历史行为特征,降低了客户流失模型进行数据处理的处理量和计算复杂度,提高处理效率。同时提升客户流失模型的模型表达能力,防止客户流失模型在计算过程中出现过拟合。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种数据处理方法的流程图;
图2示出了本申请实施例所提供的一种数据处理装置的结构示意图;
图3示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是多个的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种数据处理方法进行详细介绍。
实施例一
本申请实施例一公开的方法主要应用于各个行业对客户流失模型训练和计算使用的客户样本数据,使用分箱的方法进行预处理。例如,应用于车辆行业基于迁移学习的客户流失模型中,针对基于迁移学习的客户流失模型训练和计算使用的客户样本数据,使用分箱的方法进行预处理。
在对客户流失概率进行计算时,基于迁移学习的方法对客户流失模型进行训练。具体包括:
将多个客户样本的历史行为特征作为用于训练客户流失模型的一个输入特征,将多个客户样本对应的客户流失概率作为用于训练客户流失模型的一个输出特征,训练第一客户流失模型;这里的多个客户样本,包括关注的客户样本和不关注的客户样本;
将第一客户流失模型作为隐藏层,将关注的客户样本的历史行为特征作为用于训练客户流失模型的一个输入特征,将关注的客户样本对应的客户流失概率作为用于训练客户流失模型的一个输出特征,训练第二客户流失模型;
在使用时,利用第二客户流失模型,根据一定时段内待预测的客户行为特征进行计算,得到客户流失概率。
基于迁移学习的客户流失模型可以提升客户流失概率的计算准确率。而由于基于迁移学习的客户流失模型,在对客户流失模型进行训练时使用的客户样本,包括关注的客户样本和不关注的客户样本,客户样本的量较大,且有些客户样本与关注的客户样本相关性不大,进行数据处理的复杂度比较高,导致处理效率较低。因此使用分箱的方法,对客户样本的历史行为特征进行数据预处理操作。
如图1所示,本申请实施例一公开的一种数据处理方法包括如下步骤:
S101:获取多个客户样本的历史行为特征。
具体的,例如应用于车辆行业基于迁移学习的客户流失模型中时,上述所述历史行为特征包括:车辆状态特征、消费情况特征和行驶轨迹特征。
S102:将多个客户样本的历史行为特征进行分箱,得到不同客户样本类型分别对应的历史行为特征。
这里,在获取多个客户样本的历史行为特征之后,将多个客户样本的历史行为特征进行分箱之前,还包括:
计算获取的每个客户样本的历史行为特征与其它多个客户样本的历史行为特征的相关性;剔除与其它多个客户样本的历史行为特征的相关性低于第一预设阈值的客户样本的历史行为特征。
这里,根据以下步骤计算获取的每个客户样本的历史行为特征与其它多个客户样本的历史行为特征的相关性:
根据获取的多个客户样本的历史行为特征的数量,和每个客户样本的历史行为特征与客户流失概率之间的关系类型,确定回归方程;利用所述回归方程,计算获取的每个客户样本的历史行为特征与其它多个客户样本的历史行为特征的相关性。
这里,相关性也可以用显著性水平这一参数表征。在使用显著性水平表征相关性时,计算获取的每个客户样本的历史行为特征与其它多个客户样本的历史行为特征的显著性水平;剔除与其它多个客户样本的历史行为特征的显著性水平大于第一预设阈值的客户样本的历史行为特征。
S103:将每种客户样本类型对应的历史行为特征作为用于训练客户流失模型的一个输入特征,将每种客户样本类型对应的客户流失概率作为用于训练客户流失模型的一个输出特征,训练所述客户流失模型。
这里,将多个客户样本的历史行为特征进行分箱,包括:根据每个客户样本的历史行为特征对客户流失概率的影响度,和多个客户样本的历史行为特征的数量,确定每个客户样本的历史行为特征的信息增益率;在所述信息增益率小于第二预设阈值的情况下,对对应的客户样本的历史行为特征进行等距分割。
具体的,例如应用于车辆行业基于迁移学习的客户流失模型中时,使用任一种最优分割的方法,例如决策树算法,对多个客户样本的历史行为特征进行分箱。并且根据每个客户样本的历史行为特征对客户流失概率的影响度,和多个客户样本的历史行为特征的数量,确定每个客户样本的历史行为特征的信息增益率;在所述信息增益率小于第二预设阈值的情况下,对对应的客户样本的历史行为特征进行等距分割。
这里,利用训练后的客户流失模型,根据一定时段内待预测的客户行为特征进行计算,得到客户流失概率。
基于相同的技术构思,本申请实施例还提供一种数据处理装置、电子设备、以及计算机存储介质等,具体可参见以下实施例。
实施例二
如图2所示,是本申请实施例二公开的一种数据处理装置200,包括:
获取模块201,用于获取多个客户样本的历史行为特征。
这里,还包括特征筛选模块,用于在获取多个客户样本的历史行为特征之后,将多个客户样本的历史行为特征进行分箱之前,计算获取的每个客户样本的历史行为特征与其它多个客户样本的历史行为特征的相关性,并剔除与其它多个客户样本的历史行为特征的相关性低于第一预设阈值的客户样本的历史行为特征。
这里,根据以下步骤计算获取的每个客户样本的历史行为特征与其它多个客户样本的历史行为特征的相关性:
根据获取的多个客户样本的历史行为特征的数量,和每个客户样本的历史行为特征与客户流失概率之间的关系类型,确定回归方程;利用所述回归方程,计算获取的每个客户样本的历史行为特征与其它多个客户样本的历史行为特征的相关性。
这里,相关性也可以用显著性水平这一参数表征。计算获取的每个客户样本的历史行为特征与其它多个客户样本的历史行为特征的显著性水平;剔除与其它多个客户样本的历史行为特征的显著性水平大于第一预设阈值的客户样本的历史行为特征。
分箱模块202,用于将多个客户样本的历史行为特征进行分箱,得到不同客户样本类型分别对应的历史行为特征。
这里,分箱模块202具体用于:根据每个客户样本的历史行为特征对客户流失概率的影响度,和多个客户样本的历史行为特征的数量,确定每个客户样本的历史行为特征的信息增益率;在所述信息增益率小于第二预设阈值的情况下,对对应的客户样本的历史行为特征进行等距分割。
具体的,例如应用于车辆行业基于迁移学习的客户流失模型中时,使用任一种最优分割的方法,例如决策树算法,对多个客户样本的历史行为特征进行分箱。并且根据每个客户样本的历史行为特征对客户流失概率的影响度,和多个客户样本的历史行为特征的数量,确定每个客户样本的历史行为特征的信息增益率;在所述信息增益率小于第二预设阈值的情况下,对对应的客户样本的历史行为特征进行等距分割。
客户流失模型203,使用每种客户样本类型对应的历史行为特征作为用于训练客户流失模型的一个输入特征,每种客户样本类型对应的客户流失概率作为用于训练客户流失模型的一个输出特征,进行训练。
这里,训练后的客户流失模型根据一定时段内待预测的客户行为特征进行计算,得到客户流失概率。
实施例三
图3示出了本申请实施例所提供的一种电子设备300,包括处理器301,存储器302,总线303,所述处理器301和存储器302通过总线303连接;处理器301用于执行存储器302中存储的可执行模块,例如计算机程序。
其中,存储器302可能包含高速随机存取存储器(Random Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
总线303可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component Interconnect,PCI)总线或扩充工业标准总结结构(Extended Industry Standard Architecture,EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器302用于存储程序,所述处理器301在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器301中,或者由处理器301实现。
处理器301可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器301中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器301可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器302,处理器301读取存储器302中的信息,结合其硬件完成上述方法的步骤。
本发明实施例提供的一种数据处理装置及电子设备,与上述实施例提供的一种数据处理方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
实施例四
本实施例公开了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述一种数据处理方法中的步骤。
本申请实施例还提供了一种数据处理方法的计算机程序产品,其包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者多个单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的多个或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取多个客户样本的历史行为特征;
将多个客户样本的历史行为特征进行分箱,得到不同客户样本类型分别对应的历史行为特征;
将每种客户样本类型对应的历史行为特征作为用于训练客户流失模型的一个输入特征,将每种客户样本类型对应的客户流失概率作为用于训练客户流失模型的一个输出特征,训练所述客户流失模型。
2.根据权利要求1所述的方法,其特征在于,获取多个客户样本的历史行为特征之后,将多个客户样本的历史行为特征进行分箱之前,还包括:
计算获取的每个客户样本的历史行为特征与其它多个客户样本的历史行为特征的相关性;
剔除与其它多个客户样本的历史行为特征的相关性低于第一预设阈值的客户样本的历史行为特征。
3.根据权利要求1所述的方法,其特征在于,所述将多个客户样本的历史行为特征进行分箱,包括:
根据每个客户样本的历史行为特征对客户流失概率的影响度,和多个客户样本的历史行为特征的数量,确定每个客户样本的历史行为特征的信息增益率;
在所述信息增益率小于第二预设阈值的情况下,对对应的客户样本的历史行为特征进行等距分割。
4.根据权利要求2所述的方法,其特征在于,根据以下步骤计算获取的每个客户样本的历史行为特征与其它多个客户样本的历史行为特征的相关性:
根据获取的多个客户样本的历史行为特征的数量,和每个客户样本的历史行为特征与客户流失概率之间的关系类型,确定回归方程;
利用所述回归方程,计算获取的每个客户样本的历史行为特征与其它多个客户样本的历史行为特征的相关性。
5.根据权利要求1所述的方法,其特征在于,所述历史行为特征包括:车辆状态特征、消费情况特征和行驶轨迹特征。
6.一种数据处理装置,其特征在于,包括:
获取模块,用于获取多个客户样本的历史行为特征和每种历史行为特征对应的客户流失概率;
分箱模块,用于将多个客户样本的历史行为特征进行分箱,得到不同客户样本类型分别对应的历史行为特征;
客户流失模型,使用每种客户样本类型对应的历史行为特征作为用于训练客户流失模型的一个输入特征,每种客户样本类型对应的客户流失概率作为用于训练客户流失模型的一个输出特征,进行训练。
7.根据权利要求6所述的装置,其特征在于,所述分箱模块,具体用于:
根据每个客户样本的历史行为特征对客户流失概率的影响度,和多个客户样本的历史行为特征的数量,确定每个客户样本的历史行为特征的信息增益率;
在所述信息增益率小于第二预设阈值的情况下,对对应的客户样本的历史行为特征进行等距分割。
8.根据权利要求6所述的装置,其特征在于,还包括:
特征筛选模块,用于在所述获取多个客户样本的历史行为特征之后,将多个客户样本的历史行为特征进行分箱之前,计算获取的每个客户样本的历史行为特征与其它多个客户样本的历史行为特征的相关性,并剔除与其它多个客户样本的历史行为特征的相关性低于第一预设阈值的客户样本的历史行为特征。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至5任一所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至5任一所述的方法的步骤。
CN201811446323.8A 2018-11-29 2018-11-29 数据处理方法、装置、电子设备及计算机可读存储介质 Pending CN109559172A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811446323.8A CN109559172A (zh) 2018-11-29 2018-11-29 数据处理方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811446323.8A CN109559172A (zh) 2018-11-29 2018-11-29 数据处理方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109559172A true CN109559172A (zh) 2019-04-02

Family

ID=65867881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811446323.8A Pending CN109559172A (zh) 2018-11-29 2018-11-29 数据处理方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109559172A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833086A (zh) * 2019-04-22 2020-10-27 百度在线网络技术(北京)有限公司 账户分类模型训练方法及装置和账户分类方法及装置
CN112669073A (zh) * 2020-12-31 2021-04-16 北京嘀嘀无限科技发展有限公司 一种用户留存预测方法、装置、电子设备及存储介质
CN112819245A (zh) * 2021-02-24 2021-05-18 阳光保险集团股份有限公司 用户投诉行为预测方法、装置、设备及存储介质
CN112884515A (zh) * 2021-02-22 2021-06-01 上海汽车集团股份有限公司 用户流失的预测方法、装置及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106875225A (zh) * 2017-02-24 2017-06-20 泰康保险集团股份有限公司 用于客户服务的方法及装置
CN107358247A (zh) * 2017-04-18 2017-11-17 阿里巴巴集团控股有限公司 一种确定流失用户的方法及装置
CN107609583A (zh) * 2017-09-05 2018-01-19 深圳乐信软件技术有限公司 分类模型的参数优化方法、装置、计算机设备及存储介质
CN108510096A (zh) * 2017-02-24 2018-09-07 百度在线网络技术(北京)有限公司 商户流失预测方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106875225A (zh) * 2017-02-24 2017-06-20 泰康保险集团股份有限公司 用于客户服务的方法及装置
CN108510096A (zh) * 2017-02-24 2018-09-07 百度在线网络技术(北京)有限公司 商户流失预测方法、装置、设备及存储介质
CN107358247A (zh) * 2017-04-18 2017-11-17 阿里巴巴集团控股有限公司 一种确定流失用户的方法及装置
CN107609583A (zh) * 2017-09-05 2018-01-19 深圳乐信软件技术有限公司 分类模型的参数优化方法、装置、计算机设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833086A (zh) * 2019-04-22 2020-10-27 百度在线网络技术(北京)有限公司 账户分类模型训练方法及装置和账户分类方法及装置
CN111833086B (zh) * 2019-04-22 2024-04-23 百度在线网络技术(北京)有限公司 账户分类模型训练方法及装置和账户分类方法及装置
CN112669073A (zh) * 2020-12-31 2021-04-16 北京嘀嘀无限科技发展有限公司 一种用户留存预测方法、装置、电子设备及存储介质
CN112884515A (zh) * 2021-02-22 2021-06-01 上海汽车集团股份有限公司 用户流失的预测方法、装置及计算机存储介质
CN112819245A (zh) * 2021-02-24 2021-05-18 阳光保险集团股份有限公司 用户投诉行为预测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109559172A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN109948669B (zh) 一种异常数据检测方法及装置
US11537840B2 (en) Method, system, and computer program product to employ a multi-layered neural network for classification
CN108595585B (zh) 样本数据分类方法、模型训练方法、电子设备及存储介质
US8756174B2 (en) Forward feature selection for support vector machines
EP3792840A1 (en) Neural network method and apparatus
CN107918905A (zh) 异常交易识别方法、装置及服务器
CN110211119B (zh) 图像质量评估方法、装置、电子设备及可读存储介质
US11847546B2 (en) Automatic data preprocessing
TWI710970B (zh) 無監督模型評估方法、裝置、伺服器及可讀儲存媒體
CN109753498A (zh) 基于机器学习的数据清洗方法及终端设备
US10387800B2 (en) System and methods for generating reason codes for ensemble computer models
US20210158168A1 (en) Performing Inference and Training Using Sparse Neural Network
CN111401339A (zh) 识别人脸图像中的人的年龄的方法、装置及电子设备
CN109787958A (zh) 网络流量实时检测方法及检测终端、计算机可读存储介质
CN113592593A (zh) 序列推荐模型的训练及应用方法、装置、设备及存储介质
CN111159481A (zh) 图数据的边预测方法、装置及终端设备
CN114048816B (zh) 一种图神经网络数据采样方法、装置、设备及存储介质
CN103366013A (zh) 一种数据处理的方法及服务器
CN114330697A (zh) 一种基于随机电阻阵列的储备池计算模型的硬件实现方法、装置及电子设备
CN113362139A (zh) 基于双塔结构模型的数据处理方法和装置
US10776923B2 (en) Segmenting irregular shapes in images using deep region growing
CN113822390B (zh) 用户画像构建方法、装置、电子设备和存储介质
CN111858267A (zh) 预警方法、装置、电子设备及存储介质
CN108062709B (zh) 基于半监督学习的用户行为预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 1601-35, No.8, second financial street, Wuxi Economic Development Zone, Wuxi City, Jiangsu Province, 214000

Applicant after: Wuxi cheliantianxia Information Technology Co.,Ltd.

Address before: Room a-0465, 2 / F, building 3, yard 30, Shixing street, Shijingshan District, Beijing

Applicant before: BEIJING AUTO-LINK WORLD INFORMATION TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190402