CN117952232A - 数据处理方法、装置、电子设备及存储介质 - Google Patents
数据处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117952232A CN117952232A CN202311204260.6A CN202311204260A CN117952232A CN 117952232 A CN117952232 A CN 117952232A CN 202311204260 A CN202311204260 A CN 202311204260A CN 117952232 A CN117952232 A CN 117952232A
- Authority
- CN
- China
- Prior art keywords
- data
- prediction vector
- sample
- target processing
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 38
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 256
- 238000012545 processing Methods 0.000 claims abstract description 151
- 238000012549 training Methods 0.000 claims abstract description 63
- 238000000034 method Methods 0.000 claims abstract description 38
- 239000011159 matrix material Substances 0.000 claims description 89
- 230000006399 behavior Effects 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 23
- 239000000523 sample Substances 0.000 claims 13
- 239000000758 substrate Substances 0.000 claims 2
- 230000003542 behavioural effect Effects 0.000 description 16
- 238000003066 decision tree Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 238000012360 testing method Methods 0.000 description 10
- 238000003058 natural language processing Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000005611 electricity Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000010998 test method Methods 0.000 description 2
- 238000011277 treatment modality Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Medical Informatics (AREA)
- General Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种数据处理方法、装置、电子设备及存储介质;方法包括:获取第一样本的第一特征数据;将所述第一特征数据输入第一模型,得到所述第一样本对应的预测向量,其中,所述第一模型是通过第二样本的第二特征数据训练得到;根据所述第一样本的实际分流方式,将所述预测向量分别划分到目标处理组和非目标处理组中;从所述目标处理组和所述非目标处理组中选取目标预测向量对,其中,所述目标预测向量对包括的两个预测向量之间的欧式距离小于预设值。通过本申请,能够从不同质的数据中筛选出同质数据,用于分流模型的训练。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
电销客户分流是一种关键的业务流程,旨在将来自不同渠道的客户转接给适当的处理方式,通常是分配给人工客服或者人工智能(AI,Artificial Intelligence)系统。通过正确地分流客户,可以提高客户满意度、增加销售机会,并提高业务效率。也就是说,在电销行业中,分流决策的准确性和效率对于实现上述目标至关重要。
发明内容
本申请实施例提供一种数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够从不同质的数据中筛选出同质数据,用于分流模型的训练。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种数据处理方法,包括:
获取第一样本的第一特征数据;
将所述第一特征数据输入第一模型,得到所述第一样本对应的预测向量,其中,所述第一模型是通过第二样本的第二特征数据训练得到;
根据所述第一样本的实际分流方式,将所述预测向量分别划分到目标处理组和非目标处理组中;
从所述目标处理组和所述非目标处理组中选取目标预测向量对,其中,所述目标预测向量对包括的两个预测向量之间的欧式距离小于预设值。
本申请实施例提供一种数据处理装置,包括:
获取模块,用于获取第一样本的第一特征数据;
预测模块,用于将所述第一特征数据输入第一模型,得到所述第一样本对应的预测向量,其中,所述第一模型是通过第二样本的第二特征数据训练得到;
分流模块,用于根据所述第一样本的实际分流方式,将所述预测向量分别划分到目标处理组和非目标处理组中;
选取模块,用于从所述目标处理组和所述非目标处理组中选取目标预测向量对,其中,所述目标预测向量对包括的两个预测向量之间的欧式距离小于预设值。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的数据处理方法。
本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于被处理器执行时,实现本申请实施例提供的数据处理方法。
本申请实施例提供一种计算机程序产品,包括计算机程序或计算机可执行指令,用于被处理器执行时,实现本申请实施例提供的数据处理方法。
本申请实施例具有以下有益效果:
首先基于第一样本的第一特征数据,调用训练后的第一模型进行预测,得到第一样本对应的预测向量,接着根据第一样本的实际分流方式,将多个预测向量分别划分到目标处理组和非目标处理组中,最后可以从目标处理组和非目标处理组中选取出目标预测向量对,其中,目标预测向量对包括的两个预测向量之间的欧式距离小于预设值,也就是说,由于最终选取出的目标预测向量对中的两个预测向量之间的欧式距离是小于预设值的,则可以认为这两个预测向量所对应的两个第一样本在分流方式的分布上是一致的,即这两个预测向量对应的两个第一样本是同质数据,如此,实现了从不同质的数据中筛选出同质数据,以用于分流模型的训练。
附图说明
图1是本申请实施例提供的数据处理系统100的架构示意图;
图2是本申请实施例提供的服务器200的结构示意图;
图3是本申请实施例提供的数据处理方法的应用场景示意图;
图4是本申请实施例提供的数据处理方法的流程示意图;
图5是本申请实施例提供的数据处理方法的流程示意图;
图6是本申请实施例提供的数据处理方法的流程示意图;
图7是本申请实施例提供的数据处理方法的流程示意图;
图8是本申请实施例提供的第二特征矩阵和标签向量示意图;
图9是本申请实施例提供的预测向量的计算过程示意图;
图10是本申请实施例提供的数据处理过程示意图;
图11是本申请实施例提供的数据处理方法的软件架构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
可以理解的是,在本申请实施例中,涉及到用户信息等相关的数据(例如用户的画像数据、行为数据、账务数据和营销数据等),当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
在以下的描述中,所涉及的术语“第一\第二\...”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\...”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)梯度提升决策树(GBDT,Gradient Boosting Decision Tree):是一种迭代的决策树算法,该算法由多颗决策树组成,所有树的结论累加起来作为最终答案。GBDT用来做回归预测,调整后也可以用于分类。
2)电销:即电话销售(telemarketing),是指利用电话接线员来吸引新顾客和联系老客户,以确定他们的满意程度或能否接受订单。就日常的接受订单而言,它被称为电话销售。
3)自然语言处理(NLP,Natural Language Processing):是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言。随着NLP技术的发展,出现了机器人营销,例如可以通过机器人来吸引新顾客或者联系老客户。
当前,主流的分流技术是模型分流。而训练这类分流模型,相关技术主要依赖于A/B测试的方式。A/B测试通过将客户随机分为两组,其中一组由人工客服处理,另一组由AI系统处理,然后用两组的数据来训练分流模型。A/B测试的方法获取的数据,一般拥有较好的数据同质性,不易受到潜在偏差的影响。但是,针对一些特殊的场景,这种方法就不具备可行性。例如,通过其他途径已经确定客户分流是有非常好的效果,这时候就需要在没有A/B测试数据的场景下训练分流模型。
鉴于此,本申请实施例提供一种数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够从不同质的数据中筛选出同质数据,用于分流模型的训练。下面对本申请实施例提供的电子设备进行说明。本申请实施例提供的电子设备可以实施为服务器,或者实施为终端设备,又或者由服务器和终端设备协同实施。下面以由服务器单独实施本申请实施例提供的数据处理方法为例进行说明。
示例的,参见图1,图1是本申请实施例提供的数据处理系统100的架构示意图,为实现支撑从不同质的数据中筛选出同质数据的应用,如图1所示,数据处理系统100包括:服务器200、网络300、终端设备400和数据库500,其中,网络300可以是局域网或者广域网,又或者是二者的组合。
在一些实施例中,服务器200可以首先从数据库500中获取第一样本的第一特征数据,接着服务器200可以将第一特征数据输入第一模型,得到第一样本对应的预测向量,其中,第一模型可以是服务器200通过第二样本的第二特征数据训练得到;随后服务器200可以根据第一样本的实际分流方式,将预测向量分别划分到目标处理组和非目标处理组中。最后,服务器200可以从目标处理组和非目标处理组中选取目标预测向量对,其中,目标预测向量对包括的两个预测向量之间的欧式距离小于预设值。在得到目标预测向量对之后,服务器200可以将目标预测向量对包括的两个预测向量分别对应的两个第一样本作为训练数据,训练分流模型,如此,当服务器200后续接收到终端设备400发送的请求时,可以基于终端设备400关联的用户的特征数据,调用训练后的分流模型对用户进行分流,从而可以获得更好的增益,例如可以提升业绩。
在另一些实施例中,本申请实施例还可以借助于云技术(Cloud Technology)实现,云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源。
示例的,图1中的服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,ContentDelivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等,但并不局限于此。终端设备400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
下面继续对本申请实施例提供的电子设备的结构进行说明。以电子设备为图1中示出的服务器200为例,参见图2,图2是本申请实施例提供的服务器200的结构示意图,图2所示的服务器200包括:至少一个处理器210、存储器240、至少一个网络接口220。服务器200中的各个组件通过总线系统230耦合在一起。可理解,总线系统230用于实现这些组件之间的连接通信。总线系统230除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统230。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器240可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器240可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器240包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器240旨在包括任意适合类型的存储器。
在一些实施例中,存储器240能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统241,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块242,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图2示出了存储在存储器240中的数据处理装置243,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块2431、预测模块2432、划分模块2433、选取模块2434、确定模块2435、训练模块2436和删除模块2437,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。需要指出的是,在图2中为了方便表达,一次性示出了上述所有模块,但是不应视为在数据处理装置243排除了可以只包括获取模块2431、预测模块2432、划分模块2433和选取模块2434的实施,将在下文中说明各个模块的功能。
下面将结合本申请实施例提供的服务器的示例性应用和实施,对本申请实施例提供的数据处理方法进行具体说明。
在对本申请实施例提供的数据处理方法进行说明之前,首先对本申请实施例提供的数据处理方法的应用场景进行介绍。
示例的,参见图3,图3是本申请实施例提供的数据处理方法的应用场景示意图,如图3所示,服务器可以首先获取第一样本的第一特征数据,并将第一特征数据输入第一模型,得到第一样本对应的预测向量;接着服务器可以根据第一样本的实际分流方式,将多个预测向量分别划分到目标处理组和非目标处理组中;随后服务器可以从目标处理组和非目标处理组中选取目标预测向量对,其中,目标预测向量对包括的两个预测向量之间的欧式距离小于预设值;最后,服务器可以将目标预测向量对包括的两个预测向量分别对应的第一样本加入训练集中,以作为用于训练分流模型的训练数据。最后,服务器可以根据所获取的训练数据训练分流模型,如此,当服务器后续接收到终端设备发送的请求时,可以基于终端设备关联的用户的特征数据(例如包括用户的画像数据、行为数据、账务数据等),调用训练后的分类模型对用户进行分流,得到分流结果,例如可以根据分流结果将用户分配给人工进行电销,从而可以获得更好的增益效果。
下面将结合图4对本申请实施例提供的数据处理方法进行具体说明。
示例的,参见图4,图4是本申请实施例提供的数据处理方法的流程示意图,将结合图4示出的步骤进行说明。
在步骤101中,获取第一样本的第一特征数据。
这里,第一样本可以是指位于第一时间窗口内的样本,第一特征数据可以包括画像数据(例如包括用户的年龄、性别、民族、职业、家庭状况、收入、婚姻等)、行为数据(指用户主动发起的登录行为、借贷行为、还款行为、电话咨询行为等)、账务数据(指用户账务信息,例如包括提额、降价、可用余额等)和分流数据,例如营销数据(指由公司发起的营销行为数据,例如包括推送、短信、电销等)等。
在步骤102中,将第一特征数据输入第一模型,得到第一样本对应的预测向量。
这里,第一模型是通过第二样本的第二特征数据训练得到的,其中,第二样本可以是指位于第二时间窗口内的样本。
在一些实施例中,在执行步骤102之前,可以首先配置相关的数据库接入方式和欲构建的训练数据的时间范围,例如可以选择4月和5月的历史数据作为分流模型的训练数据来源。举例来说,本申请实施例可以以设定时长(例如1天)作为时间窗口,从4月1日到5月31日进行遍历,将遍历得到的当前日期作为第二时间窗口,并以当前日期的第二天作为第一时间窗口,例如假设遍历得到的当前日期为4月1日,则可以将4月1日作为第二时间窗口,将4月2日作为第一时间窗口;类似的,假设遍历得到的当前日期为4月3日,则可以将4月3日作为第二时间窗口,将4月4日作为第一时间窗口,以此类推,直至遍历到5月30日,例如可以将5月30日作为第二时间窗口,将5月31日作为第一时间窗口。
需要说明的是,本申请实施例中时间窗口的选取可以跟业务场景相关。两次时间窗口的数据应该拥有相同的营销策略和人群分布。在实际实施时,营销策略一般是以月为单位,而人群分布在临近的时间内变化很小,所以,两个时间窗口需要临近,例如可以将6月1日到3日作为第二时间窗口,那么可以将6月4日到6日作为第一时间窗口,本申请实施例对此不做具体限定。
此外,还需要说明的是,本申请实施例中的第一样本可以是指位于第一时间窗口内的样本,例如第一时间窗口内的多个第一样本的第一特征数据可以是第一时间窗口(例如4月1日)内的多个客户分别对应的画像数据(包括年龄、性别、民族、职业、家庭状况、收入、婚姻等)、行为数据(指客户主动发起的登录行为、借贷行为、还款行为、电话咨询行为等)、账务数据(指客户账务信息,例如包括提额、降价、可用余额等)和分流数据,例如营销数据(指由公司发起的营销行为数据,例如包括推送、短信、电销等)等;第二样本可以是指位于第二时间窗口内的样本,例如第二时间窗口内的多个第二样本的第二特征数据可以是第二时间窗口(例如4月2日)内的多个客户分别对应的画像数据、行为数据、账务数据和营销数据等。也就是说,第一时间窗口内的多个第一样本与第二时间窗口内的多个第二样本可以是部分相同的,也可以是完全不同的,本申请实施例对此不做具体限定。
在一些实施例中,可以通过以下方式实现上述的步骤102:根据第一特征数据确定第一特征矩阵;将第一特征矩阵输入第一模型,得到第一样本对应的预测向量。
示例的,第一特征矩阵可以包括多个特征值,则可以通过以下方式中的任意一种,将第一特征数据加工成第一特征矩阵:将第一特征数据直接作为第一特征矩阵包括的特征值;对第一特征数据进行编码,将得到的编码数据作为第一特征矩阵包括的特征值;对第一特征数据进行缩放,将缩放后的第一特征数据作为第一特征矩阵包括的特征值;对第一特征数据进行统计,将得到的统计值作为第一特征矩阵包括的特征值;对第一样本的多个第一特征数据进行组合,将得到的组合数据作为第一特征矩阵包括的特征值。
举例来说,在获取到第一样本的第一特征数据(例如包括用户的画像数据、行为数据、账务数据和营销数据等)之后,可以将第一特征数据加工成如图9所示的第一特征矩阵;接着可以将第一特征矩阵输入训练后的第一模型,得到每个第一样本分别对应的预测向量,其中,多个第一样本一一对应的多个预测向量可以组成如图9所示的预测向量矩阵。例如以多个第一样本中的样本1为例,第一模型输出的样本1对应的预测向量可以为[0.1,0.7,0.2],也就是说,根据分流需求,预测向量可以由3个数字组成,其中,第一个数字“0.1”表示不对样本1进行电销的概率为10%,第二个数字“0.7”表示由机器人对样本1进行电销的概率为70%,第三个数字“0.2”表示由人工对样本1进行电销的概率为20%。
在另一些实施例中,上述的第一模型可以是梯度提升决策树模型,第二特征数据可以包括画像数据、行为数据、账务数据和分流数据(例如营销数据),参见图5,图5是本申请实施例提供的数据处理方法的流程示意图,如图5所示,在执行图4示出的步骤102之前,还可以执行图5示出的步骤105至步骤107,将结合图5示出的步骤进行说明。
在步骤105中,根据画像数据、行为数据、账务数据和分流数据确定第二特征矩阵。
在一些实施例中,在获取到第二时间窗口内的多个第二样本(例如客户)分别对应的画像数据、行为数据、账务数据和分流数据(例如营销数据)之后,可以将多个第二样本分别对应的画像数据、行为数据、账务数据和营销数据加工成如图8所示的第二特征矩阵,其中,将多个第二样本(例如4月1日的客户)分别对应的画像数据、行为数据、账务数据和营销数据加工成第二特征矩阵包括下述几种加工类型:1)直接引用:即第二特征矩阵直接引用原始数据,例如假设原始数据中年龄为30,则对于年龄不做处理,直接引用30作为第二特征矩阵的特征值;2)重编码:即第二特征矩阵对原始数据进行重新编码,例如假设原始数据中性别为“M”和“F”两种类型,则可以将“M”编码成1,将“F”编码成“0”,即在第二特征矩阵中使用0来表示“F”,使用1来表示“M”;3)数值缩放:即第二特征矩阵对原始数据进行缩放,例如假设原始数据中的月收入为5000,则在第二特征矩阵中可以使用5000/1000=5来进行替换;4)数值统计:即第二特征矩阵使用原始数据在一段时间窗口内的统计值作为特征,例如可以是客户一个月内的登录次数,或者是最近一次登录距今时间;5)特征交叉:即使用多个原始特征组合在一起,创建新的特征,以便更好地捕捉特征之间的关联和交叉作用。通过特征交叉,可以引入更高阶、更复杂的特征表示,从而可以提供更丰富的信息来解释数据,例如可以是近1个月的登录次数比上近3个月的登录次数这种环比数据。
在步骤106中,根据分流数据确定标签向量。
这里,标签向量可以包括多个标签值,其中,标签值与第二样本一一对应,且每个标签值用于表征所对应的第二样本的实际分流方式(例如针对第二样本的营销方式,包括人工电销和非人工电销等)。
在一些实施例中,以电销场景为例,可以通过以下方式实现步骤106:例如以多个第二样本中的样本1(例如用户A)为例,可以从用户A对应的营销数据中获取在第二时间窗口(例如4月1日)内针对用户A的营销方式,并根据分流需求进行编码,得到样本1对应的标签值,例如以电销用户分流场景为例,可以根据用户的响应情况,将用户分为人工营销组和非人工营销组,其中,非人工营销组又可以进一步分为机器人电销和不进行电销。假设在第二时间窗口内未对用户A进行电销,则可以将用户A对应的标签值确定为0,表示该样本未进行电销;假设在第二时间窗口内是由机器人对用户A进行电销的,则可以将用户A对应的标签值确定为1,表示该样本是由机器人进行电销的;假设在第二时间窗口内是由人工对用户A进行电销的,则可以将用户A对应的标签值确定为2,表示该样本是由人工进行电销的。在得到多个第二样本一一对应的多个标签值之后,可以将多个标签值组合成如图8所示的标签向量。
在步骤107中,通过第二特征矩阵和标签向量训练得到第一模型。
在一些实施例中,可以通过以下方式实现步骤107:将第二特征矩阵输入初始第一模型,得到预测向量矩阵,其中,预测向量矩阵包括多个预测向量,且预测向量与第二样本一一对应;确定预测向量矩阵与标签向量之间的差异,并基于差异更新初始第一模型的参数,得到第一模型。
在另一些实施例中,可以通过以下方式实现上述的确定预测向量矩阵与标签向量之间的差异:确定预测向量矩阵中的每个预测向量与标签向量中对应的标签值之间的差异。例如以多个第二样本中的样本1为例,可以确定样本1对应的预测向量与样本1对应的标签值之间的差异。
示例的,以第一模型为采用基于直方图的决策树为基模型的梯度提升决策树模型为例,在训练阶段,可以将第二特征矩阵(即多个第二样本分别对应的特征信息,通常是一个二维矩阵,行表示样本,列表示特征)作为初始化的梯度提升决策树模型的输入,以使梯度提升决策树模型输出每个第二样本分别对应的预测向量,接着可以计算由多个第二样本一一对应的多个预测向量组成的预测向量矩阵与标签向量之间的差异,并基于差异利用反向传播和正向传播算法,逐层更新梯度提升决策树模型的参数,从而得到训练后的梯度提升决策树模型。
在步骤103中,根据第一样本的实际分流方式,将预测向量分别划分到目标处理组和非目标处理组中。
在一些实施例中,实际分流方式可以包括第一分流方式(例如人工电销)和第二分流方式(例如非人工电销),则可以通过以下方式实现步骤103:若实际分流方式为第一分流方式,则将预测向量划分到目标处理组中;若实际分流方式为第二分流方式,则将预测向量划分到非目标处理组中。
示例的,在将第一特征矩阵输入训练后的第一模型,得到每个第一样本分别对应的预测向量之后,可以获取目标分流场景的标签。例如,以目标分流场景为人工电销还是非人工电销为例,本申请实施例可以将人工电销记为1,将非人工电销记为0,根据第一样本的实际分流方式,对预测向量进行分组,其中,0为非目标处理组,1为目标处理组。例如,以多个第一样本中的样本1为例,当从样本1的营销数据中获取到样本1是由人工进行电销(即属于第一分流方式)时,可以将样本1对应的预测向量划分到目标处理组中,类似的,对于多个第一样本中的样本2,当从样本2的营销数据中获取到样本2是由非人工进行电销(即属于第二分流方式)时,可以将样本2对应的预测向量划分到非目标处理组中。以此类推,直至将多个第一样本一一对应的多个预测向量均划分到目标处理组和非目标处理组中。
在步骤104中,从目标处理组和非目标处理组中选取目标预测向量对。
这里,目标预测向量对包括的两个预测向量之间的欧式距离小于预设值。
在一些实施例中,预测向量可以包括第一预测向量和第二预测向量,其中,第一预测向量为目标处理组中的预测向量,第二预测向量为非目标处理组中的预测向量,参见图6,图6是本申请实施例提供的数据处理方法的流程示意图,如图6所示,图4示出的步骤104可以通过图6示出的步骤1041和步骤1042实现,将结合图6示出的步骤进行说明。
在步骤1041中,针对每个第一预测向量,遍历非目标处理组。
在一些实施例中,可以将被划分到目标处理组中的预测向量作为第一预测向量,并将被划分到非目标处理组中的预测向量作为第二预测向量,假设目标处理组中包括10个预测向量,假设分别为预测向量1至预测向量10,非目标处理组中包括15个预测向量,假设分别为预测向量11至预测向量25,以第一预测向量为目标处理组中的预测向量1为例,可以遍历非目标处理组,依次计算预测向量1与非目标处理组中的预测向量11至预测向量25之间的欧式距离。
在步骤1042中,若在非目标处理组中存在与第一预测向量之间的欧式距离小于预设值的第二预测向量的情况下,则将第一预测向量和第二预测向量确定为目标预测向量对。
在一些实施例中,承接上述示例,在依次计算出目标处理组中的预测向量1(例如样本1对应的预测向量)与非目标处理组中的预测向量11至预测向量25之间的欧式距离后,可以判断非目标处理组中是否存在与预测向量1之间的欧式距离小于预设值的预测向量,例如假设非目标处理组中的预测向量15(例如样本15对应的预测向量)与目标处理组中的预测向量1之间的欧式距离小于预设值,说明样本1和样本15是同质数据,例如两者在营销方式上同质,则可以从目标处理组中选取预测向量1、以及从非目标处理组中选取预测向量15,以作为目标预测向量对。
在一些实施例中,承接上述示例,在从非目标处理组中确定目标预测向量对中的第二预测向量之后,还可以执行以下处理:将该第二预测向量从非目标处理组中删除。
示例的,承接上述示例,在从目标处理组中选取样本1对应的预测向量1、以及从非目标处理组中选取样本15对应的预测向量15之后,还可以将样本15对应的预测向量15从非目标处理组中删除,从而可以减少后续不必要的计算。
在另一些实施例中,在非目标处理组中不存在与该第一预测向量之间的欧式距离小于预设值的第二预测向量的情况下,还可以执行以下处理:确定目标处理组中的下一个第一预测向量与非目标处理组中的第二预测向量之间的欧式距离。
示例的,承接上文,当非目标处理组中不存在与预测向量1之间的欧式距离小于预设值的预测向量时,即不存在与样本1同质的样本时,可以继续计算目标处理组中的下一个预测向量(例如样本2对应的预测向量2)与非目标处理组中的预测向量11至预测向量25之间的欧式距离,以此类推,直至遍历完目标处理组中所有的预测向量。
在一些实施例中,在从目标处理组和非目标处理组中选取目标预测向量对之后,还可以执行以下处理:将目标预测向量对包括的两个预测向量分别对应的第一样本加入训练集中,作为用于训练分流模型的训练数据。示例的,在从目标处理组和非目标处理组中选取目标预测向量对之后,可以将所选取的目标预测向量对包括的两个预测向量所对应的第一样本加入训练集中,以作为用于训练分流模型的训练数据,如此,可以从不同质的历史数据中筛选出同质数据,用于分流模型的训练,解决了在没有特定方式的A/B测试数据的场景下获取同质的训练数据的问题。
本申请实施例提供的数据处理方法,通过获取两个时间窗口内的样本的特征数据,利用第二个时间窗口内的样本(即第二样本)的第二特征数据训练第一模型,并将第一个时间窗口内的样本(即第一样本)的第一特征数据输入第一模型,得到第一样本对应的预测向量,最后可以根据预测向量和实际分流方式选择相应的样本加入训练集中,作为用于训练分流模型的训练数据,如此,能够从不同质的历史数据中筛选出同质数据,用于分流模型的训练,解决了在没有特定方式的A/B测试数据的场景下获取同质的训练数据的问题,此外,还可以根据所获取的训练数据训练出预期的、无偏差的、高质量的分流模型,从而带来更好的增益效果。
下面,以电销分流场景为例,说明本申请实施例在一个实际的应用场景中的示例性应用。
电销客户分流是一种关键的业务流程,旨在将来自不同渠道的客户转接给适当的处理方式,通常是分配给人工客服或者AI系统。通过正确地分流客户,可以提高客户满意度、增加销售机会,并提高业务效率。也就是说,在电销行业中,分流决策的准确性和效率对于实现上述目标至关重要。
当前,主流的分流技术是模型分流。而训练这类分流模型,相关技术主要依赖于A/B测试的方式。A/B测试通过将客户随机分为两组,其中一组由人工客服处理,另一组由AI系统处理,然后用两组的数据来训练分流模型。A/B测试的方法获取的数据,一般拥有较好的数据同质性,不易受到潜在偏差的影响。但是,针对一些特殊的场景,这种方法就不具备可行性。例如,通过其他途径已经确定客户分流是有非常好的效果,这时候就需要在没有A/B测试数据的场景下训练分流模型。
鉴于此,本申请实施例提供一种数据处理方法,可以解决在没有特定方式的A/B测试数据的场景下获取同质的训练数据的问题,并且可以通过所获取的训练数据训练出预期的、无偏差的、高质量的分流模型。该分流模型能够带来更好的增益效果,例如在按照该分流模型对电销客户进行分流后,可以提升业绩。下面对本申请实施例提供的数据处理方法进行具体说明。
在一些实施例中,参见图7,图7是本申请实施例提供的数据处理方法的流程示意图,将结合图7示出的步骤进行说明。
在步骤201中,获取两个时间窗口内的客户画像数据、行为数据、账务数据和营销数据。
在一些实施例中,客户画像数据可以包括客户的年龄、性别、民族、职业、家庭状况、收入、婚姻等;行为数据可以包括由客户主动发起的登录行为、借贷行为、还款行为、电话咨询行为等;账务数据是指客户账务信息,例如包括提额、降价、可用余额等;营销数据是指由公司发起的营销行为数据,例如包括推送、短信、电销等。
在步骤202中,利用第二时间窗口内的客户画像数据、行为数据、账务数据和营销数据训练第一模型。
在一些实施例中,第一模型可以是采用基于直方图的决策树为基模型的梯度提升决策树模型,在训练阶段,第一模型接收第二特征矩阵(即训练样本的特征信息,通常是一个二维矩阵,行表示样本,列表示特征)和标签向量(行表示样本)作为输入,输出梯度。在预测阶段,第一模型接收第一特征矩阵作为输入,输出标签概率向量(每个位置处的概率值大小表示该标签的概率)。
示例的,可以将第二时间窗口内的客户画像数据、行为数据、账务数据和营销数据加工成第二特征矩阵和标签向量,并利用第二特征矩阵和标签向量训练第一模型。其中,将第二时间窗口内的客户画像数据、行为数据、账务数据和营销数据加工成第二特征矩阵包括以下几种加工类型:
直接引用:即直接引用原始数据,例如假设原始数据中年龄为28,则在第二特征矩阵中,不做处理,直接引用28作为特征。
重编码:即对原始数据进行重新编码,例如假设原始数据中性别为“M”和“F”两种类型,则在第二特征矩阵中可以使用0来表示F,用1来表示M。
数值缩放:即对原始数据进行缩放,例如假设原始数据中的月收入为3000,则在第二特征矩阵中可以使用3000/1000=3来进行替换。
数值统计:即使用原始数据在一段时间窗口内的统计值作为特征,例如:一个月登录次数、最近一次登录距今时间。
特征交叉:即使用多个原始特征组合在一起,创建新的特征,以便更好地捕捉特征之间的关联和交互作用。通过特征交叉,可以引入更高阶、更复杂的特征表示,提供更丰富的信息来解释数据。例如:近1个月的登录次数比上近3个月的登录次数这种环比数据。
此外,还可以将营销数据加工成标签向量,具体过程如下:从营销数据中获取目标时间的营销方式,并根据分流需求,进行编码,例如可以将未进行电销的客户编码成0,将机器人进行电销的客户编码成1,将人工进行电销的客户编码成2。
在步骤203中,将第一时间窗口内的客户画像数据、行为数据、账务数据和营销数据加工成第一特征矩阵,输入第一模型得到预测向量。
这里,将第一时间窗口内的客户画像数据、行为数据、账务数据和营销数据加工成第一特征矩阵的过程,与上述将第二时间窗口内的客户画像数据、行为数据、账务数据和营销数据加工成第二特征矩阵的过程是类似的,可以参考上述将第二时间窗口内的客户画像数据、行为数据、账务数据和营销数据加工成第二特征矩阵的过程实现,本申请实施例在此不做赘述。
在步骤204中,根据预测向量和实际分流方式选择相应的客户加入第一时间窗口的训练数据名单池。
在一些实施例中,可以通过以下方式实现步骤204:首先根据实际分流方式,将客户分为目标处理组和非目标处理组;接着遍历目标处理组的客户的预测向量作为第一预测向量,并遍历非目标处理组的客户的预测向量作为第二预测向量;随后计算第一预测向量和第二预测向量的欧式距离,如果欧式距离小于预设值,则将第一预测向量所对应的客户和第二预测向量所对应的客户加入训练数据的名单池,并将第二预测向量所对应的客户从非目标处理组中去除。如果欧式距离大于预设值,则重复上述步骤直至找到欧式距离小于预设值的第二预测向量,或者是遍历完非目标处理组的客户的预测向量。最后重复上述过程直至遍历完目标处理组的客户。
需要说明的是,当第一预测向量和第二预测向量之间的欧式距离小于预设值时,可以认为用户间被营销方式的分布一致,即两用户在营销方式上同质。
在步骤205中,重复上述步骤,直至完成预设的时间范围内的训练数据名单收集。
下面以电销客户分流场景为例,对本申请实施例提供的数据处理方法进行具体说明。
电销客户分流是指电销作业系统中,根据用户的响应情况,将用户(或称客户)分为人工营销组和非人工营销组,并分发到相应的作业系统。其中,人工营销组为专业的电话销售坐席对该名单进行电销工作,而非人工营销组进一步分为机器人电销和不进行电销。本申请实施例针对第一个分流情况,也就是将用户分为人工营销组和非人工营销组。
在电销历史上,一般先是只有人工营销,然后随着自然语言处理(NLP,NaturalLanguage Processing)技术发展,又发展出机器人营销。所以,历史数据中是包含人工电销和非人工电销两种营销方式。而对于在引入非人工电销时,分流策略是人工设定的,例如可以按照客户的价值(这里的价值是指客户信贷资质)进行分流,高价值的客户给人工,低价值的客户给非人工。这种方式虽然有一定的合理性,但是并不是最优解,因为部分高价值客户无论你营销还是不营销,他都是会购买的,这样一来就会导致宝贵的人力资源浪费。其次,单纯按照价值来看,也是存在问题的,因为低价值客户也有转化为高价值客户的可能。
综上所述,所以需要开发分流模型来替代规则分流。但是因为历史数据中的分流是依赖客户价值的,所以人工和非人工间存在不同质的问题,所以不能直接用历史数据进行分流模型的训练。所以,本申请实施例提供一种数据处理方法,从不同质的历史数据中筛选出同质数据,用于分流模型的训练。
在一些实施例中,可以选择4月和5月的历史数据作为分流模型的训练数据来源,例如本申请实施例可以以天作为时间窗口,从4月1日到5月31日进行遍历,将当前日期作为第二时间窗口,并以当前日期的第二天作为第一时间窗口。
需要说明的是,本申请实施例中时间窗口的选取可以跟业务场景相关。两次时间窗口的数据应该拥有相同的营销策略和人群分布。在实际实施时,营销策略一般是以月为单位,而人群分布在临近的时间内变化很小,所以,两个时间窗口需要临近,例如可以将6月1日到3日作为第二时间窗口,那么可以将6月4日到6日作为第一时间窗口。
在另一些实施例中,本申请实施例设计了600多个特征,包括以下层面:
1)用户画像数据,例如包括注册(例如注册时长,即客户注册日距今的时间)、实名(包括实名日长,即客户实名认证距今的时间;年龄,即客户的年龄;性别,即客户的性别,原始数据为“M”和“F”,转化为0和1)、授信(例如包括学历,即客户填写的学历信息,分别转化为0、1、2、3、…,分别表示小学文凭、初中文凭、高中文凭…;婚姻,即客户填写的婚姻信息,分别转化为0、1、2,分别表示未婚、已婚、离异;月收入,即客户填写的月收入信息,并除以1000进行缩放,例如客户填写的月收入为3000,除以1000后得到3作为特征)。
2)行为数据,例如包括借贷申请,其中,借贷申请包括:近X天申请次数(即客户在最近X天的申请次数)、近X天申请总金额数(即客户在最近X天的申请金额的总和)、最近一次申请渠道(即客户最近申请的渠道);登录行为,包括近X天登录次数(即客户在最近X天的登录次数)、最近一次登录距今天数、近30天登录次数与近15天登录次数的比值(这是一个交叉特征,即近30天登录次数比上近15天登录次数);还款行为,包括近X天还款次数(即客户在最近X天的还款次数)、近X天提前还款次数(即客户在最近X天的提前还款次数)、最近一次还款是否为提前还款。
3)账务数据,包括提额,例如当前客户的可用额度、近X天,客户账户的提额次数、近X天,客户账户的提额金额。
4)营销数据,包括推送,例如近X天对客户推送营销次数、最近一次推送距今时间、最近一次推送产品类型;短信,包括近X天对客户短信营销次数、最近一次短信营销距今时间、最近一次短信营销的产品类型;电销,包括近X天对客户电销次数、最近一次电销距今时间、最近一次电销类型。
在一些实施例中,本申请实施例可以首先通过第二时间窗口(例如4月1日)中的客户ID,关联到该时间窗口中的上述各个情况的原始数据表,再通过前述的方式,计算出相应的特征值并加入特征矩阵中,作为第二特征矩阵。再通过第一时间窗口(例如4月2日)中的客户ID,计算出相应的特征值,作为第一特征矩阵。
示例的,参见图8,图8是本申请实施例提供的第二特征矩阵和标签向量示意图,如图8所示,样本1、样本2、样本3、样本4分别表示第二个时间窗口内的客户1、客户2、客户3、客户4;特征1、特征2、特征3、…、特征n表示样本的n维特征数据,标签向量是指第二特征矩阵相应样本所对应的标签值组成的向量,其中,标签向量是由0、1、2三个值构成,由第二时间窗口内事实发生的处理方式(即实际分流方式)得到,其中0表示该样本未进行电销,1表示该样本是机器人进行电销,2表示该样本是由人工进行电销。
下面继续对第一模型的训练过程进行说明。
在一些实施例中,第一模型可以选择轻量的梯度提升机(LightGBM,LightGradient Boosting Machine)作为梯度提升决策树的具体实现,利用准备好的第二特征矩阵和标签向量训练第一模型,其中,LightGBM是一个基于决策树算法的快速的、分布式的、高性能梯度提升(Gradient Boosting)框架,可被用于排行、分类以及其他许多机器学习任务中,具体的训练参数如下:学习率(learning_rate):0.1;基评估器的数量(n_estimators):100;执行切分的最小增益(min_split_gain):50;决策树的最大深度(max_depth):5;每个树上的叶子数(num_leaves):31;二次抽样(subsample):0.9;正则化参数(reg_alpha):0.01;正则化权重项(reg_lambda):0.01;训练次数(epoch):500;早停(early_stop):20。
在一些实施例中,参见图9,图9是本申请实施例提供的预测向量的计算过程示意图,如图9所示,可以将第一特征矩阵输入训练后的第一模型中,以使第一模型输出第一个时间窗口内的每个样本(即第一样本)分别对应的预测向量(多个预测向量可以组成预测向量矩阵),其中,每个预测向量由3个值构成,以样本1对应的预测向量为例,第一个值(即0.1)表示该样本未进行电销的概率,第二个值(即0.7)表示该样本是机器人进行电销的概率,第三个值(即0.2)表示该样本是由人工进行电销的概率。
在另一些实施例中,在得到第一时间窗口内的每个样本分别对应的预测向量之后,还可以获取目标分流场景的标签,例如本申请实施例的目标分流场景为人工电销还是非人工电销,本申请实施例将人工电销记作1,将非人工电销记作0,接着可以对多个预测向量进行分组,其中,0为非目标处理组,1为目标处理组。
示例的,参见图10,图10是本申请实施例提供的数据处理过程示意图,如图10所示,在按照上述方法对多个预测向量进行分组之后,可以遍历目标处理组中的预测向量(即第一预测向量),并在非目标处理组中找到一个满足条件的预测向量(即第二预测向量),随后可以将目标处理组中预测向量所对应的样本和非目标处理组中预测向量所对应的样本加入训练集,重复上述过程直至完成4月1日到5月31日的遍历,最终可以得到想要的分流模型的训练数据。
在一些实施例中,参见图11,图11是本申请实施例提供的数据处理方法的软件架构示意图,如图11所示,本申请实施例提供的数据处理方法的软件架构包括:数据接入模块、计算模块和返回模块,其中,数据接入模块用于配置相关的数据库接入方式和欲构建的训练数据的时间范围,并从数据库中获取相关的客户画像数据、行为数据、账务数据和营销数据;计算模块用于按照上述方法,计算出训练数据集的客户名单;返回模块用于将客户名单写回数据库的特定表。
综上所述,本申请实施例提供的技术方案具有以下有益效果:可以解决在没有特定方式的A/B测试数据的场景下获取同质的训练数据问题,从而可以根据所获取的训练数据训练出预期的、无偏差的、高质量的分流模型,并且该分流模型能够带来更好的增益效果,例如在按照该分流模型对客户进行分流后,业绩会提升。
下面继续说明本申请实施例提供的数据处理装置243的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器240的数据处理装置243中的软件模块可以包括:获取模块2431、预测模块2432、划分模块2433和选取模块2434。
获取模块2431,用于获取第一样本的第一特征数据;预测模块2432,用于将第一特征数据输入训练后的第一模型,得到第一样本对应的预测向量,其中,第一模型是通过第二样本的第二特征数据训练得到;划分模块2433,用于根据第一样本的实际分流方式,将预测向量分别划分到目标处理组和非目标处理组中;选取模块2434,用于从目标处理组和非目标处理组中选取目标预测向量对,其中,目标预测向量对包括的两个预测向量之间的欧式距离小于预设值。
在一些实施例中,数据处理装置243还包括确定模块2435,用于根据第一特征数据确定第一特征矩阵;预测模块2432,还用于将第一特征矩阵输入训练后的第一模型,得到第一样本对应的预测向量。
在一些实施例中,第一特征矩阵包括多个特征值,确定模块2435,还用于执行以下任意一种加工方式:将第一特征数据直接作为第一特征矩阵包括的特征值;对第一特征数据进行编码,将得到的编码数据作为第一特征矩阵包括的特征值;对第一特征数据进行缩放,将缩放后的第一特征数据作为第一特征矩阵包括的特征值;对第一特征数据进行统计,将得到的统计值作为第一特征矩阵包括的特征值;对第一样本的多个第一特征数据进行组合,将得到的组合数据作为第一特征矩阵包括的特征值。
在一些实施例中,第二特征数据包括画像数据、行为数据、账务数据和分流数据;确定模块2435,还用于根据画像数据、行为数据、账务数据和分流数据确定第二特征矩阵;以及用于根据分流数据确定标签向量;数据处理装置243还包括训练模块2436,用于通过第二特征矩阵和标签向量训练得到第一模型。
在一些实施例中,训练模块2436,还用于将第二特征矩阵输入初始第一模型,得到预测向量矩阵,其中,预测向量矩阵包括多个预测向量,预测向量与第二样本一一对应;确定预测向量矩阵与标签向量之间的差异,并基于差异进行反向传播;在反向传播的过程中逐层更新初始第一模型的参数,得到第一模型。
在一些实施例中,标签向量包括多个标签值,标签值与第二样本一一对应,其中,标签值用于表征所对应的第二样本的实际分流方式;确定模块2435,还用于确定预测向量矩阵中的每个预测向量与标签向量中对应的标签值之间的差异。
在一些实施例中,实际分流方式包括第一分流方式和第二分流方式,划分模块2433,还用于若实际分流方式为第一分流方式,则将预测向量划分到目标处理组中;若实际分流方式为第二分流方式,则将预测向量划分到非目标处理组中。
在一些实施例中,预测向量包括第一预测向量和第二预测向量,第一预测向量为目标处理组中的预测向量,第二预测向量为非目标处理组中的预测向量,选取模块2434,还用于针对每个第一预测向量,遍历非目标处理组,若在非目标处理组中存在与第一预测向量之间的欧式距离小于预设值的第二预测向量的情况下,则将第一预测向量和第二预测向量确定为目标预测向量对。
在一些实施例中,数据处理装置243还包括删除模块2437,用于在从非目标处理组中确定目标预测向量对中的第二预测向量之后,将第二预测向量从非目标处理组中删除。
需要说明的是,本申请实施例装置的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本申请实施例提供的数据处理装置中未尽的技术细节,可以根据图4、图5、或图6任一附图的说明而理解。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机可执行指令,该计算机程序或计算机可执行指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该计算机设备执行本申请实施例上述的数据处理方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令,当计算机可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的数据处理方法,例如,如图4、图5、或图6示出的数据处理方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (12)
1.一种数据处理方法,其特征在于,所述方法包括:
获取第一样本的第一特征数据;
将所述第一特征数据输入第一模型,得到所述第一样本对应的预测向量,其中,所述第一模型是通过第二样本的第二特征数据训练得到;
根据所述第一样本的实际分流方式,将所述预测向量分别划分到目标处理组和非目标处理组中;
从所述目标处理组和所述非目标处理组中选取目标预测向量对,其中,所述目标预测向量对包括的两个预测向量之间的欧式距离小于预设值。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一特征数据输入第一模型,得到所述第一样本对应的预测向量,包括:
根据所述第一特征数据确定第一特征矩阵;
将所述第一特征矩阵输入第一模型,得到所述第一样本对应的预测向量。
3.根据权利要求2所述的方法,其特征在于,
所述第一特征矩阵包括多个特征值;
所述根据所述第一特征数据确定第一特征矩阵,包括以下方式中的任意一种:
将所述第一特征数据直接作为所述第一特征矩阵包括的特征值;
对所述第一特征数据进行编码,将得到的编码数据作为所述第一特征矩阵包括的特征值;
对所述第一特征数据进行缩放,将缩放后的所述第一特征数据作为所述第一特征矩阵包括的特征值;
对所述第一特征数据进行统计,将得到的统计值作为所述第一特征矩阵包括的特征值;
对所述第一样本的多个第一特征数据进行组合,将得到的组合数据作为所述第一特征矩阵包括的特征值。
4.根据权利要求1所述的方法,其特征在于,
所述第二特征数据包括画像数据、行为数据、账务数据和分流数据;
所述方法还包括:
根据所述画像数据、所述行为数据、所述账务数据和所述分流数据确定第二特征矩阵;
根据所述分流数据确定标签向量;
通过所述第二特征矩阵和所述标签向量训练得到所述第一模型。
5.根据权利要求4所述的方法,其特征在于,所述通过所述第二特征矩阵和所述标签向量训练得到所述第一模型,包括:
将所述第二特征矩阵输入初始第一模型,得到预测向量矩阵,其中,所述预测向量矩阵包括多个预测向量,所述预测向量与所述第二样本一一对应;
确定所述预测向量矩阵与所述标签向量之间的差异;
基于所述差异更新所述初始第一模型的参数,得到所述第一模型。
6.根据权利要求5所述的方法,其特征在于,
所述标签向量包括多个标签值,所述标签值与所述第二样本一一对应,其中,所述标签值用于表征所对应的第二样本的实际分流方式;
所述确定所述预测向量矩阵与所述标签向量之间的差异,包括:
确定所述预测向量矩阵中的每个所述预测向量与所述标签向量中对应的标签值之间的差异。
7.根据权利要求1所述的方法,其特征在于,所述实际分流方式包括第一分流方式和第二分流方式,所述根据所述第一样本的实际分流方式,将所述预测向量分别划分到目标处理组和非目标处理组中,包括:
若所述实际分流方式为所述第一分流方式,则将所述预测向量划分到目标处理组中;
若所述实际分流方式为所述第二分流方式,则将所述预测向量划分到非目标处理组中。
8.根据权利要求1所述的方法,其特征在于,所述预测向量包括第一预测向量和第二预测向量,所述第一预测向量为所述目标处理组中的预测向量,所述第二预测向量为所述非目标处理组中的预测向量,所述从所述目标处理组和所述非目标处理组中选取目标预测向量对,包括:
针对每个所述第一预测向量,遍历所述非目标处理组,若在所述非目标处理组中存在与所述第一预测向量之间的欧式距离小于预设值的第二预测向量的情况下,则将所述第一预测向量和所述第二预测向量确定为所述目标预测向量对。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
在从所述非目标处理组中确定所述目标预测向量对中的第二预测向量之后,将所述第二预测向量从所述非目标处理组中删除。
10.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取第一样本的第一特征数据;
预测模块,用于将所述第一特征数据输入第一模型,得到所述第一样本对应的预测向量,其中,所述第一模型是通过第二样本的第二特征数据训练得到;
划分模块,用于根据所述第一样本的实际分流方式,将所述预测向量分别划分到目标处理组和非目标处理组中;
选取模块,用于从所述目标处理组和所述非目标处理组中选取目标预测向量对,其中,所述目标预测向量对包括的两个预测向量之间的欧式距离小于预设值。
11.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至9任一项所述的数据处理方法。
12.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行时,实现权利要求1至9任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311204260.6A CN117952232A (zh) | 2023-09-18 | 2023-09-18 | 数据处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311204260.6A CN117952232A (zh) | 2023-09-18 | 2023-09-18 | 数据处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117952232A true CN117952232A (zh) | 2024-04-30 |
Family
ID=90791025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311204260.6A Pending CN117952232A (zh) | 2023-09-18 | 2023-09-18 | 数据处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117952232A (zh) |
-
2023
- 2023-09-18 CN CN202311204260.6A patent/CN117952232A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112021004908T5 (de) | Computerbasierte systeme, rechenkomponenten und rechenobjekte, die eingerichtet sind, dynamische ausreisser-verzerrungs-verringerung bei maschinenlernmodellen zu implementieren | |
US10565525B2 (en) | Collaborative filtering method, apparatus, server and storage medium in combination with time factor | |
DE112018002952T5 (de) | Datenabgleich basierend auf einer Computeranalyse von Daten | |
CN111177473B (zh) | 人员关系分析方法、装置和可读存储介质 | |
CN113536097B (zh) | 基于自动特征分组的推荐方法及装置 | |
DE202016009121U1 (de) | Instrumententafelschnittstelle, Plattform und Umgebung zum Abgleich von Teilnehmern mit Abonnentenanbietern und Darstellen von erweiterten Abonnementanbieter-Leistungsmetriken | |
CN111352962A (zh) | 客户画像构建方法及装置 | |
CN112163963A (zh) | 业务推荐方法、装置、计算机设备和存储介质 | |
CN112633962A (zh) | 业务推荐方法、装置、计算机设备和存储介质 | |
US20220215243A1 (en) | Risk-Reliability Framework for Evaluating Synthetic Data Models | |
US11847390B2 (en) | Generation of synthetic data using agent-based simulations | |
CN112015562A (zh) | 基于迁移学习的资源分配方法、装置及电子设备 | |
CN112906864A (zh) | 信息处理方法、装置、设备、存储介质及计算机程序产品 | |
CN112948274A (zh) | 测试用例评分模型训练方法和测试用例选择方法 | |
US12105694B2 (en) | Data harmonization across multiple sources | |
CN113034168B (zh) | 内容项投放方法、装置、计算机设备及存储介质 | |
CN109493186A (zh) | 确定推送信息的方法和装置 | |
WO2022150343A1 (en) | Generation and evaluation of secure synthetic data | |
CN112734352A (zh) | 一种基于数据维度的单据审核方法和装置 | |
US20220215242A1 (en) | Generation of Secure Synthetic Data Based On True-Source Datasets | |
US20220215262A1 (en) | Augmenting Datasets with Synthetic Data | |
Kasy et al. | Matching with semi-bandits | |
US20240104289A1 (en) | Systems and methods for generating and processing electronic forms | |
CN110008318A (zh) | 问题派发方法及装置 | |
SEbASTIAN et al. | Churn analysis in telecommunication using Logistic Regression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |