CN113781102A - 数据处理方法、装置、计算机设备和存储介质 - Google Patents
数据处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113781102A CN113781102A CN202110916861.4A CN202110916861A CN113781102A CN 113781102 A CN113781102 A CN 113781102A CN 202110916861 A CN202110916861 A CN 202110916861A CN 113781102 A CN113781102 A CN 113781102A
- Authority
- CN
- China
- Prior art keywords
- resource sharing
- target user
- user resource
- current
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 18
- 238000003672 processing method Methods 0.000 title abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims description 205
- 238000011161 development Methods 0.000 claims description 39
- 230000018109 developmental process Effects 0.000 claims description 39
- 238000004364 calculation method Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 30
- 238000013016 damping Methods 0.000 claims description 22
- 238000002474 experimental method Methods 0.000 claims description 10
- 238000002790 cross-validation Methods 0.000 claims description 9
- 230000001174 ascending effect Effects 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 14
- 239000000284 extract Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种数据处理方法、装置、计算机设备和存储介质。所述方法包括:获取目标用户群对应的目标用户群画像,获取已训练好的目标用户资源共享意愿模型,将目标用户群画像输入至目标用户资源共享意愿模型中,通过目标用户资源共享意愿模型对目标用户群画像进行目标用户群特征变量提取,根据提取后的目标用户群特征变量进行推断,输出目标用户群中各个目标用户对应的目标用户资源共享意愿分数,根据目标用户资源共享意愿分数确定对应的目标用户资源共享方式,向目标用户执行对应的目标用户资源共享方式。采用本方法能够用户资源共享的合理性和准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据处理方法、装置、计算机设备和存储介质。
背景技术
在互联网金融领域,如果想要对目标客户群进行促借款的营销,传统的技术方案有如下两种:一是圈选出需要经营的目标客户群,由于不确定哪些用户会来借款,针对这部分客户群全量发放优惠券,以希望用户来平台完成借款,达到营销目的。二是通过随机分流(A/B test),比如10%的用户发10元优惠券,然后通过智能语音通知用户;10%的用户发10元优惠券,然后发送短信通知用户;另外80%的用户发送10元优惠券,采用发送短信通知用户,形成对比组,最后看哪种营销方式下用户的借款率高,然后调整对应的百分比。然而,传统的技术方案无法在目标客户群中精准的识别出有借款意愿的人群,导致促借款的营销效果不佳。
发明内容
基于此,有必要针对上述技术问题,提供一种数据处理方法、装置、计算机设备和存储介质,通过目标用户资源共享意愿模型能够精准识别出目标用户群中各目标用户对应的用户资源共享意愿分,根据用户资源共享意愿分确定匹配的用户资源共享方式,向该用户执行用户资源共享方式,使得用户资源共享能够精准的与相应用户共享资源,达到用户资源的精细化共享,提高用户资源共享的合理性。
一种数据处理方法,该方法包括:
获取目标用户群对应的目标用户群画像;
获取已训练好的目标用户资源共享意愿模型,其中,目标用户资源共享意愿模型是基于训练特征以及训练数据,通过基尼系数的计算进行特征的选取,根据选取后的特征变量构建原始用户资源共享意愿模型,通过对原始用户资源共享意愿模型进行训练得到的;
将目标用户群画像输入至目标用户资源共享意愿模型中,通过目标用户资源共享意愿模型对目标用户群画像进行目标用户群特征变量提取,根据提取后的目标用户群特征变量进行推断,输出目标用户群中各个目标用户对应的目标用户资源共享意愿分数;
根据目标用户资源共享意愿分数确定对应的目标用户资源共享方式;
向目标用户执行对应的目标用户资源共享方式。
一种数据处理装置,该装置包括:
第一获取模块,用于获取目标用户群对应的目标用户群画像;
第二获取模块,用于获取已训练好的目标用户资源共享意愿模型,其中,目标用户资源共享意愿模型是基于训练特征以及训练数据,通过基尼系数的计算进行特征的选取,根据选取后的特征变量构建原始用户资源共享意愿模型,通过对原始用户资源共享意愿模型进行训练得到的;
输入模块,用于将目标用户群画像输入至目标用户资源共享意愿模型中,通过目标用户资源共享意愿模型对目标用户群画像进行目标用户群特征变量提取,根据提取后的目标用户群特征变量进行推断,输出目标用户群中各个目标用户对应的目标用户资源共享意愿分数;
确定模块,用于根据目标用户资源共享意愿分数确定对应的目标用户资源共享方式;
执行模块,用于向目标用户执行对应的目标用户资源共享方式。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取目标用户群对应的目标用户群画像;
获取已训练好的目标用户资源共享意愿模型,其中,目标用户资源共享意愿模型是基于训练特征以及训练数据,通过基尼系数的计算进行特征的选取,根据选取后的特征变量构建原始用户资源共享意愿模型,通过对原始用户资源共享意愿模型进行训练得到的;
将目标用户群画像输入至目标用户资源共享意愿模型中,通过目标用户资源共享意愿模型对目标用户群画像进行目标用户群特征变量提取,根据提取后的目标用户群特征变量进行推断,输出目标用户群中各个目标用户对应的目标用户资源共享意愿分数;
根据目标用户资源共享意愿分数确定对应的目标用户资源共享方式;
向目标用户执行对应的目标用户资源共享方式。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取目标用户群对应的目标用户群画像;
获取已训练好的目标用户资源共享意愿模型,其中,目标用户资源共享意愿模型是基于训练特征以及训练数据,通过基尼系数的计算进行特征的选取,根据选取后的特征变量构建原始用户资源共享意愿模型,通过对原始用户资源共享意愿模型进行训练得到的;
将目标用户群画像输入至目标用户资源共享意愿模型中,通过目标用户资源共享意愿模型对目标用户群画像进行目标用户群特征变量提取,根据提取后的目标用户群特征变量进行推断,输出目标用户群中各个目标用户对应的目标用户资源共享意愿分数;
根据目标用户资源共享意愿分数确定对应的目标用户资源共享方式;
向目标用户执行对应的目标用户资源共享方式。
上述数据处理方法、装置、计算机设备和存储介质,获取目标用户群对应的目标用户群画像,获取已训练好的目标用户资源共享意愿模型,其中,目标用户资源共享意愿模型是基于训练特征以及训练数据,通过基尼系数的计算进行特征的选取,根据选取后的特征变量构建原始用户资源共享意愿模型,通过对原始用户资源共享意愿模型进行训练得到的,将目标用户群画像输入至目标用户资源共享意愿模型中,通过目标用户资源共享意愿模型对目标用户群画像进行目标用户群特征变量提取,根据提取后的目标用户群特征变量进行推断,输出目标用户群中各个目标用户对应的目标用户资源共享意愿分数,根据目标用户资源共享意愿分数确定对应的目标用户资源共享方式,向目标用户执行对应的目标用户资源共享方式。
因此,通过目标用户资源共享意愿模型能够精准识别出目标用户群中各目标用户对应的用户资源共享意愿分,根据用户资源共享意愿分确定匹配的用户资源共享方式,向该用户执行用户资源共享方式,使得用户资源共享能够精准的与相应用户共享资源,达到用户资源的精细化共享,提高用户资源共享的合理性和准确性。
附图说明
图1为一个实施例中数据处理方法的应用环境图;
图2为一个实施例中数据处理方法的流程示意图;
图3为一个实施例中目标用户资源共享意愿模型的训练步骤的流程示意图;
图3A为一个实施例中当前用户资源共享模型的当前网络结构示意图;
图3B为一个实施例中中间用户资源共享意愿模型的网络结构示意图;
图4为一个实施例中目标用户资源共享意愿模型验证步骤的流程示意图;
图5为一个实施例中基尼系数计算步骤的流程示意图;
图6为一个实施例中当前用户资源共享意愿模型确定步骤的流程示意图;
图6A为一个实施例中当前资源共享意愿模型的结构示意图;
图7为一个实施例中当前信息增益计算步骤的流程示意图;
图8为一个实施例中目标用户资源共享方式确定步骤的流程示意图;
图9为一个实施例中数据处理装置的结构框图;
图10为一个实施例中计算机设备的内部结构图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
具体地,终端102获取目标用户群对应的目标用户群画像,将目标用户群画像发送至服务器104,服务器104获取已训练好的目标用户资源共享意愿模型,将目标用户群画像输入至目标用户资源共享意愿模型中,通过目标用户资源共享意愿模型对目标用户群画像进行目标用户群特征变量提取,根据提取后的目标用户群特征变量进行推断,输出目标用户群中各个目标用户对应的目标用户资源共享意愿分数,根据目标用户资源共享意愿分数确定对应的目标用户资源共享方式,向目标用户执行对应的目标用户资源共享方式,其中,目标用户资源共享意愿模型是基于训练特征以及训练数据,通过基尼系数的计算进行特征的选取,根据选取后的特征变量构建原始用户资源共享意愿模型,通过对原始用户资源共享意愿模型进行训练得到的。
在另一个实施例中,终端102获取目标用户群对应的目标用户群画像,获取已训练好的目标用户资源共享意愿模型,将目标用户群画像输入至目标用户资源共享意愿模型中,通过目标用户资源共享意愿模型对目标用户群画像进行目标用户群特征变量提取,根据提取后的目标用户群特征变量进行推断,输出目标用户群中各个目标用户对应的目标用户资源共享意愿分数,根据目标用户资源共享意愿分数确定对应的目标用户资源共享方式,向目标用户执行对应的目标用户资源共享方式,其中,目标用户资源共享意愿模型是基于训练特征以及训练数据,通过基尼系数的计算进行特征的选取,根据选取后的特征变量构建原始用户资源共享意愿模型,通过对原始用户资源共享意愿模型进行训练得到的。
在一个实施例中,如图2所示,提供了一种数据处理方法,以该方法应用于图1中的终端或服务器为例进行说明,包括以下步骤:
步骤202,获取目标用户群对应的目标用户群画像。
其中,目标用户群包括至少一个目标用户,即由目标用户组成的集合,目标用户可以是与实际业务、实际应用场景相关的用户,目标用户群画像是目标用户的目标用户画像组成的集合,目标用户画像是与目标用户相关的所有用户特征的统称,目标用户画像包括但不限于在借订单数、是否借款、用户名称、职业、历史借款间隔天数的平均值、近30天登陆次数、近60天内在贷余额总和等。具体可以通过目标用户标识,根据目标用户标识获取目标用户相关的所有用户特征,组成目标用户画像,再通过所有的目标用户的目标用户画像得到目标用户群画像。
步骤204,获取已训练好的目标用户资源共享意愿模型,其中,目标用户资源共享意愿模型是基于训练特征以及训练数据,通过基尼系数的计算进行特征的选取,根据选取后的特征变量构建原始用户资源共享意愿模型,通过对原始用户资源共享意愿模型进行训练得到的。
其中,这里的目标用户资源共享意愿模型是用来评估目标用户群中各目标用户对应的目标用户资源共享意愿程度的,目标用户共享意愿模型可以是已训练好的决策树模型,即可以是树状的神经网络模型结构。目标用户资源共享意愿模型的网络结构由各训练特征连接组成的,各训练特征从各训练数据中提炼得到的,具体的提炼可以通过计算各训练特征的基尼系数,通过各训练特征的基尼系数确定各训练特征的连接关系,根据连接关系连接各训练特征,得到原始用户共享意愿模型的网络结构,再通过大量的训练样本对原始用户共享意愿模型进行训练,将训练成功的原始用户共享意愿模型确定为目标用户共享意愿模型。
步骤206,将目标用户群画像输入至目标用户资源共享意愿模型中,通过目标用户资源共享意愿模型对目标用户群画像进行目标用户群特征变量提取,根据提取后的目标用户群特征变量进行推断,输出目标用户群中各个目标用户对应的目标用户资源共享意愿分数。
具体地,将目标用户群画像作为目标用户资源共享意愿模型的输入,目标用户资源共享意愿模型接收到目标用户群画像后,需要从目标用户群画像中提取目标用户群特征变量,目标用户群特征变量需要根据目标用户资源共享意愿模型的网络模型结构确定得到的,由于目标用户资源共享意愿模型的网络模型结构是由各特征变量组成的,因此,需要从目标用户群画像中提取匹配的目标用户群特征变量,再根据目标用户群特征变量进行预测,得到各目标用户对应的目标用户资源共享意愿分数。其中,目标用户资源共享意愿分数是体现目标用户对于用户资源共享的一个体现,目标用户资源共享意愿分数越高,说明该目标用户对于用户资源共享的意愿比较强烈,反之,如果目标用户资源共享意愿分数越低,说明该目标用户对用户资源共享的意愿比较低。
步骤208,根据目标用户资源共享意愿分数确定对应的目标用户资源共享方式。
步骤210,向目标用户执行对应的目标用户资源共享方式。
其中,在得到目标用户共享意愿模型输出的各目标用户对应的目标用户资源共享意愿分数后,由于目标用户资源共享意愿分数代表用户对于用户资源共享的意愿程度,目标用户资源共享意愿分数越高,说明该目标用户对于用户资源共享的意愿比较强烈,反之,如果目标用户资源共享意愿分数越低,说明该目标用户对用户资源共享的意愿比较低。因此,可以根据目标资源共享意愿分数确定对应的目标用户资源共享方式,目标用户资源共享方式可以是但不限于发放数值较小的资源共享券或者利息减免资源共享券,发送数值较大的资源共享券或者减免额度等。最后,向目标用户执行相应的目标用户资源共享方式,实现用户资源共享方式可以精准的与匹配的用户实现资源共享,提高用户资源共享的准确性。
上述数据处理方法中,获取目标用户群对应的目标用户群画像,获取已训练好的目标用户资源共享意愿模型,其中,目标用户资源共享意愿模型是基于训练特征以及训练数据,通过基尼系数的计算进行特征的选取,根据选取后的特征变量构建原始用户资源共享意愿模型,通过对原始用户资源共享意愿模型进行训练得到的,将目标用户群画像输入至目标用户资源共享意愿模型中,通过目标用户资源共享意愿模型对目标用户群画像进行目标用户群特征变量提取,根据提取后的目标用户群特征变量进行推断,输出目标用户群中各个目标用户对应的目标用户资源共享意愿分数,根据目标用户资源共享意愿分数确定对应的目标用户资源共享方式,向目标用户执行对应的目标用户资源共享方式。
因此,通过目标用户资源共享意愿模型能够精准识别出目标用户群中各目标用户对应的用户资源共享意愿分,根据用户资源共享意愿分确定匹配的用户资源共享方式,向该用户执行用户资源共享方式,使得用户资源共享能够精准的与相应用户共享资源,达到用户资源的精细化共享,提高用户资源共享的合理性和准确性。
在一个实施例中,如图3所示,目标用户资源共享意愿模型的训练步骤包括:
步骤302,获取大量训练样本数据,训练样本数据包括多个训练特征变量。
步骤304,计算得到各训练特征变量对应的基尼系数。
步骤306,根据各基尼系数确定各训练特征变量之间的连接关系,得到当前用户资源共享意愿模型。
其中,可以根据实际业务需求、产品需求或者实际应用场景从大数据中采集相关的用户数据作为训练样本数据,其中,训练样本数据还可以从目标应用的历史数据中采集得到的,目标应用可以是与实际业务相关的应用。其中,训练样本数据中可以包括多个训练特征变量,这里的训练特征变量可以从训练样本数据中提取全部特征变量,也可以根据实际业务、实际应用场景提取部分匹配的特征变量确定为训练特征变量。训练特征变量可以是但不限于,历史借款间隔天数平均值小于等于30天、在借订单数小于1(是否存在未还完的借款订单)、近30天登陆次数、近30天登陆天数等等。
进一步地,可以通过基尼系数的计算方式计算各训练特征变量对应的基尼系数,这里基尼系数是一种用来判断各训练特征变量之间的连接关系的常用指标,可以通过训练样本数据的总数目、当前特征变量集的总数目、非当前特征变量的总数目以及当前特征变量集中类别为目标类别所占的概率、非当前特征变量集中类别为目标类别所占的概率计算得到当前特征变量的基尼系数,以此类推,计算得到各训练特征变量对应的基尼系数。其中,当前特征变量是各训练特征变量中的随机一个。
最后,可根据各基尼系数确定各训练特征变量之间的连接关系,由连接好的各训练特征变量组成当前用户资源共享意愿模型。其中,基尼系数的计算能确定各特征变量的先后排序,基尼系数越小的排在前面。例如,第二个特征变量应该放在第一个特征变量的左边(“是”的一边)还是右边(“否”的一边),其中还需要借助信息增益的计算方式,看是放在左侧的信息增益好,还是右侧的信息增益好,通过这两种方式得到一个合理稳定的当前用户资源共享意愿模型。
步骤308,从当前用户资源共享意愿模型中确定当前特征变量分割点,根据当前模型结构计算得到当前用户资源共享意愿模型的当前信息增益。
步骤310,在当前信息增益满足预期信息增益值时,确定当前用户资源共享意愿模型为原始用户资源共享意愿模型。
步骤312,通过开发样本数据和实验样本数据对原始用户资源共享意愿模型进行交叉验证,得到目标用户资源共享意愿模型。
其中,当前特征变量分割点是一个参照点,从当前资源共享意愿模型的网络结构中确定一个特征变量作为当前特征变量分割点,以当前特征变量分割点为参考点,得到左侧特征变量节点和右侧特征变量节点,获取左侧特征变量节点的一阶导数之和以及二阶导数之和,同样地,获取右侧特征变量节点的一阶导数之和以及二阶导数之和,最后根据左侧特征变量节点的一阶导数之和以及二阶导数之和、右侧特征变量节点的一阶导数之和以及二阶导数之和计算得到当前用户资源共享意愿模型的当前信息增益。其中,这里的当前信息增益是用来判断当前用户资源共享意愿模型的网络结构是否合适。
进一步地,在当前信息增益满足预期信息增益值时,说明当前用户资源共享意愿模型的当前网络结构已经非常合适,可以确定当前用户资源共享意愿模型为原始用户资源共享意愿模型,通过开发样本数据和实验样本数据进而对原始用户资源共享意愿模型进行交叉验证,得到目标用户资源共享意愿模型。其中,开发样本数据可以是原始用户资源共享意愿模型的训练数据,而实验样本数据是开发样本数据的标准样本数据,用来参考开发样本数据的训练是否达到训练目的的。
在一个实施例中,目标资源共享意愿模型的训练步骤还包括:在当前信息增益不满足预期信息增益值时,更改各训练特征变量之间的连接关系,得到中间用户资源共享意愿模型,将中间用户资源共享意愿模型确定为当前用户资源共享意愿模型,返回执行步骤从当前用户资源共享意愿模型中确定当前特征变量分割点,直至当前信息增益满足预期信息增益值。
具体地,在当前信息增益不满足预期信息增益值时,说明当前用户资源共享模型的当前网络结构没有达到目的,因此,需要改变当前用户资源共享模型的网络模型结构,可以是更改各训练特征变量之间的连接关系,得到中间用户资源共享意愿模型,将中间用户资源共享意愿模型确定为当前用户资源共享意愿模型,返回执行步骤从当前用户资源共享意愿模型中确定当前特征变量分割点,直至当前信息增益满足预期信息增益值。
例如,如图3A所述,图3A示出一个实施例中当前用户资源共享模型的当前网络结构示意图,当前用户资源共享模型的当前网络结构由2个特征变量构成,分别为历史借款间隔天数平均值小于等于30天以及在借订单数小于1,通过基尼系数的计算得到历史借款间隔天数平均值小于等于30天的基尼系数小于在借订单数小于1的基尼系数,因此历史借款间隔天数平均值小于等于30天排在前面,连接在借订单数小于1,得到当前用户资源共享模型。
其中,在当前信息增益不满足预期信息增益值时,需要更改当前用户资源共享模型的当前网络结构,例如,如图3B所示,图3B示出一个实施例中中间用户资源共享意愿模型的网络结构示意图,由于当前用户资源共享模型的当前信息增益不满足预期信息增益值,因此,更改当前用户资源共享模型的当前网络结构,将在借订单数小于1放到历史借款间隔天数平均值小于等于30天的另一个分支,得到中间用户资源共享意愿模型。
在一个实施例中,如图4所示,通过开发样本数据和实验样本数据对原始用户资源共享意愿模型进行交叉验证,得到目标用户资源共享意愿模型,包括:
步骤402,获取开发样本数据中具有借款意愿的样本量,获取具有借款意愿的样本中真正借款的第一人数。
步骤404,获取开发样本数据中真正借款的第二人数,获取实验样本数据中真正借款的第三人数。
步骤406,根据第二人数和开发样本数据的总数目计算得到开发样本数据对应的第一借款率,根据第一人数和第二人数计算得到借款意愿识别占比。
步骤408,根据第三人数和实验样本数据的总数目计算得到实验样本数据对应的第二借款率,根据第一人数和具有借款意愿的样本量计算得到借款意愿识别率。
步骤410,在第一借款率与第二借款率的差值达到预设差值时,且借款意愿识别占比和借款意愿识别率分别达到相应的预期目标时,确定原始用户资源共享意愿模型的训练结束,得到目标用户资源共享意愿模型。
其中,该数据处理方法可以应用在借款领域,在通过开发样本数据和实验样本数据对原始用户资源共享意愿模型进行交叉验证,得到目标用户资源共享意愿模型,具体可以是,获取开发样本数据的总数目为D1,开发样本数据中具有借款意愿的样本量为L1,具有借款意愿的样本中真正借款的人数为L2,而整个开发样本数据中真正借款的人数为L3。实验样本数据的总数目为D2,实验样本数据中真正借款的人数为L4。
其中,通过开发样本数据中真正借款的人数L3与开发样本数据的总数目可以计算出开发样本数据对应的第一借款率。例如,开发样本的借款率=L3/D1*100%。
其中,通过实验样本数据中的真正借款的人数L4与实验样本数据的总数目可以计算出实验样本数据对应的第二借款率。例如,实验样本的借款率=L4/D2*100%。
其中,通过开发样本数据中具有借款意愿的样本中的真正借款的人数L2与整个开发样本数据中真正借款的人数为L3可以计算出借款意愿识别占比。例如,借款意愿识别占比=L2/L3*100%。
其中,通过开发样本数据中具有借款意愿的样本中的真正借款的人数L2与开发样本数据中具有借款意愿的样本量为L1计算出借款意愿识别率。例如,借款意愿识别率=L2/L1*100%。
最后,在第一借款率和第二借款率相同或相近时,第一借款率和第二借款率相近可以通过第一借款率和第二借款率的差值来判断,如果第一借款率和第二借款的差值达到预设差值,确定第一借款率和第二借款率相近,其次,借款意愿识别占比和借款意愿识别率分别达到相应的预期目标时,原始用户资源共享意愿模型的训练结束,达到训练目的,得到目标用户资源共享意愿模型,借款意愿识别占比与借款意愿识别率对应的预期目标可以相同,可以不同,具体可根据实际业务需求、产品需求或实际应用场景确定。
在一个实施例中,如图5所示,计算得到各训练特征变量对应的基尼系数,包括:
步骤502,从各训练特征变量中确定当前特征变量,获取训练样本数据中当前特征变量的当前特征变量集,以及训练样本数据中非当前特征变量的非当前特征变量集。
步骤504,计算当前特征变量集中类别为目标类别的第一概率,计算非当前特征变量集中类别为目标类别的第二概率。
步骤506,根据训练样本数据集的总数目、当前特征变量集的总数目、非当前特征变量集的总数目、第一概率和第二概率计算得到当前特征变量的当前基尼系数。
步骤508,获取下一个训练特征变量,将下一个训练特征变量确定为当前特征变量,返回执行步骤获取训练样本数据中当前特征变量的当前特征变量集,直至计算得到各训练特征变量对应的基尼系数。
其中,当前特征变量可以是各训练特征变量中任意一个,获取训练样本数据中当前特征变量的当前特征变量集,当前特征变量集代表训练样本数据中特征为当前特征变量的总数目。非当前特征变量集是训练样本数据中除了当前特征变量集之外的总数目。
其中,目标类别可以是根据实际业务需求或实际产品需求进行确定得到的,目标类别可以是已借款,计算当前特征变量集中类别为目标类别的数据占当前特征变量集的第一概率,以及计算非当前特征变量集中类别为目标类别的数据占非当前特征变量集的第二概率。
进一步地,根据训练样本数据集的总数目、当前特征变量集的总数目、非当前特征变量集的总数目、第一概率和第二概率计算得到当前特征变量的当前基尼系数,再获取下一个训练特征变量,将下一个训练特征变量确定为当前特征变量,返回执行步骤获取训练样本数据中当前特征变量的当前特征变量集,直至计算得到各训练特征变量对应的基尼系数。
其中,当前基尼系数的计算可以如以下公式所示:
其中,D代表训练样本数据集,A代表当前特征变量(比如在借订单数),|D1|代表样本中特征为A的样本集的量,即当前特征变量集,|D2|代表样本中特征为非A的样本集的量,即非当前特征变量集,k代表目标类别的数量,Pkd1代表样本集D1中类别为k的概率,Pkd2代表样本集D2中类别为k的概率,G(D,A)计算的结果代表样本量D中特征为A的G I N I系数。
以如下表格中的某两个特征变量为例子,分别计算出历史借款间隔天数平均值<=30天以及在借订单数<1时的G I N I(基尼)系数。
表格中全量样本为10个,历史借款间隔天数平均值小于等于30天的样本为6个,其中借款的有5个,大于30天的为4个,借款人数为0。在借订单数小于1的样本量为5个,其中借款的2个,大于1的样本为5个,其中借款的3个。按照上述公式计算:
历史借款间隔天数平均值<=30天(借款周期小于1个月)的样本的G I N I系数:
G(D,h i s_l oan_i nt_day)=6/10*(5/6*1/6*2)+4/10*(0/4*4/4*2)=0.17。
在借订单数<1(是否存在未还完的借款订单)的样本的G I N I系数:
G(D,l oan_cnt)=5/10*(2/5*3/5)+5/10*(3/5*2/5)=0.24。
在一个实施例中,如图6所示,根据各基尼系数确定各训练特征变量之间的连接关系,得到当前用户资源共享意愿模型,包括:
步骤602,将各基尼系数按照升序顺序排列,得到排列后的各基尼系数。
步骤604,将最小基尼系数对应的训练特征变量确定为当前用户资源共享意愿模型的起始节点。
步骤606,根据排列后的各基尼系数确定起始节点连接的下一训练特征变量,依次类推,得到树状的当前用户资源共享意愿模型。
其中,在得到各训练特征变量对应的基尼系数,将各基尼系数按照升序顺序排列,得到排列后的各基尼系数。其中,可以将基尼系数最小的训练特征变量确定为当前用户资源共享意愿模型的起始节点,按照排列后的各基尼系数,将排在最小基尼系数后面的训练特征变量确定为起始节点连接的下一训练特征变量,以此类推,得到由各训练特征变量组成的树状的当前用户资源共享意愿模型。
例如,训练特征变量A、训练特征变量B和训练特征变量C对应的基尼系数分别为0.17、0.35和0.24,得到排列后的基尼系数为:0.17、0.24和0.35,将最小基尼系数对应的训练特征变量A确定为起始节点,将训练特征变量C确定为训练特征变量A的下一节点,将训练特征变量B确定为训练特征变量C的下一节点,组成树状的当前用户资源共享意愿模型,具体如图6A所示,图6A示出一个实施例中当前资源共享意愿模型的结构示意图。
在一个实施例中,如图7所示,根据当前模型结构计算得到当前用户资源共享意愿模型的当前信息增益,包括:
步骤702,根据当前特征变量分割点确定左侧特征变量节点和右侧特征变量节点。
步骤704,获取左侧特征变量节点的左侧一阶导数之和以及左侧二阶导数之和。
步骤706,获取右侧特征变量节点的右侧一阶导数之和以及右侧二阶导数之和。
步骤708,获取预设当前步长和预设当前复杂度代价,根据预设当前步长、预设当前复杂度代价、左侧一阶导数之和、左侧二阶导数之和、右侧一阶导数之和以及右侧二阶导数之和计算得到当前信息增益。
其中,当前用户资源共享意愿模型的当前信息增益可以具体以以下公式计算得到:
Gain=1/2*[GL 2/(HL+λ)+GR 2/(HR+λ)-(GL+GR)2/(HL+HR+λ)]-γ
其中,Ga i n代表的是当前信息增益,GL为叶子节点左侧节点树的一阶导数之和,即左侧一阶导数之和,HL为叶子节点左侧节点树的二阶导数之和,即左侧二阶导数之和,GR为叶子节点右侧节点树的一阶导数之和,即右侧一阶导数之和,HR为叶子节点右侧节点树的二阶导数之和,即右侧二阶导数之和,λ为预设当前步长,γ为引入新叶子节点引入的预设当前复杂度代价。所以GL 2/(HL+λ)代表左子树的打分,GR 2/(HR+λ)代表左子树的打分,(GL+GR)2/(HL+HR+λ)代表不分割时整体的分数。
在一个实施例中,如图8所示,根据目标用户资源共享意愿分数确定对应的目标用户资源共享方式,包括:
步骤802,根据目标用户资源共享意愿分数确定所属的目标用户资源共享分布区间。
步骤804,获取目标用户资源共享分布区间对应的目标用户资源共享方式,不同用户资源共享分布区间对应不同的用户资源共享方式。
其中,如果每个用户资源共享意愿分数都对应不同的用户资源共享方式,会造成用户资源共享方式的浪费,可以通过用户资源共享意愿分数隶属的用户资源共享分布区间,确定相应的用户资源共享方式。同一用户资源共享分布区间的所有目标用户资源共享意愿分数都对应同一用户资源共享方式。具体地,根据目标用户资源共享意愿分数确定所属的目标用户资源共享分布区间,再根据用户资源共享分布区间与用户资源共享方式之间的映射关系确定目标用户资源共享分布区间对应的目标用户资源共享方式。
例如,在借款应用领域中,当用户的借款意愿分大于等于0.7时,该用户借款意愿可能比较强烈,只需要发小金额的现金优惠券或者利息减免优惠券,然后发送一条营销短信促达用户,用户可能就会来平台借款。当用户的借款意愿分处于0.5到0.7之间的时候,该用户借款意愿处于中等偏上水平,这个时候就适当增加优惠券的金额或者利息减免额度,提升用户借款意愿,这样用户可能就会进入平台借款。当用户借款意愿分低于0.5时,可能该用户目前借款意愿比较低,这个时候就需要增加优惠力度,然后通过AI(人工智能,Art if i c i a l I nte l l i gence)外呼,甚至人工外呼的方式与用户沟通,提升用户的借款意愿,以达到促用户借款的目的。
在一个具体的实施例中,提供了一种数据处理方法,具体包括以下步骤:
1、获取大量训练样本数据,训练样本数据包括多个训练特征变量。
2、计算得到各训练特征变量对应的基尼系数。
2-1、从各训练特征变量中确定当前特征变量,获取训练样本数据中当前特征变量的当前特征变量集,以及训练样本数据中非当前特征变量的非当前特征变量集。
2-2、计算当前特征变量集中类别为目标类别的第一概率,计算非当前特征变量集中类别为目标类别的第二概率。
2-3、根据训练样本数据集的总数目、当前特征变量集的总数目、非当前特征变量集的总数目、第一概率和第二概率计算得到当前特征变量的当前基尼系数。
2-4、获取下一个训练特征变量,将下一个训练特征变量确定为当前特征变量,返回执行步骤获取训练样本数据中当前特征变量的当前特征变量集,直至计算得到各训练特征变量对应的基尼系数。
3、根据各基尼系数确定各训练特征变量之间的连接关系,得到当前用户资源共享意愿模型。
3-1、将各基尼系数按照升序顺序排列,得到排列后的各基尼系数。
3-2、将最小基尼系数对应的训练特征变量确定为当前用户资源共享意愿模型的起始节点。
3-3、根据排列后的各基尼系数确定起始节点连接的下一训练特征变量,依次类推,得到树状的当前用户资源共享意愿模型。
4、从当前用户资源共享意愿模型中确定当前特征变量分割点,根据当前模型结构计算得到当前用户资源共享意愿模型的当前信息增益。
4-1、根据当前特征变量分割点确定左侧特征变量节点和右侧特征变量节点。
4-2、获取左侧特征变量节点的左侧一阶导数之和以及左侧二阶导数之和。
4-3、获取右侧特征变量节点的右侧一阶导数之和以及右侧二阶导数之和。
4-4、获取预设当前步长和预设当前复杂度代价,根据预设当前步长、预设当前复杂度代价、左侧一阶导数之和、左侧二阶导数之和、右侧一阶导数之和以及右侧二阶导数之和计算得到当前信息增益。
5、在当前信息增益满足预期信息增益值时,确定当前用户资源共享意愿模型为原始用户资源共享意愿模型。
6、通过开发样本数据和实验样本数据对原始用户资源共享意愿模型进行交叉验证,得到目标用户资源共享意愿模型。
6-1、获取开发样本数据中具有借款意愿的样本量,获取具有借款意愿的样本中真正借款的第一人数。
6-2、获取开发样本数据中真正借款的第二人数,获取实验样本数据中真正借款的第三人数。
6-3、根据第二人数和开发样本数据的总数目计算得到开发样本数据对应的第一借款率,根据第一人数和第二人数计算得到借款意愿识别占比。
6-4、根据第三人数和实验样本数据的总数目计算得到实验样本数据对应的第二借款率,根据第一人数和具有借款意愿的样本量计算得到借款意愿识别率。
6-5、在第一借款率与第二借款率的差值达到预设差值时,且借款意愿识别占比和借款意愿识别率分别达到相应的预期目标时,确定原始用户资源共享意愿模型的训练结束,得到目标用户资源共享意愿模型。
7、在当前信息增益不满足预期信息增益值时,更改各训练特征变量之间的连接关系,得到中间用户资源共享意愿模型。
8、将中间用户资源共享意愿模型确定为当前用户资源共享意愿模型,返回执行步骤从当前用户资源共享意愿模型中确定当前特征变量分割点,直至当前信息增益满足预期信息增益值。
9、获取目标用户群对应的目标用户群画像。
10、获取已训练好的目标用户资源共享意愿模型,其中,目标用户资源共享意愿模型是基于训练特征以及训练数据,通过基尼系数的计算进行特征的选取,根据选取后的特征变量构建原始用户资源共享意愿模型,通过对原始用户资源共享意愿模型进行训练得到的。
11、将目标用户群画像输入至目标用户资源共享意愿模型中,通过目标用户资源共享意愿模型对目标用户群画像进行目标用户群特征变量提取,根据提取后的目标用户群特征变量进行推断,输出目标用户群中各个目标用户对应的目标用户资源共享意愿分数。
12、根据目标用户资源共享意愿分数确定对应的目标用户资源共享方式。
12-1、根据目标用户资源共享意愿分数确定所属的目标用户资源共享分布区间。
12-2、获取目标用户资源共享分布区间对应的目标用户资源共享方式,不同用户资源共享分布区间对应不同的用户资源共享方式。
13、向目标用户执行对应的目标用户资源共享方式。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种数据处理装置900,包括:第一获取模块902、第二获取模块904、输入模块906、确定模块908和执行模块910,其中:
第一获取模块902,用于获取目标用户群对应的目标用户群画像。
第二获取模块904,用于获取已训练好的目标用户资源共享意愿模型,其中,目标用户资源共享意愿模型是基于训练特征以及训练数据,通过基尼系数的计算进行特征的选取,根据选取后的特征变量构建原始用户资源共享意愿模型,通过对原始用户资源共享意愿模型进行训练得到的。
输入模块906,用于将目标用户群画像输入至目标用户资源共享意愿模型中,通过目标用户资源共享意愿模型对目标用户群画像进行目标用户群特征变量提取,根据提取后的目标用户群特征变量进行推断,输出目标用户群中各个目标用户对应的目标用户资源共享意愿分数。
确定模块908,用于根据目标用户资源共享意愿分数确定对应的目标用户资源共享方式。
执行模块910,用于向目标用户执行对应的目标用户资源共享方式。
在一个实施例中,数据处理装置900获取大量训练样本数据,训练样本数据包括多个训练特征变量,计算得到各训练特征变量对应的基尼系数,根据各基尼系数确定各训练特征变量之间的连接关系,得到当前用户资源共享意愿模型,从当前用户资源共享意愿模型中确定当前特征变量分割点,根据当前模型结构计算得到当前用户资源共享意愿模型的当前信息增益,在当前信息增益满足预期信息增益值时,确定当前用户资源共享意愿模型为原始用户资源共享意愿模型,通过开发样本数据和实验样本数据对原始用户资源共享意愿模型进行交叉验证,得到目标用户资源共享意愿模型。
在一个实施例中,数据处理装置900获取开发样本数据中具有借款意愿的样本量,获取具有借款意愿的样本中真正借款的第一人数,获取开发样本数据中真正借款的第二人数,获取实验样本数据中真正借款的第三人数,根据第二人数和开发样本数据的总数目计算得到开发样本数据对应的第一借款率,根据第一人数和第二人数计算得到借款意愿识别占比,根据第三人数和实验样本数据的总数目计算得到实验样本数据对应的第二借款率,根据第一人数和具有借款意愿的样本量计算得到借款意愿识别率,在第一借款率与第二借款率的差值达到预设差值时,且借款意愿识别占比和借款意愿识别率分别达到相应的预期目标时,确定原始用户资源共享意愿模型的训练结束,得到目标用户资源共享意愿模型。
在一个实施例中,数据处理装置900在当前信息增益不满足预期信息增益值时,更改各训练特征变量之间的连接关系,得到中间用户资源共享意愿模型,将中间用户资源共享意愿模型确定为当前用户资源共享意愿模型,返回执行从当前用户资源共享意愿模型中确定当前特征变量分割点,直至当前信息增益满足预期信息增益值。
在一个实施例中,数据处理装置900从各训练特征变量中确定当前特征变量,获取训练样本数据中当前特征变量的当前特征变量集,以及训练样本数据中非当前特征变量的非当前特征变量集,计算当前特征变量集中类别为目标类别的第一概率,计算非当前特征变量集中类别为目标类别的第二概率,根据训练样本数据集的总数目、当前特征变量集的总数目、非当前特征变量集的总数目、第一概率和第二概率计算得到当前特征变量的当前基尼系数,获取下一个训练特征变量,将下一个训练特征变量确定为当前特征变量,返回执行步骤获取训练样本数据中当前特征变量的当前特征变量集,直至计算得到各训练特征变量对应的基尼系数。
在一个实施例中,数据处理装置900将各基尼系数按照升序顺序排列,得到排列后的各基尼系数,将最小基尼系数对应的训练特征变量确定为当前用户资源共享意愿模型的起始节点,根据排列后的各基尼系数确定起始节点连接的下一训练特征变量,依次类推,得到树状的当前用户资源共享意愿模型。
在一个实施例中,数据处理装置900根据当前特征变量分割点确定左侧特征变量节点和右侧特征变量节点,获取左侧特征变量节点的左侧一阶导数之和以及左侧二阶导数之和,获取右侧特征变量节点的右侧一阶导数之和以及右侧二阶导数之和,获取预设当前步长和预设当前复杂度代价,根据预设当前步长、预设当前复杂度代价、左侧一阶导数之和、左侧二阶导数之和、右侧一阶导数之和以及右侧二阶导数之和计算得到当前信息增益。
在一个实施例中,数据处理装置900根据目标用户资源共享意愿分数确定所属的目标用户资源共享分布区间,获取目标用户资源共享分布区间对应的目标用户资源共享方式,不同用户资源共享分布区间对应不同的用户资源共享方式。
关于数据处理装置的具体限定可以参见上文中对于数据处理方法的限定,在此不再赘述。上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标用户资源共享意愿模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9或图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取目标用户群对应的目标用户群画像,获取已训练好的目标用户资源共享意愿模型,其中,目标用户资源共享意愿模型是基于训练特征以及训练数据,通过基尼系数的计算进行特征的选取,根据选取后的特征变量构建原始用户资源共享意愿模型,通过对原始用户资源共享意愿模型进行训练得到的,将目标用户群画像输入至目标用户资源共享意愿模型中,通过目标用户资源共享意愿模型对目标用户群画像进行目标用户群特征变量提取,根据提取后的目标用户群特征变量进行推断,输出目标用户群中各个目标用户对应的目标用户资源共享意愿分数,根据目标用户资源共享意愿分数确定对应的目标用户资源共享方式,向目标用户执行对应的目标用户资源共享方式。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取大量训练样本数据,训练样本数据包括多个训练特征变量,计算得到各训练特征变量对应的基尼系数,根据各基尼系数确定各训练特征变量之间的连接关系,得到当前用户资源共享意愿模型,从当前用户资源共享意愿模型中确定当前特征变量分割点,根据当前模型结构计算得到当前用户资源共享意愿模型的当前信息增益,在当前信息增益满足预期信息增益值时,确定当前用户资源共享意愿模型为原始用户资源共享意愿模型,通过开发样本数据和实验样本数据对原始用户资源共享意愿模型进行交叉验证,得到目标用户资源共享意愿模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取开发样本数据中具有借款意愿的样本量,获取具有借款意愿的样本中真正借款的第一人数,获取开发样本数据中真正借款的第二人数,获取实验样本数据中真正借款的第三人数,根据第二人数和开发样本数据的总数目计算得到开发样本数据对应的第一借款率,根据第一人数和第二人数计算得到借款意愿识别占比,根据第三人数和实验样本数据的总数目计算得到实验样本数据对应的第二借款率,根据第一人数和具有借款意愿的样本量计算得到借款意愿识别率,在第一借款率与第二借款率的差值达到预设差值时,且借款意愿识别占比和借款意愿识别率分别达到相应的预期目标时,确定原始用户资源共享意愿模型的训练结束,得到目标用户资源共享意愿模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在当前信息增益不满足预期信息增益值时,更改各训练特征变量之间的连接关系,得到中间用户资源共享意愿模型,将中间用户资源共享意愿模型确定为当前用户资源共享意愿模型,返回执行步骤从当前用户资源共享意愿模型中确定当前特征变量分割点,直至当前信息增益满足预期信息增益值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从各训练特征变量中确定当前特征变量,获取训练样本数据中当前特征变量的当前特征变量集,以及训练样本数据中非当前特征变量的非当前特征变量集,计算当前特征变量集中类别为目标类别的第一概率,计算非当前特征变量集中类别为目标类别的第二概率,根据训练样本数据集的总数目、当前特征变量集的总数目、非当前特征变量集的总数目、第一概率和第二概率计算得到当前特征变量的当前基尼系数,获取下一个训练特征变量,将下一个训练特征变量确定为当前特征变量,返回执行步骤获取训练样本数据中当前特征变量的当前特征变量集,直至计算得到各训练特征变量对应的基尼系数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将各基尼系数按照升序顺序排列,得到排列后的各基尼系数,将最小基尼系数对应的训练特征变量确定为当前用户资源共享意愿模型的起始节点,根据排列后的各基尼系数确定起始节点连接的下一训练特征变量,依次类推,得到树状的当前用户资源共享意愿模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据当前特征变量分割点确定左侧特征变量节点和右侧特征变量节点,获取左侧特征变量节点的左侧一阶导数之和以及左侧二阶导数之和,获取右侧特征变量节点的右侧一阶导数之和以及右侧二阶导数之和,获取预设当前步长和预设当前复杂度代价,根据预设当前步长、预设当前复杂度代价、左侧一阶导数之和、左侧二阶导数之和、右侧一阶导数之和以及右侧二阶导数之和计算得到当前信息增益。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据目标用户资源共享意愿分数确定所属的目标用户资源共享分布区间,获取目标用户资源共享分布区间对应的目标用户资源共享方式,不同用户资源共享分布区间对应不同的用户资源共享方式。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取目标用户群对应的目标用户群画像,获取已训练好的目标用户资源共享意愿模型,其中,目标用户资源共享意愿模型是基于训练特征以及训练数据,通过基尼系数的计算进行特征的选取,根据选取后的特征变量构建原始用户资源共享意愿模型,通过对原始用户资源共享意愿模型进行训练得到的,将目标用户群画像输入至目标用户资源共享意愿模型中,通过目标用户资源共享意愿模型对目标用户群画像进行目标用户群特征变量提取,根据提取后的目标用户群特征变量进行推断,输出目标用户群中各个目标用户对应的目标用户资源共享意愿分数,根据目标用户资源共享意愿分数确定对应的目标用户资源共享方式,向目标用户执行对应的目标用户资源共享方式。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取大量训练样本数据,训练样本数据包括多个训练特征变量,计算得到各训练特征变量对应的基尼系数,根据各基尼系数确定各训练特征变量之间的连接关系,得到当前用户资源共享意愿模型,从当前用户资源共享意愿模型中确定当前特征变量分割点,根据当前模型结构计算得到当前用户资源共享意愿模型的当前信息增益,在当前信息增益满足预期信息增益值时,确定当前用户资源共享意愿模型为原始用户资源共享意愿模型,通过开发样本数据和实验样本数据对原始用户资源共享意愿模型进行交叉验证,得到目标用户资源共享意愿模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取开发样本数据中具有借款意愿的样本量,获取具有借款意愿的样本中真正借款的第一人数,获取开发样本数据中真正借款的第二人数,获取实验样本数据中真正借款的第三人数,根据第二人数和开发样本数据的总数目计算得到开发样本数据对应的第一借款率,根据第一人数和第二人数计算得到借款意愿识别占比,根据第三人数和实验样本数据的总数目计算得到实验样本数据对应的第二借款率,根据第一人数和具有借款意愿的样本量计算得到借款意愿识别率,在第一借款率与第二借款率的差值达到预设差值时,且借款意愿识别占比和借款意愿识别率分别达到相应的预期目标时,确定原始用户资源共享意愿模型的训练结束,得到目标用户资源共享意愿模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在当前信息增益不满足预期信息增益值时,更改各训练特征变量之间的连接关系,得到中间用户资源共享意愿模型,将中间用户资源共享意愿模型确定为当前用户资源共享意愿模型,返回执行步骤从当前用户资源共享意愿模型中确定当前特征变量分割点,直至当前信息增益满足预期信息增益值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从各训练特征变量中确定当前特征变量,获取训练样本数据中当前特征变量的当前特征变量集,以及训练样本数据中非当前特征变量的非当前特征变量集,计算当前特征变量集中类别为目标类别的第一概率,计算非当前特征变量集中类别为目标类别的第二概率,根据训练样本数据集的总数目、当前特征变量集的总数目、非当前特征变量集的总数目、第一概率和第二概率计算得到当前特征变量的当前基尼系数,获取下一个训练特征变量,将下一个训练特征变量确定为当前特征变量,返回执行步骤获取训练样本数据中当前特征变量的当前特征变量集,直至计算得到各训练特征变量对应的基尼系数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将各基尼系数按照升序顺序排列,得到排列后的各基尼系数,将最小基尼系数对应的训练特征变量确定为当前用户资源共享意愿模型的起始节点,根据排列后的各基尼系数确定起始节点连接的下一训练特征变量,依次类推,得到树状的当前用户资源共享意愿模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据当前特征变量分割点确定左侧特征变量节点和右侧特征变量节点,获取左侧特征变量节点的左侧一阶导数之和以及左侧二阶导数之和,获取右侧特征变量节点的右侧一阶导数之和以及右侧二阶导数之和,获取预设当前步长和预设当前复杂度代价,根据预设当前步长、预设当前复杂度代价、左侧一阶导数之和、左侧二阶导数之和、右侧一阶导数之和以及右侧二阶导数之和计算得到当前信息增益。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据目标用户资源共享意愿分数确定所属的目标用户资源共享分布区间,获取目标用户资源共享分布区间对应的目标用户资源共享方式,不同用户资源共享分布区间对应不同的用户资源共享方式。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synch l i nk)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种数据处理方法,所述方法包括:
获取目标用户群对应的目标用户群画像;
获取已训练好的目标用户资源共享意愿模型,其中,所述目标用户资源共享意愿模型是基于训练特征以及训练数据,通过基尼系数的计算进行特征的选取,根据选取后的特征变量构建原始用户资源共享意愿模型,通过对所述原始用户资源共享意愿模型进行训练得到的;
将所述目标用户群画像输入至所述目标用户资源共享意愿模型中,通过所述目标用户资源共享意愿模型对所述目标用户群画像进行目标用户群特征变量提取,根据提取后的所述目标用户群特征变量进行推断,输出所述目标用户群中各个目标用户对应的目标用户资源共享意愿分数;
根据所述目标用户资源共享意愿分数确定对应的目标用户资源共享方式;
向所述目标用户执行对应的目标用户资源共享方式。
2.根据权利要求1所述的方法,其特征在于,所述目标用户资源共享意愿模型的训练步骤包括:
获取大量训练样本数据,所述训练样本数据包括多个训练特征变量;
计算得到各所述训练特征变量对应的基尼系数;
根据各所述基尼系数确定各所述训练特征变量之间的连接关系,得到当前用户资源共享意愿模型;
从所述当前用户资源共享意愿模型中确定当前特征变量分割点,根据所述当前模型结构计算得到所述当前用户资源共享意愿模型的当前信息增益;
在所述当前信息增益满足预期信息增益值时,确定所述当前用户资源共享意愿模型为原始用户资源共享意愿模型;
通过开发样本数据和实验样本数据对所述原始用户资源共享意愿模型进行交叉验证,得到目标用户资源共享意愿模型;
优选地,通过开发样本数据和实验样本数据对所述原始用户资源共享意愿模型进行交叉验证,得到目标用户资源共享意愿模型,包括:
获取所述开发样本数据中具有借款意愿的样本量,获取具有借款意愿的样本中真正借款的第一人数;
获取所述开发样本数据中真正借款的第二人数,获取所述实验样本数据中真正借款的第三人数;
根据所述第二人数和所述开发样本数据的总数目计算得到所述开发样本数据对应的第一借款率,根据第一人数和第二人数计算得到借款意愿识别占比;
根据所述第三人数和所述实验样本数据的总数目计算得到所述实验样本数据对应的第二借款率,根据所述第一人数和所述具有借款意愿的样本量计算得到借款意愿识别率;
在所述第一借款率与所述第二借款率的差值达到预设差值时,且所述借款意愿识别占比和所述借款意愿识别率分别达到相应的预期目标时,确定所述原始用户资源共享意愿模型的训练结束,得到目标用户资源共享意愿模型。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述当前信息增益不满足预期信息增益值时,更改各所述训练特征变量之间的连接关系,得到中间用户资源共享意愿模型;
将所述中间用户资源共享意愿模型确定为当前用户资源共享意愿模型,返回执行步骤从所述当前用户资源共享意愿模型中确定当前特征变量分割点,直至所述当前信息增益满足预期信息增益值。
4.根据权利要求2所述的方法,其特征在于,所述计算得到各所述训练特征变量对应的基尼系数,包括:
从各所述训练特征变量中确定当前特征变量,获取所述训练样本数据中所述当前特征变量的当前特征变量集,以及所述训练样本数据中非当前特征变量的非当前特征变量集;
计算所述当前特征变量集中类别为目标类别的第一概率,计算所述非当前特征变量集中类别为目标类别的第二概率;
根据所述训练样本数据集的总数目、所述当前特征变量集的总数目、所述非当前特征变量集的总数目、所述第一概率和所述第二概率计算得到所述当前特征变量的当前基尼系数;
获取下一个训练特征变量,将所述下一个训练特征变量确定为当前特征变量,返回执行步骤获取所述训练样本数据中所述当前特征变量的当前特征变量集,直至计算得到各所述训练特征变量对应的基尼系数。
5.根据权利要求2所述的方法,其特征在于,所述根据各所述基尼系数确定各所述训练特征变量之间的连接关系,得到当前用户资源共享意愿模型,包括:
将各所述基尼系数按照升序顺序排列,得到排列后的各所述基尼系数;
将最小基尼系数对应的训练特征变量确定为当前用户资源共享意愿模型的起始节点;
根据所述排列后的各所述基尼系数确定所述起始节点连接的下一训练特征变量,依次类推,得到树状的当前用户资源共享意愿模型。
6.根据权利要求2所述的方法,其特征在于,所述根据所述当前模型结构计算得到所述当前用户资源共享意愿模型的当前信息增益,包括:
根据所述当前特征变量分割点确定左侧特征变量节点和右侧特征变量节点;
获取所述左侧特征变量节点的左侧一阶导数之和以及左侧二阶导数之和;
获取所述右侧特征变量节点的右侧一阶导数之和以及右侧二阶导数之和;
获取预设当前步长和预设当前复杂度代价,根据所述预设当前步长、预设当前复杂度代价、所述左侧一阶导数之和、左侧二阶导数之和、右侧一阶导数之和以及右侧二阶导数之和计算得到当前信息增益。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标用户资源共享意愿分数确定对应的目标用户资源共享方式,包括:
根据所述目标用户资源共享意愿分数确定所属的目标用户资源共享分布区间;
获取所述目标用户资源共享分布区间对应的目标用户资源共享方式,不同用户资源共享分布区间对应不同的用户资源共享方式。
8.一种数据处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标用户群对应的目标用户群画像;
第二获取模块,用于获取已训练好的目标用户资源共享意愿模型,其中,所述目标用户资源共享意愿模型是基于训练特征以及训练数据,通过基尼系数的计算进行特征的选取,根据选取后的特征变量构建原始用户资源共享意愿模型,通过对所述原始用户资源共享意愿模型进行训练得到的;
输入模块,用于将所述目标用户群画像输入至所述目标用户资源共享意愿模型中,通过所述目标用户资源共享意愿模型对所述目标用户群画像进行目标用户群特征变量提取,根据提取后的所述目标用户群特征变量进行推断,输出所述目标用户群中各个目标用户对应的目标用户资源共享意愿分数;
确定模块,用于根据所述目标用户资源共享意愿分数确定对应的目标用户资源共享方式;
执行模块,用于向所述目标用户执行对应的目标用户资源共享方式。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110916861.4A CN113781102A (zh) | 2021-08-11 | 2021-08-11 | 数据处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110916861.4A CN113781102A (zh) | 2021-08-11 | 2021-08-11 | 数据处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113781102A true CN113781102A (zh) | 2021-12-10 |
Family
ID=78837327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110916861.4A Pending CN113781102A (zh) | 2021-08-11 | 2021-08-11 | 数据处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113781102A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108022146A (zh) * | 2017-11-14 | 2018-05-11 | 深圳市牛鼎丰科技有限公司 | 征信数据的特征项处理方法、装置、计算机设备 |
CN110348727A (zh) * | 2019-07-02 | 2019-10-18 | 北京淇瑀信息科技有限公司 | 一种基于用户风险等级和用户动支意愿的营销策略制定方法、装置和电子设备 |
CN112561681A (zh) * | 2020-12-08 | 2021-03-26 | 爱信诺征信有限公司 | 确定潜在贷款企业的方法、装置、电子设备及存储介质 |
-
2021
- 2021-08-11 CN CN202110916861.4A patent/CN113781102A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108022146A (zh) * | 2017-11-14 | 2018-05-11 | 深圳市牛鼎丰科技有限公司 | 征信数据的特征项处理方法、装置、计算机设备 |
CN110348727A (zh) * | 2019-07-02 | 2019-10-18 | 北京淇瑀信息科技有限公司 | 一种基于用户风险等级和用户动支意愿的营销策略制定方法、装置和电子设备 |
CN112561681A (zh) * | 2020-12-08 | 2021-03-26 | 爱信诺征信有限公司 | 确定潜在贷款企业的方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109816438B (zh) | 信息推送方法及装置 | |
CN111061962A (zh) | 一种基于用户评分分析的推荐方法 | |
CN107767152B (zh) | 产品购买倾向分析方法及服务器 | |
CN113011884B (zh) | 账户特征的提取方法、装置、设备及可读存储介质 | |
US20230342797A1 (en) | Object processing method based on time and value factors | |
CN110555148A (zh) | 一种用户行为评估方法、计算设备及存储介质 | |
CN115063233A (zh) | 一种银行业务服务流程的实现方法、系统及装置 | |
CN115203550A (zh) | 一种增强邻居关系的社交推荐方法及系统 | |
CN113345564B (zh) | 一种基于图神经网络的患者住院时长早期预测方法及装置 | |
CN109635969B (zh) | 推送资源转移要约的方法及装置 | |
CN110264364B (zh) | 一种投资方的推荐方法 | |
CN113781102A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN114491296B (zh) | 提案联名人推荐方法、系统、计算机设备及可读存储介质 | |
CN113254638B (zh) | 一种产品意象确定方法、计算机设备及存储介质 | |
CN115222112A (zh) | 一种行为预测方法、行为预测模型的生成方法及电子设备 | |
Inoue et al. | Estimating customer impatience in a service system with unobserved balking | |
CN114661887A (zh) | 一种跨领域数据推荐方法、装置、计算机设备及介质 | |
CN114462707A (zh) | 一种基于特征深度融合的Web服务多维QoS联合预测方法 | |
CN114519612A (zh) | 优惠信息发送方法、装置、计算机设备和存储介质 | |
CN115860889A (zh) | 一种基于人工智能的金融贷款大数据管理方法及系统 | |
CN112634061A (zh) | 一种用户数据处理方法及装置 | |
de Oliveira Monteiro et al. | Market prediction in criptocurrency: A systematic literature mapping | |
CN117390455B (zh) | 数据处理方法和装置、存储介质及电子设备 | |
CN113256368B (zh) | 产品推送方法、装置、计算机设备和存储介质 | |
CN113515383B (zh) | 系统资源数据分配方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |