CN114971697A

CN114971697A - 数据处理方法、装置、设备、存储介质及产品

Info

Publication number: CN114971697A
Application number: CN202210518764.4A
Authority: CN
Inventors: 江涛
Original assignee: CCB Finetech Co Ltd
Current assignee: CCB Finetech Co Ltd
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-08-30

Abstract

本发明实施例公开了一种数据处理方法、装置、设备、存储介质及产品，涉及大数据技术领域。该方法包括：获取待检测对象的对象属性信息；将对象属性信息输入至预先创建的目标预测模型中，以通过目标预测模型输出待检测对象的营销成功率；根据营销成功率确定待检测对象对应的营销策略。本实施例的技术方案，有效地为不同的待检测对象提供了更有效的营销策略，以及为符合条件的待检测对象提供个性化的金融方案，从而提高了用户体验满意度和提升了业务办理效率。

Description

数据处理方法、装置、设备、存储介质及产品

技术领域

本发明涉及大数据技术领域，尤其涉及一种数据处理方法、装置、设备、存储介质及产品。

背景技术

在新的时代背景下，银行数字化经营转型势在必行。银行数字化经营是一个全方位、系统化的经营与管理的变革，银行未来的变革是在金融科技的引领和支撑下，发挥自身优势，开拓新的经营、营销思路和方式，适应环境、稳步前行。

小微外贸企业在业务发展过程中往往会出现出口退税审核周期较长、货物应收账款的账期较长等消耗企业原始积累的资金占用问题，而其企业规模及轻资产运营模式一般难以提供足值的抵押物、未能达到主流信贷产品的准入条件，而市场上适用于小微外贸企业的专项融资产品有限，普遍存在融资难题。因此，如何为客户经理提供更有效的营销思路，以及为符合条件的小微外贸企业提供个性化的金融方案，是一个亟待解决的问题。

公开内容

有鉴于此，本发明提供一种数据处理方法、装置、设备、存储介质及产品，有效地提供了更有效的营销策略，以及为符合条件的待检测对象提供个性化的金融方案，从而提高了用户体验满意度和提升了业务办理效率。

根据本发明的一方面，本发明实施例提供了一种数据处理方法，包括：

获取待检测对象的对象属性信息；

将所述对象属性信息输入至预先创建的目标预测模型中，以通过所述目标预测模型输出所述待检测对象的营销成功率；

根据所述营销成功率确定所述待检测对象对应的营销策略。

根据本发明的另一方面，本发明实施例还提供了一种数据处理装置，包括：

获取模块，用于获取待检测对象的对象属性信息；

输出模块，用于将所述对象属性信息输入至预先创建的目标预测模型中，以通过所述目标预测模型输出所述待检测对象的营销成功率；

第一确定模块，用于根据所述营销成功率确定所述待检测对象对应的营销策略。

根据本发明的另一方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的数据处理方法。

根据本发明的另一方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的数据处理方法。

根据本发明的另一方面，本发明实施例还提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序在被处理器执行时实现本发明任一实施例所述的数据处理方法。

本发明实施例的技术方案，通过将待检测对象的对象属性信息输入至目标预测模型中，以通过目标预测模型输出待检测对象的营销成功率，并根据营销成功率确定待检测对象对应的营销策略，有效地为不同的待检测对象提供了更有效的营销策略，以及为符合条件的待检测对象提供个性化的金融方案，从而提高了用户体验满意度和提升了业务办理效率。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种数据处理方法的流程图；

图2是本发明另一实施例提供的一种数据处理方法的流程图；

图3是本发明又一实施例提供的一种数据处理方法的流程图；

图4是本发明一实施例提供的一种目标预测模型的创建流程图；

图5a是本发明实施例提供的一种随机森林模型的ROC曲线示意图；

图5b是本发明实施例提供的一种XGBoost模型的ROC曲线示意图；

图6a是本发明实施例提供的一种随机森林模型的KS曲线示意图；

图6b是本发明实施例提供的一种XGBoost模型的KS曲线示意图；

图7是本发明一实施例提供的一种数据处理装置的结构框图；

图8是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“目标”、“第一”以及“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请所涉及技术方案中对数据的获取存储和/或处理，符合国家法律法规的相关规定。

在一实施例中，图1是本发明一实施例提供的一种数据处理方法的流程图，本实施例可适用于确定与待检测对象相匹配的营销策略的情况，该方法可以由数据处理装置来执行，该数据处理装置可以采用硬件和/或软件的形式实现，该数据处理装置可配置于电子设备中。如图1所示，该方法包括：

S110、获取待检测对象的对象属性信息。

其中，待检测对象指的是需要进行跨境快贷业务申请的对象。在实施例中，待检测对象可以为企业，也可以为用户。优选地，本实施例中的待检测对象可以为小微外贸企业。其中，对象属性信息指的是用于表征待检测对象自身属性的相关信息。在实施例中，在待检测对象为小微外贸企业的情况下，对象属性信息可以包括：企业基本信息、企业信贷逾期情况、企业收支情况、企业实控人的征信信息、企业实控人的信贷逾期情况，等等。在实施例中，可以通过待检测对象的历史交易记录获取对应的对象属性信息。

S120、将对象属性信息输入至预先创建的目标预测模型中，以通过目标预测模型输出待检测对象的营销成功率。

其中，目标预测模型用于对待检测对象的营销成功率进行预测。在实施例中，目标预测模型可以是采用目标数据集对原始预测模型进行训练所得到的模型。需要说明的是，原始预测模型可以为机器学习模型。在实施例中，将待检测对象的对象属性信息输入至预先创建的目标预测模型中，即可通过目标预测模型预测出待检测对象的营销成功率。

其中，营销成功率指的是向待检测对象推销金融产品的成功概率。在实施例中，营销成功率的大小与申请贷款通过可能性成正比。可以理解为，营销成功率的大小用于表征待检测对象申请贷款通过可能性的高低，即若营销成功率越大，则待检测对象申请贷款通过可能性就越大；相反的，若营销成功率越小，则待检测对象申请贷款通过可能性就越小。

S130、根据营销成功率确定待检测对象对应的营销策略。

其中，营销策略指的是客户经理向待检测对象推销金融产品所采用的策略。其中，客户经理指的是金融机构中的工作人员。在实施例中，不同营销成功率的待检测对象，其采用的营销策略也是不同的。在实际操作过程中，可以根据营销成功率将待检测对象划分为对应的对象分组。其中，对象分组可以包括：拒绝/潜在风险客群、人工识别客群和推荐/主动营销客群。可以理解为，不同的对象分组，其对应的营销策略也是不同的。示例性地，在待检测对象所属拒绝/潜在风险客群的情况下，主要对接金融产品为结算类产品，而对于贷款类产品，暂不进行营销；在待检测对象所属人工识别客群的情况下，在营销结算类产品的基础上，可以进一步收集待检测对象的客户资料进行人工筛查，或调用外部数据，如出口退税数据、海关进出口数据、企业征信报告等，根据后续调查结果再对待检测对象做进一步营销规划；在待检测对象所属推荐/主动营销客群的情况下，可以以跨境快贷为抓手，对客户的本外币结算、结售汇、贸易融资等业务需求进行深入挖掘，同时也可与实际控制人建立业务联系，推送相关信息，带动理财产品、个人信用卡等业务开展。

当然，针对不同的对象分组，可以采用不同的营销渠道和实施平台。示例性地，营销渠道可以包括但不限于：短信、电话、上门走访、贷后回访等；实施平台可以包括但不限于：神算子平台、“掌上网点”、小程序、独立的营销系统等。在实施例中，针对拒绝/潜在风险客群，可以采用短信和电话为主进行营销；针对人工识别客群，可以采用短信、电话和上门走访进行营销；针对推荐/主动营销客群，可以采用短信、电话、上门走访和贷后回访进行营销。

本实施例的技术方案，通过将待检测对象的对象属性信息输入至目标预测模型中，以通过目标预测模型输出待检测对象的营销成功率，并根据营销成功率确定待检测对象对应的营销策略，有效地为不同的待检测对象提供了更有效的营销策略，以及为符合条件的待检测对象提供个性化的金融方案，从而提高了用户体验满意度和提升了业务办理效率。

在一实施例中，图2是本发明另一实施例提供的一种数据处理方法的流程图。本实施例是在上述实施例的基础上，对目标预测模型的创建过程进行说明。如图2所示，本实施例中的数据处理方法包括如下步骤：

S210、对预先获取的原始数据进行数据预处理，得到对应的目标数据集。

其中，原始数据指的是预先获取的多个对象的未经处理的对象属性信息。在实施例中，原始数据可以包括：原始样本数据和原始特征数据。其中，原始样本数据指的是多个对象所对对应特征的具体参数信息；原始特征数据指的是多个对象所对应的特征信息。在实施例中，原始特征数据可以理解为未进行预处理的指标集合；原始样本数据可以理解为未进行预处理的每个指标对应的具体参数信息。示例性地，指标集合可以包括但不限于：企业基本信息指标、企业信贷逾期情况、企业收支情况、企业实控人的征信信息、企业实控人的信贷逾期情况。可以理解为，原始特征数据从上述指标集合中选取特征数据，其中，每个指标可以包括多个特征数据。示例性地，企业基本信息指标可以包括：企业名称、企业成立开始时间和企业所在地点等等；企业信贷逾期情况可以包括：企业贷款情况和企业信用情况等等；企业收支情况可以包括：企业收入情况和企业支出情况等；企业实控人的信贷逾期情况可以包括：企业实控人的贷款情况和企业实控人的信用情况等等。可以理解为，可以由原始数据对应的多个字段组成建模的特征清单。

在实施例中，为了解决原始数据中存在不完整、数据不一致以及数据噪声的问题，可以对原始数据对应的特征清单进行数据预处理，以得到对应的目标数据集。其中，数据预处理用于检查数据的准确性并掌握数据的整体情况，解决数据的无效性、集中度高、缺失情况、异常情况以及数据不一致等问题，从而使其成为满足建模要求的数据源，作为目标数据集。

S220、将目标数据集分别输入至预先创建的至少两个原始预测模型中，以对每个原始预测模型进行训练，得到对应的中间预测模型。

其中，原始预测模型指的是未通过目标数据集进行训练的模型。在实施例中，原始预测模型可以为机器学习模型。示例性地，原始预测模型可以包括但不限于：随机森林模型、支持向量机(Support Vector Machines，SVM) 模型和XGBoost(Extreme GradientBoosting)模型。需要说明的是，可以选取至少两个原始预测模型，并采用目标数据集对每个原始预测模型进行训练，以得到对应的中间预测模型。

S230、根据每个中间预测模型的区分能力确定目标预测模型。

在实施例中，在通过目标数据集训练得到多个中间预测模型之后，对每个中间预测模型的区分能力进行评估，以判断每个中间预测模型是否可以适用于实际的预测场景。可以理解为，根据中间预测模型的区分能力从多个中间预测模型中选取一个中间预测模型作为目标预测模型。可以理解为，目标预测模型为所有中间预测模型中区分能力最佳的中间预测模型。

S240、获取待检测对象的对象属性信息。

S250、将对象属性信息输入至预先创建的目标预测模型中，以通过目标预测模型输出待检测对象的营销成功率。

S260、根据营销成功率确定待检测对象对应的营销策略。

本实施例的技术方案，在上述实施例的基础上，采用目标数据集对多个原始预测模型进行训练，得到对应的中间预测模型，并根据每个中间预测模型的区分能力确定目标预测模型，从而可以选择区分能力最佳的中间预测模型作为目标预测模型，从而保证了目标预测模型的预测准确率，进而提高了待检测对象的体验满意度，以及提升了客户经理的业务办理效率。

在一实施例中，图3是本发明又一实施例提供的一种数据处理方法的流程图。本实施例是在上述实施例的基础上，对目标预测模型的创建过程作进一步的细化说明。如图3所示，本实施例中的数据处理方法包括如下步骤：

S310、分别对预先获取的原始样本数据和原始特征数据进行数据清洗操作，得到对应的目标样本子集和中间特征数据。

需要说明的是，数据清洗的目的是处理在数据核对过程中发现的数据问题，其目的在于，由于预测模型的质量在很大程度上依赖于建模数据的量，经过调整后的数据仍然无法使用，则可以将其删除。其中，分箱方法是数据清洗过程中常用的一种方法，具体是通过周围相邻数据的值来平滑当前数据的值。分箱的过程具体包括：首先，对数据进行排序，然后按照一定的规则对属性值划分若干子区间，如果属性值在某个子区间范围内，就把该属性值放入这个子区间所代表的“箱子”范围内进行处理，用处理完毕后的属性值更新原先的属性值，对所有的箱子进行类似处理。示例性地，可以采用卡方分箱法进行分箱。

在实施例中，对原始数据进行数据清洗操作，可以包括：业务逻辑字段唯一性处理、数据异常和缺失值处理、过高单值率字段处理。

其中，业务逻辑字段唯一性处理，具体包括如下：在唯一性核对中，如果发现数据不符合业务逻辑要求的唯一性，或者同一对象在不同的系统环境中不能够唯一地识别，就需要分析数据是否在业务含义的设定上出现了问题，并调整数据使之满足唯一性要求。如果调整后仍然无法使数据满足唯一性要求的，就需要删除此数据，唯一性核对主要关注需要评估数据是否符合业务逻辑要求的唯一性。例如，同一客户在各表中的客户编号信息应当是唯一的。

数据异常和缺失值处理，具体包括如下：在有效性核对中，对于异常值的处理比较简单，无法反映业务实际情况的异常值通常需要删除。对于缺失值的处理要区分不同的情况，处理方式如下：其一：某个风险因素的数据缺失值超过一定比例时(例如80％)，则将此风险因素删除；其二，对于缺失值的比例小于20％时，如果为标签数据，则通常以好客户(即第一类型对象) 或坏客户(即第二类型对象)的比例与之最接近的类别值代替；如果为连续型数据，则通常以所在客户类型的中位数代替。当数据中的极端值比例很低时，也可以用平均值；其三，缺失值比率在20％和80％之间的字段，如果是标签数据可以当作一个单独的类别；如果是数值型字段也要删除该字段。

其中，第一类型对象指的是申请贷款可以通过的对象；第二类型对象指的是申请贷款被拒绝的对象。

过高单值率字段处理，具体包括如下：针对个别字段单值率超过90％时，当“多数值”和“少数值”有显著差别，且“少数值”的坏样本率高于“多数值”。此时，“少数值”的存在表明该值对应的风险很高，字段需要保留。当“多数值”和“少数值”坏样本率相差不大，或者“多数值”坏样本率高于“少数值”时，删除该字段。

其中，目标样本子集指的是对原始样本数据进行数据清洗得到的数据集合。在实施例中，目标样本子集中包含对原始样本数据进行数据清洗操作之后得到的样本数据。可以理解为，只需对原始数据中的原始样本数据进行数据清洗，即可得到对应的目标样本子集；而需要对原始数据中的原始特征数据进行数据清洗和特征筛选，得到对应的目标特征子集。在实施例中，对原始特征进行数据清洗操作之后，得到对应的中间特征数据。

S320、对中间特征数据进行特征筛选，得到对应的目标特征子集。

需要说明的是，在数据清洗的过程中，对于有问题的数据，对数据经过适当处理和调整，使其尽量满足建模的要求。当然，数据清洗之后的中间特征数据存在信息冗余问题。为了解决特征数据的信息冗余问题，对中间特征数据进行特征筛选。

在一实施例中，S320包括：S3201-S3203：

S3201、确定每个中间特征数据的信息值(Information Value，IV)值。

需要说明的是，IV值用于表示特征对目标预测的贡献程度，即特征的预测能力。一般来说，IV值越高，该特征的预测能力越强，信息贡献程度越高。其中，IV范围可以包括：小于0.02，0.02-0.1,0.1-0.3,0.3-0.5，大于0.5。其中，不同的IV范围，其对应的预测效果也是不同的，对应的，与IV范围对应的预测效果依次包括：几乎没有，弱，中等，强，难以置信需确认。

在实施例中，首先对每个中间特征数据的取值计算证据权重(Weight ofEvdience，WOE)值，以降低中间特征数据的个数，并且可以平滑中间特征数据的变化趋势，并在此基础上计算IV值，并根据IV值的大小确定中间特征子集。

其中，WOE的计算公式如下：

其中，WOE_i，表示第i个分箱对应的WOE值；g_i，表示第i个分箱对应的第一类型对象的个数；b_i，表示第i个分箱对应的第二类型对象的个数；g，表示样本中第一类型对象的总个数；b，表示样本中第二类型对象的总个数。

IV值用来衡量某个中间特征数据对第一类型对象和第二类型对象区分能力的一个指标，IV值越大表示第一类型对象和第二类型对象在该变量的分布差异越大，也即该变量的区分能力越好。其计算公式为：

S3202、按照IV值对中间特征数据进行筛选，得到对应的中间特征子集。

在实施例中，计算每个中间特征数据的IV值，根据每个中间特征数据的 IV值筛选掉对第一类型对象和第二类型对象进行区分，重要程度较小的部分中间特征数据，得到对应的中间特征子集。

S3203、对中间特征子集进行多变量分析，得到对应的目标特征子集。

在实施例中，在根据IV值完成每个中间特征数据的单变量分析之后，利用多变量分析进一步地缩减变量规模，形成全局更优的变量体系。在实施例中，多变量分析可以从变量间的两两线性相关性和变量间的多重共线性进行分析。其中，变量的两两线性相关性检验可以通过相关性矩阵来判断，当变量直接的相关系数大于0.8时，保留IV值比较小的变量。在实施例中，可以采用方差膨胀因子VIF来衡量是否存在多重共线性。对于VIF>10，可以认为变量间存在多重共线性。此时，需要逐步从f₁,f₂,…,f_j剔除一个变量，剩余的变量与f_i计算VIF。如果发现当剔除f_k后剩余变量对f_i的VIF低于10，则从f_i与 f_k中剔除IV较低的一个。

在对中间特征子集中的每个特征数据进行多变量分析之后，即可得到对应的目标特征子集。

S330、对目标样本子集和目标特征子集进行组合，得到对应的目标数据集。

在实施例中，对目标样本子集中每个样本与目标特征子集中对应的特征进行组合，得到对应的目标数据集。可以理解为，假设对象1包括三个特征数据，分别为特征数据1、特征数据2和特征数据3，并且，每个特征数据对应两个样本数据，分别为样本数据11、样本数据12、样本数据 21、样本数据22、样本数据31和样本数据32，则将目标样本子集中的特征数据1与目标特征子集中的样本数据11和样本数据12进行组合，将目标样本子集中的特征数据2与目标特征子集中的样本数据21和样本数据 22进行组合，将目标样本子集中的特征数据3与目标特征子集中的样本数据31和样本数据32进行组合，得到对应的目标数据集。

S340、确定目标数据集中第一类型对象和第二类型对象之间的数据量比例。

在实施例中，为了保证目标数据集中第一类型对象和第二类型对象之间样本数量的均衡，可以分别对目标数据集中第一类型对象的总数据量和第二类型对象的总数据量进行调整。首先确定目标数据集中第一类型对象的总数据量和第二类型对象的总数据量，然后将第一类型对象的总数据量和第二类型对象的总数据量进行比值，得到对应的数据量比例。

S350、在数据量比例未达到预设比例阈值时，采用过采样方式对目标数据集中第一类型对象和第二类型对象的数据量进行调整，得到对应的目标数据集。

其中，预设比例阈值指的是预先配置的第一类型对象和第二类型对象之间数据量比例的门限值。可以理解为，为了保证目标数据集中第一类型对象和第二类型对象的样本数量的均衡，目标数据集中第一类型对象的总数据量和第二类型对象的总数据量之间的数据量比例需要达到预设比例阈值；若两者之间的数据量比例未达到预设比例阈值时，可以采用过采样方式对目标数据集中第一类型对象和第二类型对象的数据量进行调整，得到对应的目标数据集。其中，过采样方式主要是在少数类样本之间进行插值，以产生额外的样本。具体地，对于一个少数类样本x_i使用k近邻法(k 值需要提前指定)，求出离x_i距离最近的k个少数类样本，其中距离定义为样本之间n维特征空间的欧氏距离。然后从k个近邻点中随机选取一个，使用下列公式生成新样本：x_new＝x_i+(x′_i-x_i)*α。其中，x′_i为选出的k近邻点，α∈[0,1]是一个随机数。

在实施例中，根据目标数据集中第一类型对象和第二类型对象之间的数据量比例，可以确定目标数据集中样本数量较少的对象，然后采用过采样方式增加目标数据集中样本数量较少的对象，直至数据量比例达到预设比例阈值为止，然后将调整之后的作为目标数据集。

S360、对目标数据集进行拆分，得到对应的数据训练集、数据测试集和数据验证集。

需要说明的是，在对模型进行建模和训练的过程中，一般可将数据集划分为数据训练集、数据测试集和数据验证集。其中，数据训练集用于估计模型中的参数，使模型能够反映现实，进而预测未来或其它未知的信息；数据测试集用于评估模型的预测性能。一般来说，数据训练集在建模过程中被大量经常使用，而数据测试集只作为最终模型的评价出现；数据验证集用于对模型中参数的少量调整。在实际操作过程中，可以按照预设划分比例，对目标数据集进行拆分。示例性地，可以按照数据训练集、数据测试集和数据验证集之间的数据量比例为6:2:2，将目标数据集拆分为数据训练集、数据测试集和数据验证集。

S370、依次将数据训练集、数据测试集和数据验证集输入至预选创建的至少两个原始预测模型中，以对每个原始预测模型进行训练，得到对应的中间预测模型。

首先，将数据训练集输入至预先创建的至少两个原始预测模型中，以得到训练之后的预测模型；然后采用数据验证集对训练之后的预测模型进行少量调整；最后采用数据测试集对中间预测模型的预测能力进行评价。

S380、确定每个中间预测模型的KS值和Gini系数。

其中，模型的区分能力用于表征模型区分第一类型对象和第二类型对象的程度，在不用样本上的区分能力说明其稳定性。其中，区分能力的常用指标包括：KS值和Gini系数。

其中，KS值和Gini系数的确定方式可参见现有技术，在此不再赘述。在实施例中，采用现有的KS值和Gini系数的确定方式，确定每个中间预测模型的KS值和Gini系数。

S390、将KS值和Gini系数均最高的中间预测模型作为目标预测模型。

在实施例中，在得到每个中间预测模型的KS值和Gini系数之后，对每个中间预测模型的KS值和Gini系数进行分析，并将KS值和Gini系数均最高的中间预测模型作为目标预测模型。

S3100、获取待检测对象的对象属性信息。

S3110、将对象属性信息输入至预先创建的目标预测模型中，以通过目标预测模型输出待检测对象的营销成功率。

S3120、根据营销成功率确定待检测对象对应的营销成功分值。

在实施例中，通过目标预测模型输出待检测对象的营销成功率之后，采用分值尺度化将营销成功率转换为对应的营销成功分值。其中，营销成功分值的单调性与营销成功率成反比，即营销成功分值越高，则违约的概率就越低，相应的，待检测对象的信用资质就越好。

在实施例中，营销成功率与营销成功分值之间的转换公式如下：

其中，p为第一类型对象的概率；PDO的含义即为，当好坏比上升1倍时，分数上升PDO个单位；基础分值Base Point要使得所有的评分的取值为正。

S3130、根据营销成功分值确定待检测对象对应的营销策略。

在一实施例中，数据处理方法，还包括：预先创建营销成功分值范围、对象分组、贷款办理成功率与营销策略之间的映射关系。其中，营销成功分值范围指的是预先划分的多个取值范围，示例性地，可以包括：小于等于180，大于180小于等于330，大于330；对象分组指的是不同的对象分类，示例性地，可以包括：拒绝/潜在风险客群；人工识别客群；推荐/主动营销客群；贷款办理成功率用于表征待检测对象能够成功申请贷款的概率，可以理解为，贷款办理成功率与营销成功分值范围成正比，营销成功分值范围所对应的数值越大，则贷款办理成功率就越高。在实施例中，预先在营销成功分值范围、对象分组、贷款办理成功率与营销策略之间建立映射关系，即营销成功分值范围、对象分组、贷款办理成功率与营销策略之间是一一对应关系。

在一实施例中，根据营销成功分值确定待检测对象对应的营销策略，包括：根据营销成功分值确定待检测对象所属的对象分组；根据对象分组与营销策略之间的映射关系查找待检测对象对应的营销策略。在实施例中，可以根据营销成功分值确定待检测对象所对应的对象分组，即确定待检测对象的客群类型；然后根据对象分组与营销策略之间的映射关系，即可确定待检测对象的营销策略。

在一实施例中，根据营销成功分值确定待检测对象对应的营销策略，包括：根据营销成功分值确定所对应的营销成功分值范围；根据营销成功分值范围与营销策略之间的映射关系查找待检测对象对应的营销策略。在实施例中，可以根据营销成功分值确定所对应的营销成功分值范围；然后根据营销成功分值范围与营销策略之间的映射关系，即可确定待检测对象的营销策略。

在一实施例中，数据处理方法，还包括：根据营销成功分值确定所对应的营销成功分值范围；根据营销成功分值范围与贷款办理成功率之间的映射关系确定待检测对象的贷款办理成功率。需要说明的是，营销成功分值范围与贷款办理成功率之间是一一映射关系，则根据营销成功分值即可确定所属的营销成功分值范围，然后根据营销成功分值范围与贷款办理成功率之间的映射关系，即可确定待检测对象的贷款办理成功率。

本实施例的技术方案，在上述实施例的基础上，通过目标预测模型对待检测对象进行初筛，可以快速识别出拒绝/潜在风险客群、人工识别客群和推荐/主动营销客群，并在已知待检测对象的对象属性信息的情况下，在对待检测对象进行金融产品的营销之前，可以提升业务办理成功率；并且，通过目标预测模型，客户经理可以预先输入待检测对象的对象属性信息，可提前对待检测对象的营销成功率进行初筛，对于通过可能性较大的对象再进行主动营销或上门指导，而对于人工筛查的对象进行后台维护和信息补录，大大算短了业务办理时间和上门营销次数，提升了业务办理积极性。

当然，可以充分挖掘待检测对象的需求，提高待检测对象的产品覆盖度。地，假设待检测对象为小微外贸企业，则可以通过识别“小微外贸”标识，即识别发生国际结算或标记进出口权的小微客户，在此基础上充分利用该金融机构的客户优势，对于“小微外贸”标识客户在该金融机构办理业务或其他账户业务的同时，同步营销外币账户，对客户的国际结算、结售汇、贸易融资等业务需求进行深入挖掘，同时利用公私联动、柜面结算经理和对公客户经理之间的联动，从源头抓好跨境快贷业务营销，提高跨境快贷业务普及率，促进客户本外币业务同步在该金融机构的办理。

在一实施例中，图4是本发明一实施例提供的一种目标预测模型的创建流程图。本实施例是在上述实施例的基础上，对目标预测模型的确定过程进行说明。如图4所示，本实施例中的目标预测模型的确定过程包括如下步骤：

S410、获取原始数据。

S420、对原始数据进行清洗，得到对应的目标样本子集和中间特征数据。

S430、对中间特征数据进行特征筛选，得到对应的目标特征子集。

S440、将目标样本子集和目标特征子集组合为目标数据集。

S450、将目标数据集拆分为数据训练集、数据验证集和数据测试集。

S460、依次将数据训练集和数据训练集分别输入至原始的随机森林模型、SVM模型和XGBoost模型。

S470、将数据测试集输入至训练之后的随机森林模型、SVM模型和 XGBoost模型，得到测试结果。

S480、根据测试结果确定目标预测模型。

在本实施例中，选取三种分类模型，分别为随机森林模型、SVM模型和XGBoost模型；然后采用目标数据集分别对原始的随机森林模型、原始的SVM模型和原始的XGBoost模型进行训练。由于支持向量机训练时间较长，可以采用随机森林模型和XGBoost模型的预测结果进行对比。对随机森林模型和XGBoost模型的KS值和AR值进行分析，随机森林模型采用数据训练集和数据验证集进行训练，得到的KS值分别为50.1和49.6，得到的AR值分别为56.3和55.6；XGBoost模型采用数据训练集和数据验证集进行训练，得到的KS值分别为54.3和52.2，得到的AR值分别为58.1 和57.2。由此可见，XGBoost模型的KS值和AR值均比单独使用随机森林模型要高，说明XGBoost模型的区分能力更好；XGBoost模型的KS值和AR值在数据训练集和数据验证集上差异不大，相比单独使用随机森林模型来说，具有更好的泛化能力，从多次验证获取的统计值的分位数区间也可以看出XGBoost的稳定性更强。

其中，ROC值一般在0.5-1之间，ROC值越大表示模型判断准确性越高，即越接近1越好。在一实施例中，图5a是本发明实施例提供的一种随机森林模型的ROC曲线示意图；图5b是本发明实施例提供的一种 XGBoost模型的ROC曲线示意图。如图5a和5b所示，XGBoost模型与随机森林模型相比，XGBoost模型的ROC值较高一些，即XGBoost模型在区分能力上比随机森林模型有了较大幅度的提高，并且，XGBoost模型较随机森林模型来说，有较高的稳定性和泛化性，则区分能力更佳一些。

在一实施例中，图6a是本发明实施例提供的一种随机森林模型的KS 曲线示意图；图6b是本发明实施例提供的一种XGBoost模型的KS曲线示意图。如图6a和6b所示，XGBoost模型的KS值和AR值均比单独使用随机森林模型要高，说明XGBoost模型的区分能力更好。

由上述分析结果可知，XGBoost模型较随机森林模型(传统模型)在区分能力上有了较大幅度的提高，如XGBoost的AUC值相比随机森林的 AUC值提高了5％，同时延续了随机森林模型的稳定性和解释性；XGBoost 模型较纯粹随机森林模型(机器学习模型)在稳定性、泛化性上有着较大的优势，区分能力也更加优越。

需要说明的是，本申请实施例中的KS值、AUC值、Gini系数、ROC 值和WOE值均为用于对模型的区分能力进行判断的参数。

在一实施例中，图7是本发明一实施例提供的一种数据处理装置的结构框图，该装置适用于确定与待检测对象相匹配的营销策略的情况，该装置可以由硬件/软件实现。可配置于电子设备中来实现本发明实施例中的一种数据处理方法。如图7所示，该装置包括：获取模块710、输出模块720和第一确定模块730。

获取模块710，用于获取待检测对象的对象属性信息；

输出模块720，用于将对象属性信息输入至预先创建的目标预测模型中，以通过目标预测模型输出待检测对象的营销成功率；

第一确定模块730，用于根据营销成功率确定待检测对象对应的营销策略。

在一实施例中，在获取待检测对象的对象属性信息之前，数据处理装置，还包括：

预处理模块，用于对预先获取的原始数据进行数据预处理，得到对应的目标数据集；

训练模块，用于将目标数据集分别输入至预先创建的至少两个原始预测模型中，以对每个原始预测模型进行训练，得到对应的中间预测模型；

第二确定模块，用于根据每个中间预测模型的区分能力确定目标预测模型。

在一实施例中，原始数据包括：原始样本数据和原始特征数据；预处理模块，包括：

预处理单元，用于分别对预先获取的原始样本数据和原始特征数据进行数据清洗操作，得到对应的目标样本子集和中间特征数据；

筛选单元，用于对中间特征数据进行特征筛选，得到对应的目标特征子集；

组合单元，用于对目标样本子集和目标特征子集进行组合，得到对应的目标数据集。

在一实施例中，筛选单元，包括：

第一确定子单元，用于确定每个中间特征数据的信息值IV值；

筛选子单元，用于按照IV值对中间特征数据进行筛选，得到对应的中间特征子集；

分析单元，用于对中间特征子集进行多变量分析，得到对应的目标特征子集。

在一实施例中，在将目标数据集分别输入至预先创建的至少两个原始预测模型中，以对每个原始预测模型进行训练，得到对应的目标预测模型之前，数据处理装置，还包括：

第三确定模块，用于确定目标数据集中第一类型对象和第二类型对象之间的数据量比例；

调整模块，用于在数据量比例未达到预设比例阈值时，采用过采样方式对目标数据集中第一类型对象和第二类型对象的数据量进行调整，得到对应的目标数据集。

在一实施例中，第一确定模块730，包括：

第一确定单元，用于根据营销成功率确定待检测对象对应的营销成功分值；

第二确定单元，用于根据营销成功分值确定待检测对象对应的营销策略。

在一实施例中，训练模块，包括：

拆分单元，用于对目标数据集进行拆分，得到对应的数据训练集、数据测试集和数据验证集；

训练单元，用于依次将数据训练集、数据测试集和数据验证集输入至预选创建的至少两个原始预测模型中，以对每个原始预测模型进行训练，得到对应的中间预测模型。

在一实施例中，第二确定模块，包括：

第三确定单元，用于确定每个中间预测模型的KS值和Gini系数；

第四确定单元，用于将KS值和Gini系数均最高的中间预测模型作为目标预测模型。

在一实施例中，数据处理装置，还包括：

创建模块，用于预先创建营销成功分值范围、对象分组、贷款办理成功率与营销策略之间的映射关系。

在一实施例中，第二确定单元，包括：

第二确定子单元，用于根据营销成功分值确定待检测对象所属的对象分组；

第一查找子单元，用于根据对象分组与营销策略之间的映射关系查找待检测对象对应的营销策略。

在一实施例中，第二确定单元，包括：

第三确定子单元，用于根据营销成功分值确定所对应的营销成功分值范围；

第二查找子单元，用于根据营销成功分值范围与营销策略之间的映射关系查找待检测对象对应的营销策略。

在一实施例中，数据处理装置，还包括：

第四确定模块，用于根据营销成功分值确定所对应的营销成功分值范围；

第五确定模块，用于根据营销成功分值范围与贷款办理成功率之间的映射关系确定待检测对象的贷款办理成功率。

本发明实施例所提供的数据处理装置可执行本发明任意实施例所提供的数据处理方法，具备执行方法相应的功能模块和有益效果。

在一实施例中，图8是本发明实施例提供的一种电子设备的结构示意图，如图8所示，示出了可以用来实施本发明的实施例的电子设备的结构连接关系。电子设备10旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/ 或者要求的本发明的实现。

如图8所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14 彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如数据处理方法。

在一些实施例中，数据处理方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的数据处理方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件) 而被配置为执行数据处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/ 或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

在一实施例中，本发明实施例还包括一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序在被处理器执行时实现本发明任一实施例所述的数据处理方法。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

获取待检测对象的对象属性信息；

根据所述营销成功率确定所述待检测对象对应的营销策略。

2.根据权利要求1所述的方法，其特征在于，在所述获取待检测对象的对象属性信息之前，还包括：

对预先获取的原始数据进行数据预处理，得到对应的目标数据集；

将所述目标数据集分别输入至预先创建的至少两个原始预测模型中，以对每个所述原始预测模型进行训练，得到对应的中间预测模型；

根据每个所述中间预测模型的区分能力确定目标预测模型。

3.根据权利要求2所述的方法，其特征在于，所述原始数据包括：原始样本数据和原始特征数据；所述对预先获取的原始数据进行数据预处理，得到对应的目标数据集，包括：

分别对预先获取的原始样本数据和原始特征数据进行数据清洗操作，得到对应的目标样本子集和中间特征数据；

对所述中间特征数据进行特征筛选，得到对应的目标特征子集；

对所述目标样本子集和所述目标特征子集进行组合，得到对应的目标数据集。

4.根据权利要求3所述的方法，其特征在于，所述对所述中间特征数据进行特征筛选，得到对应的目标特征子集，包括：

确定每个所述中间特征数据的信息值IV值；

按照所述IV值对所述中间特征数据进行筛选，得到对应的中间特征子集；

对所述中间特征子集进行多变量分析，得到对应的目标特征子集。

5.根据权利要求2所述的方法，其特征在于，所述在将所述目标数据集分别输入至预先创建的至少两个原始预测模型中，以对每个所述原始预测模型进行训练，得到对应的目标预测模型之前，还包括：

确定所述目标数据集中第一类型对象和第二类型对象之间的数据量比例；

在所述数据量比例未达到预设比例阈值时，采用过采样方式对目标数据集中第一类型对象和第二类型对象的数据量进行调整，得到对应的目标数据集。

6.根据权利要求1所述的方法，其特征在于，所述根据所述营销成功率确定所述待检测对象对应的营销策略，包括：

根据所述营销成功率确定所述待检测对象对应的营销成功分值；

根据所述营销成功分值确定所述待检测对象对应的营销策略。

7.根据权利要求2所述的方法，其特征在于，所述将所述目标数据集分别输入至预先创建的至少两个原始预测模型中，以对每个所述原始预测模型进行训练，得到对应的中间预测模型，包括：

对所述目标数据集进行拆分，得到对应的数据训练集、数据测试集和数据验证集；

依次将所述数据训练集、所述数据测试集和数据验证集输入至预选创建的至少两个原始预测模型中，以对每个所述原始预测模型进行训练，得到对应的中间预测模型。

8.根据权利要求2所述的方法，其特征在于，所述根据每个所述中间预测模型的区分能力确定目标预测模型，包括：

确定每个所述中间预测模型的KS值和Gini系数；

将所述KS值和所述Gini系数均最高的中间预测模型作为目标预测模型。

9.根据权利要求6所述的方法，其特征在于，所述方法，还包括：

预先创建营销成功分值范围、对象分组、贷款办理成功率与营销策略之间的映射关系。

10.根据权利要求9所述的方法，其特征在于，所述根据所述营销成功分值确定所述待检测对象对应的营销策略，包括：

根据所述营销成功分值确定所述待检测对象所属的对象分组；

根据所述对象分组与所述营销策略之间的映射关系查找所述待检测对象对应的营销策略。

11.根据权利要求9所述的方法，其特征在于，所述根据所述营销成功分值确定所述待检测对象对应的营销策略，包括：

根据所述营销成功分值确定所对应的营销成功分值范围；

根据所述营销成功分值范围与所述营销策略之间的映射关系查找所述待检测对象对应的营销策略。

12.根据权利要求9所述的方法，其特征在于，所述方法，还包括：

根据所述营销成功分值确定所对应的营销成功分值范围；

根据所述营销成功分值范围与贷款办理成功率之间的映射关系确定所述待检测对象的贷款办理成功率。

13.一种数据处理装置，其特征在于，包括：

获取模块，用于获取待检测对象的对象属性信息；

14.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-12中任一项所述的数据处理方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-12中任一项所述的数据处理方法。

16.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-12中任一项所述的数据处理方法。