CN117807302B

CN117807302B - 一种客户信息的处理方法及装置

Info

Publication number: CN117807302B
Application number: CN202311255417.8A
Authority: CN
Inventors: 叶超; 孙杨博; 夏全龙
Original assignee: Bank of Communications Co Ltd Beijing Branch
Current assignee: Bank of Communications Co Ltd Beijing Branch
Priority date: 2023-09-26
Filing date: 2023-09-26
Publication date: 2024-05-31
Anticipated expiration: 2043-09-26
Also published as: CN117807302A

Abstract

本文涉及大数据领域，提供了一种客户信息的处理方法及装置，其中，方法包括：获取客户信息，其中，所述客户信息包括客户基础数据及客户各渠道的消费行为数据，所述消费行为数据包括多个交易流水信息；分析客户各渠道的消费行为数据，得到客户每一笔交易流水信息的业务场景；根据客户的每一笔交易流水信息的业务场景，统计得到客户的业务场景标签信息；由客户基础数据及客户业务场景标签信息，构成客户画像信息。本文能够全面获得各客户的业务场景标签信息，通过业务标签信息能够直观地反映客户的消费行为特征，提高客户画像确定的全面性及准确性。

Description

一种客户信息的处理方法及装置

技术领域

本文涉及大数据领域，尤其涉及一种客户信息的处理方法及装置。

背景技术

现有技术中，产品、活动、广告等信息的推送，主要有如下几种方式：

第一种方式，对待推送信息进行海量投放，如给存量几百万客户终端推送信息。该种方式存在成本高、影响用户体验的问题。

第二种方式，根据用户的特征集构建训练集，利用训练集训练机器学习模型，利用训练好的机器学习模型对待分析客户对目标的接受度进行预测。该种方式效果好坏与训练数量大小、客户特征数量以及特征质量高低密切相关，现实中受客户的画像特征集合过小以及画像特征质量不高等问题，通常存在预测目标接受结果(例如是否感兴趣、是否购买等)准确率偏低的问题。

另外，现有技术中客户画像构建仅基于客户基本数据及交易行为数据，并未对客户交易行为数据进行进一步分析，客户交易行为数据不能直接反应客群的行为特点，因此，现有客户画像构建存在不全面及不准确的问题。

发明内容

本文用于解决现有技术中客户画像构建存在不全面、准确性差的问题，进而导致基于客户画像特征训练得到的目标对象结果预测模型存在准确率偏低的问题。

为了解决上述技术问题，本文一方面提供一种客户信息的处理方法，包括：

获取客户信息，其中，所述客户信息包括客户基础数据及客户各渠道的消费行为数据，所述消费行为数据包括多个交易流水信息；

分析客户各渠道的消费行为数据，得到客户每一笔交易流水信息的业务场景；

根据客户的每一笔交易流水信息的业务场景，统计得到客户的业务场景标签信息；

由客户基础数据及客户业务场景标签信息，构成客户画像信息。

作为本文进一步实施例中，分析客户各渠道的消费行为数据，得到客户每一笔交易流水信息对应的业务场景，包括：

根据渠道-技术摘要区字典表，确定客户各渠道的每一笔交易流水信息中的技术摘要信息，其中，所述渠道-技术摘要区字典表包括渠道与技术摘要字段信息的对应关系；

对客户各渠道的每一笔交易流水信息中的技术摘要信息进行数据清洗；

对清洗后每一笔交易流水信息进行分词处理，并提取关键字；

将客户每一笔交易流水信息的关键字与场景关键词词典进行匹配，将匹配成功的第一级业务场景及第二级业务场景作为客户每一笔交易流水信息的业务场景，其中，所述场景关键词词典包括第一级业务场景与第二级业务场景以及关键词间的关联关系。

作为本文进一步实施例中，还包括：

收集匹配失败的客户的交易流水信息；

根据匹配失败的客户的交易流水信息，确定增量第一级业务场景与增量第二级业务场景以及关键词间的关联关系，并将其存储于所述场景关键词词典中。

作为本文进一步实施例中，根据客户的每一笔交易流水信息的业务场景，统计得到客户的业务场景标签信息，包括：

根据客户的每一笔交易流水信息的业务场景，统计客户各业务场景的交易参数，其中，交易参数包括交易次数及交易金额；

将客户各业务场景及其交易参数作为客户的业务场景标签信息。

作为本文进一步实施例中，还包括：

对于每一客户的每一业务场景，比较该客户的该业务场景的交易参数与各交易参数的阈值，根据比较结果确定该客户在该业务场景的分类信息；

根据客户在各业务场景的分类信息以及预设分类规则，对客户类型进行划分；

根据客户类型及客户的画像信息，确定客户的信息推荐策略。

作为本文进一步实施例中，还包括：

根据多个客户的客户画像信息，分析客户画像信息中特征与目标对象结果的相关性，其中，目标对象结果为客户对目标对象的接受结果；

根据客户画像信息中特征与目标对象结果的相关性，筛选出特征子集；

根据多个客户的特征子集中的特征值，计算特征子集中每两个特征的相关性；

从相关性大于预设阈值的两个特征中提取一个特征，由提取后的特征构成独立特征集；

根据所述独立特征集及目标对象结果，构建数据集；

利用所述数据集训练得到目标对象结果的预测模型。

作为本文进一步实施例中，根据所述独立特征集及目标对象结果，构建数据集；利用所述数据集训练得到目标对象结果的预测模型，包括：

获取多个客户的数据集，其中，数据集包括：客户在独立特征集中的特征信息以及目标对象结果；

对数据集中特征信息进行数据预处理，得到样本集及验证集；

根据所述样本集，采用Xgboost算法和逻辑回归算法构建的模型分别训练得到目标对象结果的第一预测模型及第二预测模型；

将验证集中的特征信息分别输入至第一预测模型及第二预测模型，分别得到两个模型预测的目标对象结果；

利用两个模型预测得到的目标对象结果以及验证集中目标对象结果，计算第一预测模型及第二预测模型的评价指标；

根据第一预测模型及第二预测模型的评价指标，筛选出最终的预测模型。

作为本文进一步实施例中，还包括：

获取目标客户群体中各客户的客户信息；

根据各客户的客户信息，计算各客户的独立特征值；

将各客户的独立特征值输入至所述预测模型中，预测得到各客户的目标对象结果；

将目标对象信息推送至所述目标客户群体中的各客户，根据客户反馈信息确定客户实际目标对象结果；

根据各客户实际目标对象结果以及预测目标对象结果，计算预测模型的评价指标；

若评价指标满足预设指标值，则确定所述预测模型有效，若评价指标不满足预设指标值，则获取预设独立特征；

对预设独立特征及所述独立特征集中的特征进行取差集处理；

对差集处理得到的特征进行细化处理，得到多个新特征，将新特征加入至客户画像信息中，并重新训练预测模型。

本文第二方面提供一种客户信息的处理装置，包括：

信息获取单元，用于获取客户信息，其中，所述客户信息包括客户基础数据及客户各渠道的消费行为数据，所述消费行为数据包括多个交易流水信息；

场景还原单元，用于分析客户各渠道的消费行为数据，得到客户每一笔交易流水信息的业务场景；

标签建立单元，用于根据客户的每一笔交易流水信息的业务场景，统计得到客户的业务场景标签信息；

画像构建单元，用于由客户基础数据及客户业务场景标签信息，构成客户画像信息。

本文第三方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述任一实施例所述方法。

本文第四方面提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被计算机设备的处理器执行时实现前述任一实施例所述方法。

本文提供的客户信息的处理方法及装置，通过获取客户信息，其中，客户信息包括客户基础数据及客户各渠道的消费行为数据，所述消费行为数据包括多个交易流水信息；分析客户各渠道的消费行为数据，得到客户每一笔交易流水信息的业务场景；根据客户的每一笔交易流水信息的业务场景，统计得到客户的业务场景标签信息；由客户基础数据及客户业务场景标签信息，构成客户画像信息，能够全面获得各客户的业务场景标签信息，通过业务标签信息能够直观地反映客户的消费行为特征，提高客户画像确定的全面性及准确性。

另外，基于本文确定出的客户画像信息训练得到目标对象结果的预测模型，能够提高模型预测的精准性，将预测模型应用于目标对象信息推送领域，能够降低目标对象信息发送量，降低服务器处理压力，同时避免不接受(例如感兴趣、购买目标对象等)目标对象的客户收到目标对象信息，进而提高用户体验。

为让本文的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本文实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本文的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本文实施例客户信息的处理方法的第一流程图；

图2示出了本文实施例客户信息的处理方法的第二流程图；

图3示出了本文实施例客户信息的处理方法的第三流程图；

图4示出了本文实施例客户信息的处理方法的第四流程图；

图5示出了本文实施例客户信息的处理方法的第五流程图；

图6示出了本文实施例客户信息的处理方法的第六流程图；

图7示出了本文实施例客户信息的处理方法的第七流程图；

图8示出了本文实施例客户信息的处理装置的结构图；

图9示出了本文实施例客户画像示意图；

图10示出了本文计算机设备的机构图；

图11A及图11B示出了本文实施例离散变量与连续变量与购买保险结果相关性示意图；

图11C示出了本文实施例特征变量之间相关性的热力图；

图12A至图12C、图12E示出了本文实施例不同预测模型的ROC曲线示意图；

图12D示出了本文实施例筛选出特征与结果之间相关性排序示意图。

附图符号说明：

801、信息获取单元；

802、场景还原单元；

803、标签建立单元；

804、画像构建单元；

1002、计算机设备；

1004、处理器；

1006、存储器；

1008、驱动机构；

1010、输入/输出模块；

1012、输入设备；

1014、输出设备；

1016、呈现设备；

1018、图形用户接口；

1020、网络接口；

1022、通信链路；

1024、通信总线。

具体实施方式

下面将结合本文实施例中的附图，对本文实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本文一部分实施例，而不是全部的实施例。基于本文中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文保护的范围。

需要说明的是，本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或装置产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。

需要说明的是，本文的客户信息的处理方法及装置可用于金融领域，也可用于除金融领域之外的任意领域，本文的客户信息的处理方法及装置的应用领域不做限定。

本文一实施例中，提供一种客户信息的处理方法，用于解决现有技术中未对客户所有渠道的消费行为数据进行业务场景维度分析，使得客户画像构建存在不全面、准确性差的问题，进而导致基于客户画像特征训练得到的目标对象结果预测模型存在准确率偏低的问题。具体的，如图1所示，客户信息的处理方法包括：

步骤101，获取客户信息，其中，所述客户信息包括客户基础数据及客户各渠道的消费行为数据，所述消费行为数据包括多个交易流水信息。

步骤102，分析客户各渠道的消费行为数据，得到客户每一笔交易流水信息的业务场景。

步骤103，根据客户的每一笔交易流水信息的业务场景，统计得到客户的业务场景标签信息。

步骤104，由客户基础数据及客户业务场景标签信息，构成客户画像信息。

其中，步骤101实施时，可通过数据埋点的方式获取客户信息，或与第三方渠道协议方式获取客户信息，且本申请所涉及的客户信息为经过客户授权或各方充分授权的信息。

一些实施方式中，客户基础数据包括：基本数据、签约数据、资产数据、借记卡流水信息、贷记卡流水、网联银联流水等信息，具体如表1所示。

表1

消费行为数据涉及衣、食、住、行等方面，包括借记卡和贷记卡的每一笔交易流水信息，每一笔交易流水信息反映一业务场景，业务场景能够直观地反映客户的社会属性、行为特点及生活习惯等，例如对于青年客户来说，其业务场景标签可能为各类消费平台、休闲娱乐、运动健身等，而对于老年客户来说，其业务场景可能为公交、医疗保健、超市、商场、旅游消费等。

因此，对交易流水信息进行业务场景还原，根据客户每一笔交易流水信息的业务场景，计算客户的业务场景标签信息，并将其作为客户消费行为特征，结合客户基础数据得到客户画像信息，能够更精确地刻画客户画像，提高客户画像确定的准确度。

本文方法实施之前，可预先通过分析消费信息排名前N(例如5000)的商户，根据商户确定已有业务场景以及业务场景关键字。业务场景包括交易大类及交易小类，预先建立交易大类与交易小类的对应关系，一具体实施方式中，业务场景可划分为17个交易大类及40个交易小类，举例如下：

交易大类：酒店、亲子、交通、学习培训、本地生活、金融、社交、医疗保健、旅游、休闲娱乐、运动健身、丽人、生活服务、婚庆、家装、家政、美食。

交易小类：转账、信用卡还款、打车、小额贷款、金融业务、便利店消费、app游戏购买、超市、共享单车、红包、餐饮、电商团购、其它旅游、其他购物、水电煤物业公交、医院等类别。

以金融为例，其对应的交易小类包括：保险、基金、理财、个人交易、手续费、信用卡还款等。以生活服务为例，其对应的交易小类包括：交友、超市、电商平台、商场、便利店等。

以交易小类超市为例，其对应的关键字包括超市名。以个人交易为例，其对应的关键字包括：个人转账、取款、现金部提、销户、转出、取现等。

步骤104确定出的客户画像如图9所示，内圈为客户基本画像，外圈为客户业务场景信息。

本实施例能够全面获得各客户的业务场景标签信息，通过业务标签信息能够直观地反映客户的消费行为特征，提高客户画像确定的丰富性、全面性及准确性。

本文一实施例中，如图2所示，上述步骤102分析客户各渠道的消费行为数据，得到客户每一笔交易流水信息对应的业务场景，包括：

步骤201，根据渠道技术摘要区字典表，确定客户各渠道的每一笔交易流水信息中的技术摘要信息，其中，所述渠道-技术摘要区字典表包括渠道与技术摘要字段信息的对应关系。

步骤202，对客户各渠道的每一笔交易流水信息中的技术摘要信息进行数据清洗。

步骤203，对清洗后每一笔交易流水信息进行分词处理，并提取关键字。

步骤204，将客户每一笔交易流水信息的关键字与场景关键词词典进行匹配，将匹配成功的第一级业务场景及第二级业务场景作为客户每一笔交易流水信息的业务场景，其中，所述场景关键词词典包括第一级业务场景与第二级业务场景以及关键词间的关联关系。

上述步骤201中，渠道-技术摘要区字典表预先人工整理。根据渠道--技术摘要区字典表能够确定各渠道每一笔交易流水信息中的技术摘要信息。

上述步骤202中，数据清洗过程包括但不限于去除多余字符，例如空格、换行符等。

上述步骤203中，利用自然语言技术进行分词处理，并提取出关键字。

本文一实施例中，如图3所示，还包括：

步骤301，收集匹配失败的客户的交易流水信息。

步骤302，根据匹配失败的客户的交易流水信息，确定增量第一级业务场景与增量第二级业务场景以及关键词间的关联关系，并将其存储于所述场景关键词词典中。

本实施例能够实业务场景的自动迭代优化，提高确定业务场景的效率及准确性。

本文一实施例中，上述步骤103中根据客户的每一笔交易流水信息的业务场景，统计得到客户的业务场景标签信息，包括：

根据客户的每一笔交易流水信息的业务场景，统计客户各业务场景的交易参数，其中，交易参数包括交易次数及交易金额。将客户各业务场景及其交易参数作为客户的业务场景标签信息。

具体的，对于每一客户的每一业务场景，对该业务场景对应的交易流水信息条数进行统计得到该客户在该业务场景的交易次数，对该业务场景对应的交易流水信息中的交易金额进行求和得到该客户在该业务场景的交易金额。

交易参数的数值大小反映业务场景的重要度，数值越高说明客户在相应业务场景的消费行为越紧密。

本文一实施例中，如图4所示，客户信息的处理方法还包括；

步骤401，对于每一客户的每一业务场景，比较该客户的该业务场景的交易参数与各交易参数的阈值，根据比较结果确定该客户在该业务场景的分类信息。

本步骤中各交易参数的阈值可根据实际设定，本文对此不作限定。具体的，交易参数的阈值可包括一个或多个，对应的各业务场景分类个数为阈值加一，例如阈值为1个时，业务场景分类为二类，例如高消费、低消费。

本步骤实施时，可通过判断每一客户在每一业务场景的交易参数落入阈值的范围，确定每一客户在每一业务场景的分类信息。

步骤402，根据客户在各业务场景的分类信息以及预设分类规则，对客户类型进行划分。

本步骤中，预设分类规则用于限定业务场景分类与客户类型的关联关系，例如对于某一客户来说，其在业务场景1属于分类1，在业务场景2属于分类2，在业务场景3属于分类3，预审分类规则规定，具有两个分类1的业务场景，对应客户类型为类型1，由此可以确定该客户为类型1。具体实施时，可根据实际需求设定预设分类规则。

本步骤实施时，还可对客户在每一业务场景的分类信息进行赋值，对同一客户的不同业务场景的得分进行加权求和得到客户评分(权重可根据业务场景重要度确定)，根据客户评分确定客户的信息推荐策略。

步骤403，根据客户类型及客户的画像信息，确定客户的信息推荐策略。

本实施例通过分析客户画像信息中的业务场景，能够对客户进行精准划分，对不同客户开展不同信息推荐策略，同时，还可以根据客户类型及客户画像信息，仅针对部分客户类型用户开展信息推荐，能够缩小信息推荐范围、降低服务器处理压力、提高用户体验。

本文一实施例中，如图5所示，客户信息的处理方法还包括：

步骤501，根据多个客户的客户画像信息，分析客户画像信息中特征与目标对象结果的相关性，其中，目标对象结果为客户对目标对象的接受结果。

具体的，当目标对象为产品时，客户对目标对象的接受结果为客户是否会购买产品，或客户是否会浏览目标对象的介绍信息或新闻等。

本步骤实施时，采用MIC技术来分析客户画像信息中特征与目标对象结果的相关性。MIC技术即最大信息系数(Maximal Information Coefficient,MIC)，MIC算法是一种基于信息论的变量间相关性度量方法，对比于传统的皮尔森相关系数和斯皮尔曼相关系数，MIC算法存在两点明显优势：①既适用于连续变量又适用于非连续变量，可以极好地解决客户行为数据类型多样的问题；②不仅可以识别变量间的线性相关关系，还可以识别变量间的非线性相关关系，适用于大量特征间的相关性分析。

下面以目标对象为保险金融产品为例进行说明本步骤具体实施过程，客户画像信息中特征维度众多，可按照离散变量和连续变量分组对相关性进行分析。

离散变量中与是否可能买保险存在较强相关性的特征变量如图11A所示，从图11A可知大部分离散变量与结果没有相关性，仅有少部分变量与结果存在弱相关。

连续变量中与是否可能买保险存在较强相关性的特征变量如图11B所示，从图11B可知保险季均和保险时点与结果相关性较高。

步骤502，根据客户画像信息中特征与目标对象结果的相关性，筛选出特征子集。

本步骤实施时，先筛选出相关性大于预定值的特征，然后从筛选出的特征变量中筛选出显性特征并删除，剩余筛选出的特征构成特征子集。该种实施方式能够避免模型训练结果过拟合。

特征子集中包含特征数量可根据实际需求定，以保险为例，筛选出的变量为25个。如图11B所示，经分析保险季均、保险时点为购买保险后显性数据；所以在模型训练中不应包含这两个变量。

步骤503，根据多个客户的特征子集中的特征值，计算特征子集中每两个特征的相关性。

以目标对象结果为“是否购买保险”为例，经过步骤502执行筛选出25个特征变量，每两个特征变量间相关特征集的热力图如图11C所示，图11C中，强相关的“1”和“2”代表“银行服务等级”和“客户资产层级”；热力图中强相关的“7”和“8”代表是否有“风险评测记录”和“投资风险评估代码”；热力图中强相关的“10”、“11”、“12”、“15”、“18”分别代表是“季均资产”、“时点资产”、“储蓄季均”、“储蓄时点”和“客户当年贡献度收入”；热力图中强相关的“13”和“16”代表“基金季均”和“基金时点”；热力图中强相关的“14”和“17”代表“保险季均”和“保险时点”。热力图中强相关的“19”和“24”代表“金融-金额”和“个人交易-金额”。

步骤504，从相关性大于预设阈值的两个特征中提取一个特征，由提取后的特征构成独立特征集。

继续步骤503的实例，经过步骤504后，得到的独立特征集为：{“代收全部代扣”、“银行服务等级”、“投资基金签约”、“投资基金定投签约”、“投资收藏金购买”、“投资记账式原油签约”、“投资黄金定投签约”、“季均资产”、“基金季均”、“金融-金额”、“信用卡还款-金额”、“生活服务-金额”、“第三方支付-金额”}。

步骤505，根据独立特征集及目标对象结果构建数据集，利用数据集训练得到目标对象结果的预测模型。

本实施例通过步骤502能够提高模型的可解释性以及准确性，通过步骤503及步骤504能够降低模型输入特征维度，提高模型训练效率。

本文一实施例中，如图6所示，上述步骤505根据独立特征集及目标对象结果构建数据集，利用数据集训练得到目标对象结果的预测模型，包括：

步骤601，获取多个客户的数据集，其中，数据集包括：客户在独立特征集中的特征信息以及目标对象结果。

本步骤实施时，可获取预定时间段内各渠道产生的客户信息，根据独立特征集及获取的客户信息，确定客户的数据集。

步骤602，对数据集中特征信息进行数据预处理，得到样本集及验证集。

本步骤中，数据预处理包括：

(1)对脏数据(包括缺失数据、重复数据、错误数据等)进行数据处理、空值填充处理(平均值填充、中位数填充、众数填充)、数据正确性以及完整性校对。

(2)特征信息的转化，包括特征转化及连续特征离散化等工作。

①特征转化：数据中存在很多需要进行转化的信息，例如日期型字段，将“出生日期”转换成“年龄”。同样地，受教育程度分为四类:E1初中以下(含初中)，E2高中(含中专)，E3大学(专科、本科)，E4研究生及其以上等等。

②连续特征离散化：部分连续特征可以进行离散分析，例如年龄根据业务经验和实施的合理性，将其分为6个区间:[18，35]、[36，40]、[41，45]、[46，50]、[51，55]、[56，60]，归入不同年龄段，将年龄段作为一个特征项。

(3)特征处理：

离散型特征数据处理：离散型特征数据需要通过独热编码(one-hot)进行特征构建，该离散特征有多少值，就用多少维来表示该特征。

数据标准化：由于特征之间存在数值和量纲差异，因此需要利用标准化方式消除此影响，保证数据本身特点不会影响机器学习的结果。通过改变特征值，即可将数据集中的每列数据的均值变为0，方差变为1，达到标准正态分布。

样本集及验证集的划分可按照7:3的比例实现。

步骤603，根据所述样本集，采用Xgboost算法和逻辑回归算法构建的模型分别训练得到目标对象结果的第一预测模型及第二预测模型。

XGBoost算法是boosting算法的其中一种。Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器。因为XGBoost是一种提升树模型，所以它是将许多树模型集成在一起，形成一个很强的分类器。而所用到的树模型则是CART回归树模型。XGBoost算法思想就是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。当训练完成得到k棵树，要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后只需要将每棵树对应的分数加起来就是该样本的预测值。

Logistic回归算法是广义线性回归的一种，但其并不是回归模型，而是一种分类模型，经常用来解决二分类问题。Logistic回归分类模型的预测函数是在用线性回归模型的预测值的结果去逼近真实标记的对数几率。在0-1变量的情形下，这个期望值就等于因变量取1的概率，例如前述实例为客户购买保险的概率。由于线性回归模型产生的预测值时一个实数，而Logistic回归的输出为Y＝+1的概率，取值范围是[0，1]，所以使用Sigmoid函数作为单位跃迁函数。

步骤604，将验证集中的特征信息分别输入至第一预测模型及第二预测模型，分别得到两个模型预测的目标对象结果。

步骤605，利用两个模型预测得到的目标对象结果以及验证集中目标对象结果，计算第一预测模型及第二预测模型的评价指标。

一些实施方式中，评价指标包括准确率、覆盖率、ROC、AUC。

(1)准确率、覆盖率。

继续前文购买保险的例子，设样本集中购买保险的客户数量为P，没有购买保险的客户数量为N。预测结果为购买保险且实际购买保险的客户数量为TP，预测结果为购买保险而实际没有购买保险的客户数量为FP，预测结果为没有购买保险且实际为没有购买保险的客户数量为TN，预测结果为没有购买保险而实际为购买保险的客户数量为FN。

此时定义模型的准确率(ACC,accuracy)，ACC＝TP/TP+FP，覆盖率＝TP/(TP+FN)。

(2)ROC、AUC。

ROC曲线以召回率TPR为X轴，以取伪率FPR为Y轴，其中召回率TPR＝TP/(TP+FN)，取伪率FPR＝FP/(FP+TN)。ROC曲线上每一点的含义为不同阈值下对应的TPR和FPR。因此通过遍历所有阈值即可得到ROC曲线。

AUC的值为ROC曲线下方的面积，通常AUC的值在0.5到1直接，AUC值越大，表示模型表现出的效果越好。

步骤606，根据第一预测模型及第二预测模型的评价指标，筛选出最终的预测模型。本步骤实施时，将第一预测模型及第二预测模型的上述四个指标均满足预设阈值的模型作为筛选出的最终预测模型，若两个预测模型的上述四个指标均满足预设阈值，则从第一预测模型及第二预测模型中筛选出覆盖率及AUC最优的模型作为最终的预测模型。

本文一实施例中，如图7所示，客户信息的处理方法还包括：

步骤701，获取目标客户群体中各客户的客户信息。

本步骤中，目标客户群体可由人工预先确定，例如资产30万以上年龄30～60的客户。

步骤702，根据各客户的客户信息，计算各客户的独立特征值。

步骤703，将各客户的独立特征值输入至所述预测模型中，预测得到各客户的目标对象结果。

步骤704，将目标对象信息推送至所述目标客户群体中的各客户，根据客户反馈信息确定客户实际目标对象结果。

步骤705，根据各客户实际目标对象结果以及预测目标对象结果，计算预测模型的评价指标。

步骤706，若评价指标满足预设指标值，则确定所述预测模型有效，若评价指标不满足预设指标值，则获取预设独立特征。

本步骤中，预设独立特征，可由业务人员根据经验进行设定，这些特征是业务人员确定与目标对象结果相关性大的特征。

步骤707，对预设独立特征及所述独立特征集中的特征进行取差集处理。即从预设独立特征中筛选出不属于独立特征集中的特征。

步骤708，对差集处理得到的特征进行细化处理，得到多个新特征，将新特征加入至客户画像信息中，重新训练预测模型。

继续前文实例，由图11A及图11B可知，分析出的特征子集中并不包含年龄，但通过业务人员分析，认为年龄与购买结果具有一定相关性，因此通过步骤707及步骤708能够将这些特征重新纳入考虑。进而提高预测模型的准确度。

为了更清楚说明本案预测模型的准确性，下面举一具体实例进行详细说明。

一、样本集准备

采集目标客群在第1季度的客户基础数据及客户各渠道的消费行为数据，按照图1所示流程分析还原业务场景得到客户画像信息，并对客户画像信息进行特征工程处理后，生成正负样本集。客户画像信息中的特征为292个，共36558名客户。

二、采用Xgboost算法训练模型

(1)第一次训练预测模型。

本次训练时，采用客户画像信息中的全量特征进行模型训练，利用训练得到的预测模型预测情况以及客户真实购买保险情况如表2所示。因本次模型训练时使用的特征较多，因此，存在模型训练效率低的问题。

表2

预测模型的覆盖率及准确率评价结果如表3，ROC曲线如图12A所示。

表3

(2)第二次训练预测模型。

对客户画像信息中特征进行相关性分析后，剔除多余无效的、不相关的特征，筛选出13个特征，利用这13个特征优化正负样本集，利用优化后的正负样本集训练得到预测模型。

利用训练得到的预测模型预测情况以及客户真实购买保险情况如表4所示。

表4

	实际购买	实际不购买
			预测购买	2071	1066
预测不购买	3425	29996

特征筛选后，预测模型的覆盖率及准确率评价结果如表5，ROC曲线如图12B所示。

表5

训练特征从295下降至13个，特征数量降低95.59％，模型准确率下降14.94％，模型覆盖率下降14.21％，AUC仅下降0.07，可见选取的特征与结果具有强相关性。

(3)第三次训练预测模型。

经相关性分析后即剔除多余的无效的不相关特征，准确率和覆盖率均下降10％以上，所以对特征进行二次筛选(参见上述步骤707及步骤708)，迭代优化后选择33个特征，基于二次筛选的特征进行模型训练。

利用训练得到的预测模型预测情况以及客户真实购买保险情况如表6所示。

表6

特征筛选后，预测模型的覆盖率及准确率评价结果如表7，ROC曲线如图12C所示。

表7

特征数量降低88.47％，结果如表3及表7所示准确率下降3％，覆盖率下降3％，AUC下降0.01，可见这33个特征基本可替代原有295个特征。

(4)优化后特征相关性排序

通过迭代优化后选择33个特征按照与结果之间的相关性强弱进行排序，如图12D所示。其中业务场景还原的数据包括：生活服务金额、医院金额、电商团购金额、交通金额、基金金额、采购金额、打车金额、手机固话充值金额、水煤电充值金额、便利店消费金额、电商平台金额、酒店金额、家装金额、学习培训金额。具体说明，“生活服务金额”指的是交易流水中包含如下关键字：照相、搬家、宠物等汇总金额所得；“代收全部代扣”指的是个人客户是否签约我行代扣协议。

三、利用逻辑回归算法训练预测模型。

对特征迭代优化后的数据集训练逻辑回归模型，选取筛选后的全部36个特征进行模型训练得到预测模型，预测模型预测结果如表8，共计36558名客户，预测购买8546人，实际购买5189人。具体如表8。

表8

	实际购买	实际不购买
			预测购买	3689	4857
预测不购买	1501	26511

预测模型的覆盖率及准确率评价结果如表9，ROC曲线如图12E所示。

表9

经过对比发现，采用Xgboost算法训练得到的预测模型准确率更高，且训练成本也低。

应用上述最终筛选出的预测模型进行保险潜力客户预测：30万以上、30-60岁，非持保或持保金额小于5万，样本数据共计98824名客户。通过预测有60329人有提升潜质。预测结果交业务人员进行精准信息推荐，最终发现该模型预测结果的精准信息推荐成功率比以往非精准信息推荐成功率提升3.6倍左右。

基于同一发明构思，本文还提供一种客户信息的处理装置，如下面的实施例所述。由客户信息的处理装置解决问题的原理与客户信息的处理方法相似，因此客户信息的处理装置的实施可以参见方法，重复之处不再赘述。

具体的，如图8所示，客户信息的处理转置包括：

信息获取单元801，用于获取客户信息，其中，所述客户信息包括客户基础数据及客户各渠道的消费行为数据，所述消费行为数据包括多个交易流水信息；

场景还原单元802，用于分析客户各渠道的消费行为数据，得到客户每一笔交易流水信息的业务场景；

标签建立单元803，用于根据客户的每一笔交易流水信息的业务场景，统计得到客户的业务场景标签信息；

画像构建单元804，用于由客户基础数据及客户业务场景标签信息，构成客户画像信息。

本实施例能够全面获得各客户的业务场景标签信息，通过业务标签信息能够直观地反映客户的消费行为特征，提高客户画像确定的全面性及准确性。基于本文确定出的客户画像信息训练得到目标对象结果的预测模型，能够提高模型预测的精准性，将预测模型应用于目标对象信息推送领域，能够降低目标对象信息发送量，降低服务器处理压力，同时避免不接受(例如感兴趣、购买目标对象等)目标对象的客户收到目标对象信息，进而提高用户体验。

本文一实施例中，还提供一种计算机设备，如图10所示，计算机设备1002可以包括一个或多个处理器1004，诸如一个或多个中央处理单元(CPU)，每个处理单元可以实现一个或多个硬件线程。计算机设备1002还可以包括任何存储器1006，其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的，比如，存储器1006可以包括以下任一项或多种组合：任何类型的RAM，任何类型的ROM，闪存设备，硬盘，光盘等。更一般地，任何存储器都可以使用任何技术来存储信息。进一步地，任何存储器可以提供信息的易失性或非易失性保留。进一步地，任何存储器可以表示计算机设备1002的固定或可移除部件。在一种情况下，当处理器1004执行被存储在任何存储器或存储器的组合中的相关联的指令时，计算机设备1002可以执行相关联指令的任一操作。计算机设备1002还包括用于与任何存储器交互的一个或多个驱动机构1008，诸如硬盘驱动机构、光盘驱动机构等。

计算机设备1002还可以包括输入/输出模块1010(I/O)，其用于接收各种输入(经由输入设备1012)和用于提供各种输出(经由输出设备1014)。一个具体输出机构可以包括呈现设备1016和相关联的图形用户接口1018(GUI)。在其他实施例中，还可以不包括输入/输出模块1010(I/O)、输入设备1012以及输出设备1014，仅作为网络中的一台计算机设备。计算机设备1002还可以包括一个或多个网络接口1020，其用于经由一个或多个通信链路1022与其他设备交换数据。一个或多个通信总线1024将上文所描述的部件耦合在一起。

通信链路1022可以以任何方式实现，例如，通过局域网、广域网(例如，因特网)、点对点连接等、或其任何组合。通信链路1022可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

本文实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。

本文实施例还提供一种计算机可读指令，其中当处理器执行所述指令时，其中的程序使得处理器执行前述任一实施例的方法。

应理解，在本文的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本文实施例的实施过程构成任何限定。

还应理解，在本文实施例中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本文的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本文所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。

另外，在本文各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本文的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本文中应用了具体实施例对本文的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本文的方法及其核心思想；同时，对于本领域的一般技术人员，依据本文的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本文的限制。

Claims

1.一种客户信息的处理方法，其特征在于，包括：

由客户基础数据及客户业务场景标签信息，构成客户画像信息；

其中，分析客户各渠道的消费行为数据，得到客户每一笔交易流水信息对应的业务场景，包括：

将客户每一笔交易流水信息的关键字与场景关键词词典进行匹配，将匹配成功的第一级业务场景及第二级业务场景作为客户每一笔交易流水信息的业务场景，其中，所述场景关键词词典包括第一级业务场景与第二级业务场景以及关键词间的关联关系；

根据所述独立特征集及目标对象结果，构建数据集；

利用所述数据集训练得到目标对象结果的预测模型；

根据所述独立特征集及目标对象结果，构建数据集；

利用所述数据集训练得到目标对象结果的预测模型；

其中，根据所述独立特征集及目标对象结果，构建数据集；利用所述数据集训练得到目标对象结果的预测模型，包括：

根据第一预测模型及第二预测模型的评价指标，筛选出最终的预测模型；

获取目标客户群体中各客户的客户信息；

根据各客户的客户信息，计算各客户的独立特征值；

2.如权利要求1所述的方法，其特征在于，还包括：

收集匹配失败的客户的交易流水信息；

3.如权利要求1所述的方法，其特征在于，根据客户的每一笔交易流水信息的业务场景，统计得到客户的业务场景标签信息，包括：

4.如权利要求1所述的方法，其特征在于，还包括：

5.一种客户信息的处理装置，其特征在于，包括：

画像构建单元，用于由客户基础数据及客户业务场景标签信息，构成客户画像信息；

还包括：用于根据多个客户的客户画像信息，分析客户画像信息中特征与目标对象结果的相关性，其中，目标对象结果为客户对目标对象的接受结果；根据客户画像信息中特征与目标对象结果的相关性，筛选出特征子集；用于根据多个客户的特征子集中的特征值，计算特征子集中每两个特征的相关性；从相关性大于预设阈值的两个特征中提取一个特征，由提取后的特征构成独立特征集；根据所述独立特征集及目标对象结果，构建数据集；利用所述数据集训练得到目标对象结果的预测模型；根据所述独立特征集及目标对象结果，构建数据集；利用所述数据集训练得到目标对象结果的预测模型的单元；

还包括：用于获取目标客户群体中各客户的客户信息；根据各客户的客户信息，计算各客户的独立特征值；将各客户的独立特征值输入至所述预测模型中，预测得到各客户的目标对象结果；将目标对象信息推送至所述目标客户群体中的各客户，根据客户反馈信息确定客户实际目标对象结果；根据各客户实际目标对象结果以及预测目标对象结果，计算预测模型的评价指标；若评价指标满足预设指标值，则确定所述预测模型有效，若评价指标不满足预设指标值，则获取预设独立特征；对预设独立特征及所述独立特征集中的特征进行取差集处理；对差集处理得到的特征进行细化处理，得到多个新特征，将新特征加入至客户画像信息中，并重新训练预测模型的单元。

6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任意一项所述方法。

7.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被计算机设备的处理器执行时实现权利要求1至4任意一项所述方法。