CN113742472B

CN113742472B - 一种基于客服营销场景下的数据挖掘方法及装置

Info

Publication number: CN113742472B
Application number: CN202111083351.XA
Authority: CN
Inventors: 邬默; 昝云飞; 纪传俊; 徐红; 陈运文; 纪达麒
Original assignee: Daguan Technology Beijing Co ltd
Current assignee: Daguan Technology Beijing Co ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2022-05-27
Anticipated expiration: 2041-09-15
Also published as: CN113742472A

Abstract

本发明公开一种基于客服营销场景下的数据挖掘方法及装置。该方法包括获取客服营销场景下的原始数据中所有与业务逻辑相关或潜在相关的目标字段，对目标字段进行数据预处理、数据降维以及字段间相关性计算，通过决策树分类器构建数据模型，选取最优树算法进行树图输出，抽取树图中显著正向分类的分支和显著负向分类的分支，进行符合业务逻辑的梳理后生成规则；将生成的规则进行整合，梳理和筛选，部署上线同时对每个客户的命中情况进行记录；获取客服营销场景下的新数据，并根据新数据进行数据模型迭代以及规则新增；本发明得到的基于客服营销场景下的规则更加细化且覆盖多维度，更加客观，简便快捷，可解释性强。

Description

一种基于客服营销场景下的数据挖掘方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于客服营销场景下的数据挖掘方法及装置。

背景技术

当前，在很多面向C端客户的大群体业务行业中，传统业务人员单纯根据经验得到的营销分类规则已无法满足当前成指数级增量的数据及业务升级需要。基于业务人员经验的营销分类规则不具备科学性、合理性、全局性以及时效性等数据化的特点。基于此原因，面向普通消费群体的行业开始了一轮又一轮的产业升级。大数据、云计算、AI技术开始替代人类经验，为业务决策赋能。但与此同时，由于当前AI领域发展尚不完全，人们对于机器分类的信任度也还处于初级水平，因此很多场景的客户会希望有更多可解释性强、人类可理解的现象以及营销分类规则能运用生产。当前大量工业化的机器学习的算法技术，以及深度学习为主的AI算法，这些技术的使用原理和分类聚类过程，以业务人员的知识背景是难以理解的。

同时，支持向量机（英文：Support Vector Machine,，简称：SVM）、随机森林、XGboost、LightGBM等虽然都是基于决策树算法的扩展算法，但在工业生产中，根据不同的迭代策略，增加训练深度、广度、速度，经过n次迭代后就失去了人类可解释的业务意义，因此会让非AI领域的业务人员产生不安全感，尤其当实际预测准确率不足且达到某些瓶颈的情况下，会失去对机器学习的信任。另一方面，很多机器学习需要一个大体量级别的数据才能获得可靠表现。对于上述客服营销场景下的特定需求，如何在传统业务经验和AI智能决策系统之间找到一种合适的方案，来总结实际生产规则，作为一定的补充手段，成为业内亟待解决的问题。

发明内容

本发明的目的在于提供一种基于客服营销场景下的数据挖掘方法及装置，得到的基于客服营销场景下的规则更加细化且覆盖多维度，更加客观，简便快捷，可解释性强。

第一方面，本发明提供一种基于客服营销场景下的数据挖掘方法，包括：

获取客服营销场景下的原始数据中所有与业务逻辑相关或潜在相关的目标字段；

对所述目标字段进行数据预处理；

根据主成分分析法，对数据预处理后的目标字段进行数据降维以及字段间相关性计算；

基于数据降维以及字段间相关性计算的结果，通过决策树分类器构建数据模型，并对数据模型进行训练、测试以及调优；

根据所述数据模型，选取最优树算法进行树图输出；

抽取树图中显著正向分类的分支和显著负向分类的分支，进行符合业务逻辑的梳理后生成规则；

将生成的所述规则进行整合，并根据业务实际逻辑对整合后的规则进行梳理和筛选；

将梳理和筛选后的规则部署上线，同时对每个客户的命中情况进行记录，以用于后续数据模型预测结果的追踪；

获取客服营销场景下的新数据，并根据所述新数据进行数据模型迭代以及规则新增。

进一步地，对所述目标字段进行数据预处理包括：

剔除极值和异常值，其中，根据目标字段分布情况，将预设分布范围之外的极值和异常值剔除。

进一步地，对所述目标字段进行数据预处理还包括：

处理缺失值，其中，如果目标字段的数据量大于预设范围，将缺失值所属的整条记录全部剔除；如果缺失值为有意义缺失，使用0替代缺失值；如果单一目标字段缺失值大于50%且为无意义缺失，则直接剔除所述目标字段。

进一步地，所述处理缺失值还包括：

如果目标字段为数值型字段，且数据集中在特定区间内或符合特定变化规律，则根据中位数、众数或者平均数计算得到数值填补缺失值。

进一步地，所述处理缺失值还包括：

利用模型测算缺失值得到预测值；

利用所述预测值填补缺失值。

进一步地，对所述目标字段进行数据预处理还包括：

根据数据意义进行目标字段的属性转换。

进一步地，对所述目标字段进行数据预处理还包括：

对目标字段进行数据归一化处理。

进一步地，根据所述数据模型，选取最优树算法进行树图输出的步骤中，输出的树图包括以下输出方案：全维度集合、部分重要性贡献度头部维度集合以及数值型变量维度集合。

第二方面，本发明提供一种基于客服营销场景下的数据挖掘装置，包括：

获取单元，用于获取客服营销场景下的原始数据中所有与业务逻辑相关或潜在相关的目标字段；

处理单元，用于对所述目标字段进行数据预处理；

计算单元，用于根据主成分分析法，对数据预处理后的目标字段进行数据降维以及字段间相关性计算；

构建单元，用于基于数据降维以及字段间相关性计算的结果，通过决策树分类器构建数据模型，并对数据模型进行训练、测试以及调优；

选取单元，用于根据所述数据模型，选取最优树算法进行树图输出；

抽取单元，用于抽取树图中显著正向分类的分支和显著负向分类的分支，进行符合业务逻辑的梳理后生成规则；

整合单元，用于将生成的所述规则进行整合，并根据业务实际逻辑对整合后的规则进行梳理和筛选；

上线单元，用于将梳理和筛选后的规则部署上线，同时对每个客户的命中情况进行记录，以用于后续数据模型预测结果的追踪；

所述获取单元，还用于获取客服营销场景下的新数据，以根据所述新数据进行数据模型迭代以及规则新增。

本发明的有益效果如下：

本发明提供一种基于客服营销场景下的数据挖掘方法及装置，相对传统经验型规则或正则匹配的统计规则，本发明得到的规则更加细化且覆盖多维度，而经验总结的规则往往是单一维度。本发明得到的结果都是基于数据产生的，而非主观判断，因此更加客观。根据需要可以产出很多的规则，也可摘取特定数量的优质规则。本发明相对简便快捷，且算法逻辑搭建简单，易复制。无需复杂的特征工程工作，减化多轮模型工作。可解释性强，方案搭建过程始终基于业务实际需要来指导流程走向；同时，对于实际生产中的分类，可以对每条数据匹配相应的规则命中情况从而解释相关分类准则。对分析模型数据量无硬性要求，对数据维度数量要求也相对较宽松。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于客服营销场景下的数据挖掘方法的流程图；

图2为极值和异常值示意图；

图3为缺失值示意图；

图4为数据意义字段属性转置前示意图；

图5为数据意义字段属性转置后示意图；

图6为时间型变量转化前示意图；

图7为时间型变量转化后示意图；

图8为归一化处理示意图；

图9为回归分析法示意图；

图10为ROC曲线示意图；

图11为混淆矩阵示意图；

图12为整体数据流向及方案过程示意图；

图13为本发明实施例提供的基于客服营销场景下的数据挖掘装置的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。以下结合附图，详细说明本发明各实施例提供的技术方案。

请参阅图1，本发明提供一种基于客服营销场景下的数据挖掘方法，包括：

步骤S101，获取客服营销场景下的原始数据中所有与业务逻辑相关或潜在相关的目标字段。

具体地，原始数据一般可从数据库中获取。

步骤S102，对所述目标字段进行数据预处理。

具体地，对目标字段进行数据预处理具体可以包括：剔除极值和异常值、处理缺失值等。请参阅图2，横坐标表示样本个数，纵坐标表示该样本该维度的所在区间/值。其中，根据目标字段分布情况，将预设分布范围之外的极值和异常值剔除。请参阅图3，N/A表示缺失值，如果目标字段的数据量大于预设范围，数据量足够多，则可将缺失值所属的整条记录全部剔除。如果缺失值为有意义缺失（例如：字段E含义为某人拥有卡数量，空值为不拥有任何卡），使用0替代缺失值。如果单一目标字段缺失值大于50%且为无意义缺失，则直接剔除所述目标字段。

具体地，所述处理缺失值还包括：如果目标字段为数值型字段，且数据集中在特定区间内，或符合特定变化规律，则根据中位数、众数或者平均数计算得到数值填补缺失值。在实际中，如果数据大多集中在某一区间内，或符合某一变化规律，如符合线性回归等，可根据中位数、众数、平均数等计算数值填补，但此数量不宜过多。

具体地，所述处理缺失值还包括：利用模型（例如：回归模型，k-mean聚类模型等方案，大体都是用非监督的机器学习模型来预测缺失值）测算缺失值得到预测值，利用所述预测值填补缺失值。在时间充裕的前提下，可利用模型测算缺失值然后用预测值进行填补，但不建议，因为不论如何填补，除了有意义缺失的0替方案，其他方案均会造成数据变化。

具体地，对目标字段进行数据预处理具体还可以包括：根据数据意义进行目标字段的属性转换。请参阅图4和图5的方框区域，例如，转置前性别字段为字符串，转置后变成因子行，转置前字段D为字符串，转置后变为整数型。请参阅图6和图7，时间型变量可先进行日期格式转化而后通过计算生成一些时间间隔字段，可根据需求细化至年月日时分秒。此方案可不进行特征工程以便明确显示获取底层字段特性。

具体地，对目标字段进行数据预处理具体还可以包括：对目标字段进行数据归一化处理。当遇到极值区占比过大，或数据分布非常离散等情况，以及需要提升运算能力，减小内存压力或计算时间时，可使用数据归一化处理。由于归一化后结果无法直接显示底层字段值，影响最终产出规则的表达能力，因此需要对归一化的数据在输出结论时进行反归一化处理，从而得到实际值来反馈生产。请参阅图8，具体方法为，将所有自然数映射到一个小的数值区间内，通过a[i]-min/(max-min) 公式或（X-Mean）/(Max-Min) （或用0均值标准化，a[i] = x-均值/方差）等方式进行归一化处理，上述公式是对于某一列数据进行标准化操作，a[i]表示所使用的数据该列第i项，X 也是表示a[i]，min表示该列数据最小值，max表示该列数据最大值，mean表示该列数据的均值。均值就是整列数据的均值，方差就是整列数据的方差。

步骤S103，根据主成分分析法，对数据预处理后的目标字段进行数据降维以及字段间相关性计算。

具体地，如图9所示，可使用回归分析法，字段贡献度越高则P值回归越趋近于0，P值是拒绝原假设的值。回归系数P的检验是t检验,当P<α值,即回归系数显著，拒绝原假设。回归模型检验是检验模型是否合适，通过F检验，当F检验P<α，则模型显著，即反映的总体回归。通过这两种检验而且符合经济自然规律后的模型可预测。字段间相关性计算中，两两相关则趋近1，两两负相关则趋近-1。

步骤S104，基于数据降维以及字段间相关性计算的结果，通过决策树分类器构建数据模型，并对数据模型进行训练、测试以及调优。

具体地，此阶段可尝试多种决策树算法（ID3、C4.5，CART，条件推断树等），并根据数据建模流程进行训练，测试，调优等。可采用剪枝，降噪，调参等方式，后通过ROC曲线（图10）和混淆矩阵（图11）等方法鉴别分类器优劣，此过程可根据业务需要，判断重准确还是重召回。为了防止过拟合发生，需要进行剪枝处理，此过程可使用机器循环语句测试输出各种剪枝结果（都是对单一树）所生成的模型在测试集的效果（用ROC曲线和混淆矩阵来判定优劣）。

步骤S105，根据所述数据模型，选取最优树算法进行树图输出。

具体地，此时需要明确有效的树图，如图过大可仅输出分类结果。输出的树图包括以下输出方案：全维度集合、部分重要性贡献度头部维度集合、数值型变量维度集合、其他类行变量维度集合以及某些单一维度。

至此完成分类过程，目前以二分类效果更加显著，因此尽量将多分类问题转化为二分类。例如，在营销场景下分类，二分类可分为“成功”和“失败”两类问题，成功和失败表示机器学习中的标签。“成功”可代表营销成功，客户购买。“失败”可代表客户不买，拒绝营销，营销失败。将多分类问题转化为二分类即将成功的多个类归为一类，同时将失败归为另一类。

步骤S106，抽取树图中显著正向分类的分支和显著负向分类的分支，进行符合业务逻辑的梳理后生成规则。

具体地，对于有规则数量限制的业务，此过程需根据业务实际需求，选择适当比例。例如，要求输出10条规则，所有树总结有50条有效规则，此时需根据命重规则的数据占比从高到低排序，选占比高的前10条规则为优，同时考虑实际业务侧重点，比如侧重某些维度的规则抓取出来。如果重召回则重点关注正样本获取比例，将所有能区分正样本的节点都抓取出来。此过程不限于单一决策树，而是适用于所有生成的树图中，所有样例。此方案中选择的模型以及所表现的效果都不是首要因素，找到高召回分支才是发现规则的核心。因此可以将所有已搭建的树都画出来，找显著分支即可。模型表现好的即分类效果好，通常有效规则也多，因此如果不限规则数量，尽可能多召回的要求下，在通过决策树分类器进行建模中会进行模型筛选，但落选模型可能其中有个别有效分支是高亮分支，这个在实际生产中有多次表现。

步骤S107，将生成的所述规则进行整合，并根据业务实际逻辑对整合后的规则进行梳理和筛选。

例如，梳理和筛选后得到一种规则：满足A>1,b<2,c in（北京，上海），则推送。其中，A,b,c指代该规则下的几种不同的目标字段数据。

将以上具体分析出的规则直接根据线上接口数据值来分类，对输出接口走不同路径。同时存储满足的规则类行，一遍后续回溯时候对不同客户的判断进行追踪及迭代。具体设计规则时可根据业务需要，设定定性型规则或定量型规则，定量型可根据实际训练数据的转化率或准确率进行设定。

步骤S108，将梳理和筛选后的规则部署上线，同时对每个客户的命中情况进行记录，以用于后续数据模型预测结果的追踪；

步骤S109，获取客服营销场景下的新数据，并根据所述新数据进行数据模型迭代以及规则新增。

图12为整体数据流向及方案过程示意图，由以上实施例可知，本发明提供的一种基于客服营销场景下的数据挖掘方法，相对传统经验型规则或正则匹配的统计规则，本发明得到的规则更加细化且覆盖多维度，而经验总结的规则往往是单一维度。本发明得到的结果都是基于数据产生的，而非主观判断，因此更加客观。根据需要可以产出很多的规则，也可摘取特定数量的优质规则。本发明相对简便快捷，且算法逻辑搭建简单，易复制。无需复杂的特征工程工作，减化多轮模型工作。可解释性强，方案搭建过程始终基于业务实际需要来指导流程走向；同时，对于实际生产中的分类，可以对每条数据匹配相应的规则命中情况从而解释相关分类准则。对分析模型数据量无硬性要求，对数据维度数量要求也相对较宽松。

请参阅图13，本发明还提供一种基于客服营销场景下的数据挖掘装置，包括：

获取单元101，用于获取客服营销场景下的原始数据中所有与业务逻辑相关或潜在相关的目标字段；

处理单元102，用于所述目标字段进行数据预处理；

计算单元103，用于根据主成分分析法，对数据预处理后的目标字段进行数据降维以及字段间相关性计算；

构建单元104，用于基于数据降维以及字段间相关性计算的结果，通过决策树分类器构建数据模型，并对数据模型进行训练、测试以及调优；

选取单元105，用于根据所述数据模型，选取最优树算法进行树图输出；

抽取单元106，用于抽取树图中显著正向分类的分支和显著负向分类的分支，进行符合业务逻辑的梳理后生成规则；

整合单元107，用于将生成的所述规则进行整合，并根据业务实际逻辑对整合后的规则进行梳理和筛选；

上线单元108，用于将梳理和筛选后的规则部署上线，同时对每个客户的命中情况进行记录，以用于后续数据模型预测结果的追踪；

所述获取单元109，还用于获取客服营销场景下的新数据，以根据所述新数据进行数据模型迭代以及规则新增。

本发明实施例还提供一种存储介质，本发明实施例还提供一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现本发明提供的基于客服营销场景下的数据挖掘方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体（英文：Read-OnlyMemory，简称：ROM）或随机存储记忆体（英文：RandomAccessMemory，简称：RAM）等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于基于客服营销场景下的数据挖掘装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种基于客服营销场景下的数据挖掘方法，其特征在于，包括：

对所述目标字段进行数据预处理；

根据所述数据模型，选取最优树算法进行树图输出；

获取客服营销场景下的新数据，以根据所述新数据进行数据模型迭代以及规则新增；

对所述目标字段进行数据预处理包括：

剔除极值和异常值，其中，根据目标字段分布情况，将预设分布范围之外的极值和异常值剔除；

对所述目标字段进行数据预处理还包括：

处理缺失值，其中，如果目标字段的数据量大于预设范围，将缺失值所属的整条记录全部剔除；

如果缺失值为有意义缺失，使用0替代缺失值；

如果单一目标字段缺失值大于50%且为无意义缺失，则直接剔除所述目标字段；

所述处理缺失值还包括：

如果目标字段为数值型字段，且数据集中在特定区间内或符合特定变化规律，则根据中位数、众数或者平均数计算得到数值填补缺失值；

所述处理缺失值还包括：

利用模型测算缺失值得到预测值；

利用所述预测值填补缺失值。

2.如权利要求1所述的方法，其特征在于，对所述目标字段进行数据预处理还包括：

根据数据意义进行目标字段的属性转换。

3.如权利要求2所述的方法，其特征在于，对所述目标字段进行数据预处理还包括：

对目标字段进行数据归一化处理。

4.如权利要求1所述的方法，其特征在于，根据所述数据模型，选取最优树算法进行树图输出的步骤中，输出的树图包括以下输出方案：全维度集合、部分重要性贡献度头部维度集合以及数值型变量维度集合。

5.一种基于客服营销场景下的数据挖掘装置，其特征在于，包括：

处理单元，用于对所述目标字段进行数据预处理；对所述目标字段进行数据预处理包括：剔除极值和异常值，其中，根据目标字段分布情况，将预设分布范围之外的极值和异常值剔除；对所述目标字段进行数据预处理还包括：处理缺失值，其中，如果目标字段的数据量大于预设范围，将缺失值所属的整条记录全部剔除；如果缺失值为有意义缺失，使用0替代缺失值；如果单一目标字段缺失值大于50%且为无意义缺失，则直接剔除所述目标字段；所述处理缺失值还包括：如果目标字段为数值型字段，且数据集中在特定区间内或符合特定变化规律，则根据中位数、众数或者平均数计算得到数值填补缺失值；所述处理缺失值还包括：利用模型测算缺失值得到预测值；利用所述预测值填补缺失值；