CN110335057A

CN110335057A - 一种机器学习与人工规则融合的基金精准营销方法

Info

Publication number: CN110335057A
Application number: CN201910360358.8A
Authority: CN
Inventors: 覃剑钊; 文闻; 杜瑞罡; 张汉林; 李立峰; 蒋荣
Original assignee: Gf Securities Co ltd
Current assignee: Gf Securities Co ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-10-15

Abstract

本发明公开了一种机器学习与人工规则融合的基金精准营销方法，包括数据源获取，数据存储，特征提取，机器学习模型与人工规则，过滤及模型应用。本发明通过使用客户的各种金融理财产品的历史资产信息，计算每期持仓数量变化比例并设置最高截断数值，同时结合客户基本信息、风险偏好、用户行为数据以及市场行情特征等背景数据，引入机器学习算法对用户下期购买不同类型基金产品的意愿进行打分，同时结合人工经验进行人工规则打分，最后将两者融合对客户下期的基金购买行为进行预测，从而挖掘各类型基金潜在客户。

Description

一种机器学习与人工规则融合的基金精准营销方法

技术领域

本发明涉及一种大数据和机器学习领域，具体涉及一种机器学习与人工规则融合的基金精准营销方法。

背景技术

随着“大数据”日益火热，各种机器学习和人工智能方法应运而生。金融、证券行业自身产生了大量的高质量数据，企业既希望通过已有的历史数据寻找规律，对客户需求和偏好进行挖掘，也希望利用从业人员的经验帮助业务进行优化和提升，给业务带来直接的经济效益。一般来说，企业内部工作人员全部根据经验进行决策会有较大的不足，因为人的决定通常具有较大的主观性，且海量的数据将会耗费大量的人力；借助机器学习算法会客观，在大数据面前也应对自如，但是全部依赖算法的准确率和有效性有时候却不尽如人意。如何将传统人工推荐与大数据机器学习技术结合起来，两者取长补短，最大程度地提高准确率，从而为相关从业者的决策与业务开展提供参考与帮助，是本发明诞生的原因。

目前已经有许多金融行业的公司使用了各种机器学习方法来提高金融理财产品，尤其是基金的营销的精准性。尽管现有的大数据挖掘技术在一定程度上实现了基金产品的精准营销，但仍存在着许多优化改进方向。由于金融理财产品存在的风险以及不稳定性，以及客户的偏好心理等的不确定性，全盘依靠机器学习的算法的准确率有时候并不会很高。另外由于金融系统高度不确定性和非稳定性，使得单纯依赖机器学习算法的推荐系统稳定性和泛化性能较差。

本发明在采用协同过滤算法进行基金产品精准营销的过程中，将人工打分规则与基于机器学习的打分规则相融合，显著提升了精准营销的准确度和鲁棒性。同时在采用机器学习模型进行打分前，对用户历史购买基金行为特征变量进行截断预处理，进一步提高了模型的稳定性和泛化性。

发明内容

本发明所要解决的技术问题是提供一种机器学习与人工规则融合的基金精准营销方法，以解决上述背景技术中提出的问题。

本发明是通过以下技术方案来实现的：一种机器学习与人工规则融合的基金精准营销方法，其特征在于：包括数据源获取，数据存储，特征提取，机器学习模型与人工规则，过滤及模型应用：

其中，数据源获取：从多个渠道获取原始数据；

数据存储：将从数据源获取的结构化数据和非结构化数据进行整合，提取，去重存储到HDFS中；

特征提取：从数据库中提取和构建需要的特征，主要包括用户的历史持仓情况和风险承受能力；

机器学习模型与人工规则：对获取到的数据集进行建模，包括数据清洗、数据预处理(设置最高截断)、机器学习模型、人工规则制定并打分、协同过滤和客户预测；

过滤：依据客户的风险承受能力对名单进行简单过滤；

模型应用：将模型得到的结果应用到实际的业务中，通过渠道APP推送、邮件、短信以及电话等各种营销系统做产品推广，有差异地进行广告投放。

作为优选的技术方案，数据源包括第一、第二和第三部分，第一部分包括公司业务数据，运维、网站日志数据，第二部分是购买外部数据，第三部分是业务人员在开展业务，调研时收集的数据。

作为优选的技术方案，数据存储指对各类原始数据进行处理清洗以及整合，加工统计后采集到HDFS中，并且尽可能汇总较多的数据，主要有从公司系统的内部数据收集各种各样的客户标签，包括人口统计标签，社会属性标签，资产标签，投资能力标签。

作为优选的技术方案，特征提取包括获取数据集，依据理财产品类别，删除重复数据，构造机器学习模型所需要的变量和构造样板集D；

a.数据集主要指客户交易数据，以客户编号、金融理财产品编号、日期(年-月-日)作为主键，记录了客户在不同时间下对不同理财产品的持仓情况。

b.依据理财产品类别是对数据集依据理财产品的类别分类，如公募股票型基金、公募债券型基金、公募货币型基金、公募混合型基金、私募货币型基金等，也可以继续细分。

c.删除重复数据是清洗得到的数据集，去除冗余重复的数据。

d.构造机器学习模型所需要的变量包括特征A和B：

特征A，基于客户的交易记录计算每个客户各月的某类基金持仓数量变化比例，以该客户下月的基金持仓数量与当月的基金持仓数量之差除以本月基金持仓数量作为特征A，代表该客户的基金的购入情况；

特征B，以该客户下月的基金持仓数量与当月的基金持仓数量之差作为特征B，代表该客户的基金的购入情况。

e.构造样本集D，上述数据以客户ID为主键拼接，构造样本集D。

作为优选的技术方案，机器学习模型与人工规则包括划分训练集、测试集、验证集，确定优化目标Z，机器学习模型和协同过滤模型。

作为优选的技术方案，过滤是出于对客户偏好的考虑，我们还要依据客户的风险承受能力对第四步得到的名单进行一次简单过滤，得到当月的最终预测名单。

作为优选的技术方案，模型应用是将模型得到的结果应用到实际的业务中，通过渠道APP推送以及邮件、短信的营销系统依据客户名单做产品推广，有差异地进行广告投放。

本发明的有益效果是：本发明通过使用客户的各种金融理财产品的历史资产信息，计算每期持仓数量变化比例并设置最高截断数值，同时结合客户基本信息、风险偏好、用户行为数据以及市场行情特征等背景数据，引入机器学习算法对用户下期购买不同类型基金产品的意愿进行打分，同时结合人工经验进行人工规则打分，最后将两者融合对客户下期的基金购买行为进行预测，从而挖掘各类型基金潜在客户。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的总框架图；

图2为本发明的特征提取细节步骤图；

图3为本发明的机器学习与人工规划细节步骤图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“设置”应做广义理解，例如，可以是固定相连、设置，也可以是可拆卸连接、设置，或一体地连接、设置。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

如图1所示，本发明的一种机器学习与人工规则融合的基金精准营销方法，其特征在于：包括数据源获取，数据存储，特征提取，机器学习模型与人工规则，过滤及模型应用：

其中，数据源获取：从多个渠道获取原始数据；

机器学习模型与人工规则：对获取到的数据集进行建模，包括数据清洗、数据预处理(设置最高截断)、机器学习模型、人工规则制定并打分、协同过滤和客户预测，根据当前时间实时更新模型，提高预测准确度。针对预测结果做分析，调整模型，获取有可能于下期购买某类基金的客户名单。

过滤：依据客户的风险承受能力对名单进行简单过滤；

本实施例中，如表1所示，数据源包括第一、第二和第三部分，第一部分包括公司业务数据，运维、网站日志数据，第二部分是购买外部数据，第三部分是业务人员在开展业务，调研时收集的数据。

本实施例中，数据存储指数据存储指对各类原始数据进行处理清洗以及整合，加工统计后采集到HDFS中，并且尽可能汇总较多的数据。主要有从公司系统的内部数据收集各种各样的客户标签：如人口统计标签，包括性别、年龄、居住地、教育程度等；社会属性标签，包括工作地点、从事行业、收入水平等；资产标签，即交易历史特征，包括总资产、期初资产、期末资产、各类理财产品持仓情况、操作次数等；投资能力标签，包括抗风险能力、客户等级等，其中人口统计标签、社会属性标签和投资能力标签共同构成了客户的画像数据。

本实施例中，如图2所示，特征提取包括获取数据集，依据理财产品类别，删除重复数据，构造机器学习模型所需要的变量和构造样板集D；

a.数据集主要指客户交易数据，以客户编号、金融理财产品编号、日期(年-月-日)作为主键，记录了客户在不同时间下对不同理财产品的持仓情况，通过日期、客户编号等相关属性将数据拼接成原始数据集；将原始数据集中以日为单位的属性通过计算当月均值的方式处理成以月(年-月)为单位。

b.依据理财产品类别是对数据集依据理财产品的类别分类，如公募股票型基金、公募债券型基金、公募货币型基金、公募混合型基金、私募货币型基金等，也可以继续细分，模块四的机器学习模型需要用所有类别的理财产品的数据合并训练，而人工规则需要对每一类产品独立实施，而协同过滤是多类产品的数据先分类后同时进入模型训练。

d.构造机器学习模型所需要的变量包括特征A和B：

特征A，基于客户的交易记录计算每个客户各月的某类基金持仓数量变化比例，以该客户下月的基金持仓数量与当月的基金持仓数量之差除以本月基金持仓数量作为特征A，代表该客户的基金的购入情况，A大于1表示客户下月购入基金，反之表示客户下月未购入基金，某一周期的前n个月的A数据即作为自变量X1、X2、…、Xn，还有客户的性别、年龄、居住地、教育程度、工作地点、从事行业、收入水平等，分类处理成哑变量后加入机器学习模型的自变量中，该周期最后一个月的A数据即作为模型的因变量Y；

特征B，以该客户下月的基金持仓数量与当月的基金持仓数量之差作为特征B，代表该客户的基金的购入情况，B大于0表示客户下月购入基金，反之表示客户下月未购入基金。

本实施例中，如图3所示，机器学习模型与人工规则包括划分训练集、测试集、验证集，确定优化目标Z，机器学习模型和协同过滤模型；

1.在特征提取的基础上构造训练集、验证集与测试集，训练集为样本集D中T1<t≤T2的数据，验证集为样本集D中T2<t≤T3的数据，测试集为样本集D中T3<t≤T4的数据,其中T1<T2<T3<T4；

2.确立并构造整个模型的优化目标。以命中率Z为模型优化目标，即目标属性。命中率Z为：将预测值降序排列，按照需求选取前r个结果，表示预测会购买某类基金的客户，W为实际购买该类基金的客户，即命中率

Z越接近1说明该模型越有效，所以我们尽可能使Z接近1。同时我们可以随机选取客户作为对照组，计算对照组的命中率，记为Baseline，作为对比，以观察模型的提升性能。Baseline的计算公式如下：

3.基于机器学习的打分，这里我们以线性回归模型为例描述实施方案，实际应用中还可以采用支持向量回归，决策树回归，梯度增强模型回归，深度神经网络回归等机器学习方法。机器学习模型打分的主要思路是：依据历史交易数据、持仓数据以及客户画像数据、市场行情等数据估计并预测客户下个时间区间相关基金持仓数量的变化情况，并根据持仓变化预测值对用户在下个时间区间内对不同类型基金的喜好程度进行打分。

回归的数据准备如下：设某一周期前n个月的(该周期包括m个月)客户持仓数量变化比例以及客户的性别、年龄、居住地、教育程度、工作地点、从事行业、收入水平等处理好的哑变量为自变量X，当月的客户持仓数量变化比例为Y(训练集)。其中每个月的持仓数量变化比例A(即上一模块中的特征A)的计算公式如下：

分母部分加上0.01(或者其他很小的数)是为了避免本月持仓数量为0造成出错。

如果本月持仓数量为0，A会是一个十分大的数，严重影响线性模型的准确性，故我们统一做一个上界为5(或者其他不是十分大的合理的数)的截断：

把用于表示线性模型中客户持仓数量变化比例，避免了过大的数据出现，被模型当做异常值。对训练集、验证集和测试集都做一样的数据清洗，唯一不同的是训练集中的每月持仓数量变化比例是按照将所有理财产品之和计算的，而验证集和测试集则对每一类理财产品都单独计算持仓数量变化比例。在训练模型时使用所有理财产品来计算每月的持仓数量变化比例，是为了增加了模型的鲁棒性和有效性，并且这样可以使得空白数据大大减少，使模型更加稳定；而在验证集和测试集中对每一类理财产品单独计算持仓数量变化比例，是为了更好地与人工评分结合起来，使得推荐更为精准化、定向化。

清洗处理好的数据整理进模型中，在Spark平台上通过梯度下降迭代并不断调整测试参数找到最优拟合函数，用该拟合函数在验证集中估计出客户对某类基金的持仓变化趋势。

4.人工规则得分，经过多次试验，在线性回归得分的基础上，根据特征B制定人工规则如下：在过去5个月中，月基金持仓数量增加记为2，持仓数量减少记为0.5，持仓数量不变记为1，从未有过持仓记为0，将过去5个月的可能性得分累计。(以上仅为依据试验和经验的人工规则示例，不同客户群可能适用不同的人工打分方式)。

将人工规则得分与线性回归的趋势得分加起来，共同构成客户下月购买某类基金的可能性得分。对每一类理财产品都重复同样的过程，尽可能得到所有客户对每一类理财产品的购买可能性得分(空缺的分数记为0)。

5.基于ALS矩阵分解的协同过滤，用上述得分构造出客户对于各类基金以及其他理财产品的得分矩阵，此时大部分的分数应该都为0，得分矩阵是一个稀疏矩阵，所以我们要引入协同过滤，用来解决矩阵过于稀疏的问题。如果只用上述线性模型和人工规则的得分来推荐的话，由于大部分分数为0，广告的推送范围就会很窄，这会导致忽略了很多有购买倾向的客户。协同过滤这是第二个用到的机器学习算法。

基于矩阵分解的协同过滤模型的算法原理如下：通过将客户和各类理财产品映射到联合的低维空间，分解出的两个矩阵分别以行向量和列向量为隐藏因素，度量了影响客户购买理财产品的特征，且他们的内积即表示客户购买该理财产品的倾向。

矩阵分解可以简单表示为如下公式：

ALS，中文交替最小二乘法，是Spark中最常使用的用于解决矩阵分解协同过滤的算法。

ALS的优化目标函数为：

比起另一个基于奇异值(SVD)的矩阵分解方法，基于ALS的矩阵分解虽然计算速度要慢，但是更加适用于分布式运算，计算精度也要更高。

经过协同过滤以后，稀疏得分矩阵的大部分空缺被填补，选出想要的基金的那一列，依据填补后的得分由高到低进行排列，对应的名字即为该模型所得名单。

用训练集和验证集经过以上三个步骤训练并调整好模型，若模型在验证集中命中率Z很高，便可以将该模型放入测试集中测试，即开始投入使用。

6.金融市场不是一成不变，客户的需求和偏好也不是一成不变的，所以我们要根据按一定的周期更新模型。

企业可以选择按月更新模型，即于每月1号，依照模块四中的机器学习算法和人工规则，利用前n(n自定义)个月的数据重新训练模型，得到当月某基金的潜在客户名单。

本实施例中，过滤是出于对客户偏好的考虑，我们还要依据客户的风险承受能力对第四步得到的名单进行一次简单过滤，得到当月的最终预测名单，过滤后的名单可以更好的提高准确性，同时也避免了对客户不必要的骚扰。

本实施例中，模型应用是将模型得到的结果应用到实际的业务中，通过渠道APP推送以及邮件、短信的营销系统依据客户名单做产品推广，有差异地进行广告投放。

企业应基于每月的更新预测开展基于这些预测的分析工作，工作包括基于更新的名单给客户针对性的推荐，还有分析分析上月命中率Z和baseline，若Z较低，且与baseline差别不大，就必须详细分析原因，并依此来合理调整模型(如人工规则的调整，或者线性模型变量的选择，以及线性模型和协同过滤参数的调整)，不断提高预测的准确性，尽可能使得命中率Z接近1。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何不经过创造性劳动想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims

1.一种机器学习与人工规则融合的基金精准营销方法，其特征在于：包括数据源获取，数据存储，特征提取，机器学习模型与人工规则，过滤及模型应用：

其中，数据源获取：从多个渠道获取原始数据；

过滤：依据客户的风险承受能力对名单进行简单过滤；

2.根据权利要求1所述的机器学习与人工规则融合的基金精准营销方法，其特征在于：数据源包括第一、第二和第三部分，第一部分包括公司业务数据，运维、网站日志数据，第二部分是购买外部数据，第三部分是业务人员在开展业务，调研时收集的数据。

3.根据权利要求1所述的机器学习与人工规则融合的基金精准营销方法，其特征在于：数据存储指对各类原始数据进行处理清洗以及整合，加工统计后采集到HDFS中，并且尽可能汇总较多的数据，主要有从公司系统的内部数据收集各种各样的客户标签，包括人口统计标签，社会属性标签，资产标签，投资能力标签。

4.根据权利要求1所述的机器学习与人工规则融合的基金精准营销方法，其特征在于：特征提取包括获取数据集，依据理财产品类别，删除重复数据，构造机器学习模型所需要的变量和构造样本集D；

a.数据集主要指客户交易数据，以客户编号、金融理财产品编号、日期(年-月-日)作为主键，记录了客户在不同时间下对不同理财产品的持仓情况；

b.依据理财产品类别是对数据集依据理财产品的类别分类，如公募股票型基金、公募债券型基金、公募货币型基金、公募混合型基金、私募货币型基金等，也可以继续细分；

c.删除重复数据是清洗得到的数据集，去除冗余重复的数据；

d.构造机器学习模型所需要的变量包括特征A和B：

特征B，以该客户下月的基金持仓数量与当月的基金持仓数量之差作为特征B，代表该客户的基金的购入情况；

5.根据权利要求1所述的机器学习与人工规则融合的基金精准营销方法，其特征在于：机器学习模型与人工规则包括划分训练集、测试集、验证集，确定优化目标Z，机器学习模型和协同过滤模型。

6.根据权利要求1所述的机器学习与人工规则融合的基金精准营销方法，其特征在于：过滤是出于对客户偏好的考虑，我们还要依据客户的风险承受能力对第四步得到的名单进行一次简单过滤，得到当月的最终预测名单。

7.根据权利要求1所述的机器学习与人工规则融合的基金精准营销方法，其特征在于：模型应用是将模型得到的结果应用到实际的业务中，通过渠道APP推送以及邮件、短信的营销系统依据客户名单做产品推广，有差异地进行广告投放。