CN113379457A - 面向金融领域的智能营销方法 - Google Patents
面向金融领域的智能营销方法 Download PDFInfo
- Publication number
- CN113379457A CN113379457A CN202110663600.6A CN202110663600A CN113379457A CN 113379457 A CN113379457 A CN 113379457A CN 202110663600 A CN202110663600 A CN 202110663600A CN 113379457 A CN113379457 A CN 113379457A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- prediction
- marketing
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 35
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 13
- 239000002131 composite material Substances 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 238000007405 data analysis Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 238000007418 data mining Methods 0.000 claims description 7
- 238000013499 data model Methods 0.000 claims description 7
- 238000007637 random forest analysis Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 230000008676 import Effects 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 5
- 238000002156 mixing Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000005065 mining Methods 0.000 claims description 4
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000010276 construction Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 102100035932 Cocaine- and amphetamine-regulated transcript protein Human genes 0.000 description 2
- 101000715592 Homo sapiens Cocaine- and amphetamine-regulated transcript protein Proteins 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 125000002091 cationic group Chemical group 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012351 Integrated analysis Methods 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Technology Law (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及金融数据技术,旨在提供一种面向金融领域的智能营销方法。包括:采集客户的基础信息数据、交易数据以及营销习惯数据;对采集到的数据进行处理与分析,将原始数据转换为带有标签的数据,所述标签是更能代表预测模型潜在问题的特征;构建使用多种学习算法的模型库,对不同模型进行训练后,输出各模型的预测结果;将各模型的预测结果组合成预测特征,通过输出层拟合得到最终的分类结果。本发明提出的方法对用户有较高的预测能力。由于针对性较强,能有效的提高和改善对客户的服务效率的技术问题,实现精准营销。本发明提供灵活可扩展的建模体系,预置了多种预测模型。本发明可以推荐多种产品,并且可以实现多维产品营销。
Description
技术领域
本发明涉及金融数据技术,特别涉及面向金融领域的智能营销方法。
背景技术
随着移动互联网的飞速发展,传统的银行电话业务办理已经扩展到了包括移动APP、微信平台、网页在内的各个渠道,多样化的渠道与多样化的交互方式使业务办理有了更多的方式方法,为客户提供了更多的便利。但是对于服务端,多样化的渠道与渠道获取的便利性使客户服务的数据量与工作量也大大增加。业务办理流程的自动化、智能化在银行业务中占比的比重也越来越大。
金融产品是银行的重要业务,现有基于客户的生命周期,利用已有数据从所有客户中筛选某类或某几类产品的潜在客户,做出针对性营销,从而减少银行成本提高服务质量。但是,目前业务处理相互独立,系统报表种类繁多,缺乏准确性,处理分散,较难快速按需获得银行管理信息视图,从而影响银行管理决策的效率和准确性。客户各业务数据比较孤立,无法全面、深入细致的展示对公客户业务发展情况,业务数据间的价值挖掘不够深入,此外无法与第三方平台客户相关数据整合不利于进一步挖掘客户潜在价值,以上对于对公客户精细化经营管理、促进对公客户业务增长有一定的阻碍作用。
在互联网和大数据背景下,银行业务不断扩展,更加依赖于信息系统和数据,但是在大型的数据库中,真正被利用的数据却不多,拥有着大量的数据但获得的信息却很匮乏。银行在客户数据分析上仍较为弱势,目前的一些数据统计分析仅仅停留在数据表面,这并不能为银行带来足够的有效信息。为适应业务发展要求,满足市场变化的趋势,需要引入人工智能技术来支撑新的商业模式的创新。
目前有一些公开文献提出了智能营销技术,例如中国发明专利申请“一种基于因果推断和分配策略最优化的金融智能营销算法”,基于因果推断和分配策略最优化,构建基于因果推断的用户敏感度增量模型锁定营销敏感人群,预测不同营销动作对每个用户的敏感度,从而帮助制定营销策略;该方法促成营销推广效率的最大化。缺点是只针对特定人群营销,无法推广到全域人口。中国发明专利申请“基于智能终端智能营销系统”,通过输出多媒体节目的信源,对信源输出的所有多媒体节目进行内容识别,建立电子节目单;获取用户观看的多媒体节目的特征信息,并将实时广告内容同步至移动端;移动端基于实时广告内容向用户推送对应的移动广告。该发明的技术方案能实现多终端的广告匹配。缺点是方法依赖于用户的表面行为,没有充分挖掘客户不同维度的行为画像。
综合起来看,相关现有公开技术虽然都能在一定程度上解决智能营销的问题,但是要具体适用到银行精准营销业务领域,通常存在如下的不足:首先用于解决现有技术中的营销方式服务质量较差,针对性差,不能有效的提高和改善对客户的服务效率的技术问题;其次,模型单一,单一模型往往对结果有偏见;最后缺乏一定的灵活性,存在应用范围有限等问题。
发明内容
本发明要解决的技术问题是,克服现有技术中的不足,提供一种面向金融领域的智能营销方法。
为解决上述技术问题,本发明采用的解决方案是:
提供一种面向金融领域的智能营销方法,包括以下步骤:
(1)采集客户的基础信息数据、交易数据以及营销习惯数据;
(2)对采集到的数据进行处理与分析,将原始数据转换为带有标签的数据,所述标签是更能代表预测模型潜在问题的特征;
(3)构建使用多种学习算法的模型库,对不同模型进行训练后,输出各模型的预测结果;
(4)将各模型的预测结果组合成预测特征,通过输出层拟合得到最终的分类结果。
本发明中,在步骤(1)中,所述客户基础信息数据包括户账户信息、学历、家庭住址、联系方式和年龄;所述交易数据包括客户的账户交易频率、交易金额大小和账户余额;所述营销习惯数据包括客户对历史营销的关注度和历史营销结果。
本发明中,在步骤(2)中,针对采集到的数据进行处理与分析,包括数据去重,数据清洗和数据导入的操作;其中,
所述数据去重包括:将异源异构的数据导入存储平台,对其数据源进行标记;基于标识id对每一个数据进行去重操作,对于相同id的多条记录基于写入时间进行去重判断,保留最近一次写入的数据内容;生成并储存各个数据源去重后的结果;
所述数据清洗是指将原始格式各不相同的多元数据转换成格式统一的向量化数据;具体包括:清除无用信息,对隐私数据进行加密;对于Json型数据,以递归函数进行递归展开,并记录每个字段的类型;根据数据源对应的元数据进行标准化转换,对numerical类型直接进行转换,对string类型进行编码或词向量转换,对sequence类型进行相关统计值转换;
所述数据导入是指对各个数据源的数据进行合并操作,生成矩阵形式的数据集以用于模型训练;具体是:根据每个向量化记录数据的标识id,对各个数据源的数据进行连接操作;数据的连接操作基于Spark计算框架,通过分布式方法进行分块连接和整合,最终的连接结果以表形式存储到数据库中。
本发明中,在步骤(2)中,经处理与分析的数据按类别存储在结构化数据和非结构化数据的分布式储存系统中。
本发明中,在步骤(3)中,采用基于XGBoost、LightGBM、CatBoost和随机森林的多个学习算法模型,并以Blending方法融合多个基础模型;首先利用测试集的样本特征训练所述多个模型,计算得出预测结果,作出预测分类;然后将各模型的预测输出组合成预测特征;通过逻辑回归拟合得到最终的预测模型。
本发明中,所述LightGBM学习算法模型是基于贝叶斯优化算法而实现的;该算法通过下述公式实现未知目标函数的全局最优解求解:
其中,x表示待优化的参数;X表示待优化的参数集合;f(x)表示目标函数;
同时,还采用UCB函数作为采样函数,其数学表达式为:
UCB(x)=μ(x)+εδ(x)
其中,μ(x)和δ(x)分别是采用高斯过程所得到的目标函数联合后验分布的均值和协方差;通过调节参数ε的大小能够平衡采样点的选择。
本发明中,在步骤(4)中,进一步包括:将单一产品的预测结果组合成混淆矩阵,从中挖掘相关性高的产品进行拓展营销;具体包括:
根据预测结果构建复合标签,如果分类结果相同,样本标签值为分类结果;如果不同,根据正负样本比例对样本标签做随机标注;将复合标签数据划分为训练集和测试集,在进行同样的训练后,并基于最终的预测模型输出计算结果,得到用于复合金融业务产品精准营销的客户需求分类结果。
本发明进一步提供了用于面向金融领域的智能营销的系统,包括数据采集模块、数据分析与特征工程模块、数据挖掘与模型构建模块和结果输出模块;其中,
数据采集模块,用于采集客户的基础信息数据、交易数据以及营销习惯数据;
数据分析与特征工程模块,用于对采集到的数据进行处理与分析,将原始数据转换为带有标签的数据,所述标签是更能代表预测模型潜在问题的特征;
数据挖掘与模型构建模块,用于构建使用多种学习算法的模型库,对不同模型进行训练后,将各模型的输出作为模型融合的输入来训练最终模型;
结果输出模块,用于利用二分类任务输出各模型的预测结果,并将多个模型计算的结果通过输出层拟合,得到最终的分类结果。
本发明中,所述结果输出模块中包括线性回归模型。
与现有技术相比,本发明的技术效果是:
1、本发明提出一种精准营销方法,通过一次建模,获得多种产品的营销策略,从而减少银行成本。实践证明,本模型对用户有较高的预测能力。由于针对性较强,能有效的提高和改善对客户的服务效率的技术问题,实现精准营销。本发明提供灵活可扩展的建模体系,预置了多种预测模型。在产品推荐方面,本发明可以推荐多种产品,并且可以实现多维产品营销。
2、在模型输入构建模块,其关键点在于可以针对不同来源的异构数据进行整合分析,并基于分布式计算框架,实现类型识别转换,数据去重并导入生成统一格式的数据训练集合测试集。
3、在营销模型库构建和选择上,其关键点在于整合了XGBoost、LightGBM、CatBoost、随机森林等模型。包含了传统概率模型和深度学习方法,并提供了基于Blending的模型整合方式,使得该建模方法具有更强的泛化能力和稳定性。
4、本发明可以根据需求,使用相同的数据输入,产生不同的产品营销策略。更进一步,根据单一产品营销结果,构建复合产品营销策略。
5、除了所述分类模型,通过采用回归模型可以用于存量客户的产品营销,也可以构建相似的模型,进行单一,复合产品营销。
附图说明
图1为本发明中精准营销流程图。
图2为本发明中输入构建方法的示意图。
图3为建模方法示意图。
具体实施方式
首先需要说明的是,本发明涉及数据库及学习算法技术,是计算机技术在金融信息技术领域的一种应用。在本发明的实现过程中,会涉及到多个软件功能模块的应用。申请人认为,如在仔细阅读申请文件、准确理解本发明的实现原理和发明目的以后,在结合现有公知技术的情况下,本领域技术人员完全可以运用其掌握的软件编程技能实现本发明。如本发明未对其进行特别说明的,均为采用现有公知技术实现的技术方案。凡本发明申请文件提及的均属此范畴,申请人不再一一列举。
下面结合附图,对本发明的具体实施方式进行详细描述。
图1是本发明用于面向金融领域的智能营销的系统的架构图,包括四个模块:数据采集模块、数据分析与特征工程模块、数据挖掘与模型构建模块和结果输出模块。其中,数据采集模块,用于采集客户的基础信息数据、交易数据以及营销习惯数据;数据分析与特征工程模块,用于对采集到的数据进行处理与分析,将原始数据转换为带有标签的数据,所述标签是更能代表预测模型潜在问题的特征;
数据挖掘与模型构建模块,用于构建使用多种学习算法的模型库,对不同模型进行训练后,将各模型的输出作为模型融合的输入来训练最终模型;结果输出模块,用于利用二分类任务输出各模型的预测结果,并将多个模型计算的结果通过输出层拟合,得到最终的分类结果。
下面详细介绍本发明所述面向金融领域的精准营销方法的主要步骤。
步骤S1,采集客户的基础信息数据、交易数据以及营销习惯数据。
客户数据采集主要包括:客户基础信息数据、客户交易数据以及客户营销习惯等数据。客户基础信息数据包括:客户账户信息、学历、家庭住址、联系方式、年龄等基础信息;客户交易数据主要包括:客户的账户交易频率、交易金额大小、账户余额等数据;客户营销习惯数据包括:客户对历史营销的关注度、客户的历史营销结果等营销信息画像,代表了客户对于营销的接受程度。
步骤S2,对采集到的数据进行处理与分析,将原始数据转换为带有标签的数据,所述标签是更能代表预测模型潜在问题的特征。
本发明的输入数据有很多不同的来源,不同数据源的数据一般具有不同的存储格式,且往往存在数据的重复和冲突问题,并将原始数据转换为更能代表预测模型的潜在问题的特征的过程,可以通过挑选最相关的特征,提取特征以及创造特征来实现,因而需要对采集到的数据进行进一步处理和分析。
图2显示了本发明输入构建方法的流程,本发明将对数据进行处理,包括数据去重、数据清洗和数据导入,智能识别数据的基本类型(数值、字符标识等)并进行对应的数值或者向量化转换,并将处理完成的数据按类别存储至HBase(结构化数据)或者HDFS(非结构化数据)中。
步骤S201,为了整合不同来源的输入数据,本发明基于Hadoop存储平台相关技术,进行去重,主要步骤包括:1)将异源异构的数据导入Hadoop分布式存储平台,数据源记为Origin1,Origin2,...,Originn;2)对每一个Origini(1≤i≤n)基于标识id(一般为身份证号信息)进行去重操作,对于相同id的多条记录,一般基于写入时间来进行去重判断,保留最近一次写入的数据内容;3)生成并储存各个数据源去重后的结果为Distinct1,DiStinct2,...,Distinctn。
步骤s202,数据清洗是本发明数据挖掘与模型构建模块的核心功能,由于输入数据原始格式各不相同,而模型训练需要的是数值向量类型的输入,因此本模块的主要工作就是将多元数据输出成为格式统一的向量化数据。实际处理过程如下:1)对于Json型数据,编写递归函数,递归展开Json格式数据,并记录每个字段的类型;2)清除无用信息(如,姓名,手机号等),对隐私数据加密(身份证,银行卡等)。3)根据数据源对应的meta data来进行数据源的标准化转换。对于不同类型字段,转换方式也不同,具体为:numerical类型直接进行转换,string类型进行编码或词向量转换,sequence类型进行相关统计值(如均值,最值)转换。转换后生成该数据源对应的格式统一的向量化记录数据Vectori。
步骤S203,本发明实例要进行精准营销模型的训练,需要对各个数据源的数据进行合并操作,从而生成数据集Dall,Dall为N*M的矩阵,用于模型训练时训练集和测试集的划分,其具体步骤如下:1)根据每个向量化记录数据Vectori的标识id对各个数据源的数据进行连接操作;由于数据量较大,数据的连接操作也是基于Spark计算框架,通过分布式方法进行分块连接和整合;2)最终的连接结果以表形式存储到数据库中,使用SQL语句就可以操作相关数据。
步骤S3,构建使用多种学习算法的模型库,对不同模型进行训练后,输出各模型的预测结果。
为实现精准营销模型库的构建,本发明实例综合使用多种机器学习算法对营销模型进行建模评估。如图3所示,营销模型的构建是本发明的核心内容,利用数据分析与特征工程模块处理完成的带有标签的相关数据,主要采用基于XGBoost,LightGBM以及CatBoost和随机森林的相关树形结构为基础的模型。在此基础上,进一步采用Blending方法融合多个基础模型。此外模型性能主要基于AUC值进行,lift曲线评估,将模型的预测任务分为分类和回归两种,基于各个模型在测试集中的预测性能结果选择最优模型,最终模型通过训练所有数据集生成。
步骤S301,将步骤S2获得的所有数据集进行划分。具体规则示例如下:1)获取数据集近一年的数据,每个月的数据按照时间顺序标记为M1,M2,M3,…,M12;2)训练集划分:从M1,M2,…,M6六个月中为观察期提取训练特征,从M7,M8,M9三个月中提取训练标签;验证集划分:从M4,M5,…,M9六个月中提取验证特征,M10,M11,M12三个月中提取验证标签:3)用Xtrain={X1,X2,…,Xn}表示训练集样本的原始特征集合,n为训练集中样本的个数;4)每个样本的取值为m为数据集的特征变量个数;5)用ytrain={y1,y2,...,yn}表示训练集样本的标签。
步骤S302,基于XGBoost算法的模型介绍:XGBoost是一种用于监督学习的梯度提升树方法,模型由多个基础的决策树模型(CART)组成:
其中,K是决策树的个数,fk是函数域F中的一个函数,F是所有CART的集合,梯度提升树与随机森林具有相同的模型,它们的差别是采用了不同的训练方法。XGBoost采用增量的训练策略,先拟合已经训练好的树,每次添加一个新的树,将每一步的预测值表示为
步骤S303,本发明实例综合使用多种机器学习算法对营销模型进行建模评估,该实例使用LightGBM,LightGBM是一种基于树结构的梯度提升框架的学习算法,常被用于分类任务中。对于监督训练集LightGBM旨在寻找可以最小化期望损失函数L(y,F(x))的近似函数公式表示为LightGBM进行串行运算步骤t时的损失函数近似为:且LightGBM运用牛顿法快速拟合目标函数。将τt公式内的常数项去掉,可以简化得到:其中gi与hi分别表示损失函数的一阶与二阶梯度值,和LightGBM采用不同的方法表示回归树,令Ij表示第j个叶结点的样本集,简化后的损失函数可以被表示成 给定一个树结构q(x),可以通过简单二次规划方法求得每个叶结点上的最优叶权重得分与τt的极端值:和最优的基学习器便由此获得。
为增强对于金融领域的智能营销的预测能力,本发明使用基于贝叶斯优化算法的LightGBM模型,贝叶斯优化算法是一种高效的优化算法,在数学上,可以统一将此问题描述为求解未知目标函数的全局最优解:其中,x表示待优化的参数;X表示待优化的参数集合;f(x)表示目标函数。
贝叶斯优化算法包括两个关键步骤。首先,本发明选择了一个先验函数来表示被优化函数的分布假设。为此,选择高斯过程,因为它具有灵活性和易处理性,高斯过程是多维高斯分布在无限维随机过程上的扩展,它是通过均值函数和协方差函数定义的;其次,本发明构建了一个采集函数,用于从模型后验分布中确定下一个需要评估的点,通过采样函数确定下一个需要评估的点,可以减少迭代次数,降低评估成本。通常,对于采样点的选择从利用(exploitation)和探索(exploration)两个方面考虑。exploitation就是根据当前的最优解,在其周围搜索,从而找到全局最优解;exploration就是尽力探索未评估过的样本点,避免陷入局部最优解。本发明采用UCB(Upper Confidence Bound)函数作为采样函数,其数学表达式为:UCB(x)=μ(x)+εδ(x),其中,μ(x)和δ(x)分别是采用高斯过程所得到的目标函数联合后验分布的均值和协方差。从上式可以看出,通过调节参数c的大小,可以用来平衡采样点的选择。
步骤S304,基于CatBoost算法的模犁介绍:CatBoost算法的设计初衷是为了更好的处理GBDT特征中的categorical features。在处理GBDT特征中的categorical features的时候,最简单的方法是用categorical feature对应的标签的平均值来替换。在决策树中,标签平均值将作为节点分裂的标准。这种方法被称为Greedy Target-basedStatistics,简称Greedy TS,这种方法有一个显而易见的缺陷,就是通常特征比标签包含更多的信息,如果强行用标签的平均值来表示特征的话,当训练数据集和测试数据集数据结构和分布不一样的时候会出条件偏移问题。一个标准的改进Greedy TS的方式是添加先验分布项,这样可以减少噪声和低频率类别型数据对于数据分布的影响:
其中,p是添加的先验项,σ通常是大于0的权重系数。添加先验项是一个普遍做法,针对类别数较少的特征,它可以减少噪声数据。
步骤S305,基于随机森林算法的模型介绍:随机森林中基尼系数的计算和分裂节点的确定方法如下:假设T为一份抽样样本,T=Si,i=1,2,...,k,其中k为抽样次数,样本T包含正样本(A)和负样本(B),其中训练样本数量为N(T),正样本的数量为N(A),负样本的数量为N(B);
计算训练样本的基尼系数Gini(T):Gini(T)=1-pA(T)2-pB(T)2
计算所有变量在所有取值上划分的基尼系数,取基尼系数最小的划分为最佳分裂节点。
步骤S306,本发明综合使用多种机器学习算法对营销模型进行建模评估,对不同模型进行训练后,将各模型的输出作为模型融合的输入来训练最终模型;模型融合时采用Blending融合方法。为了防止过拟合,输出层使用较为简单的逻辑回归模型,如图3所示。
步骤S4,利用二分类任务输出各模型的预测结果,并将多个模型计算的预测结果组合成预测特征,通过输出层拟合得到最终的分类结果。
本发明对于任一产品营销策略,各模型利用二分类任务给出预测结果。预测结果为1表示用户是营销目标客户,为0表示用户不是营销目标客户。例如对于贷款营销,1表示预测用户是贷款营销目标客户,反之则不是。因此我们定义标签向量labelvec={label1,label2,....labeln},即,用户对产品i的实际消费情况为labeli(0<i≤n)。
步骤S401,对任一产品P,利用训练集Dtrain对步骤S3中的模型进行训练,输入测试集Xtest={X1,X2,...,Xn}的样本特征,并得出预测结果其中表示测试样本Xi对产品P的预测分类。计算模型在测试集上的AUC,即ROC曲线下的面积(Areaunder the ROC curve),AUC越大,表示当前模型的分类预测性能越好。ROC曲线是根据混淆矩阵(如下表),以假阳率FPR为横轴,真阳率TPR为纵轴所得的曲线。
正样本 | 负样本 | |
预测为正样本 | TN | FP |
预测为负样本 | FN | TP |
步骤S402,将多个模型得到的结果,通过输出层拟合即得到最终对产品P的分类结果。由于该方法是针对金融产品营销,因此建模所使用的特征向量基本一致。因此本发明还能用于构建复合产品营销策略,具体如下:对于产品P1,P2,...,Pn,根据上述单一产品营销获得的预测结果,R1,R2,...,Rn,Ri(1≤i≤n)表示模型对客户是否需求产品i的预测结果向量。根据不同产品的结果向量,构建混淆矩阵(也可以是其他计算相似度的方法),得到相关性高的产品,例如P1,P2(这里只做举例,也可以是多个产品),根据预测结果,构建复合标签label1,2(针对上述P1,P2举例)。复合产品营销数据集构建方式如下:如果P1,P2分类结果相同,则样本标签值为分类结果。如果不同,根据正负样本比例样本标签做随机标注(为了防止过拟合,可酌情为分类结果相同的数据做随机标注)。将复合标签数据划分为训练集和测试集,通过上述训练方法,可以得到复合产品营销结果。
Claims (9)
1.一种面向金融领域的智能营销方法,其特征在于,包括以下步骤:
(1)采集客户的基础信息数据、交易数据以及营销习惯数据;
(2)对采集到的数据进行处理与分析,将原始数据转换为带有标签的数据,所述标签是更能代表预测模型潜在问题的特征;
(3)构建使用多种学习算法的模型库,对不同模型进行训练后,输出各模型的预测结果;
(4)将各模型的预测结果组合成预测特征,通过输出层拟合得到最终的分类结果。
2.根据权利要求1所述的方法,其特征在于,在步骤(1)中,所述客户基础信息数据包括户账户信息、学历、家庭住址、联系方式和年龄;所述交易数据包括客户的账户交易频率、交易金额大小和账户余额;所述营销习惯数据包括客户对历史营销的关注度和历史营销结果。
3.根据权利要求1所述的方法,其特征在于,在步骤(2)中,针对采集到的数据进行处理与分析,包括数据去重,数据清洗和数据导入的操作;其中,
所述数据去重包括:将异源异构的数据导入存储平台,对其数据源进行标记;基于标识id对每一个数据进行去重操作,对于相同id的多条记录基于写入时间进行去重判断,保留最近一次写入的数据内容;生成并储存各个数据源去重后的结果;
所述数据清洗是指将原始格式各不相同的多元数据转换成格式统一的向量化数据;具体包括:清除无用信息,对隐私数据进行加密;对于json型数据,以递归函数进行递归展开,并记录每个字段的类型;根据数据源对应的元数据进行标准化转换,对numerical类型直接进行转换,对string类型进行编码或词向量转换,对sequence类型进行相关统计值转换;
所述数据导入是指对各个数据源的数据进行合并操作,生成矩阵形式的数据集以用于模型训练;具体是:根据每个向量化记录数据的标识id,对各个数据源的数据进行连接操作;数据的连接操作基于Spark计算框架,通过分布式方法进行分块连接和整合,最终的连接结果以表形式存储到数据库中。
4.根据权利要求1所述的方法,其特征在于,在步骤(2)中,经处理与分析的数据按类别存储在结构化数据和非结构化数据的分布式储存系统中。
5.根据权利要求1所述的方法,其特征在于,在步骤(3)中,采用基于XGBoost、LightGBM、CatBoost和随机森林的多个学习算法模型,并以Blending方法融合多个基础模型;首先利用测试集的样本特征训练所述多个模型,计算得出预测结果,作出预测分类;然后将各模型的预测输出组合成预测特征;通过逻辑回归拟合得到最终的预测模型。
7.根据权利要求1所述的方法,其特征在于,在步骤(4)中,进一步包括:将单一产品的预测结果组合成混淆矩阵,从中挖掘相关性高的产品进行拓展营销;具体包括:
根据预测结果构建复合标签,如果分类结果相同,样本标签值为分类结果;如果不同,根据正负样本比例对样本标签做随机标注;将复合标签数据划分为训练集和测试集,在进行同样的训练后,并基于最终预测模型输出计算结果,得到用于复合金融业务产品精准营销的客户需求分类结果。
8.用于面向金融领域的智能营销的系统,其特征在于,包括数据采集模块、数据分析与特征工程模块、数据挖掘与模型构建模块和结果输出模块;其中,
数据采集模块,用于采集客户的基础信息数据、交易数据以及营销习惯数据;
数据分析与特征工程模块,用于对采集到的数据进行处理与分析,将原始数据转换为带有标签的数据,所述标签是更能代表预测模型潜在问题的特征;
数据挖掘与模型构建模块,用于构建使用多种学习算法的模型库,对不同模型进行训练后,将各模型的输出作为模型融合的输入来训练最终模型;
结果输出模块,用于利用二分类任务输出各模型的预测结果,并将多个模型计算的结果通过输出层拟合,得到最终的分类结果。
9.根据权利要求8所述的系统,其特征在于,所述结果输出模块中包括线性回归模犁。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2021106282622 | 2021-06-04 | ||
CN202110628262 | 2021-06-04 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113379457A true CN113379457A (zh) | 2021-09-10 |
Family
ID=77574495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110663600.6A Pending CN113379457A (zh) | 2021-06-04 | 2021-06-15 | 面向金融领域的智能营销方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113379457A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113781129A (zh) * | 2021-11-15 | 2021-12-10 | 百融至信(北京)征信有限公司 | 一种智能营销策略生成方法和系统 |
CN114580782A (zh) * | 2022-03-22 | 2022-06-03 | 四川省自然资源科学研究院(四川省生产力促进中心) | 基于集成学习的互联网金融风控预测方法 |
CN114677184A (zh) * | 2022-05-25 | 2022-06-28 | 国网浙江省电力有限公司宁波供电公司 | 基于经营决策辅助模型的数据处理方法及平台 |
CN117291649A (zh) * | 2023-11-27 | 2023-12-26 | 云南电网有限责任公司信息中心 | 一种集约化的营销数据处理方法及系统 |
CN117593044A (zh) * | 2024-01-18 | 2024-02-23 | 青岛网信信息科技有限公司 | 一种双角度的营销活动效果预测方法、介质及系统 |
CN117593044B (zh) * | 2024-01-18 | 2024-05-31 | 青岛网信信息科技有限公司 | 一种双角度的营销活动效果预测方法、介质及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709758A (zh) * | 2016-12-19 | 2017-05-24 | 浙江网新恒天软件有限公司 | 一种电商产品中服务类商品的智能推荐和分配解决方法 |
CN109034658A (zh) * | 2018-08-22 | 2018-12-18 | 重庆邮电大学 | 一种基于大数据金融的违约用户风险预测方法 |
CN111210250A (zh) * | 2019-09-29 | 2020-05-29 | 江苏苏宁银行股份有限公司 | 基于多层堆栈的精准金融营销方法 |
CN111783818A (zh) * | 2020-04-10 | 2020-10-16 | 南通大学 | 一种基于Xgboost和DBSCAN的精准营销方法 |
-
2021
- 2021-06-15 CN CN202110663600.6A patent/CN113379457A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709758A (zh) * | 2016-12-19 | 2017-05-24 | 浙江网新恒天软件有限公司 | 一种电商产品中服务类商品的智能推荐和分配解决方法 |
CN109034658A (zh) * | 2018-08-22 | 2018-12-18 | 重庆邮电大学 | 一种基于大数据金融的违约用户风险预测方法 |
CN111210250A (zh) * | 2019-09-29 | 2020-05-29 | 江苏苏宁银行股份有限公司 | 基于多层堆栈的精准金融营销方法 |
CN111783818A (zh) * | 2020-04-10 | 2020-10-16 | 南通大学 | 一种基于Xgboost和DBSCAN的精准营销方法 |
Non-Patent Citations (3)
Title |
---|
何龙: "《深入理解XGBoost:高效机器学习算法与进阶》", 31 May 2020, 北京:机械工业出版社, pages: 313 - 315 * |
范诗语 等: "基于集成学习的上市企业违约风险评价", 《证券与上市公司》 * |
范诗语 等: "基于集成学习的上市企业违约风险评价", 《证券与上市公司》, 28 February 2021 (2021-02-28), pages 62 - 68 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113781129A (zh) * | 2021-11-15 | 2021-12-10 | 百融至信(北京)征信有限公司 | 一种智能营销策略生成方法和系统 |
CN113781129B (zh) * | 2021-11-15 | 2022-02-15 | 百融至信(北京)征信有限公司 | 一种智能营销策略生成方法和系统 |
CN114580782A (zh) * | 2022-03-22 | 2022-06-03 | 四川省自然资源科学研究院(四川省生产力促进中心) | 基于集成学习的互联网金融风控预测方法 |
CN114580782B (zh) * | 2022-03-22 | 2024-04-30 | 四川省自然资源科学研究院(四川省生产力促进中心) | 基于集成学习的风控预测方法 |
CN114677184A (zh) * | 2022-05-25 | 2022-06-28 | 国网浙江省电力有限公司宁波供电公司 | 基于经营决策辅助模型的数据处理方法及平台 |
CN117291649A (zh) * | 2023-11-27 | 2023-12-26 | 云南电网有限责任公司信息中心 | 一种集约化的营销数据处理方法及系统 |
CN117291649B (zh) * | 2023-11-27 | 2024-02-23 | 云南电网有限责任公司信息中心 | 一种集约化的营销数据处理方法及系统 |
CN117593044A (zh) * | 2024-01-18 | 2024-02-23 | 青岛网信信息科技有限公司 | 一种双角度的营销活动效果预测方法、介质及系统 |
CN117593044B (zh) * | 2024-01-18 | 2024-05-31 | 青岛网信信息科技有限公司 | 一种双角度的营销活动效果预测方法、介质及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sarstedt et al. | Treating unobserved heterogeneity in PLS-SEM: A multi-method approach | |
Keramati et al. | Developing a prediction model for customer churn from electronic banking services using data mining | |
Xie et al. | Customer churn prediction using improved balanced random forests | |
US9536201B2 (en) | Identifying associations in data and performing data analysis using a normalized highest mutual information score | |
CN113379457A (zh) | 面向金融领域的智能营销方法 | |
Sikder et al. | Application of rough set and decision tree for characterization of premonitory factors of low seismic activity | |
Liu et al. | An efficient smart data mining framework based cloud internet of things for developing artificial intelligence of marketing information analysis | |
Hicham et al. | Analysis of unsupervised machine learning techniques for an efficient customer segmentation using clustering ensemble and spectral clustering | |
CN110472659B (zh) | 数据处理方法、装置、计算机可读存储介质和计算机设备 | |
CN113656699B (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN117151870B (zh) | 一种基于客群画像行为分析方法及系统 | |
Buono et al. | Big data econometrics: Now casting and early estimates | |
Vakeel et al. | Machine learning models for predicting and clustering customer churn based on boosting algorithms and gaussian mixture model | |
Ahan et al. | Social network analysis using data segmentation and neural networks | |
Arevalillo | Ensemble learning from model based trees with application to differential price sensitivity assessment | |
El Koufi et al. | Artificial intelligence techniques applied in precision marketing: a survey | |
Kour | Data Warehousing, Data Mining, OLAP and OLTP Technologies Are Indispensable Elements to Support Decision-Making Process in Industrial World | |
AU2020101842A4 (en) | DAI- Dataset Discovery: DATASET DISCOVERY IN DATA ANALYTICS USING AI- BASED PROGRAMMING. | |
Erkayman et al. | New Artificial intelligence approaches for brand switching decisions | |
Ali et al. | A brief analysis of data mining techniques | |
Sam et al. | Customer Churn Prediction using Machine Learning Models | |
Alsultanny | Database preprocessing and comparison between data mining methods | |
Marcellino et al. | Big data econometrics: Now casting and early estimates | |
Cheriyan et al. | Web page prediction using Markov model and Bayesian statistics | |
Hu | Decision rule induction for service sector using data mining-A rough set theory approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210910 |
|
RJ01 | Rejection of invention patent application after publication |