CN112308419A - 数据处理方法、装置、设备及计算机存储介质 - Google Patents
数据处理方法、装置、设备及计算机存储介质 Download PDFInfo
- Publication number
- CN112308419A CN112308419A CN202011194738.8A CN202011194738A CN112308419A CN 112308419 A CN112308419 A CN 112308419A CN 202011194738 A CN202011194738 A CN 202011194738A CN 112308419 A CN112308419 A CN 112308419A
- Authority
- CN
- China
- Prior art keywords
- data
- group
- target
- determining
- customer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Operations Research (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Tourism & Hospitality (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Technology Law (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及金融科技(Fintech)技术领域,公开了一种数据处理方法,该方法包括:根据输入的数据需求采集系统数据源中多个客户的初始数据,并对各初始数据进行数据分析处理,以获取各客户的多个指标属性数据;根据预设的聚类模型对各所述客户进行客户分群处理,以获取各所述客户对应的客户群组,根据各所述指标属性数据确定各所述客户群组的群组类型;根据各所述群组类型确定所述数据需求对应的目标客户群组,基于预设的线性回归方程对所述目标客户群组进行线性回归运算,根据所述线性回归运算的运算结果确定所述数据需求对应的目标客户。本发明还公开了一种数据处理装置、设备和一种计算机存储介质。本发明提高了筛选目标客户的准确性。
Description
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及数据处理方法、装置、设备及计算机存储介质。
背景技术
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对大数据技术提出了更高的要求。目前传统的营销方案中,是通过根据客户的注册时间,存款金额,贷款额度,贷款金额等进行人工筛选,即通过客户的行为数据,硬件设备等进行客户群筛选,但是此方案无法对客户进行预测性的分析,只能依赖客户已有的信息进行客群组装,其精确度较低,并且由于是采用传统的手工筛选客户,无法感知客户的异常行为,只能人工监控处理,其计算得到的结果的准确性较低。
发明内容
本发明的主要目的在于提出一种数据处理方法、装置、设备及计算机存储介质,旨在解决如何提高筛选目标客户的准确性的技术问题。
为实现上述目的,本发明提供一种数据处理方法,所述数据处理方法包括如下步骤:
根据输入的数据需求采集系统数据源中多个客户的初始数据,并对各所述初始数据进行数据分析处理,以获取各所述客户的多个指标属性数据;
根据预设的聚类模型对各所述客户进行客户分群处理,以获取各所述客户对应的客户群组,根据各所述指标属性数据确定各所述客户群组的群组类型;
根据各所述群组类型确定所述数据需求对应的目标客户群组,基于预设的线性回归方程对所述目标客户群组进行线性回归运算,根据所述线性回归运算的运算结果确定所述数据需求对应的目标客户。
可选地,根据各所述指标属性数据确定各所述客户群组的群组类型的步骤,包括:
依次遍历各所述客户群组,根据各所述指标属性数据确定遍历的客户群组中所有客户对应的目标指标属性数据,对各所述目标指标属性数据进行特征分析,基于所述特征分析的分析结果确定遍历的客户群组的群组类型。
可选地,对各所述目标指标属性数据进行特征分析,基于所述特征分析的分析结果确定遍历的客户群组的群组类型的步骤,包括:
根据各所述目标指标属性数据的数据类型对各所述目标指标属性数据进行分类,根据所述分类结果对属于同一数据类型的各所述目标指标属性数据进行特征分析,以获取分析结果;
获取各所述目标指标属性数据对应的分析结果,根据各所述分析结果确定遍历的客户群组的群组类型。
可选地,数据分析处理包括数据清洗,所述对各所述初始数据进行数据分析处理,以获取各所述客户的多个指标属性数据的步骤,包括:
基于所述数据需求对各所述初始数据进行数据清洗,以获取多个属性数据;
基于预设的分类原则将各所述属性数据划分为多个指标属性数据。
可选地,基于预设的分类原则将各所述属性数据划分为多个指标属性数据的步骤之前,包括:
若各所述属性数据中存在缺失数据,则确定所述缺失数据对应的属性信息,根据所述属性信息确定和所述缺失数据相同属性的其它属性数据,并计算所述其它属性数据对应的平均值,将所述缺失数据替换为所述平均值。
可选地,基于预设的线性回归方程对所述目标客户群组进行线性回归运算的步骤,包括:
遍历所述目标群组中的所有客户,基于各所述指标属性数据确定遍历的客户对应的所有遍历指标属性数据;
根据所述数据需求设置各所述遍历指标属性数据的权重,基于预设的线性回归方程,各所述遍历指标属性数据和各所述遍历指标属性数据对应的权重计算所述遍历的客户的回归运算值;
将所述目标群组中所有客户对应的回归运算值作为所述目标客户群组线性回归运算的运算结果。
可选地,根据输入的数据需求采集系统数据源中多个客户的初始数据的步骤,包括:
基于预设时间段获取系统数据源中多个客户的历史数据,确定所述预设时间段的结束时间节点,获取当前时间节点和所述结束时间节点的增量数据,并将所述历史数据和所述增量数据作为多个客户的初始数据。
此外,为实现上述目的,本发明还提供一种数据处理装置,所述数据处理装置包括:
采集模块,用于根据输入的数据需求采集系统数据源中多个客户的初始数据,并对各所述初始数据进行数据分析处理,以获取各所述客户的多个指标属性数据;
获取模块,用于根据预设的聚类模型对各所述客户进行客户分群处理,以获取各所述客户对应的客户群组,根据各所述指标属性数据确定各所述客户群组的群组类型;
确定模块,用于根据各所述群组类型确定所述数据需求对应的目标客户群组,基于预设的线性回归方程对所述目标客户群组进行线性回归运算,根据所述线性回归运算的运算结果确定所述数据需求对应的目标客户。
此外,为实现上述目的,本发明还提供一种数据处理设备,所述数据处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如上所述的数据处理方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机存储介质,所述计算机存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如上所述的数据处理方法的步骤。
本发明通过根据输入的数据需求采集系统数据源中多个客户的初始数据,并对各所述初始数据进行数据分析处理,以获取各所述客户的多个指标属性数据;根据预设的聚类模型对各所述客户进行客户分群处理,以获取各所述客户对应的客户群组,根据各所述指标属性数据确定各所述客户群组的群组类型;根据各所述群组类型确定所述数据需求对应的目标客户群组,基于预设的线性回归方程对所述目标客户群组进行线性回归运算,根据所述线性回归运算的运算结果确定所述数据需求对应的目标客户。通过根据数据需求获取系统数据源中多个客户的初始数据,并进行数据分析处理,得到各个指标属性数据,再根据聚类模型确定各个客户对应的客户群组,根据各个指标属性数据确定各个客户群组的群组类型,以确定数据需求对应的目标客户群组,再根据线性回归方程进行线性回归运算,以获取数据需求对应的目标客户,从而避免了现有技术中在筛选客户时,需要人工操作,导致筛选的准确性较低的现象发生,提高了筛选目标客户的准确性和智能性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的数据处理设备结构示意图;
图2为本发明数据处理方法第一实施例的流程示意图;
图3为本发明数据处理装置的装置模块示意图;
图4为本发明数据处理方法中模型构建示意图;
图5为本发明数据处理方法的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的数据处理设备结构示意图。
本发明实施例数据处理设备可以是PC机或服务器设备,其上运行有Java虚拟机。
如图1所示,该数据处理设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的数据处理设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理程序。
在图1所示的数据处理设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的数据处理程序,并执行下述数据处理方法中的操作。
基于上述硬件结构,提出本发明数据处理方法实施例。
参照图2,图2为本发明数据处理方法第一实施例的流程示意图,所述方法包括:
步骤S10,根据输入的数据需求采集系统数据源中多个客户的初始数据,并对各所述初始数据进行数据分析处理,以获取各所述客户的多个指标属性数据;
在本实施例中,数据处理方法是建立在大数据基础之上,通过实时计算客户的属性数据进行模型算法的计算,以筛选出符合业务需求的目标用户。因此会通过BDP-KAFKA(分布式消息系统)和binlog(二进制日志)实现同步TDSQL(Tencent Distributed MySQL,分布式数据库)数据,通过事件监听器进行事件监听和广播。其中,binlog是记录所有数据库表结构变更以及表数据修改的二进制日志。
并且在本实施例中,当检测到用户或其它终端输入的数据需求,如业务需求等,在系统的数据源中进行数据抽取,以采集系统数据源中多个客户的初始数据。而数据抽取包括选择性抽取和新增数据抽取,得到历史数据和增量数据,并将历史数据和增量数据作为多个客户的初始数据。例如,以2020年3月31日为结束时间,选取宽度为两年的时间段作为观测窗口,抽取观测窗口内所有客户的详细数据,形成历史数据。并且对于后续新增的客户信息,以新增数据中最新的时间点(即当前时间节点)作为结束时间,形成增量数据。
当获取到多个客户的初始数据后,需要对各个初始数据进行数据分析处理,而数据分析处理可以包括缺失值与异常值的分析处理,数据的属性规约,清洗和变换。具体地,在进行属性规约处理时,由于各个初始数据中特征较多,为了减少计算量,根据数据需求在各个初始数据中选择相应的特征数据,如户均授信额度,日均额度,借款次数,额度占用率。并删除和数据需求不相关,弱像或冗余的数据。并在获取到各个特征数据后,可以进行数据变换处理,即将各个特征数据的格式转换为和数据需求能够处理的数据格式,例如将户均授信额度全部转换为浮点数。还可以对各个特征数据进行异常值分析和缺失值处理,其中,异常值分析可以是对各个维度的特征数据(即不同类型的特征数据)进行异常检测,若发现某一个维度存在待测特征数据大于该维度所有特征数据的平均值的三倍,则可以确定该待测特征数据为异常值,需要对此待测特征数据进行清理。而缺失值处理则可以是在各个维度的特征数据中,发现存在有目标维度的特征数据过少,如小于某一定值,则获取目标维度中所有特征数据的平均值,并将此平均值作为缺失值进行填补,直至目标维度的特征数据大于或等于某一定值。并且为了便于后续聚类模型的距离计算,可以根据各个特征数据的数据分布将其划分为多个数据,并将其作为指标属性数据,其指标属性数据的大小可以根据数据需求进行设置。例如,将日均余额0-10w作为低存款,日均余额10-50w作为中存款等。
步骤S20,根据预设的聚类模型对各所述客户进行客户分群处理,以获取各所述客户对应的客户群组,根据各所述指标属性数据确定各所述客户群组的群组类型;
在本实施例中,当获取到各个指标属性数据后,可以将各个指标属性数据作为建模数据,并根据预设的聚类模型进行客户分群处理,即可以根据k-means(聚类)模型进行客户分群处理,以便根据客户分群处理结果确定各个客户对应的客户群组。并且可以根据不同的指标属性数据进行客户群组定义。例如,若指标属性数据包括L(客户额度)、F(客户贷款次数)和M(贷款余额),则可以设置客户群组1在L属性上最大,并将客户群组1中的客户定义为重要挽留客户。设置客户群组2在M属性上最大,L,F属性上最小,将客户群组2中的客户定义为低价值客户。设置客户群组3在L,F属性上最大,M属性上最小,将客户群组3中的客户定义为重要保持客户。并且若客户是重要挽留客户,则客户价值变化的不确定性高,应掌握客户最新信息,维持与客户的互动。若客户是重要保持客户,则证明此客户不在意利率,需要用款频度较高。若客户是低价值客户,则确定客户只有在打折促销时才会选择消费。
并且在本实施例中,当获取到各个客户群组后,还需要计算各个客户群组对应的误差平方和以检测各个客户群组是否有效,即根据全量用户的户均授信额度,日均余额,借款次数,额度占用率,结合不同的核心个数计算聚类结果和每一条数据到其聚类核心的误差平方和SSE(sum of the squared errors,误差平方和)。其中,误差平方和SSE的计算公式如下:
其中,Ci是第i个簇,即第i个客户群组,p是Ci中的样本点,即每个客户,mi是Ci的质心(即Ci中所有用样本的平均值)。并在计算得到SSE后,可以根据SSE的大小确定聚类效果的好坏,以检测各个客户群组是否有效。并在存在客户群组无效时,重新进行客户分群处理。
步骤S30,根据各所述群组类型确定所述数据需求对应的目标客户群组,基于预设的线性回归方程对所述目标客户群组进行线性回归运算,根据所述线性回归运算的运算结果确定所述数据需求对应的目标客户。
当获取到各个客户群组的群组类型后,可以根据群组类型判断哪个客户群组正好是数据需求所需要的目标客户群组,即可以先根据群组类型确定各个客户群组相对于数据需求的重要程度,如下表1所示,可以选择客户群组1作为目标客户群组。
客户群组 | 客户价值排名 | 排名含义 |
客户群组1 | 1 | 高价值 |
客户群组2 | 2 | 中价值 |
客户群组3 | 3 | 低价值 |
表1
当确定目标客户群组后,可以根据提前设置的线性回归方程对目标客户群组中所有客户进行线性回归运算,即遍历目标客户群组中各个客户,对遍历的客户先进行线性回归建模,得到各个特征(即指标属性数据)的权重,如户均授信额度的权重,日均额度的权重,借款次数的权重和额度占用率的权重,并根据线性回归方程进行线性回归运算。其中,线性回归方程是;
y=β0+β1χ1+β2χ2+...+βnχn
其中,n可以设置为4,χ1-χn分别代表户均授信额度,日均额度,贷款次数和额度占用率,对应的β代表各个特征的权重。
并在计算得到目标客户群组中所有客户对应的线性回归运算的运算结果后,可以根据各个运算结果的数值大小对目标客户群组中所有客户进行排序,如将数值最大的运算结果对应的客户排列在第一位,依次往下排列。根据排列结果选择目标客户群组中一定数量的客户作为数据需求对应的目标客户。
而且在本实施例中,参照图4,模型的构建主要分为三部分,即根据指标数据,对客户进行聚类分群,并结合数据需求对每个客户群组进行特征分析,确定客户价值,并对各个客户群组进行排名,再收集数据,即将对该数据需求行为作出正反馈的客户,标记为正样本,将对该数据需求行为作出负反馈的客户,标记为负样本。也就是分为用户聚类分群,线性回归建模和回归方程计算三部分,在用户聚类分群中,采用聚类分群模型将各个客户分为高价值人群,中价值人群和低价值人群,并在线性回归建模中采用多元线性回归建模,在回归方程计算中采用多元线性回归方程进行计算。
另外,为辅助理解本实施例中进行数据处理的理解,下面进行举例说明。
例如,如图5所示,先在业务系统的数据源中进行数据采集,采集得到历史数据和实时数据,并将历史数据和实时数据作为初始数据进行数据探索与处理,即进行缺失值与异常值分析,进行数据清洗,属性规约和数据变换,得到预处理后的数据,并将其作为建模数据,根据建模数据进行建模与应用,基于LRFMMC(聚类模型)的客户分群,得到各个客户群组,并根据预处理后的数据进行模型分析,得到客户价值排名,根据客户价值排名进行模型应用,得到结果反馈中的应用结果,并根据应用结果对模型进行模型优化。
在本实施例中,通过根据输入的数据需求采集系统数据源中多个客户的初始数据,并对各所述初始数据进行数据分析处理,以获取各所述客户的多个指标属性数据;根据预设的聚类模型对各所述客户进行客户分群处理,以获取各所述客户对应的客户群组,根据各所述指标属性数据确定各所述客户群组的群组类型;根据各所述群组类型确定所述数据需求对应的目标客户群组,基于预设的线性回归方程对所述目标客户群组进行线性回归运算,根据所述线性回归运算的运算结果确定所述数据需求对应的目标客户。通过根据数据需求获取系统数据源中多个客户的初始数据,并进行数据分析处理,得到各个指标属性数据,再根据聚类模型确定各个客户对应的客户群组,根据各个指标属性数据确定各个客户群组的群组类型,以确定数据需求对应的目标客户群组,再根据线性回归方程进行线性回归运算,以获取数据需求对应的目标客户,从而避免了现有技术中在筛选客户时,需要人工操作,导致筛选的准确性较低的现象发生,提高了筛选目标客户的准确性和智能性。
进一步地,基于本发明数据处理方法第一实施例,提出本发明数据处理方法第二实施例。本实施例是本发明第一实施例的步骤S20,根据各所述指标属性数据确定各所述客户群组的群组类型的步骤的细化,包括:
步骤a,依次遍历各所述客户群组,根据各所述指标属性数据确定遍历的客户群组中所有客户对应的目标指标属性数据,对各所述目标指标属性数据进行特征分析,基于所述特征分析的分析结果确定遍历的客户群组的群组类型。
在本实施例中,当确定各个客户对应的客户群组后,还需要确定各个客户群组的群组类型,即可以依次遍历各个客户群组,并在各个指标属性数据中确定遍历的客户群组中所有客户对应的目标指标属性数据,再依次对各个目标指标属性数据进行特征分析,根据特征分析的分析结果来确定遍历的客户群组的群组类型。特征分析可以是将各个目标指标属性数据和其其它客户群组中的指标属性数据进行分析,以提炼出相同的规律,作为分析结果。
在本实施例中,通过遍历各个客户群组,确定遍历的客户群组对应的目标指标属性数据,并进行特征分析,以确定遍历客户群组的群组类型,从而保障了获取到的客户群组的群组类型的准确性。
进一步地,对各所述目标指标属性数据进行特征分析,基于所述特征分析的分析结果确定遍历的客户群组的群组类型的步骤,包括:
步骤b,根据各所述目标指标属性数据的数据类型对各所述目标指标属性数据进行分类,根据所述分类结果对属于同一数据类型的各所述目标指标属性数据进行特征分析,以获取分析结果;
在本实施例中,当获取到遍历的客户群组中所有客户对应的目标指标属性数据后,可以根据各个目标指标属性数据的数据类型对各个目标指标属性数据进行分类,如将属于日均额度的目标指标属性数据划分为一类,将属于额度占用率的目标指标属性数据划分为一类等。根据分类结果确定不同类型的目标指标属性数据,并对属于同一数据类型的各个目标指标属性数据进行特征分析,得到特征分析的分析结果。
步骤c,获取各所述目标指标属性数据对应的分析结果,根据各所述分析结果确定遍历的客户群组的群组类型。
并且在本实施例中,需要对所有的目标指标属性数据都进行特征分析,得到各个目标指标属性数据对应的分析结果,并对各个分析结果进行统计分类汇总,根据统计汇总结果确定遍历的客户群组的群组类型。
在本实施例中,通过对各个目标指标属性数据进行分类,对同一数据类型的各个目标指标属性数据进行特征分析,并根据所有目标指标属性数据对应的分析结果确定遍历的客户群组的群组类型,从而保障了获取到的群组类型的准确性。
进一步地,数据分析处理包括数据清洗,所述对各所述初始数据进行数据分析处理,以获取各所述客户的多个指标属性数据的步骤,包括:
步骤b,基于所述数据需求对各所述初始数据进行数据清洗,以获取多个属性数据;
在本实施例中,数据分析处理包括数据清洗,因此在获取到各个初始数据后,可以根据数据需求对各个初始数据进行数据清洗,以获取多个属性数据,也就是根据数据需求在各个初始数据中选择相应的特征数据,如户均授信额度,日均额度,借款次数,额度占用率。并删除和数据需求不相关,弱像或冗余的数据。并在获取到各个特征数据后,可以进行数据变换处理,即将各个特征数据的格式转换为和数据需求能够处理的数据格式,例如将户均授信额度全部转换为浮点数。还可以对各个特征数据进行异常值分析和缺失值处理,将经过异常值分析和缺失值处理后的特征数据作为属性数据。其中,异常值分析可以是对各个维度的特征数据(即不同类型的特征数据)进行异常检测,若发现某一个维度存在待测特征数据大于该维度所有特征数据的平均值的三倍,则可以确定该待测特征数据为异常值,需要对此待测特征数据进行清理。而缺失值处理则可以是在各个维度的特征数据中,发现存在有目标维度的特征数据过少,如小于某一定值,则获取目标维度中所有特征数据的平均值,并将此平均值作为缺失值进行填补,直至目标维度的特征数据大于或等于某一定值。
步骤c,基于预设的分类原则将各所述属性数据划分为多个指标属性数据。
当获取到各个属性数据后,可以根据预设的分类原则将各个属性数据划分为多个,并将其作为指标属性数据。即根据各个特征数据的数据分布将其划分为多个数据,并将其作为指标属性数据,其指标属性数据的大小可以根据数据需求设置相应的分类原则,并根据分类原则确定。例如,将日均余额0-10w作为低存款,日均余额10-50w作为中存款等。
在本实施例中,通过根据数据需求对各个初始数据进行数据清洗,得到属性数据,并将属性数据划分为指标属性数据,从而保障了获取到的指标属性数据的准确性。
具体地,基于预设的分类原则将各所述属性数据划分为多个指标属性数据的步骤之前,包括:
步骤d,若各所述属性数据中存在缺失数据,则确定所述缺失数据对应的属性信息,根据所述属性信息确定和所述缺失数据相同属性的其它属性数据,并计算所述其它属性数据对应的平均值,将所述缺失数据替换为所述平均值。
在本实施例中,当获取到各个属性数据,且经过检测发现各个属性数据中存在缺失数据,则可以先确定缺失数据的属性信息,如确定属性信息是日均余额,此时就可以根据属性信息确定和缺失数据相同属性的其它客户对应的属性数据,将其作为其它属性数据,并计算其它属性数据的平均值,将缺失数据替换为平均值,以保证属性数据的完整性。
在本实施例中,通过在确定各个属性数据中存在缺失数据时,根据缺失数据对应的属性信息确定相同属性的其它属性数据,计算其它属性数据的平均值,将缺失数据替换为平均值,从而保障了属性数据的完整性。
进一步地,基于预设的线性回归方程对所述目标客户群组进行线性回归运算的步骤,包括:
步骤e,遍历所述目标群组中的所有客户,基于各所述指标属性数据确定遍历的客户对应的所有遍历指标属性数据;
在本实施例中,当确定数据需求对应的目标客户群组后,可以依次遍历目标群组中的所有客户,并在所有的指标属性数据中确定遍历的客户对应的所有指标属性数据,将其作为遍历指标属性数据。
步骤u,根据所述数据需求设置各所述遍历指标属性数据的权重,基于预设的线性回归方程,各所述遍历指标属性数据和各所述遍历指标属性数据对应的权重计算所述遍历的客户的回归运算值;
步骤v,将所述目标群组中所有客户对应的回归运算值作为所述目标客户群组线性回归运算的运算结果。
当获取到所有遍历指标属性数据后,可以根据数据需求自行设置各个指标属性数据的权重,并根据预设的线性回归方程进行线性回归运算。即先进行线性回归建模,得到各个特征(即指标属性数据)的权重,如户均授信额度的权重,日均额度的权重,借款次数的权重和额度占用率的权重,并根据线性回归方程进行线性回归运算。其中,线性回归方程是;
y=β0+β1χ1+β2χ2+...+βnχn
其中,n可以设置为4,χ1-χn分别代表户均授信额度,日均额度,贷款次数和额度占用率,对应的β代表各个特征的权重。Y是回归运算值。
并在根据线性回归方程计算得到线性回归运算的遍历的客户的回归运算值后,可以对目标群组中所有客户都采用相同的计算方式进行计算,以获取目标群组中所有客户的回归运算值,并将所有的回归运算值作为目标客户群组线性回归运算的运算结果。
在本实施例中,通过遍历目标群组中的所有客户,确定遍历的客户对应的所有遍历指标属性数据,并根据线性回归方程进行线性回归运算,以确定回归运算值,并根据目标群组中所有客户对应的回归运算值确定运算结果,从而保障了获取到的运算结果的准确性。
进一步地,根据输入的数据需求采集系统数据源中多个客户的初始数据的步骤,包括:
步骤f,基于预设时间段获取系统数据源中多个客户的历史数据,确定所述预设时间段的结束时间节点,获取当前时间节点和所述结束时间节点的增量数据,并将所述历史数据和所述增量数据作为多个客户的初始数据。
在本实施例中,当检测到用户或其它终端输入的数据需求,如业务需求等,在系统的数据源中进行数据抽取,以采集系统数据源中多个客户的初始数据。而数据抽取包括选择性抽取和新增数据抽取,得到历史数据和增量数据,并将历史数据和增量数据作为多个客户的初始数据。例如,以2020年3月31日为结束时间,选取宽度为两年的时间段作为观测窗口,抽取观测窗口内所有客户的详细数据,形成历史数据。并且对于后续新增的客户信息,以新增数据中最新的时间点(即当前时间节点)作为结束时间,形成增量数据。
在本实施例中,通过根据预设时间段获取系统数据源中的历史数据,并根据当前时间节点和结束时间节点获取增量数据,将历史数据和增量数据作为初始数据,从而保障了初始数据的完整有效性。
本发明还提供一种数据处理装置,参照图3,所述数据处理装置包括:
采集模块A10,用于根据输入的数据需求采集系统数据源中多个客户的初始数据,并对各所述初始数据进行数据分析处理,以获取各所述客户的多个指标属性数据;
获取模块A20,用于根据预设的聚类模型对各所述客户进行客户分群处理,以获取各所述客户对应的客户群组,根据各所述指标属性数据确定各所述客户群组的群组类型;
确定模块A30,用于根据各所述群组类型确定所述数据需求对应的目标客户群组,基于预设的线性回归方程对所述目标客户群组进行线性回归运算,根据所述线性回归运算的运算结果确定所述数据需求对应的目标客户。
可选地,获取模块A20,用于:
依次遍历各所述客户群组,根据各所述指标属性数据确定遍历的客户群组中所有客户对应的目标指标属性数据,对各所述目标指标属性数据进行特征分析,基于所述特征分析的分析结果确定遍历的客户群组的群组类型。
可选地,获取模块,用于:
根据各所述目标指标属性数据的数据类型对各所述目标指标属性数据进行分类,根据所述分类结果对属于同一数据类型的各所述目标指标属性数据进行特征分析,以获取分析结果;
获取各所述目标指标属性数据对应的分析结果,根据各所述分析结果确定遍历的客户群组的群组类型。
可选地,数据分析处理包括数据清洗,采集模块A10,用于:
基于所述数据需求对各所述初始数据进行数据清洗,以获取多个属性数据;
基于预设的分类原则将各所述属性数据划分为多个指标属性数据。
可选地,采集模块A10,用于:
若各所述属性数据中存在缺失数据,则确定所述缺失数据对应的属性信息,根据所述属性信息确定和所述缺失数据相同属性的其它属性数据,并计算所述其它属性数据对应的平均值,将所述缺失数据替换为所述平均值。
可选地,确定模块A30,用于:
遍历所述目标群组中的所有客户,基于各所述指标属性数据确定遍历的客户对应的所有遍历指标属性数据;
根据所述数据需求设置各所述遍历指标属性数据的权重,基于预设的线性回归方程,各所述遍历指标属性数据和各所述遍历指标属性数据对应的权重计算所述遍历的客户的回归运算值;
将所述目标群组中所有客户对应的回归运算值作为所述目标客户群组线性回归运算的运算结果。
可选地,采集模块A10,用于:
基于预设时间段获取系统数据源中多个客户的历史数据,确定所述预设时间段的结束时间节点,获取当前时间节点和所述结束时间节点的增量数据,并将所述历史数据和所述增量数据作为多个客户的初始数据。
上述各程序单元所执行的方法可参照本发明数据处理方法各个实施例,此处不再赘述。
本发明还提供一种计算机存储介质。
本发明计算机存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如上所述的数据处理方法的步骤。
其中,在所述处理器上运行的数据处理程序被执行时所实现的方法可参照本发明数据处理方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种数据处理方法,其特征在于,所述数据处理方法包括如下步骤:
根据输入的数据需求采集系统数据源中多个客户的初始数据,并对各所述初始数据进行数据分析处理,以获取各所述客户的多个指标属性数据;
根据预设的聚类模型对各所述客户进行客户分群处理,以获取各所述客户对应的客户群组,根据各所述指标属性数据确定各所述客户群组的群组类型;
根据各所述群组类型确定所述数据需求对应的目标客户群组,基于预设的线性回归方程对所述目标客户群组进行线性回归运算,根据所述线性回归运算的运算结果确定所述数据需求对应的目标客户。
2.如权利要求1所述的数据处理方法,其特征在于,所述根据各所述指标属性数据确定各所述客户群组的群组类型的步骤,包括:
依次遍历各所述客户群组,根据各所述指标属性数据确定遍历的客户群组中所有客户对应的目标指标属性数据,对各所述目标指标属性数据进行特征分析,基于所述特征分析的分析结果确定遍历的客户群组的群组类型。
3.如权利要求2所述的数据处理方法,其特征在于,所述对各所述目标指标属性数据进行特征分析,基于所述特征分析的分析结果确定遍历的客户群组的群组类型的步骤,包括:
根据各所述目标指标属性数据的数据类型对各所述目标指标属性数据进行分类,根据所述分类结果对属于同一数据类型的各所述目标指标属性数据进行特征分析,以获取分析结果;
获取各所述目标指标属性数据对应的分析结果,根据各所述分析结果确定遍历的客户群组的群组类型。
4.如权利要求1所述的数据处理方法,其特征在于,所述数据分析处理包括数据清洗,所述对各所述初始数据进行数据分析处理,以获取各所述客户的多个指标属性数据的步骤,包括:
基于所述数据需求对各所述初始数据进行数据清洗,以获取多个属性数据;
基于预设的分类原则将各所述属性数据划分为多个指标属性数据。
5.如权利要求4所述的数据处理方法,其特征在于,所述基于预设的分类原则将各所述属性数据划分为多个指标属性数据的步骤之前,包括:
若各所述属性数据中存在缺失数据,则确定所述缺失数据对应的属性信息,根据所述属性信息确定和所述缺失数据相同属性的其它属性数据,并计算所述其它属性数据对应的平均值,将所述缺失数据替换为所述平均值。
6.如权利要求1所述的数据处理方法,其特征在于,所述基于预设的线性回归方程对所述目标客户群组进行线性回归运算的步骤,包括:
遍历所述目标群组中的所有客户,基于各所述指标属性数据确定遍历的客户对应的所有遍历指标属性数据;
根据所述数据需求设置各所述遍历指标属性数据的权重,基于预设的线性回归方程,各所述遍历指标属性数据和各所述遍历指标属性数据对应的权重计算所述遍历的客户的回归运算值;
将所述目标群组中所有客户对应的回归运算值作为所述目标客户群组线性回归运算的运算结果。
7.如权利要求1-6任一项所述的数据处理方法,其特征在于,所述根据输入的数据需求采集系统数据源中多个客户的初始数据的步骤,包括:
基于预设时间段获取系统数据源中多个客户的历史数据,确定所述预设时间段的结束时间节点,获取当前时间节点和所述结束时间节点的增量数据,并将所述历史数据和所述增量数据作为多个客户的初始数据。
8.一种数据处理装置,其特征在于,所述数据处理装置包括:
采集模块,用于根据输入的数据需求采集系统数据源中多个客户的初始数据,并对各所述初始数据进行数据分析处理,以获取各所述客户的多个指标属性数据;
获取模块,用于根据预设的聚类模型对各所述客户进行客户分群处理,以获取各所述客户对应的客户群组,根据各所述指标属性数据确定各所述客户群组的群组类型;
确定模块,用于根据各所述群组类型确定所述数据需求对应的目标客户群组,基于预设的线性回归方程对所述目标客户群组进行线性回归运算,根据所述线性回归运算的运算结果确定所述数据需求对应的目标客户。
9.一种数据处理设备,其特征在于,所述数据处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如权利要求1至7中任一项所述的数据处理方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如权利要求1至7中任一项所述的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011194738.8A CN112308419A (zh) | 2020-10-30 | 2020-10-30 | 数据处理方法、装置、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011194738.8A CN112308419A (zh) | 2020-10-30 | 2020-10-30 | 数据处理方法、装置、设备及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112308419A true CN112308419A (zh) | 2021-02-02 |
Family
ID=74333296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011194738.8A Pending CN112308419A (zh) | 2020-10-30 | 2020-10-30 | 数据处理方法、装置、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112308419A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590952A (zh) * | 2021-07-30 | 2021-11-02 | 上海德衡数据科技有限公司 | 一种数据中心构建的方法及系统 |
-
2020
- 2020-10-30 CN CN202011194738.8A patent/CN112308419A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590952A (zh) * | 2021-07-30 | 2021-11-02 | 上海德衡数据科技有限公司 | 一种数据中心构建的方法及系统 |
CN113590952B (zh) * | 2021-07-30 | 2023-10-24 | 上海德衡数据科技有限公司 | 一种数据中心构建的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108021651B (zh) | 一种网络舆情风险评估方法及装置 | |
CN109636482B (zh) | 基于相似度模型的数据处理方法及系统 | |
CN112632405B (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN115098650B (zh) | 基于历史数据模型的评论信息分析方法及相关装置 | |
CN112149352B (zh) | 一种结合gbdt自动特征工程对营销活动点击的预测方法 | |
CN111429161B (zh) | 特征提取方法、特征提取装置、存储介质及电子设备 | |
CN110880124A (zh) | 转化率评估方法及装置 | |
CN115062087A (zh) | 一种用户画像构建方法、装置、设备和介质 | |
CN114399367A (zh) | 保险产品推荐方法、装置、设备及存储介质 | |
CN112308419A (zh) | 数据处理方法、装置、设备及计算机存储介质 | |
CN111324594A (zh) | 用于粮食加工业的数据融合方法、装置、设备及存储介质 | |
Silva et al. | A categorical clustering of publishers for mobile performance marketing | |
CN115719244A (zh) | 用户行为预测方法及装置 | |
CN112632275B (zh) | 基于个人文本信息的人群聚类数据处理方法、装置及设备 | |
CN114756764A (zh) | 基于企业的内容信息流推荐方法、装置、电子设备及存储介质 | |
CN113094615B (zh) | 消息推送方法、装置、设备和存储介质 | |
CN114881677A (zh) | 一种用户需求分析方法、装置及设备 | |
CN113177613A (zh) | 系统资源数据分配方法及装置 | |
CN112328899A (zh) | 信息处理方法、信息处理装置、存储介质与电子设备 | |
CN111400567A (zh) | 一种基于ai的用户数据的处理方法、装置及系统 | |
Granov | Customer loyalty, return and churn prediction through machine learning methods: for a Swedish fashion and e-commerce company | |
CN110737700A (zh) | 一种基于贝叶斯算法的进销存用户分类方法及系统 | |
CN111026863A (zh) | 客户行为预测方法、装置、设备及介质 | |
CN117371861B (zh) | 基于数字化的家政服务质量智能分析方法及系统 | |
CN109710876B (zh) | 一种信息推荐方法及装置、计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |