CN111861750A - 一种基于决策树方法的特征衍生系统及可读存储介质 - Google Patents

一种基于决策树方法的特征衍生系统及可读存储介质 Download PDF

Info

Publication number
CN111861750A
CN111861750A CN202010711594.2A CN202010711594A CN111861750A CN 111861750 A CN111861750 A CN 111861750A CN 202010711594 A CN202010711594 A CN 202010711594A CN 111861750 A CN111861750 A CN 111861750A
Authority
CN
China
Prior art keywords
data
decision tree
feature
module
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010711594.2A
Other languages
English (en)
Inventor
陈建
龙泳先
何小雄
王月月
徐撼亚
何侃
廖博帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruizhi Tuyuan Technology Co ltd
Original Assignee
Beijing Ruizhi Tuyuan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruizhi Tuyuan Technology Co ltd filed Critical Beijing Ruizhi Tuyuan Technology Co ltd
Priority to CN202010711594.2A priority Critical patent/CN111861750A/zh
Publication of CN111861750A publication Critical patent/CN111861750A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Abstract

本发明涉及数据处理技术领域,具体涉及一种基于决策树方法的特征衍生系统及可读存储介质,包括数据源模块、数据预处理模块、数据建模模块、特征衍生模块和验证模块,使用时,利用数据源模块获取相关数据,经过数据预处理模块处理之后进入到数据建模模块,观察初始数据集的整体表现效果,并利用特征衍生模块来寻找具有潜在非线性交叉关系的特征进行组合,构建新的特征,加入到原始特征集中,通过验证模块来对新生变量进行稳定性和可用性方面的验证,最终寻找到稳定可用的衍生变量,本发明利用已有数据集和特征来衍生出新的稳定且有较好可解释性的特征来提升模型效果,具有很强市场应用前景。

Description

一种基于决策树方法的特征衍生系统及可读存储介质
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于决策树方法的特征衍生系统及可读存储介质。
背景技术
随着近几年个人信贷业务的迅猛发展,政策环境的日新月异,市场竞争的不断加剧,客户境况的瞬息万变,利用大数据方法来对信贷风险进行管理在当前社会环境下显得尤为重要。当前在技术层面遇到的难点主要在于寻找稳定具有可解释性的有用特征。有用的特征才能决定模型的最高效果,各种方法只能在理论层面逼近这个上限,而最新的诸如深度学习的一些方法的痛点在于这类方法的“黑匣”特点使其难以获得直观的容易理解的业务含义,即使这类方法能够在某种数据上提升模型效果,改变数据集或者业务环境之后,模型效果的变化可能就不尽如人意。因此主要的思考方向还在于利用已有数据集和特征来衍生出新的稳定且有较好可解释性的特征来提升模型效果。
经检索,中国专利申请号为201711309287.6的专利,公开了一种基于决策树的大数据分析方法。本发明基于决策树的大数据分析方法,通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而提高了政府的判断能力和运作效率。上述专利中的基于决策树的大数据分析方法存在以下不足:无法针对个人信贷业务的各种场景应用,完成依据决策树方法的变量特征衍生。
发明内容
针对现有技术的不足,本发明公开了一种基于决策树方法的特征衍生系统及可读存储介质,用于解决上述现有技术中存在的问题。
本发明通过以下技术方案予以实现:
第一方面,本发明公开一种基于决策树方法的特征衍生系统,其特征在于,包括数据源模块、数据预处理模块、数据建模模块、特征衍生模块和验证模块,使用时,利用数据源模块获取相关数据,经过数据预处理模块处理之后进入到数据建模模块,观察初始数据集的整体表现效果,并利用特征衍生模块来寻找具有潜在非线性交叉关系的特征进行组合,构建新的特征,加入到原始特征集中,通过验证模块来对新生变量进行稳定性和可用性方面的验证,最终寻找到稳定可用的衍生变量。
更进一步的,所述数据源模块包括数据采集器、券商业务数据、合作方数据和第三方数据市场;
所述数据采集器是在PC端或者移动端,通过API,SDK,JS等软件方式采集到的客户行为信息;
所述券商业务数据有证券交易所以公开、集中的方式进行的集中竞价交易,大宗交易,协议转让,盘后交易等买卖的集中交易数据信息,用户在券商的线上投资平台,投资分析决策系统等投资系统上进行买卖的投资系统数据;
所述合作方数据是与软件开发方存在合作关系的机构所提供的反应客户行为偏好,消费状况等相关情况的数据信息,包括公共号数据,电商站数据和媒体数据;
所述第三方数据市场包括黑名单数据提供机构、电信消费数据提供机构、金融消费数据提供机构或其他数据提供机构。
更进一步的,所述数据预处理包括数据清理技术、数据归约技术、数据集成技术和数据变换技术;
所述数据清理技术清除数据中的噪声,纠正不一致;
所述数据归约技术通过如狙击、删除冗余特征或聚类来降低数据的规模;
所述数据集成技术将数据由多个数据源合并成一个一致的数据存储;
所述数据变换技术把数据压缩到较小的区间。
更进一步的,所述数据建模模块是利用logistic回归建立数学模型用于进行客户风险预测,其中,
所述logistic回归中w和b是待求参数,logistic回归通过函数L将w×x+b对应一个隐状态p,p=(w×x+b),然后根据p与1-p的大小决定因变量的值,如果L是logistic函数,就是logistic回归;
logistic回归中的L函数使用sigmoid函数
Figure BDA0002596754250000031
逻辑回归的损失函数为:
L(y1,y2)=-(y2log(y1))+(1-y2)log(1-y1)
定义代价函数m个训练样本的损失函数的平均值;
Figure BDA0002596754250000032
衡量预测结果与真实结果之间的平均错误代价,优化的目标是最小化代价函数J(w,b),将代价函数最小就能达到使得模型最优的效果,对代价函数的最优化则是通过梯度下降法实现。
更进一步的,所述梯度下降法中,w,b的更新方式为
Figure BDA0002596754250000033
其中α为学习率learning-rate表示移动步长,梯度
Figure BDA0002596754250000034
为当前点的斜率,指定了移动方向,梯度下降法是为了寻找极小值,因此是朝梯度的负方向移动,用图像表示为图中曲线为代价函数J,横坐标为w或b,当梯度为正时,经过运算,w朝左更新,靠近曲线的最低点;当梯度为负时,经过运算,w朝右更新,靠近曲线的最低点,直到梯度为0时,到达最小值,得到最优参数w,b使J实现最小值。
更进一步的,所述特征衍生模块通过决策树方法来对两两交叉的特征计算与通过logistic回归得到的评价指标进行比对,若前者有明显提升,则推测这两个特征可能具有潜在的交叉关系;所述决策树方法用于捕捉变量或特征之间的非线性关系。
更进一步的,所述决策树方法中,包括特征选择、决策树的生成和决策树的剪枝,特征选择基于信息增益的方法,所述信息增益中,特征A对训练数据集D的信息增益定义为:
g(D,A)=H(D)-H(D|A),
其中H(D)表示集合D的经验熵,H(D|A)表示集合D在特征A的给定条件下的经验熵H(D|A),具体计算步骤为:
a)计算数据集D的经验熵
Figure BDA0002596754250000041
b)计算特征A对数据集D的经验条件熵
Figure BDA0002596754250000042
c)计算信息增益g(D,A)=H(D)-H(D|A)。
更进一步的,所述决策树方法中,在决策树各个结点上应用信息增益准则来选择特征,递归地构建决策树,从根结点开始,对结点计算所有可能特征的信息增益,选择信息增益最大的特征作为结点的特征,以该特征的不同取值建立子结点,再对子结点递归地调用以上的方法,直到所有特征的信息增益达到选取的阈值或者没有特征可以选择为止,最后得到一棵决策树。
更进一步的,所述验证模块将新创建的衍生特征加入到已有特征集中,利用评分卡系统来检查新特征是否具有提升预测效果的能力并验证新生特征的稳定性,所述验证模块既有对上一步骤中捕获的可能具有潜在交叉关系的特征关于可解释性的判断,又有依据回归方法对新生特征在数据层面的进一步验证,若对于整体数据的分类精准率有明显的提升,则认为新生特征具备好的预测能力和稳定性,能够加入到已有特征集中。
第二方面,本发明公开一种可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行第一方面所述的基于决策树方法的特征衍生系统以寻找到稳定可用的衍生变量。
本发明的有益效果为:
本发明通过数据源模块多方获取相关数据,经过数据清洗模块的预处理之后,进入到数据建模模块,观察初始数据集的整体表现效果。然后利用特征衍生模块来寻找具有潜在非线性交叉关系的特征进行组合,构建新的特征,加入到原始特征集中,通过验证模块来对新生变量进行稳定性和可用性方面的验证,最终寻找到稳定可用的衍生变量,以提升模型分类效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一种基于决策树方法的特征衍生系统的原理示意图;
图2是一种基于决策树方法的特征衍生系统的sigmoid函数图像示意图;
图3是一种基于决策树方法的特征衍生系统的决策树算法的模型图;
图4是一种基于决策树方法的特征衍生系统的决策树算法的剪枝示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例公开如图1所示的一种基于决策树方法的特征衍生系统,包括数据源模块、数据预处理模块、数据建模模块、特征衍生模块和验证模块,使用时,利用数据源模块获取相关数据,经过数据预处理模块处理之后进入到数据建模模块,观察初始数据集的整体表现效果,并利用特征衍生模块来寻找具有潜在非线性交叉关系的特征进行组合,构建新的特征,加入到原始特征集中,通过验证模块来对新生变量进行稳定性和可用性方面的验证,最终寻找到稳定可用的衍生变量。
数据源模块包括数据采集器、券商业务数据、合作方数据和第三方数据市场;
数据采集器是在PC端或者移动端,通过API,SDK,JS等软件方式采集到的客户行为信息;
券商业务数据有证券交易所以公开、集中的方式进行的集中竞价交易,大宗交易,协议转让,盘后交易等买卖的集中交易数据信息,用户在券商的线上投资平台,投资分析决策系统等投资系统上进行买卖的投资系统数据;
合作方数据是与软件开发方存在合作关系的机构所提供的反应客户行为偏好,消费状况等相关情况的数据信息,包括公共号数据,电商站数据和媒体数据;
第三方数据市场包括黑名单数据提供机构、电信消费数据提供机构、金融消费数据提供机构或其他数据提供机构。
数据预处理包括数据清理技术、数据归约技术、数据集成技术和数据变换技术;
数据清理技术清除数据中的噪声,纠正不一致;
数据归约技术通过如狙击、删除冗余特征或聚类来降低数据的规模;
数据集成技术将数据由多个数据源合并成一个一致的数据存储;
数据变换技术把数据压缩到较小的区间。
数据建模模块是利用logistic回归建立数学模型用于进行客户风险预测,其中,logistic回归中的L函数使用sigmoid函数
Figure BDA0002596754250000071
逻辑回归的损失函数为:
L(y1,y2)=-(y2log(y1))+(1-y2)log(1-y1)
定义代价函数m个训练样本的损失函数的平均值;
Figure BDA0002596754250000072
衡量预测结果与真实结果之间的平均错误代价,优化的目标是最小化代价函数J(w,b),将代价函数最小就能达到使得模型最优的效果,对代价函数的最优化则是通过梯度下降法实现。
梯度下降法中,w,b的更新方式为
Figure BDA0002596754250000073
其中α为学习率learning-rate表示移动步长,梯度
Figure BDA0002596754250000074
为当前点的斜率,指定了移动方向,梯度下降法是为了寻找极小值,因此是朝梯度的负方向移动,用图像表示为图中曲线为代价函数J,横坐标为w或b,当梯度为正时,经过运算,w朝左更新,靠近曲线的最低点;当梯度为负时,经过运算,w朝右更新,靠近曲线的最低点,直到梯度为0时,到达最小值,得到最优参数w,b使J实现最小值。
特征衍生模块通过决策树方法来对两两交叉的特征计算与通过logistic回归得到的评价指标进行比对,若前者有明显提升,则推测这两个特征可能具有潜在的交叉关系;所述决策树方法用于捕捉变量或特征之间的非线性关系。
决策树方法中,包括特征选择、决策树的生成和决策树的剪枝,特征选择基于信息增益的方法,所述信息增益中,特征A对训练数据集D的信息增益定义为:
g(D,A)=H(D)-H(D|A),
其中H(D)表示集合D的经验熵,H(D|A)表示集合D在特征A的给定条件下的经验熵H(D|A),具体计算步骤为:
a)计算数据集D的经验熵
Figure BDA0002596754250000081
b)计算特征A对数据集D的经验条件熵
Figure BDA0002596754250000082
c)计算信息增益g(D,A)=H(D)-H(D|A)。
决策树方法中,在决策树各个结点上应用信息增益准则来选择特征,递归地构建决策树,从根结点开始,对结点计算所有可能特征的信息增益,选择信息增益最大的特征作为结点的特征,以该特征的不同取值建立子结点,再对子结点递归地调用以上的方法,直到所有特征的信息增益达到选取的阈值或者没有特征可以选择为止,最后得到一棵决策树。
验证模块将新创建的衍生特征加入到已有特征集中,利用评分卡系统来检查新特征是否具有提升预测效果的能力并验证新生特征的稳定性。
验证模块既有对上一步骤中捕获的可能具有潜在交叉关系的特征关于可解释性的判断,又有依据回归方法对新生特征在数据层面的进一步验证,若对于整体数据的分类精准率有明显的提升,则认为新生特征具备好的预测能力和稳定性,能够加入到已有特征集中。
实施例2
本实施例公开一种基于决策树方法的特征衍生系统,包括数据源模块、数据预处理模块、数据建模模块、特征衍生模块和验证模块;所述数据源模块包括数据采集器、券商业务数据、合作方数据和第三方数据市场;数据预处理包括数据清理技术、数据归约技术、数据集成技术和数据变换技术;数据建模模块是利用logistic回归建立数学模型用于进行客户风险预测;特征衍生模块包括利用决策树方法来寻找具有非线性交叉关系的变量;验证模块与特征衍生模块衔接,对衍生出的新变量进行验证。
数据采集器指在PC端或者移动端,通过API,SDK,JS等软件方式采集到的客户行为信息。
券商业务数据主要有证券交易所以公开、集中的方式进行的集中竞价交易,大宗交易,协议转让,盘后交易等买卖的集中交易数据信息,用户在券商的线上投资平台,投资分析决策系统等投资系统上进行买卖的投资系统数据。
合作方数据主要是与软件开发方存在合作关系的机构所提供的反应客户行为偏好,消费状况等相关情况的数据信息,包括公共号数据,电商站数据,媒体数据等。
第三方数据市场包括黑名单数据提供机构、电信消费数据提供机构、金融消费数据提供机构、其他数据提供机构。
数据清理技术清除数据中的噪声,纠正不一致;数据归约技术通过如狙击、删除冗余特征或聚类来降低数据的规模;数据集成技术将数据由多个数据源合并成一个一致的数据存储,如数据仓库;数据变换技术把数据压缩到较小的区间,如0.0到1.0,可以提高设计距离度量的挖掘算法的准确率和效率。
实施例3
本实施例公开一种logistic回归,其中w和b是待求参数,logistic回归通过函数L将w×x+b对应一个隐状态p,p=(w×x+b),然后根据p与1-p的大小决定因变量的值,如果L是logistic函数,就是logistic回归。
logistic回归中的L函数使用sigmoid函数
Figure BDA0002596754250000101
参见图2;
逻辑回归的损失函数为:
L(y1,y2)=-(y2log(y1))+(1-y2)log(1-y1)
定义代价函数m个训练样本的损失函数的平均值;
Figure BDA0002596754250000102
衡量预测结果与真实结果之间的平均错误代价,优化的目标是最小化代价函数J(w,b),将代价函数最小就能达到使得模型最优的效果,对代价函数的最优化则是通过梯度下降法实现。
梯度下降法中,w,b的更新方式为
Figure BDA0002596754250000103
其中α为学习率learning-rate表示移动步长,梯度
Figure BDA0002596754250000104
为当前点的斜率,指定了移动方向,梯度下降法是为了寻找极小值,因此是朝梯度的负方向移动,用图像表示为图中曲线为代价函数J,横坐标为w或b,当梯度为正时,经过运算,w朝左更新,靠近曲线的最低点;当梯度为负时,经过运算,w朝右更新,靠近曲线的最低点,直到梯度为0时,到达最小值,得到最优参数w,b使J实现最小值。
实施例4
本实施例公开如图3所示的决策树,主要包括特征选择、决策树的生成和决策树的剪枝,特征选择一般基于信息增益的方法。关于信息增益,特征A对训练数据集D的信息增益定义为:
g(D,A)=H(D)-H(D|A),
其中H(D)表示集合D的经验熵,H(D|A)表示集合D在特征A的给定条件下的经验熵H(D|A),具体计算步骤为:
a)计算数据集D的经验熵
Figure BDA0002596754250000105
b)计算特征A对数据集D的经验条件熵
Figure BDA0002596754250000111
c)计算信息增益g(D,A)=H(D)-H(D|A)。
决策树的生成主要使用ID3算法,核心是在决策树各个结点上应用信息增益准则来选择特征,参见图4,递归地构建决策树,具体而言,从根结点开始,对结点计算所有可能特征的信息增益,选择信息增益最大的特征作为结点的特征,以该特征的不同取值建立子结点,再对子结点递归地调用以上的方法,直到所有特征的信息增益达到选取的阈值或者没有特征可以选择为止,最后得到一棵决策树。
实施例5
本实施例公开一种可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行基于决策树方法的特征衍生系统以寻找到稳定可用的衍生变量。
综上,本发明在使用时,通过数据源模块多方获取相关数据,经过数据清洗模块的预处理之后,进入到数据建模模块,观察初始数据集的整体表现效果。然后利用特征衍生模块来寻找具有潜在非线性交叉关系的特征进行组合,构建新的特征,加入到原始特征集中,通过验证模块来对新生变量进行稳定性和可用性方面的验证,最终寻找到稳定可用的衍生变量,以提升模型分类效果。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于决策树方法的特征衍生系统,其特征在于,包括数据源模块、数据预处理模块、数据建模模块、特征衍生模块和验证模块,使用时,利用数据源模块获取相关数据,经过数据预处理模块处理之后进入到数据建模模块,观察初始数据集的整体表现效果,并利用特征衍生模块来寻找具有潜在非线性交叉关系的特征进行组合,构建新的特征,加入到原始特征集中,通过验证模块来对新生变量进行稳定性和可用性方面的验证,最终寻找到稳定可用的衍生变量。
2.根据权利要求1所述的基于决策树方法的特征衍生系统,其特征在于,所述数据源模块包括数据采集器、券商业务数据、合作方数据和第三方数据市场;
所述数据采集器是在PC端或者移动端,通过API,SDK,JS等软件方式采集到的客户行为信息;
所述券商业务数据有证券交易所以公开、集中的方式进行的集中竞价交易,大宗交易,协议转让,盘后交易等买卖的集中交易数据信息,用户在券商的线上投资平台,投资分析决策系统等投资系统上进行买卖的投资系统数据;
所述合作方数据是与软件开发方存在合作关系的机构所提供的反应客户行为偏好,消费状况等相关情况的数据信息,包括公共号数据,电商站数据和媒体数据;
所述第三方数据市场包括黑名单数据提供机构、电信消费数据提供机构、金融消费数据提供机构或其他数据提供机构。
3.根据权利要求1所述的基于决策树方法的特征衍生系统,其特征在于,所述数据预处理包括数据清理技术、数据归约技术、数据集成技术和数据变换技术;
所述数据清理技术清除数据中的噪声,纠正不一致;
所述数据归约技术通过如狙击、删除冗余特征或聚类来降低数据的规模;
所述数据集成技术将数据由多个数据源合并成一个一致的数据存储;
所述数据变换技术把数据压缩到较小的区间。
4.根据权利要求1所述的基于决策树方法的特征衍生系统,其特征在于,所述数据建模模块是利用logistic回归建立数学模型用于进行客户风险预测,其中,
所述logistic回归中w和b是待求参数,logistic回归通过函数L将w×x+b对应一个隐状态p,p=(w×x+b),然后根据p与1-p的大小决定因变量的值,如果L是logistic函数,就是logistic回归;logistic回归中的L函数使用sigmoid函数
Figure FDA0002596754240000021
逻辑回归的损失函数为:
L(y1,y2)=-(y2log(y1))+(1-y2)log(1-y1)
定义代价函数m个训练样本的损失函数的平均值;
Figure FDA0002596754240000022
衡量预测结果与真实结果之间的平均错误代价,优化的目标是最小化代价函数J(w,b),将代价函数最小就能达到使得模型最优的效果,对代价函数的最优化则是通过梯度下降法实现。
5.根据权利要求4所述的基于决策树方法的特征衍生系统,其特征在于,所述梯度下降法中,w,b的更新方式为
Figure FDA0002596754240000023
其中α为学习率learning-rate表示移动步长,梯度
Figure FDA0002596754240000024
为当前点的斜率,指定了移动方向,梯度下降法是为了寻找极小值,因此是朝梯度的负方向移动,用图像表示为图中曲线为代价函数J,横坐标为w或b,当梯度为正时,经过运算,w朝左更新,靠近曲线的最低点;当梯度为负时,经过运算,w朝右更新,靠近曲线的最低点,直到梯度为0时,到达最小值,得到最优参数w,b使J实现最小值。
6.根据权利要求1所述的基于决策树方法的特征衍生系统,其特征在于,所述特征衍生模块通过决策树方法来对两两交叉的特征计算与通过logistic回归得到的评价指标进行比对,若前者有明显提升,则推测这两个特征可能具有潜在的交叉关系;所述决策树方法用于捕捉变量或特征之间的非线性关系。
7.根据权利要求6所述的基于决策树方法的特征衍生系统,其特征在于,所述决策树方法中,包括特征选择、决策树的生成和决策树的剪枝,特征选择基于信息增益的方法,所述信息增益中,特征A对训练数据集D的信息增益定义为:
g(D,A)=H(D)-H(D|A),
其中H(D)表示集合D的经验熵,H(D|A)表示集合D在特征A的给定条件下的经验熵H(D|A),具体计算步骤为:
a)计算数据集D的经验熵
Figure FDA0002596754240000031
b)计算特征A对数据集D的经验条件熵
Figure FDA0002596754240000032
c)计算信息增益g(D,A)=H(D)-H(D|A)。
8.根据权利要求6所述的基于决策树方法的特征衍生系统,其特征在于,所述决策树方法中,在决策树各个结点上应用信息增益准则来选择特征,递归地构建决策树,从根结点开始,对结点计算所有可能特征的信息增益,选择信息增益最大的特征作为结点的特征,以该特征的不同取值建立子结点,再对子结点递归地调用以上的方法,直到所有特征的信息增益达到选取的阈值或者没有特征可以选择为止,最后得到一棵决策树。
9.根据权利要求6所述的基于决策树方法的特征衍生系统,其特征在于,所述验证模块将新创建的衍生特征加入到已有特征集中,利用评分卡系统来检查新特征是否具有提升预测效果的能力并验证新生特征的稳定性,所述验证模块既有对上一步骤中捕获的可能具有潜在交叉关系的特征关于可解释性的判断,又有依据回归方法对新生特征在数据层面的进一步验证,若对于整体数据的分类精准率有明显的提升,则认为新生特征具备好的预测能力和稳定性,能够加入到已有特征集中。
10.一种可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述的基于决策树方法的特征衍生系统以寻找到稳定可用的衍生变量。
CN202010711594.2A 2020-07-22 2020-07-22 一种基于决策树方法的特征衍生系统及可读存储介质 Pending CN111861750A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010711594.2A CN111861750A (zh) 2020-07-22 2020-07-22 一种基于决策树方法的特征衍生系统及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010711594.2A CN111861750A (zh) 2020-07-22 2020-07-22 一种基于决策树方法的特征衍生系统及可读存储介质

Publications (1)

Publication Number Publication Date
CN111861750A true CN111861750A (zh) 2020-10-30

Family

ID=72949271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010711594.2A Pending CN111861750A (zh) 2020-07-22 2020-07-22 一种基于决策树方法的特征衍生系统及可读存储介质

Country Status (1)

Country Link
CN (1) CN111861750A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113295419A (zh) * 2021-05-26 2021-08-24 浙江运达风电股份有限公司 一种风电机组齿轮箱中速级轴承故障预警方法
CN114064976A (zh) * 2021-10-20 2022-02-18 同盾科技有限公司 一种数据特征计算的方法、系统、电子装置和存储介质
CN117408787A (zh) * 2023-12-15 2024-01-16 江西求是高等研究院 一种基于决策树的根因挖掘分析方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055779A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 基于人工智能半监督学习逻辑回归方法建立分车型远程定损系统及方法
CN106548350A (zh) * 2016-11-17 2017-03-29 腾讯科技(深圳)有限公司 一种数据处理方法及服务器
CN107301577A (zh) * 2016-04-15 2017-10-27 阿里巴巴集团控股有限公司 信用评估模型的训练方法、信用评估方法以及装置
CN108416495A (zh) * 2018-01-30 2018-08-17 杭州排列科技有限公司 基于机器学习的评分卡模型建立方法及装置
CN109658241A (zh) * 2018-11-23 2019-04-19 成都知道创宇信息技术有限公司 一种螺纹钢期货价格涨跌概率预测方法
CN110580268A (zh) * 2019-08-05 2019-12-17 西北大学 一种基于深度学习的信用评分集成分类系统和方法
CN111046912A (zh) * 2019-11-13 2020-04-21 支付宝(杭州)信息技术有限公司 特征衍生方法、装置及计算机设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301577A (zh) * 2016-04-15 2017-10-27 阿里巴巴集团控股有限公司 信用评估模型的训练方法、信用评估方法以及装置
CN106055779A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 基于人工智能半监督学习逻辑回归方法建立分车型远程定损系统及方法
CN106548350A (zh) * 2016-11-17 2017-03-29 腾讯科技(深圳)有限公司 一种数据处理方法及服务器
CN108416495A (zh) * 2018-01-30 2018-08-17 杭州排列科技有限公司 基于机器学习的评分卡模型建立方法及装置
CN109658241A (zh) * 2018-11-23 2019-04-19 成都知道创宇信息技术有限公司 一种螺纹钢期货价格涨跌概率预测方法
CN110580268A (zh) * 2019-08-05 2019-12-17 西北大学 一种基于深度学习的信用评分集成分类系统和方法
CN111046912A (zh) * 2019-11-13 2020-04-21 支付宝(杭州)信息技术有限公司 特征衍生方法、装置及计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李爱国 等编著: "《数据挖掘原理、算法及应用》", 31 January 2012, 西安电子科技大学出版社 *
杨旭 等编著: "《数据科学导论(第2版)》", 31 January 2017, 北京理工大学出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113295419A (zh) * 2021-05-26 2021-08-24 浙江运达风电股份有限公司 一种风电机组齿轮箱中速级轴承故障预警方法
CN114064976A (zh) * 2021-10-20 2022-02-18 同盾科技有限公司 一种数据特征计算的方法、系统、电子装置和存储介质
CN117408787A (zh) * 2023-12-15 2024-01-16 江西求是高等研究院 一种基于决策树的根因挖掘分析方法及系统
CN117408787B (zh) * 2023-12-15 2024-03-05 江西求是高等研究院 一种基于决策树的根因挖掘分析方法及系统

Similar Documents

Publication Publication Date Title
CN111861750A (zh) 一种基于决策树方法的特征衍生系统及可读存储介质
US20220405480A1 (en) Text sentiment analysis method based on multi-level graph pooling
CN108776844B (zh) 基于上下文感知张量分解的社交网络用户行为预测方法
CN111967972B (zh) 理财产品推荐方法及装置
CN113918832B (zh) 基于社交关系的图卷积协同过滤推荐系统
CN111369344B (zh) 一种动态生成预警规则的方法和装置
CN113807520A (zh) 基于图神经网络的知识图谱对齐模型的训练方法
CN109740106A (zh) 基于图卷积神经网络的大规模网络介数逼近方法、存储装置及存储介质
CN112329874A (zh) 数据业务的决策方法、装置、电子设备和存储介质
Chen Mining of instant messaging data in the Internet of Things based on support vector machine
JP2023545940A (ja) グラフデータ処理方法、装置、コンピュータ機器及びコンピュータプログラム
CN114036405A (zh) 一种基于图卷积网络的社交推荐方法与系统
CN110717116B (zh) 关系网络的链接预测方法及系统、设备、存储介质
CN111988668B (zh) 一种视频推荐方法、装置、计算机设备及存储介质
CN115375382A (zh) 一种商品推荐方法、装置及相关设备
CN112559877A (zh) 基于跨平台异构数据及行为上下文的ctr预估方法及系统
CN109977977A (zh) 一种识别潜在用户的方法及对应装置
CN116633589A (zh) 社交网络中恶意账户检测方法、设备及存储介质
CN110992109B (zh) 基于关联规则的房地产客户分析方法、装置及存储介质
CN115601047A (zh) 数据处理方法以及装置
Bai RETRACTED ARTICLE: Data cleansing method of talent management data in wireless sensor network based on data mining technology
CN114332472A (zh) 一种基于图神经网络的数据处理方法及装置
CN109582806B (zh) 一种基于图计算的个人信息处理方法及系统
CN113468604A (zh) 基于人工智能的大数据隐私信息解析方法及系统
CN113138977A (zh) 交易转化分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201030