CN105354313A - 一种利用大数据进行信用评估的方法 - Google Patents
一种利用大数据进行信用评估的方法 Download PDFInfo
- Publication number
- CN105354313A CN105354313A CN201510763598.4A CN201510763598A CN105354313A CN 105354313 A CN105354313 A CN 105354313A CN 201510763598 A CN201510763598 A CN 201510763598A CN 105354313 A CN105354313 A CN 105354313A
- Authority
- CN
- China
- Prior art keywords
- dimension
- data
- reference object
- score value
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2264—Multidimensional index structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种利用大数据进行信用评估的方法,其特征在于:步骤1:存储征信原始数据;步骤2:按照征信对象对原始数据进行筛选,将原始数据划分成不同的维度,计算用于表达征信对象在对应维度的好坏分值;步骤3:将步骤2获得的数据进行存储;步骤4:利用已知样本对应各维度的计算结果进行机器学习,得到各维度的权重分配,进而计算获得各征信对象的最终分值,并进行数据存储。
Description
技术领域
本发明涉及一种利用大数据进行信用评估的方法。
背景技术
现有技术中,对用户的信用评估主要采取的方法有三种,第一种是让客户提供收入证明、房产证、银行流水等确定是否具备偿还能力;第二种是通过实地考察和直接面对面沟通,验证客户提供资料的真实性;第三种查询客户征信记录被查询的次数,上述三种方法存在的不足之处在于多由手工操作,效率低,且资料容易造假,信用评估效果差。
发明内容
本发明的发明目的在于提供一种利用大数据进行信用评估的方法,自动对原始数据进行筛选评估,效率高,且信用评估效果好。
实现本发明目的的技术方案:
一种利用大数据进行信用评估的方法,其特征在于:
步骤1:存储征信原始数据;
步骤2:按照征信对象对原始数据进行筛选,将原始数据划分成不同的维度,计算用于表达征信对象在对应维度的好坏分值;
步骤3:将步骤2获得的数据进行存储;
步骤4:利用已知样本对应各维度的计算结果进行机器学习,得到各维度的权重分配,进而计算获得各征信对象的最终分值,并进行数据存储。
步骤2中,原始征信数据具有三个维度,
第一维度是消费力维度,根据用户对应的通信消费账单、套餐、和终端类型数据得出用户的消费能力维度分值;
第二维度是行为爱好维度,根据用户的手机APP种类和PV时间分布数据得出行为爱好维度分值;
第三维度是位置维度,根据用户在某坐标点上的出现频率、驻留时间长度数据进行计算,得出位置维度分值。
步骤1中,采用Hadoop服务器集群的HDFS文件系统存储征信原始数据。
步骤2中,利用Hadoop集群的Yarn框架运行MapReduce,在Mapper中将原始数据按照征信对象进行初步筛选,在Reducer中汇总征信对象的各维度的数据,计算出用于表达征信对象在对应维度的好坏分值。
步骤3、步骤4中,存储数据采用可支持随机访问的HBase存储。
访问征信分值数据时,可利用MapReduce批量导出HBase中存储的征信分值数据,写入CSV格式的文件;或者实时访问HBase中的指定征信对象的征信分值数据。
步骤2中,原始征信数据划分还具有第四维度,第四维度是扩展数据维度。
本发明具有的有益效果:
本发明按照征信对象对原始数据进行筛选,将原始数据划分成不同的维度,计算用于表达征信对象在对应维度的好坏分值;利用已知样本对应各维度的计算结果进行机器学习,得到各维度的权重分配,进而计算获得各征信对象的最终分值。本发明可自动对原始数据进行筛选评估,效率高,且信用评估效果好。
本发明原始征信数据具有三个维度,第一维度是消费力维度,根据用户对应的通信消费账单、套餐、和终端类型数据得出用户的消费能力维度分值;第二维度是行为爱好维度,根据用户的手机APP种类和PV时间分布数据得出行为爱好维度分值;第三维度是位置维度,根据用户在某坐标点上的出现频率、驻留时间长度数据进行计算,得出位置维度分值。本发明基于上述三个维度对原始征信数据进行划分评分,使得信用评估效果更加客观。
本发明存储数据采用可支持随机访问的HBase存储。访问征信分值数据时,可利用MapReduce批量导出HBase中存储的征信分值数据,写入CSV格式的文件;或者实时访问HBase中的指定征信对象的征信分值数据,使得查询征信结果更加方便。
具体实施方式
本发明利用大数据进行信用评估的方法,包括如下步骤,
步骤1:存储征信原始数据;
实施时,采用Hadoop服务器集群的HDFS文件系统存储征信原始数据。多数据源条件下采用FTP,UDP,MQ,kafka多种技术手段予以实现。
步骤2:按照征信对象对原始数据进行筛选,将原始数据划分成不同的维度,计算用于表达征信对象在对应维度的好坏分值;
原始征信数据具有三个维度,
第一维度是消费力维度,根据用户对应的通信消费账单、套餐、和终端类型数据得出用户的消费能力维度分值;以通信消费账单为例,对于客户近12个月消费额波动曲线,计算出均值、正向波动率、负向波动率,以及近6个月和近3个月的正向、负向波动率,最终为这个维度打出一个分值。
第二维度是行为爱好维度,根据用户的手机APP种类和PV时间分布数据得出行为爱好维度分值;分析过程中,主要中间变量有APP种类数量、PV按种类的数量统计、按照休息时间段、工作时间段、上下班路途时间段等按时间段的PV数量统计。
第三维度是位置维度,根据用户在某坐标点上的出现频率、驻留时间长度数据进行计算,得出位置维度分值。
上述三种维度的分值计算公式:
维度以下所有的可测量属性分值乘以对应权重的累加即为该维度的分值。其中P(i)是维度内部第i个属性的分值。通常这个属性分值来自于该属性的统计量所在的固定分段区间,每个区间都设置一个分数。W(i)是维度内部第i个属性的权重,取值范围在0到1之间。同一个维度的所有属性权重之和为1。属性的权重值的设定,最初来自于经验值,然后通过不断增多的已知样本数据进行机器学习,经过多次迭代就可以得到相对准确的权重值。
原始征信数据还可具有第四维度,第四维度是扩展数据维度,根据实际情况进行设置。
实施时,利用Hadoop集群的Yarn框架运行MapReduce,在Mapper中将原始数据按照征信对象进行初步筛选,在Reducer中汇总征信对象的各维度的数据,计算出用于表达征信对象在对应维度的好坏分值。
步骤3:将步骤2获得的数据进行存储。
步骤4:利用已知样本对应各维度的计算结果进行机器学习,得到各维度的权重分配,进而计算获得各征信对象的最终分值,并进行数据存储。
实施时,步骤3、步骤4中存储数据采用可支持随机访问的HBase存储。
访问征信分值数据时,可利用MapReduce批量导出HBase中存储的征信分值数据,写入CSV格式的文件;或者实时访问HBase中的指定征信对象的征信分值数据。
Claims (7)
1.一种利用大数据进行信用评估的方法,其特征在于:
步骤1:存储征信原始数据;
步骤2:按照征信对象对原始数据进行筛选,将原始数据划分成不同的维度,计算用于表达征信对象在对应维度的好坏分值;
步骤3:将步骤2获得的数据进行存储;
步骤4:利用已知样本对应各维度的计算结果进行机器学习,得到各维度的权重分配,进而计算获得各征信对象的最终分值,并进行数据存储。
2.根据权利要求1所述的方法,其特征在于:
步骤2中,原始征信数据具有三个维度,
第一维度是消费力维度,根据用户对应的通信消费账单、套餐、和终端类型数据得出用户的消费能力维度分值;
第二维度是行为爱好维度,根据用户的手机APP种类和PV时间分布数据得出行为爱好维度分值;
第三维度是位置维度,根据用户在某坐标点上的出现频率、驻留时间长度数据进行计算,得出位置维度分值。
3.根据权利要求2所述的方法,其特征在于:步骤1中,采用Hadoop服务器集群的HDFS文件系统存储征信原始数据。
4.根据权利要求3所述的方法,其特征在于:步骤2中,利用Hadoop集群的Yarn框架运行MapReduce,在Mapper中将原始数据按照征信对象进行初步筛选,在Reducer中汇总征信对象的各维度的数据,计算出用于表达征信对象在对应维度的好坏分值。
5.根据权利要求4所述的方法,其特征在于:步骤3、步骤4中,存储数据采用可支持随机访问的HBase存储。
6.根据权利要求5所述的方法,其特征在于:访问征信分值数据时,可利用MapReduce批量导出HBase中存储的征信分值数据,写入CSV格式的文件;或者实时访问HBase中的指定征信对象的征信分值数据。
7.根据权利要求6所述的方法,其特征在于:步骤2中,原始征信数据划分还具有第四维度,第四维度是扩展数据维度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510763598.4A CN105354313A (zh) | 2015-11-11 | 2015-11-11 | 一种利用大数据进行信用评估的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510763598.4A CN105354313A (zh) | 2015-11-11 | 2015-11-11 | 一种利用大数据进行信用评估的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105354313A true CN105354313A (zh) | 2016-02-24 |
Family
ID=55330285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510763598.4A Pending CN105354313A (zh) | 2015-11-11 | 2015-11-11 | 一种利用大数据进行信用评估的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105354313A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127570A (zh) * | 2016-06-16 | 2016-11-16 | 腾讯科技(深圳)有限公司 | 征信系统的稳定性指标生成方法及装置 |
CN106570800A (zh) * | 2016-10-20 | 2017-04-19 | 安徽大智睿科技技术有限公司 | 一种基于大数据分析的学生征信方法 |
CN107220867A (zh) * | 2017-04-20 | 2017-09-29 | 北京小度信息科技有限公司 | 对象控制方法及装置 |
CN107967530A (zh) * | 2017-06-22 | 2018-04-27 | 深圳市盈华讯方通信技术有限公司 | 基于数据分析的支付渠道推选方法及其系统 |
CN109068310A (zh) * | 2018-07-17 | 2018-12-21 | 中国联合网络通信集团有限公司 | 一种基于国际漫游大数据的征信方法 |
CN110580634A (zh) * | 2018-06-08 | 2019-12-17 | 北京嘀嘀无限科技发展有限公司 | 基于互联网的业务推荐方法、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101493913A (zh) * | 2008-01-23 | 2009-07-29 | 阿里巴巴集团控股有限公司 | 一种评估网上用户信用的方法及系统 |
CN102163310A (zh) * | 2010-02-22 | 2011-08-24 | 深圳市腾讯计算机系统有限公司 | 一种基于用户信用度等级的信息推送方法和装置 |
WO2014061065A1 (en) * | 2012-10-18 | 2014-04-24 | Hitachi, Ltd. | Distribution processing unit of shared storage |
CN104850939A (zh) * | 2015-04-28 | 2015-08-19 | 信而量数据科技(上海)有限公司 | 一种基于个人信用数据的信息管理系统及方法 |
CN104866969A (zh) * | 2015-05-25 | 2015-08-26 | 百度在线网络技术(北京)有限公司 | 个人信用数据处理方法和装置 |
-
2015
- 2015-11-11 CN CN201510763598.4A patent/CN105354313A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101493913A (zh) * | 2008-01-23 | 2009-07-29 | 阿里巴巴集团控股有限公司 | 一种评估网上用户信用的方法及系统 |
CN102163310A (zh) * | 2010-02-22 | 2011-08-24 | 深圳市腾讯计算机系统有限公司 | 一种基于用户信用度等级的信息推送方法和装置 |
WO2014061065A1 (en) * | 2012-10-18 | 2014-04-24 | Hitachi, Ltd. | Distribution processing unit of shared storage |
CN104850939A (zh) * | 2015-04-28 | 2015-08-19 | 信而量数据科技(上海)有限公司 | 一种基于个人信用数据的信息管理系统及方法 |
CN104866969A (zh) * | 2015-05-25 | 2015-08-26 | 百度在线网络技术(北京)有限公司 | 个人信用数据处理方法和装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127570A (zh) * | 2016-06-16 | 2016-11-16 | 腾讯科技(深圳)有限公司 | 征信系统的稳定性指标生成方法及装置 |
CN106570800A (zh) * | 2016-10-20 | 2017-04-19 | 安徽大智睿科技技术有限公司 | 一种基于大数据分析的学生征信方法 |
CN107220867A (zh) * | 2017-04-20 | 2017-09-29 | 北京小度信息科技有限公司 | 对象控制方法及装置 |
CN107967530A (zh) * | 2017-06-22 | 2018-04-27 | 深圳市盈华讯方通信技术有限公司 | 基于数据分析的支付渠道推选方法及其系统 |
CN110580634A (zh) * | 2018-06-08 | 2019-12-17 | 北京嘀嘀无限科技发展有限公司 | 基于互联网的业务推荐方法、装置及存储介质 |
CN109068310A (zh) * | 2018-07-17 | 2018-12-21 | 中国联合网络通信集团有限公司 | 一种基于国际漫游大数据的征信方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105354313A (zh) | 一种利用大数据进行信用评估的方法 | |
CN105701216B (zh) | 一种信息推送方法及装置 | |
Al Arif | Spin-off and its impact on the third party funds of Indonesian Islamic banking industry | |
CN109325844A (zh) | 多维数据下的网贷借款人信用评价方法 | |
CN106549772A (zh) | 资源预测方法、系统和容量管理装置 | |
CN105391654A (zh) | 基于账户活跃度的系统资源分配方法及装置 | |
MX353729B (es) | Priorización no supervisada y visualización de cúmulos. | |
CN103336844B (zh) | 大数据rd分割方法 | |
CN112906911A (zh) | 联邦学习的模型训练方法 | |
CN105893421A (zh) | Uv计算方法、装置 | |
KR20170056480A (ko) | 리소스조합 처리방법, 장치, 설비 및 컴퓨터 저장매체 | |
CN110633863A (zh) | 一种基于gbdt算法的配钞预测方法及装置 | |
CN110390563A (zh) | 用户价值的量化方法、装置、计算机设备和存储介质 | |
CN109710542A (zh) | 一种满n叉树构建方法及装置 | |
Abdullah et al. | The Impact of Government Expenditure on Economic Growth in Indonesia, Malaysia and Singapore | |
CN112037049A (zh) | 银行卡收费方法及装置 | |
Li et al. | Stochastic interval-grey number VIKOR method based on prospect theory | |
CN109767333A (zh) | 选基方法、装置、电子设备及计算机可读存储介质 | |
CN108875842A (zh) | 一种金融时间序列预测方法、服务器及装置 | |
Andreoni et al. | Growth and distribution pattern of the world manufacturing output: A statistical profile | |
CN109039797A (zh) | 基于强化学习的大流检测方法 | |
CN106487570B (zh) | 一种评估网络性能指标变化趋势的方法及设备 | |
CN104361138B (zh) | 成本分摊及溯源装置和方法 | |
CN113610627B (zh) | 用于风险预警的数据处理方法和装置 | |
CN105447313A (zh) | 电子文件阅读数非自然增长识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160224 |
|
RJ01 | Rejection of invention patent application after publication |