CN110503459B - 基于大数据的用户信用度评估方法、装置及存储介质 - Google Patents

基于大数据的用户信用度评估方法、装置及存储介质 Download PDF

Info

Publication number
CN110503459B
CN110503459B CN201910654699.6A CN201910654699A CN110503459B CN 110503459 B CN110503459 B CN 110503459B CN 201910654699 A CN201910654699 A CN 201910654699A CN 110503459 B CN110503459 B CN 110503459B
Authority
CN
China
Prior art keywords
user
data
model
credit
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910654699.6A
Other languages
English (en)
Other versions
CN110503459A (zh
Inventor
胡文成
贺义思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910654699.6A priority Critical patent/CN110503459B/zh
Publication of CN110503459A publication Critical patent/CN110503459A/zh
Application granted granted Critical
Publication of CN110503459B publication Critical patent/CN110503459B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及大数据技术领域,公开了一种基于大数据的用户信用度评估方法,该方法包括:基于Bootstrap采样方法从预先构建的用户画像中进行数据抽样,构建随机森林模型,并将所述随机森林模型与logistic回归模型进行组合,生成大数据环境下的N个单个信用评估模型;汇总所有上述单个信用评估模型,进行集成学习,生成一个集成信用评估模型;获取待评估信用度的用户的数据,将所述用户的数据带入所述集成信用评估模型,得到所述用户的信用度。本发明还提出一种基于大数据的用户信用度评估装置以及一种计算机可读存储介质。本发明可以实现对用户信用度的精准评估。

Description

基于大数据的用户信用度评估方法、装置及存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于大数据的用户信用度评估方法、装置及计算机可读存储介质。
背景技术
近年来,随着互联网技术的飞速发展,人们越来越多的通过互联网进行各种数据业务,而用户的信用评估也成为了一个互联网技术领域的焦点问题。
现有技术中对用户的信用评估方式通常是通过收集用户的个人信息,然后通过信用评分模型或机器学习的一些预测算法,对用户违约风险进行预测。然而,利用现有的信用评价模型进行用户信用度评估的时候没有考虑到单个信用评分模型会产生较大的偶然误差,导致最终用户信用评分出现较大差错,因此,传统的方案的评估精度不高,无法应用在对用户信用评估程度精度要求很高的应用场景
发明内容
本发明提供一种基于大数据的用户信用度评估方法、装置及计算机可读存储介质,其主要目的在于提供一种提高用户的信用度评估精度的用户信用度评估方案。
为实现上述目的,本发明提供的一种基于大数据的用户信用度评估方法,包括:
基于Bootstrap采样方法从预先构建的用户画像中进行数据抽样,构建随机森林模型,并将所述随机森林模型与logistic回归模型进行组合,生成大数据环境下的单个信用评估模型,其中所述用户画像是通过预设类型的用户数据进行构建的,所述预设类型的用户数据来源于互联网,包括静态信息数据和动态信息数据,其中:
所述静态信息数据包括用户的基本属性和商业信息,所述基本属性包括性别、年龄、地域、职业、婚姻状况,以及所述商业信息包括用户每次的消费金额、消费周期、消费等级;
所述动态信息数据包括用户在互联网上的不断发生变化的操作行为,包括每次浏览的网页、搜索的商品、对商品的评价、对商家的信誉反馈、转发的商家信息;
重复执行上述的步骤N次,以得到N个所述单个信用评估模型,其中,N为大于1的正整数;
汇总所有上述单个信用评估模型,进行集成学习,生成一个集成信用评估模型;
信用度评估步骤:获取待评估信用度的用户的数据,将所述用户的数据带入所述集成信用评估模型,得到所述用户的信用度。
可选地,该方法还包括在构建所述用户画像时,对所述预设类型的用户数据进行处理,其中,所述处理包括对所述用户数据的归一化以及基于主成分分析的数据降维处理。
可选地,所述归一化处理采用z-score归一化方法,其公式如下:
x=(x-μ)/σ,
其中,x为采集的原始预设类型的用户数据,μ为样本数据均值,σ为样本数据方差。
可选地,所述构建随机森林模型的方法包括:
(1)利用所述bootstrap采样方法产生训练集;
(2)根据所述训练集,利用ID3算法构建决策树,如下所示:
Gain(D)=infobefore(D)-infoafter(D)
其中,Gain(D)为决策树节点信息增益,infobefore(D)和infoafter(D)分别为添加/摘除该节点情况下的信息熵;
(3)按照第(2)步的方法不断重复构建了第k棵决策树后,建立k个决策树的组合,以得到随机森林模型。
可选地,所述集成学习步骤包括,利用Adaboost算法生成所述集成信用评估模型,其中,所述Adaboost算法的公式为:
其中,wt为第t个信用评估模型的权重,ht(x)为第t个信用评估模型的评估结果,N为单个信用评估模型的数量。
此外,为实现上述目的,本发明还提供一种基于大数据的用户信用度评估装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的基于大数据的用户信用度评估程序,所述基于大数据的用户信用度评估程序被所述处理器执行时实现如下步骤:
基于Bootstrap采样方法从预先构建的用户画像中进行数据抽样,构建随机森林模型,并将所述随机森林模型与logistic回归模型进行组合,生成大数据环境下的单个信用评估模型,其中所述用户画像是通过预设类型的用户数据进行构建的,所述预设类型的用户数据来源于互联网,包括静态信息数据和动态信息数据,其中:
所述静态信息数据包括用户的基本属性和商业信息,所述基本属性包括性别、年龄、地域、职业、婚姻状况,以及所述商业信息包括用户每次的消费金额、消费周期、消费等级;
所述动态信息数据包括用户在互联网上的不断发生变化的操作行为,包括每次浏览的网页、搜索的商品、对商品的评价、对商家的信誉反馈、转发的商家信息;
重复执行上述的单个信用评估模型生成步骤N次,以得到N个所述单个信用评估模型,其中,N为大于1的正整数;
汇总所有上述单个信用评估模型,进行集成学习,生成一个集成信用评估模型;
获取待评估信用度的用户的数据,将所述用户的数据带入所述集成信用评估模型,得到所述用户的信用度。
可选地,该方法还包括在构建所述用户画像时,对所述预设类型的用户数据进行处理,其中,所述处理包括对所述用户数据的归一化以及基于主成分分析的数据降维处理。
可选地,所述构建随机森林模型的方法包括:
(1)利用所述bootstrap采样方法产生训练集;
(2)根据所述训练集,利用ID3算法构建决策树,如下所示:
Gain(D)=infobefore(D)-infoafter(D)
其中,Gain(D)为决策树节点信息增益,infobefore(D)和infoafter(D)分别为添加/摘除该节点情况下的信息熵;
(3)按照第(2)步的方法不断重复构建了第k棵决策树后,建立k个决策树的组合,以得到随机森林模型。
可选地,所述集成学习步骤包括,利用Adaboost算法生成所述集成信用评估模型,其中,所述Adaboost算法的公式为:
其中,wt为第t个信用评估模型的权重,ht(x)为第t个信用评估模型的评估结果,N为单个信用评估模型的数量。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于大数据的用户信用度评估程序,所述基于大数据的用户信用度评估程序可被一个或者多个处理器执行,以实现如上所述的基于大数据的用户信用度评估方法的步骤。
本发明提出的基于大数据的用户信用度评估方法、装置及计算机可读存储介质通过采集包括静态数据和动态数据的用户信息数据,对采集到的用户信息数据进行归一化数据预处理、融合随机森林模型与logistic模型构建单个信用评估模型、利用Adaboost算法整合多个信用评估模型,避免单个模型产生较大的评估误差,实现对用户信用度的精准评估。
附图说明
图1为本发明一实施例提供的基于大数据的用户信用度评估方法的流程示意图;
图2为本发明一实施例提供的基于大数据的用户信用度评估装置的内部结构示意图;
图3为本发明一实施例提供的基于大数据的用户信用度评估装置中基于大数据的用户信用度评估程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,所述“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
进一步地,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提供一种基于大数据的用户信用度评估方法。参照图1所示,为本发明一实施例提供的基于大数据的用户信用度评估方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,基于大数据的用户信用度评估方法包括:
S1、收集用户数据,对所述用户数据进行处理及存储,构建基于大数据的用户画像。
本发明所述用户数据来源于互联网,所有与用户相关的数据都可以被收集进来。本发明较佳实施例中,所述用户数据包括为静态信息数据和动态信息数据两大类。所述静态信息数据主要包括性别、年龄、地域、职业、婚姻状况等人口基本属性,以及消费金额、消费周期、消费等级等商业信息,还有其他一些相对稳定的信息数据。构建用户画像时,静态信息数据自成标签,不需要进行建模操作,主要是对数据进行整理和清洗等。
所述动态信息数据主要是用户在互联网上的操作行为等不断发生变化的信息。比如浏览电子商务网站的网页,进入某个具体商品频道的列表,搜索某一品牌的电器、衣服等商品,对某一商品的具体质量等的评论,对商家信誉进行的反馈,转发一些商家的微博消息等,都可看作动态信息数据。
本发明较佳实施例对采集的用户数据进行预处理后,形成用户画像。对所述用户数据进行预处理是由于不同来源的数据量纲的不同,以及数值范围的不同,需要将不同量纲的数据规约到同一水平线上,否则就会导致某些因素的影响过大,进而会影响评估结果。
本发明较佳实施例中,对所述用户数据进行预处理包括数据的归一化以及基于主成分分析的数据降维处理。
所述数据的归一化是将数据按比例缩放,使之落入一个小的特定区间。由于特征向量中的各个特征度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。目前常用的归一化处理方法是z-score归一化方法,其公式如下所示:
x=(x-μ)/σ,
其中x为采集的原始数据,μ为样本数据均值,σ为样本数据方差。
所述主成分分析(principal components analysis,简称PCA),是一种用于探索高维数据结构的技术。在特征提取与处理时,涉及高维特征向量的问题往往容易陷入维度灾难和特征关联性强的问题。随着数据集维度的增加,算法学习需要的样本数量呈指数级增加。有些应用中,遇到这样的大数据是非常不利的,而且从大数据集中学习需要更多的内存和处理能力。另外,随着维度的增加,数据的稀疏性会越来越高。在高维向量空间中探索同样的数据集比在同样稀疏的数据集中探索更加困难。PCA通常用于高维数据集的探索与可视化。还可以用于数据压缩,数据预处理等。PCA也可以把可能具有相关性的高维变量合成线性无关的低维变量,称为主成分。新的低维数据集会尽可能的保留原始数据的变量。PCA将数据投射到一个低维子空间实现降维。例如,二维数据集降维就是把点投射成一条线,数据集的每个样本都可以用一个值表示,不需要两个值。三维数据集可以降成二维,就是把变量映射成一个平面。一般情况下,高维相关数据可以通过映射降成低维非相关数据。
S2、基于Bootstrap采样方法从所述用户画像中进行数据抽样,构建随机森林模型,并将所述随机森林模型与logistic回归模型进行组合,生成大数据环境下的单个信用评估模型。
所述Bootstrap是非参数统计中一种重要的估计统计量变异性,并可进行统计量区间估计的统计方法,也称为自助法。其核心思想和基本步骤如下:(1)采用重复抽样技术从原始样本中抽取一定数量(可自己给定,一般与原始样本相同)的样本,此过程允许重复抽样;(2)根据抽出的样本计算待估计的统计量T;(3)重复上述N次(一般大于1000),得到N个统计量T;(4)计算上述N个统计量T的样本方差,以此估计统计量T的方差。
Bootstrap采样能够在不需要进行假设分布或者增加新的样本信息的前提下,根据给定的原始样本信息复制观测信息,实现对总体分布特征进行统计和推断的非参数统计方法,以生成一系列bootstrap伪样本,每个样本是初始数据的有放回抽样。通过对伪样本的计算,获得统计量的分布。例如,要进行1000次bootstrap,求平均值的置信区间,可以对每个伪样本计算平均值。这样就获得了1000个平均值。对着1000个平均值的分位数进行计算,即可获得置信区间。已经证明,在初始样本足够大的情况下,bootstrap抽样能够无偏得接近总体的分布。
本发明较佳实施例中,所述构建随机森林模型的方法主要包含三个步骤:
(1)利用上一步的bootstrap采样方法为每棵决策树抽样产生训练集;
(2)根据所述训练集,利用ID3算法构建决策树,如下所示:
Gain(D)=infobefore(D)-infoafter(D)
其中Gain(D)为决策树节点信息增益,infobefore(D)和infoafter(D)分别为添加/摘除该节点情况下的信息熵。
(3)按照第(2)步的方法不断重复构建了第k棵决策树后,建立k个决策树的组合,以得到随机森林模型。
当有待分类的样本输入随机森林后,其输出结果就按照这k个决策树各自的输出结果进行投票,最终票数多的分类结果视为随机森林的输出结果。
信用评估模型如果仅仅采用随机森林模型,也会有一些明显的缺点,主要集中在模型内部逻辑比较复杂,单棵决策树和整个随机森林模型的生成过程基本上是一个“黑箱”,建模指标的可解释性和易读性也不强,不利于直观展示和解释各个变量的风险特性。通过引入logistic模型可以有效解决上述问题。
首先利用随机森林模型中的决策树进行单变量分析并生成二元决策树变量,然后将随机森林模型的输出结果(单变量、交叉变量及二元决策树变量)一同导入Logistic回归模型中进行统计建模,确定所有风险因子的风险权重,从而克服单独使用随机森林模型的缺点,发挥二者的优势,建立一个适用于大数据环境下的信用评分模型。
S3、本发明较佳实施例中,上述步骤S2可以重复执行N次,以得到N个所述单个信用评估模型。
S4、汇总所述N个单个信用评估模型,进行集成学习,生成一个评估精度高的集成信用评估模型。
集成学习的基本思想是在学习多个分类器的基础上,对分类器进行有效组合,生成组合分类器或者强分类器。如果训练集上数据分布发生较小变化,分类器预测结果却发生显著变化时,这种分类器是非常不稳定的,而通过集成学习可以有效提升不稳定算法的分类性能。通过集成学习后生成的最终分类器,从性能上看,高于组成它的各个基分类器的性能,同时也高于这些基分类器中分类效果最好的那个分类器。本发明较佳实施例中,将基于随机森林模型和logistic回归相结合生成的信用评估模型作为单个分类器。
本发明基于步骤S2生成的多个信用评估模型,将所述N个信用评估模型进行整合,利用Adaboost算法生成一个评估精度高的集成信用评估模型。
所述Adaboost算法是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器),其公式为:
其中wt为第t个信用评估模型的权重,ht(x)为第t个信用评估模型的评估结果,N为单个信用评估模型的数量。
通过上算可以有效整合N个单个信用评估模型的评估结果,实现对用户信用度的精确评估。
S5、获取待评估信用度的用户的数据,将所述用户的数据带入所述整合以后得到的评估精度高的集成信用评估模型,得到所述用户的信用度。
本发明还提供一种基于大数据的用户信用度评估装置。参照图2所示,为本发明一实施例提供的基于大数据的用户信用度评估装置的内部结构示意图。
在本实施例中,基于大数据的用户信用度评估装置1可以是PC(PersonalComputer,个人电脑),也可以是智能手机、平板电脑、便携计算机等终端设备。该基于大数据的用户信用度评估装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是基于大数据的用户信用度评估装置1的内部存储单元,例如该基于大数据的用户信用度评估装置1的硬盘。存储器11在另一些实施例中也可以是基于大数据的用户信用度评估装置1的外部存储设备,例如基于大数据的用户信用度评估装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括基于大数据的用户信用度评估装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于基于大数据的用户信用度评估装置1的应用软件及各类数据,例如基于大数据的用户信用度评估程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行基于大数据的用户信用度评估程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在基于大数据的用户信用度评估装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及基于大数据的用户信用度评估程序01的基于大数据的用户信用度评估装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对基于大数据的用户信用度评估装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有基于大数据的用户信用度评估程序01;处理器12执行存储器11中存储的基于大数据的用户信用度评估程序01时实现如下步骤:
步骤一、收集用户数据,对所述用户数据进行处理及存储,构建基于大数据的用户画像。
本发明所述用户数据来源于互联网,所有与用户相关的数据都可以被收集进来。本发明较佳实施例中,所述用户数据包括为静态信息数据和动态信息数据两大类。所述静态信息数据主要包括性别、年龄、地域、职业、婚姻状况等人口基本属性,以及消费金额、消费周期、消费等级等商业信息,还有其他一些相对稳定的信息数据。构建用户画像时,静态信息数据自成标签,不需要进行建模操作,主要是对数据进行整理和清洗等。
所述动态信息数据主要是用户在互联网上的操作行为等不断发生变化的信息。比如浏览电子商务网站的网页,进入某个具体商品频道的列表,搜索某一品牌的电器、衣服等商品,对某一商品的具体质量等的评论,对商家信誉进行的反馈,转发一些商家的微博消息等,都可看作动态信息数据。
本发明较佳实施例对采集的用户数据进行预处理后,形成用户画像。对所述用户数据进行预处理是由于不同来源的数据量纲的不同,以及数值范围的不同,需要将不同量纲的数据规约到同一水平线上,否则就会导致某些因素的影响过大,进而会影响评估结果。
本发明较佳实施例中,对所述用户数据进行预处理包括数据的归一化以及基于主成分分析的数据降维处理。
所述数据的归一化是将数据按比例缩放,使之落入一个小的特定区间。由于特征向量中的各个特征度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。目前常用的归一化处理方法是z-score归一化方法,其核心思想如下所示:
x=(x-μ)/σ,
其中x为采集的原始数据,μ为样本数据均值,σ为样本数据方差。
所述主成分分析(principal components analysis,简称PCA),是一种用于探索高维数据结构的技术。在特征提取与处理时,涉及高维特征向量的问题往往容易陷入维度灾难和特征关联性强的问题。随着数据集维度的增加,算法学习需要的样本数量呈指数级增加。有些应用中,遇到这样的大数据是非常不利的,而且从大数据集中学习需要更多的内存和处理能力。另外,随着维度的增加,数据的稀疏性会越来越高。在高维向量空间中探索同样的数据集比在同样稀疏的数据集中探索更加困难。PCA通常用于高维数据集的探索与可视化。还可以用于数据压缩,数据预处理等。PCA也可以把可能具有相关性的高维变量合成线性无关的低维变量,称为主成分。新的低维数据集会尽可能的保留原始数据的变量。PCA将数据投射到一个低维子空间实现降维。例如,二维数据集降维就是把点投射成一条线,数据集的每个样本都可以用一个值表示,不需要两个值。三维数据集可以降成二维,就是把变量映射成一个平面。一般情况下,高维相关数据可以通过映射降成低维非相关数据。
步骤二、基于Bootstrap采样方法从所述用户画像中进行数据抽样,构建随机森林模型,并将所述随机森林模型与logistic回归模型进行组合,生成大数据环境下的单个信用评估模型。
所述Bootstrap是非参数统计中一种重要的估计统计量变异性,并可进行统计量区间估计的统计方法,也称为自助法。其核心思想和基本步骤如下:(1)采用重复抽样技术从原始样本中抽取一定数量(可自己给定,一般与原始样本相同)的样本,此过程允许重复抽样;(2)根据抽出的样本计算待估计的统计量T;(3)重复上述N次(一般大于1000),得到N个统计量T;(4)计算上述N个统计量T的样本方差,以此估计统计量T的方差。
Bootstrap采样能够在不需要进行假设分布或者增加新的样本信息的前提下,根据给定的原始样本信息复制观测信息,实现对总体分布特征进行统计和推断的非参数统计方法,以生成一系列bootstrap伪样本,每个样本是初始数据的有放回抽样。通过对伪样本的计算,获得统计量的分布。例如,要进行1000次bootstrap,求平均值的置信区间,可以对每个伪样本计算平均值。这样就获得了1000个平均值。对着1000个平均值的分位数进行计算,即可获得置信区间。已经证明,在初始样本足够大的情况下,bootstrap抽样能够无偏得接近总体的分布。
本发明较佳实施例中,所述构建随机森林模型的方法主要包含三个步骤:
(1)利用上一步的bootstrap采样方法为每棵决策树抽样产生训练集;
(2)根据所述训练集,利用ID3算法构建决策树,如下所示:
Gain(D)=infobefore(D)-infoafter(D)
其中Gain(D)为决策树节点信息增益,infobefore(D)和infoafter(D)分别为添加/摘除该节点情况下的信息熵。
(3)按照第(2)步的方法不断重复构建了第k棵决策树后,建立k个决策树的组合,以得到随机森林模型。
当有待分类的样本输入随机森林后,其输出结果就按照这k个决策树各自的输出结果进行投票,最终票数多的分类结果视为随机森林的输出结果。
信用评估模型如果仅仅采用随机森林模型,也会有一些明显的缺点,主要集中在模型内部逻辑比较复杂,单棵决策树和整个随机森林模型的生成过程基本上是一个“黑箱”,建模指标的可解释性和易读性也不强,不利于直观展示和解释各个变量的风险特性。通过引入logistic模型可以有效解决上述问题。
首先利用随机森林模型中的决策树进行单变量分析并生成二元决策树变量,然后将随机森林模型的输出结果(单变量、交叉变量及二元决策树变量)一同导入Logistic回归模型中进行统计建模,确定所有风险因子的风险权重,从而克服单独使用随机森林模型的缺点,发挥二者的优势,建立一个适用于大数据环境下的信用评分模型。
步骤三、本发明较佳实施例中,上述步骤二可以重复执行N次,以得到N个所述单个信用评估模型。
步骤四、汇总所述N个单个信用评估模型,进行集成学习,生成一个评估精度高的集成信用评估模型。
集成学习的基本思想是在学习多个分类器的基础上,对分类器进行有效组合,生成组合分类器或者强分类器。如果训练集上数据分布发生较小变化,分类器预测结果却发生显著变化时,这种分类器是非常不稳定的,而通过集成学习可以有效提升不稳定算法的分类性能。通过集成学习后生成的最终分类器,从性能上看,高于组成它的各个基分类器的性能,同时也高于这些基分类器中分类效果最好的那个分类器。本发明较佳实施例中,将基于随机森林模型和logistic回归相结合生成的信用评估模型作为单个分类器。
本发明基于步骤S2生成的多个信用评估模型,将所述N个信用评估模型进行整合,利用Adaboost算法生成一个评估精度高的集成信用评估模型。
所述Adaboost算法是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器),其公式为:
其中wt为第t个信用评估模型的权重,ht(x)为第t个信用评估模型的评估结果,N为单个信用评估模型的数量。
通过上算可以有效整合N个单个信用评估模型的评估结果,实现对用户信用度的精确评估。
步骤五、获取待评估信用度的用户的数据,将所述用户的数据带入所述整合以后得到的评估精度高的集成信用评估模型,得到所述用户的信用度。
可选地,在其他实施例中,基于大数据的用户信用度评估程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述基于大数据的用户信用度评估程序在基于大数据的用户信用度评估装置中的执行过程。
例如,参照图3所示,为本发明基于大数据的用户信用度评估装置一实施例中的基于大数据的用户信用度评估程序的程序模块示意图,该实施例中,基于大数据的用户信用度评估程序可以被分割为数据收集模块10、单个信用评估模型生成模块20、集成学习模块30、信用度评估模块40,示例性地:
数据收集模块10用于:收集用户数据,对所述用户数据进行处理及存储,构建基于大数据的用户画像。
可选地,所述用户数据来源于互联网,包括静态信息数据和动态信息数据,其中:
所述静态信息数据包括用户的基本属性和商业信息,所述基本属性包括性别、年龄、地域、职业、婚姻状况,以及所述商业信息包括用户每次的消费金额、消费周期、消费等级;
所述动态信息数据包括用户在互联网上的不断发生变化的操作行为,包括每次浏览的网页、搜索的商品、对商品的评价、对商家的信誉反馈、转发的商家信息。
可选地,所述对所述用户数据进行处理包括对所述用户数据的归一化以及基于主成分分析的数据降维处理。
单个信用评估模型生成模块20用于:基于Bootstrap采样方法从所述用户画像中进行数据抽样,构建随机森林模型,并将所述随机森林模型与logistic回归模型进行组合,生成大数据环境下的N个单个信用评估模型。
可选地,所述构建随机森林模型的方法包括:
(1)利用所述bootstrap采样方法产生训练集;
(2)根据所述训练集,利用ID3算法构建决策树,如下所示:
Gain(D)=infobefore(D)-infoafter(D)
其中,Gain(D)为决策树节点信息增益,infobefore(D)和infoafter(D)分别为添加/摘除该节点情况下的信息熵;
(3)按照第(2)步的方法不断重复构建了第k棵决策树后,建立k个决策树的组合,以得到随机森林模型。
集成学习模块30用于:汇总所有上述单个信用评估模型,进行集成学习,生成一个集成信用评估模型。
可选地,所述集成学习包括,利用Adaboost算法生成所述集成信用评估模型,其中,所述Adaboost算法的公式为:
其中,wt为第t个信用评估模型的权重,ht(x)为第t个信用评估模型的评估结果,N为单个信用评估模型的数量。
信用度评估模块40用于:获取待评估信用度的用户的数据,将所述用户的数据带入所述集成信用评估模型,得到所述用户的信用度。
上述数据收集模块10、单个信用评估模型生成模块20、集成学习模块30、信用度评估模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于大数据的用户信用度评估程序,所述基于大数据的用户信用度评估程序可被一个或多个处理器执行,以实现如下操作:
收集用户数据,对所述用户数据进行处理及存储,构建基于大数据的用户画像;
基于Bootstrap采样方法从所述用户画像中进行数据抽样,构建随机森林模型,并将所述随机森林模型与logistic回归模型进行组合,生成大数据环境下的单个信用评估模型;
重复执行上述的单个信用评估模型生成步骤N次,以得到N个所述单个信用评估模型;
汇总所有上述单个信用评估模型,进行集成学习,生成一个集成信用评估模型;
获取待评估信用度的用户的数据,将所述用户的数据带入所述集成信用评估模型,得到所述用户的信用度。
本发明计算机可读存储介质具体实施方式与上述基于大数据的用户信用度评估装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于大数据的用户信用度评估方法,其特征在于,所述方法包括:
基于Bootstrap采样方法从预先构建的用户画像中进行数据抽样,构建随机森林模型,并将所述随机森林模型与logistic回归模型进行组合,生成大数据环境下的单个信用评估模型,其中所述用户画像是通过预设类型的用户数据进行构建的,所述预设类型的用户数据来源于互联网,包括静态信息数据和动态信息数据,其中:
所述静态信息数据包括用户的基本属性和商业信息,所述基本属性包括性别、年龄、地域、职业、婚姻状况,以及所述商业信息包括用户每次的消费金额、消费周期、消费等级;
所述动态信息数据包括用户在互联网上的不断发生变化的操作行为,包括每次浏览的网页、搜索的商品、对商品的评价、对商家的信誉反馈、转发的商家信息;
重复执行上述步骤N次,以得到N个所述单个信用评估模型,其中,N为大于1的正整数;
汇总所有上述单个信用评估模型,进行集成学习,生成一个集成信用评估模型;
获取待评估信用度的用户的数据,将所述用户的数据带入所述集成信用评估模型,得到所述用户的信用度。
2.如权利要求1所述的基于大数据的用户信用度评估方法,其特征在于,该方法还包括在构建所述用户画像时,对所述预设类型的用户数据进行处理,其中,所述处理包括对所述用户数据的归一化以及基于主成分分析的数据降维处理。
3.如权利要求2所述的基于大数据的用户信用度评估方法,其特征在于,所述归一化处理采用z-score归一化方法,其公式如下:
x=(x-μ)/σ,
其中,x为采集的原始预设类型的用户数据,μ为样本数据均值,σ为样本数据方差。
4.如权利要求1至3中任意一项所述的基于大数据的用户信用度评估方法,其特征在于,所述构建随机森林模型的方法包括:
(1)利用所述Bootstrap采样方法产生训练集;
(2)根据所述训练集,利用ID3算法构建决策树,如下所示:
Gain(D)=infobefore(D)-infoafter(D)
其中,Gain(D)为决策树节点信息增益,infobefore(D)和infoafter(D)分别为添加/摘除该节点情况下的信息熵;
(3)按照第(2)步的方法不断重复构建了第k棵决策树后,建立k个决策树的组合,以得到随机森林模型。
5.如权利要求4所述的基于大数据的用户信用度评估方法,其特征在于,所述集成学习步骤包括,利用Adaboost算法生成所述集成信用评估模型,其中,所述Adaboost算法的公式为:
其中,wt为第t个信用评估模型的权重,ht(x)为第t个信用评估模型的评估结果,N为单个信用评估模型的数量。
6.一种基于大数据的用户信用度评估装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的基于大数据的用户信用度评估程序,所述基于大数据的用户信用度评估程序被所述处理器执行时实现如下步骤:
基于Bootstrap采样方法从预先构建的用户画像中进行数据抽样,构建随机森林模型,并将所述随机森林模型与logistic回归模型进行组合,生成大数据环境下的单个信用评估模型,其中所述用户画像是通过预设类型的用户数据进行构建的,所述预设类型的用户数据来源于互联网,包括静态信息数据和动态信息数据,其中:
所述静态信息数据包括用户的基本属性和商业信息,所述基本属性包括性别、年龄、地域、职业、婚姻状况,以及所述商业信息包括用户每次的消费金额、消费周期、消费等级;
所述动态信息数据包括用户在互联网上的不断发生变化的操作行为,包括每次浏览的网页、搜索的商品、对商品的评价、对商家的信誉反馈、转发的商家信息;
重复执行上述的步骤N次,以得到N个所述单个信用评估模型,其中,N为大于1的正整数;
汇总所有上述单个信用评估模型,进行集成学习,生成一个集成信用评估模型;
获取待评估信用度的用户的数据,将所述用户的数据带入所述集成信用评估模型,得到所述用户的信用度。
7.如权利要求6所述的基于大数据的用户信用度评估装置,其特征在于,该方法还包括在构建所述用户画像时,对所述预设类型的用户数据进行处理,其中,所述处理包括对所述用户数据的归一化以及基于主成分分析的数据降维处理。
8.如权利要求6或7所述的基于大数据的用户信用度评估装置,其特征在于,所述构建随机森林模型的方法包括:
(1)利用所述Bootstrap采样方法产生训练集;
(2)根据所述训练集,利用ID3算法构建决策树,如下所示:
Gain(D)=infobefore(D)-infoafter(D)
其中,Gain(D)为决策树节点信息增益,infobefore(D)和infoafter(D)分别为添加/摘除该节点情况下的信息熵;
(3)按照第(2)步的方法不断重复构建了第k棵决策树后,建立k个决策树的组合,以得到随机森林模型。
9.如权利要求8所述的基于大数据的用户信用度评估装置,其特征在于,所述集成学习步骤包括,利用Adaboost算法生成所述集成信用评估模型,其中,所述Adaboost算法的公式为:
其中,wt为第t个信用评估模型的权重,ht(x)为第t个信用评估模型的评估结果,N为单个信用评估模型的数量。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于大数据的用户信用度评估程序,所述基于大数据的用户信用度评估程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的基于大数据的用户信用度评估方法的步骤。
CN201910654699.6A 2019-07-19 2019-07-19 基于大数据的用户信用度评估方法、装置及存储介质 Active CN110503459B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910654699.6A CN110503459B (zh) 2019-07-19 2019-07-19 基于大数据的用户信用度评估方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910654699.6A CN110503459B (zh) 2019-07-19 2019-07-19 基于大数据的用户信用度评估方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110503459A CN110503459A (zh) 2019-11-26
CN110503459B true CN110503459B (zh) 2023-09-15

Family

ID=68586219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910654699.6A Active CN110503459B (zh) 2019-07-19 2019-07-19 基于大数据的用户信用度评估方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110503459B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242191A (zh) * 2020-01-06 2020-06-05 中国建设银行股份有限公司 基于多分类器集成的信用评级方法及装置
CN111291896B (zh) * 2020-02-03 2022-02-01 深圳前海微众银行股份有限公司 交互式随机森林子树筛选方法、装置、设备及可读介质
CN111401427B (zh) * 2020-03-12 2022-11-08 华中科技大学 一种基于工业大数据的产品成本评估方法及系统
CN111651440A (zh) * 2020-04-30 2020-09-11 深圳壹账通智能科技有限公司 用户信息判别方法、装置及计算机可读存储介质
CN112862298B (zh) * 2020-07-09 2024-02-27 北京睿知图远科技有限公司 一种针对用户画像的信用评估方法
CN111815439B (zh) * 2020-07-23 2021-05-18 睿智合创(北京)科技有限公司 一种基于云平台的信用评分系统
CN113052693B (zh) * 2021-06-02 2021-09-24 北京轻松筹信息技术有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN113313470B (zh) * 2021-06-10 2023-06-09 郑州科技学院 一种基于大数据的就业类型评估方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101482925A (zh) * 2009-01-16 2009-07-15 西安电子科技大学 基于局部嵌入式隐马尔可夫模型的照片生成方法
CN104517274A (zh) * 2014-12-25 2015-04-15 西安电子科技大学 基于贪婪搜索的人脸画像合成方法
CN107423442A (zh) * 2017-08-07 2017-12-01 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备
CN108665159A (zh) * 2018-05-09 2018-10-16 深圳壹账通智能科技有限公司 一种风险评估方法、装置、终端设备及存储介质
CN109603159A (zh) * 2018-12-18 2019-04-12 网易(杭州)网络有限公司 匹配游戏玩家的方法、装置及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101482925A (zh) * 2009-01-16 2009-07-15 西安电子科技大学 基于局部嵌入式隐马尔可夫模型的照片生成方法
CN104517274A (zh) * 2014-12-25 2015-04-15 西安电子科技大学 基于贪婪搜索的人脸画像合成方法
CN107423442A (zh) * 2017-08-07 2017-12-01 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备
CN108665159A (zh) * 2018-05-09 2018-10-16 深圳壹账通智能科技有限公司 一种风险评估方法、装置、终端设备及存储介质
CN109603159A (zh) * 2018-12-18 2019-04-12 网易(杭州)网络有限公司 匹配游戏玩家的方法、装置及系统

Also Published As

Publication number Publication date
CN110503459A (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
CN110503459B (zh) 基于大数据的用户信用度评估方法、装置及存储介质
CN110866181B (zh) 资源推荐的方法、装置及存储介质
US20210191509A1 (en) Information recommendation method, device and storage medium
US20120265772A1 (en) Media tag recommendation technologies
CN111723292B (zh) 基于图神经网络的推荐方法、系统、电子设备及存储介质
CN112085565B (zh) 基于深度学习的信息推荐方法、装置、设备及存储介质
WO2019061664A1 (zh) 电子装置、基于用户上网数据的产品推荐方法及存储介质
CN112380344B (zh) 文本分类的方法、话题生成的方法、装置、设备及介质
CN111651678B (zh) 一种基于知识图谱的个性化推荐方法
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
Xu et al. Efficient summarization framework for multi-attribute uncertain data
Lv et al. A probabilistic collaborative dictionary learning‐based approach for face recognition
Huang et al. Unsupervised nonlinear feature selection from high-dimensional signed networks
CN113468421A (zh) 基于向量匹配技术的产品推荐方法、装置、设备及介质
CN113327132A (zh) 多媒体推荐方法、装置、设备及存储介质
Parker et al. Nonlinear time series classification using bispectrum‐based deep convolutional neural networks
CN112632275B (zh) 基于个人文本信息的人群聚类数据处理方法、装置及设备
CN115204971A (zh) 产品推荐方法、装置、电子设备及计算机可读存储介质
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN113886697A (zh) 基于聚类算法的活动推荐方法、装置、设备及存储介质
CN112836754A (zh) 一种面向图像描述模型泛化能力评估方法
Pankaja et al. A hybrid approach combining CUR matrix decomposition and weighted kernel sparse representation for plant leaf recognition
CN111046786A (zh) 年龄估计神经网络的生成方法、装置以及电子设备
CN113868438B (zh) 信息可信度的校准方法、装置、计算机设备及存储介质
CN116226260B (zh) 一种大数据决策方法、系统及云端服务中心

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant