CN107633453A - 一种基于社交数据的征信值计算方法及系统 - Google Patents
一种基于社交数据的征信值计算方法及系统 Download PDFInfo
- Publication number
- CN107633453A CN107633453A CN201710690142.9A CN201710690142A CN107633453A CN 107633453 A CN107633453 A CN 107633453A CN 201710690142 A CN201710690142 A CN 201710690142A CN 107633453 A CN107633453 A CN 107633453A
- Authority
- CN
- China
- Prior art keywords
- user
- reference value
- data
- social
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明公开了一种基于社交数据的征信值计算方法,包括获取用户社交数据,基于社交数据计算用户征信值。提供了一种基于社交数据的征信值计算方法,可基于用户的社交数据计算用户的征信值,能够快速为官方征信记录缺失的人群建立征信。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于社交数据的征信值计算方法及系统。
背景技术
据人民银行行长助理杨子强接受媒体采访时表示,截止2015年底,央行征信系统收录了8.8亿人自然人,但其中只有3.8亿人有信贷记录,这也就意味着另外5亿人在央行只有基本信息而没有可量度信用的征信值。这5亿人中包括了许多农民工、学生、个体户由于没有信贷记录而未被赋予征信值。
因此,如何为官方征信记录缺失的人群快速构建征信,成为了本领域技术人员亟需解决的问题。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种基于社交数据的征信值计算方法,基于用户的社交数据计算用户的征信值,能够快速为官方征信记录缺失的人群建立征信。
本发明的目的采用以下技术方案实现:
一种基于社交数据的征信值计算方法,包括:
获取用户社交数据;
基于所述社交数据计算用户征信值。
优选地,所述基于所述社交数据计算用户征信值包括:
基于所述社交数据生成关系链数据;
基于所述关系链数据计算所述用户征信值。
优选地,所述基于所述社交数据计算用户征信值包括:
基于所述社交数据生成用户活动数据;
基于所述用户活动数据生成用户属性标签;
基于所述用户属性标签计算所述用户征信值。
优选地,所述基于所述社交数据计算用户征信值包括:
基于所述社交数据生成关系链数据;
基于所述关系连数据计算关系链征信值;
基于所述社交数据生成用户活动数据;
基于所述用户活动数据生成用户属性标签;
基于所述用户属性标签计算属性征信值;
基于所述关系链征信值及所述属性征信值计算所述用户征信值。
优选地,所述基于所述用户属性标签计算属性征信值包括:
构建信用评分量表;
基于所述信用评分量表量度所述用户属性标签,生成所述属性征信值。
一种基于社交数据的征信值计算系统,包括:
数据采集模块,所述数据采集模块用于获取用户社交数据;
征信值计算模块,所述征信值计算模块用于基于所述社交数据计算用户征信值。
优选地,所述征信值计算模块包括关系链分析单元及征信值计算单元,其中:
所述关系链分析单元用于基于所述社交数据生成关系链数据;
所述征信值计算单元用于基于所述关系链数据计算所述用户征信值。
优选地,所述征信值计算模块包括活动数据提取单元、属性标签生成单元及征信值计算单元,其中:
所述活动数据提取单元用于,基于所述社交数据生成用户活动数据;
所述属性标签生成单元用于基于所述用户活动数据生成用户属性标签;
所述征信值计算单元用于基于所述用户属性标签计算所述用户征信值。
优选地,所述征信值计算模块包括关系链分析单元、活动数据提取单元、属性标签生成单元、关系链征信值计算单元、属性征信值计算单元及综合征信值计算单元,其中:
所述关系链分析单元用于基于所述社交数据生成关系链数据;
所述关系链征信值计算单元用于基于所述关系连数据计算关系链征信值;
所述活动数据提取单元用于基于所述社交数据生成用户活动数据;
所述属性标签生成单元用于基于所述用户活动数据生成用户属性标签;
所述属性征信值计算单元用于基于所述用户属性标签计算属性征信值;
所述综合征信值计算单元用于基于所述关系链征信值及所述属性征信值计算所述用户征信值。
优选地,所述属性征信值计算单元包括量表构建子单元及计算子单元,其中:
所述量表构建子单元用于构建信用评分量表;
所述计算子单元用于基于所述信用评分量表量度所述用户属性标签,生成所述属性征信值。
综上所述,本发明公开了一种基于社交数据的征信值计算方法,包括获取用户社交数据,基于社交数据计算用户征信值。提供了一种基于社交数据的征信值计算方法,可基于用户的社交数据计算用户的征信值,能够快速为官方征信记录缺失的人群建立征信。
附图说明
图1为本发明公开的一种基于社交数据的征信值计算方法实施例1的流程图;
图2为本发明公开的一种基于社交数据的征信值计算方法实施例2的流程图;
图3为本发明公开的一种基于社交数据的征信值计算方法实施例3的流程图;
图4为本发明公开的一种基于社交数据的征信值计算方法实施例4的结构示意图;
图5为本发明公开的一种基于社交数据的征信值计算系统实施例1的结构示意图;
图6为本发明在一种基于社交数据的征信值计算系统实施例2的结构示意图;
图7为本发明在一种基于社交数据的征信值计算系统实施例3的结构示意图;
图8为本发明在一种基于社交数据的征信值计算系统实施例4的结构示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述:
如图1所示,为本发明公开的一种基于社交数据的征信值计算方法实施例1的流程图,包括:
S101、获取用户社交数据;
互联网社交近十年来的迅猛发展和用户的大规模普及,在互联网社交平台上已沉淀了的大量社交数据,经过大数据处理和进一步挖掘,可应用于许多生活消费场景和金融场景。可直接在互联网上对用户进行检索,从而获得用户的社交数据,也可在专用的数据库中检索用户的社交信息。获取自有社交平台上的数据,与其他社交平台合作获得的数据,从第三方数据服务公司或机构购买互联网公开数据,均可为数据库获取数据的方式。
S102、基于社交数据计算用户征信值;
由于社交数据中包括了用户的身份信息、人际关系信息及用户的活动信息,由这些信息可以对用户的征信值进行评分。
综上,本发明公开了一种基于社交数据的征信值计算方法,包括获取用户社交数据,基于社交数据计算用户征信值。提供了一种基于社交数据的征信值计算方法,可基于用户的社交数据计算用户的征信值,能够快速为官方征信记录缺失的人群建立征信。
如图2所示,为本发明公开的一种基于社交数据的征信值计算方法实施例2的流程图,包括:
S201、获取用户社交数据;
互联网社交近十年来的迅猛发展和用户的大规模普及,在互联网社交平台上已沉淀了的大量社交数据,经过大数据处理和进一步挖掘,可应用于许多生活消费场景和金融场景。可直接在互联网上对用户进行检索,从而获得用户的社交数据,也可在专用的数据库中检索用户的社交信息。获取自有社交平台上的数据,与其他社交平台合作获得的数据,从第三方数据服务公司或机构购买互联网公开数据,均可为数据库获取数据的方式。
S202、基于社交数据生成关系链数据;
关系链数据包括关注需要计算征信值的用户的人的数量和这些人的征信值,及需要计算征信值的用户关注的人的数量和这些人的征信值,这些信息均可以在用户的社交数据中找到。
S203、基于关系链数据计算用户征信值;
使用社区征信PageRank算法可通过在用户的社交网络上的其他人征信来预测用户的征信值,用户的社交网络中,拥有的高征信值的人越多,则该用户的征信值则可能获得越高的估值,同时,其拥有的低征信值人越多,则该用户的征信值则可能获得越低的估值。该算法的特点在于,把社交网络中的每个人作为一个节点,根据每个节点的信用度和联结关系映射出每个节点的预测信用度,其原理类似谷歌的PageRank对每个网页的价值计算原理:被越多好的节点(人/网页)主动链向的节点(人/网页),其价值越高。其用公式表达可为:
其中,PR为征信值,pi为需要计算征信值的用户,pj为主动与pi关联的人(关注需要计算征信值的用户的人),M(pi)为pi所有关联的人的集合,L为用户主动关联的人数(用户关注的人的数量),d(0<d≤1)为阻尼因子,N为M(pi)中的人的数量。在本实施例中PR(pi)即为用户征信值。
在本实施例中,使用用户的社交数据中的关系链计算用户的征信值,充分考虑了用户的社会关系价值,体现了用户的信用层次。实现了基于用户的社交数据计算用户的征信值,能够快速为官方征信记录缺失的人群建立征信。
如图3所示,为本发明公开的一种基于社交数据的征信值计算方法实施例3的流程图,包括:
S301、获取用户社交数据;
互联网社交近十年来的迅猛发展和用户的大规模普及,在互联网社交平台上已沉淀了的大量社交数据,经过大数据处理和进一步挖掘,可应用于许多生活消费场景和金融场景。可直接在互联网上对用户进行检索,从而获得用户的社交数据,也可在专用的数据库中检索用户的社交信息。获取自有社交平台上的数据,与其他社交平台合作获得的数据,从第三方数据服务公司或机构购买互联网公开数据,均可为数据库获取数据的方式。
S302、基于社交数据生成用户活动数据;
用户活动数据包括用户在社交网络上发布的内容与参与互动的内容,包括但不限于文字、位置信息,以及图片、视频等多媒体信息。
S303、基于用户活动数据生成用户属性标签;
对用户活动数据进行文本挖掘,具体方式可为通过构造TFIDF特征来描述各个类别人群高频关注的关键词。如用户经常发布或关注包含“上课”、“挂科”、“四级”、“实习”这些关键词或标签的内容,其职业可能为学生;经常发布或关注包含“色号”、“月子”、“育儿”这些关键词或标签的内容,性别可能为女性。
进一步地,通过标签传播算法(LPA),可将用户的各个属性进行扩散,对其他用户的属性进行定义。如在用户的社交网络中,每个用户为网络中的一个节点,已知其中一些节点的职业标签,每个节点使用其邻居节点的标签中最多的标签来更新该节点自身的标签,并反复执行这个标签更新过程,直到每个节点的标签都不再变化为止。从而可通过标签的扩散传播获得职业标签的社区结构,对用户的职业进行预测。
另外,作为补充,可通过用户在社交网络上存储的位置信息,包括用户地理位置的定位、变化、频次等,进行分析挖掘用户的属性。比如在A用户的定位中,造访加油站的频次较高,造访时长每次都在5-30分钟,且呈现出周期性的特点,那么,可以初步判断该用户是市场需要驾车的用户,而B用户的定位信息显示,其造访加油站的频次更高,达到了1-2天一次,那么,可以初步判断该用户从事的是司机的职业,加上上述对用户发布和参与内容的文本挖掘,可提高这些属性预测的准确性。
通过挖掘到的这些信息,可以可进一步获得用户的属性标签,如:年龄、职位、工作地域、工作地点、家庭地点、消费能力等。
S304、基于用户属性标签计算用户征信值。
基于用户的属性标签,可以计算用户的征信值,例如对不同种类的属性标签进行分别评分,并赋予不同种类的属性标签权重,最终计算出用户的征信值。
在本实施例中,使用用户属性标签,体现了用户本身所具有的特质,及这种特质所对应的信用度。实现了基于用户的社交数据计算用户的征信值,能够快速为官方征信记录缺失的人群建立征信。
在本实施例中,基于用户属性标签计算用户征信值的具体方式可为:
构建信用评分量表;
引用评分量表可直接使用银行现有的信用评分卡作为量表,或根据已有履约/违约记录的用户社交数据进行训练,拟合回归用户属性标签关联的信用表现,将回归系数转化为信用评分量表,来对用户的属性征信值进行量度和计算。
如果使用已有履约/违约记录的用户社交数据进行训练得出量表,则对前述数据进行训练,使用Logistic回归算法建立信用预测模型,通过将用户属性标签的变量导入模型,获得拟合系数,Logistic回归的模型形式为:logit(p)=α0+α1X1+…+αkXk。其中p为违约用户出现的概率,α0为回归方程的常数项,X1、X2、…、Xk为输入的用户属性标签变量,α1、…、αk为本组变量的回归系数。
获得用户属性标签的回归系数,后可通过公式换算获得各个用户属性标签的评分值,所有评分值构成信用评分量表。用户属性标签评分值的计算公式为:
Score(i)=Offset/n-Factor*(α0/n+αi*woe)
其中,Score(i)为指定测量的变量/变量分箱对应的评分值,n为输入变量的数量,α0为前述回归方程的常数项,αi为变量i的回归系数,woe为变量分箱的证据权重值(WeightofEvidence),woe=ln(无违约用户/违约用户)*100,Offset=Score-Factor*ln(odds),Factor=pdo/ln(2)。再:优比odds为某个分值(Score)下无违约用户与违约用户的比例,pdo为odds增加1倍需要增加的评分值,Score和pdo两者均为人为赋予分值。
基于信用评分量表量度用户属性标签,生成属性征信值。
如图4所示,为本发明公开的一种基于社交数据的征信值计算方法实施例4的流程图,包括:
S401、获取用户社交数据;
互联网社交近十年来的迅猛发展和用户的大规模普及,在互联网社交平台上已沉淀了的大量社交数据,经过大数据处理和进一步挖掘,可应用于许多生活消费场景和金融场景。可直接在互联网上对用户进行检索,从而获得用户的社交数据,也可在专用的数据库中检索用户的社交信息。获取自有社交平台上的数据,与其他社交平台合作获得的数据,从第三方数据服务公司或机构购买互联网公开数据,均可为数据库获取数据的方式
S402、基于社交数据生成关系链数据;
关系链数据包括关注需要计算征信值的用户的人的数量和这些人的征信值,及需要计算征信值的用户关注的人的数量和这些人的征信值,这些信息均可以在用户的社交数据中找到。
S403、基于关系连数据计算关系链征信值;
使用社区征信PageRank算法可通过在用户的社交网络上的其他人征信来预测用户的关系链征信值,用户的社交网络中,拥有的高征信值的人越多,则该用户的关系链征信值则可能获得越高的估值,同时,其拥有的低征信值人越多,则该用户的关系链征信值则可能获得越低的估值。该算法的特点在于,把社交网络中的每个人作为一个节点,根据每个节点的信用度和联结关系映射出每个节点的预测信用度,其原理类似谷歌的PageRank对每个网页的价值计算原理:被越多好的节点(人/网页)主动链向的节点(人/网页),其价值越高。其用公式表达可为:
其中,PR为征信值,pi为需要计算征信值的用户,pj为主动与pi关联的人(关注需要计算征信值的用户的人),M(pi)为pi所有关联的人的集合,L为用户主动关联的人数(用户关注的人的数量),d(0<d≤1)为阻尼因子,N为M(pi)中的人的数量。在本实施例中PR(pi)即为用户的关系链征信值。
S404、基于社交数据生成用户活动数据;
用户活动数据包括用户在社交网络上发布的内容与参与互动的内容,包括但不限于文字、位置信息,以及图片、视频等多媒体信息。
S405、基于用户活动数据生成用户属性标签;
对用户活动数据进行文本挖掘,具体方式可为通过构造TFIDF特征来描述各个类别人群高频关注的关键词。如用户经常发布或关注包含“上课”、“挂科”、“四级”、“实习”这些关键词或标签的内容,其职业可能为学生;经常发布或关注包含“色号”、“月子”、“育儿”这些关键词或标签的内容,性别可能为女性。
进一步地,通过标签传播算法(LPA),可将用户的各个属性进行扩散,对其他用户的属性进行定义。如在用户的社交网络中,每个用户为网络中的一个节点,已知其中一些节点的职业标签,每个节点使用其邻居节点的标签中最多的标签来更新该节点自身的标签,并反复执行这个标签更新过程,直到每个节点的标签都不再变化为止。从而可通过标签的扩散传播获得职业标签的社区结构,对用户的职业进行预测。
另外,作为补充,可通过用户在社交网络上存储的位置信息,包括用户地理位置的定位、变化、频次等,进行分析挖掘用户的属性。比如在A用户的定位中,造访加油站的频次较高,造访时长每次都在5-30分钟,且呈现出周期性的特点,那么,可以初步判断该用户是市场需要驾车的用户,而B用户的定位信息显示,其造访加油站的频次更高,达到了1-2天一次,那么,可以初步判断该用户从事的是司机的职业,加上上述对用户发布和参与内容的文本挖掘,可提高这些属性预测的准确性。
通过挖掘到的这些信息,可以可进一步获得用户的属性标签,如:年龄、职位、工作地域、工作地点、家庭地点、消费能力等。
S406、基于用户属性标签计算属性征信值;
基于用户的属性标签,可以计算用户的属性征信值,例如对不同种类的属性标签进行分别评分,并赋予不同种类的属性标签权重,最终计算出用户的属性征信值。
S407、基于关系链征信值及属性征信值计算用户征信值;
基于关系链征信值及属性征信值计算用户征信值可采用以下公式进行:
Credit Score=k+a×β1+b×β2
其中,Credit Score为用户征信值,k为常数项,β1为用户的关系链征信值,a为用户关系链征信值的系数,β2为用户的属性征信值,b为用户属性征信值的系数。常数项k和系数a、系数b可进行预先设定。
在本实施例中,关系链征信为用户在社交网络中所处的信用层次的体现,用户属性信用值为用户本身所具有的特质所对应的信用度的体现,两者互为补充,避免了传统征信中只注重个体属性而忽略了个体的社会关系价值,或者是只使用个体的社会关系来进行征信造成的偏颇,可构建出较为完整的用户征信画像。
在本实施例中,基于用户属性标签计算属性征信值的具体方式可为:
构建信用评分量表;
引用评分量表可直接使用银行现有的信用评分卡作为量表,或根据已有履约/违约记录的用户社交数据进行训练,拟合回归用户属性标签关联的信用表现,将回归系数转化为信用评分量表,来对用户的属性征信值进行量度和计算。
如果使用已有履约/违约记录的用户社交数据进行训练得出量表,则对前述数据进行训练,使用Logistic回归算法建立信用预测模型,通过将用户属性标签的变量导入模型,获得拟合系数,Logistic回归的模型形式为:logit(p)=α0+α1X1+…+αkXk。其中p为违约用户出现的概率,α0为回归方程的常数项,X1、X2、…、Xk为输入的用户属性标签变量,α1、…、αk为本组变量的回归系数。
获得用户属性标签的回归系数,后可通过公式换算获得各个用户属性标签的评分值,所有评分值构成信用评分量表。用户属性标签评分值的计算公式为:
Score(i)=Offset/n-Factor*(α0/n+αi*woe)
其中,Score(i)为指定测量的变量/变量分箱对应的评分值,n为输入变量的数量,α0为前述回归方程的常数项,αi为变量i的回归系数,woe为变量分箱的证据权重值(WeightofEvidence),woe=ln(无违约用户/违约用户)*100,Offset=Score-Factor*ln(odds),Factor=pdo/ln(2)。再:优比odds为某个分值(Score)下无违约用户与违约用户的比例,pdo为odds增加1倍需要增加的评分值,Score和pdo两者均为人为赋予分值。
基于信用评分量表量度用户属性标签,生成属性征信值。
如图5所示,为本发明公开的一种基于社交数据的征信值计算系统实施例1的结构示意图,包括:
数据采集模块101,数据采集模块101用于获取用户社交数据;
互联网社交近十年来的迅猛发展和用户的大规模普及,在互联网社交平台上已沉淀了的大量社交数据,经过大数据处理和进一步挖掘,可应用于许多生活消费场景和金融场景。可直接在互联网上对用户进行检索,从而获得用户的社交数据,也可在专用的数据库中检索用户的社交信息。获取自有社交平台上的数据,与其他社交平台合作获得的数据,从第三方数据服务公司或机构购买互联网公开数据,均可为数据库获取数据的方式。
征信值计算模块102,征信值计算模块102用于基于社交数据计算用户征信值;
由于社交数据中包括了用户的身份信息、人际关系信息及用户的活动信息,由这些信息可以对用户的征信值进行评分。
综上,本发明公开了一种基于社交数据的征信值计算系统,原理为包括获取用户社交数据,基于社交数据计算用户征信值。提供了一种基于社交数据的征信值计算方法,可基于用户的社交数据计算用户的征信值,能够快速为官方征信记录缺失的人群建立征信。
如图6所示,为本发明公开的一种基于社交数据的征信值计算系统实施例2的结构示意图,征信值计算模块302包括关系链分析单元203及征信值计算单元204,其中:
数据采集模块201,数据采集模块201用于获取用户社交数据;
互联网社交近十年来的迅猛发展和用户的大规模普及,在互联网社交平台上已沉淀了的大量社交数据,经过大数据处理和进一步挖掘,可应用于许多生活消费场景和金融场景。可直接在互联网上对用户进行检索,从而获得用户的社交数据,也可在专用的数据库中检索用户的社交信息。获取自有社交平台上的数据,与其他社交平台合作获得的数据,从第三方数据服务公司或机构购买互联网公开数据,均可为数据库获取数据的方式。
关系链分析单元203用于基于社交数据生成关系链数据;
关系链数据包括关注需要计算征信值的用户的人的数量和这些人的征信值,及需要计算征信值的用户关注的人的数量和这些人的征信值,这些信息均可以在用户的社交数据中找到。
征信值计算单元204用于基于关系链数据计算用户征信值;
使用社区征信PageRank算法可通过在用户的社交网络上的其他人征信来预测用户的征信值,用户的社交网络中,拥有的高征信值的人越多,则该用户的征信值则可能获得越高的估值,同时,其拥有的低征信值人越多,则该用户的征信值则可能获得越低的估值。该算法的特点在于,把社交网络中的每个人作为一个节点,根据每个节点的信用度和联结关系映射出每个节点的预测信用度,其原理类似谷歌的PageRank对每个网页的价值计算原理:被越多好的节点(人/网页)主动链向的节点(人/网页),其价值越高。其用公式表达可为:
其中,PR为征信值,pi为需要计算征信值的用户,pj为主动与pi关联的人(关注需要计算征信值的用户的人),M(pi)为pi所有关联的人的集合,L为用户主动关联的人数(用户关注的人的数量),d(0<d≤1)为阻尼因子,N为M(pi)中的人的数量。在本实施例中PR(pi)即为用户征信值。
在本实施例中,使用用户的社交数据中的关系链计算用户的征信值,充分考虑了用户的社会关系价值,体现了用户的信用层次。实现了基于用户的社交数据计算用户的征信值,能够快速为官方征信记录缺失的人群建立征信。
如图7所示,为本发明公开的一种基于社交数据的征信值计算系统实施例3的结构示意图,征信值计算模块302包括活动数据提取单元303、属性标签生成单元304及征信值计算单元305,其中:
数据采集模块301,数据采集模块301用于获取用户社交数据;
互联网社交近十年来的迅猛发展和用户的大规模普及,在互联网社交平台上已沉淀了的大量社交数据,经过大数据处理和进一步挖掘,可应用于许多生活消费场景和金融场景。可直接在互联网上对用户进行检索,从而获得用户的社交数据,也可在专用的数据库中检索用户的社交信息。获取自有社交平台上的数据,与其他社交平台合作获得的数据,从第三方数据服务公司或机构购买互联网公开数据,均可为数据库获取数据的方式。
活动数据提取单元303用于,基于社交数据生成用户活动数据;
用户活动数据包括用户在社交网络上发布的内容与参与互动的内容,包括但不限于文字、位置信息,以及图片、视频等多媒体信息。
属性标签生成单元304用于基于用户活动数据生成用户属性标签;
对用户活动数据进行文本挖掘,具体方式可为通过构造TFIDF特征来描述各个类别人群高频关注的关键词。如用户经常发布或关注包含“上课”、“挂科”、“四级”、“实习”这些关键词或标签的内容,其职业可能为学生;经常发布或关注包含“色号”、“月子”、“育儿”这些关键词或标签的内容,性别可能为女性。
进一步地,通过标签传播算法(LPA),可将用户的各个属性进行扩散,对其他用户的属性进行定义。如在用户的社交网络中,每个用户为网络中的一个节点,已知其中一些节点的职业标签,每个节点使用其邻居节点的标签中最多的标签来更新该节点自身的标签,并反复执行这个标签更新过程,直到每个节点的标签都不再变化为止。从而可通过标签的扩散传播获得职业标签的社区结构,对用户的职业进行预测。
另外,作为补充,可通过用户在社交网络上存储的位置信息,包括用户地理位置的定位、变化、频次等,进行分析挖掘用户的属性。比如在A用户的定位中,造访加油站的频次较高,造访时长每次都在5-30分钟,且呈现出周期性的特点,那么,可以初步判断该用户是市场需要驾车的用户,而B用户的定位信息显示,其造访加油站的频次更高,达到了1-2天一次,那么,可以初步判断该用户从事的是司机的职业,加上上述对用户发布和参与内容的文本挖掘,可提高这些属性预测的准确性。
通过挖掘到的这些信息,可以可进一步获得用户的属性标签,如:年龄、职位、工作地域、工作地点、家庭地点、消费能力等。
征信值计算单元305用于基于用户属性标签计算用户征信值。
基于用户的属性标签,可以计算用户的征信值,例如对不同种类的属性标签进行分别评分,并赋予不同种类的属性标签权重,最终计算出用户的征信值。
在本实施例中,使用用户属性标签,体现了用户本身所具有的特质,及这种特质所对应的信用度。实现了基于用户的社交数据计算用户的征信值,能够快速为官方征信记录缺失的人群建立征信。
在本实施例中,属性征信值计算单元305包括量表构建子单元及计算子单元,基于用户属性标签计算用户征信值的具体方式可为:
构建信用评分量表;
引用评分量表可直接使用银行现有的信用评分卡作为量表,或根据已有履约/违约记录的用户社交数据进行训练,拟合回归用户属性标签关联的信用表现,将回归系数转化为信用评分量表,来对用户的属性征信值进行量度和计算。
如果使用已有履约/违约记录的用户社交数据进行训练得出量表,则对前述数据进行训练,使用Logistic回归算法建立信用预测模型,通过将用户属性标签的变量导入模型,获得拟合系数,Logistic回归的模型形式为:logit(p)=α0+α1X1+…+αkXk。其中p为违约用户出现的概率,α0为回归方程的常数项,X1、X2、…、Xk为输入的用户属性标签变量,α1、…、αk为本组变量的回归系数。
获得用户属性标签的回归系数,后可通过公式换算获得各个用户属性标签的评分值,所有评分值构成信用评分量表。用户属性标签评分值的计算公式为:
Score(i)=Offset/n-Factor*(α0/n+αi*woe)
其中,Score(i)为指定测量的变量/变量分箱对应的评分值,n为输入变量的数量,α0为前述回归方程的常数项,αi为变量i的回归系数,woe为变量分箱的证据权重值(WeightofEvidence),woe=ln(无违约用户/违约用户)*100,Offset=Score-Factor*ln(odds),Factor=pdo/ln(2)。再:优比odds为某个分值(Score)下无违约用户与违约用户的比例,pdo为odds增加1倍需要增加的评分值,Score和pdo两者均为人为赋予分值。
基于信用评分量表量度用户属性标签,生成属性征信值。
如图8所示,为本发明公开的一种基于社交数据的征信值计算系统实施例4的流程图,征信值计算模块402包括关系链分析单元403、活动数据提取单元405、属性标签生成单元406、关系链征信值计算单元404、属性征信值计算单元407及综合征信值计算单元408,其中:
数据采集模块401,数据采集模块401用于获取用户社交数据;
互联网社交近十年来的迅猛发展和用户的大规模普及,在互联网社交平台上已沉淀了的大量社交数据,经过大数据处理和进一步挖掘,可应用于许多生活消费场景和金融场景。可直接在互联网上对用户进行检索,从而获得用户的社交数据,也可在专用的数据库中检索用户的社交信息。获取自有社交平台上的数据,与其他社交平台合作获得的数据,从第三方数据服务公司或机构购买互联网公开数据,均可为数据库获取数据的方式
关系链分析单元403用于基于社交数据生成关系链数据;
关系链数据包括关注需要计算征信值的用户的人的数量和这些人的征信值,及需要计算征信值的用户关注的人的数量和这些人的征信值,这些信息均可以在用户的社交数据中找到。
关系链征信值计算单元404用于基于关系连数据计算关系链征信值;
使用社区征信PageRank算法可通过在用户的社交网络上的其他人征信来预测用户的关系链征信值,用户的社交网络中,拥有的高征信值的人越多,则该用户的关系链征信值则可能获得越高的估值,同时,其拥有的低征信值人越多,则该用户的关系链征信值则可能获得越低的估值。该算法的特点在于,把社交网络中的每个人作为一个节点,根据每个节点的信用度和联结关系映射出每个节点的预测信用度,其原理类似谷歌的PageRank对每个网页的价值计算原理:被越多好的节点(人/网页)主动链向的节点(人/网页),其价值越高。其用公式表达可为:
其中,PR为征信值,pi为需要计算征信值的用户,pj为主动与pi关联的人(关注需要计算征信值的用户的人),M(pi)为pi所有关联的人的集合,L为用户主动关联的人数(用户关注的人的数量),d(0<d≤1)为阻尼因子,N为M(pi)中的人的数量。在本实施例中PR(pi)即为用户的关系链征信值。
活动数据提取单元405用于基于社交数据生成用户活动数据;
用户活动数据包括用户在社交网络上发布的内容与参与互动的内容,包括但不限于文字、位置信息,以及图片、视频等多媒体信息。
属性标签生成单元406用于基于用户活动数据生成用户属性标签;
对用户活动数据进行文本挖掘,具体方式可为通过构造TFIDF特征来描述各个类别人群高频关注的关键词。如用户经常发布或关注包含“上课”、“挂科”、“四级”、“实习”这些关键词或标签的内容,其职业可能为学生;经常发布或关注包含“色号”、“月子”、“育儿”这些关键词或标签的内容,性别可能为女性。
进一步地,通过标签传播算法(LPA),可将用户的各个属性进行扩散,对其他用户的属性进行定义。如在用户的社交网络中,每个用户为网络中的一个节点,已知其中一些节点的职业标签,每个节点使用其邻居节点的标签中最多的标签来更新该节点自身的标签,并反复执行这个标签更新过程,直到每个节点的标签都不再变化为止。从而可通过标签的扩散传播获得职业标签的社区结构,对用户的职业进行预测。
另外,作为补充,可通过用户在社交网络上存储的位置信息,包括用户地理位置的定位、变化、频次等,进行分析挖掘用户的属性。比如在A用户的定位中,造访加油站的频次较高,造访时长每次都在5-30分钟,且呈现出周期性的特点,那么,可以初步判断该用户是市场需要驾车的用户,而B用户的定位信息显示,其造访加油站的频次更高,达到了1-2天一次,那么,可以初步判断该用户从事的是司机的职业,加上上述对用户发布和参与内容的文本挖掘,可提高这些属性预测的准确性。
通过挖掘到的这些信息,可以可进一步获得用户的属性标签,如:年龄、职位、工作地域、工作地点、家庭地点、消费能力等。
属性征信值计算单元407用于基于用户属性标签计算属性征信值;
基于用户的属性标签,可以计算用户的属性征信值,例如对不同种类的属性标签进行分别评分,并赋予不同种类的属性标签权重,最终计算出用户的属性征信值。
综合征信值计算单元408用于基于关系链征信值及属性征信值计算用户征信值;
基于关系链征信值及属性征信值计算用户征信值可采用以下公式进行:
Credit Score=k+a×β1+b×β2
其中,Credit Score为用户征信值,k为常数项,β1为用户的关系链征信值,a为用户关系链征信值的系数,β2为用户的属性征信值,b为用户属性征信值的系数。常数项k和系数a、系数b可进行预先设定。
在本实施例中,关系链征信为用户在社交网络中所处的信用层次的体现,用户属性信用值为用户本身所具有的特质所对应的信用度的体现,两者互为补充,避免了传统征信中只注重个体属性而忽略了个体的社会关系价值,或者是只使用个体的社会关系来进行征信造成的偏颇,可构建出较为完整的用户征信画像。
在本实施例中,属性征信值计算单元407包括量表构建子单元及计算子单元,基于用户属性标签计算属性征信值的具体方式可为:
构建信用评分量表;
引用评分量表可直接使用银行现有的信用评分卡作为量表,或根据已有履约/违约记录的用户社交数据进行训练,拟合回归用户属性标签关联的信用表现,将回归系数转化为信用评分量表,来对用户的属性征信值进行量度和计算。
如果使用已有履约/违约记录的用户社交数据进行训练得出量表,则对前述数据进行训练,使用Logistic回归算法建立信用预测模型,通过将用户属性标签的变量导入模型,获得拟合系数,Logistic回归的模型形式为:logit(p)=α0+α1X1+…+αkXk。其中p为违约用户出现的概率,α0为回归方程的常数项,X1、X2、…、Xk为输入的用户属性标签变量,α1、…、αk为本组变量的回归系数。
获得用户属性标签的回归系数,后可通过公式换算获得各个用户属性标签的评分值,所有评分值构成信用评分量表。用户属性标签评分值的计算公式为:
Score(i)=Offset/n-Factor*(α0/n+αi*woe)
其中,Score(i)为指定测量的变量/变量分箱对应的评分值,n为输入变量的数量,α0为前述回归方程的常数项,αi为变量i的回归系数,woe为变量分箱的证据权重值(WeightofEvidence),woe=ln(无违约用户/违约用户)*100,Offset=Score-Factor*ln(odds),Factor=pdo/ln(2)。再:优比odds为某个分值(Score)下无违约用户与违约用户的比例,pdo为odds增加1倍需要增加的评分值,Score和pdo两者均为人为赋予分值。
基于信用评分量表量度用户属性标签,生成属性征信值。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
Claims (10)
1.一种基于社交数据的征信值计算方法,其特征在于,包括:
获取用户社交数据;
基于所述社交数据计算用户征信值。
2.如权利要求1所述的方法,其特征在于,所述基于所述社交数据计算用户征信值包括:
基于所述社交数据生成关系链数据;
基于所述关系链数据计算所述用户征信值。
3.如权利要求1所述的方法,其特征在于,所述基于所述社交数据计算用户征信值包括:
基于所述社交数据生成用户活动数据;
基于所述用户活动数据生成用户属性标签;
基于所述用户属性标签计算所述用户征信值。
4.如权利要求1所述的方法,其特征在于,所述基于所述社交数据计算用户征信值包括:
基于所述社交数据生成关系链数据;
基于所述关系连数据计算关系链征信值;
基于所述社交数据生成用户活动数据;
基于所述用户活动数据生成用户属性标签;
基于所述用户属性标签计算属性征信值;
基于所述关系链征信值及所述属性征信值计算所述用户征信值。
5.如权利要求3或4所述的方法,其特征在于,所述基于所述用户属性标签计算属性征信值包括:
构建信用评分量表;
基于所述信用评分量表量度所述用户属性标签,生成所述属性征信值。
6.一种基于社交数据的征信值计算系统,其特征在于,包括:
数据采集模块,所述数据采集模块用于获取用户社交数据;
征信值计算模块,所述征信值计算模块用于基于所述社交数据计算用户征信值。
7.如权利要求6所述的系统,其特征在于,所述征信值计算模块包括关系链分析单元及征信值计算单元,其中:
所述关系链分析单元用于基于所述社交数据生成关系链数据;
所述征信值计算单元用于基于所述关系链数据计算所述用户征信值。
8.如权利要求6所述的系统,其特征在于,所述征信值计算模块包括活动数据提取单元、属性标签生成单元及征信值计算单元,其中:
所述活动数据提取单元用于,基于所述社交数据生成用户活动数据;
所述属性标签生成单元用于基于所述用户活动数据生成用户属性标签;
所述征信值计算单元用于基于所述用户属性标签计算所述用户征信值。
9.如权利要求6所述的系统,其特征在于,所述征信值计算模块包括关系链分析单元、活动数据提取单元、属性标签生成单元、关系链征信值计算单元、属性征信值计算单元及综合征信值计算单元,其中:
所述关系链分析单元用于基于所述社交数据生成关系链数据;
所述关系链征信值计算单元用于基于所述关系连数据计算关系链征信值;
所述活动数据提取单元用于基于所述社交数据生成用户活动数据;
所述属性标签生成单元用于基于所述用户活动数据生成用户属性标签;
所述属性征信值计算单元用于基于所述用户属性标签计算属性征信值;
所述综合征信值计算单元用于基于所述关系链征信值及所述属性征信值计算所述用户征信值。
10.如权利要求8或9所述的系统,其特征在于,所述属性征信值计算单元包括量表构建子单元及计算子单元,其中:
所述量表构建子单元用于构建信用评分量表;
所述计算子单元用于基于所述信用评分量表量度所述用户属性标签,生成所述属性征信值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710690142.9A CN107633453A (zh) | 2017-08-14 | 2017-08-14 | 一种基于社交数据的征信值计算方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710690142.9A CN107633453A (zh) | 2017-08-14 | 2017-08-14 | 一种基于社交数据的征信值计算方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107633453A true CN107633453A (zh) | 2018-01-26 |
Family
ID=61099430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710690142.9A Pending CN107633453A (zh) | 2017-08-14 | 2017-08-14 | 一种基于社交数据的征信值计算方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107633453A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764667A (zh) * | 2018-05-15 | 2018-11-06 | 阿里巴巴集团控股有限公司 | 风险数据确定方法及装置 |
CN110348992A (zh) * | 2019-06-25 | 2019-10-18 | 深圳中兴飞贷金融科技有限公司 | 用户信息处理方法和装置、存储介质和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346408A (zh) * | 2013-08-08 | 2015-02-11 | 中国移动通信集团公司 | 一种对网络用户进行标注的方法与设备 |
CN104463664A (zh) * | 2014-12-10 | 2015-03-25 | 谢荣生 | 一种基于人脉关系网络的在线贷款系统及其在线贷款方法 |
CN104519141A (zh) * | 2015-01-12 | 2015-04-15 | 张树人 | 社会关系网络中基于关系评价传递的量化模型与方法 |
CN104660594A (zh) * | 2015-02-09 | 2015-05-27 | 中国科学院信息工程研究所 | 一种面向社交网络的虚拟恶意节点及其网络识别方法 |
CN105589798A (zh) * | 2015-12-10 | 2016-05-18 | 小米科技有限责任公司 | 征信值计算方法及装置 |
-
2017
- 2017-08-14 CN CN201710690142.9A patent/CN107633453A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346408A (zh) * | 2013-08-08 | 2015-02-11 | 中国移动通信集团公司 | 一种对网络用户进行标注的方法与设备 |
CN104463664A (zh) * | 2014-12-10 | 2015-03-25 | 谢荣生 | 一种基于人脉关系网络的在线贷款系统及其在线贷款方法 |
CN104519141A (zh) * | 2015-01-12 | 2015-04-15 | 张树人 | 社会关系网络中基于关系评价传递的量化模型与方法 |
CN104660594A (zh) * | 2015-02-09 | 2015-05-27 | 中国科学院信息工程研究所 | 一种面向社交网络的虚拟恶意节点及其网络识别方法 |
CN105589798A (zh) * | 2015-12-10 | 2016-05-18 | 小米科技有限责任公司 | 征信值计算方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764667A (zh) * | 2018-05-15 | 2018-11-06 | 阿里巴巴集团控股有限公司 | 风险数据确定方法及装置 |
CN110348992A (zh) * | 2019-06-25 | 2019-10-18 | 深圳中兴飞贷金融科技有限公司 | 用户信息处理方法和装置、存储介质和电子设备 |
CN110348992B (zh) * | 2019-06-25 | 2020-09-04 | 深圳中兴飞贷金融科技有限公司 | 用户信息处理方法和装置、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10715962B2 (en) | Systems and methods for predicting lookalike mobile devices | |
US10349208B1 (en) | Systems and methods for real-time prediction of mobile device locations | |
US20220253499A1 (en) | Allocating communication resources via information technology infrastructure | |
CN103049440B (zh) | 一种相关文章的推荐处理方法和处理系统 | |
CN108604347A (zh) | 用于基于性能驱动的动态地理围栏的目标定位的系统和方法 | |
US20190034816A1 (en) | Methods and system for associating locations with annotations | |
CN105183869A (zh) | 楼宇知识图谱数据库及其构建方法 | |
Zheng et al. | Chinese tourists in Nordic countries: An analysis of spatio-temporal behavior using geo-located travel blog data | |
CN104680250A (zh) | 一种位置预测系统 | |
US9288650B2 (en) | Method, device and recording media for searching target clients | |
US8856179B2 (en) | Method to send a short message service (SMS) campaign to a related object by selecting the base object | |
CN108228745A (zh) | 一种基于协同过滤优化的推荐算法和装置 | |
JP7285521B2 (ja) | 類似のモバイル装置を予測するためのシステムと方法 | |
McCloskey | The emperor has no clothes: the conundrum of sustainable development | |
JP2007219655A (ja) | 施設情報管理システム、施設情報管理方法および施設情報管理プログラム | |
Marlintha et al. | Design and implementation of smart village mapping geographic information system based web in the cinunuk village | |
CN105992171A (zh) | 一种文本信息的处理方法和装置 | |
CN110134883A (zh) | 一种异构社交网络位置实体锚链接识别方法 | |
CN112699658A (zh) | 文本比对方法及相关装置 | |
CN107633453A (zh) | 一种基于社交数据的征信值计算方法及系统 | |
CN108345662A (zh) | 一种考虑用户分布区域差异的签到微博数据加权统计方法 | |
Till Jr | Spatial form and structure in a possible future: some implications of energy shortfall for urban planning | |
CN117235219A (zh) | 一种基于防汛需求的水库知识智能问答系统 | |
CN110413852A (zh) | 一种信息推送方法、装置、设备及介质 | |
Pandey et al. | If you build it, will they come? Exploring narratives that shape the internet in Nepal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180126 |