CN112732812A

CN112732812A - 一种基于大数据画像的个人信用分析方法

Info

Publication number: CN112732812A
Application number: CN202011643178.XA
Authority: CN
Inventors: 水新莹; 赵勇
Original assignee: Institute Of Smart City University Of Science And Technology Of China Wuhu
Current assignee: Institute Of Smart City University Of Science And Technology Of China Wuhu
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-30

Abstract

本发明公开了一种基于大数据画像的个人信用分析方法，包括如下步骤：构建个人信用评估体系，定义个人信用评估体系中各指标的权重值从各业务部门的数据库中抽取目标数据，目标数据即为个人信用评估体系中的各指标数据；对抽取到的目标数据进行清洗；对清洗后的数据加工：包括数据的合并与拆分；基于指标数据获取各指标的评分，该层所有指标的评分与权重之和即为上一层指标的评分值，获取个人的总评分及个人总评分所在的信用等级；对群体的总评分值进行评价，若评价不合理，则进行指标权重值的调整，直至群体的总评分值评价合理。通过多种不同的政务、社会资源数据目录对个人信息资料采集，提高资料的全面性与真实性，更好的对个人信用进行评估。

Description

一种基于大数据画像的个人信用分析方法

技术领域

本发明属大数据技术领域，更具体地，本发明涉及一种基于大数据画像的个人信用分析方法。

背景技术

现有技术通过SQL统计用户的人口特征、信用记录、行为记录、交易记录等大量历史数据并进行系统分析，对用户的信用进行评估，会存在数据不平衡、拒绝偏差、指标体系缺陷等问题；现有征信机构主要根据自身数据得出一个信用分，通用性比较差，难以保证相同产品客户结构的一致性，当客群结构不一致情况发生后，模型也会失真，相当于建立的是伪信用模型，场景发生变化后无法继续使用。

发明内容

本发明提供一种基于大数据画像的个人信用分析方法，旨在改善上述问题。

本发明是这样实现的，一种基于大数据画像的个人信用分析方法，所述方法具体包括如下步骤：

S1、构建个人信用评估体系，定义个人信用评估体系中各指标的权重值，

S2、从各业务部门的数据库中抽取目标数据，目标数据即为个人信用评估体系中的各指标数据；

S3、对抽取到的目标数据进行清洗；

S4、对清洗后的数据加工：包括数据的合并与拆分；

S5、基于指标数据获取各指标的评分，该层所有指标的评分与权重之和即为上一层指标的评分值，获取个人的总评分及个人总评分所在的信用等级；

S6、对群体的总评分值进行评价，若评价不合理，则进行指标权重值的调整，直至群体的总评分值评价合理。

进一步的，抽取方式为全量抽取或增量抽取，其中，

(1)全量抽取：将源数据库中的数据原封不动的抽取出来，源数据库即为各业务部门的数据库，源数据库为前置机数据库；

(2)增量抽取：基于时间戳的增量抽取，具体步骤如下：

(21)建立目标数据库与源数据库连接；

(22)定义一张数据字典表，包括源数据库中源数据表和目标数据库中目标数据表的表名、字段列表、以及条件；

(23)获取源数据表和目标数据表的目前最大时间，抽取数据时间断为：目标数据表的最大时间与源数据表的最大时间的差值；

(24)根据设置的抽取频率从源数据表中的指定字段列中循环抽取数据至目标数据表的指定字段列。

进一步的，数据的清洗主要包括如下步骤：

进行不一致的数据转换、数据粒度的转换、数据去脏和设定转换规则的计算，侧重于将来源于不同业务系统的相同类型的数据进行统一处理；

数据粒度转换需要对数据进行统一归整；

针对源数据库中出现二义性、重复、不完整、违反业务逻辑规则的问题的数据进行统一的处理。

进一步的，评价方法具体如下：

对评价模型的准确性进行验证，验证指定群体的信用分数是否服正态分布图，若不服从，则调整信用指标的权重值，使得指定群体的信用得分服从正态分布结果。

本发明提供的基于大数据画像的个人信用分析方法具有如下有益技术效果：1)传统方式通过sql统计用户的人口特征等大量历史数据并进行分析，不一定会对数据进行完整的清洗、加载转化处理流程，无法跟本专利一样直观地表达出自然人信用实体层级和关联关系；2)传统方式使用SQL从个人信用档案中提取不同特征来评估用户的信用状态，需要大量信用分析专业人员协助建模，而使用个人信用分，分析可以不断沉淀知识逻辑和模型，降低经验依赖；3)现有征信机构主要根据自身数据得出一个信用分，通用性比较差，难以保证相同产品客户结构的一致性，使用城市画像系统构建，当客群结构不一致情况发生后，只需要调整相关的来源目录数据，而不需要调整模型结果，即可重构信用评分模型。

附图说明

图1为本发明实施例提供的基于大数据画像的个人信用分析方法流程图。

具体实施方式

下面对照附图，通过对实施例的描述，对本发明的具体实施方式作进一步详细的说明，以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。

图1为本发明实施例提供的基于大数据画像的个人信用分析方法流程图，该方法具体包括如下步骤：

步骤一：数据采集

以政务信息资源为基础，依托国家统一的电子政务网络，通过部署前置机节点，实现前置交换信息库与部门业务数据的对接，实现从信息库的信息交换。根据《国家电子政务总体框架》及《政务信息资源目录体系》和《政务信息资源交换体系》等国家标准规范及规范涉及到的相关国家标准的要求，为了实现政务信息资源的统一数据采集管理，需要建设目录管理子系统和交换子系统等相关服务支撑系统。

目录管理子系统：将各政务部门信息资源统一提取到前置机信息库中。实现与业务部门的资源目录(即政务信息的资源目录)对接前置交换信息库的目录信息配置管理。通过目录系统建设推进，对各个业务部门信息资源进行编目及动态管理。

交换子系统：通过分析使用对应信息资源的政务部门目录，检索到对应资源后，提交审请，经审核通过开通授权帐号，由交换子系统，通过电子政务网络，将提供方共享的对应信息资源，交换传输到申请使用方政务部门的前置机信息库中，以供使用方使用，最终实现通过资源共享和交换。

抽取的表信息有：电信欠费信息、基本信息、公积金缴存人信息、公积金积分明细、工商法人、企业管理人员、驾驶证信息表、燃气开户信息表、社保个人基本信息、严重不良行为青少年、信用挪车信息、人口基本信息(公安-宽表)、挪车账单表、全民社管核查信息表、捐献造血干细胞人员表、无偿献血详细数据、无偿献血志愿服务奖、历届安徽好人及提名奖档案、社区矫正人员、综治_吸毒人员、工商字典表、案件信息、工商变更明细表、工商变更审核表、工商变更受理表、股东名录、工商统一社会信用代码、经营异常名录信息表、工商主体、工商_非公有制经济组织、设立登记三证合一表、工商管辖机关、省工商组织机构、股权出质设立登记信息、主体信息拓展、机动车基本信息、燃气信息、单位共有基本信息、社保-社保缴费基、社保信息、安置帮教信息、校园周边重点人员、挪车信息、综治_易肇事肇祸精神障碍患者、重点上访人员、刑满释放人员

步骤二：数据交换

依据数据采集的使用场景进行数据源分类管理，数据源分类主要包括关系型数据库、非关系数据库以及ftp文件服务器等，数据源管理主要是配置数据源的连接信息功能。

交换传输子系统提供的主要功能如下：

提供包括但不限于Oracle、MySQL、PostgreSQL、MSSQL、Teradata等数据源的增删改查&连接测试的能力，同时能够依据使用场景进行数据源分类管理；

归集库的数据来源有部分是来源于业务系统，而这部分数据需要通过调用对方接口的方式来获取归集到归集库，或业务系统开发完成后公布了标准接口提供给第三方授权访问。接口系统支持RESTful、Webservcie、XML/JSON解析等多种数据解析方式。

接口配置主要用于配置接口的URL地址、接口提供单位、接口传参、接口返回值，接口输出等信息，以便接口启动后通知接口调用引擎通过URL，参数获取到指定返回参数的数据，输入到接口配置的输出对象数据库表中，实现数据归集功能。

定时接口调用主要是控制数据的同步周期。它可以是一次性的接口调用服务，也支持周期性的接口调用服务。同步周期主要包括以每天、每周、每月等。定时接口任务启动后，系统将自动按照周期的任务调度机制定时获取接口返回的数据，输出到城市画像系统交换子系统中，支持手动、自动调度任务执行。

步骤三：数据抽取

数据抽取就是从相关业务部门的数据中心库中获取业务数据的过程。数据来源为业务系统和文件系统，抽取方式为根据具体业务进行全量抽取或增量抽取，根据具体业务制定抽取的时间、频率、这些参数都是可配置的。

抽取方式:

(1)全量抽取：该抽取方式一般在数据初始化的时候使用。将数据源中的数据原封不动的从数据库中抽取出来。

(2)增量抽取：采用基于时间戳的增量抽取，具体步骤如下：

(21)建立数据库连接；

(22)定义一张数据字典表，定义需要进行处理的任务，其中主要包括业务数据库(即业务信息数据库)和前置机信息库的表名、字段列表、以及条件等；

(23)对业务信息来源表和前置机信息表的目前最大时间，抽取数据时间断为【前置机信息表的最大时间】一【业务信息来源表的最大时间】；

(24)根据设置的抽取频率循环抽取

步骤四：数据交换传输

交换传输子系统根据交换体系部署的交换流程,实现部门前置交换信息库之间处理和稳定可靠的信息传递。交换传输子系统作为前置交换子系统之间的信息交换通道，实现交换信息的打包、转换、加密、传递、路由、解包等功能。

前置交换子系统的逻辑结构由网络通信系统、操作系统、交换信息库、前置交换环境、提供交换服务配置工具等组成。

前置交换子系统的数据传送分两个方向：

(1)交换信息库至交换传输系统

当应用适配器取得交换信息库中待传输的交换信息数据后，将该信息进行转换为传输XML数据格式，并对其进行加密、存储、完全验证，对传输的XML格式进行验证，然后查找接收方路由，并将XML数据投递给传输适配器，由传输适配器发送到交换传输系统中进行投递。

(2)交换传输系统至交换信息库

当前置交换系统的传输适配器从传输交换系统接收到交换信息后，查找信息接收方的路由，对传输信息的格式和接收方进行验证，对接收方的权限进行安全验证、存储转发、解密，然后将传输信息转换为交换信息，由应用适配器将交换信息存入交换信息库中。

步骤五：数据交换管理

交换管理子系统实现对整个信息交换过程的流程配置、部署、执行和整个信息交换系统运行进行监控、管理。

节点管理只有管理员拥有权限，每新增一个单位接入时，需要在此进行节点配置，包括分配节点编号，这个节点编号需要与前置子系统的配置节点编号一样，管理员可对节点进行增删改查。

步骤六：数据交换监控

数据交换管理子系统支持对整个交换过程的综合管理监控，包括交换流程的配置、部署与管理以及对交换系统运行情况的监控与管理两个方面。

实时监控平台数据的交换量，可快捷进行按天、周、月、进行统计查阅，也可以按任意时间段进行数据统计查阅，对提供方数据和申请方数据，都可进行分类查询统计。

监控节点状态可分为四种情况：

正常：物理机和应用网络均处于正常状态；预警：物理机正常运行，应用网络中断；中断：物理机与应用网络均中断；停止监控：已停止节点状态监控。

步骤七：数据清洗

数据清洗指对前端抽取过来的数据进行清洗处理，包括数据过滤、数据剔重、类型转换、编码映射、文件拆分与合并、维度转换等功能。

数据清洗的任务主要是进行不一致的数据转换、数据粒度的转换、数据去脏和一些转换规则的计算。其中不一致转换过程是数据整合的过程，侧重于将来源于不同业务系统的相同类型的数据进行统一处理；

数据粒度转换需要对数据进行统一归整；转换规则计算按照设计的计算归则对数据进行重新计算。系统支持批量清洗和实时清洗，针对批量离线数据进行分布式并行清洗转换，针对实时数据进行不落地清洗转换。

数据清洗主要是针对源数据库中出现二义性、重复、不完整、违反业务或逻辑规则等问题的数据进行统一的处理，一般包括如：NULL值处理，日期格式转换，数据类型转换等等。在清洗之前需要进行数据质量分析，以找出存在问题的数据

数据质量问题具体表现在以下几个方面：

(1)正确性：数据是否正确的表示了现实或可证实的来源；

(2)完整性：数据之间的参照完整性是否存在或一致；

(3)一致性：数据是否被一致的定义或理解；

(4)完备性：是否所有需要的数据都存在；

(5)有效性：数据是否在定义的可接受的范围之内；

(6)时效性：数据在需要的时候是否有效；

(7)可获取性：数据是否易于获取、易于理解和易于使用；

步骤八：元数据加工转换

数据转换主要可以看作是数据整合与拆分，数据源的数据按照一定的转换规则生成新的数据并存放至目的数据源中。数据转换支持数据字段之间一对多，多对一，以及多对多的映射关系。

元数据的合并是指指示同一对象的相近数据表头的合并，例如证件号、身份证、个人身份证及居民身份证号均表示身份证号，可能在不同的业务系统中采用不同的表头名来定义，因此，建立重要信息的关联表；

转换规则包括：数据合并：多用表关联实现；数据拆分:按业务规则进行数据拆分；行列互换；排序/修改序号；去除重复记录。

步骤九：数据加载

数据加载主要指将抽取与清洗转换的数据，准确、及时地存储,到不同基础库中，依据数据的加载方式包括文件加载、流加载、压缩加载、不落地加载等。

依据数据加载技术特点，可分为全量数据加载、流式(实时)数据加载、文件落地双加载、内存不落地加载。

对于不同的数据库加载、不同的方式加载，在数据加载过程的工作原理基本相同，数据加载能力包含：

1.默认情况下提供基础通用的加载控件，支持将数据源加载到不同的数据库中，加载的数据支持接口、文件加载策略或流式策略。

2.加载方式支持全量或实时方式，全量加载方式则采用落地加载策略，并且需要结合运用不同平台的加载工具；实时加载与实时采集必须配套使用，二者之间共享内存实现同步数据交换，通过引入插件机制来屏敝不同数据源差异性。

3.支持加载时事物提交的参数配置，允许设定数据文件相关输入路径与加载文件匹配规则等信息，由数据装载完成发现文件、文件获取、加载数据、数据校验等操作流程后完成数据入库操作。

4.在加载实现过程中支持提供SQL、HQL、SHELL等不同类别的行为定义脚本，数据加载执行组件将根据定义行为脚本类型调起相应的脚本执行来加载到数据。

5.数据加载结束或失败时，都需要记录操作日志，为后续数据稽核与问题排查提供详细信息。

6.在加载触发模式上支持自动加载与手工执行的二大类型。支持数据自动加载的设计与执行，当数据加载出错时，提供操作界面以人工干预的方式来重新启动数据的接收和加载。

加载后的数据《人口基本信息》示例：

国籍、国籍名称、证件类型、证件类型_名称、证件号码、姓名、性别、性别_名称、出生日期、民族、民族_名称、人员状态、人员状态_名称、网格人员状态、网格人员状态_名称、来源表、是否可修改、是否可修改_名称、记录时间、网格时间、插入时间、父亲证件号码、母亲证件号码、配偶证件号码、政治面貌、政治面貌_名称、宗教信仰、宗教信仰_名称、文化程度、文化程度_名称、公安户籍行政区划、户籍省市县区、户籍省市县区_名称、户籍乡镇街道、户籍乡镇街道_名称、户籍居村委会、户籍据村委会_名称、户籍门楼详址、居住地省市县区、居住地省市县区_名称、居住地乡镇街道、居住地乡镇街道_名称、居住地居村委会、居住地居村委会_名称、居住地址门楼详址、婚姻状况、婚姻状况_名称、民政婚姻状况、民政婚姻状况_名称、生育状况、生育状况_名称、是否有子女、是否有子女_名称、电话、派出所、派出所_名称、户号、与户主关系、与户主关系_名称、人口类型、人口类型_名称、户口类型、户口类型_名称、楼栋号、房屋号、残疾类型、残疾类型_名称、残疾等级、是否曾患传染病、传染病是否治愈、是否曾患癌症、癌症是否治愈、是否有车辆、是否有房产、是否有船舶、是否有飞机、是否有公司、是否有社保、是否有医保、是否有公积金、死亡日期、死亡地点、死亡原因、单位名称、是否服役、退休时间、组织机构代码、是否曾是问题少年、是否有犯罪记录、是否涉毒、是否法人、是否有纳税记录、是否有低保、是否有高龄补贴、是否有残疾补贴、是否有大病医疗补助、是否有五保、是否有临时救助、更新时间、户籍地址

步骤十：个人信用评估体系的建立

本专利通过设立：社会公益、遵纪守法、社会责任、履约行为、个人基本信息、激励项四个方面构建个人信用评估的一级指标；

每个一级指标下划分出若干个二级指标：省级表彰评优、市区级表彰评优、义务献血、志愿者活动、校园周边、不良行为少年、严重行政处罚、交通违章、安置帮教、社区矫正、社保缴纳时长、社保缴纳基数、公积金缴纳时长、公积金缴纳基数、公积金余额、社保工龄比、公积金工龄比、燃气欠费时长、燃气欠费金额、电信欠费时长、电信欠费金额、学历、车辆信息、政治面貌、个人基本信息完整度、年龄、工龄、网上办事、挪车、全名社管；

在每个二级指标下又划分出若干分项字典维度:年龄这个二级指标下面又可以分为18周岁以下、19～24周岁、25～29周岁、30～34周岁、35～44周岁、45～52周岁、53～59周岁、60周岁以上等不同的字典维度；

对各次级指标赋予权重参考相关的信息，可以量化的就直接给出最后的得分，不可以量化的，采取德菲尔法，集中专家意见赋予权重(百分制)，再根据具体的评分标准计算出总分。

为了防止某个异常指标值对总分的影响，在给每个指标评分时，应规定上限和下限，以减少个别指标异常时对总分造成不合理的影响。

先利用分项指标的评分结果以及层次分析法所得到的各分项指标的权重计算得到每个次级指标的得分，再与层次分析法中所得到的结果权重进行同样的计算即可以得到各次级指标的得分，最后得到每个大类指标的得分，最后进行加总就得到每个个案的总得分

步骤十一：信用评估

当个人信用评估体系建立以后，利用前面通过层次分析法以及德尔菲法中给个人的信用进行评分的结果，就可以对个人的信用进行评级，确定个人信用的隶属级别，进而可以利用这个信用评级的结果进行各项决策。设个人资质指标、个人资产指标、家庭指标、个人信用历史指标的权重分别是a1，a2，a3，a4，它们的分项指标的权重为a1i，a2i，a3i，…，aji，j的取值为1至4，分项指标的得分分别为k1i，k2i，k3i，…，k j，总得分为N，计算公式如下：

确定个人信用得分后，再将这个得分与信用分数与信用等级的对照关系来确定个人的信用等级归属。

步骤十二：模型验证

建立模型沙箱，在模型正式上线前，在沙箱中对新构建的模型进行模拟训练包括关键指标的学习与提取、权重的学习、评分标准经验值和参考值的学习和训练等。支持训练样本集、测试样本集的标注，并利用机器学习方法根据训练集对模型进行训练和优化。包括数据信息的校验、评价方法和模型的验证、评分结果的合理性分析等。利用交叉验证、比对分析、模型分析的方法通过对相关指标或关联指标的数据分析实现对评价数据的验证功能，为信息的真实准确性提供参考和警示。对评价模型的准确性进行验证，验证指定群体的信用分数是否服正态分布图，若不服从，则人工调整信用指标的权重值，使得指定群体的信用得分服从正态分布结果，对评价结果进行正态分布、K-S指标分析，根据分布情况的统计指标评估评价结果的合理性。

模型计算表结构：

证件号码、姓名、性别、1男、2女、出生日期、户籍省市区县、学历、博士及以上1；(博士,本科],0.75；(本科,专科],0.5，专科以下0.25,未知,0.5、完整度缺失项数(共计25项)、政治面貌、1：党员、0：非党员、年龄、车辆、1:有、0:无、工龄、单位：月、燃气欠费时长、最小月份至本次计算月份之间的月数、燃气欠费总额、履约行为、预留空间、社保缴纳时长、单位：月、社保缴纳基数、公积金缴纳时长、单位：月、公交缴纳基数、公积金余额、社保工龄比、公积金工龄比、吸毒人员、1：无、0：有、严重处罚、1：无、0：有、交通违章比例、社区矫正、1：无、0：有、历届好人提名奖、1：有、0：无、捐献干细胞、1：有、0：无、义务献血量、单位：cc、献血服务奖、1：有、0：无、表彰奖励、1：有、0：无、网上办事次数、信用挪车次数、全民社管次数、上传信息次数、失信程度、0：无、1：一般失信、2：比较严重失信、3：严重失信、4：特别严重失信、学历得分、完整度得分、政治面貌得分、年龄得分、车辆得分、工龄得分、燃气欠费时长得分、燃气欠费金额得分、履约行为预留空间得分、社保缴纳时长得分、社保缴纳基数得分、社保工龄比得分、公积金缴纳时长得分、公积金缴纳基数得分、公积金余额得分、公积金工龄比得分、吸毒人员得分、严重行政处罚得分、交通违章得分、社区矫正得分、好人提名奖得分、捐献干细胞得分、义务献血得分、献血服务奖得分、表彰奖励得分、网上办事得分、信用挪车得分、全民社管得分、上传信息得分、失信程度得分、基本信息得分、履约行为得分、社会责任得分、遵纪守法得分、社会公益得分、加分项得分、减分项得分、良好生活得分、失信被执行人、1：有、0：无、乐惠分用户版本、2：2.0用户、3：3.0用户、乐惠分值1、乐惠分值2、乐惠分值3、本月最终得分、上月最终得分、统计日期。

本发明基于自然人信用模型，自动化构造相关指标,对个人的信用进行评级，在沙箱中对新构建的模型进行模拟训练包括关键指标的学习与提取、权重的学习、评分标准经验值和参考值的学习和训练等。自动化构建对评价模型的准确性进行验证。主要的保护点在于基于大数据画像的个人信用分的构造方法和系统,在针对不同的评估对象时，可以自动增加或者减少评估指标体系而不影响信用分评价的可操作性与评估的有效性。对个人信息资料的收集通过多种不同的政务资源数据目录和社会资源数据目录采集，提高所获得资料的全面性与真实性，更好的对个人的信用进行评估。

本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.一种基于大数据画像的个人信用分析方法，其特征在于，所述方法具体包括如下步骤：

S3、对抽取到的目标数据进行清洗；

S4、对清洗后的数据加工：包括数据的合并与拆分；

2.如权利要求1所述基于大数据画像的个人信用分析方法，其特征在于，抽取方式为全量抽取或增量抽取，其中，

(2)增量抽取：基于时间戳的增量抽取，具体步骤如下：

(21)建立目标数据库与源数据库连接；

3.如权利要求1所述基于大数据画像的个人信用分析方法，其特征在于，数据的清洗主要包括如下步骤：

数据粒度转换需要对数据进行统一归整；

4.如权利要求1所述基于大数据画像的个人信用分析方法，其特征在于，评价方法具体如下：