CN111915426A

CN111915426A - 基于图计算及社区划分算法区分信贷用户的方法及系统

Info

Publication number: CN111915426A
Application number: CN202010773948.6A
Authority: CN
Inventors: 陈德建; 崔岩莉
Original assignee: Cic Guoxin Beijing Technology Development Co ltd
Current assignee: Cic Guoxin Beijing Technology Development Co ltd
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-11-10

Abstract

本发明公开了基于图计算及社区划分算法区分信贷用户的方法及系统，涉及信贷技术领域，本发明根据信贷用户的ssid、身份证号码和当前所在经纬度信息，即可获得信贷用户的户籍所在县以及用户当前所在的城市及区县；根据经纬度把商场的ssid剔除，剩余的ssid采用图计算的数据结构构建知识图谱，两个相关联的节点进行连线并作关联标注，标注为同事、老乡或同县区，采用图计算的数据结构构建知识图谱，通过对知识图谱进行随机游走序列把关联标注的关系生成embedding；按照社区划分算法对embedding进行切割，得到多个社群；再对社群进行标注划分以区分社群的好坏。本发明使得实行手工账管理的非常简单，便于联社对基层社发生的每笔业务进行有效的监控，区分信贷用户的好坏。

Description

基于图计算及社区划分算法区分信贷用户的方法及系统

技术领域

本发明涉及信贷技术领域，具体而言，涉及基于图计算及社区划分算法区分信贷用户的方法及系统。

背景技术

信贷是指以偿还和付息为条件的价值运动形式。通常包括银行存款、贷款等信用活动，狭义上仅指银行贷款，广义上同“信用”通用。信贷是用有偿方式动员和分配资金的重要形式，是发展经济的有力杠杆。

信贷是农村信用社运用资金取得效益最主要的途径，贷款质量的高低，直接关系到农村信用社的生存和发展。但由于农村信用社网点多、分布散、贷款笔数多、信贷员素质水平各异等原因，使得实行手工账管理的难度非常大，联社无法对基层社发生的每笔业务进行有效的监控，如何区分信贷用户的好坏成为急需解决的问题。

发明内容

为了克服上述问题或者至少部分地解决上述问题，本发明实施例提供基于图计算及社区划分算法区分信贷用户的方法及系统，以便于区分信贷用户的好坏。

本发明的实施例是这样实现的：

第一方面，本发明提供一种基于图计算及社区划分算法区分信贷用户的方法，包括以下步骤：

S100:获取信贷用户的ssid、身份证号码和当前所在经纬度；

S200:通过清洗ssid和身份证号码前六位获取信贷用户的户籍所在县，根据经纬度获取信贷用户当前所在的城市及区县；

S300:根据经纬度把商场的ssid剔除，把剩余的ssid记录并存储；

S400:根据剩余的ssid，采用图计算的数据结构构建知识图谱，对相同的ssid作关联标注，并标注为同事，对剩余的ssid相同户籍所在地作关联标注，并标注为老乡，对剩余的ssid相同经纬度作关联标注，并标注为同县区；

S500:通过对知识图谱进行随机游走序列把关联标注的关系生成embedding；

S600:按照社区划分算法对embedding进行切割，得到多个社群；

S700:对社群进行标注，标注的社区里面超过第一阈值违约的为坏用户社群，把低于第二阈值违约社群标注为好社群。

在本发明的一些实施例中，还包括步骤S800：用常规机器学习算法xgboost进行训练，在知识图谱中，两个节点之间作关联标注的为关系向量，把社群中关系向量作为训练样本，好社群和坏社群标注作为目标target进行训练。

在本发明的一些实施例中，还包括步骤S900：训练之后生成模型，当一个用户申请时先划分到社群，进行关系embedding，代入训练好的模型进行预测。

在本发明的一些实施例中，在步骤S500中，生成embedding的方法包括采用node2vec算法。

在本发明的一些实施例中，在步骤S700中，第一阈值为70％，第二阈值为10％。

第二方面，本发明还提供一种基于图关系社群切分后区分信贷用户好坏的系统，包括：

基本信息获取模块：用于获取信贷用户的ssid、身份证号码和当前所在经纬度；

地区获取模块：用于通过清洗ssid和身份证号码前六位获取信贷用户的户籍所在县，根据经纬度获取信贷用户当前所在的城市及区县；

剔除模块：用于根据经纬度把商场的ssid剔除，把剩余的ssid记录并存储；

关联标注模块：用于根据剩余的ssid，采用图计算的数据结构构建知识图谱，对相同的ssid作关联标注，并标注为同事，对剩余的ssid相同户籍所在地作关联标注，并标注为老乡，对剩余的ssid相同经纬度作关联标注，并标注为同县区；

Embedding生成模块：用于通过对知识图谱进行随机游走序列把关联标注的关系生成embedding；

切割模块：用于按照社区划分算法对embedding进行切割，得到多个社群；

社群划分模块：对社群进行标注，标注的社区里面超过第一阈值违约的为坏用户社群，把低于第二阈值违约社群标注为好社群。

在本发明的一些实施例中，还包括：

训练模块：用于用常规机器学习算法xgboost进行训练，在知识图谱中，两个节点之间作关联标注的为关系向量，把社群中关系向量作为训练样本，好社群和坏社群标注作为目标target进行训练。

在本发明的一些实施例中，还包括：

预测模块：用于训练之后生成模型，当一个用户申请时先划分到社群，进行关系embedding，代入训练好的模型进行预测。

在本发明的一些实施例中，Embedding生成模块中，生成embedding的方法包括采用node2vec算法。

在本发明的一些实施例中，社群划分模块中，第一阈值为70％，第二阈值为10％。

本发明实施例至少具有如下优点或有益效果：

本发明根据信贷用户的ssid、身份证号码和当前所在经纬度信息，即可获得信贷用户的户籍所在县以及用户当前所在的城市及区县，获得信贷用户地址的方式简单。考虑到会把商场的ssid记录进去造成误差，因此根据经纬度把商场的ssid剔除，并把剩余的ssid记录并存储，便于后续使用，根据剩余的ssid，采用图计算的数据结构构建知识图谱，对相同的ssid作关联标注，并标注为同事，对剩余的ssid相同户籍所在地作关联标注，并标注为老乡，对剩余的ssid相同经纬度作关联标注，并标注为同县区；采用图计算的数据结构构建知识图谱，具有直观、高效、快速的特点。通过对知识图谱进行随机游走序列把关联标注的关系生成embedding；按照社区划分算法对embedding进行切割，得到多个社群；对社群进行标注，标注的社区里面超过第一阈值违约的为坏用户社群，把低于第二阈值违约社群标注为好社群。使得实行手工账管理的非常简单，便于联社对基层社发生的每笔业务进行有效的监控，区分信贷用户的好坏。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明基于图计算及社区划分算法区分信贷用户的方法一实施例的流程图；

图2为本发明基于图计算及社区划分算法区分信贷用户的方法另一实施例的流程图；

图3为本发明基于图关系社群切分后区分信贷用户好坏的系统一实施例的框图；

图4为本发明基于图计算及社区划分算法区分信贷用户的方法及系统一实施例的知识图谱；

图5为本发明基于图计算及社区划分算法区分信贷用户的方法及系统另一实施例的知识图谱；

图6为本发明基于图计算及社区划分算法区分信贷用户的方法及系统又一实施例的知识图谱。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请所提供的实施例中，应该理解到，所揭露的方法和系统，也可以通过其它的方式实现。系统实施例仅仅是示意性的，例如，附图中的框图显示了根据本申请的多个实施例的系统和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备，可以是个人计算机，服务器，或者网络设备等，执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例

名称解析：

Ssid：是Service Set Identifier的缩写，意思是：服务集标识。

Embedding：是离散数据连续化方法。

图计算：将数据按照图的方式建模。

知识图谱(KnowledgeGraph)，是图计算的一种应用，它由若干节点和边组成，节点表示知识，节点之间的边表示知识之间的关系，如果两个节点之间存在关系，它们就会被一条边连接在一起，知识图谱通常使用图数据库(GraphDatabase)来进行存储，常用的有Neo4j等。

请参照图1，第一方面，本发明提供一种基于图计算及社区划分算法区分信贷用户的方法，包括以下步骤：

S100:获取信贷用户的ssid、身份证号码和当前所在经纬度。

S200:通过清洗ssid和身份证号码前六位获取信贷用户的户籍所在县，根据经纬度获取信贷用户当前所在的城市及区县。

ssid和身份证号码前六位以及经纬度的获取方法包括：根据信贷用户填写的资料，提取出信贷用户的ssid和身份证号码前六位以及经纬度；需要说明的是，身份证的前六位数字表示地址码，地址码就是指编码对象的常住户口所在县(市、旗、区)的行政区划代码。

S300:根据经纬度把商场的ssid剔除，把剩余的ssid记录并存储；考虑到存在商场ssid会产生误差，因此把商场的ssid剔除。

S400:根据剩余的ssid，采用图计算的数据结构构建知识图谱，对相同的ssid作关联标注，并标注为同事，对剩余的ssid相同户籍所在地作关联标注，并标注为老乡，对剩余的ssid相同经纬度作关联标注，并标注为同县区。

需要说明的是，一个公司或单位的ssid是一致的，若任意两人的ssid相同，则这两人为同事关系；若任意两人的户籍所在地相同则该两人为老乡；若任意两人的经纬度相同，则两人为同县区。

请参考图4，图4为知识图谱的一部分，例如，甲和乙的ssid相同，乙和丙的户籍相同，丙和丁的经纬度相同，则甲节点和乙节点之间连线作关联标注，并标注为同事，乙节点和丙节点之间连线作关联标注，并标注为老乡，丙节点和丁节点之间连线作关联标注，并标注为同县区；

请参考图5，图5为知识图谱的一部分，又例如：甲和乙的ssid相同，甲又和丙的户籍相同，乙和丁的经纬度相同，则甲节点和乙节点之间连线作关联标注，并标注为同事，甲节点又和丙节点之间连线作关联标注，并标注为老乡，丙节点和丁节点之间连线作关联标注，并标注为同县区；

请参考图6，图6为完整的知识图谱，将无数个节点以及节点之间的连线组成大的知识图谱；

需要说明的是，采用图计算的数据结构构建知识图谱，具有直观、高效、快速的特点；

S600:按照社区划分算法对embedding进行切割，得到多个社群；

使得实行手工账管理的非常简单，便于联社对基层社发生的每笔业务进行有效的监控，区分信贷用户的好坏。

请参考图2，在本发明的一些实施例中，还包括步骤S800：用常规机器学习算法xgboost进行训练，在知识图谱中，两个节点之间作关联标注的为关系向量，把社群中关系向量作为训练样本，好社群和坏社群标注作为目标target进行训练。

请参考图2，在本发明的一些实施例中，还包括步骤S900：训练之后生成模型，当一个用户申请时先划分到社群，进行关系embedding，代入训练好的模型进行预测。这样，当用户需要申请贷款时，可马上对当前信贷用户进行社群划分，以区分当前信贷用户是否值得信奈，当前信贷用户所在的社群里面超过70％违约的为坏用户社群，把低于10％违约社群标注为好社群。

采用node2vec算法生成embedding具体包括：

优化目标，设f(u)是将顶点u映射为embedding向量的映射函数,对于图中每个顶点u，定义Ns(u)为通过采样策略S采样出的顶点u的近邻顶点集合；node2vec优化的目标是给定每个顶点条件下，令其近邻顶点出现的概率最大，公式为：

max_f＝∑_u∈Vlog Pr(Ns(U)|f(u))；

为了解决最优化问题，提出两个假设：

条件独立性假设：假设给定源顶点下，其近邻顶点出现的概率与近邻集合中其余顶点无关，公式为：

Pr(Ns(u))＝Π_ni∈Ns(u)Pr(ni|f(u))；

特征空间对称性假设：这里是说一个顶点作为源顶点和作为近邻顶点的时候共享同一套embedding向量。(对比LINE中的2阶相似度，一个顶点作为源点和近邻点的时候是拥有不同的embedding向量的)，在这个假设下，上述条件概率公式可表示为：

根据以上两个假设条件，最终的目标函数表示为：

max_f∑_u∈V[-log Z_u+∑_ni∈Ns(u)f(ni)·f(u)]；

由于归一化因子Z_u＝∑_ni∈Ns(u)exp(f(ni)·f(u))；的计算代价高，所以采用负采样技术优化。

请参考图3，第二方面，本发明还提供一种基于图关系社群切分后区分信贷用户好坏的系统，包括：

在本发明的一些实施例中，还包括：

综上，本发明的实施例提供一种基于图计算及社区划分算法区分信贷用户的方法及系统，信贷用户在贷款时会填写ssid、身份证号码和当前所在经纬度，本发明通过信贷用户填写的信息，即可获得信贷用户的户籍所在县以及用户当前所在的城市及区县，获得信贷用户地址的方式简单。考虑到会把商场的ssid记录进去造成误差，因此根据经纬度把商场的ssid剔除，并把剩余的ssid记录并存储，便于后续使用，根据剩余的ssid，采用图计算的数据结构构建知识图谱，对相同的ssid作关联标注，并标注为同事，对剩余的ssid相同户籍所在地作关联标注，并标注为老乡，对剩余的ssid相同经纬度作关联标注，并标注为同县区；采用图计算的数据结构构建知识图谱，具有直观、高效、快速的特点。通过对知识图谱进行随机游走序列把关联标注的关系生成embedding；按照社区划分算法对embedding进行切割，得到多个社群；对社群进行标注，标注的社区里面超过第一阈值违约的为坏用户社群，把低于第二阈值违约社群标注为好社群。使得实行手工账管理的非常简单，便于联社对基层社发生的每笔业务进行有效的监控，区分信贷用户的好坏。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.基于图计算及社区划分算法区分信贷用户的方法，其特征在于，包括以下步骤：

S100:获取信贷用户的ssid、身份证号码和当前所在经纬度；

S300:根据所述经纬度把商场的ssid剔除，把剩余的ssid记录并存储；

S600:按照社区划分算法对embedding进行切割，得到多个社群；

2.根据权利要求1所述的基于图计算及社区划分算法区分信贷用户的方法，其特征在于，还包括步骤S800：用常规机器学习算法xgboost进行训练，在知识图谱中，两个节点之间作关联标注的为关系向量，把社群中关系向量作为训练样本，好社群和坏社群标注作为目标target进行训练。

3.根据权利要求2所述的基于图计算及社区划分算法区分信贷用户的方法，其特征在于，还包括步骤S900：训练之后生成模型，当一个用户申请时先划分到社群，进行关系embedding，代入训练好的模型进行预测。

4.根据权利要求1所述的基于图计算及社区划分算法区分信贷用户的方法，其特征在于，在步骤S500中，生成embedding的方法包括采用node2vec算法。

5.根据权利要求1所述的基于图计算及社区划分算法区分信贷用户的方法，其特征在于，在步骤S700中，所述第一阈值为70％，所述第二阈值为10％。

6.基于图关系社群切分后区分信贷用户好坏的系统，其特征在于，包括：

剔除模块：用于根据所述经纬度把商场的ssid剔除，把剩余的ssid记录并存储；

7.根据权利要求6所述的基于图关系社群切分后区分信贷用户好坏的系统，其特征在于，还包括：

8.根据权利要求7所述的基于图关系社群切分后区分信贷用户好坏的系统，其特征在于，还包括：

9.根据权利要求6所述的基于图关系社群切分后区分信贷用户好坏的系统，其特征在于，所述Embedding生成模块中，生成embedding的方法包括采用node2vec算法。

10.根据权利要求6所述的基于图关系社群切分后区分信贷用户好坏的系统，其特征在于，所述社群划分模块中，所述第一阈值为70％，所述第二阈值为10％。