CN109614496B

CN109614496B - 一种基于知识图谱的低保鉴别方法

Info

Publication number: CN109614496B
Application number: CN201811130908.9A
Authority: CN
Inventors: 陈征宇; 林韶军; 林文国; 洪章阳; 毛礼标; 黄炳裕
Original assignee: Evecom Information Technology Development Co ltd
Current assignee: Evecom Information Technology Development Co ltd
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2022-06-17
Anticipated expiration: 2038-09-27
Also published as: CN109614496A

Abstract

本发明提供一种基于知识图谱的低保鉴别方法，包括：1、获取人物的行为和属性信息数据；2、构建人物和人物、人物和属性、人物和商品实体之间的关系，形成人物知识图谱；3、通过搜索人物知识图谱统计人物特征数据；4、根据统计好的人物特征数据构建训练数据集；5、建立分类模型，通过训练数据集对决策树分类器进行训练；6、使用训练好的决策树分类器对人物特征数据进行计算和判别，判别该人物特征数据针对的人物是否为低保人员，完成低保人员和非低保人员的分类；7、若预测人员中出现N％以上是骗保人员，则最低保障的规章制度可能存在漏洞，需要进行调整。本发明可以为有关部门的决策制定和政策实施提供建议，使老百姓的生活得到了保障。

Description

一种基于知识图谱的低保鉴别方法

技术领域

本发明涉及通讯技术领域，尤其涉及一种基于知识图谱的低保鉴别方法。

背景技术

骗取低保的行为是指不满足低保条件或存在不予低保的行为，却依然领取低保金的情况。而目前存在骗取低保的行为是由于信息的隐瞒造成的，信息的不对称导致了漏洞的产生。显性的个人信息和隐性的个人信息均是识别骗保的重要信息，可获取到的显性的个人信息如真实的收入、消费信息等比较少，而隐性的个人信息的获取更加艰难。目前关于骗保行为的识别数据来源还不够全面，主要是通过关联低保信息和社保信息进行判断，而更加隐性的个人信息以及行为依旧无法识别，而无法识别很大原因是对人员的审核信息不完全造成的。

针对目前骗取低保的现象，因而如何获得参保人员隐性的个人信息以及如何通过这些隐形的个人信息识别骗取低保行为是大家所关注的重点，故有本发明的技术方案产生。

发明内容

本发明要解决的技术问题，在于提供一种基于知识图谱的低保鉴别方法，通过搜集人物在网络中的信息，通过实体和关系抽取构建人物知识图谱，进而挖掘出人物特征数据，判别出低保人员和非低保人员，从而判断是否存在骗取低保的行为，为有关部门的决策制定和政策实施提供建议，严重打击骗取低保的行为，减少了骗保人员，使老百姓的生活得到了保障。

本发明的问题是这样实现的：

一种基于知识图谱的低保鉴别方法，包括如下步骤：

步骤1、获取人物的行为和属性信息数据，包括低保人物信息数据和非低保人物信息数据；

步骤2、根据所述人物的行为和属性信息数据来构建人物和人物、人物和属性以及人物和商品实体之间的关系，形成人物知识图谱；并将人物和人物、人物和属性以及人物和商品实体之间的关系的结果存储于数据库中；

步骤3、通过搜索人物知识图谱来统计人物特征数据；

步骤4、根据统计好的人物特征数据构建训练数据集，该训练数据集具有复数条低保人员与非低保人员的人物特征数据；

步骤5、建立分类模型，分为低保人员和非低保人员两个类别，通过所述训练数据集对该分类模型中的决策树分类器进行训练；

步骤6、输入需要进行判别的人物特征数据到训练好的分类模型中，使用训练好的决策树分类器对需要进行判别的人物特征数据进行计算和判别，判别该人物特征数据针对的人物是否为低保人员，如果判别结果为该人物属于非低保人员，则说明可能存在骗保的行为，需要将该人物列为重点关注对象，通过委派人员进行实地调查；如果判别结果为该人物属于低保人员，则说明不存在骗保的行为；从而完成低保人员和非低保人员的分类；

步骤7、在判别结果中，若预测人员中出现N％以上是骗保人员，则最低保障的规章制度可能存在漏洞，需要根据实际情况进行适当调整；其中， N为用户自行设定的整数。

进一步地，所述人物的行为和属性信息数据来源于四个方面，分别是低保信息库、民政信息、银行信息及电商平台数据；

低保信息库中提供的数据是低保申请人在申请最低保障的时候所提交的基本申请信息，从该基本申请信息中获取到骗保行为的行为人的信息数据以及非骗保行为的行为人的信息数据，构成训练集中的特征样本数据；

民政信息中提供的数据是人物的人物关系信息，需要获取该人物及其配偶的直系三代的信息；

银行信息中提供的数据是人物的存款、消费情况、理财情况和信用情况；

电商平台数据中提供的数据是人物的消费偏好，主要关注人物对奢饰品关注度，统计人物在一年的时间内浏览的奢侈品次数占总的商品浏览数的比重。

进一步地，所述步骤2中人物和人物、人物和属性以及人物和商品实体之间的关系的结果是按照三元组的形式存储于Neo4j数据库中。

进一步地，所述步骤5之后还包括：

步骤51、对决策树分类器的最优深度进行判别，若训练后的决策树分类器具有最优深度，则无需对分类模型进行优化；若训练后的决策树分类器不具有最优深度，则通过迭代深度参数结合交叉验证方式对决策树分类器的最优深度进行选择，从而完成对分类模型进行优化。

进一步地，所述决策树分类器采用的是ID3算法。

本发明的优点在于：本发明旨在力求全面搜集人物的行为和属性信息数据对是否符合参保条件作出判断。移动互联网的普及使得个人的一些偏好通过浏览痕迹识别出来。通过个人网络信息的实体抽取可以获得主体的关注点，结合显性的收入、消费的数据能够较好的识别出骗保的行为。通过低保信息库、民政信息、银行信息及电商平台数据更为全面的收集人物的行为和属性信息数据，可以更好地解决信息不对称的问题。知识图谱技术可以更好地将人物和人物、人物和属性、人物和商品实体之间的信息关联起来，便于人物特征数据的统计，再通过构建分类模型可以更有效率的对低保人员和非低保人员进行分类，从而识别骗保行为，也可为有关部门的决策制定和政策实施提供建议，严重打击骗取低保的行为，减少了骗保人员，使老百姓的生活得到了保障。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明一种基于知识图谱的低保鉴别方法的执行流程图。

具体实施方式

为使得本发明更明显易懂，现以一优选实施例，并配合附图作详细说明如下。

如图1所示，本发明的一种基于知识图谱的低保鉴别方法，包括如下步骤：

步骤1、获取人物的行为和属性信息数据，包括低保人物信息数据和非低保人物信息数据，所述人物的行为和属性信息数据来源于四个方面，分别是低保信息库、民政信息、银行信息及电商平台数据；其中有：

民政信息中提供的数据是人物的人物关系信息，需要获取该人物及其配偶(如果有的话)的直系三代的信息；

电商平台数据中提供的数据是人物的消费偏好，主要关注人物对奢饰品关注度，统计人物在一年的时间内浏览的奢侈品次数占总的商品浏览数的比重；

步骤2、根据所述人物的行为和属性信息数据来构建人物和人物、人物和属性以及人物和商品实体之间的关系，形成人物知识图谱；并将人物和人物、人物和属性以及人物和商品实体之间的关系的结果按照三元组的形式存储于Neo4j数据库中(Neo4j是一个高性能的,NOSQL图形数据库，它将结构化数据存储在网络上而不是表中，Neo4j数据库位于人物知识图谱下)；三元组的形式如：人物和人物之间的关系三元组为：(人物1，父子，人物 2)等；人物和属性之间的关系三元组为：(人物，性别，男)或(人物，存款，XXX)等；人物和商品实体之间的关系三元组为：(人物，关注，商品1)等；

步骤3、通过搜索人物知识图谱(通过人物知识图谱下Neo4j数据库的搜索引擎进行数据搜索，数据库中存储的是人物的特征数据，但未进行统计) 来统计人物特征数据；因为收集到的是一年的数据，直接统计一年内的特征数据，需要汇集的特征数据有：存款、消费金额、理财投资金额、信用卡借贷金额。关系人物的特征也需要整合到目标人物中，按照关系成为目标人物的特征数据的一部分。如父母，则特征可以表示为父母收入、父母资产、父母消费等，这部分特征和目标个人一致，只是人员身份发生了变化；

步骤4、根据统计好的人物特征数据构建训练数据集，该训练数据集具有复数条低保人员与非低保人员的人物特征数据；为了提高决策树分类器的准确性，需要将训练数据集内的训练数据进行切割，一部分训练数据是用于对分类模型内的决策树分类器进行训练，另一部分训练数据是用于对分类模型内的决策树分类器进行测试；

步骤5、建立分类模型，分为低保人员和非低保人员两个类别，通过所述训练数据集内的训练数据对该分类模型中的决策树分类器进行训练；

这里用到的决策树分类器采用的是ID3算法，ID3决策树可以有多个分支，但是不能处理特征值为连续的情况。决策树是一种贪心算法，每次选取的分割数据的特征都是当前的最佳选择，并不关心是否达到最优。在ID3 中，每次根据“最大信息熵增益”选取当前最佳的特征来分割数据，并按照该特征的所有取值来切分，也就是说如果一个特征有4种取值，数据将被切分4份，一旦按某特征切分后，该特征在之后的算法执行中，将不再起作用，所以有观点认为这种切分方式过于迅速。ID3算法十分简单，核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征，信息熵是信息论里面的概念，是信息的度量方式，不确定度越大或者说越混乱，熵就越大。在建立决策树的过程中，根据特征属性划分数据，使得原本“混乱”的数据的熵 (混乱度)减少，按照不同特征划分数据熵减少的程度会不一样。在ID3中选择熵减少程度最大的特征来划分数据(贪心)，也就是“最大信息熵增益”原则。通过信息增益进行特征划分。

分类模型输入的是人物特征数据，输出的是标签数据，标签数据即为是否低保人员的结果，若是为1，否为0。决策树分类器可能存在过拟合的问题，需要对决策树分类器的最优深度进行判别，若训练后的决策树分类器具有最优深度，则无需对分类模型进行优化；若训练后的决策树分类器不具有最优深度，则通过迭代深度参数结合交叉验证方式对决策树分类器的最优深度进行选择，从而完成对分类模型进行优化。

步骤6、输入需要进行判别的人物特征数据到训练好的分类模型中，使用训练好的决策树分类器对需要进行判别的人物特征数据进行计算和判别，判别该人物特征数据针对的人物是否为低保人员，如果判别结果为该人物属于非低保人员，则说明可能存在骗保的行为，需要将该人物列为重点关注对象，通过委派人员进行实地调查；如果判别结果为该人物属于低保人员，则说明不存在骗保的行为；从而完成低保人员和非低保人员的分类；所述分类模型的作用是将最有可能是骗取低保的人员识别出来，可作为骗保行为的决策参考。

步骤7、在判别结果中，若预测人员中出现N％以上是骗保人员，则最低保障的规章制度可能存在漏洞，需要根据实际情况进行适当调整，若预测人员中出现N％以下(包含N％)是骗保人员，则最低保障的规章制度相对比较完善；其中，N为用户自行设定的整数(这里可以将骗保出现的先验概率作为参考，如先验概率中出现骗保的概率为10％，那么如果判别结果中高于这个数值就可以认为是大量)。骗保行为应该属于个别现象，如果分类模型识别出来骗保是一种普遍行为，那么需要考虑审核实施过程中存在哪些漏洞需要进行调整；如果将该方法用于低保候选人资格审查，而审查的结果不符合资格的人数高于往常审查的人数，可能需要对最低保障的标准进行调整。

本发明的优点如下：

本发明旨在力求全面搜集人物的行为和属性信息数据对是否符合参保条件作出判断。移动互联网的普及使得个人的一些偏好通过浏览痕迹识别出来。通过个人网络信息的实体抽取可以获得主体的关注点，结合显性的收入、消费的数据能够较好的识别出骗保的行为。通过低保信息库、民政信息、银行信息及电商平台数据更为全面的收集人物的行为和属性信息数据，可以更好地解决信息不对称的问题。知识图谱技术可以更好地将人物和人物、人物和属性、人物和商品实体之间的信息关联起来，便于人物特征数据的统计，再通过构建分类模型可以更有效率的对低保人员和非低保人员进行分类，从而识别骗保行为，也可为有关部门的决策制定和政策实施提供建议，严重打击骗取低保的行为，减少了骗保人员，使老百姓的生活得到了保障。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于知识图谱的低保鉴别方法，其特征在于：包括如下步骤：

步骤1、获取人物的行为和属性信息数据，包括低保人物信息数据和非低保人物信息数据；所述人物的行为和属性信息数据来源于四个方面，分别是低保信息库、民政信息、银行信息及电商平台数据；低保信息库中提供的数据是低保申请人在申请最低保障的时候所提交的基本申请信息，从该基本申请信息中获取到骗保行为的行为人的信息数据以及非骗保行为的行为人的信息数据，构成训练集中的特征样本数据；民政信息中提供的数据是人物的人物关系信息，需要获取该人物及其配偶的直系三代的信息；银行信息中提供的数据是人物的存款、消费情况、理财情况和信用情况；电商平台数据中提供的数据是人物的消费偏好，主要关注人物对奢饰品关注度，统计人物在一年的时间内浏览的奢侈品次数占总的商品浏览数的比重；

步骤3、通过搜索人物知识图谱来统计人物特征数据；

步骤7、在判别结果中，若预测人员中出现N%以上是骗保人员，则最低保障的规章制度可能存在漏洞，需要根据实际情况进行适当调整；其中，N为用户自行设定的整数。

2.如权利要求1所述的一种基于知识图谱的低保鉴别方法，其特征在于：所述步骤2中人物和人物、人物和属性以及人物和商品实体之间的关系的结果是按照三元组的形式存储于Neo4j数据库中。

3.如权利要求1所述的一种基于知识图谱的低保鉴别方法，其特征在于：所述步骤5之后还包括：

4.如权利要求1所述的一种基于知识图谱的低保鉴别方法，其特征在于：所述决策树分类器采用的是ID3算法。