CN109614496B - 一种基于知识图谱的低保鉴别方法 - Google Patents
一种基于知识图谱的低保鉴别方法 Download PDFInfo
- Publication number
- CN109614496B CN109614496B CN201811130908.9A CN201811130908A CN109614496B CN 109614496 B CN109614496 B CN 109614496B CN 201811130908 A CN201811130908 A CN 201811130908A CN 109614496 B CN109614496 B CN 109614496B
- Authority
- CN
- China
- Prior art keywords
- character
- data
- low
- security
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明提供一种基于知识图谱的低保鉴别方法,包括:1、获取人物的行为和属性信息数据;2、构建人物和人物、人物和属性、人物和商品实体之间的关系,形成人物知识图谱;3、通过搜索人物知识图谱统计人物特征数据;4、根据统计好的人物特征数据构建训练数据集;5、建立分类模型,通过训练数据集对决策树分类器进行训练;6、使用训练好的决策树分类器对人物特征数据进行计算和判别,判别该人物特征数据针对的人物是否为低保人员,完成低保人员和非低保人员的分类;7、若预测人员中出现N%以上是骗保人员,则最低保障的规章制度可能存在漏洞,需要进行调整。本发明可以为有关部门的决策制定和政策实施提供建议,使老百姓的生活得到了保障。
Description
技术领域
本发明涉及通讯技术领域,尤其涉及一种基于知识图谱的低保鉴别方法。
背景技术
骗取低保的行为是指不满足低保条件或存在不予低保的行为,却依然领取低保金的情况。而目前存在骗取低保的行为是由于信息的隐瞒造成的,信息的不对称导致了漏洞的产生。显性的个人信息和隐性的个人信息均是识别骗保的重要信息,可获取到的显性的个人信息如真实的收入、消费信息等比较少,而隐性的个人信息的获取更加艰难。目前关于骗保行为的识别数据来源还不够全面,主要是通过关联低保信息和社保信息进行判断,而更加隐性的个人信息以及行为依旧无法识别,而无法识别很大原因是对人员的审核信息不完全造成的。
针对目前骗取低保的现象,因而如何获得参保人员隐性的个人信息以及如何通过这些隐形的个人信息识别骗取低保行为是大家所关注的重点,故有本发明的技术方案产生。
发明内容
本发明要解决的技术问题,在于提供一种基于知识图谱的低保鉴别方法,通过搜集人物在网络中的信息,通过实体和关系抽取构建人物知识图谱,进而挖掘出人物特征数据,判别出低保人员和非低保人员,从而判断是否存在骗取低保的行为,为有关部门的决策制定和政策实施提供建议,严重打击骗取低保的行为,减少了骗保人员,使老百姓的生活得到了保障。
本发明的问题是这样实现的:
一种基于知识图谱的低保鉴别方法,包括如下步骤:
步骤1、获取人物的行为和属性信息数据,包括低保人物信息数据和非低保人物信息数据;
步骤2、根据所述人物的行为和属性信息数据来构建人物和人物、人物和属性以及人物和商品实体之间的关系,形成人物知识图谱;并将人物和人物、人物和属性以及人物和商品实体之间的关系的结果存储于数据库中;
步骤3、通过搜索人物知识图谱来统计人物特征数据;
步骤4、根据统计好的人物特征数据构建训练数据集,该训练数据集具有复数条低保人员与非低保人员的人物特征数据;
步骤5、建立分类模型,分为低保人员和非低保人员两个类别,通过所述训练数据集对该分类模型中的决策树分类器进行训练;
步骤6、输入需要进行判别的人物特征数据到训练好的分类模型中,使用训练好的决策树分类器对需要进行判别的人物特征数据进行计算和判别,判别该人物特征数据针对的人物是否为低保人员,如果判别结果为该人物属于非低保人员,则说明可能存在骗保的行为,需要将该人物列为重点关注对象,通过委派人员进行实地调查;如果判别结果为该人物属于低保人员,则说明不存在骗保的行为;从而完成低保人员和非低保人员的分类;
步骤7、在判别结果中,若预测人员中出现N%以上是骗保人员,则最低保障的规章制度可能存在漏洞,需要根据实际情况进行适当调整;其中, N为用户自行设定的整数。
进一步地,所述人物的行为和属性信息数据来源于四个方面,分别是低保信息库、民政信息、银行信息及电商平台数据;
低保信息库中提供的数据是低保申请人在申请最低保障的时候所提交的基本申请信息,从该基本申请信息中获取到骗保行为的行为人的信息数据以及非骗保行为的行为人的信息数据,构成训练集中的特征样本数据;
民政信息中提供的数据是人物的人物关系信息,需要获取该人物及其配偶的直系三代的信息;
银行信息中提供的数据是人物的存款、消费情况、理财情况和信用情况;
电商平台数据中提供的数据是人物的消费偏好,主要关注人物对奢饰品关注度,统计人物在一年的时间内浏览的奢侈品次数占总的商品浏览数的比重。
进一步地,所述步骤2中人物和人物、人物和属性以及人物和商品实体之间的关系的结果是按照三元组的形式存储于Neo4j数据库中。
进一步地,所述步骤5之后还包括:
步骤51、对决策树分类器的最优深度进行判别,若训练后的决策树分类器具有最优深度,则无需对分类模型进行优化;若训练后的决策树分类器不具有最优深度,则通过迭代深度参数结合交叉验证方式对决策树分类器的最优深度进行选择,从而完成对分类模型进行优化。
进一步地,所述决策树分类器采用的是ID3算法。
本发明的优点在于:本发明旨在力求全面搜集人物的行为和属性信息数据对是否符合参保条件作出判断。移动互联网的普及使得个人的一些偏好通过浏览痕迹识别出来。通过个人网络信息的实体抽取可以获得主体的关注点,结合显性的收入、消费的数据能够较好的识别出骗保的行为。通过低保信息库、民政信息、银行信息及电商平台数据更为全面的收集人物的行为和属性信息数据,可以更好地解决信息不对称的问题。知识图谱技术可以更好地将人物和人物、人物和属性、人物和商品实体之间的信息关联起来,便于人物特征数据的统计,再通过构建分类模型可以更有效率的对低保人员和非低保人员进行分类,从而识别骗保行为,也可为有关部门的决策制定和政策实施提供建议,严重打击骗取低保的行为,减少了骗保人员,使老百姓的生活得到了保障。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明一种基于知识图谱的低保鉴别方法的执行流程图。
具体实施方式
为使得本发明更明显易懂,现以一优选实施例,并配合附图作详细说明如下。
如图1所示,本发明的一种基于知识图谱的低保鉴别方法,包括如下步骤:
步骤1、获取人物的行为和属性信息数据,包括低保人物信息数据和非低保人物信息数据,所述人物的行为和属性信息数据来源于四个方面,分别是低保信息库、民政信息、银行信息及电商平台数据;其中有:
低保信息库中提供的数据是低保申请人在申请最低保障的时候所提交的基本申请信息,从该基本申请信息中获取到骗保行为的行为人的信息数据以及非骗保行为的行为人的信息数据,构成训练集中的特征样本数据;
民政信息中提供的数据是人物的人物关系信息,需要获取该人物及其配偶(如果有的话)的直系三代的信息;
银行信息中提供的数据是人物的存款、消费情况、理财情况和信用情况;
电商平台数据中提供的数据是人物的消费偏好,主要关注人物对奢饰品关注度,统计人物在一年的时间内浏览的奢侈品次数占总的商品浏览数的比重;
步骤2、根据所述人物的行为和属性信息数据来构建人物和人物、人物和属性以及人物和商品实体之间的关系,形成人物知识图谱;并将人物和人物、人物和属性以及人物和商品实体之间的关系的结果按照三元组的形式存储于Neo4j数据库中(Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中,Neo4j数据库位于人物知识图谱下);三元组的形式如:人物和人物之间的关系三元组为:(人物1,父子,人物 2)等;人物和属性之间的关系三元组为:(人物,性别,男)或(人物,存款,XXX)等;人物和商品实体之间的关系三元组为:(人物,关注,商品1)等;
步骤3、通过搜索人物知识图谱(通过人物知识图谱下Neo4j数据库的搜索引擎进行数据搜索,数据库中存储的是人物的特征数据,但未进行统计) 来统计人物特征数据;因为收集到的是一年的数据,直接统计一年内的特征数据,需要汇集的特征数据有:存款、消费金额、理财投资金额、信用卡借贷金额。关系人物的特征也需要整合到目标人物中,按照关系成为目标人物的特征数据的一部分。如父母,则特征可以表示为父母收入、父母资产、父母消费等,这部分特征和目标个人一致,只是人员身份发生了变化;
步骤4、根据统计好的人物特征数据构建训练数据集,该训练数据集具有复数条低保人员与非低保人员的人物特征数据;为了提高决策树分类器的准确性,需要将训练数据集内的训练数据进行切割,一部分训练数据是用于对分类模型内的决策树分类器进行训练,另一部分训练数据是用于对分类模型内的决策树分类器进行测试;
步骤5、建立分类模型,分为低保人员和非低保人员两个类别,通过所述训练数据集内的训练数据对该分类模型中的决策树分类器进行训练;
这里用到的决策树分类器采用的是ID3算法,ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。决策树是一种贪心算法,每次选取的分割数据的特征都是当前的最佳选择,并不关心是否达到最优。在ID3 中,每次根据“最大信息熵增益”选取当前最佳的特征来分割数据,并按照该特征的所有取值来切分,也就是说如果一个特征有4种取值,数据将被切分4份,一旦按某特征切分后,该特征在之后的算法执行中,将不再起作用,所以有观点认为这种切分方式过于迅速。ID3算法十分简单,核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征,信息熵是信息论里面的概念,是信息的度量方式,不确定度越大或者说越混乱,熵就越大。在建立决策树的过程中,根据特征属性划分数据,使得原本“混乱”的数据的熵 (混乱度)减少,按照不同特征划分数据熵减少的程度会不一样。在ID3中选择熵减少程度最大的特征来划分数据(贪心),也就是“最大信息熵增益”原则。通过信息增益进行特征划分。
分类模型输入的是人物特征数据,输出的是标签数据,标签数据即为是否低保人员的结果,若是为1,否为0。决策树分类器可能存在过拟合的问题,需要对决策树分类器的最优深度进行判别,若训练后的决策树分类器具有最优深度,则无需对分类模型进行优化;若训练后的决策树分类器不具有最优深度,则通过迭代深度参数结合交叉验证方式对决策树分类器的最优深度进行选择,从而完成对分类模型进行优化。
步骤6、输入需要进行判别的人物特征数据到训练好的分类模型中,使用训练好的决策树分类器对需要进行判别的人物特征数据进行计算和判别,判别该人物特征数据针对的人物是否为低保人员,如果判别结果为该人物属于非低保人员,则说明可能存在骗保的行为,需要将该人物列为重点关注对象,通过委派人员进行实地调查;如果判别结果为该人物属于低保人员,则说明不存在骗保的行为;从而完成低保人员和非低保人员的分类;所述分类模型的作用是将最有可能是骗取低保的人员识别出来,可作为骗保行为的决策参考。
步骤7、在判别结果中,若预测人员中出现N%以上是骗保人员,则最低保障的规章制度可能存在漏洞,需要根据实际情况进行适当调整,若预测人员中出现N%以下(包含N%)是骗保人员,则最低保障的规章制度相对比较完善;其中,N为用户自行设定的整数(这里可以将骗保出现的先验概率作为参考,如先验概率中出现骗保的概率为10%,那么如果判别结果中高于这个数值就可以认为是大量)。骗保行为应该属于个别现象,如果分类模型识别出来骗保是一种普遍行为,那么需要考虑审核实施过程中存在哪些漏洞需要进行调整;如果将该方法用于低保候选人资格审查,而审查的结果不符合资格的人数高于往常审查的人数,可能需要对最低保障的标准进行调整。
本发明的优点如下:
本发明旨在力求全面搜集人物的行为和属性信息数据对是否符合参保条件作出判断。移动互联网的普及使得个人的一些偏好通过浏览痕迹识别出来。通过个人网络信息的实体抽取可以获得主体的关注点,结合显性的收入、消费的数据能够较好的识别出骗保的行为。通过低保信息库、民政信息、银行信息及电商平台数据更为全面的收集人物的行为和属性信息数据,可以更好地解决信息不对称的问题。知识图谱技术可以更好地将人物和人物、人物和属性、人物和商品实体之间的信息关联起来,便于人物特征数据的统计,再通过构建分类模型可以更有效率的对低保人员和非低保人员进行分类,从而识别骗保行为,也可为有关部门的决策制定和政策实施提供建议,严重打击骗取低保的行为,减少了骗保人员,使老百姓的生活得到了保障。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (4)
1.一种基于知识图谱的低保鉴别方法,其特征在于:包括如下步骤:
步骤1、获取人物的行为和属性信息数据,包括低保人物信息数据和非低保人物信息数据;所述人物的行为和属性信息数据来源于四个方面,分别是低保信息库、民政信息、银行信息及电商平台数据;低保信息库中提供的数据是低保申请人在申请最低保障的时候所提交的基本申请信息,从该基本申请信息中获取到骗保行为的行为人的信息数据以及非骗保行为的行为人的信息数据,构成训练集中的特征样本数据;民政信息中提供的数据是人物的人物关系信息,需要获取该人物及其配偶的直系三代的信息;银行信息中提供的数据是人物的存款、消费情况、理财情况和信用情况;电商平台数据中提供的数据是人物的消费偏好,主要关注人物对奢饰品关注度,统计人物在一年的时间内浏览的奢侈品次数占总的商品浏览数的比重;
步骤2、根据所述人物的行为和属性信息数据来构建人物和人物、人物和属性以及人物和商品实体之间的关系,形成人物知识图谱;并将人物和人物、人物和属性以及人物和商品实体之间的关系的结果存储于数据库中;
步骤3、通过搜索人物知识图谱来统计人物特征数据;
步骤4、根据统计好的人物特征数据构建训练数据集,该训练数据集具有复数条低保人员与非低保人员的人物特征数据;
步骤5、建立分类模型,分为低保人员和非低保人员两个类别,通过所述训练数据集对该分类模型中的决策树分类器进行训练;
步骤6、输入需要进行判别的人物特征数据到训练好的分类模型中,使用训练好的决策树分类器对需要进行判别的人物特征数据进行计算和判别,判别该人物特征数据针对的人物是否为低保人员,如果判别结果为该人物属于非低保人员,则说明可能存在骗保的行为,需要将该人物列为重点关注对象,通过委派人员进行实地调查;如果判别结果为该人物属于低保人员,则说明不存在骗保的行为;从而完成低保人员和非低保人员的分类;
步骤7、在判别结果中,若预测人员中出现N%以上是骗保人员,则最低保障的规章制度可能存在漏洞,需要根据实际情况进行适当调整;其中,N为用户自行设定的整数。
2.如权利要求1所述的一种基于知识图谱的低保鉴别方法,其特征在于:所述步骤2中人物和人物、人物和属性以及人物和商品实体之间的关系的结果是按照三元组的形式存储于Neo4j数据库中。
3.如权利要求1所述的一种基于知识图谱的低保鉴别方法,其特征在于:所述步骤5之后还包括:
步骤51、对决策树分类器的最优深度进行判别,若训练后的决策树分类器具有最优深度,则无需对分类模型进行优化;若训练后的决策树分类器不具有最优深度,则通过迭代深度参数结合交叉验证方式对决策树分类器的最优深度进行选择,从而完成对分类模型进行优化。
4.如权利要求1所述的一种基于知识图谱的低保鉴别方法,其特征在于:所述决策树分类器采用的是ID3算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811130908.9A CN109614496B (zh) | 2018-09-27 | 2018-09-27 | 一种基于知识图谱的低保鉴别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811130908.9A CN109614496B (zh) | 2018-09-27 | 2018-09-27 | 一种基于知识图谱的低保鉴别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109614496A CN109614496A (zh) | 2019-04-12 |
CN109614496B true CN109614496B (zh) | 2022-06-17 |
Family
ID=66002236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811130908.9A Active CN109614496B (zh) | 2018-09-27 | 2018-09-27 | 一种基于知识图谱的低保鉴别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109614496B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188695B (zh) * | 2019-05-30 | 2021-09-07 | 北京百度网讯科技有限公司 | 购物动作决策方法及装置 |
CN110399496A (zh) * | 2019-07-02 | 2019-11-01 | 厦门耐特源码信息科技有限公司 | 一种基于cr决策树的知识图谱构建方法 |
CN111460052B (zh) * | 2020-04-09 | 2021-10-01 | 内蒙古工业大学 | 一种基于监察数据关联分析的低保资金监督方法与系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260978A (zh) * | 2015-10-26 | 2016-01-20 | 甘肃万维信息技术有限责任公司 | 精准扶贫大数据平台 |
WO2017155292A1 (ko) * | 2016-03-08 | 2017-09-14 | 주식회사 인피니그루 | 비정상행위 탐색방법 및 탐색프로그램 |
CN107346516A (zh) * | 2017-07-17 | 2017-11-14 | 山东浪潮云服务信息科技有限公司 | 一种骗保识别数据分析系统及方法 |
CN107403326A (zh) * | 2017-08-14 | 2017-11-28 | 云数信息科技(深圳)有限公司 | 一种基于电信数据的保险欺诈识别方法及装置 |
CN108109071A (zh) * | 2017-12-29 | 2018-06-01 | 长威信息科技发展股份有限公司 | 基于人员社会关系动态关联的监控方法及电子设备 |
CN108334647A (zh) * | 2018-04-12 | 2018-07-27 | 阿里巴巴集团控股有限公司 | 保险欺诈识别的数据处理方法、装置、设备及服务器 |
CN108364233A (zh) * | 2018-01-12 | 2018-08-03 | 中国平安人寿保险股份有限公司 | 一种保单风险评估方法、装置、终端设备及存储介质 |
-
2018
- 2018-09-27 CN CN201811130908.9A patent/CN109614496B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260978A (zh) * | 2015-10-26 | 2016-01-20 | 甘肃万维信息技术有限责任公司 | 精准扶贫大数据平台 |
WO2017155292A1 (ko) * | 2016-03-08 | 2017-09-14 | 주식회사 인피니그루 | 비정상행위 탐색방법 및 탐색프로그램 |
CN107346516A (zh) * | 2017-07-17 | 2017-11-14 | 山东浪潮云服务信息科技有限公司 | 一种骗保识别数据分析系统及方法 |
CN107403326A (zh) * | 2017-08-14 | 2017-11-28 | 云数信息科技(深圳)有限公司 | 一种基于电信数据的保险欺诈识别方法及装置 |
CN108109071A (zh) * | 2017-12-29 | 2018-06-01 | 长威信息科技发展股份有限公司 | 基于人员社会关系动态关联的监控方法及电子设备 |
CN108364233A (zh) * | 2018-01-12 | 2018-08-03 | 中国平安人寿保险股份有限公司 | 一种保单风险评估方法、装置、终端设备及存储介质 |
CN108334647A (zh) * | 2018-04-12 | 2018-07-27 | 阿里巴巴集团控股有限公司 | 保险欺诈识别的数据处理方法、装置、设备及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN109614496A (zh) | 2019-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI712981B (zh) | 風險辨識模型訓練方法、裝置及伺服器 | |
Modi et al. | Review on fraud detection methods in credit card transactions | |
CN109299811B (zh) | 一种基于复杂网络的欺诈团伙识别和风险传播预测的方法 | |
Taub et al. | Differential correct attribution probability for synthetic data: an exploration | |
CN109614496B (zh) | 一种基于知识图谱的低保鉴别方法 | |
CN109711955B (zh) | 基于当前订单的差评预警方法、系统、黑名单库建立方法 | |
CN111291816A (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
US11562262B2 (en) | Model variable candidate generation device and method | |
US11538044B2 (en) | System and method for generation of case-based data for training machine learning classifiers | |
Sharmila et al. | Credit card fraud detection using anomaly techniques | |
CN112053222A (zh) | 一种基于知识图谱的互联网金融团伙欺诈行为检测方法 | |
JP2016206878A (ja) | 営業員育成支援システムおよび営業員育成支援方法 | |
CN110119980A (zh) | 一种用于信贷的反欺诈方法、装置、系统和记录介质 | |
CN112927072A (zh) | 一种基于区块链的反洗钱仲裁方法、系统及相关装置 | |
KR102005733B1 (ko) | 온라인 빅데이터 분석을 통해 도출된 신용도 평가 결과를 이용한 블록체인 기반 p2p 금융 서비스 제공 시스템 | |
US20230077107A1 (en) | Method for assessing individual vulnerability to predatory internet attacks | |
Khodabakhshi et al. | Fraud detection in banking using knn (k-nearest neighbor) algorithm | |
CN115577172A (zh) | 物品推荐方法、装置、设备及介质 | |
Esakkiraj et al. | A predictive approach for fraud detection using hidden Markov model | |
CN112199480B (zh) | 一种基于bert模型的在线对话日志违规检测方法及系统 | |
Jamshidi et al. | An efficient data enrichment scheme for fraud detection using social network analysis | |
Eshghi et al. | Introducing a method for combining supervised and semi-supervised methods in fraud detection | |
Ergu et al. | Predicting personality with twitter data and machine learning models | |
Chen et al. | Online deception investigation: Content analysis and cross-cultural comparison | |
CN110570301B (zh) | 风险识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |