CN108984773A - 数据缺失情况下的黑名单多维信息验证方法及系统及可读存储介质及设备 - Google Patents

数据缺失情况下的黑名单多维信息验证方法及系统及可读存储介质及设备 Download PDF

Info

Publication number
CN108984773A
CN108984773A CN201810814150.4A CN201810814150A CN108984773A CN 108984773 A CN108984773 A CN 108984773A CN 201810814150 A CN201810814150 A CN 201810814150A CN 108984773 A CN108984773 A CN 108984773A
Authority
CN
China
Prior art keywords
information
blacklist
similarity
account registration
people
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810814150.4A
Other languages
English (en)
Other versions
CN108984773B (zh
Inventor
陈鹏
熊伟
陈宇
芦帅
汪宁
谢伟良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou ping pong Intelligent Technology Co.,Ltd.
Original Assignee
Hangzhou Pingpeng Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Pingpeng Intelligent Technology Co Ltd filed Critical Hangzhou Pingpeng Intelligent Technology Co Ltd
Priority to CN201810814150.4A priority Critical patent/CN108984773B/zh
Publication of CN108984773A publication Critical patent/CN108984773A/zh
Application granted granted Critical
Publication of CN108984773B publication Critical patent/CN108984773B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种数据缺失情况下的黑名单多维信息验证方法及系统及可读存储介质及设备,其中验证方法包括如下步骤:S1:获取交易平台上当前交易的账户注册人的基础信息,所述基础信息为交易平台获取到的账户注册人在注册时提交的注册信息和/或在交易时上传的动态信息;S3:从获取到的基础信息中挖掘出与黑名单系统中相同字段的信息;S5:将挖掘到的信息与黑名单系统中每条记录从各个字段角度进行相似度比对,并记下与每条记录中和各个字段的相似度值;S7:采用决策树算法对相似度的比对结果进行综合判定,判定所述账户注册人是否落入黑名单系统。本发明方法,增加了比对的维度,提高了黑名单验证的效率和准确度。

Description

数据缺失情况下的黑名单多维信息验证方法及系统及可读存 储介质及设备
技术领域
本发明属于黑名单验证领域,尤其涉及一种数据缺失情况下的黑名单多维信息验证方法及系统及可读存储介质及设备。
背景技术
随着全球经济一体化的发展,利用金融机构进行的洗钱活动日益猖獗。与此同时,越来越多的个人或实体通过违反相关国家的法律和国际法来进行洗钱活动,我们将这些由各国政府、国际组织制定的应受到制裁的个人、实体或国家的名单统称为黑名单。黑名单中通常包括执行主体的姓名、身份证号码、户籍地、家庭地址、银行卡号、银行卡预留手机号、紧急联系人。
联合国不定期向各国发布涉嫌恐怖组织和个人的银行资金帐户黑名单,要求各国实施密切监控、资金冻结等措施,在交易过程中,首先会向黑名单系统发一个查询,检查这个帐户的持有人是否存在在黑名单中,如果存在在黑名单中,系统即时给正在交易的系统进行反馈,并提醒冻结帐户。因此,为了实现黑名单客户筛选的计算机化,提高黑名单信息自动录入、黑名单客户识别效率,各个银行及支付机构都开始研究开发反洗钱黑名单自动过滤系统。
传统的黑名单比对方法由于缺乏待检测账户注册人完整的信息,以致于单纯的采用姓名进行比对,此方法由于重复个体的大量存在,会导致大量不准确结果的出现,比对效率低下且容易出错。
发明内容
本发明需要解决的技术问题是针对现有技术中,在进行黑名单验证时验证机构缺乏待检测账户持有人完整身份信息,而单独采用姓名进行比对,导致大量的比对结果不准确的情况,提出一种数据缺失情况下的黑名单多维信息验证方法及系统及可读存储介质及设备,其能够提高黑名单验证的效率以及准确度。
为解决上述问题,本发明的技术方案为:
一种数据缺失情况下的黑名单多维信息验证方法,包括如下步骤:
S1:获取交易平台上当前交易的账户注册人的基础信息,所述基础信息为在所述交易平台获取到的所述账户注册人在注册账户时提交的注册信息和/或所述账户注册人在交易时上传的动态信息;
S3:从获取到的所述基础信息中挖掘出与黑名单系统中相同字段的信息;
S5:将挖掘到的信息与所述黑名单系统中的每条记录从各个字段角度进行相似度比对,并记下与每条记录中和各个字段的相似度值;
S7:采用决策树算法对相似度的比对结果进行综合判定,判定所述账户注册人是否落入所述黑名单系统。
根据本发明的一实施例,步骤S1中,所述账户注册人的注册信息包括所述账户注册人的姓名、身份证号码、银行卡号、电话号码,所述动态信息包括所述账户注册人的历史定位轨迹信息以及所述账户注册人授权的社交网络信息;
步骤S3中,所述从获取到的所述基础信息中挖掘出与黑名单系统中相同字段的信息,包括从所述账户注册人的历史定位轨迹信息得到的所述账户注册人的家庭地址;以及从所述账户注册人授权的社交网络信息中,获取到的所述账户注册人的好友信息,包括好友的姓名和联系电话;
所述账户注册人的姓名、身份证号码、电话号码、银行卡号、家庭地址、好友的姓名和联系电话记为账户注册人信息。
根据本发明的一实施例,步骤S3中,所述从获取到的所述基础信息中挖掘出与黑名单系统中相同字段的信息,还包括从所述账户注册人的银行卡号中挖掘出所述银行卡的注册人的基本信息,记为银行卡注册人信息,所述银行卡注册人信息包括所述银行卡注册人的姓名、身份证号码、户籍地址、预留电话号码、家庭地址、紧急联系人姓名和电话号码;
在步骤S3之后、S5之前,还包括步骤S4:判断所述账户注册人和所述银行卡注册人是否为相同人员。
根据本发明的一实施例,在步骤S4的判断中,若为相同人员,则步骤S5具体为:分别将所述账户注册人信息和所述银行卡注册人信息与所述黑名单系统中每条记录从各个字段角度进行相似度比对,记下与每条记录中和各个字段的相似度值,当所述账户注册人信息和所述银行卡注册人信息中同一个字段存在不同时,选择并保留与黑名单系统中相应字段相似度值较高的信息,删除与所述黑名单系统中相应字段相似度值较低的信息;
若为不同人员,则步骤S5具体为:分别将所述账户注册人信息和所述银行卡注册人信息与所述黑名单系统中每条记录从各个字段角度进行相似度比对,记下与每条记录中和各个字段的相似度值。
根据本发明的一实施例,当所述账户注册人和所述银行卡注册人是相同人员,则步骤S7具体为:采用第一决策树算法对相似度的比对结果进行综合判定,判定所述账户注册人是否落入所述黑名单系统,具体步骤如下:
通过基于字段相似度的第一决策树对所述账户注册人信息进行判定,确定所述账户注册人是否落入所述黑名单系统中;其中,所述基于字段相似度的第一决策树的构建步骤包括:
A1.设定落入所述黑名单系统的判断标准,将具有以下特征的所述账户注册人信息判定为落入黑名单系统:根据字段的权重设定每个字段相似度的阈值,若所述账户注册人信息中权重较高的字段与黑名单中记录的相似度值均超过阈值,则判定所述账户注册人落入所述黑名单系统,具体为:
A2.从落入所述黑名单系统的账户注册人信息中提取属性特征并生成训练数据集,所述属性特征包括姓名相似度、身份证是否相同、银行卡号是否相同、户籍地址是否相同、手机号码是否与预留手机号码相同、好友与黑名单中紧急联系人的相似度、家庭地址相似度;
A3.计算训练数据集中包含的每个属性特征的信息增益,根据该信息增益选择最佳的分裂决策属性作为节点构造所述第一决策树;
当所述账户注册人和所述银行卡注册人是不同人员,则步骤S7具体为:
先采用账户注册人信息决策树判定所述账户注册人信息是否落入黑名单系统中,并在所述账户注册人信息未落入黑名单系统时,再采用银行卡注册人信息决策树判定所述银行卡注册人信息是否落入黑名单系统中;
其中所述账户注册人信息决策树构造步骤如下:
B1:设定落入所述黑名单系统的判断标准,将满足以下条件的所述账户注册人信息判定为落入所述黑名单系统:根据字段的权重设定每个字段相似度的阈值,若所述账户注册人信息中权重较高的字段与黑名单中记录的相似度值均超过阈值,则判定所述账户注册人信息落入所述黑名单系统;
B2.从落入所述黑名单系统的账户注册人信息中提取属性特征并生成训练数据集,所述属性特征包括姓名相似度、身份证是否相同、银行卡是否相同、手机号码是否与预留手机号码相同、好友与黑名单中紧急联系人的相似度、家庭地址相似度;
B3.计算训练数据集中包含的每个属性特征的信息增益,根据该信息增益选择最佳的分裂决策属性作为节点构造所述账户注册人信息决策树;
所述银行卡注册人信息决策树构造步骤如下:
B4:设定落入所述黑名单系统的判断标准,将满足以下条件的所述银行卡注册人信息判定为落入所述黑名单系统:根据字段的权重设定每个字段相似度的阈值,若所述银行卡注册人信息中权重较高的字段与黑名单中记录的相似度值均超过阈值,则判定所述银行卡注册人信息落入所述黑名单系统;
B5.从落入所述黑名单系统的银行卡注册人信息中提取属性特征并生成训练数据集,所述属性特征包括姓名相似度、身份证是否相同、手机号码是否与预留手机号码相同、紧急联系人与黑名单中紧急联系人的相似度、家庭地址相似度、户籍地址是否相同;
B6.计算训练数据集中包含的每个属性特征的信息增益,根据该信息增益选择最佳的分裂决策属性作为节点构造所述银行卡注册人信息决策树。
根据本发明的一实施例,所述步骤S5中,好友与紧急联系人的比对方法如下:
将挖掘到的好友的姓名与所述黑名单系统中紧急联系人的姓名进行比对,其中姓名的比对方法如下:
对姓名的每个字分别进行比对,具体的是:将姓名中的每个字转化成对应的数字和字母组成的字符串,再通过比对字符串的相似度来计算姓名的相似度;同时,将对应的电话号码与所述黑名单系统中紧急联系人的电话号码进行比对,记录电话号码是否相等,对于好友的姓名和电话号码与所述黑名单系统中紧急联系人的姓名和电话号码的相似度分别赋予相应权重,计算好友与紧急联系人的相似度;
银行卡号、身份证号码、手机号码的比对方法如下:
分别比较挖掘出的银行卡号、手机号码、身份证号码是否与所述黑名单系统中的银行卡号、预留手机号码和身份证号码相等,记录比对结果;
户籍地址比对方法如下:
建立户籍地对比库,将每个城市的名称、常用的缩写对应记录,比较挖掘出的户籍地址和所述黑名单系统中的户籍地址是否在同一条记录中,若是,则户籍地址相同,否则,户籍地址不同;
家庭地址比对方法如下:
把每个待检测的地址以及黑名单中的目标地址分别按照省、市、区、街道、小区进行分词,得到两个字符子串,分别定义为待检测字符子串和目标字符子串,将两个字符子串中都存在的词组的个数定义为q,将待检测字符子串中存在但目标字符子串中不存在的词组个数定义为s,将待检测字符子串中不存在但目标字符子串中存在的词组个数定义为r,计算待检测地址和目标地址之间的相异度公式为:
基于同一发明构思,本发明还公开了一种数据缺失情况下的黑名单多维信息验证系统,包括:
数据采集模块:执行获取交易平台上当前交易的账户注册人的基础信息,所述基础信息为在所述交易平台获取到的所述账户注册人在注册时提交的注册信息和/或所述账户注册人在交易时上传的动态信息;
信息挖掘模块:执行从获取到的所述基础信息中挖掘出与黑名单系统中相同字段的信息;
相似度比对模块:将挖掘到的信息与所述黑名单系统中每条记录从各个字段角度进行相似度比对,并记下与每条记录中和各个字段的相似度值;
综合判定模块:采用决策树算法对相似度的比对结果进行综合判定,判定所述账户注册人是否落入所述黑名单系统。
根据本发明的一个实施例,所述账户注册人的注册信息包括所述账户注册人的银行卡号;
所述信息挖掘模块还执行从所述账户注册人的银行卡号中挖掘出所述银行卡的注册人的基本信息,记为银行卡注册人信息;
所述数据缺失情况下的黑名单多维信息验证系统还包括判断模块,执行判断所述账户注册人和所述银行卡注册人是否为相同人员。
基于同一发明构思,本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现上述任意一实施例中的所述数据缺失情况下的黑名单多维信息验证方法。
基于同一发明构思,本发明还公开了一种计算机设备,包括存储器和处理器以及存储在存储器上并可被处理器调用的计算机程序,所述处理器执行所述计算机程序时,实现上述任意一实施例中的所述数据缺失情况下的黑名单多维信息验证方法。
本发明由于采用以上技术方案,使其与现有技术相比具有以下的优点和积极效果:
(1)本发明方法,通过从当前交易的账户注册人的基础信息中挖掘出与黑名单系统中相同字段的信息,再将挖掘出的各种信息分别与黑名单系统中的各字段信息进行比对,相对于现有比对方式,增加了比对的维度,能有效避免因缺乏账户注册人的完整身份信息而只采用姓名比对时,由于大量重名个体存在导致的错把非黑名单人员认定为黑名单人员的情况,提高了黑名单验证的效率和准确度;
(2)通过使用决策树算法对上述相似度比对结果进行综合判定,判断信息所对应的主体是否落入黑名单系统,所得到的黑名单验证结果更加客观、准确、可靠;
(3)本发明方法,在提高比对准确率的基础上,无需人工介入,大大提高了黑名单验证的效率。
附图说明
图1为本发明的黑名单验证方法的流程图;
图2为本发明一实施例中第一决策树的示意图;
图3为本发明一实施例中账户注册人信息决策树的示意图;
图4为本发明一实施例中银行卡注册人信息决策树的示意图。
具体实施方式
以下结合附图和具体实施例对本发明提出的一种数据缺失情况下的黑名单多维信息验证方法及系统及可读存储介质及设备作进一步详细说明。根据下面说明和权利要求书,本发明的优点和特征将更清楚。
参看图1,在一个实施例中,一种数据缺失情况下的黑名单多维信息验证方法,包括如下步骤:
S1:获取交易平台上当前交易的账户注册人的基础信息,基础信息为交易平台获取到的账户注册人在注册时提交的注册信息和/或账户注册人在交易时上传的动态信息;
S3:从获取到的基础信息中挖掘出与黑名单系统中相同字段的信息;
S5:将挖掘到的信息与黑名单系统中每条记录从各个字段角度进行相似度比对,并记下与每条记录中和各个字段的相似度值;
S7:采用决策树算法对相似度的比对结果进行综合判定,判定账户注册人是否落入黑名单系统。
传统的黑名单比对方法由于缺乏待检测账户注册人完整的信息,以致于单纯的采用姓名进行比对,此方法由于重复个体的大量存在,会导致大量不准确结果的出现,比对效率低下且容易出错。本实施例通过获取当前交易的账户注册人的基础信息,并从中挖掘出与黑名单系统中相同字段的信息,再将挖掘出的各种信息分别与黑名单系统中的各字段信息进行比对,相对于现有比对方式,增加了信息比对的维度,能有效避免现有技术中由于缺乏账户注册人的完整身份信息而只采用姓名比对,由于大量重名存在导致的错把非黑名单人员认定为黑名单人员的情况,提高了黑名单验证的效率和准确度。
下面对本发明实施例的黑名单多维信息验证方法进行具体的描述,但不应以此作为限制。
步骤S1中,账户注册人的基础信息包括账户注册人的姓名、身份证号码、银行卡号、电话号码,动态信息包括账户注册人的历史定位轨迹信息以及账户注册人授权的社交网络信息。
一般在注册交易系统时,会要求用户提交账户注册人的姓名、身份证号码、银行卡号、电话号码,绑定的银行卡号用来扣款,以上信息在本发明实施例被定义为注册信息。本发明的基础信息还包括账户注册人的历史定位轨迹信息以及账户注册人授权的社交网络信息,其中历史定位轨迹信息为运行交易系统时,交易系统获取到的账户注册人GPS定位信息。当然在账户注册人使用的账户登录终端支持别的定位系统(例如北斗系统)时,本发明的方法同样也能获取相关历史定位轨迹信息。账户注册人授权的社交网络信息,用户(指账户注册人,下同)授权交易系统访问的社交网络信息,例如通讯录、支付宝好友、微信好友、微博好友等信息。
步骤S3中,从获取到的基础信息中挖掘出与黑名单系统中相同字段的信息,包括:从账户注册人的历史定位轨迹信息得到账户注册人的家庭地址;从账户注册人的银行卡号中挖掘出银行卡的注册人的基本信息,记为银行卡注册人信息,银行卡注册人信息包括银行卡注册人的姓名、身份证号码、户籍地址、预留电话号码、家庭地址、紧急联系人姓名和电话号码;以及从账户注册人授权的社交网络信息中,获取到账户注册人的好友信息,包括好友的姓名和联系电话。账户注册人的姓名、身份证号码、银行卡号、电话号码、家庭地址、好友的姓名和联系电话在此记为账户注册人信息。
上述步骤中,具体实现过程如下:
从账户注册人的历史定位轨迹信息得到账户注册人的家庭地址,具体为:
获取账户持有人在交易时上传的历史定位轨迹信息,通过该账户持有人的常活动地理区域及历史活动轨迹挖掘出该用户的家庭地址,其中将晚八点至早八点出现最多的地址作为家庭地址。
获取当前交易的银行卡号,若当前交易为第三方支付平台上的交易,则根据第三方支付平台账号获取到绑定的银行卡号,根据银行卡号获取到注册该银行卡号时提交的姓名、身份证号码、户籍地址、预留电话号码、家庭地址、紧急联系人姓名和电话号码。
获取账户持有人授权的社交网络信息,从中获取到账户持有人的好友信息,包括好友的姓名和联系电话;其中社交网络包括社交平台,如微信、微博,QQ等,也包括手机内存储的通讯录等。
账户注册人在注册第三方支付平台时,通常需要提交姓名、身份证号码、电话号码等信息。
在本发明实施例中,账户注册人可以绑定一张或多张银行卡,账户注册人绑定的银行卡可能是账户注册人本人的银行卡,也可能不是用自己名义注册的银行卡,即绑定的是别人的银行卡,因此需要根据基础信息中的银行卡号挖掘出该银行卡所对应的户主(即注册人)的信息,以便用于判断账户注册人与银行卡注册人是否为同一人,并在账户注册人与银行卡注册人为不同人员时,增加银行卡注册人信息与黑名单系统的比对,以免单纯比对账户注册人信息而漏掉可能落入黑名单的银行卡注册人信息。因此,在将账户注册人信息与黑名单系统进行比对的基础上,增加银行卡注册人信息和黑名单系统的比对,扩大了黑名单验证的范围,提高了验证的准确度,保证了黑名单验证的全面性。
步骤S4:判断账户注册人和银行卡注册人是否为相同人员。
具体地,步骤S4中可通过判断账户注册人的身份证号码和银行卡注册人的身份证号码是否相同来判定账户注册人和银行卡注册人是否为相同人员。当然,也可以通过姓名、电话号码、家庭地址等多种信息进行综合判断。
下面分别基于步骤S4的判断结果,对步骤S5和S7进行描述。
在步骤S4的判断中,若为相同人员,则步骤S5具体为:分别将账户注册人信息和银行卡注册人信息与黑名单系统中每条记录从各个字段角度进行相似度比对,记下与每条记录中和各个字段的相似度值,当账户注册人信息和银行卡注册人信息中同一个字段存在不同时,选择并保留与黑名单系统中相应字段相似度值较高的信息,删除与黑名单系统中相应字段相似度值较低的信息;
步骤S7具体为:采用第一决策树算法(参看图2,图2为第一决策树的示意图)对相似度的比对结果进行综合判定,判定账户注册人是否落入黑名单系统,具体步骤如下:
通过基于字段相似度的第一决策树对账户注册人信息进行判定,确定账户注册人是否落入黑名单系统中;其中,基于字段相似度的第一决策树的构建步骤包括:
A1:设定落入黑名单系统的判断标准,将满足以下条件的身份信息判定为落入黑名单系统:
身份证号相同;
银行卡号相同;
姓名相似度90%以上同时家庭地址相似度80%以上;
姓名相似度90%以上同时手机号码与黑名单中的银行预留号码相同;
姓名相似度90%以上同时存在与紧急联系人相似度90%以上的好友;
户籍地址相同同时姓名相似度80%以上且家庭地址相似度90%以上;
户籍地址相同且姓名相似度80%以上且手机号码与黑名单中的银行预留号码相同。
A2:从落入黑名单系统的待检测信息中提取属性特征并生成训练数据集,属性特征包括银行卡卡号、户籍地、身份证号、手机号和银行预留手机号是否相同、紧急联系人相似度、姓名相似度、家庭地址相似度。
A3:结合步骤A1的判断标准计算训练数据集中包含的每个属性特征的信息增益,根据该信息增益选择最佳的分裂节点构造基于字段相似度的决策树。信息增益可以对属性特征进行一定的定量,可以通过信息学知识来计算信息增益,在此不再赘述。本发明实施例构成的第一决策树如图2所示。
根据步骤S3中从获取到的基础信息中挖掘出与黑名单系统中相同字段的信息,通过第一决策树对账户注册人信息进行判定,判定结果为落入黑名单和未落入黑名单,若账户注册人信息落入黑名单系统,则向交易平台发送提醒,冻结交易,否则,对交易放行。
在步骤S4的判断中,若为不同人员,则步骤S5具体为:分别将账户注册人信息和银行卡注册人信息与黑名单系统中每条记录从各个字段角度进行相似度比对,记下与每条记录中和各个字段的相似度值;
步骤S7具体为:先采用账户注册人信息决策树(参看图3)判定账户注册人信息是否落入黑名单系统中,若落入,则结束判定;否则,继续判定银行卡注册人信息是否落入黑名单系统中;其中账户注册人信息决策树构建步骤如下:
B1:设定落入黑名单系统的判断标准,将满足以下条件的账户注册人信息判定为落入黑名单系统:
身份证号相同;
银行卡号相同;
姓名相似度90%以上同时家庭地址相似度80%以上;
姓名相似度90%以上同时手机号码与黑名单中的银行预留号码相同;
姓名相似度90%以上同时存在与紧急联系人相似度90%以上的好友;
姓名相似度80%以上同时家庭地址相似度90%以上。
B2:从落入黑名单系统的待检测信息中提取属性特征并生成训练数据集,属性特征包括银行卡卡号、身份证号、手机号和银行预留手机号是否相同、紧急联系人相似度、姓名相似度、家庭地址相似度。
B3:结合步骤B1的判断标准计算训练数据集中包含的每个属性特征的信息增益,根据该信息增益选择最佳的分裂节点构造账户注册人信息决策树。信息增益可以对属性特征进行一定的定量,可以通过信息学知识来计算信息增益,在此不再赘述。步骤B1-B3构造的账户注册人信息决策树如图3所示。
继续构造银行卡注册人信息决策树(参看图4),包括如下步骤:
B4:设定落入黑名单系统的判断标准,将满足以下条件的银行卡注册人信息判定为落入黑名单系统:
身份证号相同;
姓名相似度90%以上同时家庭地址相似度80%以上;
姓名相似度90%以上同时手机号码与黑名单中的银行预留号码相同;
姓名相似度90%以上同时紧急联系人与黑名单系统中的紧急联系人相似度90%以上;
姓名相似度80%以上且家庭地址相似度90%以上;
户籍地址相同且姓名相似度80%以上且手机号码与黑名单中的银行预留号码相同。
B5:从落入黑名单系统的待检测信息中提取属性特征并生成训练数据集,属性特征包括身份证号、手机号和银行预留手机号是否相同、紧急联系人相似度、姓名相似度、家庭地址相似度、户籍是否相同。
B6:结合步骤B4的判断标准计算训练数据集中包含的每个属性特征的信息增益,根据该信息增益选择最佳的分裂节点构造银行卡注册人信息决策树。信息增益可以对属性特征进行一定的定量,可以通过信息学知识来计算信息增益,在此不再赘述。步骤B4-B6构造的银行卡注册人信息决策树如图4所示。
根据步骤S3中从获取到的基础信息中挖掘出与黑名单系统中相同字段的信息,先通过图3所示的账户注册人信息决策树对账户注册人信息进行判定,若账户注册人信息落入黑名单系统,向交易平台发送提醒,冻结交易;若账户注册人信息未落入黑名单系统,再通过图4所示的银行卡注册人信息决策树对银行卡注册人信息进行判定,若银行卡注册人信息落入黑名单系统,则向交易平台发送提醒,冻结交易,若未落入黑名单系统,则对交易放行。
当然,上述决策树的构建过程只是某一具体应用情形下的事例,但是不应以此为限。在实际使用时,交易平台管理人员可根据实际情况作出调整。
步骤S5中,各个字段的相似度比对规则如下:
针对姓名的比对:
对姓名的每个字分别进行比对,具体的是:将姓名中的每个字转化成对应的数字和字母组成的10位字符串,再通过比对字符串的相似度来计算姓名的相似度。其中,汉字转化规则如下:
其中第一位,韵母位,按照以下表格进行转换:
a 1 o 2 e 3 i 4
u 5 v 6 ai 7 ei 7
ui 8 ao 9 ou A iu B
ie C ve D er E an F
en G in H un I van J
ang F en G ing H ong K
第二位,声母位,按照以下表格进行转换:
b 1 p 2 m 3 f 4
d 5 t 6 n 7 l 7
g 8 k 9 h A j B
q C x D zh E ch F
sh G r H z E c F
s G y I w J
第三位,介母位,按以下表格转换:
i u ü
1 2 3
第四位,声调位,用1 2 3 4代表拼音中的四个声调。
第五位,结构位,按以下表格转换:
第六至九位为四角编码位,按照四角编码规则转换,分别取汉字的左上角、右上角、左下角、右下角对应的数字,即为四角编码位:
四角号码查字法把笔形分为十种,分别用0到9十个数字代表,如下所示:
最后一位,为笔画数位,用1~9代表1-9笔画,A~Z代表10~35位,超过35画的均用Z代表。
按照上述步骤,将姓名的每个汉字按照顺序依次转换为由数字和字母组成的10位字符串,通过编辑距离公式计算两个字符串之间的相似度,即可得出待测姓名与黑名单中目标姓名的相似度:
相似度=1-编辑距离/Math.Max(str1.length,str2.length)
其中编辑距离用如下公式表示:
其中str1.length和str2.length分别为第一个字符串和第二个字符串的长度;Math.Max(str1.length,str2.length)为取两个字符串长度中的较大值;
d[i,j]为第一字符串和第二字符串的编辑距离,i和j分别为第一个字符串和第二个字符串的序列号,xi,yj分别为第一个字符串中的第i位的取值和第二个字符串中的第j位的取值。
针对银行卡号、身份证号码、手机号码的比对:
因为银行卡号、手机号码和身份证号码都是数字,因此,只需要比较当前账户持有人的银行卡号、手机号码、身份证号码是否与黑名单的银行卡号、预留手机号码和身份证号码相等,记录比对结果;
针对户籍地比对:
建立户籍地对比库,将每个城市的名称、常用的缩写对应记录,比较当前账户持有人的户籍地和黑名单中的户籍地是否在同一条记录中,若是,则户籍地相同,否则,户籍地不同;
针对紧急联系人的比对:
将获取到的好友的姓名与黑名单中紧急联系人的姓名进行比对,比对方法与账户持有人的姓名比对相同,记录相似度;同时,将对应的电话号码与黑名单中紧急联系人的电话号码进行比对,记录电话号码是否相等,对于好友的姓名和电话号码与黑名单中紧急联系人的姓名和电话号码的相似度分别赋予相应权重,计算好友与紧急联系人的相似度。
Similarity=Similarity姓名×f1+Similarity电话号码×f2
在本发明实施例中,f1取20%,f2取80%;
针对家庭地址比对:
把每个待检测的地址以及黑名单中的目标地址分别按照省、市、区、街道、小区进行分词,得到两个字符子串,分别定义为待检测字符子串和目标字符子串,将两个字符子串中都存在的词组的个数定义为q,将待检测字符子串中存在但目标字符子串中不存在的词组个数定义为s,将待检测字符子串中不存在但目标字符子串中存在的词组个数定义为r,计算待检测地址和目标地址之间的相异度公式为:
在一个实施例中,本发明还公开了一种数据缺失情况下的黑名单多维信息验证系统,包括:
数据采集模块:执行获取交易平台上当前交易的账户注册人的基础信息,基础信息为交易平台获取到的账户注册人在注册时提交的注册信息和/或在交易时上传的动态信息;
信息挖掘模块:执行从获取到的基础信息中挖掘出与黑名单系统中相同字段的信息;
相似度比对模块:将挖掘到的信息与黑名单系统中每条记录从各个字段角度进行相似度比对,并记下与每条记录中和各个字段的相似度值;
综合判定模块:采用决策树算法对相似度的比对结果进行综合判定,判定账户注册人是否落入黑名单系统。
在另一个公开的一种数据缺失情况下的黑名单多维信息验证系统的实施例中,还包括判断模块;账户注册人的注册信息包括账户注册人的银行卡号;信息挖掘模块还执行从账户注册人的银行卡号中挖掘出银行卡的注册人的基本信息,记为银行卡注册人信息;判断模块执行判断账户注册人和银行卡注册人是否为相同人员。
在另一个实施例中,本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如上数据缺失情况下的黑名单多维信息验证方法。
在另一个实施例中,本发明还公开了一种计算机设备,包括存储器和处理器以及存储在存储器上并可被处理器调用的计算机程序,处理器执行计算机程序时,实现如上数据缺失情况下的黑名单多维信息验证方法。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式。即使对本发明作出各种变化,倘若这些变化属于本发明权利要求及其等同技术的范围之内,则仍落入在本发明的保护范围之中。

Claims (10)

1.一种数据缺失情况下的黑名单多维信息验证方法,其特征在于,包括如下步骤:
S1:获取交易平台上当前交易的账户注册人的基础信息,所述基础信息为在所述交易平台获取到的所述账户注册人在注册账户时提交的注册信息和/或所述账户注册人在交易时上传的动态信息;
S3:从获取到的所述基础信息中挖掘出与黑名单系统中相同字段的信息;
S5:将挖掘到的信息与所述黑名单系统中的每条记录从各个字段角度进行相似度比对,并记下与每条记录中和各个字段的相似度值;
S7:采用决策树算法对相似度的比对结果进行综合判定,判定所述账户注册人是否落入所述黑名单系统。
2.根据权利要求1所述的数据缺失情况下的黑名单多维信息验证方法,其特征在于,
步骤S1中,所述账户注册人的注册信息包括所述账户注册人的姓名、身份证号码、银行卡号、电话号码,所述动态信息包括所述账户注册人的历史定位轨迹信息以及所述账户注册人授权的社交网络信息;
步骤S3中,所述从获取到的所述基础信息中挖掘出与黑名单系统中相同字段的信息,包括从所述账户注册人的历史定位轨迹信息得到的所述账户注册人的家庭地址;以及从所述账户注册人授权的社交网络信息中,获取到的所述账户注册人的好友信息,包括好友的姓名和联系电话;
所述账户注册人的姓名、身份证号码、电话号码、银行卡号、家庭地址、好友的姓名和联系电话记为账户注册人信息。
3.根据权利要求2所述的数据缺失情况下的黑名单多维信息验证方法,其特征在于,步骤S3中,所述从获取到的所述基础信息中挖掘出与黑名单系统中相同字段的信息,还包括从所述账户注册人的银行卡号中挖掘出所述银行卡的注册人的基本信息,记为银行卡注册人信息,所述银行卡注册人信息包括所述银行卡注册人的姓名、身份证号码、户籍地址、预留电话号码、家庭地址、紧急联系人姓名和电话号码;
在步骤S3之后、S5之前,还包括步骤S4:判断所述账户注册人和所述银行卡注册人是否为相同人员。
4.根据权利要求3所述的数据缺失情况下的黑名单多维信息验证方法,其特征在于,
在步骤S4的判断中,若为相同人员,则步骤S5具体为:分别将所述账户注册人信息和所述银行卡注册人信息与所述黑名单系统中每条记录从各个字段角度进行相似度比对,记下与每条记录中和各个字段的相似度值,当所述账户注册人信息和所述银行卡注册人信息中同一个字段存在不同时,选择并保留与黑名单系统中相应字段相似度值较高的信息,删除与所述黑名单系统中相应字段相似度值较低的信息;
若为不同人员,则步骤S5具体为:分别将所述账户注册人信息和所述银行卡注册人信息与所述黑名单系统中每条记录从各个字段角度进行相似度比对,记下与每条记录中和各个字段的相似度值。
5.根据权利要求4所述的数据缺失情况下的黑名单多维信息验证方法,其特征在于,
当所述账户注册人和所述银行卡注册人是相同人员,则步骤S7具体为:采用第一决策树算法对相似度的比对结果进行综合判定,判定所述账户注册人是否落入所述黑名单系统,具体步骤如下:
通过基于字段相似度的第一决策树对所述账户注册人信息进行判定,确定所述账户注册人是否落入所述黑名单系统中;其中,所述基于字段相似度的第一决策树的构建步骤包括:
A1.设定落入所述黑名单系统的判断标准,将具有以下特征的所述账户注册人信息判定为落入黑名单系统:根据字段的权重设定每个字段相似度的阈值,若所述账户注册人信息中权重较高的字段与黑名单中记录的相似度值均超过阈值,则判定所述账户注册人落入所述黑名单系统,具体为:
A2.从落入所述黑名单系统的账户注册人信息中提取属性特征并生成训练数据集,所述属性特征包括姓名相似度、身份证是否相同、银行卡号是否相同、户籍地址是否相同、手机号码是否与预留手机号码相同、好友与黑名单中紧急联系人的相似度、家庭地址相似度;
A3.计算训练数据集中包含的每个属性特征的信息增益,根据该信息增益选择最佳的分裂决策属性作为节点构造所述第一决策树;
当所述账户注册人和所述银行卡注册人是不同人员,则步骤S7具体为:
先采用账户注册人信息决策树判定所述账户注册人信息是否落入黑名单系统中,并在所述账户注册人信息未落入黑名单系统时,再采用银行卡注册人信息决策树判定所述银行卡注册人信息是否落入黑名单系统中;
其中所述账户注册人信息决策树构造步骤如下:
B1:设定落入所述黑名单系统的判断标准,将满足以下条件的所述账户注册人信息判定为落入所述黑名单系统:根据字段的权重设定每个字段相似度的阈值,若所述账户注册人信息中权重较高的字段与黑名单中记录的相似度值均超过阈值,则判定所述账户注册人信息落入所述黑名单系统;
B2.从落入所述黑名单系统的账户注册人信息中提取属性特征并生成训练数据集,所述属性特征包括姓名相似度、身份证是否相同、银行卡是否相同、手机号码是否与预留手机号码相同、好友与黑名单中紧急联系人的相似度、家庭地址相似度;
B3.计算训练数据集中包含的每个属性特征的信息增益,根据该信息增益选择最佳的分裂决策属性作为节点构造所述账户注册人信息决策树;
所述银行卡注册人信息决策树构造步骤如下:
B4:设定落入所述黑名单系统的判断标准,将满足以下条件的所述银行卡注册人信息判定为落入所述黑名单系统:根据字段的权重设定每个字段相似度的阈值,若所述银行卡注册人信息中权重较高的字段与黑名单中记录的相似度值均超过阈值,则判定所述银行卡注册人信息落入所述黑名单系统;
B5.从落入所述黑名单系统的银行卡注册人信息中提取属性特征并生成训练数据集,所述属性特征包括姓名相似度、身份证是否相同、手机号码是否与预留手机号码相同、紧急联系人与黑名单中紧急联系人的相似度、家庭地址相似度、户籍地址是否相同;
B6.计算训练数据集中包含的每个属性特征的信息增益,根据该信息增益选择最佳的分裂决策属性作为节点构造所述银行卡注册人信息决策树。
6.根据权利要求1-5任意一项所述的数据缺失情况下的黑名单多维信息验证方法,其特征在于,
所述步骤S5中,好友与紧急联系人的比对方法如下:
将挖掘到的好友的姓名与所述黑名单系统中紧急联系人的姓名进行比对,其中姓名的比对方法如下:
对姓名的每个字分别进行比对,具体的是:将姓名中的每个字转化成对应的数字和字母组成的字符串,再通过比对字符串的相似度来计算姓名的相似度;同时,将对应的电话号码与所述黑名单系统中紧急联系人的电话号码进行比对,记录电话号码是否相等,对于好友的姓名和电话号码与所述黑名单系统中紧急联系人的姓名和电话号码的相似度分别赋予相应权重,计算好友与紧急联系人的相似度;
银行卡号、身份证号码、手机号码的比对方法如下:
分别比较挖掘出的银行卡号、手机号码、身份证号码是否与所述黑名单系统中的银行卡号、预留手机号码和身份证号码相等,记录比对结果;
户籍地址比对方法如下:
建立户籍地对比库,将每个城市的名称、常用的缩写对应记录,比较挖掘出的户籍地址和所述黑名单系统中的户籍地址是否在同一条记录中,若是,则户籍地址相同,否则,户籍地址不同;
家庭地址比对方法如下:
把每个待检测的地址以及黑名单中的目标地址分别按照省、市、区、街道、小区进行分词,得到两个字符子串,分别定义为待检测字符子串和目标字符子串,将两个字符子串中都存在的词组的个数定义为q,将待检测字符子串中存在但目标字符子串中不存在的词组个数定义为s,将待检测字符子串中不存在但目标字符子串中存在的词组个数定义为r,计算待检测地址和目标地址之间的相异度公式为:
7.一种数据缺失情况下的黑名单多维信息验证系统,其特征在于,包括:
数据采集模块:执行获取交易平台上当前交易的账户注册人的基础信息,所述基础信息为在所述交易平台获取到的所述账户注册人在注册时提交的注册信息和/或所述账户注册人在交易时上传的动态信息;
信息挖掘模块:执行从获取到的所述基础信息中挖掘出与黑名单系统中相同字段的信息;
相似度比对模块:将挖掘到的信息与所述黑名单系统中每条记录从各个字段角度进行相似度比对,并记下与每条记录中和各个字段的相似度值;
综合判定模块:采用决策树算法对相似度的比对结果进行综合判定,判定所述账户注册人是否落入所述黑名单系统。
8.根据权利要求7所述的数据缺失情况下的黑名单多维信息验证系统,其特征在于,所述账户注册人的注册信息包括所述账户注册人的银行卡号;
所述信息挖掘模块还执行从所述账户注册人的银行卡号中挖掘出所述银行卡的注册人的基本信息,记为银行卡注册人信息;
所述的黑名单多维信息验证系统还包括判断模块,执行判断所述账户注册人和所述银行卡注册人是否为相同人员。
9.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如权利要求1-6中任意一项所述的数据缺失情况下的黑名单多维信息验证方法。
10.一种计算机设备,包括存储器和处理器以及存储在存储器上并可被处理器调用的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-6中任意一项所述的数据缺失情况下的黑名单多维信息验证方法。
CN201810814150.4A 2018-07-23 2018-07-23 数据缺失情况下的黑名单多维信息验证方法及系统及可读存储介质及设备 Active CN108984773B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810814150.4A CN108984773B (zh) 2018-07-23 2018-07-23 数据缺失情况下的黑名单多维信息验证方法及系统及可读存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810814150.4A CN108984773B (zh) 2018-07-23 2018-07-23 数据缺失情况下的黑名单多维信息验证方法及系统及可读存储介质及设备

Publications (2)

Publication Number Publication Date
CN108984773A true CN108984773A (zh) 2018-12-11
CN108984773B CN108984773B (zh) 2020-09-04

Family

ID=64550003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810814150.4A Active CN108984773B (zh) 2018-07-23 2018-07-23 数据缺失情况下的黑名单多维信息验证方法及系统及可读存储介质及设备

Country Status (1)

Country Link
CN (1) CN108984773B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711955A (zh) * 2019-02-18 2019-05-03 杭州跨境邦信息技术有限公司 基于当前订单的差评预警方法、系统、黑名单库建立方法
CN111143633A (zh) * 2019-12-24 2020-05-12 北京明朝万达科技股份有限公司 一种数据解密方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214213A (zh) * 2011-05-31 2011-10-12 中国科学院计算技术研究所 一种采用决策树的数据分类方法和系统
US20140125455A1 (en) * 2005-09-01 2014-05-08 Memphis Technologies, Inc. Systems and algorithms for classification of user based on their personal features
CN104052720A (zh) * 2013-03-14 2014-09-17 北京百度网讯科技有限公司 信息验证方法及系统
CN107644098A (zh) * 2017-09-29 2018-01-30 马上消费金融股份有限公司 一种欺诈行为识别方法、装置、设备及存储介质
CN107767138A (zh) * 2017-10-20 2018-03-06 杭州呯嘭智能技术有限公司 在线支付反欺诈方法及系统
CN108269186A (zh) * 2018-01-23 2018-07-10 平安好房(上海)电子商务有限公司 用户信息验证方法、装置、设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140125455A1 (en) * 2005-09-01 2014-05-08 Memphis Technologies, Inc. Systems and algorithms for classification of user based on their personal features
CN102214213A (zh) * 2011-05-31 2011-10-12 中国科学院计算技术研究所 一种采用决策树的数据分类方法和系统
CN104052720A (zh) * 2013-03-14 2014-09-17 北京百度网讯科技有限公司 信息验证方法及系统
CN107644098A (zh) * 2017-09-29 2018-01-30 马上消费金融股份有限公司 一种欺诈行为识别方法、装置、设备及存储介质
CN107767138A (zh) * 2017-10-20 2018-03-06 杭州呯嘭智能技术有限公司 在线支付反欺诈方法及系统
CN108269186A (zh) * 2018-01-23 2018-07-10 平安好房(上海)电子商务有限公司 用户信息验证方法、装置、设备及可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711955A (zh) * 2019-02-18 2019-05-03 杭州跨境邦信息技术有限公司 基于当前订单的差评预警方法、系统、黑名单库建立方法
CN111143633A (zh) * 2019-12-24 2020-05-12 北京明朝万达科技股份有限公司 一种数据解密方法、装置、电子设备及存储介质
CN111143633B (zh) * 2019-12-24 2023-09-01 北京明朝万达科技股份有限公司 一种数据解密方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN108984773B (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN109299811B (zh) 一种基于复杂网络的欺诈团伙识别和风险传播预测的方法
CN108681936B (zh) 一种基于模块度和平衡标签传播的欺诈团伙识别方法
CN107767262B (zh) 信息处理方法、装置和计算机可读存储介质
CN110413707A (zh) 互联网中欺诈团伙关系的挖掘与排查方法及其系统
CN110210301B (zh) 基于微表情评价面试者的方法、装置、设备和存储介质
CN105512938A (zh) 一种基于用户长期使用行为的在线信用风险评估方法
CN108961032A (zh) 借贷处理方法、装置以及服务器
CN105894089A (zh) 一种征信模型的建立方法、征信确定方法及对应装置
CN107644098A (zh) 一种欺诈行为识别方法、装置、设备及存储介质
CN107958423A (zh) 用户社会关系分析方法及存储介质、服务端
US20230289807A1 (en) Method for detecting block chain abnormal behavior based on graph embedding
CN114417802B (zh) 一种智能化报表生成系统
CN109685643A (zh) 贷款审核中风险等级确定方法、装置、设备及存储介质
CN110311891A (zh) 账户管理方法、装置、计算机设备及存储介质
CN108984773A (zh) 数据缺失情况下的黑名单多维信息验证方法及系统及可读存储介质及设备
CN108345609A (zh) 一种处理poi信息的方法和装置
CN109840778A (zh) 欺诈用户的识别方法及装置、可读存储介质
CN116414823A (zh) 一种基于分词模型的地址定位方法和装置
CN111510368A (zh) 家庭群组识别方法、装置、设备及计算机可读存储介质
CN110716998B (zh) 一种精细尺度人口数据空间化方法
CN101295388A (zh) 一种信用评估方法及系统
CN108345662A (zh) 一种考虑用户分布区域差异的签到微博数据加权统计方法
CN113486166B (zh) 智能客服机器人的构建方法、装置、设备以及存储介质
CN106897743A (zh) 基于贝叶斯模型的移动考勤防作弊大数据检测方法
CN104615740B (zh) 一种志愿者地理信息信誉度计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Room 301-303, 305-308, building 2, No. 567, Jiangling Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou ping pong Intelligent Technology Co., Ltd

Address before: 310051 301-303 and 305-308 rooms, 2 Jiangling Road, Binjiang District, Hangzhou, Zhejiang, Jiangling, 567

Patentee before: HANGZHOU PINGPONG INTELLIGENT TECHNICAL Co.,Ltd.

CP03 Change of name, title or address
CP01 Change in the name or title of a patent holder

Address after: 310000 rooms 301-303, 305-308, building 2, No.567 Jiangling Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou ping pong Intelligent Technology Co.,Ltd.

Address before: 310000 rooms 301-303, 305-308, building 2, No.567 Jiangling Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: Hangzhou ping pong Intelligent Technology Co., Ltd

CP01 Change in the name or title of a patent holder