CN108664497B - 数据匹配的方法和装置 - Google Patents
数据匹配的方法和装置 Download PDFInfo
- Publication number
- CN108664497B CN108664497B CN201710198317.4A CN201710198317A CN108664497B CN 108664497 B CN108664497 B CN 108664497B CN 201710198317 A CN201710198317 A CN 201710198317A CN 108664497 B CN108664497 B CN 108664497B
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- type
- pseudo
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据匹配的方法和装置,属于信息处理技术领域。方法包括:根据第一伪ID将第一数据分类,针对任一类第一数据,确定其对应的第二数据,根据第二伪ID将对应的第二数据分类,统计各类对应的第二数据的数量,根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度,按照可信度将任一类第一数据与对应的第二数据匹配。本发明将第一数据分类,针对各类第一数据对应的第二数据,将对应的第二数据分类,根据各类对应的第二数据的数量确定各类第一数据与各类对应的第二数据之间的可信度,按照可信度将任一类第一数据与对应的第二数据匹配,实现了两个ID被脱敏的数据源的数据匹配。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种数据融合的方法和装置。
背景技术
随着互联网、物联网、社交网络等新兴技术的发展,产生数据的数据源如雨后春笋般增长。在各种数据源的数据中,往往存在敏感数据项。为了保证敏感数据项不被公开,该数据源在数据输出中会将敏感数据项进行脱敏处理,以使数据用户不会获得敏感数据。
然而对于两个数据源的数据,每个数据源的数据中均将敏感数据项为数据ID(Identity,标识)的情形,由于其ID进行了脱敏处理,不能根据脱敏后的ID将不同的数据放在一起进行匹配操作,所以不能实现两个ID被脱敏的数据源的数据匹配。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种数据匹配的方法和装置。所述技术方案如下:
第一方面,提供了一种数据匹配的方法,所述方法包括:
获取第一数据源的第一数据和第二数据源的第二数据,所述第一数据包括第一伪标识ID和第一记录时间,所述第二数据包括第二伪ID和第二记录时间,不同第一数据的第一伪ID相同或不同,不同第二数据的第二伪ID相同或不同;
根据第一伪ID将所述第一数据分类,同类的第一数据的第一伪ID相同;
针对任一类第一数据,确定其对应的第二数据,根据第二伪ID将对应的第二数据分类,统计各类对应的第二数据的数量,根据各类对应的第二数据的数量确定所述任一类第一数据与各类对应的第二数据之间的可信度,按照可信度将所述任一类第一数据与对应的第二数据匹配;
其中,对应的第二数据的第二记录时间与所述任一类第一数据的第一记录时间的差的绝对值小于预设时间差。
第二方面,提供了一种数据匹配的装置,所述装置包括:
获取模块,用于获取第一数据源的第一数据和第二数据源的第二数据,所述第一数据包括第一伪标识ID和第一记录时间,所述第二数据包括第二伪ID和第二记录时间,不同第一数据的第一伪ID相同或不同,不同第二数据的第二伪ID相同或不同;
分类模块,用于根据第一伪ID将所述第一数据分类,同类的第一数据的第一伪ID相同;
匹配模块,用于针对任一类第一数据,确定其对应的第二数据,根据第二伪ID将对应的第二数据分类,统计各类对应的第二数据的数量,根据各类对应的第二数据的数量确定所述任一类第一数据与各类对应的第二数据之间的可信度,按照可信度将所述任一类第一数据与对应的第二数据匹配;
其中,对应的第二数据的第二记录时间与所述任一类第一数据的第一记录时间的差的绝对值小于预设时间差;
其中,所述第一数据源为任一银行的银行卡数据源,所述第二数据源为通信运营商数据源,且所述第二数据与所述任一银行相关;
所述装置,还包括:
清洗模块,用于清洗所述第一数据和第二数据;
所述清洗模块,用于根据所述第一记录时间,确定各第一数据所属月份,各第一数据所属月份为同一月份或不同月份;若各第一数据所属月份为同一月份,则将预先设置的各第一数据所属月份对应的第一数据阈值作为第一清洗阈值,若各第一数据所属月份为不同月份,则预先设置的各第一数据所属各月份对应的第一数据阈值的和作为第一清洗阈值;若包括任一第一伪ID的第一数据总量>第一清洗阈值,则删除包括任一第一伪ID的所有第一数据;
所述清洗模块,用于根据所述第二记录时间,确定各日的第二数据及各第二数据所属月份,各第二数据所属月份为同一月份或不同月份;根据各日的第二数据,确定各日的第二数据量以及日平均数据量,若任一日的第二数据量<第一预设数量*日平均数据量,则删除所述任一日的所有第二数据;若任一日包括任一第二伪ID的第二数据总量>预设的日数据阈值,则删除所述任一日包括任一第二伪ID的所有第二数据;若各第二数据所属月份为同一月份,则将预先设置的各第二数据所属月份对应的第二数据阈值作为第二清洗阈值,若各第二数据所属月份为不同月份,则预先设置的各第二数据所属各月份对应的第二数据阈值的和作为第二清洗阈值;若包括任一第二伪ID的第二数据总量>第二清洗阈值,则删除包括任一第二伪ID的所有第二数据ID的第二数据总量>第二清洗阈值,则删除包括任一第二伪ID的所有第二数据。
本发明实施例提供的技术方案带来的有益效果是:
获取第一数据和第二数据,根据第一伪ID将第一数据分类,针对任一类第一数据,确定其对应的第二数据,根据第二伪ID将对应的第二数据分类,统计各类对应的第二数据的数量,根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度,按照可信度将任一类第一数据与对应的第二数据匹配,实现了两个ID被脱敏的数据源的数据匹配。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种数据匹配的方法流程图;
图2是本发明另一实施例提供的另一种数据匹配的方法流程图;
图3是本发明另一实施例提供的另一种数据匹配的方法流程图;
图4是本发明另一实施例提供的一种数据匹配的装置结构示意图;
图5是本发明另一实施例提供的另一种数据匹配的装置结构示意图;
图6是本发明另一实施例提供的另一种数据匹配的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
随着互联网、物联网、社交网络等新兴技术的发展,产生数据的数据源如雨后春笋般增长。在各种数据源的数据中,往往存在敏感数据项。为了保证敏感数据项不被公开,该数据源在数据输出中会将敏感数据项进行脱敏处理,以使数据用户不会获得敏感数据。然而对于两个数据源的数据,每个数据源的数据中均将敏感数据项为数据ID的情形,由于其ID进行了脱敏处理,不能根据脱敏后的ID将不同的数据放在一起进行匹配操作,所以不能实现两个ID被脱敏的数据源的数据匹配。
基于上述情况,本发明提供了一种数据匹配的方法和装置,可以获取第一数据和第二数据,根据第一伪ID将第一数据分类,针对任一类第一数据,确定其对应的第二数据,根据第二伪ID将对应的第二数据分类,统计各类对应的第二数据的数量,根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度,按照可信度将任一类第一数据与对应的第二数据匹配,实现了两个ID被脱敏的数据源的数据匹配。
参见图1,本实施例提供了一种数据匹配的方法,本实施例提供的方法流程具体如下:
101,获取第一数据源的第一数据和第二数据源的第二数据,第一数据包括第一伪标识ID和第一记录时间,第二数据包括第二伪ID和第二记录时间,不同第一数据的第一伪ID相同或不同,不同第二数据的第二伪ID相同或不同。
102,根据第一伪ID将第一数据分类,同类的第一数据的第一伪ID相同。
103,针对任一类第一数据,确定其对应的第二数据,根据第二伪ID将对应的第二数据分类,统计各类对应的第二数据的数量,根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度,按照可信度将任一类第一数据与对应的第二数据匹配。
其中,对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差。
可选地,第一数据源为任一银行的银行卡数据源,第二数据源为通信运营商数据源,且第二数据与任一银行相关;
获取第一数据源的第一数据和第二数据源的第二数据之后,还包括:
清洗第一数据和第二数据;
清洗第一数据,包括:
根据第一记录时间,确定各第一数据所属月份,各第一数据所属月份为同一月份或不同月份;
若各第一数据所属月份为同一月份,则将预先设置的各第一数据所属月份对应的第一数据阈值作为第一清洗阈值,若各第一数据所属月份为不同月份,则预先设置的各第一数据所属各月份对应的第一数据阈值的和作为第一清洗阈值;
若包括任一第一伪ID的第一数据总量>第一清洗阈值,则删除包括任一第一伪ID的所有第一数据;
清洗第二数据,包括:
根据第二记录时间,确定各日的第二数据及各第二数据所属月份,各第二数据所属月份为同一月份或不同月份;
根据各日的第二数据,确定各日的第二数据量以及日平均数据量,若任一日的第二数据量<第一预设数量*日平均数据量,则删除任一日的所有第二数据;
若任一日包括任一第二伪ID的第二数据总量>预设的日数据阈值,则删除任一日包括任一第二伪ID的所有第二数据;
若各第二数据所属月份为同一月份,则将预先设置的各第二数据所属月份对应的第二数据阈值作为第二清洗阈值,若各第二数据所属月份为不同月份,则预先设置的各第二数据所属各月份对应的第二数据阈值的和作为第二清洗阈值;若包括任一第二伪ID的第二数据总量>第二清洗阈值,则删除包括任一第二伪ID的所有第二数据。
可选地,预设时间差为60秒。
可选地,存储有如下数据:第一数据源的第一历史数据、第二数据源的第二历史数据、各类第一历史数据对应的第二历史数据的数量,同类的第一历史数据的第一伪ID相同,第一历史数据与第一数据不同,第二历史数据与第二数据不同,第一历史数据的任一第一伪ID与第一数据的任一第一伪ID相同或者不同,第二历史数据的任一第二伪ID与第二数据的任一第二伪ID相同或者不同;
针对任一类第一数据,根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度,包括:
确定第一历史数据中是否包括任一类第一数据的相似历史数据,相似历史数据的第一伪ID与任一类第一数据的第一伪ID相同;
若有相似历史数据,则确定相似历史数据所在类对应的第二历史数据的数量,根据各类对应的第二数据的数量与相似历史数据所在类对应的第二历史数据的数量之和,确定任一类第一数据与各类对应的第二数据之间的可信度,相似历史数据所在类的相同第一伪ID为相似历史数据的第一伪ID。
可选地,根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度,包括:
若任一类对应的第二数据的数量≥绝对可信区阈值,则确定任一类第一数据与任一类对应的第二数据之间的可信度为绝对可信;
若疑似可信区间阈值≤任一类对应的第二数据的数量<绝对可信区阈值,则确定任一类第一数据与任一类对应的第二数据之间的可信度为疑似可信;
若任一类对应的第二数据的数量<疑似可信区间阈值,则确定任一类第一数据与任一类对应的第二数据之间的可信度为不可信。
可选地,根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度之前,还包括:
获取第一数据源的第一样本数据和第二数据源的第二样本数据,第一样本数据中具有相同的任一第一伪ID的数据量为第三预设数量;
根据第一伪ID将第一样本数据分类,同类的第一样本数据的第一伪ID相同;
针对任一类第一样本数据,确定其对应的第二样本数据,根据第二伪ID将对应的第二样本数据分类,统计各类对应的第二样本数据的数量;
若任一类对应的第二样本数据的数量≥第四预设阈值,则将任一类第一样本数据作为正样本;
若任一类对应的第二样本数据的数量<第四预设阈值,则将任一类第一样本数据作为负样本;
在第一样本数据中,将所有正样本记为原始正样本,并选择预设比例的正样本和负样本;
将选择的正样本和负样本通过决策树算法进行训练,得到样本选择规则;
在第一样本数据中,确定满足样本选择规则的第一样本;
若满足样本选择规则的第一样本中非正样本的数量≥第五预设数量,则将满足样本选择规则的第一样本作为正样本,将不满足样本选择规则的第一样本作为负样本,重复执行将选择的正样本和负样本通过决策树算法进行训练,得到样本选择规则,在第一样本数据中,确定满足样本选择规则的第一样本的步骤;
若满足样本选择规则的第一样本中非正样本的数量<第五预设数量,则将满足样本选择规则的第一样本对应的第二样本数据量的平均值确定为绝对可信区阈值,将满足样本选择规则但非原始正样本的第一样本对应的第二样本数据量的平均值确定为疑似可信区间阈值。
可选地,将选择的正样本和负样本通过决策树算法进行训练,得到样本选择规则之前,还包括:
针对任一类第一样本数据,确定其对应的各第二样本数据的第二记录时间与任一类第一样本数据的第一记录时间的差的平均值;
将选择的正样本和负样本通过决策树算法进行训练,得到样本选择规则,包括:
将选择的正样本和负样本、各类第一样本数据的时间差平均值、各类第一样本数据对应的第二样本数据的数量,通过决策树算法进行训练,得到样本选择规则;
样本选择规则,包括对应第二样本数据的数量规则和时间差规则。
可选地,第三预设数量为10,第四预设阈值为4,预设比例为5:1。
可选地,第一数据还包括第一金额,第二数据还包括第二金额;
对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差之外,对应的第二数据的第二金额与任一类第一数据的第一金额相同。
可选地,第一数据还包括后四位卡号,第二数据还包括含后四位卡号的短信内容;
对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差之外,对应的第二数据的后四位卡号与任一类第一数据的后四位卡号相同。
可选地,第一数据还包括第一金额和后四位卡号,第二数据还包括第二金额和含后四位卡号的短信内容;
对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差之外,对应的第二数据的第二金额与任一类第一数据的第一金额相同,并且,对应的第二数据的后四位卡号与任一类第一数据的后四位卡号相同。
可选地,将选择的正样本和负样本通过决策树算法进行训练,得到样本选择规则之前,还包括:
针对任一类第一样本数据,确定其对应的各第二样本数据的第二金额的平均值;
将选择的正样本和负样本通过决策树算法进行训练,得到样本选择规则,包括:
将选择的正样本和负样本、各类第一样本数据对应的时间差平均值、各类第一样本数据对应的第二样本数据的数量、各类第一样本数据对应的第二金额的平均值,通过决策树算法进行训练,得到样本选择规则;
样本选择规则,包括对应第二样本数据的数量规则、时间差规则和金额规则。
本实施例提供的方法,获取第一数据和第二数据,根据第一伪ID将第一数据分类,针对任一类第一数据,确定其对应的第二数据,根据第二伪ID将对应的第二数据分类,统计各类对应的第二数据的数量,根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度,按照可信度将任一类第一数据与对应的第二数据匹配,实现了两个ID被脱敏的数据源的数据匹配。
为了更加清楚地阐述上述实施例提供的一种数据匹配的方法,结合上述实施例的内容,以图2所示的实施例为例,对一种数据匹配的方法进行详细说明。
在本实施例中,以首次通过本实施例提供的数据匹配的方法进行数据匹配为例。对于非首次通过本实施例提供的数据匹配的方法进行数据匹配的情况,可以重复执行图2所示的流程,也可以参见后续图3所示的流程。
另外,为了清楚地对图2所示的流程执行过程进行说明,本实施例以第一数据源为任一银行的银行卡数据源,如银行A的银行卡数据源,第一数据为任一银行的银行卡数据,如银行A的银行卡数据,第二数据源为通信运营商数据源,第二数据与该任一银行相关,如银行A相关的短信数据。
参见图2,本实施例提供的方法流程具体如下:
201,获取第一数据源的第一数据和第二数据源的第二数据。
其中,第一数据源和第二数据源均包括敏感数据项,且第一数据源和第二数据源包括的敏感数据项均为其ID。为了保证敏感数据项不可视,因此,第一数据源将其敏感数据项(ID)脱敏为第一伪ID,例如,敏感项显示为*,仅前四位和后四位正常显示的银行卡号。第二数据源将其敏感数据项(ID)脱敏为第二伪ID,例如敏感项显示为*,仅前三位和后四位正常显示的电话号码,使得第一数据包括第一伪ID和第一记录时间,第二数据包括第二伪ID和第二记录时间,不同第一数据的第一伪ID相同或不同,不同第二数据的第二伪ID相同或不同。
除此之外,第一数据还包括第一金额、电话号码、交易地点,第二数据还包括第二金额和含后四位电话号码的短信内容。
另外,第一数据和第二数据可能存在噪声,因此,在执行本步骤获取第一数据和第二数据后,还会清洗第一数据和第二数据。
第一数据的清洗方法有多种,包括但不限于:根据第一记录时间,确定各第一数据所属月份,各第一数据所属月份为同一月份或不同月份;若各第一数据所属月份为同一月份,则将预先设置的各第一数据所属月份对应的第一数据阈值作为第一清洗阈值,若各第一数据所属月份为不同月份,则预先设置的各第一数据所属各月份对应的第一数据阈值的和作为第一清洗阈值;若包括任一第一伪ID的第一数据总量>第一清洗阈值,则删除包括任一第一伪ID的所有第一数据。
例如,根据第一记录时间,确定各第一数据所属月份均为2017年2月,则将预先设置的2017年2月对应的第一数据阈值1000条作为第一清洗阈值,在所有第一数据中,若包括任一第一伪ID(6225********0003)的第一数据总量>1000条,则删除包括6225********0003的所有第一数据。
再例如,根据第一记录时间,确定各第一数据所属月份为2017年1月和2017年2月,则将预先设置的2017年1月对应的第一数据阈值1000条和2017年2月对应的第一数据阈值1000条的和2000条作为第一清洗阈值,在所有第一数据中,若包括任一第一伪ID(6225********0004)的第一数据总量>2000条,则删除包括6225********0004的所有第一数据。
其中,本实施例不对各第一数据所属月份对应的第一数据阈值进行限定,各第一数据所属各月份对应的第一数据阈值之间可以相同,也可以不同。
第二数据的清洗方法有多种,包括但不限于:根据第二记录时间,确定各日的第二数据量及各第二数据所属月份,各第二数据所属月份为同一月份或不同月份。
在确定各日的第二数据量及各第二数据所属月份之后,依次进行3次清洗。
第一次清洗,根据各日的第二数据量进行清洗。
具体的,(1)根据各日的第二数据,确定各日的第二数据量以及日平均数据量,(2)若任一日的第二数据量<第一预设数量*日平均数据量,则删除任一日的所有第二数据。
执行至此,会以日为清洗维度,将每日的数据分别清洗。
第二次清洗,根据各日包括各第二伪ID的第二数据总量与预设的日数据阈值之间的关系进行清洗。
若任一日包括任一第二伪ID的第二数据总量>预设的日数据阈值,则删除任一日包括任一第二伪ID的所有第二数据。
执行至此,会以第二伪ID为清洗维度,将包括每个第二伪ID的第二数据以日为单位分别清洗。
第三次清洗,根据包括各第二伪ID的第二数据总量进行清洗。
具体的,若各第二数据所属月份为同一月份,则将预先设置的各第二数据所属月份对应的第二数据阈值作为第二清洗阈值,若各第二数据所属月份为不同月份,则预先设置的各第二数据所属各月份对应的第二数据阈值的和作为第二清洗阈值;若包括任一第二伪ID的第二数据总量>第二清洗阈值,则删除包括任一第二伪ID的所有第二数据。
其中,本实施例不对第一预设数量的具体取值进行限定。只要保证删除任一日的第一数据的条件为:任一日的数据量明显小于日平均数据量即可。本实施例也不对各第二数据所属月份对应的第二数据阈值进行限定,各第二数据所属各月份对应的第二数据阈值之间可以相同,也可以不同。
202,根据第一伪ID将第一数据分类。
其中,同类的第一数据的第一伪ID相同。
通过本步骤的执行,第一数据会分成n类,其中n为第一数据中不同第一伪ID的数量。
每一类中的第一数据的第一伪ID相同。不同类中的第一数据的第一伪ID不同。
203,将第一数据与第二数据匹配。
针对任一类第一数据,将其与第二数据匹配具体实现方法为:
步骤1.1,确定任一类第一数据对应的第二数据。
步骤1.1可以根据预设的对应关系确定任一类第一数据对应的第二数据。
其中,预设的对应关系可以为如下三种的一种:
第一种对应关系,对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差。
本实施例不对预设时间差的值进行限定,例如,预设时间差为60秒。
例如,任一类第一数据如表1所示,第二数据如表2所示,预设时间差为60秒,则对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差在±60秒内,即对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于60秒,根据第一种对应关系,任一类第一数据对应的第二数据如表3所示。
表1
第一伪ID | 金额 | 后四位卡号 | 第一记录时间 |
6225********0001 | 100 | 0001 | 2017-2-5 10:25:30 |
6225********0001 | 110 | 0001 | 2017-2-6 10:25:30 |
6225********0002 | 120 | 0002 | 2017-2-7 10:25:30 |
6225********0002 | 130 | 0002 | 2017-2-8 10:25:30 |
表2
第二伪ID | 金额 | 第二记录时间 | 短信内容 |
139****0001 | 100 | 2017-2-5 10:25:33 | AAA0001 |
139****0002 | 110 | 2017-2-6 10:25:25 | AAA0003 |
139****0003 | 120 | 2017-2-7 10:26:33 | AAA0002 |
139****0004 | 135 | 2017-2-8 10:25:36 | AAA0002 |
表3
除了上述任一类第一数据与对应的第二数据之间的对应关系之外,如果第一数据还包括第一金额,第二数据还包括第二金额,则任一类第一数据与对应的第二数据之间的第二种对应关系为:对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差,且对应的第二数据的第二金额与任一类第一数据的第一金额相同。
例如,任一类第一数据如表1所示,第二数据如表2所示,预设时间差为60秒,则根据第二种对应关系,任一类第一数据对应的第二数据如表4所示。
表4
第二伪ID | 金额 | 第二记录时间 | 短信内容 |
139****0001 | 100 | 2017-2-5 10:25:33 | AAA0001 |
139****0002 | 110 | 2017-2-6 10:25:25 | AAA0003 |
如果第一数据还包括后四位卡号,第二伪ID包括含后四位卡号的短信内容,则任一类第一数据与对应的第二数据之间的第三种对应关系为:对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差,且对应的第二数据的后四位卡号与任一类第一数据的后四位卡号相同。
例如,任一类第一数据如表1所示,第二数据如表2所示,预设时间差为60秒,则根据第三种对应关系,任一类第一数据对应的第二数据如表5所示。
表5
第二伪ID | 金额 | 第二记录时间 | 短信内容 |
139****0001 | 100 | 2017-2-5 10:25:33 | AAA0001 |
139****0004 | 135 | 2017-2-8 10:25:36 | AAA0002 |
如果第一数据还包括第一金额和后四位卡号,第二数据还包括第二金额和含后四位卡号的短信内容,则任一类第一数据与对应的第二数据之间的第四种对应关系为:对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差,且对应的第二数据的第二金额与任一类第一数据的第一金额相同,同时,对应的第二数据的后四位卡号与任一类第一数据的后四位卡号相同。
例如,任一类第一数据如表1所示,第二数据如表2所示,预设时间差为60秒,则根据第三种对应关系,任一类第一数据对应的第二数据如表6所示。
表6
第二伪ID | 金额 | 第二记录时间 | 短信内容 |
139****0001 | 100 | 2017-2-5 10:25:33 | AAA0001 |
步骤1.2,根据第二伪ID将对应的第二数据分类。
其中,同类的对应的第二数据的第二伪ID相同。
通过步骤1.2的执行,对应的第二数据会分成m类,其中m为对应的第二数据中不同第二伪ID的数量。
每一类中的对应的第二数据的第二伪ID相同。不同类中的对应的第二数据的第二伪ID不同。
步骤1.3,统计各类对应的第二数据的数量。
步骤1.4,根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度。
本步骤中,1)若任一类对应的第二数据的数量≥绝对可信区阈值,则确定任一类第一数据与任一类对应的第二数据之间的可信度为绝对可信;2)若疑似可信区间阈值≤任一类对应的第二数据的数量<绝对可信区阈值,则确定任一类第一数据与任一类对应的第二数据之间的可信度为疑似可信;3)若任一类对应的第二数据的数量<疑似可信区间阈值,则确定任一类第一数据与任一类对应的第二数据之间的可信度为不可信。
其中,绝对可信区阈值和疑似可信区间阈值的确定方法,可以通过如下步骤实现。
步骤0.1,获取第一数据源的第一样本数据和第二数据源的第二样本数据。
步骤0.1中的第一样本数据也为第一数据源数据,因此,第一样本数据中包括的内容与步骤201中获取的第一数据包括的内容相同。同样,步骤0.1中的第二样本数据也为第二数据源数据,因此,第二样本数据中包括的内容与步骤201中获取的第二数据包括的内容相同。
其中,第一样本数据中具有相同的任一第一伪ID的数据量为第三预设数量。
本实施例不对第三预设数量的具体值进行限定,例如,第三预设数量为10。即若在步骤0.1中,获取第一数据源的第一样本数据中包括i个不同的第一伪ID,在第一样本数据中包括任一第一伪ID的数据数量为10个。
步骤0.2,根据第一伪ID将第一样本数据分类。
其中,同类的第一样本数据的第一伪ID相同。
通过步骤0.2的执行,第一样本数据会分成i类,其中i为第一样本数据中不同第二伪ID的数量。
每一类中的第一样本数据的第一伪ID相同。不同类中的第一样本数据的第一伪ID不同。
步骤0.3,针对任一类第一样本数据,确定其对应的第二样本数据,根据第二伪ID将对应的第二样本数据分类,统计各类对应的第二样本数据的数量。
对于确定任一类第一样本数据对应的第二样本数据的实现过程,可以参见步骤203中的步骤1.1,此处不再赘述。
对于根据第二伪ID将对应的第二样本数据分类的实现过程,可以参见步骤203中的步骤1.2,此处不再赘述。
对于统计各类对应的第二样本数据的数量的实现过程,可以参见步骤203中的步骤1.3,此处不再赘述。
步骤0.4,若任一类对应的第二样本数据的数量≥第四预设阈值,则将任一类第一样本数据作为正样本;若任一类对应的第二样本数据的数量<第四预设阈值,则将任一类第一样本数据作为负样本。
本实施例不对第四预设阈值进行限定,例如,第四预设阈值为4。
步骤0.5,在第一样本数据中,将所有正样本记为原始正样本,并选择预设比例的正样本和负样本。
本实施例不低预设比例进行限定,例如,预设比例为5:1。
例如,第一样本数据包括:第一样本数据1、第一样本数据2、第一样本数据3、第一样本数据4、第一样本数据5、第一样本数据6、第一样本数据7、第一样本数据8、第一样本数据9、第一样本数据10、第一样本数据11、第一样本数据12、第一样本数据13,第一样本数据14。
其中,所有正样本为第一样本数据1、第一样本数据2、第一样本数据3、第一样本数据4、第一样本数据5、第一样本数据6、第一样本数据7、第一样本数据8、第一样本数据9、第一样本数据10、第一样本数据11,则将第一样本数据1、第一样本数据2、第一样本数据3、第一样本数据4、第一样本数据5、第一样本数据6、第一样本数据7、第一样本数据8、第一样本数据9、第一样本数据10、第一样本数据11记为原始正样本。
并选择5:1比例的正样本和负样本,如,正样本为:第一样本数据1、第一样本数据2、第一样本数据3、第一样本数据4、第一样本数据5、第一样本数据6、第一样本数据7、第一样本数据8、第一样本数据9、第一样本数据10作为正样本。负样本为:第一样本数据12和第一样本数据13。
步骤0.6,将选择的正样本和负样本通过决策树算法进行训练,得到样本选择规则。
由于同一数据在不同维度上会有不同的分类规律,因此为了更准确的确定最终的绝对可信区阈值和疑似可信区间阈值,步骤0.6中,可以考虑不同的维度。
具体的,在将选择的正样本和负样本通过决策树算法进行训练,得到样本选择规则之前,先针对任一类第一样本数据,确定其对应的各第二样本数据的第二记录时间与任一类第一样本数据的第一记录时间的差的平均值,然后再执行步骤0.6将选择的正样本和负样本、各类第一样本数据的时间差平均值、各类第一样本数据对应的第二样本数据的数量,通过决策树算法进行训练,得到样本选择规则;其中,样本选择规则,包括对应第二样本数据的数量规则和时间差规则。
例如,选择规则为对应第二样本数据的数量≤165,且时间差位于(7.99,9.98)内。
除此之外,如果第一数据包括第一金额,第二数据包括第二金额,则在将选择的正样本和负样本通过决策树算法进行训练,得到样本选择规则之前,还可以,先针对任一类第一样本数据,确定其对应的各第二样本数据的第二记录时间与任一类第一样本数据的第一记录时间的差的平均值,确定任一类第一样本数据对应的各第二样本数据的第二金额的平均值,然后再执行步骤0.6,将选择的正样本和负样本、各类第一样本数据对应的时间差平均值、各类第一样本数据对应的第二样本数据的数量、各类第一样本数据对应的第二金额的平均值,通过决策树算法进行训练,得到样本选择规则;其中,样本选择规则,包括对应第二样本数据的数量规则、时间差规则和金额规则。
步骤0.7,在第一样本数据中,确定满足样本选择规则的第一样本。
步骤0.8,若满足样本选择规则的第一样本中非正样本的数量≥第五预设数量,则将满足样本选择规则的第一样本作为正样本,将不满足样本选择规则的第一样本作为负样本,重复执行步骤0.6和步骤0.7。若满足样本选择规则的第一样本中非正样本的数量<第五预设数量,则将满足样本选择规则的第一样本对应的第二样本数据量的平均值确定为绝对可信区阈值,将满足样本选择规则但非原始正样本的第一样本对应的第二样本数据量的平均值确定为疑似可信区间阈值。
本实施例不对第五预设数量进行限定。只要满足样本选择规则的第一样本中非正样本的数量较少即可,即前后2次通过决策树算法进行训练得到的样本选择规则选择出的正样本数量变化不大。
例如,如果步骤0.5中原始正样本为:第一样本数据1、第一样本数据2、第一样本数据3、第一样本数据4、第一样本数据5、第一样本数据6、第一样本数据7、第一样本数据8、第一样本数据9、第一样本数据10。步骤0.8中,当满足样本选择规则的第一样本中非正样本的数量<第五预设数量成立时,满足样本选择规则的第一样本为:第一样本数据1、第一样本数据2、第一样本数据3、第一样本数据4、第一样本数据5、第一样本数据6、第一样本数据7、第一样本数据8、第一样本数据9、第一样本数据10和第一样本数据12。
则,绝对可信区阈值=(第一样本数据1对应的第二样本数据量+第一样本数据2对应的第二样本数据量+第一样本数据3对应的第二样本数据量+第一样本数据4对应的第二样本数据量+第一样本数据5对应的第二样本数据量+第一样本数据6对应的第二样本数据量+第一样本数据7对应的第二样本数据量+第一样本数据8对应的第二样本数据量+第一样本数据9对应的第二样本数据量+第一样本数据10对应的第二样本数据量+第一样本数据12对应的第二样本数据量)/11。
将满足样本选择规则但非原始正样本的第一样本(第一样本数据12)对应的第二样本数据量的平均值确定为疑似可信区间阈值。
步骤0.1至步骤0.8执行完毕后会获得绝对可信区阈值和疑似可信区间阈值,因此,步骤0.1至步骤0.8可以在每次执行本实施例提供的方法时均执行一次,以获得当前最准确的绝对可信区阈值和疑似可信区间阈值,也可以满足执行的触发条件时执行,本实施例不对步骤0.1至步骤0.8的触发执行条件进行限定。
步骤1.5,按照可信度将任一类第一数据与对应的第二数据匹配。
本步骤的具体实现方式可以有多种,例如,存储任一类第一数据与对应的第二数据匹配及其之间的可信度,也可以将任一类第一数据与对应的第二数据融合为一条数据,并记录可信度。
执行步骤201至步骤205后,实现了两个ID被脱敏的数据源的数据匹配。
例如,第一数据为第一伪ID为6225********0007的一类数据,通过执行步骤201至步骤205,可得到其对应的第二数据包括2类,第一类为第二伪ID为139****0007的第二数据,第二类为第二伪ID为139****0008的第二数据。第一伪ID为6225********0007的一类数据与第二伪ID为139****0007的第二数据之间的可信度为绝对可信,第一伪ID为6225********0008的一类数据与第二伪ID为139****0007的第二数据之间的可信度为疑似可信。此种情况如现实生活中的,用户在数据统计期间内更换了电话号码,导致两个电话号码与该用户的银行数据源的6225********0007数据匹配,且前电话号码与6225********0007呈现绝对可信关系,后电话号码与6225********0007呈现疑似可信关系。此处的疑似可信并非不可信,需要后续再分析。
另外,为了数据的复用,还可以在执行上述步骤201至步骤205的同时,记录中间数据。例如,记录步骤201中获取的第一数据和第二数据,作为第一历史数据和第二历史数据,记录步骤202中的第一数据分类结果,记录步骤203中的各类第一数据对应的第二数据、对应的第二数据的分类结果、各类对应的第二数据的数量、任一类第一数据与各类对应的第二数据之间的可信度、任一类第一数据与对应的第二数据匹配结果等。
上述图2所示的流程描述了本实施例提供的方法首次使用的过程。由于数据源数据会不断更新,因此首次执行本实施例提供的方法后,还需要再次执行本实施例提供的方法,以确定最新的匹配关系。例如,每隔1个月,执行本实施例提供的方法进行跨数据源的数据匹配。
非首次使用时,可以重复执行步骤201至步骤205,仅步骤201中获取的第一数据和第二数据为更新的数据。也可以按照图3所示的流程进行处理。
301,获取第一数据源的第一数据和第二数据源的第二数据。
本步骤中的第一数据和第二数据均为更新的数据,与之前执行本实施例提供的方法所获得的第一历史数据和第二历史数据均不同,但本次获取的第一数据的第一伪ID可以与第一历史数据的第一伪ID完全相同、部分相同、或完全不同,本次获取的第二数据的第二伪ID可以与第二历史数据的第二伪ID完全相同、部分相同、或完全不同。
即第一历史数据与第一数据不同,第二历史数据与第二数据不同,第一历史数据的任一第一伪ID与第一数据的任一第一伪ID相同或者不同,第二历史数据的任一第二伪ID与第二数据的任一第二伪ID相同或者不同
302,根据第一伪ID将第一数据分类。
本步骤的执行过程详见步骤202,此处不再赘述。
303,将第一数据与第二数据匹配。
针对任一类第一数据,将其与第二数据匹配具体实现方法为:
步骤2.1,确定任一类第一数据对应的第二数据。
本步骤的执行过程详见步骤203中的步骤1.1,此处不再赘述。
步骤2.2,根据第二伪ID将对应的第二数据分类。
本步骤的执行过程详见步骤203中的步骤1.2,此处不再赘述。
步骤2.3,统计各类对应的第二数据的数量。
本步骤的执行过程详见步骤203中的步骤1.3,此处不再赘述。
步骤2.4,根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度。
本步骤中,确定第一历史数据中是否包括任一类第一数据的相似历史数据,相似历史数据的第一伪ID与任一类第一数据的第一伪ID相同。
若有相似历史数据,则确定相似历史数据所在类对应的第二历史数据的数量,根据各类对应的第二数据的数量与相似历史数据所在类对应的第二历史数据的数量之和,确定任一类第一数据与各类对应的第二数据之间的可信度,其中,相似历史数据所在类的相同第一伪ID为相似历史数据的第一伪ID。
具体的,1)若各类对应的第二数据的数量与相似历史数据所在类对应的第二历史数据的数量之和≥绝对可信区阈值,则确定任一类第一数据以及相似历史数据所在类对应的第二历史数据与任一类对应的第二数据之间的可信度为绝对可信;2)若疑似可信区间阈值≤各类对应的第二数据的数量与相似历史数据所在类对应的第二历史数据的数量之和<绝对可信区阈值,则确定任一类第一数据以及相似历史数据所在类对应的第二历史数据与任一类对应的第二数据之间的可信度为疑似可信;3)若各类对应的第二数据的数量与相似历史数据所在类对应的第二历史数据的数量之和<疑似可信区间阈值,则确定任一类第一数据以及相似历史数据所在类对应的第二历史数据与任一类对应的第二数据之间的可信度为不可信。
若未有相似历史数据,则根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度。
具体的,1)若任一类对应的第二数据的数量≥绝对可信区阈值,则确定任一类第一数据与任一类对应的第二数据之间的可信度为绝对可信;2)若疑似可信区间阈值≤任一类对应的第二数据的数量<绝对可信区阈值,则确定任一类第一数据与任一类对应的第二数据之间的可信度为疑似可信;3)若任一类对应的第二数据的数量<疑似可信区间阈值,则确定任一类第一数据与任一类对应的第二数据之间的可信度为不可信。
其中,绝对可信区阈值和疑似可信区间阈值的确定方法,可以通过步骤0.1至步骤0.8实现。
步骤2.5,按照可信度将任一类第一数据与对应的第二数据匹配。
匹配后将步骤301中获取的第一数据和第二数据,作为第一历史数据和第二历史数据,记录步骤302中的第一数据分类结果,记录步骤303中的各类第一数据对应的第二数据、对应的第二数据的分类结果、各类对应的第二数据的数量、任一类第一数据与各类对应的第二数据之间的可信度、任一类第一数据与对应的第二数据匹配结果等增加存储至对应的历史数据中。
通过图3所示的方法,仅对增量数据进行处理,对于历史数据可以直接使用存储的结果,减少了资源效果,提升了方法执行效率。
本实施例提供的方法,获取第一数据和第二数据,根据第一伪ID将第一数据分类,针对任一类第一数据,确定其对应的第二数据,根据第二伪ID将对应的第二数据分类,统计各类对应的第二数据的数量,根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度,按照可信度将任一类第一数据与对应的第二数据匹配,实现了两个ID被脱敏的数据源的数据匹配。
参见图4,本实施例提供了一种数据匹配的装置,该装置用于执行上述图1、图2、图3所提供的数据匹配的方法,该装置包括:
获取模块401,用于获取第一数据源的第一数据和第二数据源的第二数据,第一数据包括第一伪标识ID和第一记录时间,第二数据包括第二伪ID和第二记录时间,不同第一数据的第一伪ID相同或不同,不同第二数据的第二伪ID相同或不同;
分类模块402,用于根据第一伪ID将第一数据分类,同类的第一数据的第一伪ID相同;
匹配模块403,用于针对任一类第一数据,确定其对应的第二数据,根据第二伪ID将对应的第二数据分类,统计各类对应的第二数据的数量,根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度,按照可信度将任一类第一数据与对应的第二数据匹配;
其中,对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差;
其中,第一数据源为任一银行的银行卡数据源,第二数据源为通信运营商数据源,且第二数据与任一银行相关;
参见图5,该装置,还包括:
清洗模块404,用于清洗第一数据和第二数据;
清洗模块404,用于根据第一记录时间,确定各第一数据所属月份,各第一数据所属月份为同一月份或不同月份;若各第一数据所属月份为同一月份,则将预先设置的各第一数据所属月份对应的第一数据阈值作为第一清洗阈值,若各第一数据所属月份为不同月份,则预先设置的各第一数据所属各月份对应的第一数据阈值的和作为第一清洗阈值;若包括任一第一伪ID的第一数据总量>第一清洗阈值,则删除包括任一第一伪ID的所有第一数据;
清洗模块404,用于根据第二记录时间,确定各日的第二数据及各第二数据所属月份,各第二数据所属月份为同一月份或不同月份;根据各日的第二数据,确定各日的第二数据量以及日平均数据量,若任一日的第二数据量<第一预设数量*日平均数据量,则删除任一日的所有第二数据;若任一日包括任一第二伪ID的第二数据总量>预设的日数据阈值,则删除任一日包括任一第二伪ID的所有第二数据;若各第二数据所属月份为同一月份,则将预先设置的各第二数据所属月份对应的第二数据阈值作为第二清洗阈值,若各第二数据所属月份为不同月份,则预先设置的各第二数据所属各月份对应的第二数据阈值的和作为第二清洗阈值;若包括任一第二伪ID的第二数据总量>第二清洗阈值,则删除包括任一第二伪ID的所有第二数据。
可选地,匹配模块403,用于若任一类对应的第二数据的数量≥绝对可信区阈值,则确定任一类第一数据与任一类对应的第二数据之间的可信度为绝对可信;若疑似可信区间阈值≤任一类对应的第二数据的数量<绝对可信区阈值,则确定任一类第一数据与任一类对应的第二数据之间的可信度为疑似可信;若任一类对应的第二数据的数量<疑似可信区间阈值,则确定任一类第一数据与任一类对应的第二数据之间的可信度为不可信;
参见图6,该装置,还包括:
确定模块405,用于获取第一数据源的第一样本数据和第二数据源的第二样本数据,第一样本数据中具有相同的任一第一伪ID的数据量为第三预设数量;根据第一伪ID将第一样本数据分类,同类的第一样本数据的第一伪ID相同;针对任一类第一样本数据,确定其对应的第二样本数据,根据第二伪ID将对应的第二样本数据分类,统计各类对应的第二样本数据的数量;若任一类对应的第二样本数据的数量≥第四预设阈值,则将任一类第一样本数据作为正样本;若任一类对应的第二样本数据的数量<第四预设阈值,则将任一类第一样本数据作为负样本;在第一样本数据中,将所有正样本记为原始正样本,并选择预设比例的正样本和负样本;将选择的正样本和负样本通过决策树算法进行训练,得到样本选择规则;在第一样本数据中,确定满足样本选择规则的第一样本;若满足样本选择规则的第一样本中非正样本的数量≥第五预设数量,则将满足样本选择规则的第一样本作为正样本,将不满足样本选择规则的第一样本作为负样本,重复执行将选择的正样本和负样本通过决策树算法进行训练,得到样本选择规则,在第一样本数据中,确定满足样本选择规则的第一样本的步骤;若满足样本选择规则的第一样本中非正样本的数量<第五预设数量,则将满足样本选择规则的第一样本对应的第二样本数据量的平均值确定为绝对可信区阈值,将满足样本选择规则但非原始正样本的第一样本对应的第二样本数据量的平均值确定为疑似可信区间阈值;
其中,确定模块405,用于针对任一类第一样本数据,确定其对应的各第二样本数据的第二记录时间与任一类第一样本数据的第一记录时间的差的平均值;将选择的正样本和负样本、各类第一样本数据的时间差平均值、各类第一样本数据对应的第二样本数据的数量,通过决策树算法进行训练,得到样本选择规则;样本选择规则,包括对应第二样本数据的数量规则和时间差规则;
其中,第三预设数量为10,第四预设阈值为4,预设比例为5:1;
若第一数据还包括第一金额,第二数据还包括第二金额;对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差之外,对应的第二数据的第二金额与任一类第一数据的第一金额相同;
若第一数据还包括后四位卡号,第二数据还包括含后四位卡号的短信内容;对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差之外,对应的第二数据的后四位卡号与任一类第一数据的后四位卡号相同;
若第一数据还包括第一金额和后四位卡号,第二数据还包括第二金额和含后四位卡号的短信内容;对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差之外,对应的第二数据的第二金额与任一类第一数据的第一金额相同,并且,对应的第二数据的后四位卡号与任一类第一数据的后四位卡号相同;
其中,预设时间差为60秒。
本实施例提供的装置,获取第一数据和第二数据,根据第一伪ID将第一数据分类,针对任一类第一数据,确定其对应的第二数据,根据第二伪ID将对应的第二数据分类,统计各类对应的第二数据的数量,根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度,按照可信度将任一类第一数据与对应的第二数据匹配,实现了两个ID被脱敏的数据源的数据匹配。
需要说明的是:本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (15)
1.一种数据匹配的方法,其特征在于,所述方法包括:
获取第一数据源的第一数据和第二数据源的第二数据,所述第一数据包括第一伪标识ID和第一记录时间,所述第二数据包括第二伪ID和第二记录时间,不同第一数据的第一伪ID相同或不同,不同第二数据的第二伪ID相同或不同;
根据第一伪ID将所述第一数据分类,同类的第一数据的第一伪ID相同;
针对任一类第一数据,确定其对应的第二数据,根据第二伪ID将对应的第二数据分类,统计各类对应的第二数据的数量,根据各类对应的第二数据的数量确定所述任一类第一数据与各类对应的第二数据之间的可信度,按照可信度将所述任一类第一数据与对应的第二数据匹配,其中,各类对应的第二数据为根据第二伪ID将对应的第二数据分类后的每一类对应的第二数据;
其中,对应的第二数据的第二记录时间与所述任一类第一数据的第一记录时间的差的绝对值小于预设时间差。
2.根据权利要求1所述的方法,其特征在于,所述第一数据源为任一银行的银行卡数据源,所述第二数据源为通信运营商数据源,且所述第二数据与所述任一银行相关;
所述获取第一数据源的第一数据和第二数据源的第二数据之后,还包括:
清洗所述第一数据和第二数据;
所述清洗所述第一数据,包括:
根据所述第一记录时间,确定各第一数据所属月份,各第一数据所属月份为同一月份或不同月份;
若各第一数据所属月份为同一月份,则将预先设置的各第一数据所属月份对应的第一数据阈值作为第一清洗阈值,若各第一数据所属月份为不同月份,则预先设置的各第一数据所属各月份对应的第一数据阈值的和作为第一清洗阈值;
若包括任一第一伪ID的第一数据总量>第一清洗阈值,则删除包括任一第一伪ID的所有第一数据;所述清洗所述第二数据,包括:
根据所述第二记录时间,确定各日的第二数据及各第二数据所属月份,各第二数据所属月份为同一月份或不同月份;
根据各日的第二数据,确定各日的第二数据量以及日平均数据量,若任一日的第二数据量<第一预设数量*日平均数据量,则删除所述任一日的所有第二数据;
若任一日包括任一第二伪ID的第二数据总量>预设的日数据阈值,则删除所述任一日包括任一第二伪ID的所有第二数据;
若各第二数据所属月份为同一月份,则将预先设置的各第二数据所属月份对应的第二数据阈值作为第二清洗阈值,若各第二数据所属月份为不同月份,则预先设置的各第二数据所属各月份对应的第二数据阈值的和作为第二清洗阈值;若包括任一第二伪ID的第二数据总量>第二清洗阈值,则删除包括任一第二伪ID的所有第二数据。
3.根据权利要求2所述的方法,其特征在于,存储有如下数据:第一数据源的第一历史数据、第二数据源的第二历史数据、各类第一历史数据对应的第二历史数据的数量,同类的第一历史数据的第一伪ID相同,所述第一历史数据与所述第一数据不同,所述第二历史数据与所述第二数据不同,所述第一历史数据的任一第一伪ID与所述第一数据的任一第一伪ID相同或者不同,所述第二历史数据的任一第二伪ID与所述第二数据的任一第二伪ID相同或者不同;
所述针对任一类第一数据,根据各类对应的第二数据的数量确定所述任一类第一数据与各类对应的第二数据之间的可信度,包括:
确定第一历史数据中是否包括所述任一类第一数据的相似历史数据,所述相似历史数据的第一伪ID与任一类第一数据的第一伪ID相同;
若有相似历史数据,则确定所述相似历史数据所在类对应的第二历史数据的数量,根据各类对应的第二数据的数量与所述相似历史数据所在类对应的第二历史数据的数量之和,确定所述任一类第一数据与各类对应的第二数据之间的可信度,所述相似历史数据所在类的相同第一伪ID为所述相似历史数据的第一伪ID。
4.根据权利要求1至3任一权利要求所述的方法,其特征在于,所述根据各类对应的第二数据的数量确定所述任一类第一数据与各类对应的第二数据之间的可信度,包括:
若任一类对应的第二数据的数量≥绝对可信区阈值,则确定所述任一类第一数据与所述任一类对应的第二数据之间的可信度为绝对可信;
若疑似可信区间阈值≤任一类对应的第二数据的数量<绝对可信区阈值,则确定所述任一类第一数据与所述任一类对应的第二数据之间的可信度为疑似可信;
若任一类对应的第二数据的数量<疑似可信区间阈值,则确定所述任一类第一数据与所述任一类对应的第二数据之间的可信度为不可信。
5.根据权利要求4所述的方法,其特征在于,所述根据各类对应的第二数据的数量确定所述任一类第一数据与各类对应的第二数据之间的可信度之前,还包括:
获取第一数据源的第一样本数据和第二数据源的第二样本数据,所述第一样本数据中具有相同的任一第一伪ID的数据量为第三预设数量;
根据第一伪ID将所述第一样本数据分类,同类的第一样本数据的第一伪ID相同;
针对任一类第一样本数据,确定其对应的第二样本数据,根据第二伪ID将对应的第二样本数据分类,统计各类对应的第二样本数据的数量;
若任一类对应的第二样本数据的数量≥第四预设阈值,则将所述任一类第一样本数据作为正样本;
若任一类对应的第二样本数据的数量<第四预设阈值,则将所述任一类第一样本数据作为负样本;
在所述第一样本数据中,将所有正样本记为原始正样本,并选择预设比例的正样本和负样本;
将选择的正样本和负样本通过决策树算法进行训练,得到样本选择规则;
在所述第一样本数据中,确定满足所述样本选择规则的第一样本;
若满足所述样本选择规则的第一样本中非正样本的数量≥第五预设数量,则将满足所述样本选择规则的第一样本作为正样本,将不满足所述样本选择规则的第一样本作为负样本,重复执行将选择的正样本和负样本通过决策树算法进行训练,得到样本选择规则,在所述第一样本数据中,确定满足所述样本选择规则的第一样本的步骤;
若满足所述样本选择规则的第一样本中非正样本的数量<第五预设数量,则将满足所述样本选择规则的第一样本对应的第二样本数据量的平均值确定为绝对可信区阈值,将满足所述样本选择规则但非原始正样本的第一样本对应的第二样本数据量的平均值确定为疑似可信区间阈值。
6.根据权利要求5所述的方法,其特征在于,所述将选择的正样本和负样本通过决策树算法进行训练,得到样本选择规则之前,还包括:
针对任一类第一样本数据,确定其对应的各第二样本数据的第二记录时间与所述任一类第一样本数据的第一记录时间的差的平均值;
所述将选择的正样本和负样本通过决策树算法进行训练,得到样本选择规则,包括:
将选择的正样本和负样本、各类第一样本数据的时间差平均值、各类第一样本数据对应的第二样本数据的数量,通过决策树算法进行训练,得到样本选择规则;
所述样本选择规则,包括对应第二样本数据的数量规则和时间差规则。
7.根据权利要求6所述的方法,其特征在于,所述第三预设数量为10,所述第四预设阈值为4,所述预设比例为5:1。
8.根据权利要求7所述的方法,其特征在于,所述预设时间差为60秒。
9.根据权利要求8所述的方法,其特征在于,所述第一数据还包括第一金额,所述第二数据还包括第二金额;
所述对应的第二数据的第二记录时间与所述任一类第一数据的第一记录时间的差的绝对值小于预设时间差之外,所述对应的第二数据的第二金额与所述任一类第一数据的第一金额相同。
10.根据权利要求8所述的方法,其特征在于,所述第一数据还包括后四位卡号,所述第二数据还包括含后四位卡号的短信内容;
所述对应的第二数据的第二记录时间与所述任一类第一数据的第一记录时间的差的绝对值小于预设时间差之外,所述对应的第二数据的后四位卡号与所述任一类第一数据的后四位卡号相同。
11.根据权利要求8所述的方法,其特征在于,所述第一数据还包括第一金额和后四位卡号,所述第二数据还包括第二金额和含后四位卡号的短信内容;
所述对应的第二数据的第二记录时间与所述任一类第一数据的第一记录时间的差的绝对值小于预设时间差之外,所述对应的第二数据的第二金额与所述任一类第一数据的第一金额相同,并且,所述对应的第二数据的后四位卡号与所述任一类第一数据的后四位卡号相同。
12.根据权利要求9或11所述的方法,其特征在于,所述将选择的正样本和负样本通过决策树算法进行训练,得到样本选择规则之前,还包括:
针对任一类第一样本数据,确定其对应的各第二样本数据的第二金额的平均值;
所述将选择的正样本和负样本通过决策树算法进行训练,得到样本选择规则,包括:
将选择的正样本和负样本、各类第一样本数据对应的时间差平均值、各类第一样本数据对应的第二样本数据的数量、各类第一样本数据对应的第二金额的平均值,通过决策树算法进行训练,得到样本选择规则;
所述样本选择规则,包括对应第二样本数据的数量规则、时间差规则和金额规则。
13.一种数据匹配的装置,其特征在于,所述装置包括:
获取模块,用于获取第一数据源的第一数据和第二数据源的第二数据,所述第一数据包括第一伪标识ID和第一记录时间,所述第二数据包括第二伪ID和第二记录时间,不同第一数据的第一伪ID相同或不同,不同第二数据的第二伪ID相同或不同;
分类模块,用于根据第一伪ID将所述第一数据分类,同类的第一数据的第一伪ID相同;
匹配模块,用于针对任一类第一数据,确定其对应的第二数据,根据第二伪ID将对应的第二数据分类,统计各类对应的第二数据的数量,根据各类对应的第二数据的数量确定所述任一类第一数据与各类对应的第二数据之间的可信度,按照可信度将所述任一类第一数据与对应的第二数据匹配,其中,各类对应的第二数据为根据第二伪ID将对应的第二数据分类后的每一类对应的第二数据;
其中,对应的第二数据的第二记录时间与所述任一类第一数据的第一记录时间的差的绝对值小于预设时间差;
其中,所述第一数据源为任一银行的银行卡数据源,所述第二数据源为通信运营商数据源,且所述第二数据与所述任一银行相关;
所述装置,还包括:
清洗模块,用于清洗所述第一数据和第二数据;
所述清洗模块,用于根据所述第一记录时间,确定各第一数据所属月份,各第一数据所属月份为同一月份或不同月份;若各第一数据所属月份为同一月份,则将预先设置的各第一数据所属月份对应的第一数据阈值作为第一清洗阈值,若各第一数据所属月份为不同月份,则预先设置的各第一数据所属各月份对应的第一数据阈值的和作为第一清洗阈值;若包括任一第一伪ID的第一数据总量>第一清洗阈值,则删除包括任一第一伪ID的所有第一数据;
所述清洗模块,用于根据所述第二记录时间,确定各日的第二数据及各第二数据所属月份,各第二数据所属月份为同一月份或不同月份;根据各日的第二数据,确定各日的第二数据量以及日平均数据量,若任一日的第二数据量<第一预设数量*日平均数据量,则删除所述任一日的所有第二数据;若任一日包括任一第二伪ID的第二数据总量>预设的日数据阈值,则删除所述任一日包括任一第二伪ID的所有第二数据;若各第二数据所属月份为同一月份,则将预先设置的各第二数据所属月份对应的第二数据阈值作为第二清洗阈值,若各第二数据所属月份为不同月份,则预先设置的各第二数据所属各月份对应的第二数据阈值的和作为第二清洗阈值;若包括任一第二伪ID的第二数据总量>第二清洗阈值,则删除包括任一第二伪ID的所有第二数据。
14.根据权利要求13所述的装置,其特征在于,所述匹配模块,用于若任一类对应的第二数据的数量≥绝对可信区阈值,则确定所述任一类第一数据与所述任一类对应的第二数据之间的可信度为绝对可信;
若疑似可信区间阈值≤任一类对应的第二数据的数量<绝对可信区阈值,则确定所述任一类第一数据与所述任一类对应的第二数据之间的可信度为疑似可信;
若任一类对应的第二数据的数量<疑似可信区间阈值,则确定所述任一类第一数据与所述任一类对应的第二数据之间的可信度为不可信。
15.根据权利要求14所述的装置,其特征在于,所述装置,还包括:
确定模块,用于获取第一数据源的第一样本数据和第二数据源的第二样本数据,所述第一样本数据中具有相同的任一第一伪ID的数据量为第三预设数量;根据第一伪ID将所述第一样本数据分类,同类的第一样本数据的第一伪ID相同;针对任一类第一样本数据,确定其对应的第二样本数据,根据第二伪ID将对应的第二样本数据分类,统计各类对应的第二样本数据的数量;若任一类对应的第二样本数据的数量≥第四预设阈值,则将所述任一类第一样本数据作为正样本;若任一类对应的第二样本数据的数量<第四预设阈值,则将所述任一类第一样本数据作为负样本;在所述第一样本数据中,将所有正样本记为原始正样本,并选择预设比例的正样本和负样本;将选择的正样本和负样本通过决策树算法进行训练,得到样本选择规则;在所述第一样本数据中,确定满足所述样本选择规则的第一样本;若满足所述样本选择规则的第一样本中非正样本的数量≥第五预设数量,则将满足所述样本选择规则的第一样本作为正样本,将不满足所述样本选择规则的第一样本作为负样本,重复执行将选择的正样本和负样本通过决策树算法进行训练,得到样本选择规则,在所述第一样本数据中,确定满足所述样本选择规则的第一样本的步骤;若满足所述样本选择规则的第一样本中非正样本的数量<第五预设数量,则将满足所述样本选择规则的第一样本对应的第二样本数据量的平均值确定为绝对可信区阈值,将满足所述样本选择规则但非原始正样本的第一样本对应的第二样本数据量的平均值确定为疑似可信区间阈值;
其中,所述确定模块,用于针对任一类第一样本数据,确定其对应的各第二样本数据的第二记录时间与所述任一类第一样本数据的第一记录时间的差的平均值;将选择的正样本和负样本、各类第一样本数据的时间差平均值、各类第一样本数据对应的第二样本数据的数量,通过决策树算法进行训练,得到样本选择规则;所述样本选择规则,包括对应第二样本数据的数量规则和时间差规则;
其中,所述第三预设数量为10,所述第四预设阈值为4,所述预设比例为5:1;
若所述第一数据还包括第一金额,所述第二数据还包括第二金额;所述对应的第二数据的第二记录时间与所述任一类第一数据的第一记录时间的差的绝对值小于预设时间差之外,所述对应的第二数据的第二金额与所述任一类第一数据的第一金额相同;
若所述第一数据还包括后四位卡号,所述第二数据还包括含后四位卡号的短信内容;所述对应的第二数据的第二记录时间与所述任一类第一数据的第一记录时间的差的绝对值小于预设时间差之外,所述对应的第二数据的后四位卡号与所述任一类第一数据的后四位卡号相同;
若所述第一数据还包括第一金额和后四位卡号,所述第二数据还包括第二金额和含后四位卡号的短信内容;所述对应的第二数据的第二记录时间与所述任一类第一数据的第一记录时间的差的绝对值小于预设时间差之外,所述对应的第二数据的第二金额与所述任一类第一数据的第一金额相同,并且,所述对应的第二数据的后四位卡号与所述任一类第一数据的后四位卡号相同;
其中,所述预设时间差为60秒。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710198317.4A CN108664497B (zh) | 2017-03-30 | 2017-03-30 | 数据匹配的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710198317.4A CN108664497B (zh) | 2017-03-30 | 2017-03-30 | 数据匹配的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108664497A CN108664497A (zh) | 2018-10-16 |
CN108664497B true CN108664497B (zh) | 2020-11-03 |
Family
ID=63786790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710198317.4A Expired - Fee Related CN108664497B (zh) | 2017-03-30 | 2017-03-30 | 数据匹配的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108664497B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083728B (zh) * | 2019-04-03 | 2021-08-20 | 上海铼锶信息技术有限公司 | 一种优化自动化图片数据清洗质量的方法、装置和系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102135979A (zh) * | 2010-12-08 | 2011-07-27 | 华为技术有限公司 | 数据清洗方法及装置 |
CN102724295A (zh) * | 2012-05-24 | 2012-10-10 | 中国电子科技集团公司第十五研究所 | 数据同步方法及系统 |
CN103530334A (zh) * | 2013-09-29 | 2014-01-22 | 方正国际软件有限公司 | 基于比较模板的数据匹配系统和方法 |
CN103646109A (zh) * | 2013-12-25 | 2014-03-19 | 武汉大学 | 一种基于机器学习的空间数据匹配方法 |
CN104731976A (zh) * | 2015-04-14 | 2015-06-24 | 海量云图(北京)数据技术有限公司 | 数据表中隐私数据的发现与分类方法 |
CN105320666A (zh) * | 2014-06-16 | 2016-02-10 | 中国银联股份有限公司 | 多数据集的数据聚合方法 |
CN105843889A (zh) * | 2016-03-21 | 2016-08-10 | 华南师范大学 | 基于可信度面向大数据及普通数据的数据采集方法和系统 |
CN106156886A (zh) * | 2016-06-30 | 2016-11-23 | 亿阳安全技术有限公司 | 一种基于运营商系统数据补全规则应用流程的方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5640773B2 (ja) * | 2011-01-28 | 2014-12-17 | 富士通株式会社 | 情報照合装置、情報照合方法および情報照合プログラム |
-
2017
- 2017-03-30 CN CN201710198317.4A patent/CN108664497B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102135979A (zh) * | 2010-12-08 | 2011-07-27 | 华为技术有限公司 | 数据清洗方法及装置 |
CN102724295A (zh) * | 2012-05-24 | 2012-10-10 | 中国电子科技集团公司第十五研究所 | 数据同步方法及系统 |
CN103530334A (zh) * | 2013-09-29 | 2014-01-22 | 方正国际软件有限公司 | 基于比较模板的数据匹配系统和方法 |
CN103646109A (zh) * | 2013-12-25 | 2014-03-19 | 武汉大学 | 一种基于机器学习的空间数据匹配方法 |
CN105320666A (zh) * | 2014-06-16 | 2016-02-10 | 中国银联股份有限公司 | 多数据集的数据聚合方法 |
CN104731976A (zh) * | 2015-04-14 | 2015-06-24 | 海量云图(北京)数据技术有限公司 | 数据表中隐私数据的发现与分类方法 |
CN105843889A (zh) * | 2016-03-21 | 2016-08-10 | 华南师范大学 | 基于可信度面向大数据及普通数据的数据采集方法和系统 |
CN106156886A (zh) * | 2016-06-30 | 2016-11-23 | 亿阳安全技术有限公司 | 一种基于运营商系统数据补全规则应用流程的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108664497A (zh) | 2018-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107563757B (zh) | 数据风险识别的方法及装置 | |
Marcus et al. | Counting with the crowd | |
CN101166159B (zh) | 一种确定垃圾信息的方法及系统 | |
CN106296195A (zh) | 一种风险识别方法及装置 | |
CN110033302B (zh) | 恶意账户识别方法及装置 | |
CN106204083B (zh) | 一种目标用户分类方法、装置及系统 | |
CN107644106B (zh) | 自动挖掘业务中间人的方法、终端设备及存储介质 | |
CN108563680A (zh) | 资源推荐方法及装置 | |
CN110727857A (zh) | 针对业务对象识别潜在用户的关键特征的方法及装置 | |
CN109033148A (zh) | 一种面向多分类的不平衡数据预处理方法、装置及设备 | |
CN112819611A (zh) | 欺诈识别方法、装置、电子设备和计算机可读存储介质 | |
CN113052577A (zh) | 一种区块链数字货币虚拟地址的类别推测方法及系统 | |
CN115409518A (zh) | 用户交易风险预警方法及装置 | |
CN110263817B (zh) | 一种基于用户账号的风险等级划分方法及装置 | |
CN108664497B (zh) | 数据匹配的方法和装置 | |
US20170161285A1 (en) | Computer-readable recording medium, display control method, and information processing device | |
CN108462624A (zh) | 一种垃圾邮件的识别方法、装置以及电子设备 | |
CN109214640A (zh) | 指标结果的确定方法、设备及计算机可读存储介质 | |
CN110972086A (zh) | 短信息处理方法、装置、电子设备及计算机可读存储介质 | |
CN112801784A (zh) | 一种数字货币交易所的比特币地址挖掘方法及装置 | |
CN111353015B (zh) | 众包题目推荐方法、装置、设备及存储介质 | |
CN115130577A (zh) | 一种欺诈号码识别方法、装置及电子设备 | |
CN104391981A (zh) | 一种文本分类方法和装置 | |
CN111382343B (zh) | 一种标签体系生成方法及装置 | |
CN110708414B (zh) | 一种电话号码的排序方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201103 |
|
CF01 | Termination of patent right due to non-payment of annual fee |