CN108628877A - 数据修复方法和装置 - Google Patents
数据修复方法和装置 Download PDFInfo
- Publication number
- CN108628877A CN108628877A CN201710160393.6A CN201710160393A CN108628877A CN 108628877 A CN108628877 A CN 108628877A CN 201710160393 A CN201710160393 A CN 201710160393A CN 108628877 A CN108628877 A CN 108628877A
- Authority
- CN
- China
- Prior art keywords
- data
- telephone number
- determining
- candidate
- telephone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000011084 recovery Methods 0.000 title claims abstract description 23
- 238000004891 communication Methods 0.000 claims description 50
- 230000004927 fusion Effects 0.000 claims description 39
- 230000008439 repair process Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/274—Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc
- H04M1/2745—Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips
- H04M1/27453—Directories allowing storage of additional subscriber data, e.g. metadata
Landscapes
- Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种数据修复方法和装置,属于数据处理技术领域。方法包括:获取用户的失效电话号码;在包含失效电话号码的多数据源融合数据中,确定各电话号码的联系人;确定候选电话号码,候选电话号码与失效电话号码之间具有至少一个相同联系人;确定失效电话号码与候选电话号码之间的相似度;根据相似度从候选电话号码中确定用户的有效电话号码。本发明获取用户的失效电话号码;在包含失效电话号码的多数据源融合数据中,确定候选电话号码后,根据失效电话号码与候选电话号码之间的相似度从候选电话号码中确定用户的有效电话号码,保证在电话号码失效的情况下获得准确的有效电话号码,使得即使关键数据项缺失,业务仍然可以正常进行。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种数据修复方法和装置。
背景技术
在强烈依赖某一数据项的行业中,该数据项的缺失会严重影响正常业务的进行。例如,在金融行业,一旦用户发生贷款违约等行为,该用户的原有联系方式失效。而金融机构进行坏账追回业务强烈依赖联系方式,因此,联系方式的缺失会严重影响金融机构进行坏账追回。针对该情况,如何找到用户新的、有效的联系方式,是能否进行坏账追回的关键。
现有的数据修复方法是基于身份证号码,找到与该身份证号匹配的有效电话号码。
但是,若用户用其他证件办理手机卡,现有方式将无法找到与该身份证号匹配的有效电话号码。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种数据修复方法和装置。所述技术方案如下:
第一方面,提供了一种数据修复方法,所述方法包括:
获取用户的失效电话号码;
在包含所述失效电话号码的多数据源融合数据中,确定各电话号码的联系人,所述联系人包括电话联系人和/或短信联系人;
确定候选电话号码,所述候选电话号码与所述失效电话号码之间具有至少一个相同联系人;
确定所述失效电话号码与所述候选电话号码之间的相似度;
根据所述相似度从所述候选电话号码中确定所述用户的有效电话号码。
可选地,所述多数据源数据为运营商数据源数据和银联数据源数据;所述运营商数据源数据和所述银联数据源数据均包括电话号码数据项;所述运营商数据源数据的电话号码数据项的值包括所述失效电话号码,和/或,所述银联数据源数据的电话号码数据项的值包括所述失效电话号码;
所述在包含所述失效电话号码的多数据源融合数据中,确定各电话号码的位置轨迹之前,还包括:
基于所述电话号码数据项的值,融合运营商数据源数据和银联数据源数据。
可选地,所述确定所述失效电话号码与所述候选电话号码之间的相似度,包括:
在包含所述失效电话号码的多数据源融合数据中,确定所述失效电话号码i的总通讯次数Ai,所述候选电话号码j的总通讯次数Aj,所述i与i,j之间相同联系人的通话次数ni,所述j与i,j之间相同联系人的通话次数nj;
计算所述i与所述j之间的交往圈距离系数D(i,j):
将D(i,j)作为所述相似度。
可选地,所述根据所述相似度从所述候选电话号码中确定所述用户的有效电话号码,包括:
将D(i,j)小于0.3的候选电话号码确定为所述用户的有效电话号码。
可选地,所述确定所述失效电话号码与所述候选电话号码之间的相似度,包括:
在包含所述失效电话号码的多数据源融合数据中,确定i与i,j之间相同联系人的通话次数ni,j与i,j之间相同联系人的通话次数nj,i与i,j之间相同联系人t的通话次数mit,j与t的通话次数mjt,所述i为失效电话号码,所述i为候选电话号码;
计算所述i与所述j之间的交往圈匹配度a(i,j):
将a(i,j)作为所述相似度。
可选地,所述根据所述相似度从所述候选电话号码中确定所述用户的有效电话号码,包括:
将a(i,j)大于0.8的候选电话号码确定为所述用户的有效电话号码。
可选地,所述确定所述失效电话号码与所述候选电话号码之间的相似度,包括:
在包含所述失效电话号码的多数据源融合数据中,确定所述失效电话号码i的总通讯次数Ai,所述候选电话号码j的总通讯次数Aj,所述i与i,j之间相同联系人的通话次数ni,所述j与i,j之间相同联系人的通话次数nj,i与i,j之间相同联系人t的通话次数mit,j与t的通话次数mjt;
计算所述i与所述j之间的交往圈距离系数D(i,j):
计算所述i与所述j之间的交往圈匹配度a(i,j):
将D(i,j)和a(i,j)均作为所述相似度。
可选地,所述根据所述相似度从所述候选电话号码中确定所述用户的有效电话号码,包括:
将D(i,j)小于0.6且a(i,j)大于0.8的候选电话号码确定为所述用户的有效电话号码;或者,
将D(i,j)小于0.3且a(i,j)大于0.5的候选电话号码确定为所述用户的有效电话号码。
第二方面,提供了一种数据修复装置,所述装置包括:
获取模块,用于获取用户的失效电话号码;
第一确定模块,用于在包含所述失效电话号码的多数据源融合数据中,确定各电话号码的联系人,所述联系人包括电话联系人和/或短信联系人;
第二确定模块,用于确定候选电话号码,所述候选电话号码与所述失效电话号码之间具有至少一个相同联系人;
第三确定模块,用于确定所述失效电话号码与所述候选电话号码之间的相似度;
第四确定模块,用于根据所述相似度从所述候选电话号码中确定所述用户的有效电话号码。
其中,所述多数据源数据为运营商数据源数据和银联数据源数据;所述运营商数据源数据和所述银联数据源数据均包括电话号码数据项;所述运营商数据源数据的电话号码数据项的值包括所述失效电话号码,和/或,所述银联数据源数据的电话号码数据项的值包括所述失效电话号码;
所述装置,还包括:
融合模块,用于基于所述电话号码数据项的值,融合运营商数据源数据和银联数据源数据。
可选地,所述第三确定模块,用于在包含所述失效电话号码的多数据源融合数据中,确定所述失效电话号码i的总通讯次数Ai,所述候选电话号码j的总通讯次数Aj,所述i与i,j之间相同联系人的通话次数ni,所述j与i,j之间相同联系人的通话次数nj;计算所述i与所述j之间的交往圈距离系数D(i,j):将D(i,j)作为所述相似度;
所述第四确定模块,用于将D(i,j)小于0.3的候选电话号码确定为所述用户的有效电话号码;
或者,
所述第三确定模块,用于在包含所述失效电话号码的多数据源融合数据中,确定i与i,j之间相同联系人的通话次数ni,j与i,j之间相同联系人的通话次数nj,i与i,j之间相同联系人t的通话次数mit,j与t的通话次数mjt,所述i为失效电话号码,所述i为候选电话号码;计算所述i与所述j之间的交往圈匹配度a(i,j):将a(i,j)作为所述相似度;
所述第四确定模块,用于将a(i,j)大于0.8的候选电话号码确定为所述用户的有效电话号码;
或者,
所述第三确定模块,用于在包含所述失效电话号码的多数据源融合数据中,确定所述失效电话号码i的总通讯次数Ai,所述候选电话号码j的总通讯次数Aj,所述i与i,j之间相同联系人的通话次数ni,所述j与i,j之间相同联系人的通话次数nj,i与i,j之间相同联系人t的通话次数mit,j与t的通话次数mjt;计算所述i与所述j之间的交往圈距离系数D(i,j):计算所述i与所述j之间的交往圈匹配度a(i,j):将D(i,j)和a(i,j)均作为所述相似度;
所述第四确定模块,用于将D(i,j)小于0.6且a(i,j)大于0.8的候选电话号码确定为所述用户的有效电话号码;或者,将D(i,j)小于0.3且a(i,j)大于0.5的候选电话号码确定为所述用户的有效电话号码。
本发明实施例提供的技术方案带来的有益效果是:
获取用户的失效电话号码;在包含失效电话号码的多数据源融合数据中,确定各电话号码的联系人,联系人包括电话联系人和/或短信联系人;确定候选电话号码,候选电话号码与失效电话号码之间具有至少一个相同联系人;确定失效电话号码与候选电话号码之间的相似度;根据相似度从候选电话号码中确定用户的有效电话号码,保证在电话号码失效的情况下获得准确的有效电话号码,使得即使关键数据项缺失,业务仍然可以正常进行。
附图说明
图1是本发明一实施例提供的一种数据修复方法流程示意图;
图2是本发明另一实施例提供的另一种数据修复方法流程示意图;
图3是本发明另一实施例提供的一种数据修复装置结构示意图;
图4是本发明另一实施例提供的另一种数据修复装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在金融行业,一旦用户发生贷款违约等行为,该用户的原有联系方式失效。而金融机构进行坏账追回业务强烈依赖联系方式,因此,联系方式的缺失会严重影响金融机构进行坏账追回。针对该情况,如何找到用户新的、有效的联系方式,是能否进行坏账追回的关键。现有的数据修复方法是基于身份证号码,找到与该身份证号匹配的有效电话号码。但是,若用户用其他证件办理手机卡,现有方式将无法找到与该身份证号匹配的有效电话号码。
基于此,本发明提供一种数据修复方法,该方法可以获取用户的失效电话号码;在包含失效电话号码的多数据源融合数据中,确定各电话号码的联系人,联系人包括电话联系人和/或短信联系人;确定候选电话号码,候选电话号码与失效电话号码之间具有至少一个相同联系人;确定失效电话号码与候选电话号码之间的相似度;根据相似度从候选电话号码中确定用户的有效电话号码,保证在电话号码失效的情况下获得准确的有效电话号码,使得即使关键数据项缺失,业务仍然可以正常进行。
参见图1所示的本实施例,本实施例提供了一种数据修复方法,本实施例提供的方法流程具体如下:
101,获取用户的失效电话号码。
102,在包含失效电话号码的多数据源融合数据中,确定各电话号码的联系人,联系人包括电话联系人和/或短信联系人。
103,确定候选电话号码,候选电话号码与失效电话号码之间具有至少一个相同联系人。
104,确定失效电话号码与候选电话号码之间的相似度。
105,根据相似度从候选电话号码中确定用户的有效电话号码。
可选地,多数据源数据为运营商数据源数据和银联数据源数据;运营商数据源数据和银联数据源数据均包括电话号码数据项;运营商数据源数据的电话号码数据项的值包括失效电话号码,和/或,银联数据源数据的电话号码数据项的值包括失效电话号码;
在包含失效电话号码的多数据源融合数据中,确定各电话号码的位置轨迹之前,还包括:
基于电话号码数据项的值,融合运营商数据源数据和银联数据源数据。
可选地,确定失效电话号码与候选电话号码之间的相似度,包括:
在包含失效电话号码的多数据源融合数据中,确定失效电话号码i的总通讯次数Ai,候选电话号码j的总通讯次数Aj,i与i,j之间相同联系人的通话次数ni,j与i,j之间相同联系人的通话次数nj;
计算i与j之间的交往圈距离系数D(i,j):
将D(i,j)作为相似度。
可选地,根据相似度从候选电话号码中确定用户的有效电话号码,包括:
将D(i,j)小于0.3的候选电话号码确定为用户的有效电话号码。
可选地,确定失效电话号码与候选电话号码之间的相似度,包括:
在包含失效电话号码的多数据源融合数据中,确定i与i,j之间相同联系人的通话次数ni,j与i,j之间相同联系人的通话次数nj,i与i,j之间相同联系人t的通话次数mit,j与t的通话次数mjt,i为失效电话号码,i为候选电话号码;
计算i与j之间的交往圈匹配度a(i,j):
将a(i,j)作为相似度。
可选地,根据相似度从候选电话号码中确定用户的有效电话号码,包括:
将a(i,j)大于0.8的候选电话号码确定为用户的有效电话号码。
可选地,确定失效电话号码与候选电话号码之间的相似度,包括:
在包含失效电话号码的多数据源融合数据中,确定失效电话号码i的总通讯次数Ai,候选电话号码j的总通讯次数Aj,i与i,j之间相同联系人的通话次数ni,j与i,j之间相同联系人的通话次数nj,i与i,j之间相同联系人t的通话次数mit,j与t的通话次数mjt;
计算i与j之间的交往圈距离系数D(i,j):
计算i与j之间的交往圈匹配度a(i,j):
将D(i,j)和a(i,j)均作为相似度。
可选地,根据相似度从候选电话号码中确定用户的有效电话号码,包括:
将D(i,j)小于0.6且a(i,j)大于0.8的候选电话号码确定为用户的有效电话号码;或者,
将D(i,j)小于0.3且a(i,j)大于0.5的候选电话号码确定为用户的有效电话号码。
本实施例提供的方法,获取用户的失效电话号码;在包含失效电话号码的多数据源融合数据中,确定各电话号码的联系人,联系人包括电话联系人和/或短信联系人;确定候选电话号码,候选电话号码与失效电话号码之间具有至少一个相同联系人;确定失效电话号码与候选电话号码之间的相似度;根据相似度从候选电话号码中确定用户的有效电话号码,保证在电话号码失效的情况下获得准确的有效电话号码,使得即使关键数据项缺失,业务仍然可以正常进行。
为了更加清楚地阐述上述实施例提供的一种数据修复方法,结合上述实施例的内容,以如图2所示的实施例为例,对一种数据修复方法进行详细说明。参见图2,本实施例提供的方法流程具体如下:
201,融合多数据源数据。
其中,多数据源数据为运营商数据源数据和银联数据源数据。
运营商数据源数据和银联数据源数据均包括电话号码数据项。且运营商数据源数据的电话号码数据项的值包括失效电话号码,和/或,银联数据源数据的电话号码数据项的值包括失效电话号码。
另外,运营商数据源数据还包括联系人数据项和通讯次数数据项,该联系人包括电话联系人和/或短信联系人,通讯次数数据项的值为与联系人电话通信次数与短信通信次数的和。
具体的融合过程包括但不限于,基于电话号码数据项的值,融合运营商数据源数据和银联数据源数据。具体的,将电话号码最为融合主ID(Identity,标识),将主ID相同的运营商数据源数据和银联数据源数据融合为一条数据。
例如,运营商数据源数据为表1所示,银联数据源数据为表2所示,融合后的数据为表3所示。
表1
表2
电话号码 | 银联卡号 |
11111111111 | 9999999999999999 |
表3
电话号码 | 联系人 | 通讯次数 | 银联卡号 |
11111111111 | AAAAAAAAAAA | 1 | 9999999999999999 |
11111111111 | BBBBBBBBBBBB | 1 | 9999999999999999 |
11111111111 | CCCCCCCCCCCC | 2 | 9999999999999999 |
11111111111 | DDDDDDDDDDD | 11 | 9999999999999999 |
11111111111 | 2222222222 | 5 | 9999999999999999 |
2222222222 | BBBBBBBBBBBB | 5 | - |
2222222222 | CCCCCCCCCCCC | 3 | - |
2222222222 | DDDDDDDDDDD | 10 | - |
2222222222 | EEEEEEEEEEEEE | 2 | - |
2222222222 | 11111111111 | 5 | - |
3333333333 | BBBBBBBBBBBB | 8 | - |
3333333333 | FFFFFFFFFFFFFF | 6 | - |
4444444444 | FFFFFFFFFFFFFF | 1 | - |
202,获取用户的失效电话号码。
本步骤可以获取输入的用户的失效电话号码。
203,在包含失效电话号码的多数据源融合数据中,确定各电话号码的联系人。
其中,联系人包括电话联系人和/或短信联系人。
步骤201中融合的运营商数据源数据包括电话号码数据项、联系人数据项。银联数据源数据包括电话号码数据项。因此,融合后的多数据源融合数据中也包括电话号码数据项、联系人数据项。
因此,本步骤可以直接从步骤201融合后的多数据源融合数据中确定各电话号码的联系人。
若多数据源融合数据为表3所示,则确定11111111111的联系人为AAAAAAAAAAA、BBBBBBBBBBBB、CCCCCCCCCCCC、DDDDDDDDDDD、2222222222。2222222222的联系人为BBBBBBBBBBBB、CCCCCCCCCCCC、DDDDDDDDDDD、EEEEEEEEEEEEE、11111111111。3333333333的联系人为BBBBBBBBBBBB、FFFFFFFFFFFFFF。4444444444的联系人为FFFFFFFFFFFFFF。
204,确定候选电话号码。
其中,候选电话号码与失效电话号码之间具有至少一个相同联系人。
以步骤203的例子为例,若失效电话号码为11111111111,则候选电话号码为:2222222222和3333333333。
205,确定失效电话号码与候选电话号码之间的相似度,根据相似度从候选电话号码中确定用户的有效电话号码。
本步骤的实现方式有多种,包括但不限于如下三种实现方式。
第一种实现方式:在包含失效电话号码的多数据源融合数据中,确定失效电话号码i的总通讯次数Ai,候选电话号码j的总通讯次数Aj,i与i,j之间相同联系人的通话次数ni,j与i,j之间相同联系人的通话次数nj,计算i与j之间的交往圈距离系数D(i,j):将D(i,j)作为相似度,将D(i,j)小于0.3的候选电话号码确定为用户的有效电话号码。
其中,D(i,j)描述两个人在交际圈空间的距离,D(i,j)的值位于区间[0,1]内,如果D(i,j)的值位于区间[0,0.3)内,则认为i与j为同一人。如果D(i,j)的值位于区间[0.3,0.6)内,则认为i与j为家人或关系很亲密的朋友。如果D(i,j)的值位于区间[0.6,0.9)内,则认为i与j为同事或同学。如果D(i,j)的值位于区间[0.9,1)内,则认为i与j为一般认识。如果D(i,j)的值为1,则认为i与j无关。
以表3所示的多数据源融合数据,失效电话号码为11111111111,候选电话号码为:2222222222和3333333333为例。
11111111111与AAAAAAAAAAA的通讯次数为1次,11111111111与BBBBBBBBBBBB的通讯次数为1次,11111111111与CCCCCCCCCCCC的通讯次数为2次,11111111111与DDDDDDDDDDD的通讯次数为11次,11111111111与2222222222的通讯次数为5次。因此,11111111111的总通讯次数为1+1+2+11+5=20次。
2222222222与BBBBBBBBBBBB的通讯次数为5次,2222222222与CCCCCCCCCCCC的通讯次数为3次,2222222222与DDDDDDDDDDD的通讯次数为10次,2222222222与EEEEEEEEEEEEE的通讯次数为2次,2222222222与11111111111的通讯次数为5次。因此,2222222222的总通讯次数为5+3+10+2+5=25次。
3333333333与BBBBBBBBBBBB的通讯次数为8次,3333333333与FFFFFFFFFFFFFF的通讯次数为6次。因此,3333333333的总通讯次数为8+6=14次。
(1)对于11111111111与2222222222。
11111111111与2222222222之间相同联系人为BBBBBBBBBBBB、CCCCCCCCCCCC、DDDDDDDDDDD。11111111111与相同联系人的通话次数为1+2+11=14次,2222222222与相同联系人的通话次数为5+3+10=18次。因此,11111111111与2222222222之间的
(2)对于11111111111与3333333333。
11111111111与3333333333之间相同联系人为BBBBBBBBBBBB。11111111111与相同联系人的通话次数为1次,3333333333与相同联系人的通话次数为8次。因此,11111111111与3333333333之间的
将D(i,j)小于0.3的候选电话号码2222222222确定为用户的有效电话号码。
第二种实现方式:在包含失效电话号码的多数据源融合数据中,确定i与i,j之间相同联系人的通话次数ni,j与i,j之间相同联系人的通话次数nj,i与i,j之间相同联系人t的通话次数mit,j与t的通话次数mjt,计算i与j之间的交往圈匹配度a(i,j):将a(i,j)作为相似度,将a(i,j)大于0.8的候选电话号码确定为用户的有效电话号码。
其中,i为失效电话号码,i为候选电话号码。
a(i,j)描述两人关键交往圈重合情况,a(i,j)的值位于区间[0,1]内,如果a(i,j)的值位于区间(0.8,1]内,则认为i与j为同一人。如果a(i,j)的值位于区间(0.5,0.8]内,则认为i与j为家人或关系很亲密的朋友。如果a(i,j)的值位于区间(0.2,0.5]内,则认为i与j为一般关系。如果a(i,j)的值位于区间[0,0.2]内,则认为i与j无关。
以表3所示的多数据源融合数据,失效电话号码为11111111111,候选电话号码为:2222222222和3333333333为例。
(1)对于11111111111与3333333333。
11111111111与2222222222之间相同联系人为BBBBBBBBBBBB、CCCCCCCCCCCC、DDDDDDDDDDD。11111111111与BBBBBBBBBBBB的通讯次数为1次,11111111111与CCCCCCCCCCCC的通讯次数为2次,11111111111与DDDDDDDDDDD的通讯次数为11次。则11111111111与相同联系人的通话次数为1+2+11=14次。2222222222与BBBBBBBBBBBB的通讯次数为5次,2222222222与CCCCCCCCCCCC的通讯次数为3次,2222222222与DDDDDDDDDDD的通讯次数为10次,则2222222222与相同联系人的通话次数为5+3+10=18次。
11111111111与BBBBBBBBBBBB的通讯次数为1次,2222222222与BBBBBBBBBBBB的通讯次数为5次,因此,11111111111与BBBBBBBBBBBB的通讯次数较少,为1次。11111111111与CCCCCCCCCCCC的通讯次数为2次,2222222222与CCCCCCCCCCCC的通讯次数为3次,因此,11111111111与CCCCCCCCCCCC的通讯次数较少,为2次。11111111111与DDDDDDDDDDD的通讯次数为11次,2222222222与DDDDDDDDDDD的通讯次数为10次,因此,2222222222与DDDDDDDDDDD的通讯次数较少,为10次。
11111111111与2222222222之间的
(2)对于11111111111与3333333333。
11111111111与3333333333之间相同联系人为BBBBBBBBBBBB。11111111111与BBBBBBBBBBBB的通讯次数为1次,则11111111111与相同联系人的通话次数为1次。3333333333与BBBBBBBBBBBB的通讯次数为8次,则3333333333与相同联系人的通话次数为8次。
11111111111与BBBBBBBBBBBB的通讯次数为1次,3333333333与BBBBBBBBBBBB的通讯次数为8次,因此,11111111111与BBBBBBBBBBBB的通讯次数较少,为1次。
11111111111与3333333333之间的
将a(i,j)大于0.8的候选电话号码2222222222确定为用户的有效电话号码。
第三种实现方式:在包含失效电话号码的多数据源融合数据中,确定失效电话号码i的总通讯次数Ai,候选电话号码j的总通讯次数Aj,i与i,j之间相同联系人的通话次数ni,j与i,j之间相同联系人的通话次数nj,i与i,j之间相同联系人t的通话次数mit,j与t的通话次数mjt,计算i与j之间的交往圈距离系数D(i,j):计算i与j之间的交往圈匹配度a(i,j):将D(i,j)和a(i,j)均作为相似度,将D(i,j)小于0.6且a(i,j)大于0.8的候选电话号码确定为用户的有效电话号码;或者,将D(i,j)小于0.3且a(i,j)大于0.5的候选电话号码确定为用户的有效电话号码。
通过上述步骤,可以在旧手机号码缺失、不可用、无效的情况下,得到可用的、有效的新手机号码,实现对原有数据的修复,即信息修复。信息修复在金融行业尤其重要,一方面是信贷对失联用户进行催收,一方面是保险等机构对用户信息进行修复从而可以主动营销。通过运营商的实名数据,上传身份证信息,匹配当前可用的手机号码,通过外呼方式进行触达。
本实施例提供的方法,获取用户的失效电话号码;在包含失效电话号码的多数据源融合数据中,确定各电话号码的联系人,联系人包括电话联系人和/或短信联系人;确定候选电话号码,候选电话号码与失效电话号码之间具有至少一个相同联系人;确定失效电话号码与候选电话号码之间的相似度;根据相似度从候选电话号码中确定用户的有效电话号码,保证在电话号码失效的情况下获得准确的有效电话号码,使得即使关键数据项缺失,业务仍然可以正常进行。
图3所示的实施例提供了一种数据修复装置,该装置用于执行上述图1或图2所示的数据修复方法,参见图3,该装置包括:
获取模块301,用于获取用户的失效电话号码;
第一确定模块302,用于在包含失效电话号码的多数据源融合数据中,确定各电话号码的联系人,联系人包括电话联系人和/或短信联系人;
第二确定模块303,用于确定候选电话号码,候选电话号码与失效电话号码之间具有至少一个相同联系人;
第三确定模块304,用于确定失效电话号码与候选电话号码之间的相似度;
第四确定模块305,用于根据相似度从候选电话号码中确定用户的有效电话号码。
其中,多数据源数据为运营商数据源数据和银联数据源数据;运营商数据源数据和银联数据源数据均包括电话号码数据项;运营商数据源数据的电话号码数据项的值包括失效电话号码,和/或,银联数据源数据的电话号码数据项的值包括失效电话号码;
参见图4,该装置,还包括:
融合模块306,用于基于电话号码数据项的值,融合运营商数据源数据和银联数据源数据。
可选地,第三确定模块304,用于在包含失效电话号码的多数据源融合数据中,确定失效电话号码i的总通讯次数Ai,候选电话号码j的总通讯次数Aj,i与i,j之间相同联系人的通话次数ni,j与i,j之间相同联系人的通话次数nj;计算i与j之间的交往圈距离系数D(i,j):将D(i,j)作为相似度;
第四确定模块305,用于将D(i,j)小于0.3的候选电话号码确定为用户的有效电话号码;
或者,
第三确定模块304,用于在包含失效电话号码的多数据源融合数据中,确定i与i,j之间相同联系人的通话次数ni,j与i,j之间相同联系人的通话次数nj,i与i,j之间相同联系人t的通话次数mit,j与t的通话次数mjt,i为失效电话号码,i为候选电话号码;计算i与j之间的交往圈匹配度a(i,j):将a(i,j)作为相似度;
第四确定模块305,用于将a(i,j)大于0.8的候选电话号码确定为用户的有效电话号码;
或者,
第三确定模块304,用于在包含失效电话号码的多数据源融合数据中,确定失效电话号码i的总通讯次数Ai,候选电话号码j的总通讯次数Aj,i与i,j之间相同联系人的通话次数ni,j与i,j之间相同联系人的通话次数nj,i与i,j之间相同联系人t的通话次数mit,j与t的通话次数mjt;计算i与j之间的交往圈距离系数D(i,j):计算i与j之间的交往圈匹配度a(i,j):将D(i,j)和a(i,j)均作为相似度;
第四确定模块305,用于将D(i,j)小于0.6且a(i,j)大于0.8的候选电话号码确定为用户的有效电话号码;或者,将D(i,j)小于0.3且a(i,j)大于0.5的候选电话号码确定为用户的有效电话号码。
本实施例提供的装置,获取用户的失效电话号码;在包含失效电话号码的多数据源融合数据中,确定各电话号码的联系人,联系人包括电话联系人和/或短信联系人;确定候选电话号码,候选电话号码与失效电话号码之间具有至少一个相同联系人;确定失效电话号码与候选电话号码之间的相似度;根据相似度从候选电话号码中确定用户的有效电话号码,保证在电话号码失效的情况下获得准确的有效电话号码,使得即使关键数据项缺失,业务仍然可以正常进行。
需要说明的是:本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据修复方法,其特征在于,所述方法包括:
获取用户的失效电话号码;
在包含所述失效电话号码的多数据源融合数据中,确定各电话号码的联系人,所述联系人包括电话联系人和/或短信联系人;
确定候选电话号码,所述候选电话号码与所述失效电话号码之间具有至少一个相同联系人;
确定所述失效电话号码与所述候选电话号码之间的相似度;
根据所述相似度从所述候选电话号码中确定所述用户的有效电话号码。
2.根据权利要求1所述的方法,其特征在于,所述多数据源数据为运营商数据源数据和银联数据源数据;所述运营商数据源数据和所述银联数据源数据均包括电话号码数据项;所述运营商数据源数据的电话号码数据项的值包括所述失效电话号码,和/或,所述银联数据源数据的电话号码数据项的值包括所述失效电话号码;
所述在包含所述失效电话号码的多数据源融合数据中,确定各电话号码的位置轨迹之前,还包括:
基于所述电话号码数据项的值,融合运营商数据源数据和银联数据源数据。
3.根据权利要求2所述的方法,其特征在于,所述确定所述失效电话号码与所述候选电话号码之间的相似度,包括:
在包含所述失效电话号码的多数据源融合数据中,确定所述失效电话号码i的总通讯次数Ai,所述候选电话号码j的总通讯次数Aj,所述i与i,j之间相同联系人的通话次数ni,所述j与i,j之间相同联系人的通话次数nj;
计算所述i与所述j之间的交往圈距离系数D(i,j):
将D(i,j)作为所述相似度。
4.根据权利要求3所述的方法,其特征在于,所述根据所述相似度从所述候选电话号码中确定所述用户的有效电话号码,包括:
将D(i,j)小于0.3的候选电话号码确定为所述用户的有效电话号码。
5.根据权利要求2所述的方法,其特征在于,所述确定所述失效电话号码与所述候选电话号码之间的相似度,包括:
在包含所述失效电话号码的多数据源融合数据中,确定i与i,j之间相同联系人的通话次数ni,j与i,j之间相同联系人的通话次数nj,i与i,j之间相同联系人t的通话次数mit,j与t的通话次数mjt,所述i为失效电话号码,所述i为候选电话号码;
计算所述i与所述j之间的交往圈匹配度a(i,j):
将a(i,j)作为所述相似度。
6.根据权利要求5所述的方法,其特征在于,所述根据所述相似度从所述候选电话号码中确定所述用户的有效电话号码,包括:
将a(i,j)大于0.8的候选电话号码确定为所述用户的有效电话号码。
7.根据权利要求2所述的方法,其特征在于,所述确定所述失效电话号码与所述候选电话号码之间的相似度,包括:
在包含所述失效电话号码的多数据源融合数据中,确定所述失效电话号码i的总通讯次数Ai,所述候选电话号码j的总通讯次数Aj,所述i与i,j之间相同联系人的通话次数ni,所述j与i,j之间相同联系人的通话次数nj,i与i,j之间相同联系人t的通话次数mit,j与t的通话次数mjt;
计算所述i与所述j之间的交往圈距离系数D(i,j):
计算所述i与所述j之间的交往圈匹配度a(i,j):
将D(i,j)和a(i,j)均作为所述相似度。
8.根据权利要求7所述的方法,其特征在于,所述根据所述相似度从所述候选电话号码中确定所述用户的有效电话号码,包括:
将D(i,j)小于0.6且a(i,j)大于0.8的候选电话号码确定为所述用户的有效电话号码;或者,
将D(i,j)小于0.3且a(i,j)大于0.5的候选电话号码确定为所述用户的有效电话号码。
9.一种数据修复装置,其特征在于,所述装置包括:
获取模块,用于获取用户的失效电话号码;
第一确定模块,用于在包含所述失效电话号码的多数据源融合数据中,确定各电话号码的联系人,所述联系人包括电话联系人和/或短信联系人;
第二确定模块,用于确定候选电话号码,所述候选电话号码与所述失效电话号码之间具有至少一个相同联系人;
第三确定模块,用于确定所述失效电话号码与所述候选电话号码之间的相似度;
第四确定模块,用于根据所述相似度从所述候选电话号码中确定所述用户的有效电话号码。
其中,所述多数据源数据为运营商数据源数据和银联数据源数据;所述运营商数据源数据和所述银联数据源数据均包括电话号码数据项;所述运营商数据源数据的电话号码数据项的值包括所述失效电话号码,和/或,所述银联数据源数据的电话号码数据项的值包括所述失效电话号码;
所述装置,还包括:
融合模块,用于基于所述电话号码数据项的值,融合运营商数据源数据和银联数据源数据。
10.根据权利要求9所述的装置,其特征在于,所述第三确定模块,用于在包含所述失效电话号码的多数据源融合数据中,确定所述失效电话号码i的总通讯次数Ai,所述候选电话号码j的总通讯次数Aj,所述i与i,j之间相同联系人的通话次数ni,所述j与i,j之间相同联系人的通话次数nj;计算所述i与所述j之间的交往圈距离系数D(i,j):将D(i,j)作为所述相似度;
所述第四确定模块,用于将D(i,j)小于0.3的候选电话号码确定为所述用户的有效电话号码;
或者,
所述第三确定模块,用于在包含所述失效电话号码的多数据源融合数据中,确定i与i,j之间相同联系人的通话次数ni,j与i,j之间相同联系人的通话次数nj,i与i,j之间相同联系人t的通话次数mit,j与t的通话次数mjt,所述i为失效电话号码,所述i为候选电话号码;计算所述i与所述j之间的交往圈匹配度a(i,j):将a(i,j)作为所述相似度;
所述第四确定模块,用于将a(i,j)大于0.8的候选电话号码确定为所述用户的有效电话号码;
或者,
所述第三确定模块,用于在包含所述失效电话号码的多数据源融合数据中,确定所述失效电话号码i的总通讯次数Ai,所述候选电话号码j的总通讯次数Aj,所述i与i,j之间相同联系人的通话次数ni,所述j与i,j之间相同联系人的通话次数nj,i与i,j之间相同联系人t的通话次数mit,j与t的通话次数mjt;计算所述i与所述j之间的交往圈距离系数D(i,j):计算所述i与所述j之间的交往圈匹配度a(i,j):将D(i,j)和a(i,j)均作为所述相似度;
所述第四确定模块,用于将D(i,j)小于0.6且a(i,j)大于0.8的候选电话号码确定为所述用户的有效电话号码;或者,将D(i,j)小于0.3且a(i,j)大于0.5的候选电话号码确定为所述用户的有效电话号码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710160393.6A CN108628877A (zh) | 2017-03-20 | 2017-03-20 | 数据修复方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710160393.6A CN108628877A (zh) | 2017-03-20 | 2017-03-20 | 数据修复方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108628877A true CN108628877A (zh) | 2018-10-09 |
Family
ID=63686902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710160393.6A Pending CN108628877A (zh) | 2017-03-20 | 2017-03-20 | 数据修复方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108628877A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111915368A (zh) * | 2020-07-30 | 2020-11-10 | 上海数策软件股份有限公司 | 汽车行业客户id识别系统、方法及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1609881A (zh) * | 2004-11-22 | 2005-04-27 | 陆航程 | 第三方电讯催缴贷款诚信管理系统使用方法 |
US8301523B1 (en) * | 2007-10-29 | 2012-10-30 | West Corporation | System, method and computer readable medium for providing notifications |
CN105679323A (zh) * | 2015-12-24 | 2016-06-15 | 讯飞智元信息科技有限公司 | 一种号码发现方法及系统 |
-
2017
- 2017-03-20 CN CN201710160393.6A patent/CN108628877A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1609881A (zh) * | 2004-11-22 | 2005-04-27 | 陆航程 | 第三方电讯催缴贷款诚信管理系统使用方法 |
US8301523B1 (en) * | 2007-10-29 | 2012-10-30 | West Corporation | System, method and computer readable medium for providing notifications |
CN105679323A (zh) * | 2015-12-24 | 2016-06-15 | 讯飞智元信息科技有限公司 | 一种号码发现方法及系统 |
Non-Patent Citations (2)
Title |
---|
佚名: ""贷后失联?别怕,大数据帮你找_科学中国"", 《中国网 科学中国》 * |
引领财经网: ""网贷逾期换号码可以吗"", 《引领财经网,HTTPS://WWW.YINLINGW.COM/DAPAN/57.HTML》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111915368A (zh) * | 2020-07-30 | 2020-11-10 | 上海数策软件股份有限公司 | 汽车行业客户id识别系统、方法及介质 |
CN111915368B (zh) * | 2020-07-30 | 2024-02-20 | 上海数策软件股份有限公司 | 汽车行业客户id识别系统、方法及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220101323A1 (en) | System and Method for Enhanced Transaction Authorization | |
CA2804455C (en) | Mobile directory number and email verification of financial transactions | |
CN105389488B (zh) | 身份认证方法及装置 | |
US11847662B2 (en) | Systems and methods of photo-based fraud protection | |
CN104883293B (zh) | 消息交互方法和相关装置及通信系统 | |
US20130179254A1 (en) | Using user expressions of interest to deepen user relationship | |
US10163098B2 (en) | Using both social media and non-social media information to identify anomalous behavior | |
WO2014145395A2 (en) | System and method for consumer fraud protection | |
US20190303940A1 (en) | Systems and methods for detecting and reporting fraud in transactions | |
CN111047431A (zh) | 一种基于大数据的信贷业务处理装置、方法及设备 | |
CN108053545A (zh) | 证件验真方法和装置、服务器、存储介质 | |
CN106161183B (zh) | 消息交互方法和社交服务器及通信系统 | |
US20110060796A1 (en) | E-mail address verification system | |
CN104967553A (zh) | 消息交互方法和相关装置及通信系统 | |
CN107240023A (zh) | 客户身份确认方法、装置和系统 | |
KR102377625B1 (ko) | 착오송금 예방 방법 | |
CN108628877A (zh) | 数据修复方法和装置 | |
CN104394258B (zh) | 对通讯对象的联系方式变化进行处理的方法和装置 | |
CN117252429A (zh) | 风险用户的识别方法、装置、存储介质及电子设备 | |
US8452841B2 (en) | Text chat for at-risk customers | |
CN108696422B (zh) | 电子邮件处理装置和电子邮件处理方法 | |
US20220188831A1 (en) | Data verification in transactions in distributed network | |
CN108628878B (zh) | 数据修复方法和装置 | |
CN109101645A (zh) | 语音通话转接方法、装置、计算机设备及存储介质 | |
CN106302558B (zh) | 一种业务处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181009 |