CN107360589B - 一种移动通信网络的数据清洗方法及数据清洗装置 - Google Patents
一种移动通信网络的数据清洗方法及数据清洗装置 Download PDFInfo
- Publication number
- CN107360589B CN107360589B CN201610304238.2A CN201610304238A CN107360589B CN 107360589 B CN107360589 B CN 107360589B CN 201610304238 A CN201610304238 A CN 201610304238A CN 107360589 B CN107360589 B CN 107360589B
- Authority
- CN
- China
- Prior art keywords
- record
- retrieval
- user behavior
- retrieval record
- imei
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000004140 cleaning Methods 0.000 title claims abstract description 19
- 238000010295 mobile communication Methods 0.000 title claims abstract description 18
- 230000008569 process Effects 0.000 claims description 19
- 239000013589 supplement Substances 0.000 abstract description 6
- 230000006399 behavior Effects 0.000 description 106
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- CSRZQMIRAZTJOY-UHFFFAOYSA-N trimethylsilyl iodide Substances C[Si](C)(C)I CSRZQMIRAZTJOY-UHFFFAOYSA-N 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/08—Testing, supervising or monitoring using real traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/50—Network service management, e.g. ensuring proper service fulfilment according to agreements
- H04L41/5061—Network service management, e.g. ensuring proper service fulfilment according to agreements characterised by the interaction between service providers and their network customers, e.g. customer relationship management
- H04L41/5064—Customer relationship management
Landscapes
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提供了一种移动通信网络的数据清洗方法及数据清洗装置。其中所述方法包括:获得一包括有不同用户的检索记录的检索记录表,其中,每个用户的检索记录中包括有该用户的不同类型的身份标识;获得数据采集系统生成的第一用户的第一用户行为记录,所述第一用户行为记录包括所述数据采集系统采集到的不同类型的身份标识;按照预先设置的匹配规则,在所述检索记录表中,查找与所述第一用户行为记录匹配程度最高的检索记录,得到目标检索记录;根据所述目标检索记录,对所述第一用户行为记录中的身份标识进行回填处理。本发明将用户行为记录中的身份标识信息补充完全,提高身份标识信息的完整性及准确性。
Description
技术领域
本发明涉及移动通信网络的数据采集技术领域,具体涉及一种移动通信网络的数据清洗方法及数据清洗装置。
背景技术
为了满足移动通信网络运维及优化的要求,现网中引入了数据采集系统,用于对移动通信网络的多个接口进行数据采集。基于从这些接口上采集的原始数据,数据采集系统基于用户维度生成对应的用户行为记录,用于记录原始数据中的关键信息,之后将用户行为记录上报给存储设备进行存储,或者直接上报给应用系统进行相关分析。
用户行为记录的格式如下表1所示:
表1
用户行为记录中包含以下三种用户身份标识:
-IMSI:International Mobile Subscriber Identification,国际移动用户标识,用于唯一的标识一个SIM(Subscriber Identity Module,用户识别模块)卡。
-IMEI:International Mobile Equipment Identity,国际移动设备标识,用于唯一的标识一个移动终端。
-MSISDN:Mobile Subscriber International ISDN/PSTN number,国际移动用户号码,用于唯一的标识一个手机号码。
现有数据采集系统中,某些接口的原始数据中并不包含以上三种用户身份标识信息,比如只包含临时标识TMSI;或者只包含部分信息,比如只包含IMSI。而某些接口上会包含全面的信息,如IMSI、IMEI、MSISDN均包含。因此,数据采集系统采集到的数据,可能缺少所需要的身份标识。
发明内容
本发明实施例要解决的技术问题是提供一种移动通信网络的数据清洗方法及数据清洗装置,用以将用户行为记录中的身份标识信息补充完全,提高身份标识信息的完整性及准确性。
为解决上述技术问题,本发明实施例提供的移动通信网络的数据清洗方法,包括:
获得一包括有不同用户的检索记录的检索记录表,其中,每个用户的检索记录中包括有该用户的不同类型的身份标识;
获得数据采集系统生成的第一用户的第一用户行为记录,所述第一用户行为记录包括所述数据采集系统采集到的不同类型的身份标识;
按照预先设置的匹配规则,在所述检索记录表中,查找与所述第一用户行为记录匹配程度最高的检索记录,得到目标检索记录;
根据所述目标检索记录,对所述第一用户行为记录中的身份标识进行回填处理。
优选的,上述方法中,所述匹配规则为:
具有更多数量的匹配项的检索记录,具有更高的匹配程度;在两条检索记录的匹配项数量相同时,具有更高优先级的匹配项的检索记录,具有更高的匹配程度;
或者,
具有更高优先级的匹配项的检索记录,具有更高的匹配程度;在两条检索记录的匹配项的最高优先级相同时,具有更多数量的匹配项的检索记录,具有更高的匹配程度;
其中,所述匹配项为:检索记录中的与第一用户行为记录中的身份标识相匹配的身份标识。
优选的,上述方法中,所述不同类型的身份标识包括国际移动用户标识IMSI、国际移动用户号码MSISDN和国际移动设备标识IMEI;
IMSI、MSISDN和IMEI优先级的高低顺序为IMSI>MSISDN>IMEI。
优选的,上述方法中,所述按照预先设置的匹配规则,在所述检索记录表中,查找与所述第一用户行为记录匹配程度最高的检索记录,得到目标检索记录的步骤,包括:
判断所述检索记录表中是否存在与第一用户行为记录中的IMSI相匹配的第一检索记录,
若存在第一检索记录,且第一检索记录中的MSISDN和IMEI与第一用户行为记录均匹配时,结束流程;
若存在第一检索记录,且第一检索记录中的IMEI或MSISDN中仅一者与第一用户行为记录匹配时,将第一检索记录作为目标检索记录;
若存在第一检索记录,且第一检索记录中的MSISDN和IMEI与第一用户行为记录均不匹配时,或者不存在第一检索记录时,进一步判断所述检索记录表中是否存在与第一用户行为记录中的MSISDN相匹配的第二检索记录;
在不存在第一检索记录时,若存在第二检索记录,将第二检索记录作为目标检索记录;
在存在第一检索记录时,若不存在第二检索记录,或者存在第二检索记录,且第二检索记录中的IMEI与第二用户行为记录不匹配时,将第一检索记录作为目标检索记录;
在不存在第一检索记录时,若不存在第二检索记录,则进一步判断所述检索记录表中是否存在与第一用户行为记录中的IMEI相匹配的第三检索记录:若存在第三检索记录,则将第三检索记录作为目标检索记录;若不存在第三检索记录,则结束流程。
优选的,上述方法中,所述按照预先设置的匹配规则,在所述检索记录表中,查找与所述第一用户行为记录匹配程度最高的检索记录,得到目标检索记录的步骤,包括:
判断所述检索记录表中是否存在与第一用户行为记录中的IMSI相匹配的第四检索记录:
若存在第四检索记录,则将第四检索记录作为目标检索记录;
若不存在第四检索记录,则判断所述检索记录表中是否存在与第一用户行为记录中的MSISDN相匹配的第五检索记录:
若存在第五检索记录,则将第五检索记录作为目标检索记录;
若不存在第五检索记录,则判断所述检索记录表中是否存在与第一用户行为记录中的IMEI相匹配的第六检索记录:
若存在第六检索记录,则将第六检索记录作为目标检索记录;
若不存在第六检索记录,则结束流程。
优选的,上述方法中,所述根据所述目标检索记录,对所述第一用户行为记录中的身份标识进行回填处理的步骤,包括:
将所述第一用户行为记录中存在的、与所述目标检索记录中对应的身份标识不匹配的身份标识,替换为所述目标检索记录中对应的身份标识。
本发明实施例还提供了一种移动通信网络的数据清洗装置,包括:
第一获得单元,用于获得一包括有不同用户的检索记录的检索记录表,其中,每个用户的检索记录中包括有该用户的不同类型的身份标识;
第二获得单元,用于获得数据采集系统生成的第一用户的第一用户行为记录,所述第一用户行为记录包括所述数据采集系统采集到的不同类型的身份标识;
查找单元,用于按照预先设置的匹配规则,在所述检索记录表中,查找与所述第一用户行为记录匹配程度最高的检索记录,得到目标检索记录;
回填单元,用于根据所述目标检索记录,对所述第一用户行为记录中的身份标识进行回填处理。
优选的,上述装置中,所述匹配规则为:
具有更多数量的匹配项的检索记录,具有更高的匹配程度;在两条检索记录的匹配项数量相同时,具有更高优先级的匹配项的检索记录,具有更高的匹配程度;
或者,
具有更高优先级的匹配项的检索记录,具有更高的匹配程度;在两条检索记录的匹配项的最高优先级相同时,具有更多数量的匹配项的检索记录,具有更高的匹配程度;
其中,所述匹配项为:检索记录中的与第一用户行为记录中的身份标识相匹配的身份标识。
优选的,上述装置中,所述不同类型的身份标识包括IMSI、MSISDN和IMEI;
IMSI、MSISDN和IMEI优先级的高低顺序为IMSI>MSISDN>IMEI。
优选的,上述装置中,所述查找单元,具体用于:
判断所述检索记录表中是否存在与第一用户行为记录中的IMSI相匹配的第一检索记录,
若存在第一检索记录,且第一检索记录中的MSISDN和IMEI与第一用户行为记录均匹配时,结束流程;
若存在第一检索记录,且第一检索记录中的IMEI或MSISDN中仅一者与第一用户行为记录匹配时,将第一检索记录作为目标检索记录;
若存在第一检索记录,且第一检索记录中的MSISDN和IMEI与第一用户行为记录均不匹配时,或者不存在第一检索记录时,进一步判断所述检索记录表中是否存在与第一用户行为记录中的MSISDN相匹配的第二检索记录;
在不存在第一检索记录时,若存在第二检索记录,将第二检索记录作为目标检索记录;
在存在第一检索记录时,若不存在第二检索记录,或者存在第二检索记录,且第二检索记录中的IMEI与第二用户行为记录不匹配时,将第一检索记录作为目标检索记录;
在不存在第一检索记录时,若不存在第二检索记录,则进一步判断所述检索记录表中是否存在与第一用户行为记录中的IMEI相匹配的第三检索记录:若存在第三检索记录,则将第三检索记录作为目标检索记录;若不存在第三检索记录,则结束流程。
优选的,上述装置中,所述查找单元,具体用于:
判断所述检索记录表中是否存在与第一用户行为记录中的IMSI相匹配的第四检索记录:
若存在第四检索记录,则将第四检索记录作为目标检索记录;
若不存在第四检索记录,则判断所述检索记录表中是否存在与第一用户行为记录中的MSISDN相匹配的第五检索记录:
若存在第五检索记录,则将第五检索记录作为目标检索记录;
若不存在第五检索记录,则判断所述检索记录表中是否存在与第一用户行为记录中的IMEI相匹配的第六检索记录:
若存在第六检索记录,则将第六检索记录作为目标检索记录;
若不存在第六检索记录,则结束流程。
优选的,上述装置中,所述回填单元,具体用于:
将所述第一用户行为记录中存在的、与所述目标检索记录中对应的身份标识不匹配的身份标识,替换为所述目标检索记录中对应的身份标识。
与现有技术相比,本发明实施例提供的移动通信网络的数据清洗方法及数据清洗装置,可以将用户行为记录中的身份标识信息补充完全,提高身份标识信息的完整性及准确性。另外,相比于实时的学习并维护一个用户的多种身份标识的关联关系的回填方式,本发明实施例能够降低计算负荷。
附图说明
图1为本发明实施例所述数据清洗方法的流程示意图;
图2为本发明实施例所述数据清洗方法的一个示例的子流程A的示意图;
图3为本发明实施例所述数据清洗方法的一个示例的子流程B的示意图;
图4为本发明实施例所述数据清洗方法的一个示例的子流程C的示意图;
图5为本发明实施例所述数据清洗方法的一个示例的匹配流程总体示意图;
图6为本发明实施例所述数据清洗方法的另一个示例的匹配流程总体示意图;
图7为本发明实施例所述数据清洗装置的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
另外,本文中术语“系统”和“网络”在本文中常可互换使用。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在本申请所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
本发明实施例提供了一种移动通信网络的数据清洗方法,能够将用户行为记录中的身份标识信息补充完全,提高身份标识信息的完整性及准确性。下面的实施例将以用户行为记录包括3种身份标识信息(IMSI、IMEI、MSISDN)为例进行说明。
需要指出的是,本发明并不局限于以上3种身份标识信息,还可以是其他类型的3种身份标识,这些身份标识可以包括以上3种身份标识中的一种或多种,也可以是以上3种身份标识之外的其他身份标识。又或者是,本发明实施例还可以应用于用户行为记录中包括数量更少或更多的身份标识,这些身份标识可以包括以上3种身份标识中的一种或多种,也可以是以上3种身份标识之外的其他身份标识。
为了保证每个接口类型的用户行为记录中均包含以上3种用户身份标识,数据采集系统需要根据从不同接口上所采集的原始数据,实时的学习并维护一个用户的多种身份标识的关联关系,这包括以上三种固定标识及网络分配给用户的临时标识,如TMSI、S-TMSI、MME S1 AP ID等,之后将多个接口类型的用户行为记录中的IMSI、IMEI、MSISDN填充完全,这个过程称为用户身份标识回填。
由于用户身份标识回填需要数据采集系统实时的学习并维护每一个用户的多种身份标识的关联关系,这会给系统造成较大的计算负荷。在实际系统中,往往无法将IMSI、IMEI、MSISDN三种信息都回填完全及正确,如大量的用户行为记录中只回填了部分身份标识信息,其他信息未实现回填或存在回填错误的情况。本发明实施例提出了对用户行为记录数据的清洗方法,可以将用户行为记录中的IMSI、IMEI、MSISDN补充完全,提高以上三种信息的完整性及准确性,降低系统的计算负荷。
请参照图1,本发明实施例提供的移动通信网络的数据清洗方法,包括:
步骤11,获得一包括有不同用户的检索记录的检索记录表,其中,每个用户的检索记录中包括有该用户的不同类型的身份标识。
这里,本发明实施例可以获得一个预先维护的IMSI/IMEI/MSISDN对应表格,即检索记录表。该表格里维护有移动通信网络中的所有移动用户的IMSI/IMEI/MSISDN之间的对应关系。该表格可以采用非实时导入方式,并定期进行更新。当导入新表格时,则对新表格进行保存,并删除原表格。每一个IMSI/IMEI/MSISDN的对应关系可以称为一条检索记录。
步骤12,获得数据采集系统生成的第一用户的第一用户行为记录,所述第一用户行为记录包括所述数据采集系统采集到的不同类型的身份标识。
这里,在进行回填处理时,提取出数据采集系统生成的某个用户(为后文引用方便,称之为第一用户)的用户行为记录(为后文引用方便,称之为第一用户行为记录),并针对该第一用户行为记录进行下述步骤的处理。对于其他行为记录,也可以按照相同方式进行处理,直至处理完所有的用户行为记录。
步骤13,按照预先设置的匹配规则,在所述检索记录表中,查找与所述第一用户行为记录匹配程度最高的检索记录,得到目标检索记录。
这里,所述匹配规则可以是:具有更多数量的匹配项的检索记录,具有更高的匹配程度;在两条检索记录的匹配项数量相同时,具有更高优先级的匹配项的检索记录,具有更高的匹配程度。所述匹配规则还可以是:具有更高优先级的匹配项的检索记录,具有更高的匹配程度;在两条检索记录的匹配项的最高优先级相同时,具有更多数量的匹配项的检索记录,具有更高的匹配程度。其中,所述匹配项为:检索记录中的与第一用户行为记录中的身份标识相匹配的身份标识。在进行匹配时,是将用户行为记录与检索记录中相同类型的身份标识进行匹配。例如,将两个记录中的IMSI进行匹配,或者是将两个记录中的MSISDN进行匹配,又或者是将两个记录中的IMEI进行匹配。
这里,可以根据各种身份标识在移动通信系统中的可靠程度、重要程度等参数,来定义各种身份标识的优先级。本实施例中假设IMSI、MSISDN和IMEI优先级的高低顺序为IMSI>MSISDN>IMEI。
步骤14,根据所述目标检索记录,对所述第一用户行为记录中的身份标识进行回填处理。
这里,步骤14在进行回填处理时,将所述第一用户行为记录中存在的、与所述目标检索记录中对应的身份标识不匹配的身份标识,替换为所述目标检索记录中对应的身份标识,即使得第一用户行为记录中的所有身份标识,分别与目标检索记录中对应的身份标识,两者相一致。
通过以上步骤,本发明实施例可以将用户行为记录中的身份标识信息补充完全,提高身份标识信息的完整性及准确性。另外,相比于实时的学习并维护一个用户的多种身份标识的关联关系的回填方式,本发明实施例能够降低计算负荷。
在上述步骤13中,基于不同的匹配规则可以有不同的查找方式。以下以两种规则分别举例说明:
匹配规则1:
当所述匹配规则为:具有更多数量的匹配项的检索记录,具有更高的匹配程度;在两条检索记录的匹配项数量相同时,具有更高优先级的匹配项的检索记录,具有更高的匹配程度。这种匹配规则下,根据检索记录表,对某个用户行为记录中的IMSI/IMEI/MSISDN字段进行验证匹配,如果任意一个字段与检索记录不一致或填充为全F,则由本模块进行再次回填处理,具体如下:
将一个用户行为记录(假设为第一用户行为记录)中的IMSI/IMEI/MSISDN三个字段与所维护的IMSI/IMEI/MSISDN对应表格中的一条检索记录进行匹配:
-如果三个字段都能匹配上:不进行处理,结束流程。
-仅两个字段能匹配上:则认为另外一个字段错误,并进行重新回填。
-仅一个字段能匹配上:则认为另外两个字段错误,并进行重新回填。当有多个字段能单独匹配上不同的检索记录时,如IMSI或IMEI或MSISDN都能够分别单独匹配上不同的检索记录,则优先级为IMSI/MSISDN/IMEI。
-三个字段都匹配不上:不进行任何处理,此处包含了用户行为记录中的IMSI/IMEI/MSISDN均为全F的情况。
在进行步骤13的查找处理时,具体可以分解成3个子流程A、B和C,分别如图2~4所示,这3个子流程之间的执行关系则参照图5所示。
子流程A包括有步骤1301~1307,其中Y代表匹配成功,N代表匹配失败。子流程A会有两种输出结果:N1及N2。子流程A的步骤如下:
1301,在检索记录表中是否找到一个检索记录(称之为第一检索记录),该检索记录的IMSI,与第一用户行为记录中的IMSI相匹配,若存在第一检索记录,则进入步骤1302;若不存在第一检索记录,进入子流程B;
1302,第一检索记录中的IMEI,是否与第一用户行为记录中的IMSI相匹配,若是,则进入步骤1303;否则进入步骤1306;
1303,第一检索记录中的MSISDN,是否与第一用户行为记录中的MSISDN相匹配,若是,进入步骤1304;否则进入步骤1305;
1304,第一检索记录与第一用户行为记录中的身份标识完全匹配,此时不需要回填处理,可以直接结束流程。
1305,将第一检索记录作为目标检索记录;
1306,第一检索记录中的MSISDN,是否与第一用户行为记录中的MSISDN相匹配,若是,进入步骤1307;否则,则认为检索记录表中存在第一检索记录,但第一检索记录中的MSISDN和IMEI与第一用户行为记录均不匹配,此时进入子流程B;
1307,将第一检索记录作为目标检索记录。
子流程B包括有步骤1308~1310,其中Y代表匹配成功,N代表匹配失败。子流程B会有两种输出结果:N3及N4。子流程B的步骤如下:
1308,在检索记录表中是否找到一个检索记录(称之为第二检索记录),该检索记录的MSISDN,与第一用户行为记录中的MSISDN相匹配,若存在第二检索记录,则进入步骤1309;若不存在第二检索记录,进入子流程C;
1309,第二检索记录中的IMEI,是否与第一用户行为记录中的IMSI相匹配,若是,则进入步骤1310;否则进入子流程C;
1310,将第二检索记录作为目标检索记录。
子流程C会有两种输出结果:Y及N。子流程C包括有步骤1311:
1311,在检索记录表中是否找到一个检索记录(称之为第三检索记录),该检索记录的IMEI,与第一用户行为记录中的IMEI相匹配,若存在第三检索记录,则进入步骤1312;若不存在第三检索记录,进入步骤1313;
1312,将第三检索记录作为目标检索记录。
1313,结束流程。
从图5可以看出,子流程B会受子流程A的执行结果的影响,即使在子流程B中判断结果相同,但如果子流程A的判断结果不一样,可能会导致子流程B的执行动作不同。从图5可以看出,本发明实施例在上述子流程A-C的判断过程中,
若存在第一检索记录,且第一检索记录中的MSISDN和IMEI与第一用户行为记录均匹配时,结束流程;
若存在第一检索记录,且第一检索记录中的IMEI或MSISDN中仅一者与第一用户行为记录匹配时,将第一检索记录作为目标检索记录;
在不存在第一检索记录时,若存在第二检索记录,将第二检索记录作为目标检索记录;
在存在第一检索记录时,若不存在第二检索记录,或者存在第二检索记录,且第二检索记录中的IMEI与第二用户行为记录不匹配时,将第一检索记录作为目标检索记录;
在不存在第一检索记录时,若不存在第二检索记录,但存在第三检索记录,则将第三检索记录作为目标检索记录;
在不存在第一检索记录时,若不存在第二检索记录,也不存在第三检索记录,则结束流程。
匹配规则2:
当所述匹配规则为:具有更高优先级的匹配项的检索记录,具有更高的匹配程度;在两条检索记录的匹配项的最高优先级相同时,具有更多数量的匹配项的检索记录,具有更高的匹配程度。
这种匹配规则下,根据检索记录表,对某个用户行为记录中的IMSI/IMEI/MSISDN字段进行验证匹配,如果任意一个字段与检索记录不一致或填充为全F,则由本模块进行再次回填处理,具体如下:
-先根据IMSI进行全局匹配,即根据一个用户行为记录中的IMSI来搜索并匹配所有检索记录中的IMSI,如果匹配成功,则以匹配上的检索记录为准并对IMEI/MSISDN进行检验及回填操作;
-如果IMSI全局匹配不上,则根据MSISDN进行全局匹配,如果匹配成功,则以匹配上的检索记录为准并对IMSI/MSISDN进行检验及回填操作;
-如果IMSI和MSISDN都无法全局匹配,则根据IMEI进行全局匹配,如果匹配成功,则以匹配上的检索记录为准并对IMSI/MSISDN进行检验及回填操作;对于双卡双待的场景,以第一条匹配成功的检索记录为准;
-如果IMSI/MSISDN/IMEI都无法全局匹配,则不进行任何处理。此处包含了用户行为记录中的IMSI/IMEI/MSISDN均为全F的情况。
从以上设计思想可以看到,该算法假设用户行为记录中IMSI/IMEI/MSISDN三种字段的准确率最高的字段为IMSI,其次为MSISDN,最差为IMEI。当能够匹配上IMSI时,则认为该IMSI是正确的。如果IMSI匹配不上,则继续匹配MSISDN,如果匹配上则认为该MSISDN是正确的。如果IMSI及IMEI均无法匹配,则最后匹配IMEI。具体的匹配流程可以参考图6所示,包括以下步骤:
601,检索记录表中是否找到一个检索记录(称之为第一检索记录),该检索记录的IMSI,与第一用户行为记录中的IMSI相匹配,若存在第一检索记录,则进入步骤602;若不存在第一检索记录,进入609;
602,第一检索记录中的IMEI,是否与第一用户行为记录中的IMSI相匹配,若是,则进入步骤603;否则进入步骤605;
603,第一检索记录中的MSISDN,是否与第一用户行为记录中的MSISDN相匹配,若是,进入步骤604;否则进入步骤607;
604,结束流程;
605,第一检索记录中的MSISDN,是否与第一用户行为记录中的MSISDN相匹配,若是,进入步骤606;否则进入步骤608;
606~608,将第一检索记录作为目标检索记录;
609,在检索记录表中是否找到一个检索记录(称之为第二检索记录),该检索记录的MSISDN,与第一用户行为记录中的MSISDN相匹配,若存在第二检索记录,则进入步骤610;若不存在第二检索记录,进入步骤613;
610,第二检索记录中的IMEI,是否与第一用户行为记录中的IMSI相匹配,若是,则进入步骤611;否则进入步骤612;
612,将第二检索记录作为目标检索记录;
613,在检索记录表中是否找到一个检索记录(称之为第三检索记录),该检索记录的IMEI,与第一用户行为记录中的IMEI相匹配,若存在第三检索记录,则进入步骤614;若不存在第三检索记录,进入步骤615;
614,将第三检索记录作为目标检索记录;
615,结束流程。
基于以上方法,本发明实施例还提供了一种移动通信网络的数据清洗装置,如图7所示,该装置包括:
第一获得单元701,用于获得一包括有不同用户的检索记录的检索记录表,其中,每个用户的检索记录中包括有该用户的不同类型的身份标识;
第二获得单元702,用于获得数据采集系统生成的第一用户的第一用户行为记录,所述第一用户行为记录包括所述数据采集系统采集到的不同类型的身份标识;
查找单元703,用于按照预先设置的匹配规则,在所述检索记录表中,查找与所述第一用户行为记录匹配程度最高的检索记录,得到目标检索记录;
回填单元704,用于根据所述目标检索记录,对所述第一用户行为记录中的身份标识进行回填处理。
优选的,所述匹配规则为:
具有更多数量的匹配项的检索记录,具有更高的匹配程度;在两条检索记录的匹配项数量相同时,具有更高优先级的匹配项的检索记录,具有更高的匹配程度;
或者,
具有更高优先级的匹配项的检索记录,具有更高的匹配程度;在两条检索记录的匹配项的最高优先级相同时,具有更多数量的匹配项的检索记录,具有更高的匹配程度;
其中,所述匹配项为:检索记录中的与第一用户行为记录中的身份标识相匹配的身份标识。
这里,作为一种实施方式,所述不同类型的身份标识包括IMSI、MSISDN和IMEI;IMSI、MSISDN和IMEI优先级的高低顺序为IMSI>MSISDN>IMEI。
作为一种实施方式,所述查找单元,具体用于:
判断所述检索记录表中是否存在与第一用户行为记录中的IMSI相匹配的第一检索记录,
若存在第一检索记录,且第一检索记录中的MSISDN和IMEI与第一用户行为记录均匹配时,结束流程;
若存在第一检索记录,且第一检索记录中的IMEI或MSISDN中仅一者与第一用户行为记录匹配时,将第一检索记录作为目标检索记录;
若存在第一检索记录,且第一检索记录中的MSISDN和IMEI与第一用户行为记录均不匹配时,或者不存在第一检索记录时,进一步判断所述检索记录表中是否存在与第一用户行为记录中的MSISDN相匹配的第二检索记录;
在不存在第一检索记录时,若存在第二检索记录,将第二检索记录作为目标检索记录;
在存在第一检索记录时,若不存在第二检索记录,或者存在第二检索记录,且第二检索记录中的IMEI与第二用户行为记录不匹配时,将第一检索记录作为目标检索记录;
在不存在第一检索记录时,若不存在第二检索记录,则进一步判断所述检索记录表中是否存在与第一用户行为记录中的IMEI相匹配的第三检索记录:若存在第三检索记录,则将第三检索记录作为目标检索记录;若不存在第三检索记录,则结束流程。
作为另一种实施方式,所述查找单元,具体用于:
判断所述检索记录表中是否存在与第一用户行为记录中的IMSI相匹配的第四检索记录:
若存在第四检索记录,则将第四检索记录作为目标检索记录;
若不存在第四检索记录,则判断所述检索记录表中是否存在与第一用户行为记录中的MSISDN相匹配的第五检索记录:
若存在第五检索记录,则将第五检索记录作为目标检索记录;
若不存在第五检索记录,则判断所述检索记录表中是否存在与第一用户行为记录中的IMEI相匹配的第六检索记录:
若存在第六检索记录,则将第六检索记录作为目标检索记录;
若不存在第六检索记录,则结束流程。
作为一种实施方式,所述回填单元,具体用于:
将所述第一用户行为记录中存在的、与所述目标检索记录中对应的身份标识不匹配的身份标识,替换为所述目标检索记录中对应的身份标识
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种移动通信网络的数据清洗方法,其特征在于,包括:
获得一包括有不同用户的检索记录的检索记录表,其中,每个用户的检索记录中包括有该用户的不同类型的身份标识,所述不同类型的身份标识包括国际移动用户标识IMSI、国际移动用户号码MSISDN和国际移动设备标识IMEI;
获得数据采集系统生成的第一用户的第一用户行为记录,所述第一用户行为记录包括所述数据采集系统采集到的不同类型的身份标识;
按照预先设置的匹配规则,在所述检索记录表中,查找与所述第一用户行为记录匹配程度最高的检索记录,得到目标检索记录,其中,在按照匹配规则进行匹配时,是将用户行为记录与检索记录中相同类型的身份标识进行匹配,包括:在检索记录表中是否找到一个第二检索记录中的IMEI,是否与第一用户行为记录中的IMSI相匹配,若是,将第二检索记录作为目标检索记录,在检索记录表中是否找到一个第三检索记录,该第三检索记录的IMEI与第一用户行为记录中的IMEI相匹配,若存在,将第三检索记录作为目标检索记录;
根据所述目标检索记录,对所述第一用户行为记录中的身份标识进行回填处理。
2.如权利要求1所述的方法,其特征在于,所述匹配规则为:
具有更多数量的匹配项的检索记录,具有更高的匹配程度;在两条检索记录的匹配项数量相同时,具有更高优先级的匹配项的检索记录,具有更高的匹配程度;
或者,
具有更高优先级的匹配项的检索记录,具有更高的匹配程度;在两条检索记录的匹配项的最高优先级相同时,具有更多数量的匹配项的检索记录,具有更高的匹配程度;
其中,所述匹配项为:检索记录中的与第一用户行为记录中的身份标识相匹配的身份标识。
3.如权利要求1或权利要求2所述的方法,其特征在于,IMSI、MSISDN和IMEI优先级的高低顺序为IMSI>MSISDN>IMEI。
4.如权利要求3所述的方法,其特征在于,所述按照预先设置的匹配规则,在所述检索记录表中,查找与所述第一用户行为记录匹配程度最高的检索记录,得到目标检索记录的步骤,包括:
判断所述检索记录表中是否存在与第一用户行为记录中的IMSI相匹配的第一检索记录,
若存在第一检索记录,且第一检索记录中的MSISDN和IMEI与第一用户行为记录均匹配时,结束流程;
若存在第一检索记录,且第一检索记录中的IMEI或MSISDN中仅一者与第一用户行为记录匹配时,将第一检索记录作为目标检索记录;
若存在第一检索记录,且第一检索记录中的MSISDN和IMEI与第一用户行为记录均不匹配时,或者不存在第一检索记录时,进一步判断所述检索记录表中是否存在与第一用户行为记录中的MSISDN相匹配的第二检索记录;
在存在第一检索记录时,若不存在第二检索记录,或者存在第二检索记录,且第二检索记录中的IMEI与第二用户行为记录不匹配时,将第一检索记录作为目标检索记录;
在不存在第一检索记录时,若不存在第二检索记录,则进一步判断所述检索记录表中是否存在与第一用户行为记录中的IMEI相匹配的第三检索记录:若不存在第三检索记录,则结束流程。
5.如权利要求3所述的方法,其特征在于,所述按照预先设置的匹配规则,在所述检索记录表中,查找与所述第一用户行为记录匹配程度最高的检索记录,得到目标检索记录的步骤,包括:
判断所述检索记录表中是否存在与第一用户行为记录中的IMSI相匹配的第四检索记录:
若存在第四检索记录,则将第四检索记录作为目标检索记录;
若不存在第四检索记录,则判断所述检索记录表中是否存在与第一用户行为记录中的MSISDN相匹配的第五检索记录:
若存在第五检索记录,则将第五检索记录作为目标检索记录;
若不存在第五检索记录,则判断所述检索记录表中是否存在与第一用户行为记录中的IMEI相匹配的第六检索记录:
若存在第六检索记录,则将第六检索记录作为目标检索记录;
若不存在第六检索记录,则结束流程。
6.如权利要求4或权利要求5所述的方法,其特征在于,
所述根据所述目标检索记录,对所述第一用户行为记录中的身份标识进行回填处理的步骤,包括:
将所述第一用户行为记录中存在的、与所述目标检索记录中对应的身份标识不匹配的身份标识,替换为所述目标检索记录中对应的身份标识。
7.一种移动通信网络的数据清洗装置,其特征在于,包括:
第一获得单元,用于获得一包括有不同用户的检索记录的检索记录表,其中,每个用户的检索记录中包括有该用户的不同类型的身份标识,所述不同类型的身份标识包括国际移动用户标识IMSI、国际移动用户号码MSISDN和国际移动设备标识IMEI;
第二获得单元,用于获得数据采集系统生成的第一用户的第一用户行为记录,所述第一用户行为记录包括所述数据采集系统采集到的不同类型的身份标识;
查找单元,用于按照预先设置的匹配规则,在所述检索记录表中,查找与所述第一用户行为记录匹配程度最高的检索记录,得到目标检索记录,其中,在按照匹配规则进行匹配时,是将用户行为记录与检索记录中相同类型的身份标识进行匹配,包括:在检索记录表中是否找到一个第二检索记录中的IMEI,是否与第一用户行为记录中的IMSI相匹配,若是,将第二检索记录作为目标检索记录,在检索记录表中是否找到一个第三检索记录,该第三检索记录的IMEI与第一用户行为记录中的IMEI相匹配,若存在,将第三检索记录作为目标检索记录;
回填单元,用于根据所述目标检索记录,对所述第一用户行为记录中的身份标识进行回填处理。
8.如权利要求7所述的数据清洗装置,其特征在于,所述匹配规则为:
具有更多数量的匹配项的检索记录,具有更高的匹配程度;在两条检索记录的匹配项数量相同时,具有更高优先级的匹配项的检索记录,具有更高的匹配程度;
或者,
具有更高优先级的匹配项的检索记录,具有更高的匹配程度;在两条检索记录的匹配项的最高优先级相同时,具有更多数量的匹配项的检索记录,具有更高的匹配程度;
其中,所述匹配项为:检索记录中的与第一用户行为记录中的身份标识相匹配的身份标识。
9.如权利要求7或权利要求8所述的数据清洗装置,其特征在于,IMSI、MSISDN和IMEI优先级的高低顺序为IMSI>MSISDN>IMEI。
10.如权利要求9所述的数据清洗装置,其特征在于,
所述查找单元,具体用于:
判断所述检索记录表中是否存在与第一用户行为记录中的IMSI相匹配的第一检索记录,
若存在第一检索记录,且第一检索记录中的MSISDN和IMEI与第一用户行为记录均匹配时,结束流程;
若存在第一检索记录,且第一检索记录中的IMEI或MSISDN中仅一者与第一用户行为记录匹配时,将第一检索记录作为目标检索记录;
若存在第一检索记录,且第一检索记录中的MSISDN和IMEI与第一用户行为记录均不匹配时,或者不存在第一检索记录时,进一步判断所述检索记录表中是否存在与第一用户行为记录中的MSISDN相匹配的第二检索记录;
在存在第一检索记录时,若不存在第二检索记录,或者存在第二检索记录,且第二检索记录中的IMEI与第二用户行为记录不匹配时,将第一检索记录作为目标检索记录;
在不存在第一检索记录时,若不存在第二检索记录,则进一步判断所述检索记录表中是否存在与第一用户行为记录中的IMEI相匹配的第三检索记录:若不存在第三检索记录,则结束流程。
11.如权利要求9所述的数据清洗装置,其特征在于,
所述查找单元,具体用于:
判断所述检索记录表中是否存在与第一用户行为记录中的IMSI相匹配的第四检索记录:
若存在第四检索记录,则将第四检索记录作为目标检索记录;
若不存在第四检索记录,则判断所述检索记录表中是否存在与第一用户行为记录中的MSISDN相匹配的第五检索记录:
若存在第五检索记录,则将第五检索记录作为目标检索记录;
若不存在第五检索记录,则判断所述检索记录表中是否存在与第一用户行为记录中的IMEI相匹配的第六检索记录:
若存在第六检索记录,则将第六检索记录作为目标检索记录;
若不存在第六检索记录,则结束流程。
12.如权利要求10或权利要求11所述的数据清洗装置,其特征在于,
所述回填单元,具体用于:
将所述第一用户行为记录中存在的、与所述目标检索记录中对应的身份标识不匹配的身份标识,替换为所述目标检索记录中对应的身份标识。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610304238.2A CN107360589B (zh) | 2016-05-10 | 2016-05-10 | 一种移动通信网络的数据清洗方法及数据清洗装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610304238.2A CN107360589B (zh) | 2016-05-10 | 2016-05-10 | 一种移动通信网络的数据清洗方法及数据清洗装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107360589A CN107360589A (zh) | 2017-11-17 |
CN107360589B true CN107360589B (zh) | 2020-04-14 |
Family
ID=60271872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610304238.2A Active CN107360589B (zh) | 2016-05-10 | 2016-05-10 | 一种移动通信网络的数据清洗方法及数据清洗装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107360589B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103428686A (zh) * | 2013-08-09 | 2013-12-04 | 中国移动通信集团四川有限公司宜宾分公司 | 基于网内互拨呼叫的用户号码回填方法和号码回填服务器 |
CN104811978A (zh) * | 2015-04-15 | 2015-07-29 | 珠海世纪鼎利通信科技股份有限公司 | 一种快速检测lte信令中imsi与imei匹配错误的方法 |
-
2016
- 2016-05-10 CN CN201610304238.2A patent/CN107360589B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103428686A (zh) * | 2013-08-09 | 2013-12-04 | 中国移动通信集团四川有限公司宜宾分公司 | 基于网内互拨呼叫的用户号码回填方法和号码回填服务器 |
CN104811978A (zh) * | 2015-04-15 | 2015-07-29 | 珠海世纪鼎利通信科技股份有限公司 | 一种快速检测lte信令中imsi与imei匹配错误的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107360589A (zh) | 2017-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107580032B (zh) | 数据处理方法、装置及设备 | |
CN110913411B (zh) | 一种mr邻区回填方法、装置、服务器及存储介质 | |
CN110688305B (zh) | 测试环境同步方法、装置、介质、电子设备 | |
CN104486748B (zh) | 联系人号码更新方法及移动终端 | |
CN113110995A (zh) | 系统迁移的测试方法及装置 | |
CN103701653A (zh) | 一种接口热插拔配置数据的处理方法及网络配置服务器 | |
CN112866979B (zh) | 基于5g服务化接口的用户信息关联方法、装置、设备和介质 | |
CN113986747A (zh) | 一种数据生成方法、装置、电子设备及存储介质 | |
CN107360589B (zh) | 一种移动通信网络的数据清洗方法及数据清洗装置 | |
KR101761177B1 (ko) | 상위 k 중요 패턴 마이닝 방법, 이를 수행하는 장치 및 이를 저장하는 기록매체 | |
CN112433935A (zh) | 测试方法、装置、电子设备及存储介质 | |
CN106407470A (zh) | 指纹共享方法、终端和服务器 | |
CN108601098B (zh) | 双卡终端的网络制式的识别方法和装置 | |
CN105827739A (zh) | 联系人信息同步方法、装置、服务器及系统 | |
CN114781517A (zh) | 风险识别的方法、装置及终端设备 | |
CN112148724B (zh) | 一种设备标识处理方法、系统、计算机设备及可读存储介质 | |
CN114650211A (zh) | 故障修复方法、装置、电子设备和计算机可读存储介质 | |
CN108763498B (zh) | 用户身份识别方法、装置、电子设备及可读存储介质 | |
CN113269538A (zh) | 并行审批节点的转交方法、装置、设备及存储介质 | |
CN109491699B (zh) | 应用程序的资源检查方法、装置、设备及存储介质 | |
CN110909288A (zh) | 业务数据处理方法、装置、平台、业务端、系统及介质 | |
CN115994172B (zh) | 一种业务访问关系确定的方法、装置、设备及介质 | |
CN114071450B (zh) | 换机换卡行为的识别方法及装置 | |
CN113296789B (zh) | 一种代码生成方法、装置、设备以及存储介质 | |
CN116866534B (zh) | 用于数字视频监控系统的处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |