CN109195154B - 物联网窜卡用户识别方法和装置 - Google Patents
物联网窜卡用户识别方法和装置 Download PDFInfo
- Publication number
- CN109195154B CN109195154B CN201810915650.7A CN201810915650A CN109195154B CN 109195154 B CN109195154 B CN 109195154B CN 201810915650 A CN201810915650 A CN 201810915650A CN 109195154 B CN109195154 B CN 109195154B
- Authority
- CN
- China
- Prior art keywords
- card
- fleeing
- user
- classification
- tested
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 58
- 238000004891 communication Methods 0.000 claims abstract description 28
- 238000013145 classification model Methods 0.000 claims description 68
- 238000012549 training Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 15
- 238000007477 logistic regression Methods 0.000 claims description 7
- 238000000926 separation method Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 230000006855 networking Effects 0.000 claims 1
- 230000006399 behavior Effects 0.000 description 124
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000005204 segregation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W8/00—Network data management
- H04W8/18—Processing of user or subscriber data, e.g. subscribed services, user preferences or user profiles; Transfer of user or subscriber data
- H04W8/183—Processing at user equipment or user record carrier
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/08—Testing, supervising or monitoring using real traffic
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种物联网窜卡用户识别方法和装置,通过从多个待测卡的通信数据中,获取各所述待测卡对应的行为特征数据和用户标识,所述待测卡为待测的物联网卡;以预设的窜卡识别模型对各所述待测卡对应的所述行为特征数据进行处理,确定各所述待测卡为窜卡或正常卡;根据各所述用户标识对应的窜卡占比,在所有所述用户标识中确定窜卡用户标识,所述窜卡占比是指所述用户标识对应的所述窜卡的数量在所述用户标识对应的卡总数量中的占比,提高了物联网窜卡识别的准确性和可靠性。
Description
技术领域
本发明涉及数据处理技术,尤其涉及一种物联网窜卡用户识别方法和装置。
背景技术
物联网窜卡与传统意义上的窜卡不同,物联网窜卡是指实际用途与登记注册用途不匹配的情况。物联网类卡号通常是用户物联网类业务需求,例如大量的数据流量业务和少量的通话业务,运营商在售出此类物联网卡时要求用户对物联网卡的业务范围和用途进行登记注册,从而享受物联网卡套餐的优惠。但物联网窜卡用户将购买的物联网卡用于电话卡或其他非物联网业务中,导致物联网卡的实际业务使用范围超出了原本规定的范围,扰乱了物联网卡市场的正常秩序。
现有的物联网窜卡识别方法,通常是将用户购买物联网卡时的注册登记信息与实际消费进行对比,如果不一致则将该用户确认为物联网窜卡用户。
然而,用户购买物联网卡时的注册登记的文本信息,填写内容通常有很多错误和不规范,参考价值低,导致物联网窜卡用户识别不准确。
发明内容
本发明提供一种物联网窜卡用户识别方法和装置,提高物联网窜卡用户识别的准确性。
根据本发明的第一方面,提供一种一种物联网窜卡用户识别方法,包括:
从多个待测卡的通信数据中,获取各所述待测卡对应的行为特征数据和用户标识,所述待测卡为待测的物联网卡;
以预设的窜卡识别模型对各所述待测卡对应的所述行为特征数据进行处理,确定各所述待测卡为窜卡或正常卡;
根据各所述用户标识对应的窜卡占比,在所有所述用户标识中确定窜卡用户标识,所述窜卡占比是指所述用户标识对应的所述窜卡的数量在所述用户标识对应的卡总数量中的占比。
可选地,在第一方面的一种可能实现方式中,在所述以预设的窜卡识别模型对各所述待测卡对应的所述行为特征数据进行处理,确定各所述待测卡为窜卡或正常卡之前,还包括:
根据预存储的窜卡用户的第一行为特征信息和预设的第一分类模型,获得窜卡信息样本和正常信息样本;
以所述窜卡信息样本和所述正常信息样本作为训练样本,对多个不同的初始分类模型分别进行训练,得到多个不同的子分类模型;
根据所述多个不同的子分类模型,获得窜卡识别模型。
可选地,在第一方面的另一种可能实现方式中,所述根据预存储的窜卡用户的第一行为特征信息和预设的第一分类模型,获得窜卡信息样本和正常信息样本,包括:
获取预存储的窜卡用户的第一行为特征信息和未知类型用户的第二行为特征信息;
以预设的第一分类模型对所述第一行为特征信息和第二行为特征信息进行处理,获得第一分类和第二分类,且所述第一分类对应的所述第一行为特征信息的数量大于所述第二分类对应的所述第一行为特征信息的数量;
将所述第一分类对应的所述第一行为特征信息,确定为窜卡信息样本;
将所述第二分类对应的所述第二行为特征信息,确定为正常信息样本。
可选地,在第一方面的再一种可能实现方式中,所述根据所述多个不同的子分类模型,获得窜卡识别模型,包括:
将所述多个不同的子分类模型的处理结果加权求和,并以所述加权求和的结果相对于分类阈值的大小,确定为窜卡识别模型的处理结果;其中,若所述加权求和的结果大于或等于所述分类阈值,则所述窜卡识别模型的处理结果为窜卡;若所述加权求和的结果小于所述分类阈值,则所述窜卡识别模型的处理结果为正常卡。
可选地,在第一方面的又一种可能实现方式中,所述多个不同的初始分类模型包括:随机分离初始模型、近邻初始模型和逻辑回归初始模型。
可选地,在第一方面的又一种可能实现方式中,所述根据各所述用户标识对应的窜卡占比,在所有所述用户标识中确定窜卡用户标识,包括:
在所有所述用户标识中,将与大于占比阈值的窜卡占比对应的用户标识,确定为窜卡用户标识。
可选地,在第一方面的又一种可能实现方式中,所述从多个待测卡的通信数据中,获取各所述待测卡对应的行为特征数据和用户标识,包括:
从多个待测卡的通信数据中,获取各所述待测卡对应的用户标识以及在预设时间段内产生的以下至少一类数据:
上行流量、下行流量、短信数量、语音通话主呼叫时长、语音通话被呼叫时长。
根据本发明的第二方面,提供一种物联网窜卡用户识别装置,包括:
行为特征数据采集模块,用于从多个待测卡的通信数据中,获取各所述待测卡对应的行为特征数据和用户标识,所述待测卡为待测的物联网卡;
处理模块,用于以预设的窜卡识别模型对各所述待测卡对应的所述行为特征数据进行处理,确定各所述待测卡为窜卡或正常卡;
窜卡用户标识确定模块,用于根据各所述用户标识对应的窜卡占比,在所有所述用户标识中确定窜卡用户标识,所述窜卡占比是指所述用户标识对应的所述窜卡的数量在所述用户标识对应的卡总数量中的占比。
可选地,在第二方面的一种可能实现方式中,所述处理模块,在所述以预设的窜卡识别模型对各所述待测卡对应的所述行为特征数据进行处理,确定各所述待测卡为窜卡或正常卡之前,还用于根据预存储的窜卡用户的第一行为特征信息和预设的第一分类模型,获得窜卡信息样本和正常信息样本;以所述窜卡信息样本和所述正常信息样本作为训练样本,对多个不同的初始分类模型分别进行训练,得到多个不同的子分类模型;根据所述多个不同的子分类模型,获得窜卡识别模型。
可选地,在第二方面的另一种可能实现方式中,所述处理模块,具体用于获取预存储的窜卡用户的第一行为特征信息和未知类型用户的第二行为特征信息;以预设的第一分类模型对所述第一行为特征信息和第二行为特征信息进行处理,获得第一分类和第二分类,且所述第一分类对应的所述第一行为特征信息的数量大于所述第二分类对应的所述第一行为特征信息的数量;将所述第一分类对应的所述第一行为特征信息,确定为窜卡信息样本;将所述第二分类对应的所述第二行为特征信息,确定为正常信息样本。
可选地,在第二方面的再一种可能实现方式中,所述处理模块,具体用于将所述多个不同的子分类模型的处理结果加权求和,并以所述加权求和的结果相对于分类阈值的大小,确定为窜卡识别模型的处理结果;其中,若所述加权求和的结果大于或等于所述分类阈值,则所述窜卡识别模型的处理结果为窜卡;若所述加权求和的结果小于所述分类阈值,则所述窜卡识别模型的处理结果为正常卡。
可选地,在第二方面的又一种可能实现方式中,所述多个不同的初始分类模型包括:随机分离初始模型、近邻初始模型和逻辑回归初始模型。
可选地,在第二方面的又一种可能实现方式中,所述窜卡用户标识确定模块,具体用于在所有所述用户标识中,将与大于占比阈值的窜卡占比对应的用户标识,确定为窜卡用户标识,所述窜卡占比是指所述用户标识对应的所述窜卡的数量在所述用户标识对应的卡总数量中的占比。
可选地,在第二方面的又一种可能实现方式中,所述行为特征数据采集模块,用于从多个待测卡的通信数据中,获取各所述待测卡对应的用户标识以及在预设时间段内产生的以下至少一类数据:
上行流量、下行流量、短信数量、语音通话主呼叫时长、语音通话被呼叫时长。
根据本发明的第三方面,提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述的物联网窜卡用户识别方法。
根据本发明的第四方面,提供一种服务器,包括:存储器、处理器以及计算机程序,所述计算机程序存储在所述存储器中,所述处理器运行所述计算机程序执行本发明第一方面及第一方面各种可能设计的所述方法。
本发明提供的一种物联网窜卡用户识别方法和装置,通过从多个待测卡的通信数据中,获取各所述待测卡对应的行为特征数据和用户标识,所述待测卡为待测的物联网卡;以预设的窜卡识别模型对各所述待测卡对应的所述行为特征数据进行处理,确定各所述待测卡为窜卡或正常卡;根据各所述用户标识对应的窜卡占比,在所有所述用户标识中确定窜卡用户标识,所述窜卡占比是指所述用户标识对应的所述窜卡的数量在所述用户标识对应的卡总数量中的占比,提高了物联网窜卡识别的准确性和可靠性。
附图说明
图1是本发明实施例提供的一种应用场景示意图;
图2是本发明实施例提供的一种物联网窜卡用户识别方法流程示意图;
图3是本发明实施例提供的另一种物联网窜卡用户识别方法流程示意图;
图4是本发明实施例提供的一种物联网窜卡用户识别装置结构示意图;
图5是本发明实施例提供的一种服务器的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
应当理解,在本发明中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本发明中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含,“包含A、B或C”是指包含A、B、C三者之一,“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。
应当理解,在本发明中,“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”,表示B与A相关联,根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。A与B的匹配,是A与B的相似度大于或等于预设的阈值。
应当理解,卡终端,是指插卡的终端设备,例如手机、平板电脑、门禁终端、图像采集终端、检测终端等具有插卡功能的终端设备。
取决于语境,如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
参见图1,是本发明实施例提供的一种应用场景示意图。在如图1所示的应用场景中,卡终端2通过基站3接入蜂窝网络并上传和下载通信数据。每个卡终端2可能在物理上(例如电气连接)与一张或多张物联网卡相对应。而一个卡终端2可能是对应一个用户标识,也可以是对应多个用户标识。在卡终端2为传感器阵列时,还可以是一个用户标识与多个卡终端2对应。服务器1可以是响应搜索指令,或者实时/定时监测而获取蜂窝网络中的通信数据,然后执行本发明下述的各种实施例,对通信数据中的行为特征数据进行分析,从而对各个卡终端2对应的各个用户标识是否为窜卡用户标识进行识别。服务器1可以是运营商的服务器,也可以是第三方数据处理机构的服务器。服务器1可以是从基站3获取所述通信数据,也可以是在卡终端2将通信数据发给服务器1,并通过服务器1将通信数据转发给其他设备时,服务器1将所述通信数据进行复制采集。在其他应用场景中,也可以是除蜂窝网络的其他信息网络,基站3也可以是路由器或者集线器等,服务器1可以是核心网络、中心机房或者专用装置器等,本发明不对这些进行限定。
参见图2,是本发明实施例提供的一种物联网窜卡用户识别方法流程示意图,图2所示方法的执行主体可以是软件和/或硬件装置,例如可以是图1所示的服务器1。图2所示方法主要包括下述步骤S101至步骤S103,具体如下:
S101,从多个待测卡的通信数据中,获取各所述待测卡对应的行为特征数据和用户标识,所述待测卡为待测的物联网卡。
可以理解为,从多个待测卡的通信数据中,获取各所述待测卡对应的用户标识以及在预设时间段内产生的以下至少一类数据:
上行流量、下行流量、短信数量、语音通话主呼叫时长、语音通话被呼叫时长。
在一种可选的实现方式中,获取各所述待测卡对应的行为特征数据和用户标识为Hadoop分布式文件系统格式,简称hdfs文件,单条记录以换行符标记,列记录以|分割。对7天内的通信数据进行数据处理,将7天数据按列叠加,得到hdfs文件格式的行为特征数据和用户标识,如下表一为一个待测卡对应的用户标识,和该用户标识对应的用户在7天内的行为特征数据的示例。
表一
ICCID | data_Rateplan_id | data_Ratezone_id | cust_name |
nl_DataUsage_RawTotal | nl_DataUsage_RawUplink | nl_DataUsage_RawDownlink | n1_DataUsage_RawRounded |
n1_JP0_ACCT_SMS_NUM | n1_VoiceDuration_Raw | n1_VoiceDuration_Rounded | |
n2_DataUsage_RawTotal | n2_DataUsage_RawUp1ink | n2_DataUsage_RawDownlink | n2_DataUsage_RawRounded |
n2_JP0_ACCT_SMS_NUM | n2_VoiceDuration_Raw | n2_VoiceDuration_Rounded | |
n3_DataUsage_RawTotal | n3_DataUsage_RawUp1ink | n3_DataUsage_RawDownlink | n3_DataUsage_RawRounded |
n3_JP0_ACCT_SMS_NUM | n3_VoiceDuration_Raw | n3_VoiceDuration_Rounded | |
n4_DataUsage_RawTotal | n4_DataUsage_RawUplink | n4_DataUsage_RawDownlink | n4_DataUsage_RawRounded |
n4_JP0_ACCT_SMS_NUM | n4_VoiceDuration_Raw | n4_VoiceDuration_Rounded | |
n5_DataUsage_RawTotal | n5_DataUsage_RawUplink | n5_DataUsage_RawDownlink | n5_DataUsage_RawRounded |
n5_JP0_ACCT_SMS_NUM | n5_VoiceDuration_Raw | n5_VoiceDuration_Rounded | |
n6_DataUsage_RawTota1 | n6_DataUsage_RawUplink | n6_DataUsage_RawDownlink | n6_DataUsage_RawRounded |
n6_JP0_ACCTSMSNUM | n6_VoiceDuration_Raw | n6_VoiceDuration_Rounded | |
n7_DataUsage_RawTotal | n7_DataUsage_RawUplink | n7_DataUsage_RawDownlink | n7_DataUsage_RawRounded |
n7_JP0_ACCT_SMS_NUM | n7_VoiceDuration_Raw | n7_VoiceDuration_Rounded |
在表一所示的示例中,主要包括用户标识部分和行为特征数据部分。用户标识部分是第1行所示的4种用户标识,用户可以是公司,上述示例中的用户标识包括:物联网卡ID(ICCID)、资费ID(data Rateplan_id)、地区ID(data_Ratezone_id)、公司名称(cust_name)。
行为特征数据部分是第2至15行所示的7天内的行为特征数据,例如第2至3行包括第1天的行为特征数据:总流量(DataUsage_RawTotal)、上行流量(DataUsage_RawUplink)、下行流量(DataUsage_RawDownlink)、本地流量(DataUsage_RawRounded)、短信数量(JPO_ACCT_SMS_NUM)、语音通话主呼叫时长(VoiceDuration_Raw)、语音通话被呼叫时长(VoiceDuration_Rounded)。在表一所示的示例中,表一中的行为特征数据部分就可以是作为下面的各种实施例中输入各类模型的一个单独样本。
S102,以预设的窜卡识别模型对各所述待测卡对应的所述行为特征数据进行处理,确定各所述待测卡为窜卡或正常卡。
可以理解为,预先建立了一个用于检测窜卡的窜卡识别模型,然后将获取到的行为特征数据输入该窜卡识别模型,得到输出结果。例如输出1表示行为特征数据对应的待测卡为窜卡,输出-1表示行为特征数据对应的待测卡为正常卡。
建立窜卡识别模型的实现方式可以有多种,在现有的模型学习或训练中,通常需要先获取正样本和负样本,然后才能利用正样本和负样本对初始分类模型进行训练,得到符合正样本和负样本分类特性的分类模型。但是,通常只能确定数量有限的窜卡用户,例如对一些长期具有明显窜卡行为用户,可以准确获取窜卡用户,但是其行为特征数据也可能有窜卡行为,也有正常行为,因此难以直接获得纯净的正样本和负样本,获得准确的窜卡识别模型。在上述实施例的基础上,参见图3,是本发明实施例提供的另一种物联网窜卡用户识别方法流程示意图,为了提高窜卡识别模型的识别准确性,在一种可选的建立窜卡识别模型实现方式中,图3所述的方法流程是在上述步骤S102(以预设的窜卡识别模型对各所述待测卡对应的所述行为特征数据进行处理,确定各所述待测卡为窜卡或正常卡)之前执行的窜卡识别模型建立流程,主要包括下列步骤S301至S303。
S301,根据预存储的窜卡用户的第一行为特征信息和预设的第一分类模型,获得窜卡信息样本和正常信息样本。
其中,窜卡用户的第一行为特征信息可以理解为是预先通过人工查核或其他可靠方式能够确定是窜卡用户的行为特征信息。该窜卡用户的第一行为特征信息可能全部都是窜卡类型的行为特征,但也可以可能还包含正常类型的行为特征。例如该窜卡用户对应有10张物联网卡,其中9张被用来窜卡,例如作为电话卡,剩余1张卡被正常用于物联网终端进行物联网信息管理,例如内置在门禁传感器中。可见,即使确定窜卡用户也不能直接将其行为特征信息作为正样本进行分类模型训练。另外,在没有正常行为特征信息作为负样本的情况下,也难以用现有的模型训练方法进行窜卡识别模型的学习和训练。因此,为了提高样本的准确性,需要先根据预存储的窜卡用户的第一行为特征信息和预设的第一分类模型,获得窜卡信息样本和正常信息样本,其可以有多种实现方式,以下对可选的两种实现方式进行举例说明:
在一种实现方式中,可以是首先获取预存储的窜卡用户的第一行为特征信息和未知类型用户的第二行为特征信息。未知类型用户可以是随机抽取的未知类型用户(即没有确定有窜卡行为的用户)。然后,以预设的第一分类模型对所述第一行为特征信息和第二行为特征信息进行处理,获得第一分类和第二分类,且所述第一分类对应的所述第一行为特征信息的数量大于所述第二分类对应的所述第一行为特征信息的数量。例如取4万条第一行为特征信息和4万条第二行为特征信息,然后将这8万条信息作为第一分类模型的输入样本,以使得第一分类模型对这8万条信息进行自动分类,得到两个分类:第一分类和第二分类。可以理解为,第一分类和第二分类是与4万条第一行为特征信息和4万条第二行为特征信息中每条信息对应的两种标签两个集合,且将包含第一行为特征信息的标签更多的集合作为第一分类。由于选卡用户的大多数行为应当是窜卡行为,因此将第一行为特征信息的标签占比更多的第一分类就可以认为主要是窜卡类行为的分类,而另一个分类则可以认为是正常卡行为更多的分类。在此基础上,将所述第一分类对应的所述第一行为特征信息,确定为窜卡信息样本;将所述第二分类对应的所述第二行为特征信息,确定为正常信息样本。例如,第一分类有3万条信息,第二分类里有5万条信息,则将这3万条信息与4万条第一行为特征信息的交集作为窜卡信息样本,将这5万条信息与4万条第二行为特征信息的交集作为正常信息样本。
在另一种实现方式中,可以是首先获取预存储的窜卡用户的第一行为特征信息和未知类型用户的第二行为特征信息。未知类型用户可以是随机抽取的未知类型用户(即没有确定有窜卡行为的用户)。然后,以部分所述第一行为特征信息和部分第二行为特征信息作为第一分类模型的训练样本,对预设的第一分类模型进行训练,得到训练后的第一分类模型,其中所述部分第一行为特征信息标记为窜卡行为(例如标记为1),所述部分第二行为特征信息标记为正常行为(例如标记为-1)。部分所述第一行为特征信息可以是全部所述第一行为特征信息的60%,同样地,部分所述第二行为特征信息可以是全部所述第二行为特征信息的60%。然后用训练后的第一分类模型对另一部分(例如剩余的40%)所述第一行为特征信息和另一部分(例如剩余的40%)第二行为特征信息进行分类,获得指示为窜卡行为特征的第一分类和指示为正常行为的第二分类。最后,将所述第二分类对应的第一行为特征信息或第二行为特征信息,确定为可靠性较高的负样本:正常信息样本;将预存储的窜卡用户的第一行为特征信息,确定为可靠性较高的正样本:窜卡信息样本。
S302,以所述窜卡信息样本和所述正常信息样本作为训练样本,对多个不同的初始分类模型分别进行训练,得到多个不同的子分类模型。
可以理解为,多个不同的初始分类模型可以是2个、3个或更多,且各初始分类模型都是相互不同的模型,例如,3个不同的初始分类模型可以是:随机分离初始模型(RandomForest模型)、近邻初始模型(K-nearest neighbor模型)和逻辑回归初始模型(LogisticRegression模型)。由此,可以得到多个不同的子分类模型,每个子分类模型都是以所述窜卡信息样本和所述正常信息样本训练得到的模型。
S303,根据所述多个不同的子分类模型,获得窜卡识别模型。
可以理解为,将多个不同的子分类模型进行逻辑组合,获得窜卡识别模型。例如,多个不同的子分类模型的输入为窜卡识别模型的输入,多个不同的子分类模型的输出的交集为窜卡识别模型的输出。例如只有所有子分类模型将某个行为特征信息识别为窜卡类型时,窜卡识别模型才将该行为特征信息识别为窜卡类型,否则都识别为正常行为类型。
又例如多个不同的子分类模型的输入为窜卡识别模型的输入,而将多个不同的子分类模型的输出按预设规则进行投票,投票结果作为为窜卡识别模型的输出。例如3个子分类模型中,至少两个分类模型将某个行为特征信息识别为窜卡类型时,窜卡识别模型才将该行为特征信息识别为窜卡类型,否则都识别为正常行为类型。
在一种可选的具体实现方式中,可以是将所述多个不同的子分类模型的处理结果加权求和,并以所述加权求和的结果相对于分类阈值的大小,确定为窜卡识别模型的处理结果。其中,若所述加权求和的结果大于或等于所述分类阈值,则所述窜卡识别模型的处理结果为窜卡;若所述加权求和的结果小于所述分类阈值,则所述窜卡识别模型的处理结果为正常卡。其中加权求和也可以理解为是一种投票规则。
上述实施例通过多个不同的子分类模型,获得窜卡识别模型,提高了窜卡识别模型的识别准确性。
S103,根据各所述用户标识对应的窜卡占比,在所有所述用户标识中确定窜卡用户标识,所述窜卡占比是指所述用户标识对应的所述窜卡的数量在所述用户标识对应的卡总数量中的占比。
可以理解为,在所有所述用户标识中,将与大于占比阈值的窜卡占比对应的用户标识,确定为窜卡用户标识。例如,根据窜卡识别模型判断各所述待测卡对应的所述行为特征数据是否为窜卡,获取该待测卡对应的用户标识中公司名称,然后建立一个体现对应关系的字典,字典中关键词是公司名称,值是识别为窜卡的个数。根据该公司名称的窜卡总数与该公司名称对应开卡总数的比值,来确定该公司名称对应的用户是否有较高的窜卡可能性。可根据实际测试数据的统计情况,定一个比较可靠的占比阈值来推测该用户是否是有窜卡倾向的用户,也即窜卡用户标识指示的用户。通常1家公司会购买多张物联网卡,本实施例的用户标识中的集成电路卡识别码(Integrate circuit card identity简称:ICCID)指的是单张物联网卡信息,且物联网卡的ICCID和公司名称关联。在识别到窜卡或正常卡后还可以进行数据的汇总、入库和可视化显示。汇总主要指标为窜卡对应公司名称、近7日窜卡数量比例、窜卡高危企业top10、窜卡企业地理区域,可以通过现有的spark.sql数据库完成此类常规汇总指标的计算,并直接通过数据库的odbc接口将此数据导入mysql数据库。上述各种实施例的方法中,所有流程都可以利用scala语言形成软件功能模块,封装到jar包。
本实施例提供一种物联网窜卡用户识别方法,通过从多个待测卡的通信数据中,获取各所述待测卡对应的行为特征数据和用户标识,所述待测卡为待测的物联网卡;以预设的窜卡识别模型对各所述待测卡对应的所述行为特征数据进行处理,确定各所述待测卡为窜卡或正常卡;根据各所述用户标识对应的窜卡占比,在所有所述用户标识中确定窜卡用户标识,所述窜卡占比是指所述用户标识对应的所述窜卡的数量在所述用户标识对应的卡总数量中的占比,提高了物联网窜卡识别的准确性和可靠性。
参见图4,是本发明实施例提供的一种物联网窜卡用户识别装置结构示意图,图4所示的物联网窜卡用户识别装置4主要包括:
行为特征数据采集模块41,用于从多个待测卡的通信数据中,获取各所述待测卡对应的行为特征数据和用户标识,所述待测卡为待测的物联网卡;
处理模块42,用于以预设的窜卡识别模型对各所述待测卡对应的所述行为特征数据进行处理,确定各所述待测卡为窜卡或正常卡;
窜卡用户标识确定模块43,用于根据各所述用户标识对应的窜卡占比,在所有所述用户标识中确定窜卡用户标识,所述窜卡占比是指所述用户标识对应的所述窜卡的数量在所述用户标识对应的卡总数量中的占比。
图4所示实施例的物联网窜卡用户识别装置4对应地可用于执行图2所示方法实施例中的步骤,其实现原理和技术效果类似,此处不再赘述。
可选地,所述处理模块42,在所述以预设的窜卡识别模型对各所述待测卡对应的所述行为特征数据进行处理,确定各所述待测卡为窜卡或正常卡之前,还用于根据预存储的窜卡用户的第一行为特征信息和预设的第一分类模型,获得窜卡信息样本和正常信息样本;以所述窜卡信息样本和所述正常信息样本作为训练样本,对多个不同的初始分类模型分别进行训练,得到多个不同的子分类模型;根据所述多个不同的子分类模型,获得窜卡识别模型。
可选地,所述处理模块42,具体用于获取预存储的窜卡用户的第一行为特征信息和未知类型用户的第二行为特征信息;以预设的第一分类模型对所述第一行为特征信息和第二行为特征信息进行处理,获得第一分类和第二分类,且所述第一分类对应的所述第一行为特征信息的数量大于所述第二分类对应的所述第一行为特征信息的数量;将所述第一分类对应的所述第一行为特征信息,确定为窜卡信息样本;将所述第二分类对应的所述第二行为特征信息,确定为正常信息样本。
可选地,所述处理模块42,具体用于将所述多个不同的子分类模型的处理结果加权求和,并以所述加权求和的结果相对于分类阈值的大小,确定为窜卡识别模型的处理结果;其中,若所述加权求和的结果大于或等于所述分类阈值,则所述窜卡识别模型的处理结果为窜卡;若所述加权求和的结果小于所述分类阈值,则所述窜卡识别模型的处理结果为正常卡。
可选地,所述多个不同的初始分类模型包括:随机分离初始模型、近邻初始模型和逻辑回归初始模型。
可选地,所述窜卡用户标识确定模块43,具体用于在所有所述用户标识中,将与大于占比阈值的窜卡占比对应的用户标识,确定为窜卡用户标识,所述窜卡占比是指所述用户标识对应的所述窜卡的数量在所述用户标识对应的卡总数量中的占比。
可选地,所述行为特征数据采集模块41,用于从多个待测卡的通信数据中,获取各所述待测卡对应的用户标识以及在预设时间段内产生的以下至少一类数据:
上行流量、下行流量、短信数量、语音通话主呼叫时长、语音通话被呼叫时长。
参见图5,是本发明实施例提供的一种服务器的硬件结构示意图,该服务器5包括:处理器51、存储器52和计算机程序;其中
存储器52,用于存储所述计算机程序,该存储器还可以是闪存(flash)。所述计算机程序例如是实现上述方法的应用程序、功能模块等。
处理器51,用于执行所述存储器存储的计算机程序,以实现上述方法中服务器执行的各个步骤。具体可以参见前面方法实施例中的相关描述。
可选地,存储器52既可以是独立的,也可以跟处理器51集成在一起。
当所述存储器52是独立于处理器51之外的器件时,所述服务器还可以包括:
总线53,用于连接所述存储器52和处理器51。图5的服务器还可以进一步包括发送器(图中未画出),用于向外发送处理器51生成的信息。例如将窜卡用户标识发送给窜卡用户处理装置。
本发明还提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。
其中,可读存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如,可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits,简称:ASIC)中。另外,该ASIC可以位于用户设备中。当然,处理器和可读存储介质也可以作为分立组件存在于通信设备中。
本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。
在上述服务器的实施例中,应理解,处理器可以是中央处理单元(英文:CentralProcessing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:DigitalSignal Processor,简称:DSP)、专用集成电路(英文:Application Specific IntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (11)
1.一种物联网窜卡用户识别方法,其特征在于,包括:
从多个待测卡的通信数据中,获取各所述待测卡对应的行为特征数据和用户标识,所述待测卡为待测的物联网卡;
获取预存储的窜卡用户的第一行为特征信息和未知类型用户的第二行为特征信息;
以预设的第一分类模型对所述第一行为特征信息和第二行为特征信息进行处理,获得第一分类和第二分类,且所述第一分类对应的所述第一行为特征信息的数量大于所述第二分类对应的所述第一行为特征信息的数量;
将所述第一分类对应的所述第一行为特征信息,确定为窜卡信息样本;
将所述第二分类对应的所述第二行为特征信息,确定为正常信息样本;
以所述窜卡信息样本和所述正常信息样本作为训练样本,对多个不同的初始分类模型分别进行训练,得到多个不同的子分类模型;
根据所述多个不同的子分类模型,获得窜卡识别模型;
以预设的窜卡识别模型对各所述待测卡对应的所述行为特征数据进行处理,确定各所述待测卡为窜卡或正常卡;
根据各所述用户标识对应的窜卡占比,在所有所述用户标识中确定窜卡用户标识,所述窜卡占比是指所述用户标识对应的所述窜卡的数量在所述用户标识对应的卡总数量中的占比。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个不同的子分类模型,获得窜卡识别模型,包括:
将所述多个不同的子分类模型的处理结果加权求和,并以所述加权求和的结果相对于分类阈值的大小,确定为窜卡识别模型的处理结果;其中,若所述加权求和的结果大于或等于所述分类阈值,则所述窜卡识别模型的处理结果为窜卡;若所述加权求和的结果小于所述分类阈值,则所述窜卡识别模型的处理结果为正常卡。
3.根据权利要求2所述的方法,其特征在于,所述多个不同的初始分类模型包括:随机分离初始模型、近邻初始模型和逻辑回归初始模型。
4.根据权利要求1所述的方法,其特征在于,所述根据各所述用户标识对应的窜卡占比,在所有所述用户标识中确定窜卡用户标识,包括:
在所有所述用户标识中,将与大于占比阈值的窜卡占比对应的用户标识,确定为窜卡用户标识。
5.根据权利要求1所述的方法,其特征在于,所述从多个待测卡的通信数据中,获取各所述待测卡对应的行为特征数据和用户标识,包括:
从多个待测卡的通信数据中,获取各所述待测卡对应的用户标识以及在预设时间段内产生的以下至少一类数据:
上行流量、下行流量、短信数量、语音通话主呼叫时长、语音通话被呼叫时长。
6.一种物联网窜卡用户识别装置,其特征在于,包括:
行为特征数据采集模块,用于从多个待测卡的通信数据中,获取各所述待测卡对应的行为特征数据和用户标识,所述待测卡为待测的物联网卡;
处理模块,用于获取预存储的窜卡用户的第一行为特征信息和未知类型用户的第二行为特征信息;以预设的第一分类模型对所述第一行为特征信息和第二行为特征信息进行处理,获得第一分类和第二分类,且所述第一分类对应的所述第一行为特征信息的数量大于所述第二分类对应的所述第一行为特征信息的数量;将所述第一分类对应的所述第一行为特征信息,确定为窜卡信息样本;将所述第二分类对应的所述第二行为特征信息,确定为正常信息样本;以所述窜卡信息样本和所述正常信息样本作为训练样本,对多个不同的初始分类模型分别进行训练,得到多个不同的子分类模型;根据所述多个不同的子分类模型,获得窜卡识别模型;
以预设的窜卡识别模型对各所述待测卡对应的所述行为特征数据进行处理,确定各所述待测卡为窜卡或正常卡;
窜卡用户标识确定模块,用于根据各所述用户标识对应的窜卡占比,在所有所述用户标识中确定窜卡用户标识,所述窜卡占比是指所述用户标识对应的所述窜卡的数量在所述用户标识对应的卡总数量中的占比。
7.根据权利要求6所述的装置,其特征在于,
所述处理模块,具体用于将所述多个不同的子分类模型的处理结果加权求和,并以所述加权求和的结果相对于分类阈值的大小,确定为窜卡识别模型的处理结果;其中,若所述加权求和的结果大于或等于所述分类阈值,则所述窜卡识别模型的处理结果为窜卡;若所述加权求和的结果小于所述分类阈值,则所述窜卡识别模型的处理结果为正常卡。
8.根据权利要求7所述的装置,其特征在于,所述多个不同的初始分类模型包括:随机分离初始模型、近邻初始模型和逻辑回归初始模型。
9.根据权利要求6所述的装置,其特征在于,
所述窜卡用户标识确定模块,具体用于在所有所述用户标识中,将与大于占比阈值的窜卡占比对应的用户标识,确定为窜卡用户标识,所述窜卡占比是指所述用户标识对应的所述窜卡的数量在所述用户标识对应的卡总数量中的占比。
10.根据权利要求6所述的装置,其特征在于,
所述行为特征数据采集模块,用于从多个待测卡的通信数据中,获取各所述待测卡对应的用户标识以及在预设时间段内产生的以下至少一类数据:
上行流量、下行流量、短信数量、语音通话主呼叫时长、语音通话被呼叫时长。
11.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现权利要求1至5任一所述的物联网窜卡用户识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810915650.7A CN109195154B (zh) | 2018-08-13 | 2018-08-13 | 物联网窜卡用户识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810915650.7A CN109195154B (zh) | 2018-08-13 | 2018-08-13 | 物联网窜卡用户识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109195154A CN109195154A (zh) | 2019-01-11 |
CN109195154B true CN109195154B (zh) | 2021-06-29 |
Family
ID=64921614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810915650.7A Active CN109195154B (zh) | 2018-08-13 | 2018-08-13 | 物联网窜卡用户识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109195154B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110808988B (zh) * | 2019-11-08 | 2021-09-10 | 国家计算机网络与信息安全管理中心山西分中心 | 一种基于信息特征熵和长短期记忆网络的物联网卡业务异常检测方法 |
CN110995745B (zh) * | 2019-12-17 | 2021-09-21 | 武汉绿色网络信息服务有限责任公司 | 一种物联网非法机卡分离识别的方法及装置 |
CN112822708B (zh) * | 2020-12-31 | 2022-06-28 | 四川英得赛克科技有限公司 | 一种使用多无线网卡进行无线通信数据抓取的方法和设备 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9519775B2 (en) * | 2013-10-03 | 2016-12-13 | Qualcomm Incorporated | Pre-identifying probable malicious behavior based on configuration pathways |
GB201613225D0 (en) * | 2016-08-01 | 2016-09-14 | Univ Liverpool John Moores | Analysing energy usage |
US10997135B2 (en) * | 2016-09-16 | 2021-05-04 | Oracle International Corporation | Method and system for performing context-aware prognoses for health analysis of monitored systems |
CN107968730A (zh) * | 2016-10-19 | 2018-04-27 | 中国电信股份有限公司 | 监测物联网卡被盗用的方法和系统 |
CN106982230B (zh) * | 2017-05-10 | 2020-11-13 | 深信服科技股份有限公司 | 一种流量检测方法及系统 |
CN107333292B (zh) * | 2017-07-10 | 2019-11-12 | 深圳市优克联新技术有限公司 | 一种sim卡状态判断方法及装置 |
CN107862468A (zh) * | 2017-11-23 | 2018-03-30 | 深圳市智物联网络有限公司 | 设备风险识别模型建立的方法及装置 |
CN107958382A (zh) * | 2017-12-06 | 2018-04-24 | 北京小度信息科技有限公司 | 异常行为识别方法、装置、电子设备及存储介质 |
CN108197652B (zh) * | 2018-01-02 | 2022-03-18 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
-
2018
- 2018-08-13 CN CN201810915650.7A patent/CN109195154B/zh active Active
Non-Patent Citations (1)
Title |
---|
基于逐步优化分类模型的跨领域文本情感分类;张军;《计算机科学》;20161008;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109195154A (zh) | 2019-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110826006B (zh) | 基于隐私数据保护的异常采集行为识别方法和装置 | |
CN108737535B (zh) | 一种消息推送方法、存储介质和服务器 | |
CN109195154B (zh) | 物联网窜卡用户识别方法和装置 | |
CN113383362B (zh) | 用户识别方法及相关产品 | |
CN113505272B (zh) | 基于行为习惯的控制方法和装置、电子设备和存储介质 | |
CN113412607B (zh) | 内容推送方法、装置、移动终端及存储介质 | |
CN110287318B (zh) | 业务操作的检测方法及装置、存储介质、电子装置 | |
CN109543734A (zh) | 用户画像方法及装置、存储介质 | |
CN111126071A (zh) | 提问文本数据的确定方法、装置和客服群的数据处理方法 | |
CN112184143B (zh) | 一种合规审核规则中的模型训练方法、装置和设备 | |
CN115687754B (zh) | 一种基于智能对话的主动式网络信息挖掘方法 | |
CN115618415A (zh) | 敏感数据识别方法、装置、电子设备和存储介质 | |
CN115563281A (zh) | 基于文本数据增强的文本分类方法及装置 | |
US20180063056A1 (en) | Message sorting system, message sorting method, and program | |
CN113378037B (zh) | 资费配置的获取方法及装置 | |
CN112053197B (zh) | 一种基于大数据的广告播放方法、系统及广告服务平台 | |
CN108711073B (zh) | 用户分析方法、装置及终端 | |
CN111242232A (zh) | 数据分片处理方法、装置及学分银行服务器 | |
CN112165456B (zh) | 一种劫持流量识别方法、装置及电子设备 | |
CN114090882B (zh) | 基于移动终端的学习资料推送方法和系统 | |
CN113115200B (zh) | 用户关系识别方法、装置及计算设备 | |
CN112449062B (zh) | 恶意扣费的识别方法、装置、电子设备及存储介质 | |
CN112738719B (zh) | 一种通信小区所覆盖的地理区域的确定方法及电子设备 | |
CN116193420A (zh) | 身份识别方法、装置、计算机设备及可读存储介质 | |
CN116915908A (zh) | 拨测方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |