CN111405562A - 一种基于通信行为规律的移动恶意用户识别方法及系统 - Google Patents
一种基于通信行为规律的移动恶意用户识别方法及系统 Download PDFInfo
- Publication number
- CN111405562A CN111405562A CN202010164721.1A CN202010164721A CN111405562A CN 111405562 A CN111405562 A CN 111405562A CN 202010164721 A CN202010164721 A CN 202010164721A CN 111405562 A CN111405562 A CN 111405562A
- Authority
- CN
- China
- Prior art keywords
- user
- mobile
- data
- behavior
- communication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000010295 mobile communication Methods 0.000 claims abstract description 76
- 238000005070 sampling Methods 0.000 claims abstract description 57
- 238000004458 analytical method Methods 0.000 claims abstract description 35
- 238000000586 desensitisation Methods 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 23
- 239000000284 extract Substances 0.000 claims abstract description 9
- 230000006399 behavior Effects 0.000 claims description 115
- 238000012549 training Methods 0.000 claims description 17
- 238000003012 network analysis Methods 0.000 claims description 14
- 238000010801 machine learning Methods 0.000 claims description 9
- 239000013604 expression vector Substances 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000013106 supervised machine learning method Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 description 7
- 230000002159 abnormal effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000002372 labelling Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000007636 ensemble learning method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/12—Detection or prevention of fraud
- H04W12/121—Wireless intrusion detection systems [WIDS]; Wireless intrusion prevention systems [WIPS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/12—Detection or prevention of fraud
- H04W12/121—Wireless intrusion detection systems [WIDS]; Wireless intrusion prevention systems [WIPS]
- H04W12/122—Counter-measures against attacks; Protection against rogue devices
Abstract
本发明涉及一种基于通信行为规律的移动恶意用户识别方法及系统,步骤为:在脱敏移动通信流数据中基于非均匀采样方法采集数据,并执行预处理操作;基于预处理后的移动通信采样数据,利用移动通信行为分析模型中的行为模式分析提取用户的通话行为特征、短信行为特征和时间分布特征;基于预处理后的移动通信采样数据,利用移动通信行为分析模型中的通信网络分析提取用户的社交属性特征;基于提取的用户行为模式特征和提取的用户社交属性特征,构建移动恶意用户识别模型;本发明能够基于脱敏数据对用户的行为规律进行分析,识别用户是否为移动恶意用户,具有良好的时效性,并且在不涉及用户个人隐私的情况下,能够以高准确度识别移动恶意用户。
Description
技术领域
本发明涉及一种基于通信行为规律的移动恶意用户识别方法及系统,属于网络空间安全技术领域。
背景技术
目前,越来越多的非法组织或个人出于不同的目的和利益,利用移动通信设备在移动互联网中进行恶意行为,如电信欺诈、垃圾短信,由此造成的移动互联网安全事件层出不穷,对我国移动通信用户的个人生命财产安全和社会的稳定发展造成极大的威胁。360互联网安全中心发布的《2017年中国手机安全状况报告》显示,2017年,360手机卫士共为全国用户拦截各类骚扰电话号码380.9亿次,各类垃圾短信约98.5亿条,及时有效的识别从事电信欺诈等恶意行为的移动恶意用户对于保障我国国民的生命财产安全和维护社会稳定具有重要的研究意义和现实价值。
目前针对移动恶意用户识别的解决方案主要是基于人工标注的黑名单识别技术。厂商通过收集移动用户对手机号码的标注信息构建移动恶意用户黑名单,查询时通过手机号码在黑名单中进行匹配,如果命中则返回用户标注信息,否则认定为正常用户。目前使用率比较高的手机认证平台,如百度号码认证平台、360号码认证平台、搜狗号码通,均采用这种黑名单技术。同时,还有一些移动恶意用户识别方法基于通话内容或短信内容,主要代表工作有Rafique等人在2012年IWCMC会议上提出的方法。
移动通信网络也可看作是一种社交网络,目前社交网络异常用户识别的相关研究主要面向社交类应用,如Facebook(脸书)、Twitter(推特)和新浪微博等,主要方法是通过数据分析提取用户特征,构建用户特征表示向量,利用分类或聚类算法区分正常用户和异常用户。主要代表工作有Chu等人在2010年ACSAC会议21-30页提出的分类方法、Li等人在2017年QRS-C会议267-270页提出的方法等。
各大厂商的手机号码认证平台需要收集用户的手机号码标注信息,这种基于人工标注的黑名单识别技术的识别精度随着收集信息的增加而提升,不可避免的存在滞后性的问题。同时,由于用户缺少专业的领域知识,以及可能存在的误标、恶意标注等情况,导致识别准确度较差。
现有的社交网络异常用户识别的相关研究工作主要是基于社交类应用数据,虽然移动通信网络也可看作是一种社交网络,但由于提供服务的不同,社交网络异常用户识别中常用的特征字段(转发数、评论数、粉丝数、评论内容等)在移动通信网络中并不存在,导致传统的社交网络异常用户识别方法并不能直接应用于移动通信网络中。
基于通信内容的恶意用户识别技术需要获取用户的通话内容和短信内容,涉及用户隐私,对用户的个人隐私保护造成困扰。
发明内容
本发明技术解决问题:针对现有移动恶意用户识别解决方案存在滞后性以及传统社交网络异常用户识别方法无法直接使用的问题,提供一种基于通信行为规律的移动恶意用户识别方法及系统,能够基于脱敏数据对用户的行为规律进行分析,识别用户是否为移动恶意用户,具有良好的时效性,并且在不涉及用户个人隐私的情况下,能够以高准确度识别移动恶意用户。
本发明技术解决方案:一种基于通信行为规律的移动恶意用户识别方法,包括以下步骤:
步骤1:在脱敏移动通信流数据中基于非均匀采样方法采集数据,并执行预处理操作;
所述脱敏移动通信流数据是指对移动通信流数据执行脱敏操作后的数据,即对手机号码采用分段哈希的方法;对于通话记录只保存通话的起始时间和结束时间,对于短信记录只保存短信内容长度;所述非均匀采样方法指针对重点号段和区域范围,根据用户的历史通信行为信息,在时间窗口内对可疑用户的指定移动通信数据字段进行采集的有偏采样方法;采样字段包括呼叫类型、主叫号码、被叫号码、起始时间、结束时间、基站信息和短信内容长度;采样后的通信数据是包含所述采样字段的七元组,称为移动通信采样数据;所述数据预处理操作包括统计基本信息、删除缺失数据和数据格式转换;统计的基本信息包括通话时长、是否接通、运营商信息和手机号码归属标识;删除由于传输延迟原因缺失部分字段信息的数据,统一字段数据格式,时间信息字段转换为程序内置时间格式;
步骤2:基于步骤1中预处理后的移动通信采样数据,利用移动通信行为分析模型中的行为模式分析提取用户的通话行为特征、短信行为特征和时间分布特征;
所述移动通信行为分析模型是利用移动通信采样数据,从用户的行为模式和通信网络两个方面进行数据分析,提取特征参数,构建用户特征表示向量,用以表示用户的移动通信行为规律;所述行为模式分析分别从用户的通话行为特征、短信行为特征和时间分布特征三个角度分析用户的行为模式习惯;
步骤3:基于步骤1中预处理后的移动通信采样数据,利用移动通信行为分析模型中的通信网络分析提取用户的社交属性特征;
所述基于移动通信行为分析模型中的通信网络分析是通过构建通信网络有向图和信任网络无向图,分析图结构信息提取用户的社交属性特征;通信网络有向图表示用户的通信情况,其中节点表示用户,有向边表示用户之间的通信关系,统计节点出入度信息,节点局部聚类系数,信任网络无向图是在通信网络有向图的基础上保留双向边连接的节点,将双向边连接替换为无向边,表示用户之间的信任关系,统计节点度信息,节点局部聚类系数;
步骤4:基于步骤2中提取的用户行为模式特征和步骤3中提取的用户社交属性特征,构建移动恶意用户识别模型;
所述基于移动通信行为分析模型提取的用户的行为模式特征和社交属性特征,利用机器学习方法,在包含正常用户和恶意用户的训练集上构建移动恶意用户识别模型,用于移动恶意用户的识别。
所述步骤1具体实施如下:
(a)脱敏:对于每一个用户的手机号码d1d2d3d4d5d6d7d8d9d10d11d12d13,将其拆分为2位国际区号d1d2、3位移动接入码d3d4d5、4位HLR识别码d6d7d8d9、4位移动用户号d10d11d12d13,对于11位号码在增加2位中国国家区号,补充为13位号码,对移动用户号d=d10d11d12d13进行哈希,哈希函数将一个实数映射为另一个实数,即公式(1)所示:
其中C1和C2均为哈希参数,取值范围分别是10<C1<100和100000<C2<1000000;
(b)采样:针对采样范围Ψ和时间窗口W内的脱敏移动通信数据,采集通信数据集M={m1,m2,…,mN},满足mi∈Ψ和mi∈W,其中mi为7元组,c表示呼叫类型,s表示主叫号码、d表示被叫号码、ts表示起始时间、te表示结束时间、b表示基站信息、l表示短信内容长度,i是通信数据的索引编号;
(c)预处理:预处理操作中,通话时长lc由式(2)计算:
所述步骤2中具体实现为:
(a)通话行为特征包括主叫次数、被叫次数、主叫联系人个数、被叫联系人个数、白天主叫联系人个数、白天被叫联系人个数、白天主叫次数、白天被叫次数、夜晚主叫次数、夜晚被叫次数、主叫接通比例、主叫平均通话时长、主叫通话时长标准差、被叫接通比例、被叫平均通话时长、被叫通话时长标准差、涉及基站个数与通话行为相关的特征属性;短信行为特征包括短信发送次数、短信接收次数、发送联系人个数、接收联系人个数、白天发送联系人个数、白天接收联系人个数、白天发送次数、白天接收次数、夜晚发送次数、夜晚接收次数、发送短信平均长度、发送短信长度标准差、发送空白短信比例、接收短信平均长度、接收短信长度标准差、接收空白短信比例与短信行为相关的特征属性;
(b)时间分布特征统计时间窗口内通话的分布情况,首先将一个时间窗口W换分为几个阶段,时间窗口大小设置为一天,即24小时,按照每3小时一个阶段将24小时划分为8各阶段,即W={w1,w2,…,w8},其中wi表示第i个时段的时间范围,统计用户在各个时段的通话次数n,组成8元组(n1,n2,…,n8),其中ni为用户在wi内的通话次数,通话熵按照公式(3)计算:
所述步骤3中,利用移动通信行为分析模型中的通信网络分析提取用户的社交属性特征,具体实施方式如下:
(c)构建信任网络无向图G′=(V′,E′),其中节点集V′表示用户,边集E′表示用户之间的信任情况;如果在通信网络有向图中用户i和用户j之间存在有向边eij和eji,则在信任网络无向图中创建一条无向边e′ij=v′iv′j;
所述步骤3中,构建移动恶意用户识别模型,具体实施方式如下:
利用提取的特征字段组成用户特征表示向量,结合移动恶意用户黑白名单,形成训练集合,利用监督机器学习方法训练移动恶意用户识别模型;利用训练好的移动恶意用户识别模型,对未标注的移动用户进行识别。
本发明的基于通信行为规律的移动恶意用户识别系统,包括:通信数据预处理模块、行为模式分析模块、通信网络分析模块、移动恶意用户识别模块;其中:
通信数据预处理模块,分为数据脱敏子模块、数据采样子模块和数据预处理子模块;数据脱敏子模块负责对原始移动通信数据进行手机号码分段哈希脱敏操作;数据采样子模块负责数据采集工作,提取七元组信息,所述七元组信息包括呼叫类型、主叫号码、被叫号码、起始时间、结束时间、基站信息和短信内容长度;数据预处理子模块负责对七元组数据进行统计基本信息、删除缺失数据和数据格式转换操作;
行为模式分析模块,负责从用户的通话行为、短信行为和时间分布三个角度分析用户的行为模式,提取相应的特征参数;
通信网络分析模块,负责从用户的通信网络分析用户的社交属性,提取相应的特征参数;
移动恶意用户识别模块,分为训练子模块和识别子模块,其中,训练子模块利用已知类别用户的特征表示向量,结合机器学习分类算法,训练移动恶意用户识别模型;识别子模块利用训练好的识别模型对未知类别的用户进行判定,识别移动恶意用户。
本发明与现有技术相比的优点如下:
(1)在降低移动通信流数据规模的同时,有效提升移动恶意用户的召回率;
(2)本发明的方法通过分析移动通信流数据识别移动恶意用户,无需收集用户标注信息,具有良好的时效性;
(3)本发明中的方法不需要使用通话内容或短信内容,不涉及用户隐私;
(4)本发明中的方法分别从通信行为模式和通信网络两个角度分析移动用户的行为规律,更为全面的揭示正常用户与恶意用户之间的差别;
(5)本发明采用非均匀采样方法应在降低数据规模的同时尽可能多的采集移动恶意用户数据;
(6)本发明移动通信行为分析模型中的行为模式分析能有效提取移动用户的行为模式特征,准确描述用户的通话行为习惯和短信行为习惯,以区分正常用户和恶意用户;
(7)本发明移动通信行为分析模型中的通信网络分析能有效提取移动用户的社交属性特征,体现出正常用户和恶意用户在社交状态上的差别。
附图说明
图1为本发明方法的流程图;
图2为本发明系统的实现框图。
具体实施方式
下面结合附图及实施例对本发明进行详细说明。
如图1所示,本发明的一种基于通信行为规律的移动恶意用户识别方法包括如下:
步骤1:在脱敏移动通信流数据中基于非均匀采样方法采集数据,并执行预处理操作。
首先对移动通信流数据执行脱敏操作。由于手机号码段表示不同的含义(2位国家码、3位移动接入码、4位HLR识别码、4位移动用户号,11位手机号码由后三项组成),所以对手机号码采用分段哈希的方法;对于通话记录只保存通话的起始时间和结束时间,对于短信记录只保存短信内容长度。后文涉及的移动通信数据均指经过脱敏处理后的移动通信数据。
非均匀采样方法指针对重点号段、区域范围,根据用户的历史通信行为信息,在时间窗口内对可疑用户的指定移动通信数据字段进行采集的有偏采样方法。时间窗口大小设置为一天,采样字段包括呼叫类型、主叫号码、被叫号码、起始时间、结束时间、基站信息、短信内容长度。采样后的通信数据是包含上述采样字段的七元组,并在后文中称为移动通信采样数据。
所述数据预处理操作包括统计基本信息、删除缺失数据和数据格式转换。统计的基本信息包括通话时长、是否接通、运营商信息和手机号码归属标识。删除由于传输延迟等原因缺失部分字段信息的数据,统一字段数据格式,时间信息字段转换为程序内置时间格式。
步骤2:基于步骤1中预处理后的移动通信采样数据,利用移动通信行为分析模型中的行为模式分析提取用户的通话行为特征、短信行为特征和时间分布特征。
移动通信行为分析模型是利用移动通信采样数据,从用户的行为模式和通信网络两个方面进行数据分析,提取特征参数,构建用户特征表示向量,用以表示用户的移动通信行为规律。上述是移动通信行为分析模型中的行为模式分析,下面是分析模型中的通信网络分析。
行为模式分析分别从用户的通话行为特征、短信行为特征和时间分布特征三个角度分析用户的行为模式习惯。其中通话行为特征包括主叫次数、白天主叫次数(6时至18时)、主叫平均通话时长、被叫平均通话时长等与通话行为相关的特征属性。短信行为包括短信发送次数、短信接收次数发送短信平均长度、发送空白短信比例等与短信行为相关的特征属性。时间分布是以三小时为间隔将一天(一个时间窗口)划分为8个时间段,统计每个时间段的通话次数,构建通话分布信息,计算信息熵。
步骤3:基于步骤1中预处理后的移动通信采样数据,利用移动通信行为分析模型中的通信网络分析提取用户的社交属性特征。
基于移动通信行为分析模型中的通信网络分析是通过构建通信网络有向图和信任网络无向图,分析图结构信息提取用户的社交属性特征。通信网络有向图表示用户的通信情况,其中节点表示用户,有向边表示用户之间的通信关系,统计节点出入度信息,节点局部聚类系数。信任网络无向图是在通信网络有向图的基础上保留双向边连接的节点,将双向边连接替换为无向边,表示用户之间的信任关系,统计节点度信息,节点局部聚类系数。
步骤4:基于步骤2中提取的用户行为模式特征和步骤3中提取的用户社交属性特征,构建移动恶意用户识别模型。
基于移动通信行为分析模型提取的用户的行为模式特征和社交属性特征,利用诸如随机森林、支持向量机、XGBoost、深度学习等机器学习方法,在包含正常用户和恶意用户的训练集上构建移动恶意用户识别模型,用于移动恶意用户的识别。
本发明公开的基于通信行为规律的移动恶意用户识别系统主要根据本方法的上述四个步骤部署实施,使用Python语言开发后台程序,使用Java语言开发前台界面,使用MySQL数据库管理系统搭建数据库。
如图2所示,本系统主要由通信数据预处理模块、行为模式分析模块、通信网络分析模块、移动恶意用户识别模块四部分构成。具体描述如下:
(1)通信数据预处理模块。本模块可分为数据脱敏子模块、数据采样子模块和数据预处理子模块。数据脱敏子模块主要负责对原始移动通信数据进行手机号码分段哈希等脱敏操作。数据采样子模块主要负责数据采集工作,提取(呼叫类型、主叫号码、被叫号码、起始时间、结束时间、基站信息、短信内容长度)七元组信息。数据预处理子模块主要负责对七元组数据进行统计基本信息、删除缺失数据和数据格式转换操作;
(2)行为模式分析模块。本模块主要负责从用户的通话行为、短信行为和时间分布三个角度分析用户的行为模式,提取相应的特征参数;
(3)通信网络分析模块。本模块主要负责从用户的通信网络分析用户的社交属性,提取相应的特征参数;
(4)移动恶意用户识别模块。本模块可分为训练子模块和识别子模块。其中,训练子模块利用已知类别用户的特征表示向量,结合机器学习分类算法,训练移动恶意用户识别模型。识别子模块利用训练好的识别模型对未知类别的用户进行判定,识别移动恶意用户。
如发明具体内容相关部分所述,本发明所公开的基于移动通信行为规律的移动恶意用户识别方法共包括4个步骤,流程图如图1所示。接下来具体阐述每一个步骤。
(1)移动通信流数据的脱敏、采样及预处理操作,具体实施方式如下:
a)对于每一个用户的手机号码d1d2d3d4d5d6d7d8d9d10d11d12d13,将其拆分为2位国际区号d1d2、3位移动接入码d3d4d5、4位HLR识别码d6d7d8d9、4位移动用户号d10d11d12d13,对于11位号码在增加2位中国国家区号,补充为13位号码。对移动用户号d=d10d11d12d13进行哈希,哈希函数将一个实数映射为另一个实数,即公式(1)所示:
其中C1和C2均为参数。
b)针对采样范围Ψ和时间窗口W内的脱敏移动通信数据,采集通信数据集M={m1,m2,…,mN},满足mi∈Ψ和mi∈W,其中mi为7元组,c表示呼叫类型,s表示主叫号码、d表示被叫号码、ts表示起始时间、te表示结束时间、b表示基站信息、l表示短信内容长度,i是通信数据的索引编号;
c)预处理操作中,通话时长lc可由式(2)计算:
(2)利用移动通信行为分析模型中的行为模式分析提取用户的通话行为特征、短信行为特征和时间分布特征,具体实施方式如下:
a)提取的通话行为特征如表1所示:
表1通话行为特征字段表
b)提取的短信行为特征如表2所示:
表2短信行为特征字段表
c)时间分布特征统计时间窗口内通话的分布情况。首先将一个时间窗口W换分为几个阶段。本发明时间窗口大小设置为一天,即24小时。按照每3小时一个阶段将24小时划分为8各阶段,即W={w1,w2,…,w8}。统计用户在各个阶段的通话次数n,组成8元组(n1,n2,…,n8),其中ni为用户在wi内的通话次数,通话熵按照公式(3)计算:
(3)利用移动通信行为分析模型中的通信网络分析提取用户的社交属性特征,具体实施方式如下:
c)构建信任网络无向图G′=(V′,E′),其中节点集V′表示用户,边集E′表示用户之间的信任情况。如果在通信网络有向图中用户i和用户j之间存在有向边eij和eji,则在信任网络无向图中创建一条无向边e′ij=v′iv′j;
(4)构建移动恶意用户识别模型,具体实施方式如下:
a)利用上述方法提取的特征字段组成用户特征表示向量,结合移动恶意用户黑白名单,形成训练集合。利用监督机器学习方法(如支持向量机、XGBoost、神经网络等)训练移动恶意用户识别模型;
b)利用训练好的移动恶意用户识别模型,对未标注的移动用户进行识别。
本发明的实例如下:
本发明利用某地区一周的移动通信数据进行实验。实验采用标准的10-Fold交叉验证的方式对本发明的方法进行评估,首先将数据集随机平分为10份,每一轮选取其中9份作为训练集,剩余1份作为测试集,共进行10轮,将10次的平均结果作为最终的实验结果。
本发明选用了四个主流的监督机器学习算法构建移动恶意用户识别模型。
(1)支持向量机(Support Vector Machine,SVM):一种利用监督学习方式对数据进行二分类的广义线性模型,其决策面是对训练样本求解的最大边距超平面;
(2)随机森林(Random Forest):一种包含多个决策树的集成学习方法,其输出的类别由所包含决策树输出的众数确定;
(3)XGBoost:XGBoost是梯度提升树GBDT的改进版本,具有运行效率高、灵活性高的特点;
(4)神经网络(Deep Neural Network,DNN):实验中构建了一个包含四个隐含层的神经网络,隐含层神经元的个数分别为64,128,128,64,非线性激活函数采用Relu函数,输出层采用Sigmoid函数将结果固定到0和1之间,同时采用Dropout层,提升网络结构的泛化能力。模型的损失函数采用交叉熵损失函数,使用随机梯度下降算法最小化损失函数。预测阈值设定为0.5,输出大于0.5的样本认定为移动恶意用户,小于0.5的样本认定为移动正常用户。
详细结果如下表所示。
(1)非均匀采样对比实验:在移动通信数据中分别进行随机采样和非均匀采样。随机采样是等可能的对数据中的移动通信用户进行采样,非均匀采样是依据用户的历史通信行为习惯对移动通信用户进行采样,实验分别使用两种采样方法采集固定规模的移动通信用户,观察移动通信用户分布,结果如表3所示。根据实验结果可以看出,非均匀采样方法和随机采样方法在采样规模相同的情况下,本发明采用的非均匀采样方法可有效提升移动恶意用户的召回率。
表3采样结果对比表
移动正常用户 | 移动恶意用户 | 总计 | |
随机采样 | 34533 | 467 | 35000 |
非均匀采样 | 31711 | 3289 | 35000 |
(2)移动恶意用户识别实验:针对非均匀采样得到的35000名移动通信用户,利用本发明中的方法处理后构成用户特征表示向量,使用上述四种主流的监督机器学习方法构建移动恶意用户识别模型,观察移动恶意用户识别的精确率、召回率和F1值,结果如下表所示。根据实验结果看出,在上述四种不同的机器学习算法下本发明均能够有效识别移动恶意用户。
表格4移动恶意用户识别结果
精确率 | 召回率 | F1值 | |
SVM | 0.8908 | 0.8726 | 0.8816 |
RandomForest | 0.8613 | 0.9212 | 0.8902 |
XGBoost | 0.8773 | 0.9389 | 0.9071 |
DNN | 0.8738 | 0.9147 | 0.8938 |
总之,本发明能够基于脱敏数据对用户的行为规律进行分析,识别用户是否为移动恶意用户,具有良好的时效性,并且在不涉及用户个人隐私的情况下,能够以高准确度识别移动恶意用户。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。
Claims (6)
1.一种基于通信行为规律的移动恶意用户识别方法,其特征在于,包括以下步骤:
步骤1:在脱敏移动通信流数据中基于非均匀采样方法采集数据,并执行预处理操作;
所述脱敏移动通信流数据是指对移动通信流数据执行脱敏操作后的数据,即对手机号码采用分段哈希的方法;对于通话记录只保存通话的起始时间和结束时间,对于短信记录只保存短信内容长度;所述非均匀采样方法指针对重点号段和区域范围,根据用户的历史通信行为信息,在时间窗口内对可疑用户的指定移动通信数据字段进行采集的有偏采样方法;采样字段包括呼叫类型、主叫号码、被叫号码、起始时间、结束时间、基站信息和短信内容长度;采样后的通信数据是包含所述采样字段的七元组,称为移动通信采样数据;所述数据预处理操作包括统计基本信息、删除缺失数据和数据格式转换;统计的基本信息包括通话时长、是否接通、运营商信息和手机号码归属标识;删除由于传输延迟原因缺失部分字段信息的数据,统一字段数据格式,时间信息字段转换为程序内置时间格式;
步骤2:基于步骤1中预处理后的移动通信采样数据,利用移动通信行为分析模型中的行为模式分析提取用户的通话行为特征、短信行为特征和时间分布特征;
所述移动通信行为分析模型是利用移动通信采样数据,从用户的行为模式和通信网络两个方面进行数据分析,提取特征参数,构建用户特征表示向量,用以表示用户的移动通信行为规律;所述行为模式分析分别从用户的通话行为特征、短信行为特征和时间分布特征三个角度分析用户的行为模式习惯;
步骤3:基于步骤1中预处理后的移动通信采样数据,利用移动通信行为分析模型中的通信网络分析提取用户的社交属性特征;
所述基于移动通信行为分析模型中的通信网络分析是通过构建通信网络有向图和信任网络无向图,分析图结构信息提取用户的社交属性特征;通信网络有向图表示用户的通信情况,其中节点表示用户,有向边表示用户之间的通信关系,统计节点出入度信息,节点局部聚类系数,信任网络无向图是在通信网络有向图的基础上保留双向边连接的节点,将双向边连接替换为无向边,表示用户之间的信任关系,统计节点度信息,节点局部聚类系数;
步骤4:基于步骤2中提取的用户行为模式特征和步骤3中提取的用户社交属性特征,构建移动恶意用户识别模型;
所述基于移动通信行为分析模型提取的用户的行为模式特征和社交属性特征,利用机器学习方法,在包含正常用户和恶意用户的训练集上构建移动恶意用户识别模型,用于移动恶意用户的识别。
2.根据权利要求1所述的一种基于通信行为规律的移动恶意用户识别方法,其特征在于:所述步骤1具体实施如下:
(a)脱敏:对于每一个用户的手机号码d1d2d3d4d5d6d7d8d9d10d11d12d13,将其拆分为2位国际区号d1d2、3位移动接入码d3d4d5、4位HLR识别码d6d7d8d9、4位移动用户号d10d11d12d13,对于11位号码在增加2位中国国家区号,补充为13位号码,对移动用户号d=d10d11d12d13进行哈希,哈希函数将一个实数映射为另一个实数,即公式(1)所示:
其中C1和C2均为哈希参数;
(b)采样:针对采样范围Ψ和时间窗口W内的脱敏移动通信数据,采集通信数据集M={m1,m2,…,mN},满足mi∈Ψ和mi∈W,其中mi为7元组,c表示呼叫类型,s表示主叫号码、d表示被叫号码、ts表示起始时间、te表示结束时间、b表示基站信息、l表示短信内容长度,i是通信数据的索引编号;
(c)预处理:预处理操作中,通话时长lc由式(2)计算:
3.根据权利要求1所述的一种基于通信行为规律的移动恶意用户识别方法,其特征在于:所述步骤2中具体实现为:
(a)通话行为特征包括主叫次数、被叫次数、主叫联系人个数、被叫联系人个数、白天主叫联系人个数、白天被叫联系人个数、白天主叫次数、白天被叫次数、夜晚主叫次数、夜晚被叫次数、主叫接通比例、主叫平均通话时长、主叫通话时长标准差、被叫接通比例、被叫平均通话时长、被叫通话时长标准差、涉及基站个数与通话行为相关的特征属性;短信行为特征包括短信发送次数、短信接收次数、发送联系人个数、接收联系人个数、白天发送联系人个数、白天接收联系人个数、白天发送次数、白天接收次数、夜晚发送次数、夜晚接收次数、发送短信平均长度、发送短信长度标准差、发送空白短信比例、接收短信平均长度、接收短信长度标准差、接收空白短信比例与短信行为相关的特征属性;
(b)时间分布特征统计时间窗口内通话的分布情况,首先将一个时间窗口W换分为几个阶段,时间窗口大小设置为一天,即24小时,按照每3小时一个阶段将24小时划分为8各阶段,即W={w1,w2,…,w8},其中wi表示第i个时段的时间范围,统计用户在各个时段的通话次数n,组成8元组(n1,n2,…,n8),其中ni为用户在wi内的通话次数,通话熵按照公式(3)计算:
4.根据权利要求1所述的一种基于通信行为规律的移动恶意用户识别方法,其特征在于:所述步骤3中,利用移动通信行为分析模型中的通信网络分析提取用户的社交属性特征,具体实施方式如下:
(c)构建信任网络无向图G'=(V',E′),其中节点集V'表示用户,边集E'表示用户之间的信任情况;如果在通信网络有向图中用户i和用户j之间存在有向边eij和eji,则在信任网络无向图中创建一条无向边e'ij=v'iv′j;
5.根据权利要求1所述的一种基于通信行为规律的移动恶意用户识别方法,其特征在于:所述步骤3中,构建移动恶意用户识别模型,具体实施方式如下:
利用提取的特征字段组成用户特征表示向量,结合移动恶意用户黑白名单,形成训练集合,利用监督机器学习方法训练移动恶意用户识别模型;利用训练好的移动恶意用户识别模型,对未标注的移动用户进行识别。
6.一种如权利要求1-5任意之一所述基于通信行为规律的移动恶意用户识别方法的识别系统,其特征在于,包括:通信数据预处理模块、行为模式分析模块、通信网络分析模块、移动恶意用户识别模块;其中:
通信数据预处理模块,分为数据脱敏子模块、数据采样子模块和数据预处理子模块;数据脱敏子模块负责对原始移动通信数据进行手机号码分段哈希脱敏操作;数据采样子模块负责数据采集工作,提取七元组信息,所述七元组信息包括呼叫类型、主叫号码、被叫号码、起始时间、结束时间、基站信息和短信内容长度;数据预处理子模块负责对七元组数据进行统计基本信息、删除缺失数据和数据格式转换操作;
行为模式分析模块,负责从用户的通话行为、短信行为和时间分布三个角度分析用户的行为模式,提取相应的特征参数;
通信网络分析模块,负责从用户的通信网络分析用户的社交属性,提取相应的特征参数;
移动恶意用户识别模块,分为训练子模块和识别子模块,其中,训练子模块利用已知类别用户的特征表示向量,结合机器学习分类算法,训练移动恶意用户识别模型;识别子模块利用训练好的识别模型对未知类别的用户进行判定,识别移动恶意用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010164721.1A CN111405562B (zh) | 2020-03-11 | 2020-03-11 | 一种基于通信行为规律的移动恶意用户识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010164721.1A CN111405562B (zh) | 2020-03-11 | 2020-03-11 | 一种基于通信行为规律的移动恶意用户识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111405562A true CN111405562A (zh) | 2020-07-10 |
CN111405562B CN111405562B (zh) | 2021-05-28 |
Family
ID=71436195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010164721.1A Expired - Fee Related CN111405562B (zh) | 2020-03-11 | 2020-03-11 | 一种基于通信行为规律的移动恶意用户识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111405562B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112000982A (zh) * | 2020-07-31 | 2020-11-27 | 青岛海尔科技有限公司 | 用于用户应用数据处理的方法及装置 |
CN112101046A (zh) * | 2020-11-02 | 2020-12-18 | 北京淇瑀信息科技有限公司 | 一种基于通话行为的会话分析方法、装置和系统 |
CN113283586A (zh) * | 2021-05-26 | 2021-08-20 | 桂林电子科技大学 | 一种基于决策机和特征选择的快速入侵检测方法 |
CN113987309A (zh) * | 2021-12-29 | 2022-01-28 | 深圳红途科技有限公司 | 个人隐私数据识别方法、装置、计算机设备及存储介质 |
CN114064440A (zh) * | 2022-01-18 | 2022-02-18 | 恒生电子股份有限公司 | 可信度分析模型的训练方法、可信度分析方法及相关装置 |
CN114466314A (zh) * | 2022-01-29 | 2022-05-10 | 重庆华唐云树科技有限公司 | 一种基于基站定位的固定人群手机号筛查方法 |
CN114979975A (zh) * | 2022-05-07 | 2022-08-30 | 深圳市灵镜技术有限公司 | 一种基于大数据的集群对讲准入方法及系统 |
CN115086270A (zh) * | 2022-07-28 | 2022-09-20 | 深圳市爱聊科技有限公司 | 用户社交的互动方法、平台、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102833240A (zh) * | 2012-08-17 | 2012-12-19 | 中国科学院信息工程研究所 | 一种恶意代码捕获方法及系统 |
US20140082355A1 (en) * | 2004-12-03 | 2014-03-20 | Fortinet, Inc. | Secure system for allowing the execution of authorized computer program code |
CN105723402A (zh) * | 2013-10-25 | 2016-06-29 | 西斯摩斯公司 | 用于确定社交数据网络中的影响者的系统和方法 |
CN106557984A (zh) * | 2016-11-18 | 2017-04-05 | 中国联合网络通信集团有限公司 | 一种社交群体的确定方法及装置 |
US9960956B1 (en) * | 2014-10-15 | 2018-05-01 | The United States Of America, As Represented By The Secretary Of The Navy | Network monitoring method using phantom nodes |
CN110611929A (zh) * | 2018-06-15 | 2019-12-24 | 中国移动通信集团有限公司 | 异常用户识别方法及装置 |
CN110678239A (zh) * | 2017-10-10 | 2020-01-10 | 谷歌有限责任公司 | 利用游戏元数据和量度的分布式基于样本的游戏剖析以及支持第三方内容的游戏api平台 |
-
2020
- 2020-03-11 CN CN202010164721.1A patent/CN111405562B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140082355A1 (en) * | 2004-12-03 | 2014-03-20 | Fortinet, Inc. | Secure system for allowing the execution of authorized computer program code |
CN102833240A (zh) * | 2012-08-17 | 2012-12-19 | 中国科学院信息工程研究所 | 一种恶意代码捕获方法及系统 |
CN105723402A (zh) * | 2013-10-25 | 2016-06-29 | 西斯摩斯公司 | 用于确定社交数据网络中的影响者的系统和方法 |
US9960956B1 (en) * | 2014-10-15 | 2018-05-01 | The United States Of America, As Represented By The Secretary Of The Navy | Network monitoring method using phantom nodes |
CN106557984A (zh) * | 2016-11-18 | 2017-04-05 | 中国联合网络通信集团有限公司 | 一种社交群体的确定方法及装置 |
CN110678239A (zh) * | 2017-10-10 | 2020-01-10 | 谷歌有限责任公司 | 利用游戏元数据和量度的分布式基于样本的游戏剖析以及支持第三方内容的游戏api平台 |
CN110611929A (zh) * | 2018-06-15 | 2019-12-24 | 中国移动通信集团有限公司 | 异常用户识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
夏崇欢: "《 基于行为特征分析的微博恶意用户识别》", 《计算机科学》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112000982A (zh) * | 2020-07-31 | 2020-11-27 | 青岛海尔科技有限公司 | 用于用户应用数据处理的方法及装置 |
CN112101046B (zh) * | 2020-11-02 | 2022-04-29 | 北京淇瑀信息科技有限公司 | 一种基于通话行为的会话分析方法、装置和系统 |
CN112101046A (zh) * | 2020-11-02 | 2020-12-18 | 北京淇瑀信息科技有限公司 | 一种基于通话行为的会话分析方法、装置和系统 |
CN113283586A (zh) * | 2021-05-26 | 2021-08-20 | 桂林电子科技大学 | 一种基于决策机和特征选择的快速入侵检测方法 |
CN113283586B (zh) * | 2021-05-26 | 2022-05-13 | 桂林电子科技大学 | 一种基于决策机和特征选择的快速入侵检测方法 |
CN113987309A (zh) * | 2021-12-29 | 2022-01-28 | 深圳红途科技有限公司 | 个人隐私数据识别方法、装置、计算机设备及存储介质 |
CN113987309B (zh) * | 2021-12-29 | 2022-03-11 | 深圳红途科技有限公司 | 个人隐私数据识别方法、装置、计算机设备及存储介质 |
CN114064440A (zh) * | 2022-01-18 | 2022-02-18 | 恒生电子股份有限公司 | 可信度分析模型的训练方法、可信度分析方法及相关装置 |
CN114466314A (zh) * | 2022-01-29 | 2022-05-10 | 重庆华唐云树科技有限公司 | 一种基于基站定位的固定人群手机号筛查方法 |
CN114466314B (zh) * | 2022-01-29 | 2024-04-02 | 重庆华唐云树科技有限公司 | 一种基于基站定位的固定人群手机号筛查方法 |
CN114979975A (zh) * | 2022-05-07 | 2022-08-30 | 深圳市灵镜技术有限公司 | 一种基于大数据的集群对讲准入方法及系统 |
CN114979975B (zh) * | 2022-05-07 | 2023-09-19 | 深圳市灵镜技术有限公司 | 一种基于大数据的集群对讲准入方法及系统 |
CN115086270A (zh) * | 2022-07-28 | 2022-09-20 | 深圳市爱聊科技有限公司 | 用户社交的互动方法、平台、设备及存储介质 |
CN115086270B (zh) * | 2022-07-28 | 2022-11-18 | 深圳市爱聊科技有限公司 | 用户社交的互动方法、平台、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111405562B (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111405562B (zh) | 一种基于通信行为规律的移动恶意用户识别方法及系统 | |
CN109600752B (zh) | 一种深度聚类诈骗检测的方法和装置 | |
CN107172022B (zh) | 基于入侵途径的apt威胁检测方法和系统 | |
CN111104521B (zh) | 一种基于图分析的反欺诈检测方法及检测系统 | |
CN112053221A (zh) | 一种基于知识图谱的互联网金融团伙欺诈行为检测方法 | |
CN107306306B (zh) | 通信号码处理方法及装置 | |
US9563770B2 (en) | Spammer group extraction apparatus and method | |
CN111274338B (zh) | 一种基于移动大数据的预出境用户识别方法 | |
US20230208875A1 (en) | Method of fraud detection in telecommunication using big data mining techniques | |
CN107092651B (zh) | 一种基于通信网络数据分析的关键人物挖掘方法及系统 | |
CN112053222A (zh) | 一种基于知识图谱的互联网金融团伙欺诈行为检测方法 | |
Hu et al. | BTG: A Bridge to Graph machine learning in telecommunications fraud detection | |
CN112019500B (zh) | 一种基于深度学习的加密流量识别方法及电子装置 | |
Neal et al. | You are not acting like yourself: A study on soft biometric classification, person identification, and mobile device use | |
CN112153221A (zh) | 一种基于社交网络图计算的通信行为识别方法 | |
Li et al. | Activetracker: Uncovering the trajectory of app activities over encrypted internet traffic streams | |
CN105163296A (zh) | 一种多维度的垃圾短信过滤方法及系统 | |
CN111131627B (zh) | 基于流数据图谱的个人有害呼叫检测方法、装置及可读介质 | |
Herrera-Yagüe et al. | Prediction of telephone user attributes based on network neighborhood information | |
CN112509587B (zh) | 移动号码与声纹动态匹配及索引构建方法、装置与设备 | |
CN111930808B (zh) | 一种利用键值匹配模型提高黑名单准确率的方法及系统 | |
CN112464653A (zh) | 一种基于通信短信的实时事件识别和匹配方法 | |
CN112380323A (zh) | 一种基于中文分词识别技术的垃圾信息剔除系统及方法 | |
CN114826735B (zh) | 一种基于异构神经网络技术的VoIP恶意行为检测方法及系统 | |
CN117614845B (zh) | 基于大数据分析的通讯信息处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210528 |
|
CF01 | Termination of patent right due to non-payment of annual fee |