CN111405562A

CN111405562A - 一种基于通信行为规律的移动恶意用户识别方法及系统

Info

Publication number: CN111405562A
Application number: CN202010164721.1A
Authority: CN
Inventors: 云晓春; 张永铮; 李书豪; 周文涛; 成振语
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2020-07-10
Anticipated expiration: 2040-03-11
Also published as: CN111405562B

Abstract

本发明涉及一种基于通信行为规律的移动恶意用户识别方法及系统，步骤为：在脱敏移动通信流数据中基于非均匀采样方法采集数据，并执行预处理操作；基于预处理后的移动通信采样数据，利用移动通信行为分析模型中的行为模式分析提取用户的通话行为特征、短信行为特征和时间分布特征；基于预处理后的移动通信采样数据，利用移动通信行为分析模型中的通信网络分析提取用户的社交属性特征；基于提取的用户行为模式特征和提取的用户社交属性特征，构建移动恶意用户识别模型；本发明能够基于脱敏数据对用户的行为规律进行分析，识别用户是否为移动恶意用户，具有良好的时效性，并且在不涉及用户个人隐私的情况下，能够以高准确度识别移动恶意用户。

Description

一种基于通信行为规律的移动恶意用户识别方法及系统

技术领域

本发明涉及一种基于通信行为规律的移动恶意用户识别方法及系统，属于网络空间安全技术领域。

背景技术

目前，越来越多的非法组织或个人出于不同的目的和利益，利用移动通信设备在移动互联网中进行恶意行为，如电信欺诈、垃圾短信，由此造成的移动互联网安全事件层出不穷，对我国移动通信用户的个人生命财产安全和社会的稳定发展造成极大的威胁。360互联网安全中心发布的《2017年中国手机安全状况报告》显示，2017年，360手机卫士共为全国用户拦截各类骚扰电话号码380.9亿次，各类垃圾短信约98.5亿条，及时有效的识别从事电信欺诈等恶意行为的移动恶意用户对于保障我国国民的生命财产安全和维护社会稳定具有重要的研究意义和现实价值。

目前针对移动恶意用户识别的解决方案主要是基于人工标注的黑名单识别技术。厂商通过收集移动用户对手机号码的标注信息构建移动恶意用户黑名单，查询时通过手机号码在黑名单中进行匹配，如果命中则返回用户标注信息，否则认定为正常用户。目前使用率比较高的手机认证平台，如百度号码认证平台、360号码认证平台、搜狗号码通，均采用这种黑名单技术。同时，还有一些移动恶意用户识别方法基于通话内容或短信内容，主要代表工作有Rafique等人在2012年IWCMC会议上提出的方法。

移动通信网络也可看作是一种社交网络，目前社交网络异常用户识别的相关研究主要面向社交类应用，如Facebook(脸书)、Twitter(推特)和新浪微博等，主要方法是通过数据分析提取用户特征，构建用户特征表示向量，利用分类或聚类算法区分正常用户和异常用户。主要代表工作有Chu等人在2010年ACSAC会议21-30页提出的分类方法、Li等人在2017年QRS-C会议267-270页提出的方法等。

各大厂商的手机号码认证平台需要收集用户的手机号码标注信息，这种基于人工标注的黑名单识别技术的识别精度随着收集信息的增加而提升，不可避免的存在滞后性的问题。同时，由于用户缺少专业的领域知识，以及可能存在的误标、恶意标注等情况，导致识别准确度较差。

现有的社交网络异常用户识别的相关研究工作主要是基于社交类应用数据，虽然移动通信网络也可看作是一种社交网络，但由于提供服务的不同，社交网络异常用户识别中常用的特征字段(转发数、评论数、粉丝数、评论内容等)在移动通信网络中并不存在，导致传统的社交网络异常用户识别方法并不能直接应用于移动通信网络中。

基于通信内容的恶意用户识别技术需要获取用户的通话内容和短信内容，涉及用户隐私，对用户的个人隐私保护造成困扰。

发明内容

本发明技术解决问题：针对现有移动恶意用户识别解决方案存在滞后性以及传统社交网络异常用户识别方法无法直接使用的问题，提供一种基于通信行为规律的移动恶意用户识别方法及系统，能够基于脱敏数据对用户的行为规律进行分析，识别用户是否为移动恶意用户，具有良好的时效性，并且在不涉及用户个人隐私的情况下，能够以高准确度识别移动恶意用户。

本发明技术解决方案：一种基于通信行为规律的移动恶意用户识别方法，包括以下步骤：

步骤1：在脱敏移动通信流数据中基于非均匀采样方法采集数据，并执行预处理操作；

所述脱敏移动通信流数据是指对移动通信流数据执行脱敏操作后的数据，即对手机号码采用分段哈希的方法；对于通话记录只保存通话的起始时间和结束时间，对于短信记录只保存短信内容长度；所述非均匀采样方法指针对重点号段和区域范围，根据用户的历史通信行为信息，在时间窗口内对可疑用户的指定移动通信数据字段进行采集的有偏采样方法；采样字段包括呼叫类型、主叫号码、被叫号码、起始时间、结束时间、基站信息和短信内容长度；采样后的通信数据是包含所述采样字段的七元组，称为移动通信采样数据；所述数据预处理操作包括统计基本信息、删除缺失数据和数据格式转换；统计的基本信息包括通话时长、是否接通、运营商信息和手机号码归属标识；删除由于传输延迟原因缺失部分字段信息的数据，统一字段数据格式，时间信息字段转换为程序内置时间格式；

步骤2：基于步骤1中预处理后的移动通信采样数据，利用移动通信行为分析模型中的行为模式分析提取用户的通话行为特征、短信行为特征和时间分布特征；

所述移动通信行为分析模型是利用移动通信采样数据，从用户的行为模式和通信网络两个方面进行数据分析，提取特征参数，构建用户特征表示向量，用以表示用户的移动通信行为规律；所述行为模式分析分别从用户的通话行为特征、短信行为特征和时间分布特征三个角度分析用户的行为模式习惯；

步骤3：基于步骤1中预处理后的移动通信采样数据，利用移动通信行为分析模型中的通信网络分析提取用户的社交属性特征；

所述基于移动通信行为分析模型中的通信网络分析是通过构建通信网络有向图和信任网络无向图，分析图结构信息提取用户的社交属性特征；通信网络有向图表示用户的通信情况，其中节点表示用户，有向边表示用户之间的通信关系，统计节点出入度信息，节点局部聚类系数，信任网络无向图是在通信网络有向图的基础上保留双向边连接的节点，将双向边连接替换为无向边，表示用户之间的信任关系，统计节点度信息，节点局部聚类系数；

步骤4：基于步骤2中提取的用户行为模式特征和步骤3中提取的用户社交属性特征，构建移动恶意用户识别模型；

所述基于移动通信行为分析模型提取的用户的行为模式特征和社交属性特征，利用机器学习方法，在包含正常用户和恶意用户的训练集上构建移动恶意用户识别模型，用于移动恶意用户的识别。

所述步骤1具体实施如下：

(a)脱敏：对于每一个用户的手机号码d₁d₂d₃d₄d₅d₆d₇d₈d₉d₁₀d₁₁d₁₂d₁₃，将其拆分为2位国际区号d₁d₂、3位移动接入码d₃d₄d₅、4位HLR识别码d₆d₇d₈d₉、4位移动用户号d₁₀d₁₁d₁₂d₁₃，对于11位号码在增加2位中国国家区号，补充为13位号码,对移动用户号d＝d₁₀d₁₁d₁₂d₁₃进行哈希，哈希函数

将一个实数映射为另一个实数，即公式(1)所示：

其中C₁和C₂均为哈希参数,取值范围分别是10<C₁<100和100000<C₂<1000000；

(b)采样：针对采样范围Ψ和时间窗口W内的脱敏移动通信数据，采集通信数据集M＝{m₁,m₂,…,m_N}，满足m_i∈Ψ和m_i∈W，其中m_i为

7元组，c表示呼叫类型，s表示主叫号码、d表示被叫号码、t_s表示起始时间、t_e表示结束时间、b表示基站信息、l表示短信内容长度,i是通信数据的索引编号；

(c)预处理：预处理操作中，通话时长lc由式(2)计算：

是否接通通过结束时间

是否为空判断，运营商信息、手机号码归属标识由相应手机号码段确定。

所述步骤2中具体实现为：

(a)通话行为特征包括主叫次数、被叫次数、主叫联系人个数、被叫联系人个数、白天主叫联系人个数、白天被叫联系人个数、白天主叫次数、白天被叫次数、夜晚主叫次数、夜晚被叫次数、主叫接通比例、主叫平均通话时长、主叫通话时长标准差、被叫接通比例、被叫平均通话时长、被叫通话时长标准差、涉及基站个数与通话行为相关的特征属性；短信行为特征包括短信发送次数、短信接收次数、发送联系人个数、接收联系人个数、白天发送联系人个数、白天接收联系人个数、白天发送次数、白天接收次数、夜晚发送次数、夜晚接收次数、发送短信平均长度、发送短信长度标准差、发送空白短信比例、接收短信平均长度、接收短信长度标准差、接收空白短信比例与短信行为相关的特征属性；

(b)时间分布特征统计时间窗口内通话的分布情况,首先将一个时间窗口W换分为几个阶段,时间窗口大小设置为一天，即24小时,按照每3小时一个阶段将24小时划分为8各阶段，即W＝{w₁,w₂,…,w₈}，其中w_i表示第i个时段的时间范围，统计用户在各个时段的通话次数n，组成8元组(n₁,n₂,…,n₈)，其中n_i为用户在w_i内的通话次数，通话熵按照公式(3)计算：

所述步骤3中，利用移动通信行为分析模型中的通信网络分析提取用户的社交属性特征，具体实施方式如下：

(a)构建通信网络有向图G＝(V,E)，其中节点集V表示用户，边集E表示用户之间的通信情况，如果存在一条用户i到用户j的通话记录或短信记录，则相应的创建一条从节点v_i到v_j的有向边

(b)统计节点v_i的出度

和入度

节点v_i的度

节点v_i的局部聚类系数计算公式如下：

其中v_i、v_k、v_j表示节点，neighbor(v_i)表示节点v_i的邻居节点，e_kj表示节点v_k指向节点v_j的边，

表示节点v_i的度，

表示节点v_i的局部聚类系数；

(c)构建信任网络无向图G′＝(V′,E′)，其中节点集V′表示用户，边集E′表示用户之间的信任情况；如果在通信网络有向图中用户i和用户j之间存在有向边e_ij和e_ji，则在信任网络无向图中创建一条无向边e′_ij＝v′_iv′_j；

(d)统计节点v′_i的度

节点v′_i的局部聚类系数计算公式如下：

其中v′_i、v′_k、v′_j表示节点，neighbor(v′_i)表示节点v′_i的邻居节点，e′_kj表示节点，v′_k和节点v′_j之间的无向边，

表示节点v′_i的度，

表示节点v′_i的局部聚类系数。

所述步骤3中，构建移动恶意用户识别模型，具体实施方式如下：

利用提取的特征字段组成用户特征表示向量，结合移动恶意用户黑白名单，形成训练集合，利用监督机器学习方法训练移动恶意用户识别模型；利用训练好的移动恶意用户识别模型，对未标注的移动用户进行识别。

本发明的基于通信行为规律的移动恶意用户识别系统，包括：通信数据预处理模块、行为模式分析模块、通信网络分析模块、移动恶意用户识别模块；其中：

通信数据预处理模块，分为数据脱敏子模块、数据采样子模块和数据预处理子模块；数据脱敏子模块负责对原始移动通信数据进行手机号码分段哈希脱敏操作；数据采样子模块负责数据采集工作，提取七元组信息，所述七元组信息包括呼叫类型、主叫号码、被叫号码、起始时间、结束时间、基站信息和短信内容长度；数据预处理子模块负责对七元组数据进行统计基本信息、删除缺失数据和数据格式转换操作；

行为模式分析模块，负责从用户的通话行为、短信行为和时间分布三个角度分析用户的行为模式，提取相应的特征参数；

通信网络分析模块，负责从用户的通信网络分析用户的社交属性，提取相应的特征参数；

移动恶意用户识别模块，分为训练子模块和识别子模块，其中，训练子模块利用已知类别用户的特征表示向量，结合机器学习分类算法，训练移动恶意用户识别模型；识别子模块利用训练好的识别模型对未知类别的用户进行判定，识别移动恶意用户。

本发明与现有技术相比的优点如下：

(1)在降低移动通信流数据规模的同时，有效提升移动恶意用户的召回率；

(2)本发明的方法通过分析移动通信流数据识别移动恶意用户，无需收集用户标注信息，具有良好的时效性；

(3)本发明中的方法不需要使用通话内容或短信内容，不涉及用户隐私；

(4)本发明中的方法分别从通信行为模式和通信网络两个角度分析移动用户的行为规律，更为全面的揭示正常用户与恶意用户之间的差别；

(5)本发明采用非均匀采样方法应在降低数据规模的同时尽可能多的采集移动恶意用户数据；

(6)本发明移动通信行为分析模型中的行为模式分析能有效提取移动用户的行为模式特征，准确描述用户的通话行为习惯和短信行为习惯，以区分正常用户和恶意用户；

(7)本发明移动通信行为分析模型中的通信网络分析能有效提取移动用户的社交属性特征，体现出正常用户和恶意用户在社交状态上的差别。

附图说明

图1为本发明方法的流程图；

图2为本发明系统的实现框图。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

如图1所示，本发明的一种基于通信行为规律的移动恶意用户识别方法包括如下：

步骤1：在脱敏移动通信流数据中基于非均匀采样方法采集数据，并执行预处理操作。

首先对移动通信流数据执行脱敏操作。由于手机号码段表示不同的含义(2位国家码、3位移动接入码、4位HLR识别码、4位移动用户号，11位手机号码由后三项组成)，所以对手机号码采用分段哈希的方法；对于通话记录只保存通话的起始时间和结束时间，对于短信记录只保存短信内容长度。后文涉及的移动通信数据均指经过脱敏处理后的移动通信数据。

非均匀采样方法指针对重点号段、区域范围，根据用户的历史通信行为信息，在时间窗口内对可疑用户的指定移动通信数据字段进行采集的有偏采样方法。时间窗口大小设置为一天，采样字段包括呼叫类型、主叫号码、被叫号码、起始时间、结束时间、基站信息、短信内容长度。采样后的通信数据是包含上述采样字段的七元组，并在后文中称为移动通信采样数据。

所述数据预处理操作包括统计基本信息、删除缺失数据和数据格式转换。统计的基本信息包括通话时长、是否接通、运营商信息和手机号码归属标识。删除由于传输延迟等原因缺失部分字段信息的数据，统一字段数据格式，时间信息字段转换为程序内置时间格式。

步骤2：基于步骤1中预处理后的移动通信采样数据，利用移动通信行为分析模型中的行为模式分析提取用户的通话行为特征、短信行为特征和时间分布特征。

移动通信行为分析模型是利用移动通信采样数据，从用户的行为模式和通信网络两个方面进行数据分析，提取特征参数，构建用户特征表示向量，用以表示用户的移动通信行为规律。上述是移动通信行为分析模型中的行为模式分析，下面是分析模型中的通信网络分析。

行为模式分析分别从用户的通话行为特征、短信行为特征和时间分布特征三个角度分析用户的行为模式习惯。其中通话行为特征包括主叫次数、白天主叫次数(6时至18时)、主叫平均通话时长、被叫平均通话时长等与通话行为相关的特征属性。短信行为包括短信发送次数、短信接收次数发送短信平均长度、发送空白短信比例等与短信行为相关的特征属性。时间分布是以三小时为间隔将一天(一个时间窗口)划分为8个时间段，统计每个时间段的通话次数，构建通话分布信息，计算信息熵。

步骤3：基于步骤1中预处理后的移动通信采样数据，利用移动通信行为分析模型中的通信网络分析提取用户的社交属性特征。

基于移动通信行为分析模型中的通信网络分析是通过构建通信网络有向图和信任网络无向图，分析图结构信息提取用户的社交属性特征。通信网络有向图表示用户的通信情况，其中节点表示用户，有向边表示用户之间的通信关系，统计节点出入度信息，节点局部聚类系数。信任网络无向图是在通信网络有向图的基础上保留双向边连接的节点，将双向边连接替换为无向边，表示用户之间的信任关系，统计节点度信息，节点局部聚类系数。

步骤4：基于步骤2中提取的用户行为模式特征和步骤3中提取的用户社交属性特征，构建移动恶意用户识别模型。

基于移动通信行为分析模型提取的用户的行为模式特征和社交属性特征，利用诸如随机森林、支持向量机、XGBoost、深度学习等机器学习方法，在包含正常用户和恶意用户的训练集上构建移动恶意用户识别模型，用于移动恶意用户的识别。

本发明公开的基于通信行为规律的移动恶意用户识别系统主要根据本方法的上述四个步骤部署实施，使用Python语言开发后台程序，使用Java语言开发前台界面，使用MySQL数据库管理系统搭建数据库。

如图2所示，本系统主要由通信数据预处理模块、行为模式分析模块、通信网络分析模块、移动恶意用户识别模块四部分构成。具体描述如下：

(1)通信数据预处理模块。本模块可分为数据脱敏子模块、数据采样子模块和数据预处理子模块。数据脱敏子模块主要负责对原始移动通信数据进行手机号码分段哈希等脱敏操作。数据采样子模块主要负责数据采集工作，提取(呼叫类型、主叫号码、被叫号码、起始时间、结束时间、基站信息、短信内容长度)七元组信息。数据预处理子模块主要负责对七元组数据进行统计基本信息、删除缺失数据和数据格式转换操作；

(2)行为模式分析模块。本模块主要负责从用户的通话行为、短信行为和时间分布三个角度分析用户的行为模式，提取相应的特征参数；

(3)通信网络分析模块。本模块主要负责从用户的通信网络分析用户的社交属性，提取相应的特征参数；

(4)移动恶意用户识别模块。本模块可分为训练子模块和识别子模块。其中，训练子模块利用已知类别用户的特征表示向量，结合机器学习分类算法，训练移动恶意用户识别模型。识别子模块利用训练好的识别模型对未知类别的用户进行判定，识别移动恶意用户。

如发明具体内容相关部分所述，本发明所公开的基于移动通信行为规律的移动恶意用户识别方法共包括4个步骤，流程图如图1所示。接下来具体阐述每一个步骤。

(1)移动通信流数据的脱敏、采样及预处理操作，具体实施方式如下：

a)对于每一个用户的手机号码d₁d₂d₃d₄d₅d₆d₇d₈d₉d₁₀d₁₁d₁₂d₁₃，将其拆分为2位国际区号d₁d₂、3位移动接入码d₃d₄d₅、4位HLR识别码d₆d₇d₈d₉、4位移动用户号d₁₀d₁₁d₁₂d₁₃，对于11位号码在增加2位中国国家区号，补充为13位号码。对移动用户号d＝d₁₀d₁₁d₁₂d₁₃进行哈希，哈希函数

将一个实数映射为另一个实数，即公式(1)所示：

其中C₁和C₂均为参数。

b)针对采样范围Ψ和时间窗口W内的脱敏移动通信数据，采集通信数据集M＝{m₁,m₂,…,m_N}，满足m_i∈Ψ和m_i∈W，其中m_i为

c)预处理操作中，通话时长lc可由式(2)计算：

是否接通通过结束时间

是否为空判断，运营商信息、手机号码归属标识可由相应手机号码段确定。

(2)利用移动通信行为分析模型中的行为模式分析提取用户的通话行为特征、短信行为特征和时间分布特征，具体实施方式如下：

a)提取的通话行为特征如表1所示：

表1通话行为特征字段表

b)提取的短信行为特征如表2所示：

表2短信行为特征字段表

c)时间分布特征统计时间窗口内通话的分布情况。首先将一个时间窗口W换分为几个阶段。本发明时间窗口大小设置为一天，即24小时。按照每3小时一个阶段将24小时划分为8各阶段，即W＝{w₁,w₂,…,w₈}。统计用户在各个阶段的通话次数n，组成8元组(n₁,n₂,…,n₈)，其中n_i为用户在w_i内的通话次数，通话熵按照公式(3)计算：

(3)利用移动通信行为分析模型中的通信网络分析提取用户的社交属性特征，具体实施方式如下：

a)构建通信网络有向图G＝(V,E)，其中节点集V表示用户，边集E表示用户之间的通信情况。如果存在一条用户i到用户j的通话记录或短信记录，则相应的创建一条从节点v_i到v_j的有向边

b)统计节点v_i的出度

和入度

节点v_i的度

节点v_i的局部聚类系数计算公式如下：

c)构建信任网络无向图G′＝(V′,E′)，其中节点集V′表示用户，边集E′表示用户之间的信任情况。如果在通信网络有向图中用户i和用户j之间存在有向边e_ij和e_ji，则在信任网络无向图中创建一条无向边e′_ij＝v′_iv′_j；

d)统计节点v′_i的度

节点v′_i的局部聚类系数计算公式如下：

(4)构建移动恶意用户识别模型，具体实施方式如下：

a)利用上述方法提取的特征字段组成用户特征表示向量，结合移动恶意用户黑白名单，形成训练集合。利用监督机器学习方法(如支持向量机、XGBoost、神经网络等)训练移动恶意用户识别模型；

b)利用训练好的移动恶意用户识别模型，对未标注的移动用户进行识别。

本发明的实例如下：

本发明利用某地区一周的移动通信数据进行实验。实验采用标准的10-Fold交叉验证的方式对本发明的方法进行评估，首先将数据集随机平分为10份，每一轮选取其中9份作为训练集，剩余1份作为测试集，共进行10轮，将10次的平均结果作为最终的实验结果。

本发明选用了四个主流的监督机器学习算法构建移动恶意用户识别模型。

(1)支持向量机(Support Vector Machine，SVM)：一种利用监督学习方式对数据进行二分类的广义线性模型，其决策面是对训练样本求解的最大边距超平面；

(2)随机森林(Random Forest)：一种包含多个决策树的集成学习方法，其输出的类别由所包含决策树输出的众数确定；

(3)XGBoost：XGBoost是梯度提升树GBDT的改进版本，具有运行效率高、灵活性高的特点；

(4)神经网络(Deep Neural Network，DNN)：实验中构建了一个包含四个隐含层的神经网络，隐含层神经元的个数分别为64，128，128，64，非线性激活函数采用Relu函数，输出层采用Sigmoid函数将结果固定到0和1之间，同时采用Dropout层，提升网络结构的泛化能力。模型的损失函数采用交叉熵损失函数，使用随机梯度下降算法最小化损失函数。预测阈值设定为0.5，输出大于0.5的样本认定为移动恶意用户，小于0.5的样本认定为移动正常用户。

详细结果如下表所示。

(1)非均匀采样对比实验：在移动通信数据中分别进行随机采样和非均匀采样。随机采样是等可能的对数据中的移动通信用户进行采样，非均匀采样是依据用户的历史通信行为习惯对移动通信用户进行采样，实验分别使用两种采样方法采集固定规模的移动通信用户，观察移动通信用户分布，结果如表3所示。根据实验结果可以看出，非均匀采样方法和随机采样方法在采样规模相同的情况下，本发明采用的非均匀采样方法可有效提升移动恶意用户的召回率。

表3采样结果对比表

	移动正常用户	移动恶意用户	总计
				随机采样	34533	467	35000
非均匀采样	31711	3289	35000

(2)移动恶意用户识别实验：针对非均匀采样得到的35000名移动通信用户，利用本发明中的方法处理后构成用户特征表示向量，使用上述四种主流的监督机器学习方法构建移动恶意用户识别模型，观察移动恶意用户识别的精确率、召回率和F1值，结果如下表所示。根据实验结果看出，在上述四种不同的机器学习算法下本发明均能够有效识别移动恶意用户。

表格4移动恶意用户识别结果

	精确率	召回率	F1值
				SVM	0.8908	0.8726	0.8816
RandomForest	0.8613	0.9212	0.8902
				XGBoost	0.8773	0.9389	0.9071
DNN	0.8738	0.9147	0.8938

总之，本发明能够基于脱敏数据对用户的行为规律进行分析，识别用户是否为移动恶意用户，具有良好的时效性，并且在不涉及用户个人隐私的情况下，能够以高准确度识别移动恶意用户。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于通信行为规律的移动恶意用户识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于通信行为规律的移动恶意用户识别方法，其特征在于：所述步骤1具体实施如下：

(a)脱敏：对于每一个用户的手机号码d₁d₂d₃d₄d₅d₆d₇d₈d₉d₁₀d₁₁d₁₂d₁₃，将其拆分为2位国际区号d₁d₂、3位移动接入码d₃d₄d₅、4位HLR识别码d₆d₇d₈d₉、4位移动用户号d₁₀d₁₁d₁₂d₁₃，对于11位号码在增加2位中国国家区号，补充为13位号码，对移动用户号d＝d₁₀d₁₁d₁₂d₁₃进行哈希，哈希函数

将一个实数映射为另一个实数，即公式(1)所示：

其中C₁和C₂均为哈希参数；

(b)采样：针对采样范围Ψ和时间窗口W内的脱敏移动通信数据，采集通信数据集M＝{m₁，m₂，…，m_N}，满足m_i∈Ψ和m_i∈W，其中m_i为

7元组，c表示呼叫类型，s表示主叫号码、d表示被叫号码、t_s表示起始时间、t_e表示结束时间、b表示基站信息、l表示短信内容长度，i是通信数据的索引编号；

(c)预处理：预处理操作中，通话时长lc由式(2)计算：

是否接通通过结束时间

3.根据权利要求1所述的一种基于通信行为规律的移动恶意用户识别方法，其特征在于：所述步骤2中具体实现为：

(b)时间分布特征统计时间窗口内通话的分布情况，首先将一个时间窗口W换分为几个阶段，时间窗口大小设置为一天，即24小时，按照每3小时一个阶段将24小时划分为8各阶段，即W＝{w₁，w₂，…，w₈}，其中w_i表示第i个时段的时间范围，统计用户在各个时段的通话次数n，组成8元组(n₁，n₂，…，n₈)，其中n_i为用户在w_i内的通话次数，通话熵按照公式(3)计算：