CN112887325B

CN112887325B - 一种基于网络流量的电信网络诈骗犯罪欺诈识别方法

Info

Publication number: CN112887325B
Application number: CN202110192279.8A
Authority: CN
Inventors: 周胜利
Original assignee: Zhejiang Police College
Current assignee: Zhejiang Police College
Priority date: 2021-02-19
Filing date: 2021-02-19
Publication date: 2022-04-01
Anticipated expiration: 2041-02-19
Also published as: CN112887325A

Abstract

本发明公开了一种基于网络流量的电信网络诈骗犯罪欺诈识别方法，分析用户行为特征，通过挖掘用户的显性行为特征与用户与服务器交互的隐性行为特征间的关系，获取频繁项与关联规则，结合随机森林算法监督学习，判断行为序列的被害性。本发明方法主要贡献：采用随机森林算法结合行为特征关联，解决行为稀疏、关系不明确与某些行为无法表达真实意图的问题，达到精确的预测网络行为序列的被害性的目的。

Description

一种基于网络流量的电信网络诈骗犯罪欺诈识别方法

技术领域

本发明属于互联网信息安全技术领域，特别涉及一种基于网络流量的电信网络诈骗犯罪欺诈识别方法。

背景技术

国内外与本方法相关研究主要集中在：1)电信网络诈骗犯罪识别与防控；2)网络流量分析；3)网络行为分析。

1)电信网络诈骗识别与防控

电信网络诈骗犯罪研究领域，国内外学者主要利用数据挖掘、自然语言处理等方法进行电信网络诈骗犯罪特征态势、异常通讯分析模型、语音识别模型等方面研究；以及采用网页相似度分析、基于网页关系检测与网站链接评估的检测方法、恶意域名检测方法与BERT迁移学习方法进行电信网络诈骗平台识别预警研究。以上方法主要针对电信网络诈骗犯罪平台或者诈骗通信进行识别，缺少对电信网络诈骗犯罪被害人网络行为分析预测，且在具体研究方法上存在特征冗余程度较高，识别维度单一等问题。电信网络诈骗防控实战应用领域，Endgame公司开发网络平台实时分析可疑网络活动，为电信网络诈骗案件侦破助力。360公司在“通用算法引擎”与“定制化算法引擎”机制构建上取得重大进展，开发智控·商业反欺诈平台实现黑灰产业链的动态监视。阿里巴巴公司为移动保障安全，开发安全钱盾反诈平台。

2)网络流量分析

对于异常流量检测研究，Zolotukhin等以流量日志分析为基础，提出了一种对攻击Web应用行为的异常检测方法。Yu、Yang等都采用自然语言识别的方法，通过建立相关词库进行分词预处理，最终以神经网络模型进行异常检测。Park等提出了基于二值图变换的卷积自动编码器，对流量数据包进行异常检测。在提取流量的有效数据上，Arzhakov等提出使用蜜罐技术收集用户行为统计信息，并基于统计结果来区分不同种类的流量。THANG等建立了基于密度的噪声应用空间聚类模型来提取流量中的有效数据。在混合模型方面，Zhang等提出采用隐马尔可夫模型、概率分布模型、支持向量机等模型对HTTP请求进行异常检测。

3)网络行为分析

当前在网络行为分析的研究上主要包括网络行为异常行为检测和推荐系统研究。异常行为检测方面，连一峰等采用关联分析与序列挖掘技术，通过比较用户当前行为模式与历史行为模式的相似度判断异常。该方法能够实现对用户异常行为的检测，但缺少应对大规模数据的能力。田新广等针对上述模型的不足，改进了用户行为模式的表示方式，联合采用多个判决门来对用户行为进行判断，并提出IDS异常检测模型。该模型具备更高的检测效能，但存在应用范围有限和检测边界模糊的问题。陈胜等为了解决传统异常行为检测方法难以应对海量数据，及无法及时响应新行为的问题，提出了一种基于深度神经网络，并能够自定义用户行为的检测模型。该模型拥有海量数据检测能力，能够检测未知的异常行为，具有较高精确度与鲁棒性。胡富增等探究用户行为特征及行为模式，采用聚类分析算法，对用户日志数据进行数据挖掘与聚类分析，最终实现行为模型的建立。该方法具有简便的特点，但不足之处在于识别成功率偏低，准确率不足。推荐系统研究方面，SHOUJIN WANG等通过比较其他传统的推荐系统(Recommender Systems,RS)，提出了一种基于会话的推荐系统(Session-based recommender systems,SBRS)模型来分析用户行为，并在此基础上引入了等级分层框架，分析讨论了推荐模型在用户行为分析上的优点与不足。Jiaxi Tang等建立了一种卷积嵌入的Top-N序列推荐模型，采用卷积滤波器进行分析，具有较理想的效果。FeiSun等同样使用卷积神经网络进行建模，提出一种双向编码的序列推荐模型。该模型对用户行为采用双向自注意机制，解决了当下推荐模型中普遍存在的用户动态取向及历史行为问题。Alexandros Karatzoglou等采用了循环神经网络(Recurrent Neural Network,RNN)模型，通过调整等级损失函数来解决特定问题，因此获得了优秀的效果。Wang-Cheng Kang等分析了常用的两种用于顺序动态捕获的方法：马尔科夫链和循环神经网络。为兼顾前者简约的优势和后者在高密度数据集中表现优秀的特性，提出一种基于自我注意的顺序模型。该模型能够捕获长期语义，同时使用关注机制来进行短期预测。

发明内容

针对网络行为分析中特征间关系难以确定、特征选取困难、行为稀疏且行为间关系不确定、行为无法表达真实意图等问题，本发明提出基于网络流量的电信网络诈骗犯罪欺诈识别方法(Victim Identification Method of Telecom Fraud Crime Based onNetwork Traffic，VIM-TFCN)，VIM-TFCN主要包括两个部分：网络行为特征挖掘和网络诈骗被害性分析；本发明通过挖掘显隐性行为间的关联规则，采用随机森林算法判断行为序列的被害性。VIM-TFCN具体实现如下：

(1)用户网络行为特征挖掘

用户在访问网站时存在显性与隐性的行为特征。通过显性与隐性网络行为特征研究，能够提高行为编码的准确性与方法的可靠性。

隐性行为特征主要从流量特征中提取，从时间、数据量以及交互情况的角度分为三类。由于隐性特征无需挖掘其连续数值上的内容，因此将采集到的隐性特征数据进行离散化处理。

显性行为特征是特征抓取HTTP协议数据包中的各字段内容，通过行为分类字典筛选获得，能够准确地反映用户在该网站进行的操作；其中，行为分类字典由抓取各类网站流量中具有行为代表性的字符串组成的数组构成；本发明显性行为特征仅考虑行为是否出现及其所属的网络行为种类，不考虑行为出现的频率与次数，因此采用label_binarize编码方式对显性行为特征进行编码。

(2)网络行为被害性分析

通过对实际的数据分析，可观测到用户访问诈骗网站与访问正常网站的网络行为具有一定的相似性，单一考虑用户单次网络行为的被害风险是片面的。因此，通过挖掘用户的显性行为特征与用户与服务器交互的隐性行为特征间的关系，能实现用户网络行为风险预测，显著增强网络行为同用户行为是否被害的关联性。显隐性行为互相不存在直接映射关系，各自内部也不存在关联性；同时大部分显性特征行为同用户是否被害同样没用直接性的关联。但可以发现许多被害用户行为特征序列Feature中的若干特征指数明显较高的情况下发生了一些不指向电信网络诈骗的显性行为。

步骤一：获取行为频繁项，挖掘行为关联规则。通过初步的实验表明，被害行为序列同非被害行为序列的关联规则具有明显差异。在一个用户行为序列中，单个act行为的出现无法表示该序列具有被害风险，但当该act行为与其它显隐性特征关联关系大量满足从被害行为序列中提取的关联规则时，就可以在一定程度上证明该序列存在被害的风险。

获取频繁项具体为：计算行为支持度S，通过设定阈值生成行为频繁项。

挖掘行为关联规则具体为：频繁项具有关联性，据此计算置信度C与提升度L，将关联规则量化，设定关联规则提升度取值范围，达到排除低被害风险关联规则、提升规则有效性的目的。

关联关系挖掘过程中的支持度、置信度、提升度计算公式如下：

Support(支持度)：表示同时包含A和B的事务占所有事务的比例。如果用P(A)表示使用A事务的比例，那么Support＝P(A&B)；

Confidence(置信度)：表示使用包含A的事务中同时包含B事务的比例，即同时包含A和B的事务占包含A事务的比例。公式表达：Confidence＝P(A&B)/P(A)；

Lift(提升度)：表示“包含A的事务中同时包含B事务的比例”与“包含B事务的比例”的比值。公式表达：Lift＝(P(A&B)/P(A))/P(B)＝P(A&B)/P(A)/P(B)。

频繁项与关联规则的挖掘与量化表示，显著增强行为序列之间各项行为的关联性，其优点在于当行为序列出现某项无法表征用户实际意图的黑名单行为时，该序列不会被直接认为具有被害风险。同样，当行为序列中不存在黑名单行为时，也能判断其被害风险系数。

步骤二：使用关联规则编号与权重表达每一条行为序列的关联规则搭配规律，重构特征序列。原始行为特征序列用于直接表达存在的显隐性行为特征，重构后的特征序列则用于表达该行为序列存在哪些可疑的关联关系。

步骤三：采用随机森林算法对重构后的行为特征序列进行监督式机器学习，实现被害风险判断。重构后的特征序列由原始行为特征序列中存在的关联规则权重较大项组成，且已经标注是否为被害行为序列，这是监督学习的前提条件。算法使用自助法(bootstrap)对该特征序列组成的特征矩阵进行有放回的随机抽样，生成训练集；重复该过程若干次，由若干训练集构成采样集；针对每一个训练集构建决策树；通过不同的决策树组合识别目标行为序列的被害性，综合结果达到提高准确性的目的。

VIM-TFCN通过挖掘网络行为关联规则，排除非意图表达行为，研究网络行为深层关系，判断行为序列被害性，从而达到增加被害性风险分析精确度的目的。

本发明的有益效果为：本方法针对电信网络诈骗犯罪中网络行为特征选取表面化、特征间内在规则挖掘不足、网络行为稀疏、行为序列间关系难以确定等问题，提出基于流量分析的网络行为欺诈识别方法，分析各类网络行为的内在相关性，深度挖掘显隐性网络行为，达到识别网络行为是否具有被害性的目的。通过公安机关被害人网络行为数据分析验证，模型可以有效地进行被害人网络行为分类，识别网络行为是否具有被害性。

附图说明

图1是本发明实施例提供的VIM-TFCN实现流程图；

图2是本发明实施例提供的行为关联规则挖掘示意图；

图3是本发明实施例提供的随机森林算法示意图；

图4是本发明实施例提供的ROC曲线对比图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明实施例提供的一种基于网络流量的电信网络诈骗犯罪欺诈识别方法VIM-TFCN，该方法主要包括网络行为特征挖掘和电信网络诈骗被害性分析两个部分，方法流程图如图1所示，具体实现过程如下：

(1)用户网络行为特征挖掘

用户在访问网站时存在显性与隐性的行为特征。通过显性与隐性网络行为特征研究，能够提高行为编码的准确性与模型的可靠性。

(2)网络行为被害性分析算法

获取频繁项具体为：计算行为支持度，通过设定阈值生成行为频繁项。如针对图2中{feat1,feat2,act1}这一频繁项，支持度S计算公式：

挖掘行为关联规则具体为：{feat1,feat2}→{act1}→{true}中，{feat1,feat2→act2}作为频繁项具有关联性，据此计算置信度C和提升度L，将关联规则量化，设定关联规则提升度取值范围，达到排除低被害风险关联规则、提升规则有效性的目的，计算公式如下：

步骤二：结合显隐性行为本身的特征与各行为特征间的内在关联规则，重构特征序列。原始行为特征序列用于直接表达存在的显隐性行为特征，重构后的特征序列则用于表达该行为序列存在哪些可疑的关联关系。

步骤三：采用随机森林算法对重构后的行为特征序列进行监督式机器学习，实现被害风险判断。重构后的特征序列由原始行为特征序列中存在的关联规则权重较大项组成，且已经标注是否为被害行为序列，这是监督学习的前提条件。如图3所示，算法使用自助法(bootstrap)对该特征序列组成的特征矩阵D进行有放回的随机抽样，生成包含m条特征序列的训练集；重复该过程t次，由若干训练集构成采样集D(t)；针对每一个训练集构建决策树；通过不同的决策树组合识别目标行为序列的被害性。

实施例

本实施例中，实验数据集主要包括被害人网络行为数据2051条，非被害人网络行为数据2386条。该数据集是收集从公安部门获取的诈骗网站地址与公开的非诈骗网站地址，分类后模拟正常用户访问，使用Wireshark工具进行流量抓取。编写脚本从流量包中提取对每一个网站访问时产生的行为特征，形成原始特征序列，其中一个网站对应一条原始行为特征序列。数据集的数据种类与数量如表1所示。

表1数据集网站种类与数量表

选取以上类型的非诈骗网站，使诈骗网站与非诈骗网站所提取的网络行为序列具备相似性，从而验证本发明的结论。

本实施例的具体实验步骤如下：

1)对原始特征序列中的行为特征字段Feature采用label_binarize二值化编码，该字段由流量中的各项具有行为代表性的单词按照发生先后顺序组成；其中行为字典构建是基于对诈骗网站各类变量的常用命名方式、相关英文与中文拼音的组合。行为特征字段中的各单词在去重、统一小写、去除特殊字符等操作后采用最大公共串的方式与行为字典进行匹配识别显性行为种类，并加入行为特征序列。其中，设定L大于0.5。L越大能使显性行为识别更精确，减少错误识别的概率；但会出现行为无法识别的现象。L计算公式为：L＝最大字符串长度/行为单词长度。

表2初始行为特征参数表

行为特征参数	描述
		Srcip	源地址
Dstip	目标地址
		final_byte_number	总字节
packet_number	总包数
		Dstport	目标端口
Keep_time	持续时长
		send_packet	发包数
receive_packet	收包数
		send_len	发包长度
receive_len	收包长度
		sender_header_len	发送tcp头部长度
receiver_header_len	接受tcp头部长度
		Load_size	负载总大小
Send_Load_size	发送负载大小
		rec_Load_size	接受负载大小
Feature	行为特征

表2特征中除最后一条外，其它均为隐性行为特征；最后一条为未分类的显性行为特征；对于挖掘的过程，隐性行为在解析的过程中可以直接提取到，显性行为通过提取到的字符用行为分类字典的方式比对获取。

2)对表2中的隐性行为特征序列进行离散化。实验采用K-Means算法对隐性行为特征进行离散化处理，设为5个等级。对于每一项隐性行为特征使用0-5的数值表示，删去原有的具体值。

根据显隐性特征分布规律可得，受诈骗的被害行为特征序列出现显性行为的数量远远大于非诈骗的未被害行为特征序列，服务器端口与平均负载上呈现明显差异性；其余隐性行为特征差异较小；未被害行为特征序列的隐性特征分布更加集中，通过离散化后大量集中在第一等级。决策树的构建依赖于对象的属性结构，因此差异明显的项容易与对象形成映射关系。

3)采用Apriori算法对显隐性行为特征序列进行关联规则挖掘，设定提升度为0.9减小开销，最终挖掘规则共计600余条。识别的精度会随着提升度的增加而增加，但是会显著提升模型运行负荷，降低运行效率。关联规则参数如表3所示：

表3关联规则参数表

关联规则参数	描述
		Antecedents	规则前项
Consequents	规则后项
		antecedent support	前项支持度
consequent support	后向支持度
		Support	前项对后项支持度
Confidence	置信度
		Lift	提升度
Leverage	关联性参数1
		Conviction	关联性参数2

4)通过挖掘的关联规则来对于每一条行为序列进行特征重构。先使用关联规则的编号与权重表达每一条行为序列的关联规则搭配规律；然后使用随机森林算法对重构后特征进行机器学习，识别网络行为被害性。

本发明所提方法VIM-TFCN与另外两种分类算法在用户网络行为被害性识别效果对比如表4和图4所示。

C45算法：ID3算法的扩展，通过决策树找到行为特征与属性的映射，对未知个体分类进行识别。

贝叶斯算法：对缺失数据不敏感，假设行为特征相互独立，结合先验概率与后验概率进行分类，避免过度拟合。

表4混淆矩阵对比表

由图4中ROC曲线可知，VIM-TFCN的ROC曲线贴近TPR轴，而C45模型和朴素贝叶斯模型的ROC曲线更贴近对角线。由表4混淆矩阵可得，VIM-TFCN的精确率为0.982，召回率为0.984；C45模型和朴素贝叶斯模型的精确率分别为0.804和0.760，召回率分别为0.788和0.798。根据对ROC曲线图以及混淆矩阵的评估分析可得知，通过显隐性行为的关联规则组合判断连续行为被害性的效果，优于通过一项或多项行为判断连续行为被害性的效果。

在一个实施例中，给出随机森林算法中的参数调优过程。

在随机森林算法的实际应用当中，子决策树的数量(Numtree)与决策树选取特征数(Numfeature)对分类效果影响较大。随着子决策树数量和选取特征数变多，分类的精度会呈现先上升后下降、最后趋于稳定的情况，且模型运行速度与性能会显著降低。根据控制变量的原则，通过调整参数大小来对分类结果进行对比。控制变量参数调优结果如表5。

表5控制变量参数调优表

对Numfeature参数定量分析，随着该参数增大，精准率与召回率上下浮动，MCC区域呈现减小的趋势，在同等结果下选取内存开销较小值，确定该参数值为4；对Numtree参数定量分析，随着该参数增大，精准率、召回率、MCC区域呈现波动上升，最后趋于稳定，内存开销与时耗呈现指数增加。根据实验结果确定Numfeature参数为4，Numtree参数为50-70区间内时达到最优。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于网络流量的电信网络诈骗犯罪欺诈识别方法，其特征在于，该方法包括：

S1，提取被害用户访问诈骗网站网络流量的显隐性行为特征，并对特征进行编码，包括：

S11，提取显隐性行为特征，所述隐性行为特征包括从网络流量的交互情况、数据量、时间三个角度提取的数字化行为特征；所述显性行为特征为抓取HTTP协议数据包中各字段，用于表达用户行为意图的内容；

S12，对显性行为特征采用去重、统一小写、去除特殊字符，采用label_binarize编码方式识别用户网络行为种类；

S13，对隐性行为特征采用K-Means算法离散化编码；

S2，采用Apriori关联规则挖掘算法，挖掘显隐性行为间的关联规则，包括：计算行为支持度，通过设定阈值生成行为频繁项；计算置信度与提升度，将关联规则量化，设定关联规则提升度取值范围，筛选得到需要的关联规则；

S3，使用关联规则编号与权重表达每一条行为序列的关联规则搭配规律，重构特征序列；

S4，采用随机森林算法对重构后的特征序列进行监督式机器学习，实现被害风险判断，包括：使用自助法对该特征序列组成的特征矩阵进行有放回的随机抽样，生成训练集；重复该过程若干次，由若干训练集构成采样集；针对每一个训练集构建决策树；通过不同的决策树组合识别目标行为序列的被害性。

2.根据权利要求1所述的基于网络流量的电信网络诈骗犯罪欺诈识别方法，其特征在于，所述步骤S11中，多维度行为显隐性特征融合，考虑行为流量深层特征。

3.根据权利要求1所述的基于网络流量的电信网络诈骗犯罪欺诈识别方法，其特征在于，所述步骤S11中，所述显性行为是抓取HTTP协议数据包中的各字段内容，通过行为分类字典筛选获得，能够准确地反映用户在该网站进行的操作；所述行为分类字典由抓取各类网站流量中具有行为代表性的字符串组成的数组构成；所述显性行为特征仅考虑行为是否出现及其所属的网络行为种类，不考虑行为出现的频率与次数。

4.根据权利要求1所述的基于网络流量的电信网络诈骗犯罪欺诈识别方法，其特征在于，所述步骤S2中，关联规则提升度取值为0.9，从而达到同时保证模型运行效率和识别精确率的目的。