CN110830489B

CN110830489B - 基于内容抽象表示的对抗式欺诈网站检测方法及系统

Info

Publication number: CN110830489B
Application number: CN201911111210.7A
Authority: CN
Inventors: 景栋盛; 薛劲松; 冯仁君
Original assignee: Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2022-09-13
Anticipated expiration: 2039-11-14
Also published as: CN110830489A

Abstract

本发明公开了一种基于内容抽象表示的对抗式欺诈网站检测方法及系统，方法包括如下步骤：(1)网站文本获取，形成欺诈文本和正常文本；(2)网站文本预处理，选用Skip‑gram模型，得到真实样本集；(3)网络模型训练，选用生成对抗网络(GAN网络)模型，判别器输出类别标签；(4)待测文本获取，形成待测文本；(5)待测文本预处理，选用Skip‑gram模型，将待测文本作为输入文本，进行离散化处理获得具有唯一表示的词向量，得到待测样本；(6)判别输出，将待测样本作为训练后判别器的输入，得到待测样本的类别标签，如果当前标签是正常文本，则表示当前网站内容正常；如果当前标签是欺诈文本，则表示当前网站为欺诈网站。本发明利用少数样本学习，并且结合两种方法做到优势互补，取得更佳的欺诈网站检测效果。

Description

基于内容抽象表示的对抗式欺诈网站检测方法及系统

技术领域

本发明涉及人工智能及控制技术领域，具体涉及一种基于内容抽象表示的对抗式欺诈网站检测方法及系统。

背景技术

网站是展示特定内容相关的网页的集合，是一种人机沟通交流的工具。人们可以利用网页浏览器浏览获取自己需要的资讯，网站也可以利用网页向网络展示自身的内容。安全的网站向网民们传达安全的信息，而恶意网站实施非法的行为危害网络空间安全，破坏用户正常的上网体验。例如，欺诈网站是恶意网站的一种，是指攻击者发动巧妙的诈骗行为诱使个人或者企业披露敏感信息的网站。欺诈网站已经成为网络犯罪的新高地，利用网络的虚拟性和匿名性，进行违法活动，常常会造成大量的财产损失和信息的泄漏，并且利用互联网让其辐射的方位越来越广，严重影响社会的安全。因此，如何检测欺诈网站并寻求有效的解决方案是当前网络网站安全亟待解决的问题。

为了有效地检测出欺诈网站，人们提出了多种解决方案，其中比较常见的基于黑名单的网站检测方法和基于机器学习的网站检测方法。基于黑名单网站检测方法，利用情报信息收集大量的欺诈网站域名，并将这些域名信息整理成一套数据库，从而避免访问欺诈网站。这种方法的优点在于准确率高，可以精确地对网站定性，但不足点也比较明显，需要耗费大量的人力和物力构建黑名单数据库，而且由于数据难以收集齐全，导致欺诈网站检测效果不佳，造成大量漏检。基于传统机器学习的方法，使用聚类或者支持向量机等机器学习方法检测欺诈网站。这种方法的优点是泛化能力较强，几乎可以检测出全部的欺诈网站，但缺陷在于需要大量的人工数据样本，往往难以大规模使用。因此，需要提出一种新的方法，利用少数样本学习，并且结合两种方法做到优势互补，取得更佳的欺诈网站检测效果。

发明内容

本发明的目的是提供一种基于内容抽象表示的对抗式欺诈网站检测方法及系统，利用少数样本学习，并且结合两种方法做到优势互补，取得更佳的欺诈网站检测效果。

为实现上述发明目的，本发明提供以下的技术方案：一种基于内容抽象表示的对抗式欺诈网站检测方法，包括如下步骤：

(1)网站文本获取，从威胁情报中提取恶意域名列表，并在该恶意域名列表中筛选出欺诈域名，获取欺诈域名的网页信息，去除网页代码，获取欺诈网站的主体文本内容，形成欺诈文本；

(2)网站文本预处理，选用Skip-gram模型，将各个欺诈文本作为输入文本，进行离散化处理获得具有唯一表示的词向量，得到欺诈样本，建立欺诈样本集；

(3)网络模型训练，选用生成对抗网络GAN网络模型，其包括生成器和判别器，将欺诈样本作为真实样本，与类别标签合成为输入噪声，作为生成器的输入进行训练，所述生成器输出生成样本，将欺诈样本作为真实样本，和生成样本作为判别器的输入进行训练，判别器输出类别标签，类别标签为正常标签或欺诈标签；

(4)待测文本获取，获取待测网站的主体文本内容，形成待测文本；

(5)待测文本预处理，选用Skip-gram模型，将待测文本作为输入文本，进行离散化处理获得具有唯一表示的词向量，得到待测样本；

(6)判别输出，将待测样本作为训练后判别器的输入，得到待测样本的类别标签，判断待测样本的类别标签，如果是正常标签，则表示当前网站内容正常；如果是欺诈标签，则表示当前网站为欺诈网站。

进一步的，Skip-gram模型具有三层神经网络，分别为输入层、隐藏层和输出层，将输入文本每句话中的单词经过独热编码后输入到Skip-gram模型中，同时输入字典，并且指定字典的大小，然后设置好Skip-window的大小，调整词语颗粒度的大小，最后输出每个单词的单词概率矩阵，得到每个单词出现在当前上下文的概率，接着训练Skip-gram模型，当模型收敛时，导出隐藏层中存储的权重参数信息，其中的每一行数据就是对应着每个单词的词向量。

进一步的，Skip-gram模型的目标优化函数表示如下：

其中，C表示输入文本；w表示输入文本C中的单词；θ是当前Skip-gram模型的优化参数；p表示求概率；∏表示连乘；context(w)表示当前上下文。

进一步的，通过噪声生成函数dma(x,y)将真实样本x和类别标签y合成为生成器的输入噪声。

进一步的，判别器由四层全连接层组成，全连接层大小分别为1000个、500个、500个和250个。

进一步的，根据设置好的网络模型结构定义损失函数，生成器和判别器的损失函数如下：

其中，S_G是生成器的损失函数，用于训练生成器；S_D是判别器的损失函数，用于训练判别器；G表示生成器，输出生成样本；D表示判别器，用来区分真实样本和生成样本；P_dma(x,y)表示噪声分布，噪声由真实样本x和类别标签y组合，通过噪声生成函数dma(x,y)得到；P_data(x)表示真实样本分布；K表示类别标签y的类别，E表示求期望，log表示计算对数，p表示计算概率。

本发明还提供用于如上所述的欺诈网站检测方法的欺诈网站检测系统，包括：

数据获取模块，用于获取欺诈文本和待测文本；

数据预处理模块，其采用Skip-gram模型，用于将欺诈文本和待测文本进行离散化处理获得具有唯一表示的词向量；

网络模型，其采用生成对抗网络GAN网络，用于以真实样本作为输入进行训练后以待测样本作为输入并输出类别标签。

由于上述技术方案运用，本发明与现有技术相比具有以下优点：本发明公开的基于内容抽象表示的对抗式欺诈网站检测方法及系统，克服现有欺诈网站检测方法的不足，有效地提高欺诈网站检测的准确性，通过词嵌入的技术将从欺诈网站上的文本数据转换成词向量，将词向量输入到生成对抗网络中，生成器学习数据的分布情况，判别器依据数据样本背后的多维特征进行鲁棒性判断，可以作为欺诈网站检测的分类器。经过多轮的对抗训练，最终得到生成数据样本的生成器和计算数据真假的判别器。本发明由于采用了生成对抗网络的方法，利用少数样本，学习恶意样本背后的数据特征，有效的提高数据分类的准确性。本发明结合生成对抗网络，在对抗的过程中学习检测欺诈网站，与现有的检测方法相比，更能够挖掘数据背后的特征，检测欺诈网站的准确度更高。

附图说明

图1为本发明公开的欺诈网站检测方法Skip-gram网络结构图；

图2为本发明公开的欺诈网站检测方法流程图；

图3为本发明公开的判别器的结构图；

图4为本发明中欺诈网站检测系统的结构图。

具体实施方式

下面结合本发明的原理、附图以及实施例对本发明进一步描述

为克服现有欺诈网站检测方法的不足，有效地提高欺诈网站检测的准确性，本发明提供一种基于内容抽象表示的对抗式欺诈网站检测方法。通过词嵌入的技术将从欺诈网站上的文本数据转换成词向量，将词向量输入到生成对抗网络中，生成器学习数据的分布情况，判别器依据数据样本背后的多维特征进行鲁棒性判断，可以作为欺诈网站检测的分类器。经过多轮的对抗训练，最终得到生成数据样本的生成器和计算数据真假的判别器。本发明由于采用了生成对抗网络的方法，利用少数样本，学习恶意样本背后的数据特征，有效的提高数据分类的准确性。

参见图1至图4，如其中的图例所示，一种基于内容抽象表示的对抗式欺诈网站检测方法，包括如下步骤：

本实施例中，Skip-gram模型具有三层神经网络，分别为输入层、隐藏层和输出层，将输入文本每句话中的单词经过独热编码后输入到Skip-gram模型中，同时输入字典，并且指定字典的大小，然后设置好Skip-window的大小，调整词语颗粒度的大小，最后输出每个单词的单词概率矩阵，得到每个单词出现在当前上下文的概率，接着训练Skip-gram模型，当模型收敛时，导出隐藏层中存储的权重参数信息，其中的每一行数据就是对应着每个单词的词向量。

本实施例中，Skip-gram模型的目标优化函数表示如下：

本实施例中，通过噪声生成函数dma(x,y)将真实样本x和类别标签y合成为生成器的输入噪声。

本实施例中，判别器由四层全连接层组成，全连接层大小分别为1000个、500个、500个和250个。

本实施例中，根据设置好的网络模型结构定义损失函数，生成器和判别器的损失函数如下：

数据获取模块10，用于获取欺诈文本和待测文本；

数据预处理模块20，其采用Skip-gram模型，用于将欺诈文本和待测文本进行离散化处理获得具有唯一表示的词向量；

网络模型30，其采用生成对抗网络GAN网络，用于以真实样本作为输入进行训练后以待测样本作为输入并输出类别标签。

以下为对欺诈网站检测方法的各个步骤的详细解释：

训练集准备

欺诈网站由于其网页内容具有迷惑和欺诈性，所以明确欺诈内容是找出欺诈网页和避免欺诈的前提。从威胁情报平台获取威胁情报，威胁情报中包含多种信息，其中恶意域名信息是核心数据之一。从威胁情报中提取恶意域名列表，并在该恶意域名列表中筛选出带有欺诈性质的域名，获取欺诈域名下网页信息，去除网页代码，这样就能获取欺诈网站的主体文本内容，这些文本内容组成欺诈文本数据集X。

数据预处理模型

欺诈文本数据集X中存在着大量的文本数据，基于内容抽象表示的对抗式的深度网络的检测方法使用到深度神经网络(Deep Neural Networks，简称DNN)，所以需要将离散的文本数据转换成唯一表示的向量。常用的离散数值化的方法有两种，这里考虑到该数据集中含有大量复杂的文本数据，使用词嵌入的方式而不是独热编码(one-hot)处理欺诈文本数据获得单个单词的唯一表示向量。在词嵌入中效果较好的模型是Skip-gram模型。Skip-gram模型所做的任务是给定一个句子中间某个单词，将其映射到N维空间中到词向量，主要到目的是找到一个词向量，唯一表示当前的词语。Skip-gram模型具有三层神经网络，模型结构见附图1，分别为输入层、隐藏层和输出层。为了将欺诈文本数据集X中到数据转化可疑唯一表示到词向量，首先需要将数据集X单条序列中的单词经过独热编码后输入到Skip-gram模型中，同时也要输入字典，并且指定字典的大小。然后设置好Skip-window的大小，调整词语颗粒度的大小，最后输出每个单词的单词概率矩阵，得到每个单词出现在当前上下文的概率。接着训练Skip-gram模型，其目标优化函数可以表示如下：

其中，C表示欺诈的文本，即输入的文本；w表示欺诈文本C中的单词；θ是当前Skip-gram模型的优化参数；p表示求概率；∏表示连乘。

最后当模型收敛时，导出隐藏层中存储的权重参数信息，该信息的每一行数据就是对应着每个单词的词向量。

通过使用Skip-gram模型，完成了欺诈文本数据预处理，欺诈文本数据可以转换成具有唯一表示的词向量x_i，其中x_i∈(x₁，x₂，…，x_n)，从而可以将词向量输入到生成对抗网络中。

对抗训练模型

本次对抗训练模型采用的是生成对抗网络(Generative Adversarial Networks，简称GAN)。

根据生成对抗网络的对抗的思想，分布建立生成模型G和判别模型D。生成模型G尽可能生成与真实样本数据x相同的样本数据，而判别模型D尽可能的区分是生成的样本数据还是真实的样本数据。而针对欺诈文本数据检测任务，生成器的输入时文本词向量x和标签y组合的噪声，文本包括正常文本和欺诈文本，标签包括正常标签和欺诈标签。噪声生成函数dma(x,y)就是将文本词向量x和标签y合成为生成器的输入噪声。判别模型的输入是一个矩阵信息，文本分类器的结果是一个二维向量，用来表示当前标签信息，检测当前文本内容是否属于欺诈文本。判别器由四层全连接层组成，全连接层大小分别为1000个、500个、500个和250个，输入是步骤二中的词向量，最后输出是否为欺诈网络的结果。详细结构见附图3。

模型的训练

根据设置好的模型结构定义损失函数。根据模型的结构以及任务要求，需要更改原始生成对抗网络的损失函数，将Softmax函数引入到网络模型中，Softmax函数是一种激活函数，能够将数值信息压缩到(0,1)之间。在本模型中，用Softmax函数将判别器的输入转换成一个概率分布的问题，加强判别器判断的效果。因此，生成器和判别器的损失函数定义：

生成模型的损失函数如下：

判别模型的损失函数如下：

其中，G表示生成器模型，生成样本数据；D表示判别器模型，用来区分真实样本和生成样本；P_dma(x,y)表示噪声分布，噪声由文本词向量x和标签y组合通过噪声生成函数dma(x,y)得到；P_data(x)表示真实样本分布；K表示标签y的类别，本模型中类别有两类，欺诈网站和不是欺诈网站。

检测可疑的用户行为

训练好网络模型，并提取其中的判别模型。将待检测的网站文本数据预处理后得到词向量

输入到判别器，得到当前文本的预测标签

如果当前标签是正常文本，则表示当前网站内容正常；如果当前标签是欺诈文本，则表示当前网站为欺诈网站。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于内容抽象表示的对抗式欺诈网站检测方法，其特征在于，包括如下步骤：

(3)网络模型训练，选用生成对抗网络GAN网络模型，其包括生成器和判别器，将欺诈样本作为真实样本，与类别标签合成为输入噪声，作为生成器的输入进行训练，噪声由真实样本和类别标签组合，通过噪声生成函数得到，所述生成器输出生成样本，将欺诈样本作为真实样本，和生成样本作为判别器的输入进行训练，通过噪声生成函数dma(x,y)将真实样本x和类别标签y合成为生成器的输入噪声；判别器输出类别标签，类别标签为正常标签或欺诈标签；生成器学习数据的分布情况，判别器依据数据样本背后的多维特征进行鲁棒性判断；

2.如权利要求1所述的对抗式欺诈网站检测方法，其特征在于，Skip-gram模型具有三层神经网络，分别为输入层、隐藏层和输出层，将输入文本每句话中的单词经过独热编码后输入到Skip-gram模型中，同时输入字典，并且指定字典的大小，然后设置好Skip-window的大小，调整词语颗粒度的大小，最后输出每个单词的单词概率矩阵，得到每个单词出现在当前上下文的概率，接着训练Skip-gram模型，当模型收敛时，导出隐藏层中存储的权重参数信息，其中的每一行数据就是对应着每个单词的词向量。

3.如权利要求2所述的欺诈网站检测方法，其特征在于，Skip-gram模型的目标优化函数表示如下：

4.如权利要求1所述的欺诈网站检测方法，其特征在于，判别器由四层全连接层组成，全连接层大小分别为1000个、500个、500个和250个。

5.如权利要求1所述的欺诈网站检测方法，其特征在于，根据设置好的网络模型结构定义损失函数，生成器和判别器的损失函数如下：

6.一种用于如权利要求1至5任一所述的欺诈网站检测方法的欺诈网站检测系统，其特征在于，包括：

数据获取模块，用于获取欺诈文本和待测文本；