CN110830489B - 基于内容抽象表示的对抗式欺诈网站检测方法及系统 - Google Patents

基于内容抽象表示的对抗式欺诈网站检测方法及系统 Download PDF

Info

Publication number
CN110830489B
CN110830489B CN201911111210.7A CN201911111210A CN110830489B CN 110830489 B CN110830489 B CN 110830489B CN 201911111210 A CN201911111210 A CN 201911111210A CN 110830489 B CN110830489 B CN 110830489B
Authority
CN
China
Prior art keywords
text
website
sample
input
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911111210.7A
Other languages
English (en)
Other versions
CN110830489A (zh
Inventor
景栋盛
薛劲松
冯仁君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd filed Critical Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority to CN201911111210.7A priority Critical patent/CN110830489B/zh
Publication of CN110830489A publication Critical patent/CN110830489A/zh
Application granted granted Critical
Publication of CN110830489B publication Critical patent/CN110830489B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1466Active attacks involving interception, injection, modification, spoofing of data unit addresses, e.g. hijacking, packet injection or TCP sequence number attacks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于内容抽象表示的对抗式欺诈网站检测方法及系统,方法包括如下步骤:(1)网站文本获取,形成欺诈文本和正常文本;(2)网站文本预处理,选用Skip‑gram模型,得到真实样本集;(3)网络模型训练,选用生成对抗网络(GAN网络)模型,判别器输出类别标签;(4)待测文本获取,形成待测文本;(5)待测文本预处理,选用Skip‑gram模型,将待测文本作为输入文本,进行离散化处理获得具有唯一表示的词向量,得到待测样本;(6)判别输出,将待测样本作为训练后判别器的输入,得到待测样本的类别标签,如果当前标签是正常文本,则表示当前网站内容正常;如果当前标签是欺诈文本,则表示当前网站为欺诈网站。本发明利用少数样本学习,并且结合两种方法做到优势互补,取得更佳的欺诈网站检测效果。

Description

基于内容抽象表示的对抗式欺诈网站检测方法及系统
技术领域
本发明涉及人工智能及控制技术领域,具体涉及一种基于内容抽象表示的对抗式欺诈网站检测方法及系统。
背景技术
网站是展示特定内容相关的网页的集合,是一种人机沟通交流的工具。人们可以利用网页浏览器浏览获取自己需要的资讯,网站也可以利用网页向网络展示自身的内容。安全的网站向网民们传达安全的信息,而恶意网站实施非法的行为危害网络空间安全,破坏用户正常的上网体验。例如,欺诈网站是恶意网站的一种,是指攻击者发动巧妙的诈骗行为诱使个人或者企业披露敏感信息的网站。欺诈网站已经成为网络犯罪的新高地,利用网络的虚拟性和匿名性,进行违法活动,常常会造成大量的财产损失和信息的泄漏,并且利用互联网让其辐射的方位越来越广,严重影响社会的安全。因此,如何检测欺诈网站并寻求有效的解决方案是当前网络网站安全亟待解决的问题。
为了有效地检测出欺诈网站,人们提出了多种解决方案,其中比较常见的基于黑名单的网站检测方法和基于机器学习的网站检测方法。基于黑名单网站检测方法,利用情报信息收集大量的欺诈网站域名,并将这些域名信息整理成一套数据库,从而避免访问欺诈网站。这种方法的优点在于准确率高,可以精确地对网站定性,但不足点也比较明显,需要耗费大量的人力和物力构建黑名单数据库,而且由于数据难以收集齐全,导致欺诈网站检测效果不佳,造成大量漏检。基于传统机器学习的方法,使用聚类或者支持向量机等机器学习方法检测欺诈网站。这种方法的优点是泛化能力较强,几乎可以检测出全部的欺诈网站,但缺陷在于需要大量的人工数据样本,往往难以大规模使用。因此,需要提出一种新的方法,利用少数样本学习,并且结合两种方法做到优势互补,取得更佳的欺诈网站检测效果。
发明内容
本发明的目的是提供一种基于内容抽象表示的对抗式欺诈网站检测方法及系统,利用少数样本学习,并且结合两种方法做到优势互补,取得更佳的欺诈网站检测效果。
为实现上述发明目的,本发明提供以下的技术方案:一种基于内容抽象表示的对抗式欺诈网站检测方法,包括如下步骤:
(1)网站文本获取,从威胁情报中提取恶意域名列表,并在该恶意域名列表中筛选出欺诈域名,获取欺诈域名的网页信息,去除网页代码,获取欺诈网站的主体文本内容,形成欺诈文本;
(2)网站文本预处理,选用Skip-gram模型,将各个欺诈文本作为输入文本,进行离散化处理获得具有唯一表示的词向量,得到欺诈样本,建立欺诈样本集;
(3)网络模型训练,选用生成对抗网络GAN网络模型,其包括生成器和判别器,将欺诈样本作为真实样本,与类别标签合成为输入噪声,作为生成器的输入进行训练,所述生成器输出生成样本,将欺诈样本作为真实样本,和生成样本作为判别器的输入进行训练,判别器输出类别标签,类别标签为正常标签或欺诈标签;
(4)待测文本获取,获取待测网站的主体文本内容,形成待测文本;
(5)待测文本预处理,选用Skip-gram模型,将待测文本作为输入文本,进行离散化处理获得具有唯一表示的词向量,得到待测样本;
(6)判别输出,将待测样本作为训练后判别器的输入,得到待测样本的类别标签,判断待测样本的类别标签,如果是正常标签,则表示当前网站内容正常;如果是欺诈标签,则表示当前网站为欺诈网站。
进一步的,Skip-gram模型具有三层神经网络,分别为输入层、隐藏层和输出层,将输入文本每句话中的单词经过独热编码后输入到Skip-gram模型中,同时输入字典,并且指定字典的大小,然后设置好Skip-window的大小,调整词语颗粒度的大小,最后输出每个单词的单词概率矩阵,得到每个单词出现在当前上下文的概率,接着训练Skip-gram模型,当模型收敛时,导出隐藏层中存储的权重参数信息,其中的每一行数据就是对应着每个单词的词向量。
进一步的,Skip-gram模型的目标优化函数表示如下:
Figure GDA0003775100460000031
其中,C表示输入文本;w表示输入文本C中的单词;θ是当前Skip-gram模型的优化参数;p表示求概率;∏表示连乘;context(w)表示当前上下文。
进一步的,通过噪声生成函数dma(x,y)将真实样本x和类别标签y合成为生成器的输入噪声。
进一步的,判别器由四层全连接层组成,全连接层大小分别为1000个、500个、500个和250个。
进一步的,根据设置好的网络模型结构定义损失函数,生成器和判别器的损失函数如下:
Figure GDA0003775100460000032
Figure GDA0003775100460000033
其中,SG是生成器的损失函数,用于训练生成器;SD是判别器的损失函数,用于训练判别器;G表示生成器,输出生成样本;D表示判别器,用来区分真实样本和生成样本;Pdma(x,y)表示噪声分布,噪声由真实样本x和类别标签y组合,通过噪声生成函数dma(x,y)得到;Pdata(x)表示真实样本分布;K表示类别标签y的类别,E表示求期望,log表示计算对数,p表示计算概率。
本发明还提供用于如上所述的欺诈网站检测方法的欺诈网站检测系统,包括:
数据获取模块,用于获取欺诈文本和待测文本;
数据预处理模块,其采用Skip-gram模型,用于将欺诈文本和待测文本进行离散化处理获得具有唯一表示的词向量;
网络模型,其采用生成对抗网络GAN网络,用于以真实样本作为输入进行训练后以待测样本作为输入并输出类别标签。
由于上述技术方案运用,本发明与现有技术相比具有以下优点:本发明公开的基于内容抽象表示的对抗式欺诈网站检测方法及系统,克服现有欺诈网站检测方法的不足,有效地提高欺诈网站检测的准确性,通过词嵌入的技术将从欺诈网站上的文本数据转换成词向量,将词向量输入到生成对抗网络中,生成器学习数据的分布情况,判别器依据数据样本背后的多维特征进行鲁棒性判断,可以作为欺诈网站检测的分类器。经过多轮的对抗训练,最终得到生成数据样本的生成器和计算数据真假的判别器。本发明由于采用了生成对抗网络的方法,利用少数样本,学习恶意样本背后的数据特征,有效的提高数据分类的准确性。本发明结合生成对抗网络,在对抗的过程中学习检测欺诈网站,与现有的检测方法相比,更能够挖掘数据背后的特征,检测欺诈网站的准确度更高。
附图说明
图1为本发明公开的欺诈网站检测方法Skip-gram网络结构图;
图2为本发明公开的欺诈网站检测方法流程图;
图3为本发明公开的判别器的结构图;
图4为本发明中欺诈网站检测系统的结构图。
具体实施方式
下面结合本发明的原理、附图以及实施例对本发明进一步描述
为克服现有欺诈网站检测方法的不足,有效地提高欺诈网站检测的准确性,本发明提供一种基于内容抽象表示的对抗式欺诈网站检测方法。通过词嵌入的技术将从欺诈网站上的文本数据转换成词向量,将词向量输入到生成对抗网络中,生成器学习数据的分布情况,判别器依据数据样本背后的多维特征进行鲁棒性判断,可以作为欺诈网站检测的分类器。经过多轮的对抗训练,最终得到生成数据样本的生成器和计算数据真假的判别器。本发明由于采用了生成对抗网络的方法,利用少数样本,学习恶意样本背后的数据特征,有效的提高数据分类的准确性。
参见图1至图4,如其中的图例所示,一种基于内容抽象表示的对抗式欺诈网站检测方法,包括如下步骤:
(1)网站文本获取,从威胁情报中提取恶意域名列表,并在该恶意域名列表中筛选出欺诈域名,获取欺诈域名的网页信息,去除网页代码,获取欺诈网站的主体文本内容,形成欺诈文本;
(2)网站文本预处理,选用Skip-gram模型,将各个欺诈文本作为输入文本,进行离散化处理获得具有唯一表示的词向量,得到欺诈样本,建立欺诈样本集;
(3)网络模型训练,选用生成对抗网络GAN网络模型,其包括生成器和判别器,将欺诈样本作为真实样本,与类别标签合成为输入噪声,作为生成器的输入进行训练,所述生成器输出生成样本,将欺诈样本作为真实样本,和生成样本作为判别器的输入进行训练,判别器输出类别标签,类别标签为正常标签或欺诈标签;
(4)待测文本获取,获取待测网站的主体文本内容,形成待测文本;
(5)待测文本预处理,选用Skip-gram模型,将待测文本作为输入文本,进行离散化处理获得具有唯一表示的词向量,得到待测样本;
(6)判别输出,将待测样本作为训练后判别器的输入,得到待测样本的类别标签,判断待测样本的类别标签,如果是正常标签,则表示当前网站内容正常;如果是欺诈标签,则表示当前网站为欺诈网站。
本实施例中,Skip-gram模型具有三层神经网络,分别为输入层、隐藏层和输出层,将输入文本每句话中的单词经过独热编码后输入到Skip-gram模型中,同时输入字典,并且指定字典的大小,然后设置好Skip-window的大小,调整词语颗粒度的大小,最后输出每个单词的单词概率矩阵,得到每个单词出现在当前上下文的概率,接着训练Skip-gram模型,当模型收敛时,导出隐藏层中存储的权重参数信息,其中的每一行数据就是对应着每个单词的词向量。
本实施例中,Skip-gram模型的目标优化函数表示如下:
Figure GDA0003775100460000061
其中,C表示输入文本;w表示输入文本C中的单词;θ是当前Skip-gram模型的优化参数;p表示求概率;∏表示连乘;context(w)表示当前上下文。
本实施例中,通过噪声生成函数dma(x,y)将真实样本x和类别标签y合成为生成器的输入噪声。
本实施例中,判别器由四层全连接层组成,全连接层大小分别为1000个、500个、500个和250个。
本实施例中,根据设置好的网络模型结构定义损失函数,生成器和判别器的损失函数如下:
Figure GDA0003775100460000062
Figure GDA0003775100460000063
其中,SG是生成器的损失函数,用于训练生成器;SD是判别器的损失函数,用于训练判别器;G表示生成器,输出生成样本;D表示判别器,用来区分真实样本和生成样本;Pdma(x,y)表示噪声分布,噪声由真实样本x和类别标签y组合,通过噪声生成函数dma(x,y)得到;Pdata(x)表示真实样本分布;K表示类别标签y的类别,E表示求期望,log表示计算对数,p表示计算概率。
本发明还提供用于如上所述的欺诈网站检测方法的欺诈网站检测系统,包括:
数据获取模块10,用于获取欺诈文本和待测文本;
数据预处理模块20,其采用Skip-gram模型,用于将欺诈文本和待测文本进行离散化处理获得具有唯一表示的词向量;
网络模型30,其采用生成对抗网络GAN网络,用于以真实样本作为输入进行训练后以待测样本作为输入并输出类别标签。
以下为对欺诈网站检测方法的各个步骤的详细解释:
训练集准备
欺诈网站由于其网页内容具有迷惑和欺诈性,所以明确欺诈内容是找出欺诈网页和避免欺诈的前提。从威胁情报平台获取威胁情报,威胁情报中包含多种信息,其中恶意域名信息是核心数据之一。从威胁情报中提取恶意域名列表,并在该恶意域名列表中筛选出带有欺诈性质的域名,获取欺诈域名下网页信息,去除网页代码,这样就能获取欺诈网站的主体文本内容,这些文本内容组成欺诈文本数据集X。
数据预处理模型
欺诈文本数据集X中存在着大量的文本数据,基于内容抽象表示的对抗式的深度网络的检测方法使用到深度神经网络(Deep Neural Networks,简称DNN),所以需要将离散的文本数据转换成唯一表示的向量。常用的离散数值化的方法有两种,这里考虑到该数据集中含有大量复杂的文本数据,使用词嵌入的方式而不是独热编码(one-hot)处理欺诈文本数据获得单个单词的唯一表示向量。在词嵌入中效果较好的模型是Skip-gram模型。Skip-gram模型所做的任务是给定一个句子中间某个单词,将其映射到N维空间中到词向量,主要到目的是找到一个词向量,唯一表示当前的词语。Skip-gram模型具有三层神经网络,模型结构见附图1,分别为输入层、隐藏层和输出层。为了将欺诈文本数据集X中到数据转化可疑唯一表示到词向量,首先需要将数据集X单条序列中的单词经过独热编码后输入到Skip-gram模型中,同时也要输入字典,并且指定字典的大小。然后设置好Skip-window的大小,调整词语颗粒度的大小,最后输出每个单词的单词概率矩阵,得到每个单词出现在当前上下文的概率。接着训练Skip-gram模型,其目标优化函数可以表示如下:
Figure GDA0003775100460000081
其中,C表示欺诈的文本,即输入的文本;w表示欺诈文本C中的单词;θ是当前Skip-gram模型的优化参数;p表示求概率;∏表示连乘。
最后当模型收敛时,导出隐藏层中存储的权重参数信息,该信息的每一行数据就是对应着每个单词的词向量。
通过使用Skip-gram模型,完成了欺诈文本数据预处理,欺诈文本数据可以转换成具有唯一表示的词向量xi,其中xi∈(x1,x2,…,xn),从而可以将词向量输入到生成对抗网络中。
对抗训练模型
本次对抗训练模型采用的是生成对抗网络(Generative Adversarial Networks,简称GAN)。
根据生成对抗网络的对抗的思想,分布建立生成模型G和判别模型D。生成模型G尽可能生成与真实样本数据x相同的样本数据,而判别模型D尽可能的区分是生成的样本数据还是真实的样本数据。而针对欺诈文本数据检测任务,生成器的输入时文本词向量x和标签y组合的噪声,文本包括正常文本和欺诈文本,标签包括正常标签和欺诈标签。噪声生成函数dma(x,y)就是将文本词向量x和标签y合成为生成器的输入噪声。判别模型的输入是一个矩阵信息,文本分类器的结果是一个二维向量,用来表示当前标签信息,检测当前文本内容是否属于欺诈文本。判别器由四层全连接层组成,全连接层大小分别为1000个、500个、500个和250个,输入是步骤二中的词向量,最后输出是否为欺诈网络的结果。详细结构见附图3。
模型的训练
根据设置好的模型结构定义损失函数。根据模型的结构以及任务要求,需要更改原始生成对抗网络的损失函数,将Softmax函数引入到网络模型中,Softmax函数是一种激活函数,能够将数值信息压缩到(0,1)之间。在本模型中,用Softmax函数将判别器的输入转换成一个概率分布的问题,加强判别器判断的效果。因此,生成器和判别器的损失函数定义:
生成模型的损失函数如下:
Figure GDA0003775100460000091
判别模型的损失函数如下:
Figure GDA0003775100460000092
其中,G表示生成器模型,生成样本数据;D表示判别器模型,用来区分真实样本和生成样本;Pdma(x,y)表示噪声分布,噪声由文本词向量x和标签y组合通过噪声生成函数dma(x,y)得到;Pdata(x)表示真实样本分布;K表示标签y的类别,本模型中类别有两类,欺诈网站和不是欺诈网站。
检测可疑的用户行为
训练好网络模型,并提取其中的判别模型。将待检测的网站文本数据预处理后得到词向量
Figure GDA0003775100460000093
输入到判别器,得到当前文本的预测标签
Figure GDA0003775100460000094
如果当前标签是正常文本,则表示当前网站内容正常;如果当前标签是欺诈文本,则表示当前网站为欺诈网站。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种基于内容抽象表示的对抗式欺诈网站检测方法,其特征在于,包括如下步骤:
(1)网站文本获取,从威胁情报中提取恶意域名列表,并在该恶意域名列表中筛选出欺诈域名,获取欺诈域名的网页信息,去除网页代码,获取欺诈网站的主体文本内容,形成欺诈文本;
(2)网站文本预处理,选用Skip-gram模型,将各个欺诈文本作为输入文本,进行离散化处理获得具有唯一表示的词向量,得到欺诈样本,建立欺诈样本集;
(3)网络模型训练,选用生成对抗网络GAN网络模型,其包括生成器和判别器,将欺诈样本作为真实样本,与类别标签合成为输入噪声,作为生成器的输入进行训练,噪声由真实样本和类别标签组合,通过噪声生成函数得到,所述生成器输出生成样本,将欺诈样本作为真实样本,和生成样本作为判别器的输入进行训练,通过噪声生成函数dma(x,y)将真实样本x和类别标签y合成为生成器的输入噪声;判别器输出类别标签,类别标签为正常标签或欺诈标签;生成器学习数据的分布情况,判别器依据数据样本背后的多维特征进行鲁棒性判断;
(4)待测文本获取,获取待测网站的主体文本内容,形成待测文本;
(5)待测文本预处理,选用Skip-gram模型,将待测文本作为输入文本,进行离散化处理获得具有唯一表示的词向量,得到待测样本;
(6)判别输出,将待测样本作为训练后判别器的输入,得到待测样本的类别标签,判断待测样本的类别标签,如果是正常标签,则表示当前网站内容正常;如果是欺诈标签,则表示当前网站为欺诈网站。
2.如权利要求1所述的对抗式欺诈网站检测方法,其特征在于,Skip-gram模型具有三层神经网络,分别为输入层、隐藏层和输出层,将输入文本每句话中的单词经过独热编码后输入到Skip-gram模型中,同时输入字典,并且指定字典的大小,然后设置好Skip-window的大小,调整词语颗粒度的大小,最后输出每个单词的单词概率矩阵,得到每个单词出现在当前上下文的概率,接着训练Skip-gram模型,当模型收敛时,导出隐藏层中存储的权重参数信息,其中的每一行数据就是对应着每个单词的词向量。
3.如权利要求2所述的欺诈网站检测方法,其特征在于,Skip-gram模型的目标优化函数表示如下:
Figure FDA0003775100450000021
其中,C表示输入文本;w表示输入文本C中的单词;θ是当前Skip-gram模型的优化参数;p表示求概率;∏表示连乘;context(w)表示当前上下文。
4.如权利要求1所述的欺诈网站检测方法,其特征在于,判别器由四层全连接层组成,全连接层大小分别为1000个、500个、500个和250个。
5.如权利要求1所述的欺诈网站检测方法,其特征在于,根据设置好的网络模型结构定义损失函数,生成器和判别器的损失函数如下:
Figure FDA0003775100450000022
Figure FDA0003775100450000023
其中,SG是生成器的损失函数,用于训练生成器;SD是判别器的损失函数,用于训练判别器;G表示生成器,输出生成样本;D表示判别器,用来区分真实样本和生成样本;Pdma(x,y)表示噪声分布,噪声由真实样本x和类别标签y组合,通过噪声生成函数dma(x,y)得到;Pdata(x)表示真实样本分布;K表示类别标签y的类别,E表示求期望,log表示计算对数,p表示计算概率。
6.一种用于如权利要求1至5任一所述的欺诈网站检测方法的欺诈网站检测系统,其特征在于,包括:
数据获取模块,用于获取欺诈文本和待测文本;
数据预处理模块,其采用Skip-gram模型,用于将欺诈文本和待测文本进行离散化处理获得具有唯一表示的词向量;
网络模型,其采用生成对抗网络GAN网络,用于以真实样本作为输入进行训练后以待测样本作为输入并输出类别标签。
CN201911111210.7A 2019-11-14 2019-11-14 基于内容抽象表示的对抗式欺诈网站检测方法及系统 Active CN110830489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911111210.7A CN110830489B (zh) 2019-11-14 2019-11-14 基于内容抽象表示的对抗式欺诈网站检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911111210.7A CN110830489B (zh) 2019-11-14 2019-11-14 基于内容抽象表示的对抗式欺诈网站检测方法及系统

Publications (2)

Publication Number Publication Date
CN110830489A CN110830489A (zh) 2020-02-21
CN110830489B true CN110830489B (zh) 2022-09-13

Family

ID=69554964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911111210.7A Active CN110830489B (zh) 2019-11-14 2019-11-14 基于内容抽象表示的对抗式欺诈网站检测方法及系统

Country Status (1)

Country Link
CN (1) CN110830489B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951805A (zh) * 2020-07-10 2020-11-17 华为技术有限公司 一种文本数据处理方法及装置
CN112860976B (zh) * 2021-03-11 2022-08-19 合肥工业大学 一种基于多模态层次注意力机制的欺诈网站检测方法
CN114528456A (zh) * 2021-09-26 2022-05-24 四川大学 一种基于机器学习的数字货币欺诈网站检测方法
CN115687568A (zh) * 2022-10-26 2023-02-03 广东东方思维科技有限公司 一种对可变情报板内容进行安全防护的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877832A (zh) * 2018-05-29 2018-11-23 东华大学 一种基于gan的音频音质还原系统
CN109391584A (zh) * 2017-08-03 2019-02-26 武汉安天信息技术有限责任公司 一种疑似恶意网站的识别方法及装置
CN110110318A (zh) * 2019-01-22 2019-08-09 清华大学 基于循环神经网络的文本隐写检测方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176984B (zh) * 2011-12-20 2016-01-20 中国科学院计算机网络信息中心 一种用户生成内容中欺骗性垃圾意见检测方法
CN108111478A (zh) * 2017-11-07 2018-06-01 中国互联网络信息中心 一种基于语义理解的网络钓鱼识别方法和装置
CN109284465B (zh) * 2018-09-04 2021-03-19 暨南大学 一种基于url的网页分类器构建方法及其分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109391584A (zh) * 2017-08-03 2019-02-26 武汉安天信息技术有限责任公司 一种疑似恶意网站的识别方法及装置
CN108877832A (zh) * 2018-05-29 2018-11-23 东华大学 一种基于gan的音频音质还原系统
CN110110318A (zh) * 2019-01-22 2019-08-09 清华大学 基于循环神经网络的文本隐写检测方法及系统

Also Published As

Publication number Publication date
CN110830489A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110830489B (zh) 基于内容抽象表示的对抗式欺诈网站检测方法及系统
CN106789888B (zh) 一种多特征融合的钓鱼网页检测方法
CN109005145B (zh) 一种基于自动特征抽取的恶意url检测系统及其方法
CN104077396B (zh) 一种钓鱼网站检测方法及装置
CN111027069B (zh) 恶意软件家族检测方法、存储介质和计算设备
CN112491796B (zh) 一种基于卷积神经网络的入侵检测及语义决策树量化解释方法
CN108965245A (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和系统
CN107609399A (zh) 基于nin神经网络的恶意代码变种检测方法
CN107992764B (zh) 一种敏感网页识别与检测方法及装置
US20230385409A1 (en) Unstructured text classification
CN111259219B (zh) 恶意网页识别模型建立方法、识别方法及系统
CN115529166A (zh) 基于多源数据的网络安全扫描风险管控系统及其方法
CN109922065B (zh) 恶意网站快速识别方法
CN112217787B (zh) 一种基于ed-gan的仿冒域名训练数据生成方法及系统
CN110263538A (zh) 一种基于系统行为序列的恶意代码检测方法
CN111538741B (zh) 一种面向警情大数据的深度学习分析方法及系统
CN112541476B (zh) 一种基于语义特征提取的恶意网页识别方法
CN102170447A (zh) 一种基于最近邻及相似度测量检测钓鱼网页的方法
CN107256357A (zh) 基于深度学习的安卓恶意应用的检测和分析方法
CN113132410B (zh) 一种用于检测钓鱼网址的方法
CN102158486A (zh) 一种网络入侵快速检测方法
CN112651025A (zh) 一种基于字符级嵌入编码的webshell检测方法
Chen et al. Malicious URL detection based on improved multilayer recurrent convolutional neural network model
CN110049034A (zh) 一种基于深度学习的复杂网络实时Sybil攻击检测方法
CN114638984B (zh) 一种基于胶囊网络的恶意网站url检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant