CN111538929B - 网络链接识别方法、装置、存储介质及电子设备 - Google Patents

网络链接识别方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN111538929B
CN111538929B CN202010650067.5A CN202010650067A CN111538929B CN 111538929 B CN111538929 B CN 111538929B CN 202010650067 A CN202010650067 A CN 202010650067A CN 111538929 B CN111538929 B CN 111538929B
Authority
CN
China
Prior art keywords
url
embedding
feature
word
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010650067.5A
Other languages
English (en)
Other versions
CN111538929A (zh
Inventor
田帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010650067.5A priority Critical patent/CN111538929B/zh
Publication of CN111538929A publication Critical patent/CN111538929A/zh
Application granted granted Critical
Publication of CN111538929B publication Critical patent/CN111538929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种网络链接识别方法、装置、存储介质及电子设备,属于云技术领域。包括:获取待识别的目标URL;对目标URL进行多粒度特征提取,得到目标URL的单词嵌入特征、字符嵌入特征以及域名嵌入特征;对目标URL的单词嵌入特征和字符嵌入特征进行特征融合处理;基于得到的目标URL的融合特征序列和域名嵌入特征,获取目标URL的非可信分值;响应于目标URL的非可信分值大于目标阈值,输出第一识别结果;第一识别结果用于指示目标URL为禁止访问的非可信URL。本申请不但无需任何手工特征工程,而且可以有效捕获URL文本中的语义信息和模式判别特征,不但降低了人力和物力成本,而且可以提高恶意URL的检测准确率。

Description

网络链接识别方法、装置、存储介质及电子设备
技术领域
本申请涉及云技术领域,特别涉及一种网络链接识别方法、装置、存储介质及电子设备。
背景技术
在日常工作生活中,恶意URL(Uniform Resource Locator,统一资源定位符)的存在使得网络用户时刻遭受着网络安全问题的威胁。广义上来讲,恶意URL泛指用户非自愿访问的网络链接,这些网络链接通常被植入了恶意代码(比如病毒),恶意代码通过伪装成正常服务来诱导用户进行访问。而用户一旦访问了恶意URL,便会面临诸如个人信息被盗或个人财产损失等风险。
为了识别恶意URL,相关技术通常采取基于词汇过滤的恶意URL识别方案。其中,该种方案需要事先人工设计词汇特征模板,比如黑名单或敏感词典等;在识别URL过程中,根据该词汇特征模板对URL文本进行模糊匹配;最后,基于得到的匹配结果来确定待识别URL是否为恶意URL。
对于上述恶意URL识别方案,由于词汇特征模板需要事先人工根据经验进行设计,因此过于繁琐和耗时耗力;另外,一旦待识别URL中包含了词汇特征模板中未涉及的词汇,识别结果的准确性便无法保证,这会严重影响恶意URL的识别准确率。
发明内容
本申请实施例提供了一种网络链接识别方法、装置、存储介质及电子设备,能够提高恶意URL的识别准确率。所述技术方案包括如下内容。
一方面,提供了一种网络链接识别方法,所述方法包括:
获取待识别的目标URL;
对所述目标URL进行多粒度特征提取,得到所述目标URL的单词嵌入特征、字符嵌入特征以及域名嵌入特征;其中,单词由字符构成;
对所述目标URL的单词嵌入特征和字符嵌入特征进行特征融合处理,得到所述目标URL的融合特征序列;
基于所述目标URL的融合特征序列和域名嵌入特征,获取所述目标URL的非可信分值;
响应于所述目标URL的非可信分值大于目标阈值,输出第一识别结果;其中,所述第一识别结果用于指示所述目标URL为禁止访问的非可信URL。
在一种可能的实现方式中,所述方法应用于目标任务,所述方法还包括:
获取与所述目标任务匹配的所述目标阈值;响应于所述非可信分值大于所述目标阈值,禁止对所述目标URL的访问操作。
另一方面,提供了一种网络链接识别装置,所述装置包括:
获取模块,被配置为获取待识别的目标URL;
识别模块,被配置为对所述目标URL进行多粒度特征提取,得到所述目标URL的单词嵌入特征、字符嵌入特征以及域名嵌入特征;其中,单词由字符构成;
所述识别模块,还被配置为对所述目标URL的单词嵌入特征和字符嵌入特征进行特征融合处理,得到所述目标URL的融合特征序列;
所述识别模块,还被配置为基于所述目标URL的融合特征序列和域名嵌入特征,获取所述目标URL的非可信分值;
所述识别模块,还被配置为响应于所述目标URL的非可信分值大于目标阈值,输出第一识别结果;其中,所述第一识别结果用于指示所述目标URL为禁止访问的非可信URL。
在一种可能的实现方式中,所述识别模块,被配置为调用URL分类网络,执行对所述目标URL进行多粒度特征提取,对所述目标URL的单词嵌入特征和字符嵌入特征进行特征融合处理,以及获取所述目标URL的非可信分值的步骤;其中,所述URL分类网络是基于训练数据集中包括的样本URL的单词嵌入特征、字符嵌入特征以及域名嵌入特征训练得到的。
在一种可能的实现方式中,所述URL分类网络的训练过程包括:
获取所述训练数据集,所述训练数据集中包括样本URL和相应的标签信息;
对所述训练数据集中的各个样本URL进行预处理,得到所述各个样本URL的单词数据、字符数据和域名数据;
对所述各个样本URL的单词数据、字符数据和域名数据分别进行特征表示,得到所述各个样本URL的单词嵌入特征、字符嵌入特征和域名嵌入特征;
基于所述各个样本URL的单词嵌入特征、字符嵌入特征和域名嵌入特征,进行深度学习网络训练得到所述URL分类网络。
在一种可能的实现方式中,所述URL分类网络的训练过程包括:
对于任意一个所述样本URL,获取所述样本URL的融合特征序列,所述样本URL的融合特征序列中包括组成所述样本URL的各个单词的融合特征;
基于所述各个样本URL的融合特征序列和域名嵌入特征,进行深度学习网络训练得到所述URL分类网络。
在一种可能的实现方式中,所述URL分类网络的训练过程包括:
对于任意一个所述样本URL,对组成所述样本URL的各个单词的字符嵌入特征进行第二特征映射处理,得到所述各个单词的字符级别特征;
将所述各个单词的单词嵌入向量和字符级别特征进行特征融合处理,得到组成所述样本URL的各个单词的融合特征。
在一种可能的实现方式中,所述URL分类网络的训练过程包括:
对所述样本URL的融合特征序列进行第一特征映射处理,得到所述样本URL的融合特征向量;
基于所述各个样本URL的融合特征向量和域名嵌入特征,进行深度学习网络训练得到所述URL分类网络。
在一种可能的实现方式中,所述URL分类网络的训练过程包括:
对于所述样本URL中的任意一个单词,将所述单词的单词嵌入向量和字符级别特征输入第一全连接层;
对所述第一全连接层输出的特征通过第一激活层进行激活处理,得到所述字符级别特征对应的第一权重;
将目标数值与所述第一权重之间的差值,作为所述单词嵌入向量对应的第二权重;
根据所述第一权重和所述第二权重,对所述单词嵌入向量和所述字符级别特征进行加权求和处理,得到所述单词的融合特征。
在一种可能的实现方式中,所述URL分类网络的训练过程包括:
对于任意一个所述样本URL,根据所述样本URL的域名嵌入特征,获取所述样本URL的域名级别特征;
连接所述样本URL的融合特征向量和域名级别特征,将连接后的特征向量输入第二全连接层;
对所述第二全连接层输出的特征通过第二激活层进行概率归一化处理,得到所述样本URL的非可信分值;
根据所述各个样本URL的非可信分值和相应的标签信息,不断优化初始深度学习网络的网络参数,直至损失函数满足目标条件,得到所述URL分类网络。
在一种可能的实现方式中,所述URL分类网络的训练过程包括:
根据所述样本URL中包括的域名级数,对所述域名嵌入特征进行加权求和处理,得到所述样本URL的域名级别特征。
在一种可能的实现方式中,所述URL分类网络的训练过程包括:
获取测试数据集,所述测试数据集中包括测试URL;
在基于所述测试数据集对所述URL分类网络进行测试的过程中,响应于所述测试URL中包括所述训练数据集的单词字典中未出现的目标单词,将所述目标单词的字符级别特征作为所述目标单词的融合特征。
在一种可能的实现方式中,所述URL分类网络的训练过程包括:
对于任意一个所述样本URL,去除所述样本URL的文本信息中的协议字段;
以第一标点符号和第二标点符号为基准,对所述样本URL的文本信息进行第一切分处理,得到所述样本URL的单词数据;
对所述单词数据进行逐个字符的第二切分处理,得到所述样本URL的字符数据;
以所述第一标点符号为基准,对所述样本URL的文本信息进行第三切分处理,得到所述样本URL的域名数据。
在一种可能的实现方式中,所述特征表示模块,被配置为:
对于任意一个所述样本URL,将所述样本URL的单词数据输入第一特征嵌入层进行特征表示;
将所述样本URL的字符数据输入第二特征嵌入层进行特征表示;
将所述样本URL的域名数据输入第三特征嵌入层进行特征表示;
其中,所述第一特征嵌入层包括第一特征嵌入矩阵;所述第一特征嵌入矩阵的行数与所述第一特征嵌入层输出的单词嵌入向量的维度一致,列数与所述训练数据集的单词词典的大小一致;
所述第二特征嵌入层包括第二特征嵌入矩阵;所述第二特征嵌入矩阵的行数与所述字符嵌入层输出的字符嵌入向量的维度一致,所述第二特征嵌入矩阵的列数与所述训练数据集的字符词典的大小一致;
所述第三特征嵌入层包括第三特征嵌入矩阵;所述第三特征嵌入矩阵的行数与所述域名嵌入层输出的域名嵌入向量的维度一致,所述第三特征嵌入矩阵的列数与所述训练数据集的域名词典的大小一致。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述的网络链接识别方法。
另一方面,提供了一种电子设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述的网络链接识别方法。
另一方面,提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述的网络链接识别方法。
本申请实施例提供的技术方案带来的有益效果是:
本申请实施例在URL识别过程中,会提取待识别URL的多粒度特征,比如单词维度特征、字符维度特征和域名维度特征,进而再通过多粒度特征的特征融合和分析处理,来获取待识别URL的不可信分值,该种URL识别方法不但无需任何手工特征工程,而且通过多粒度特征提取以及特征融合等处理步骤,可以有效捕获URL文本中的语义信息和模式判别特征,且域名维度特征的引入也对URL的判别提供了指导性信息,因此本申请实施例不但降低了人力成本和物力成本,而且可以大幅提高恶意URL的检测准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的网络链接识别方法涉及的实施环境的示意图;
图2是本申请实施例提供的一种网络识别方法的流程图;
图3是本申请实施例提供的一种对URL进行预处理的示意图;
图4是本申请实施例提供的一种URL分类网络的模型框架图;
图5是本申请实施例提供的一种特征融合机制的内部架构图;
图6是本申请实施例提供的一种网络链接识别方法的整体执行流程图;
图7是本申请实施例提供的一种网络链接识别装置的结构示意图;
图8是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。其中,至少一个是指一个或一个以上,例如,至少一个URL可以是一个URL、两个URL、三个URL等任意大于等于一的整数个URL。而多个是指两个或者两个以上,例如,多个URL可以是两个URL、三个URL等任意大于等于二的整数个URL。
另外,本申请实施例中用于训练深度学习模型使用的URL数据均是经过用户授权的URL数据。
本申请实施例提供了一种网络链接识别方法、装置、存储介质及电子设备。该方法涉及人工智能(Artificial Intelligence, AI)领域和云技术领域。
其中,AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
详细来说,人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习等几大方向。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。其中,深度学习是机器学习的核心部分,其通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。即,深度学习是机器学习领域中一个新的研究方向。
另外,该方法还涉及云技术(Cloud technology)领域。其中,云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。另外,云技术还可以是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
本申请实施例具体涉及云技术领域中的云安全(Cloud Security) 。
其中,云安全是指基于云计算商业模式应用的安全软件、硬件、用户、机构、安全云平台的总称。云安全融合了并行处理、网格计算、未知病毒行为判断等新兴技术和概念,通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,并发送到服务端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。
作为一个示例,云安全主要研究方向包括但不限于:1、云计算安全,主要研究如何保障云自身及云上各种应用的安全,包括云计算机系统安全、用户数据的安全存储与隔离、用户接入认证、信息传输安全、网络攻击防护、合规审计等;2、安全基础设施的云化,主要研究如何采用云计算新建与整合安全基础设施资源,优化安全防护机制,包括通过云计算技术构建超大规模安全事件、信息采集与处理平台,实现对海量信息的采集与关联分析,提升全网安全事件把控能力及风险控制能力;3、云安全服务,主要研究各种基于云计算平台为用户提供的安全服务,如防病毒服务等。
示例性地,本申请实施例提供的网络链接识别方案具体涉及云安全服务。
下面先对本申请实施例涉及到的一些名词术语或缩略语进行介绍。
URL:是因特网的万维网服务程序上用于指定信息位置的表示方法。其中,URL也可被称之为网络地址或网络链接。
恶意URL:广义上来讲,恶意URL泛指用户非自愿访问的网络链接,这些网络链接通常被植入了恶意代码(比如病毒),恶意代码通过伪装成正常服务来诱导用户进行访问。而用户一旦访问了恶意URL,便会面临诸如个人信息被盗或个人财产损失等风险。其中,恶意URL在本文中也被称之为非可信URL。
MTS(Malicious Tendency Score,恶意倾向分值):用于衡量一个URL是否为恶意URL,即MTS是判定一个URL是否为恶意URL的标准。示例性地,一个URL的MTS越高,表明该URL为恶意URL的概率越大。
下面对本申请实施例提供的网络链接识别方案涉及的实施环境进行介绍。
参见图1,该实施环境可以包括:第一电子设备101和第二电子设备102。
示例性地,第一电子设备101可以用于训练计算恶意倾向分值的深度学习模型,而第二电子设备102可以利用第一电子设备101训练好的深度学习模型,来检测恶意URL。当然,第一电子设备101和第二电子设备102也可为同一个设备,即该设备可以在训练好上述深度学习模型后,再基于上述深度学习模型来检测恶意URL,本申请实施例对此不进行具体限定。
在一种可能的实现方式中,第一电子设备101可以为服务器,第二电子设备102可以为终端。示例性地,终端上配置有应用,安全态势感知平台和检测服务配置在服务器上,终端在访问URL时可以通过该应用先将URL传递给服务器,以由服务器调用检测服务来进行恶意URL检测,即利用上述深度学习模型可以提供恶意URL检测与拦截功能。比如,预测一个URL文本是否具有恶意行为或者检测用户当前欲访问的URL是否具有恶意行为。
其中,上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。另外,上述终端和上述服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做具体限制。
基于上述的实施环境,本申请实施例采用端到端的深度学习模型来提取URL文本的多粒度特征(包括单词维度特征,字符维度特征和域名维度特征),不但无需任何手工特征工程,而且通过多粒度特征提取可以有效捕获URL文本中的语义信息和模式判别特征,从而可以提高恶意URL的检测准确率。
作为一个示例,本申请实施例提供的恶意URL检测方案主要用于安全态势感知平台,其目标是基于已完成标注的训练数据集进行建模,训练深度学习模型。示例性地,当用户访问一个URL时,基于训练好的深度学习模型可以输出该URL对应的恶意倾向分值;响应于该恶意倾向分值大于阈值,判定该URL具有恶意倾向,可以阻止用户直接访问该URL。其中,整个方案中最核心的步骤即是训练用于计算恶意倾向分值的深度学习模型。在本申请实施例中,该模型具有以下特点:第一、端到端训练,无需任何手工特征工程;第二、在模型训练阶段,可以自适应融合字符维度特征与单词维度特征,充分挖掘出URL的语义信息和模式判别特征,能够提高模型的泛化能力;第三、引入域名维度特征,能够为模型训练阶段提供额外的信息指导。
在一种可能的实现方式中,本申请实施例提供的网络链接识别方法的应用场景包括但不限于如下几种场景。
场景1、钓鱼短信识别
其中,钓鱼短信很形象,和我们平常休闲钓鱼的手法基本一致,利用各种鱼饵伪装鱼钩,诱导鱼来咬钩。而钓鱼短信也是一样,可以通过伪装成相关业务人员,来骗取用户输入个人隐私信息或账号密码等,以从中获利。举例来说,钓鱼短信可以伪装成银行发送短信,即攻击者使用伪基站伪装成银行的短信服务号向用户发送通知短信,该通知短信中通常都会包含一个供用户点击的URL,用户点该URL后会跳转至一个高仿的银行网页,进而引导用户输入账号信息等。
而利用本申请实施例提供的网络链接识别方案,在用户接收到相关钓鱼短信后,可以主动对该钓鱼短信中包括的URL进行识别,即主动检测出该URL具有恶意行为,阻止用户直接访问,从而避免用户受到损失。
场景2、钓鱼邮件检测
其中,钓鱼邮件是指利用伪装的电邮,欺骗收件人将账号和口令等信息回复给指定的接收者,或,引导收件人通过点击邮件中的URL跳转至特制的网页。其中,这些网页通常会伪装成和真实网站一样,如银行网页或理财网页,从而令用户信以为真,输入信用卡或银行卡的账号密码等,从而造成损失。即,钓鱼邮件的主要特点是以某管理机构的身份,使用正式的语气,邮件内容涉及到账号和口令。
而利用本申请实施例提供的网络链接识别方案,在用户接收到相关钓鱼邮件后,可以主动对该钓鱼邮件中包括的URL进行识别,即主动检测出该URL具有恶意行为,阻止用户直接访问,从而避免用户受到损失。
场景3、浏览器的恶意URL访问拦截等
通常请情况下,浏览器的恶意URL对应的网站分为几大类:比如挂马网站、钓鱼网站和诈骗网站。其中,挂马网站通常是指黑客会在网页中插入一段恶意脚本,然后利用浏览器漏洞来执行恶意代码。而钓鱼网站和诈骗网站也属于一种恶意网站,它一般是通过模仿知名网站页面来欺骗用户。
而利用本申请实施例提供的网络链接识别方案,可以主动对浏览器所呈现的URL进行识别,即主动检测浏览器的URL是否具有恶意行为,且在检测到恶意URL时,会对用户针对恶意URL的访问进行拦截,以避免用户受到损失。
图2是本申请实施例提供的一种网络链接识别方法的流程图,该方法的执行主体为电子设备。参见图2,本申请实施例提供的方法流程包括以下步骤。
201、获取待识别的目标网络链接URL。
示例性地,待识别的目标URL通常可以从钓鱼短信、钓鱼邮件或浏览器中获取,本申请实施例对此不进行具体限定。其中,从何处获取待识别的目标URL可以是URL分类网络当前执行的下游任务而定。
其中,下述步骤202和和步骤203由预先训练好的URL分类网络执行。
202、对目标URL进行多粒度特征提取,得到目标URL的单词嵌入特征、字符嵌入特征以及域名嵌入特征。
示例性地,URL分类网络对目标URL进行多粒度特征提取,可以包括:
首先,去除目标URL的文本信息中的协议字段;之后,以第一标点符号和第二标点符号为基准,对目标URL的文本信息进行第一切分处理,得到目标URL的单词数据;对目标URL的单词数据进行逐个字符的第二切分处理,得到目标URL的字符数据;以第一标点符号为基准,对目标URL的文本信息进行第三切分处理,得到目标URL的域名数据。
之后,将目标URL的单词数据输入单词特征嵌入层进行特征表示,得到目标URL的单词嵌入特征;将目标URL的字符数据输入字符特征嵌入层进行特征表示,得到目标URL的字符嵌入特征;将目标URL的域名数据输入域名特征嵌入层进行特征表示,得到目标URL的域名嵌入特征。
203、对目标URL的单词嵌入特征和字符嵌入特征进行特征融合处理,得到目标URL的融合特征序列;基于目标URL的融合特征序列和域名嵌入特征,获取目标URL的非可信分值。
示例性地,针对特征融合过程,可以包括:对组成目标URL的各个单词的字符嵌入特征进行第二特征映射处理,得到目标URL的各个单词的字符级别特征;将目标URL的各个单词的单词嵌入向量和字符级别特征进行特征融合处理,得到组成目标URL的各个单词的融合特征。
示例性地,将目标URL的各个单词的单词嵌入向量和字符级别特征进行特征融合处理,可以包括:对于目标URL中的任意一个单词,将该单词的单词嵌入向量和字符级别特征输入第一全连接层;对第一全连接层输出的特征通过第一激活层进行激活处理,得到该单词的字符级别特征对应的第一权重;将目标数值与第一权重之间的差值,作为该单词的单词嵌入向量对应的第二权重;根据第一权重和第二权重,对该单词的单词嵌入向量和字符级别特征进行加权求和处理,得到该单词的融合特征。
针对获取目标URL的非可信分值的过程,可以包括:对目标URL的融合特征序列进行第一特征映射处理,得到目标URL的融合特征向量;根据目标URL中包括的域名级数,对域名嵌入特征进行加权求和处理,得到目标URL的域名级别特征;连接目标URL的融合特征向量和域名级别特征,将连接后的特征向量输入第二全连接层;对第二全连接层输出的特征通过第二激活层进行概率归一化处理,得到目标URL的非可信分值。其中,目标URL的融合特征序列中包括组成目标URL的各个单词的融合特征。
204、响应于目标URL的非可信分值大于目标阈值,输出第一识别结果;其中,第一识别结果用于指示目标URL为禁止访问的非可信URL。
示例性地,针对不同的任务可能会对应不同的阈值,所以若训练好的URL分类网络应用于目标任务,本申请实施例还包括如下步骤:获取与目标任务匹配的目标阈值。另外,在识别出恶意URL后,除了对用户进行提醒之外,还可以自动禁止用户对目标URL的访问操作,本申请实施例对此不进行具体限定。
在进行URL识别过程中,本申请实施例会提取待识别URL的多粒度特征,比如单词维度特征、字符维度特征和域名维度特征,进而再通过多粒度特征的特征融合和分析处理,来获取待识别URL的不可信分值,该种URL识别方法不但无需任何手工特征工程,而且通过多粒度特征提取以及特征融合等处理步骤,可以有效捕获URL文本中的语义信息和模式判别特征,且域名维度特征的引入也对URL的判别提供了指导性信息,因此本申请实施例不但降低了人力成本和物力成本,而且可以大幅提高恶意URL的检测准确率。
需要说明的是,上述方法的执行依赖于训练好的用户计算恶意倾向分支的URL分类网络(为深度学习模型),即,本申请实施例实现网络链接识别的核心步骤在于训练用于计算恶意倾向分值的深度学习模型,下面对该深度学习模型的训练过程进行详细描述。参见图2,训练流程包括如下步骤。
205、获取训练数据集,该训练数据集中包括多个样本URL和该多个样本URL的标签信息。
示例性地,如图3所示,该训练数据集中包含的样本URL可以从如下两种渠道收集得到。其中一个渠道可以是通过用户反馈收集得到,比如用户可能会向云服务器反馈哪些URL属于恶意URL,进而将这些URL作为样本URL;另外一个渠道还可以是通过云服务器的云查接口来收集样本URL。
另外,对于收集到的这些URL,还可以进一步地通过人工测试来为这些URL进行标注,进而得到这些URL的标签信息,形成训练数据集。
以下涉及数据组织步骤。
206、对该训练数据集中的各个样本URL进行预处理,得到该训练数据集中各个样本URL的单词数据、字符数据和域名数据。
在一种可能的实现方式中,对每个样本URL进行预处理,包括但不限于如下步骤。
2061、去除该样本URL的文本信息中的协议字段;以第一标点符号和第二标点符号为基准,对该样本URL的文本信息进行第一切分处理,得到该样本URL的单词数据。
示例性地,协议字段通常指代“https”,第一标点符号通常指代“.”,第二标点符号通常指代“/”,即以符号“.”和“/”对该样本URL的文本信息进行切分以获取单词数据。
2062、对该样本URL的单词数据进行逐个字符的第二切分处理,得到该样本URL的字符数据。
本步骤即是将通过上述步骤2061得到的单词数据进行逐字符切分以获取字符数据。
2063、以第一标点符号为基准,对该样本URL的文本信息进行第三切分处理,得到样该本URL的域名数据。
本步骤即是以符号“.”对该样本URL的文本信息进行切换以获取域名数据。
举例来说,图4示出了一个URL文本的样例。下面以钓鱼短信样本中的URL文本为例对步骤206提供的数据组织方式进行说明。
图3给出了一个钓鱼短信样本301,该钓鱼短信样本301中包括了一个URL“http://se-123456.com/jfdh/exchange”,在从该钓鱼短信样本301中获取到这个URL后,对这个URL进行数据组织,分别得到该URL的单词数据302“se-123456、 com、fdh、exchange”;字符数据303“s、e、-、1、2、3、4、5、6、c、o、m、f、d、h、e、x、c、h、a、n、g、e”;其中,域名数据304包括一个一级域名“com”,一个二级域名“se-123456”。
在本申请实施例中,上述数据组织方式可以公式化为下述内容。
以一个样本URL的文本信息为
Figure 777020DEST_PATH_IMAGE001
为例,则Sd指代域名数据,Sw指代单词数据,Sc指代字符数据。其中,
Figure 548361DEST_PATH_IMAGE002
,p为域名的级数,d1指代一级域名,d2指代二级域名,dp指代p级域名;
Figure 338463DEST_PATH_IMAGE003
,q为该样本URL中包括的单词个数,w1指代第一个单词,w2指代第二个单词,wq指代第q个单词;
Figure 905842DEST_PATH_IMAGE004
,元素c的下标为单词的索引,元素c的上标为该字符在该单词中的位置索引。
相应地,该训练数据集可以表示为
Figure 501908DEST_PATH_IMAGE005
,其中,Si指代第i个样本URL,yi为第i个样本URL的标签信息,N为该训练样本集中包括的样本URL的数量。
以下涉及多粒度特征提取步骤。
207、对该训练数据集中各个样本URL的单词数据、字符数据和域名数据分别进行特征表示,得到各个样本URL的单词嵌入特征、字符嵌入特征和域名嵌入特征。
参见图4所示的模型框架图,本步骤分别通过该模型框架图中的字符特征嵌入层、单词特征嵌入层和域名特征嵌入层进行特征表示。
其中,字符特征嵌入层、单词特征嵌入层和域名特征嵌入层,也可以分别被称之为字符特征表示层、单词特征表示层和域名特征表示层。
详细来说,对于该训练数据集中的任意一个样本URL,该样本URL的单词数据通过单词特征嵌入层进行特征嵌入,得到该样本URL的单词嵌入特征;该样本URL的字符数据通过字符特征嵌入层进行特征嵌入,得到该样本URL的字符嵌入特征;该样本URL的域名数据通过域名特征嵌入层进行特征嵌入,得到该样本URL的域名嵌入特征。
换言之,对该样本URL的单词数据、字符数据和域名数据分别进行特征表示,包括:将该样本URL的单词数据输入单词特征嵌入层(也称第一特征嵌入层)进行特征表示;将该样本URL的字符数据输入字符特征嵌入层(也称第二特征嵌入层)进行特征表示;将该样本URL的域名数据输入域名特征嵌入层(也称第三特征嵌入层)进行特征表示。
本步骤用于将离散变量映射为稠密的特征向量。换句话说,此处的三个特征嵌入层是分别提供稠密的单词表示,稠密的字符表示和稠密的域名表示的。例如,字符“a”的离散表示为“[0,0,1]”,转换成稠密表示后可以为“[0.1,0.2,0.1]”,这三个特征嵌入层的作用即是将离散表示转换为稠密表示(离散表示比较稀疏不利于神经网络学习)。
其中,对于该训练数据集中的任意一个样本URL,该样本URL的单词嵌入特征中包括组成该样本URL的各个单词的单词嵌入向量;该样本URL的一个字符嵌入特征中包括组成一个单词的各个字符的字符嵌入向量。
需要说明的是,单词特征嵌入层中包括第一特征嵌入矩阵;字符特征嵌入层中包括第二特征嵌入矩阵;域名特征嵌入层包括第三特征嵌入矩阵。
其中,第一特征嵌入层包括第一特征嵌入矩阵;第一特征嵌入矩阵的行数与第一特征嵌入层输出的单词嵌入向量的维度一致,列数与训练数据集的单词词典的大小一致;第二特征嵌入矩阵的行数与字符嵌入层输出的字符嵌入向量的维度一致,列数与训练数据集的字符词典的大小一致;第三特征嵌入矩阵的行数与域名嵌入层输出的域名嵌入向量特征的维度一致,列数与训练数据集的域名词典的大小一致。
其中,上述单词字典是根据该训练数据集中所有样本URL包括的单词形成的;上述字符字典是根据上述单词字典中包括的字符形成的;上述域名字典是根据该训练数据集中所有样本URL包括的域名形成的。
作为一个示例,以该训练数据集中的任意一个样本URL的单词数据为例,则在多粒度特征提取阶段,会将该单词数据输入到嵌入矩阵为
Figure 336878DEST_PATH_IMAGE006
的单词特征嵌入层。其中,m为单词特征嵌入层输出的单词嵌入向量的维度,D为该训练数据集的单词字典的大小。令
Figure 563460DEST_PATH_IMAGE007
表示单词
Figure 618135DEST_PATH_IMAGE008
在该单词字典中的索引,则单词特征嵌入层的数学表示如下所示:
Figure 955575DEST_PATH_IMAGE009
其中,
Figure 707368DEST_PATH_IMAGE010
为单词
Figure 855584DEST_PATH_IMAGE008
的单词嵌入向量,
Figure 381243DEST_PATH_IMAGE011
表示上述嵌入矩阵的第v列。
收集该样本URL每个位置的单词嵌入向量便构成该样本URL的单词嵌入特征
Figure 771642DEST_PATH_IMAGE012
。同理,在统计到该训练数据集的域名字典和字符字典后,可以分别通过字符特征嵌入层和域名特征嵌入层,获得该样本URL的域名嵌入特征
Figure 863095DEST_PATH_IMAGE013
和字符嵌入特征
Figure 244529DEST_PATH_IMAGE014
需要说明的是,如图4的模型框架图所示,在对样本URL进行字符特征表示得到字符嵌入特征后,本申请实施例还会通过卷积层、激活层和池化层,对字符嵌入特征进行多尺度卷积操作和最大池化操作,进而得到该样本URL中各个单词的字符级别特征。详细描述请参见下述步骤208。
208、对于该训练数据集中的任意一个样本URL,对组成该样本URL的各个单词的字符嵌入特征进行第二特征映射处理,得到该样本URL中各个单词的字符级别特征。
示例性地,第二特征映射处理可以包括多尺度卷积操作和最大池化操作,即如图4的模型框架图所示,在字符特征嵌入层后面可以连接卷积层、激活层和最大池化层。
举例来说,以该样本URL中单词
Figure 512611DEST_PATH_IMAGE015
的字符嵌入特征为
Figure 457433DEST_PATH_IMAGE016
为例,其中
Figure 622966DEST_PATH_IMAGE017
表示单词
Figure 470574DEST_PATH_IMAGE015
第2个字符的字符嵌入向量,则采用多尺度卷积操作和最大池化操作提取单词
Figure 705247DEST_PATH_IMAGE018
的字符特征
Figure 938913DEST_PATH_IMAGE019
,可以表示为如下公式:
Figure 473800DEST_PATH_IMAGE020
其中,
Figure 429992DEST_PATH_IMAGE021
指代多尺度卷积操作,
Figure 168272DEST_PATH_IMAGE022
指代字符维度上的最大池化操作,
Figure 251635DEST_PATH_IMAGE023
为卷积核参数,
Figure 827978DEST_PATH_IMAGE024
为单词
Figure 174646DEST_PATH_IMAGE025
的第j个字符的字符嵌入特征。
类似地,对该样本URL中的每个单词的字符嵌入特征分别采用上述操作(权重
Figure 665801DEST_PATH_IMAGE023
是共享的),即可以获得该样本URL中全部单词的字符级别特征集合
Figure 756117DEST_PATH_IMAGE026
。其中,q指代该样本URL中包括的单词个数。
以下涉及自适应特征融合步骤。
209、将该样本URL中各个单词的单词嵌入向量和字符级别特征进行特征融合处理,得到组成该样本URL的各个单词的融合特征。
本步骤即对应图4中示出的模型框架图中的特征融合机制步骤。其中,该特征融合机制的具体内部架构请参见图5。如图5所示,该内部包括全连接层501和激活层502。其中,全连接层501在本文中也被称之为第一全连接层。
作为一个示例,将该样本URL中各个单词的单词嵌入向量和字符级别特征进行特征融合处理,得到组成该样本URL的各个单词的融合特征,包括但不限于如下步骤。
2091、对于该样本URL的任意一个单词,将该单词的单词嵌入向量和该单词的字符级别特征输入第一全连接层;对第一全连接层输出的特征通过第一激活层进行激活处理,得到该单词的字符级别特征对应的第一权重。
示例性地,第一激活层采用的激活函数可以为sigmoid函数,即本申请实施例可以采用sigmoid函数对第一全连接层输出的特征进行激活处理。
以该样本URL中单词
Figure 203279DEST_PATH_IMAGE027
为例,则将单词
Figure 722114DEST_PATH_IMAGE027
的单词嵌入向量
Figure 949833DEST_PATH_IMAGE028
和字符级别特征
Figure 328993DEST_PATH_IMAGE029
输入到全连接层501并采用激活层502的sigmoid函数进行激活处理,可以获得字符级别特征
Figure 692979DEST_PATH_IMAGE029
对应的权重
Figure 568400DEST_PATH_IMAGE030
(即第一权重),相应的计算公式如下:
Figure 17835DEST_PATH_IMAGE031
其中,
Figure 466265DEST_PATH_IMAGE032
为特征连接操作;
Figure 153599DEST_PATH_IMAGE033
为可学习权重,即需要学习的网络参数。
在得到权重
Figure 58976DEST_PATH_IMAGE034
后,便可按照图5所示的特征融合方式进行特征融合,详细请参见下述步骤2092。
2092、将目标数值与第一权重之间的差值,作为该单词的单词嵌入向量对应的第二权重;根据第一权重和第二权重,对该单词的单词嵌入向量和该单词的字符级别特征进行加权求和处理,得到该单词的融合特征。
示例性地,目标数值的取值通常为1,那么第二权重即为1-
Figure 464549DEST_PATH_IMAGE030
,相应地,将单词
Figure 716670DEST_PATH_IMAGE035
的单词嵌入向量
Figure 789668DEST_PATH_IMAGE036
和字符级别特征
Figure 272471DEST_PATH_IMAGE037
进行融合处理的计算公式如下:
Figure 430920DEST_PATH_IMAGE038
其中,
Figure 955573DEST_PATH_IMAGE039
指代单词
Figure 883078DEST_PATH_IMAGE040
的融合特征。
需要说明的是,以上以该样本URL中的一个单词为例说明了特征融合过程,类似地,对于该样本URL中的其他所有单词均可采用上述融合方式进行特征融合,进而可以得到可获得该样本URL中每个单词的融合特征,收集该样本URL中每个单词的融合特征,便可得到一个融合特征序列
Figure 604958DEST_PATH_IMAGE041
,其中
Figure 250703DEST_PATH_IMAGE042
为第t个单词的融合特征,q为该样本URL中包括的单词的数量。
210、对该样本URL的融合特征序列进行第一特征映射处理,得到该样本URL的融合特征向量。
示例性地,第一特征映射处理可以包括多尺度卷积操作和最大池化操作,即如图4的模型框架图所示,在特征融合机制步骤之后还可以连接卷积层、激活层和最大池化层,本申请实施例对此不进行具体限定。
Figure 765998DEST_PATH_IMAGE043
表征该样本URL的融合特征向量,则通过多尺度卷积操作和最大池化操作将该样本URL的融合特征序列处理为融合特征向量
Figure 564321DEST_PATH_IMAGE043
的计算公式可以为:
Figure 936397DEST_PATH_IMAGE044
其中,
Figure 318705DEST_PATH_IMAGE045
指代多尺度卷积操作,
Figure 700008DEST_PATH_IMAGE046
指代字符维度上的最大池化操作,
Figure 556100DEST_PATH_IMAGE047
为卷积核参数,H为该样本URL的融合特征序列。
以下涉及模型学习与损失函数步骤。
211、对于该训练数据集中的任意一个样本URL,根据该样本URL的域名嵌入特征,获取该样本URL的域名级别特征。
在一种可能的实现方式中,根据样本该URL的域名嵌入特征,获取该样本URL的域名级别特征,包括但不限于如下方式:根据该样本URL中包括的域名级数,对该样本URL的域名嵌入特征进行加权求和处理,得到该样本URL的域名级别特征,相应的计算公式为:
Figure 99077DEST_PATH_IMAGE048
其中,
Figure 703102DEST_PATH_IMAGE049
指代该样本URL的域名级别特征,
Figure 888096DEST_PATH_IMAGE050
指代该样本URL的各级域名数据的域名嵌入向量,
Figure 395432DEST_PATH_IMAGE051
指代该样本URL包括的域名级数。
212、连接该样本URL的融合特征向量和域名级别特征,将连接后的特征向量输入第二全连接层;通过第二激活层对第二全连接层输出的特征进行概率归一化处理,得到该样本URL的非可信分值。
参见图4所示的模型框架图,在将该样本融合特征序列处理为融合特征向量后,域名特征嵌入层输出的域名嵌入特征和该融合特征向量会一并输入至第二全连接层,并进一步地通过与第二全连接层连接的第二激活层,对第二全连接层输出的特征进行概率归一化处理,得到该样本URL的非可信分值。
示例性地,可以采用sigmoid函数进行概率归一化处理。其中,非可信分值的计算公式如下:
Figure 109310DEST_PATH_IMAGE052
其中,
Figure 466211DEST_PATH_IMAGE053
为特征连接操作;
Figure 126999DEST_PATH_IMAGE054
为可学习权重,即需要学习的网络参数;
Figure 738109DEST_PATH_IMAGE055
为预测的条件概率,也即是MTS。其中,y指代样本URL的真实标签,S指代样本URL。
通过上述步骤211和步骤212可以计算得到该训练数据集中每个样本URL的MTS。
213、根据各个样本URL的非可信分值和相应的标签信息,不断优化初始深度学习网络的网络参数,直至损失函数满足目标条件,得到用于计算恶意倾向分值的URL分类网络。
作为一个示例,目标损失函数可以为二分类交叉熵损失函数。即,损失函数为:
Figure 904779DEST_PATH_IMAGE056
其中,
Figure 234129DEST_PATH_IMAGE057
指代该训练数据集,N为该训练数据集中包括的样本URL的数量。
示例性地,在训练模型的过程中,可以采用ADAM算法(一种可以替代传统随机梯度下降算法的一阶优化算法)和反向传播算法,来进行参数更新和学习,本申请实施例对此不进行具体限定。
另外,上述目标条件既可以为损失函数达到最小值,也可以为损失函数小于一定阈值,本申请实施例对此不进行具体限定。
本申请实施例提供的方法至少具有以下有益效果:
针对应用过程,在进行URL识别过程中,本申请实施例会提取待识别URL的多粒度特征,比如单词维度特征、字符维度特征和域名维度特征,进而再通过多粒度特征的特征融合和分析处理,来获取待识别URL的不可信分值,该种URL识别方法不但无需任何手工特征工程,而且通过多粒度特征提取以及特征融合等处理步骤,可以有效捕获URL文本中的语义信息和模式判别特征,且域名维度特征的引入也对URL的判别提供了指导性信息,因此本申请实施例不但降低了人力成本和物力成本,而且可以大幅提高恶意URL的检测准确率。
针对训练过程,在训练用于计算恶意倾向分值的深度学习模型(即URL分类网络)时,本申请实施例会提取样本URL的多粒度特征,比如单词维度特征、字符维度特征和域名维度特征;之后,还会进一步地融合单词维度特征和字符维度特征,并最终基于域名维度特征与融合后的特征来进行模型训练;即,本申请实施例通过多粒度特征提取、自适应特征融合、以及将域名维度特征与融合后的特征直接连接等步骤完成模型训练,而经过上述步骤训练出来的模型能够充分挖掘URL的语义信息和模式判别特征,实现了高准确率的恶意URL分类模型,进而在URL识别过程中可以大幅度提高恶意URL的识别准确率。
换言之,在本申请实施例中,训练出来的深度学习模型具有以下特点:第一、端到端训练,无需任何手工特征工程;第二、在模型训练阶段,可以自适应融合字符维度特征与单词维度特征,充分挖掘出URL的语义信息和模式判别特征,能够提高模型的泛化能力;第三、引入域名维度特征,能够为模型训练阶段提供额外的信息指导。
举例来说,假设数据集由用户授权的100万条URL访问数据构成,将该数据集按照8:1:1的比例依次划分为训练数据集、验证数据集和测试数据集。在实验过程中,实验模型包括:TFIDF+logistic、multi sclae CNN、char-CNN & word-CNN、以及本申请实施例提供的模型,上述几个模型的实验结果可如下述表1所示。其中,由下述表1可以看出,本申请实施例提供的模型在F1值上均优于其他模型,即该种URL识别方案更为有效。
表1
Figure 738755DEST_PATH_IMAGE058
在另一个实施例中,在采用测试数据集对训练好的URL分类网络进行测试的过程中,由于训练过程中使用的训练数据集可能无法全面覆盖测试数据集的单词字典,因此在测试过程中可能会存在测试URL中的部分单词没有对应的单词嵌入向量的情况,为了避免因这种情况的出现而影响模型性能,在测试过程中可以采取如下处理方式:若测试URL中出现训练过程中使用的单词字典中不存在的单词,则将
Figure 407633DEST_PATH_IMAGE059
中出现的
Figure 479626DEST_PATH_IMAGE060
置为1,也即完全使用单词的字符级别特征,这是因为训练过程中使用的字符字典是全量的(包含所有字符)。相应地,进行特征融合处理的计算公式改写为:
Figure 296272DEST_PATH_IMAGE061
上述过程用文字描述即为:在基于测试数据集对URL分类网络进行测试的过程中,响应于测试数据集的测试URL中包括训练数据集的单词字典中未出现的单词,将该单词的字符级别特征作为该单词的融合特征。
下面通过图6对本申请实施例提供的URL识别的整体执行进行说明。
如图6所示,URL识别的整体执行流程主要包括三部分,分别是数据收集阶段601、模型训练阶段602和模型服务阶段603。
针对数据收集阶段601,可以通过用户反馈和云查接口来获取样本URL,并对未进行标注的样本URL进行人工测试标注。
针对模型训练阶段602,包括但不限于如下步骤:
6021、对训练数据集中的各个样本URL进行预处理,比如样本URL进行切分,得到各个样本URL的域名数据、字符数据和单词数据。
6022、对于每个样本URL,将该样本URL的字符数据输入字符特征嵌入层进行字符嵌入特征表示,将该样本URL的域名数据输入域名特征嵌入层进行域名嵌入特征表示,将该样本URL的单词数据输入单词特征嵌入层进行单词嵌入特征表示。
6023、采用自适应特征融合机制,将该样本URL的单词嵌入特征和字符嵌入特征进行特征融合处理。
6024、将特征融合处理得到的融合特征和该样本URL的域名嵌入特征一并输入至全连接层。
6025、通过全连接层输出的各个样本URL的特征进行相应样本URL的恶意倾向分值计算,并基于各个样本URL的真实标签来最小化损失函数,以更新网络参数,得到URL分类网络。
针对模型服务阶段603,基于训练好的URL分类网络可以为下游诸如钓鱼短信识别、钓鱼邮件检测、恶意URL访问拦截等任务提供服务。即,通过URL分类网络计算的恶意倾向分值,再综合为不同任务设置的不同阈值参数,可以判断待识别URL是否具有恶意倾向,进而为下游任务提供服务。
本申请实施例在进行URL识别过程中,会提取待识别URL的多粒度特征,比如单词维度特征、字符维度特征和域名维度特征,进而再通过多粒度特征的特征融合和分析处理,来获取待识别URL的不可信分值,该种URL识别方法不但无需任何手工特征工程,而且通过多粒度特征提取以及特征融合等处理步骤,可以有效捕获URL文本中的语义信息和模式判别特征,且域名维度特征的引入也对URL的判别提供了指导性信息,因此本申请实施例不但降低了人力成本和物力成本,而且可以大幅提高恶意URL的检测准确率。
图7是本申请实施例提供的一种网络链接识别装置的结构示意图。参见图7,该装置包括以下模块。
获取模块701,被配置为获取待识别的目标URL;
识别模块702,被配置为对所述目标URL进行多粒度特征提取,得到所述目标URL的单词嵌入特征、字符嵌入特征以及域名嵌入特征;其中,单词由字符构成;
识别模块702,还被配置为对所述目标URL的单词嵌入特征和字符嵌入特征进行特征融合处理,得到所述目标URL的融合特征序列;
识别模块702,还被配置为基于所述目标URL的融合特征序列和域名嵌入特征,获取所述目标URL的非可信分值;
识别模块702,还被配置为响应于所述目标URL的非可信分值大于目标阈值,输出第一识别结果;其中,所述第一识别结果用于指示所述目标URL为禁止访问的非可信URL。
本申请实施例提供的装置,在进行URL识别过程中,会提取待识别URL的多粒度特征,比如单词维度特征、字符维度特征和域名维度特征,进而再通过多粒度特征的特征融合和分析处理,来获取待识别URL的不可信分值,该种URL识别方法不但无需任何手工特征工程,而且通过多粒度特征提取以及特征融合等处理步骤,可以有效捕获URL文本中的语义信息和模式判别特征,且域名维度特征的引入也对URL的判别提供了指导性信息,因此本申请实施例不但降低了人力成本和物力成本,而且可以大幅提高恶意URL的检测准确率。
在一种可能的实现方式中,所述识别模块,被配置为调用URL分类网络,执行对所述目标URL进行多粒度特征提取,对所述目标URL的单词嵌入特征和字符嵌入特征进行特征融合处理,以及获取所述目标URL的非可信分值的步骤;其中,所述URL分类网络是基于训练数据集中包括的样本URL的单词嵌入特征、字符嵌入特征以及域名嵌入特征训练得到的。
在一种可能的实现方式中,所述URL分类网络的训练过程包括:
获取所述训练数据集,所述训练数据集中包括样本URL和相应的标签信息;
对所述训练数据集中的各个样本URL进行预处理,得到所述各个样本URL的单词数据、字符数据和域名数据;
对所述各个样本URL的单词数据、字符数据和域名数据分别进行特征表示,得到所述各个样本URL的单词嵌入特征、字符嵌入特征和域名嵌入特征;
基于所述各个样本URL的单词嵌入特征、字符嵌入特征和域名嵌入特征,进行深度学习网络训练得到所述URL分类网络。
在一种可能的实现方式中,所述URL分类网络的训练过程包括:
对于任意一个所述样本URL,获取所述样本URL的融合特征序列,所述样本URL的融合特征序列中包括组成所述样本URL的各个单词的融合特征;
基于所述各个样本URL的融合特征序列和域名嵌入特征,进行深度学习网络训练得到所述URL分类网络。
在一种可能的实现方式中,所述URL分类网络的训练过程包括:
对于任意一个所述样本URL,对组成所述样本URL的各个单词的字符嵌入特征进行第二特征映射处理,得到所述各个单词的字符级别特征;
将所述各个单词的单词嵌入向量和字符级别特征进行特征融合处理,得到组成所述样本URL的各个单词的融合特征。
在一种可能的实现方式中,所述URL分类网络的训练过程包括:
对所述样本URL的融合特征序列进行第一特征映射处理,得到所述样本URL的融合特征向量;
基于所述各个样本URL的融合特征向量和域名嵌入特征,进行深度学习网络训练得到所述URL分类网络。
在一种可能的实现方式中,所述URL分类网络的训练过程包括:
对于所述样本URL中的任意一个单词,将所述单词的单词嵌入向量和字符级别特征输入第一全连接层;
对所述第一全连接层输出的特征通过第一激活层进行激活处理,得到所述字符级别特征对应的第一权重;
将目标数值与所述第一权重之间的差值,作为所述单词嵌入向量对应的第二权重;
根据所述第一权重和所述第二权重,对所述单词嵌入向量和所述字符级别特征进行加权求和处理,得到所述单词的融合特征。
在一种可能的实现方式中,所述URL分类网络的训练过程包括:
对于任意一个所述样本URL,根据所述样本URL的域名嵌入特征,获取所述样本URL的域名级别特征;
连接所述样本URL的融合特征向量和域名级别特征,将连接后的特征向量输入第二全连接层;
对所述第二全连接层输出的特征通过第二激活层进行概率归一化处理,得到所述样本URL的非可信分值;
根据所述各个样本URL的非可信分值和相应的标签信息,不断优化初始深度学习网络的网络参数,直至损失函数满足目标条件,得到所述URL分类网络。
在一种可能的实现方式中,所述URL分类网络的训练过程包括:
根据所述样本URL中包括的域名级数,对所述域名嵌入特征进行加权求和处理,得到所述样本URL的域名级别特征。
在一种可能的实现方式中,所述URL分类网络的训练过程包括:
获取测试数据集,所述测试数据集中包括测试URL;
在基于所述测试数据集对所述URL分类网络进行测试的过程中,响应于所述测试URL中包括所述训练数据集的单词字典中未出现的目标单词,将所述目标单词的字符级别特征作为所述目标单词的融合特征。
在一种可能的实现方式中,所述URL分类网络的训练过程包括:
对于任意一个所述样本URL,去除所述样本URL的文本信息中的协议字段;
以第一标点符号和第二标点符号为基准,对所述样本URL的文本信息进行第一切分处理,得到所述样本URL的单词数据;
对所述单词数据进行逐个字符的第二切分处理,得到所述样本URL的字符数据;
以所述第一标点符号为基准,对所述样本URL的文本信息进行第三切分处理,得到所述样本URL的域名数据。
在一种可能的实现方式中,所述特征表示模块,被配置为:
对于任意一个所述样本URL,将所述样本URL的单词数据输入第一特征嵌入层进行特征表示;
将所述样本URL的字符数据输入第二特征嵌入层进行特征表示;
将所述样本URL的域名数据输入第三特征嵌入层进行特征表示;
其中,所述第一特征嵌入层包括第一特征嵌入矩阵;所述第一特征嵌入矩阵的行数与所述第一特征嵌入层输出的单词嵌入向量的维度一致,列数与所述训练数据集的单词词典的大小一致;
所述第二特征嵌入层包括第二特征嵌入矩阵;所述第二特征嵌入矩阵的行数与所述字符嵌入层输出的字符嵌入向量的维度一致,所述第二特征嵌入矩阵的列数与所述训练数据集的字符词典的大小一致;
所述第三特征嵌入层包括第三特征嵌入矩阵;所述第三特征嵌入矩阵的行数与所述域名嵌入层输出的域名嵌入向量的维度一致,所述第三特征嵌入矩阵的列数与所述训练数据集的域名词典的大小一致。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的网络链接识别装置在识别网络链接时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的网络链接识别装置与网络链接识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图8是本申请实施例提供的一种电子设备的结构示意图,该电子设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central ProcessingUnits,CPU)801和一个或一个以上的存储器802,其中,所述存储器802中存储有至少一条指令,所述至少一条指令由所述处理器801加载并执行以实现上述各个方法实施例提供的网络链接识别方法。当然,该电子设备800还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备800中的处理器执行以完成上述实施例中的网络链接识别方法。例如,所述计算机可读存储介质可以是只读存储器(Read-Only Memory ,ROM)、随机存取存储器(Random Access Memory ,RAM)、光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备800的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备800执行上述的网络链接识别方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种网络链接识别方法,其特征在于,所述方法包括:
获取待识别的目标URL;
对所述目标URL进行多粒度特征提取,得到所述目标URL的单词嵌入特征、字符嵌入特征以及域名嵌入特征;其中,单词由字符构成,所述单词嵌入特征中包括组成所述目标URL的各个单词的单词嵌入向量;
对所述各个单词的字符嵌入特征进行第二特征映射处理,得到所述各个单词的字符级别特征;
对于所述目标URL中的任意一个单词,将所述单词的单词嵌入向量和字符级别特征输入第一全连接层;对所述第一全连接层输出的特征通过第一激活层进行激活处理,得到所述单词的字符级别特征对应的第一权重;将目标数值与所述第一权重之间的差值,作为所述单词的单词嵌入向量对应的第二权重;
根据所述第一权重和所述第二权重,对所述单词的单词嵌入向量和字符级别特征进行加权求和处理,得到所述单词的融合特征;
基于所述目标URL的融合特征序列和域名嵌入特征,获取所述目标URL的非可信分值;所述目标URL的融合特征序列中包括所述各个单词的融合特征;
响应于所述目标URL的非可信分值大于目标阈值,输出第一识别结果;其中,所述第一识别结果用于指示所述目标URL为禁止访问的非可信URL。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标URL进行多粒度特征提取,以及获取所述目标URL的非可信分值,包括:
调用URL分类网络,执行对所述目标URL进行多粒度特征提取,以及获取所述目标URL的非可信分值的步骤;
其中,所述URL分类网络是基于训练数据集中包括的样本URL的单词嵌入特征、字符嵌入特征以及域名嵌入特征训练得到的。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取所述训练数据集,所述训练数据集中包括样本URL和相应的标签信息;
对所述训练数据集中的各个样本URL进行预处理,得到所述各个样本URL的单词数据、字符数据和域名数据;
对所述各个样本URL的单词数据、字符数据和域名数据分别进行特征表示,得到所述各个样本URL的单词嵌入特征、字符嵌入特征和域名嵌入特征;
基于所述各个样本URL的单词嵌入特征、字符嵌入特征和域名嵌入特征,进行深度学习网络训练得到所述URL分类网络。
4.根据权利要求3所述的方法,其特征在于,所述基于所述各个样本URL的单词嵌入特征、字符嵌入特征和域名嵌入特征,进行深度学习网络训练得到所述URL分类网络,包括:
对于任意一个所述样本URL,获取所述样本URL的融合特征序列,所述样本URL的融合特征序列中包括组成所述样本URL的各个单词的融合特征;
基于所述各个样本URL的融合特征序列和域名嵌入特征,进行深度学习网络训练得到所述URL分类网络。
5.根据权利要求4所述的方法,其特征在于,所述基于所述各个样本URL的融合特征序列和域名嵌入特征,进行深度学习网络训练得到所述URL分类网络,包括:
对所述样本URL的融合特征序列进行第一特征映射处理,得到所述样本URL的融合特征向量;
基于所述各个样本URL的融合特征向量和域名嵌入特征,进行深度学习网络训练得到所述URL分类网络。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对于任意一个所述样本URL,对组成所述样本URL的各个单词的字符嵌入特征进行第二特征映射处理,得到所述各个单词的字符级别特征;
将所述各个单词的单词嵌入向量和字符级别特征进行特征融合处理,得到组成所述样本URL的各个单词的融合特征。
7.根据权利要求6所述的方法,其特征在于,所述将所述各个单词的单词嵌入向量和字符级别特征进行特征融合处理,得到组成所述样本URL的各个单词的融合特征,包括:
对于所述样本URL中的任意一个单词,将所述单词的单词嵌入向量和字符级别特征输入第一全连接层;
对所述第一全连接层输出的特征通过第一激活层进行激活处理,得到所述字符级别特征对应的第一权重;
将目标数值与所述第一权重之间的差值,作为所述单词嵌入向量对应的第二权重;
根据所述第一权重和所述第二权重,对所述单词嵌入向量和所述字符级别特征进行加权求和处理,得到所述单词的融合特征。
8.根据权利要求5所述的方法,其特征在于,所述基于所述各个样本URL的融合特征向量和域名嵌入特征,进行深度学习网络训练得到所述URL分类网络,包括:
对于任意一个所述样本URL,根据所述样本URL的域名嵌入特征,获取所述样本URL的域名级别特征;
连接所述样本URL的融合特征向量和域名级别特征,将连接后的特征向量输入第二全连接层;
对所述第二全连接层输出的特征通过第二激活层进行概率归一化处理,得到所述样本URL的非可信分值;
根据所述各个样本URL的非可信分值和相应的标签信息,不断优化初始深度学习网络的网络参数,直至损失函数满足目标条件,得到所述URL分类网络。
9.根据权利要求8所述的方法,其特征在于,所述根据所述样本URL的域名嵌入特征,获取所述样本URL的域名级别特征,包括:
根据所述样本URL中包括的域名级数,对所述域名嵌入特征进行加权求和处理,得到所述样本URL的域名级别特征。
10.根据权利要求4至9中任一项权利要求所述的方法,其特征在于,所述方法还包括:
获取测试数据集,所述测试数据集中包括测试URL;
在基于所述测试数据集对所述URL分类网络进行测试的过程中,响应于所述测试URL中包括所述训练数据集的单词字典中未出现的目标单词,将所述目标单词的字符级别特征作为所述目标单词的融合特征。
11.根据权利要求3所述的方法,其特征在于,所述对所述训练数据集中的各个样本URL进行预处理,得到所述各个样本URL的单词数据、字符数据和域名数据,包括:
对于任意一个所述样本URL,去除所述样本URL的文本信息中的协议字段;
以第一标点符号和第二标点符号为基准,对所述样本URL的文本信息进行第一切分处理,得到所述样本URL的单词数据;
对所述单词数据进行逐个字符的第二切分处理,得到所述样本URL的字符数据;
以所述第一标点符号为基准,对所述样本URL的文本信息进行第三切分处理,得到所述样本URL的域名数据。
12.根据权利要求3所述的方法,其特征在于,所述对所述各个样本URL的单词数据、字符数据和域名数据分别进行特征表示,包括:
对于任意一个所述样本URL,将所述样本URL的单词数据输入第一特征嵌入层进行特征表示;
将所述样本URL的字符数据输入第二特征嵌入层进行特征表示;
将所述样本URL的域名数据输入第三特征嵌入层进行特征表示;
其中,所述第一特征嵌入层包括第一特征嵌入矩阵;所述第一特征嵌入矩阵的行数与所述第一特征嵌入层输出的单词嵌入向量的维度一致,列数与所述训练数据集的单词词典的大小一致;
所述第二特征嵌入层包括第二特征嵌入矩阵;所述第二特征嵌入矩阵的行数与字符嵌入层输出的字符嵌入向量的维度一致,所述第二特征嵌入矩阵的列数与所述训练数据集的字符词典的大小一致;
所述第三特征嵌入层包括第三特征嵌入矩阵;所述第三特征嵌入矩阵的行数与域名嵌入层输出的域名嵌入向量的维度一致,所述第三特征嵌入矩阵的列数与所述训练数据集的域名词典的大小一致。
13.一种网络链接识别装置,其特征在于,所述装置包括:
获取模块,被配置为获取待识别的目标URL;
识别模块,被配置为对所述目标URL进行多粒度特征提取,得到所述目标URL的单词嵌入特征、字符嵌入特征以及域名嵌入特征;其中,单词由字符构成,所述单词嵌入特征中包括组成所述目标URL的各个单词的单词嵌入向量;
所述识别模块,还被配置为对所述各个单词的字符嵌入特征进行第二特征映射处理,得到所述各个单词的字符级别特征;对于所述目标URL中的任意一个单词,将所述单词的单词嵌入向量和字符级别特征输入第一全连接层;对所述第一全连接层输出的特征通过第一激活层进行激活处理,得到所述单词的字符级别特征对应的第一权重;将目标数值与所述第一权重之间的差值,作为所述单词的单词嵌入向量对应的第二权重;根据所述第一权重和所述第二权重,对所述单词的单词嵌入向量和字符级别特征进行加权求和处理,得到所述单词的融合特征;
所述识别模块,还被配置为基于所述目标URL的融合特征序列和域名嵌入特征,获取所述目标URL的非可信分值;所述目标URL的融合特征序列中包括所述各个单词的融合特征;
所述识别模块,还被配置为响应于所述目标URL的非可信分值大于目标阈值,输出第一识别结果;其中,所述第一识别结果用于指示所述目标URL为禁止访问的非可信URL。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至12中任一项权利要求所述的网络链接识别方法。
15.一种电子设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如权利要求1至12中任一项权利要求所述的网络链接识别方法。
CN202010650067.5A 2020-07-08 2020-07-08 网络链接识别方法、装置、存储介质及电子设备 Active CN111538929B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010650067.5A CN111538929B (zh) 2020-07-08 2020-07-08 网络链接识别方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010650067.5A CN111538929B (zh) 2020-07-08 2020-07-08 网络链接识别方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN111538929A CN111538929A (zh) 2020-08-14
CN111538929B true CN111538929B (zh) 2020-12-18

Family

ID=71976480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010650067.5A Active CN111538929B (zh) 2020-07-08 2020-07-08 网络链接识别方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN111538929B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488621A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种篡改网页检测方法、系统及电子设备和存储介质
CN112491784A (zh) * 2020-10-14 2021-03-12 新浪网技术(中国)有限公司 Web网站的请求处理方法及装置、计算机可读存储介质
CN113051500B (zh) * 2021-03-25 2022-08-16 武汉大学 一种融合多源数据的钓鱼网站识别方法及系统
CN113312622A (zh) * 2021-06-09 2021-08-27 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 一种检测url的方法及装置
CN114357446A (zh) * 2021-12-27 2022-04-15 四川启睿克科技有限公司 提升计算机安全性能的方法、系统、设备、存储介质
CN116150697A (zh) * 2023-04-19 2023-05-23 上海钐昆网络科技有限公司 一种异常应用识别方法、装置、设备、存储介质及产品
CN116432238B (zh) * 2023-06-05 2023-09-08 全中半导体(深圳)有限公司 数据存储方法、装置以及存储芯片
CN117725209A (zh) * 2023-09-27 2024-03-19 书行科技(北京)有限公司 意图识别方法、装置、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543084A (zh) * 2018-11-09 2019-03-29 西安交通大学 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN110490054A (zh) * 2019-07-08 2019-11-22 北京三快在线科技有限公司 目标区域的检测方法、装置、电子设备及可读存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9350792B2 (en) * 2014-04-16 2016-05-24 Go Daddy Operating Company, LLC Method for location-based website hosting optimization
CN104537303B (zh) * 2014-12-30 2017-10-24 中国科学院深圳先进技术研究院 一种钓鱼网站鉴别系统及鉴别方法
CN106789888B (zh) * 2016-11-18 2020-08-04 重庆邮电大学 一种多特征融合的钓鱼网页检测方法
US10693837B2 (en) * 2017-08-24 2020-06-23 Verisign, Inc. System for and method of ranking domain names based on user properties
US20190259008A1 (en) * 2017-08-28 2019-08-22 Stephen Boyd Lindsey System and Method of Indexing Websites Using Contextually Unique Domain Extensions
CN107798080B (zh) * 2017-10-13 2020-05-22 中国科学院信息工程研究所 一种面向钓鱼url检测的相似样本集构造方法
CN109005145B (zh) * 2018-06-04 2021-01-01 上海交通大学 一种基于自动特征抽取的恶意url检测系统及其方法
CN109101552B (zh) * 2018-07-10 2022-01-28 东南大学 一种基于深度学习的钓鱼网站url检测方法
CN109299262B (zh) * 2018-10-09 2022-04-15 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN110602045B (zh) * 2019-08-13 2022-03-08 南京邮电大学 一种基于特征融合和机器学习的恶意网页识别方法
CN111198995B (zh) * 2020-01-07 2023-03-24 电子科技大学 一种恶意网页识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543084A (zh) * 2018-11-09 2019-03-29 西安交通大学 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN110490054A (zh) * 2019-07-08 2019-11-22 北京三快在线科技有限公司 目标区域的检测方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN111538929A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN111538929B (zh) 网络链接识别方法、装置、存储介质及电子设备
Sahingoz et al. Machine learning based phishing detection from URLs
Asiri et al. A survey of intelligent detection designs of HTML URL phishing attacks
US9621570B2 (en) System and method for selectively evolving phishing detection rules
Buber et al. NLP based phishing attack detection from URLs
Aljabri et al. Detecting malicious URLs using machine learning techniques: review and research directions
Mishra et al. Dsmishsms-a system to detect smishing sms
Mohan et al. Spoof net: syntactic patterns for identification of ominous online factors
KR102093275B1 (ko) 악성코드 감염 유도정보 판별 시스템, 프로그램이 기록된 저장매체 및 방법
Chai et al. An explainable multi-modal hierarchical attention model for developing phishing threat intelligence
Liu et al. An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment
Yuan et al. A novel approach for malicious URL detection based on the joint model
Akande et al. SMSPROTECT: An automatic smishing detection mobile application
Chatterjee et al. Deep reinforcement learning for detecting malicious websites
Zhang et al. Cross-site scripting (XSS) detection integrating evidences in multiple stages
CN115757991A (zh) 一种网页识别方法、装置、电子设备和存储介质
CN114422271B (zh) 数据处理方法、装置、设备及可读存储介质
Soman et al. A comprehensive tutorial and survey of applications of deep learning for cyber security
CN113918936A (zh) Sql注入攻击检测的方法以及装置
Kasim Automatic detection of phishing pages with event-based request processing, deep-hybrid feature extraction and light gradient boosted machine model
Zonyfar et al. HCNN-LSTM: Hybrid Convolutional Neural Network with Long Short-Term Memory Integrated for Legitimate Web Prediction
Kumarasiri et al. Cybersmish: A Proactive Approach for Smishing Detection and Prevention using Machine Learning
Asiri et al. PhishingRTDS: A real-time detection system for phishing attacks using a Deep Learning model
Zhu Online meta-learning firewall to prevent phishing attacks
CN117729003A (zh) 基于机器学习的威胁情报可信分析系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40027337

Country of ref document: HK