CN108111584A - 一种基于特征提取的有效下载链接识别方法与系统 - Google Patents

一种基于特征提取的有效下载链接识别方法与系统 Download PDF

Info

Publication number
CN108111584A
CN108111584A CN201711344106.3A CN201711344106A CN108111584A CN 108111584 A CN108111584 A CN 108111584A CN 201711344106 A CN201711344106 A CN 201711344106A CN 108111584 A CN108111584 A CN 108111584A
Authority
CN
China
Prior art keywords
link
mtd
mtr
mrow
msub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711344106.3A
Other languages
English (en)
Other versions
CN108111584B (zh
Inventor
申卓祥
覃涛明
段桂华
李智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201711344106.3A priority Critical patent/CN108111584B/zh
Publication of CN108111584A publication Critical patent/CN108111584A/zh
Application granted granted Critical
Publication of CN108111584B publication Critical patent/CN108111584B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0236Filtering by address, protocol, port number or service, e.g. IP-address or URL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1466Active attacks involving interception, injection, modification, spoofing of data unit addresses, e.g. hijacking, packet injection or TCP sequence number attacks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于特征提取的有效下载链接识别方法与系统,该方法包括以下步骤:步骤1:从云服务器获取链接训练数据,并从训练数据中提取链接数据特征向量;步骤2:在云服务器中,基于链接数据特征向量和链接标签训练机器学习判别器;步骤3:将待识别的链接按照步骤1的方式提取链接数据特征向量,输入步骤2得到的机器学习判别器中,输出链接标签,完成对链接的识别。相对于现有技术而言,该方案提供了主动识别机制以克服纯黑名单比对产生的漏判;针对性地提出了个性化特征以弥补识别目标的差异;客户端以插件和弹窗结果反馈形式实现从而增强交互性和用户体验;(4)依托云计算架构大大减少用户电脑的负担并节约管理成本。

Description

一种基于特征提取的有效下载链接识别方法与系统
技术领域
本发明属于信息安全领域,特别涉及一种基于特征提取的有效下载链接识别方法与系统。
背景技术
互联网为人们的生产生活带来了巨大的便利,但与此同时,互联网的发展也带来了不少问题。一些病毒软件及恶意代码借由互联网这一“捷径”疯狂传播,严重威胁人们的信息和财产安全。有时下载某个文件时,尤其是去一些小的下载网站下载时,发现打开的下载链接并不是想要的文件,而是带有商业性质的推销广告,还有些则是低俗、不堪入目、严重影响未成年人身心健康的黄色网站,更有甚者,有些链接还会后台下载流氓软件或是网页木马,不仅威胁人们的个人隐私,拖慢电脑运行速度,而且那些淫秽站点对人们的精神损失也不可估量。因此设计一种有效下载链接识别方案帮助用户在不打开链接的情况下预判链接的有效性很有必要。
当今类似方向上的软件系统主要存在三个方面的问题:
一是现今仍有很多软件系统只依赖黑名单,寄希望通过用户的举报扩充黑名单的数据,然后通过比对黑名单告知用户所点链接的风险。这种方法缺点在于,没有哪一个黑名单能够保证涵盖所有风险链接,它完全依赖其他用户的举报,如果其他用户举报不及时或是没发现则很容易出现漏判。
二是部分采用了特征提取和机器学习的软件系统其着眼点往往是钓鱼网站,对下载链接的识别缺乏针对性,因为下载链接又有自己的一些特点,有一些个性化特征,还是有不少差异,盲目地将这些系统用来识别下载链接会产生大量的误判和漏判。
三是这种功能往往是一个大软件系统中的小功能,用户必须要安装整个软件系统,占用系统资源大,用户体验不好。
发明内容
本发明针对现有技术中存在的下载链接识别不准确的问题,提出了一种基于特征提取的有效下载链接识别方法与系统。
一种基于特征提取的有效下载链接识别方法,包括以下步骤:
步骤1:从云服务器获取链接训练数据,并从训练数据中提取链接数据特征向量;
步骤2:在云服务器中,基于链接数据特征向量和链接标签训练机器学习判别器;
步骤3:将待识别的链接按照步骤1的方式提取链接数据特征向量,输入步骤2得到的机器学习判别器中,输出链接标签,完成对链接的识别。
进一步地,利用可信因子对链接识别结果进行评估:
p=z·u
其中,p表示可信概率z表示利用机器学习判别器获得判别结果,u表示链接可信因子。
进一步地,利用数据库记录链接黑名单和被举报次数,按照以下公式设置链接识别结果设置可信因子u:
其中,n表示该链接的举报次数。
举报次数越多,u的值越小;
进一步地,所述机器学习判别器的训练过程如下:
步骤2.1:利用训练数据中的链接数据特征向量和对应的链接标签构建线性回归模型;
hθ(x)=θTx
其中,θ表示参数向量,x表示链接数据特征向量,hθ(x)表示判别结果;
步骤2.2:以误差函数J(θ)取到最小值为目标,对步骤3.1的线性回归模型进行训练;
其中,x(i)和y(i)为一组训练数据中的链接特征向量和链接标签,链接标签为真实链接,取值为1,否则为0,m训练数据的数量;
步骤2.3:利用梯度法求解误差函数,得到最优θ*及对应的机器学习判别器z=θ* Tx。
进一步地,所述链接数据特征向量至少包括以下几个:
1)URL是否含有“@”,若含有,则特征值为1,反之为0;
2)URL是否超过5个“.”,若超过,则特征值为1,反之为0;
3)URL是否为IP地址,若为IP地址,则特征值为1,反之为0;
4)URL资源类型是否为网页型,若为网页型,则特征值为1,反之为0;
5)URL资源大小是否超过2M,若超过,则特征值为1,反之为0。
进一步地,当实时判别的链接数据量达到训练数据的5%时,将实时判别的链接数据作为新的训练数据,用于对机器学习判别器进行再次训练。
进一步地,将待识别的链接onclick属性指向一个Ctrl按键是否按住判断函数,利用Ctrl按键是否按住判断函数检查当前是否按住Ctrl键,若按住则不跳转到链接所指向的地址,并且将链接信息传给云服务器进行识别;否则跳转进超链接。
一种基于特征提取的有效下载链接识别系统,包括:
云服务器,用于存储样本训练数据、黑名单链接数据以及黑名单链接举报因子;
客户端,用于接收用户点击的链接信息,并生成链接信息的待识别链接数据特征向量,传输至评估系统;
评估系统,将从客户端接收的待识别链接数据特征向量输入机器学习判别器,进行识别,并将识别结果返回客户端;
其中,机器学习判别器是利用云服务器中存储的训练样本训练数据在云服务器中进行机器学习判别器的训练得到。
进一步地,从云服务器的数据库调取与待识别链接匹配的链接举报因子,结合链接举报因子和机器学习判别器输出的识别结果,输出待识别链接的综合评估结果。
进一步地,还包括用户反馈单元,将实时获得的链接评估结果反馈至云服务器。
识别结果通过客户端反馈给用户,所述客户端为浏览器插件。
有益效果
本发明提供了一种基于特征提取的有效下载链接识别方法与系统,该方法包括以下步骤:步骤1:从云服务器获取链接训练数据,并从训练数据中提取链接数据特征向量;步骤2:在云服务器中,基于链接数据特征向量和链接标签训练机器学习判别器;步骤3:将待识别的链接按照步骤1的方式提取链接数据特征向量,输入步骤2得到的机器学习判别器中,输出链接标签,完成对链接的识别。相对于现有技术而言,该方案具有以下优点:
(1)提供了主动识别机制以克服纯黑名单比对产生的漏判
将黑名单作为记录链接被举报次数的数据库,利用特征提取和机器学习的思想,通过人工提取的数据对判别器进行训练,并用其训练出的模型判断其他可疑链接,结合黑名单的记录数据作为辅助来提高链接识别精度。摆脱了完全依赖黑名单比对的限制,真正做到主动识别,即使可疑链接没有在黑名单中记录,也可以做出风险性评估。
(2)针对性地提出了个性化特征以弥补识别目标的差异
针对下载链接的特点提出了个性化的特征,通过设计个性化的举报因子弥补了传统训练模型没考虑到的情况,同时根据数据库中的数据设计了自学习指数,用来指导判别器的更新训练。
(3)客户端以插件和弹窗结果反馈形式实现从而增强交互性和用户体验
客户端以插件形式实现,依附于浏览器工作,不会产生任何缓存垃圾,占用物理空间和系统资源极少,且操作简便,易于实现。同时,弹窗形式的结果警示比现有的很多直接拦截方式更容易提高用户的安全意识。
(4)依托云计算架构大大减少用户电脑的负担并节约管理成本
采用了云计算的架构,将所有的计算和存储处理放在云服务器端,能够高效地完成计算和存储任务;并且利用云服务器进行计算,能够将计算结果共享给所有的客户端,避免了重复计算,有利于运营商降低成本,节省人力和管理资源。
附图说明
图1为本发明所述方法的整体框架示意图;
图2为本发明所述方法的工作流程示意图。
具体实施方式
下面将结合附图和实施例对本发明做进一步的说明。
如图1和图2所示,一种基于特征提取的有效下载链接识别方法,包括以下步骤:
步骤1:从云服务器获取链接训练数据,并从训练数据中提取链接数据特征向量;
步骤2:在云服务器中,基于链接数据特征向量和链接标签训练机器学习判别器;
所述链接数据特征向量至少包括以下几个:
1)URL是否含有“@”,若含有,则特征值为1,反之为0;
2)URL是否超过5个“.”,若超过,则特征值为1,反之为0;
3)URL是否为IP地址,若为IP地址,则特征值为1,反之为0;
4)URL资源类型是否为网页型,若为网页型,则特征值为1,反之为0;
5)URL资源大小是否超过2M,若超过,则特征值为1,反之为0。
前三个链接数据特征向量通过字符串匹配算法获得,后两个链接数据特征向量通过向URL所指向的服务器发送一个HTTP header请求,分别根据返回数据包的Content-Type项和Content-Length项得到;
在各下载平台爬取一定量的链接作为训练数据,提取训练数据中链接的特征向量,并用于进行机器学习判别器的训练;
所述机器学习判别器的训练过程如下:
步骤2.1:利用训练数据中的链接数据特征向量和对应的链接标签构建线性回归模型;
hθ(x)=θTx
其中,θ表示参数向量,x表示链接数据特征向量,hθ(x)表示判别结果;
x(i)是一个向量,y(i)为第i个链接的标签:
约定x0=1,而x1到xn则表示每一种特征的特征值,例如描述一个URL含有“@”、URL没超过5个“.”、URL不是IP地址、资源类型是网页型、资源大小低于2M的链接的话,表达式如下:
y(i)是一个标量,其值为0或1,分别表示有效下载链接或无效下载链接。
步骤2.2:以误差函数J(θ)取到最小值为目标,对步骤3.1的线性回归模型进行训练;
其中,x(i)和y(i)为一组训练数据中的链接特征向量和链接标签,链接标签为真实链接,取值为1,否则为0,m训练数据的数量;
步骤2.3:利用梯度法求解误差函数,得到最优θ*及对应的机器学习判别器z=θ* Tx。
步骤3:将待识别的链接按照步骤1的方式提取链接数据特征向量,输入步骤2得到的机器学习判别器中,输出链接标签,完成对链接的识别。
链接数据特征向量还可以包括举报因子;
利用可信因子对链接识别结果进行评估:
p=z·u
其中,p表示可信概率z表示利用机器学习判别器获得判别结果,u表示链接可信因子。
利用数据库记录链接黑名单和被举报次数,按照以下公式设置链接识别结果设置可信因子u:
其中,n表示该链接的举报次数。
举报次数越多,u的值越小;
当实时判别的链接数据量达到训练数据的5%时,将实时判别的链接数据作为新的训练数据,用于对机器学习判别器进行再次训练。
将待识别的链接onclick属性指向一个Ctrl按键是否按住判断函数,利用Ctrl按键是否按住判断函数检查当前是否按住Ctrl键,若按住则不跳转到链接所指向的地址,并且将链接信息传给云服务器进行识别;否则跳转进超链接。
一种基于特征提取的有效下载链接识别系统,包括:
云服务器,用于存储样本训练数据、黑名单链接数据以及黑名单链接举报因子;
客户端,用于接收用户点击的链接信息,并生成链接信息的待识别链接数据特征向量,传输至评估系统;
评估系统,将从客户端接收的待识别链接数据特征向量输入机器学习判别器,进行识别,并将识别结果返回客户端;
其中,机器学习判别器是利用云服务器中存储的训练样本训练数据在云服务器中进行机器学习判别器的训练得到。
从云服务器的数据库调取与待识别链接匹配的链接举报因子,结合链接举报因子和机器学习判别器输出的识别结果,输出待识别链接的综合评估结果。
还包括用户反馈单元,将实时获得的链接评估结果反馈至云服务器。
评估结果通过客户端反馈给用户,所述客户端为浏览器插件,即反馈的评估结果以弹窗形式展示。
客户端表现为一个浏览器插件,它不承担计算和存储的任务,只提供给用户一些功能接口,这样可以减少用户对自己电脑资源的占用。当用户发送判断请求需要使用接口的时候,会发送相应的数据给服务器,根据功能调用服务器相应的模块进行处理,收到服务器的反馈后,客户端整合反馈信息,向用户告知判断结果。用户与插件以弹窗进行交互,简洁、交互性强、用户体验好。
对于云服务器管理员,事先把服务器程序启动,云服务器程序启动后会进行一次模型训练,训练完成后服务器程序处于阻塞监听状态,等待用户的请求。用户首先在浏览器上启动插件,在之后的浏览网页的过程中若发现某个下载链接可疑,则可按住Ctrl键左击这个链接,由于在客户端插件中运用Content Script技术修改了超链接的触发条件,所以这个时候浏览器不会打开这个链接,而是把这个下载链接的信息提交给服务器,云服务器通过本发明所述方法进行计算处理后返回对这个链接风险性评估结果,以弹窗的形式告知用户。用户根据该评估结果自行确定是否进入该链接。
用户可以在使用链接后对链接的有效性进行反馈,改善系统的识别精度,而新的反馈数据积累到一定量时服务器会重新进行一遍自适应学习。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (10)

1.一种基于特征提取的有效下载链接识别方法,其特征在于,包括以下步骤:
步骤1:从云服务器获取链接训练数据,并从训练数据中提取链接数据特征向量;
步骤2:在云服务器中,基于链接数据特征向量和链接标签训练机器学习判别器;
步骤3:将待识别的链接按照步骤1的方式提取链接数据特征向量,输入步骤2得到的机器学习判别器中,输出链接标签,完成对链接的识别。
2.根据权利要求1所述的方法,其特征在于,利用可信因子对链接识别结果进行评估:
p=z·u
其中,p表示可信概率z表示利用机器学习判别器获得判别结果,u表示链接可信因子。
3.根据权利要求2所述的方法,其特征在于,利用数据库记录链接黑名单和被举报次数,按照以下公式设置链接识别结果设置可信因子u:
<mrow> <mi>u</mi> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>-</mo> <mn>0.02</mn> <mi>n</mi> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mn>0</mn> <mo>&amp;le;</mo> <mi>n</mi> <mo>&amp;le;</mo> <mn>40</mn> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0.2</mn> <mo>&amp;times;</mo> <msup> <mn>0.9</mn> <mrow> <mo>(</mo> <mi>n</mi> <mo>-</mo> <mn>40</mn> <mo>)</mo> </mrow> </msup> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>n</mi> <mo>&gt;</mo> <mn>40</mn> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中,n表示该链接的举报次数。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述机器学习判别器的训练过程如下:
步骤2.1:利用训练数据中的链接数据特征向量和对应的链接标签构建线性回归模型;
hθ(x)=θTx
<mrow> <mi>&amp;theta;</mi> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>&amp;theta;</mi> <mn>0</mn> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>&amp;theta;</mi> <mn>1</mn> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>&amp;theta;</mi> <mn>2</mn> </msub> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>&amp;theta;</mi> <mi>n</mi> </msub> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> <mi>x</mi> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>x</mi> <mn>0</mn> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>x</mi> <mn>1</mn> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>x</mi> <mn>2</mn> </msub> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>x</mi> <mi>n</mi> </msub> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中,θ表示参数向量,x表示链接数据特征向量,hθ(x)表示判别结果;
步骤2.2:以误差函数J(θ)取到最小值为目标,对步骤3.1的线性回归模型进行训练;
<mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <mi>m</mi> </mrow> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>&amp;theta;</mi> </msub> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> <mo>-</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow>
其中,x(i)和y(i)为一组训练数据中的链接特征向量和链接标签,链接标签为真实链接,取值为1,否则为0,m训练数据的数量;
步骤2.3:利用梯度法求解误差函数,得到最优θ*及对应的机器学习判别器
5.根据权利要求4所述的方法,其特征在于,所述链接数据特征向量至少包括以下几个:
1)URL是否含有“@”,若含有,则特征值为1,反之为0;
2)URL是否超过5个“.”,若超过,则特征值为1,反之为0;
3)URL是否为IP地址,若为IP地址,则特征值为1,反之为0;
4)URL资源类型是否为网页型,若为网页型,则特征值为1,反之为0;
5)URL资源大小是否超过2M,若超过,则特征值为1,反之为0。
6.根据权利要求5所述的方法,其特征在于,当实时判别的链接数据量达到训练数据的5%时,将实时判别的链接数据作为新的训练数据,用于对机器学习判别器进行再次训练。
7.根据权利要求6所述的方法,其特征在于,将待识别的链接onclick属性指向一个Ctrl按键是否按住判断函数,利用Ctrl按键是否按住判断函数检查当前是否按住Ctrl键,若按住则不跳转到链接所指向的地址,并且将链接信息传给云服务器进行识别;否则跳转进超链接。
8.一种基于特征提取的有效下载链接识别系统,其特征在于,包括:
云服务器,用于存储样本训练数据、黑名单链接数据以及黑名单链接举报因子;
客户端,用于接收用户点击的链接信息,并生成链接信息的待识别链接数据特征向量,传输至评估系统;
评估系统,将从客户端接收的待识别链接数据特征向量输入机器学习判别器,进行识别,并将识别结果返回客户端;
其中,机器学习判别器是利用云服务器中存储的训练样本训练数据在云服务器中进行机器学习判别器的训练得到。
9.根据权利要求8所述的系统,其特征在于,从云服务器的数据库调取与待识别链接匹配的链接举报因子,结合链接举报因子和机器学习判别器输出的识别结果,输出待识别链接的综合评估结果。
10.根据权利要求8所述的系统,其特征在于,还包括用户反馈单元,将实时获得的链接评估结果反馈至云服务器。
CN201711344106.3A 2017-12-15 2017-12-15 一种基于特征提取的有效下载链接识别方法与系统 Active CN108111584B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711344106.3A CN108111584B (zh) 2017-12-15 2017-12-15 一种基于特征提取的有效下载链接识别方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711344106.3A CN108111584B (zh) 2017-12-15 2017-12-15 一种基于特征提取的有效下载链接识别方法与系统

Publications (2)

Publication Number Publication Date
CN108111584A true CN108111584A (zh) 2018-06-01
CN108111584B CN108111584B (zh) 2020-02-21

Family

ID=62216104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711344106.3A Active CN108111584B (zh) 2017-12-15 2017-12-15 一种基于特征提取的有效下载链接识别方法与系统

Country Status (1)

Country Link
CN (1) CN108111584B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033742A (zh) * 2023-08-18 2023-11-10 广东轻工职业技术学院 基于人工智能的数据安全获取方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060123478A1 (en) * 2004-12-02 2006-06-08 Microsoft Corporation Phishing detection, prevention, and notification
CN102419808A (zh) * 2011-09-28 2012-04-18 奇智软件(北京)有限公司 一种下载链接安全性检测方法、装置及系统
CN102663319A (zh) * 2012-03-29 2012-09-12 奇智软件(北京)有限公司 下载链接安全提示方法及装置
CN102790762A (zh) * 2012-06-18 2012-11-21 东南大学 基于url分类的钓鱼网站检测方法
CN105959330A (zh) * 2016-07-20 2016-09-21 广东世纪网通信设备股份有限公司 虚假链接拦截方法、装置以及系统
CN106209417A (zh) * 2016-06-23 2016-12-07 努比亚技术有限公司 一种资源下载链接可用性的监控处理系统及方法
CN106709323A (zh) * 2015-11-12 2017-05-24 中兴通讯股份有限公司 一种识别伪装下载链接的方法和装置
CN107276986A (zh) * 2017-05-17 2017-10-20 中云网安科技(北京)有限公司 一种通过机器学习保护网站的方法、装置和系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060123478A1 (en) * 2004-12-02 2006-06-08 Microsoft Corporation Phishing detection, prevention, and notification
CN102419808A (zh) * 2011-09-28 2012-04-18 奇智软件(北京)有限公司 一种下载链接安全性检测方法、装置及系统
CN102663319A (zh) * 2012-03-29 2012-09-12 奇智软件(北京)有限公司 下载链接安全提示方法及装置
CN102790762A (zh) * 2012-06-18 2012-11-21 东南大学 基于url分类的钓鱼网站检测方法
CN106709323A (zh) * 2015-11-12 2017-05-24 中兴通讯股份有限公司 一种识别伪装下载链接的方法和装置
CN106209417A (zh) * 2016-06-23 2016-12-07 努比亚技术有限公司 一种资源下载链接可用性的监控处理系统及方法
CN105959330A (zh) * 2016-07-20 2016-09-21 广东世纪网通信设备股份有限公司 虚假链接拦截方法、装置以及系统
CN107276986A (zh) * 2017-05-17 2017-10-20 中云网安科技(北京)有限公司 一种通过机器学习保护网站的方法、装置和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033742A (zh) * 2023-08-18 2023-11-10 广东轻工职业技术学院 基于人工智能的数据安全获取方法
CN117033742B (zh) * 2023-08-18 2024-02-20 广东轻工职业技术学院 基于人工智能的数据安全获取方法

Also Published As

Publication number Publication date
CN108111584B (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110912890B (zh) 一种面向内网的漏洞攻击检测系统
US9614862B2 (en) System and method for webpage analysis
US11159545B2 (en) Message platform for automated threat simulation, reporting, detection, and remediation
WO2022041406A1 (zh) 一种基于ocr和迁移学习的app违规监测方法
US20170257390A1 (en) System and methods for scalably identifying and characterizing structural differences between document object models
CN110912889B (zh) 一种基于智能化威胁情报的网络攻击检测系统和方法
CN105205144B (zh) 用于数据诊断优化的方法和系统
CN105260469B (zh) 一种处理网站地图的方法、装置及设备
US8041710B2 (en) Automatic diagnosis of search relevance failures
CN104766014A (zh) 用于检测恶意网址的方法和系统
US20090216868A1 (en) Anti-spam tool for browser
CN102819591A (zh) 一种基于内容的网页分类方法及系统
CN110020062A (zh) 一种可定制的网络爬虫方法及系统
CN107209831A (zh) 用于识别网络攻击的系统和方法
CN110912888B (zh) 一种基于深度学习的恶意http流量检测系统和方法
WO2016010872A1 (en) Recognition of behavioural changes of online services
CN108985064A (zh) 一种识别恶意文档的方法及装置
Alharthi et al. A real-time deep-learning approach for filtering Arabic low-quality content and accounts on Twitter
CN103716394B (zh) 下载文件的管理方法及装置
Yang et al. Scalable detection of promotional website defacements in black hat {SEO} campaigns
CN111767443A (zh) 一种高效的网络爬虫分析平台
WO2016010875A1 (en) Behavior change detection system for services
Halder et al. Hands-On Machine Learning for Cybersecurity: Safeguard your system by making your machines intelligent using the Python ecosystem
CN113032655A (zh) 一种暗网电子数据提取固定方法
CN103984747B (zh) 屏幕信息处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant