CN105426759A - Url的合法性识别方法及装置 - Google Patents

Url的合法性识别方法及装置 Download PDF

Info

Publication number
CN105426759A
CN105426759A CN201510729115.9A CN201510729115A CN105426759A CN 105426759 A CN105426759 A CN 105426759A CN 201510729115 A CN201510729115 A CN 201510729115A CN 105426759 A CN105426759 A CN 105426759A
Authority
CN
China
Prior art keywords
url
identified
legal
similarity
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510729115.9A
Other languages
English (en)
Inventor
王巍巍
彭程
黄庆伟
张军宏
罗雪峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510729115.9A priority Critical patent/CN105426759A/zh
Publication of CN105426759A publication Critical patent/CN105426759A/zh
Priority to US15/275,303 priority patent/US20170126723A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/02Comparing digital values
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/102Entity profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/16Implementing security features at a particular protocol layer
    • H04L63/168Implementing security features at a particular protocol layer above the transport layer

Abstract

本发明提供一种URL的合法性识别方法及装置。本发明实施例通过获取待识别URL,进而根据所述待识别URL,获得与所述待识别URL所对应的合法URL,以作为比对对象,计算所述待识别URL与所述比对对象之间的相似度,使得能够根据所述相似度,识别所述待识别URL的合法性,能够及时发现不合法URL,从而提高了信息处理的安全性。

Description

URL的合法性识别方法及装置
【技术领域】
本发明涉及安全技术,尤其涉及一种URL的合法性识别方法及装置。
【背景技术】
随着通信技术的发展,终端集成了越来越多的功能,从而使得终端的系统功能列表中包含了越来越多相应的应用(Application,APP)。有些应用中会涉及接收发送方预先编辑的信息的功能,例如,短消息、彩信或电子邮件等。这些信息中,可能会包含一对象的统一资源定位符(UniformResourceLocator,URL),终端则可以直接根据所述URL,执行相应操作。例如,访问所述URL对应的目标对象,或者,再例如,根据用户点击所述URL的操作信息,访问所述URL对应的目标对象。
然而,由于信息生成的随意性,不法分子可以很容易将不安全对象例如,病毒、木马等植入信息,即将不安全对象的URL写在信息中,因此,终端在获得信息中所包含的URL之后,很可能会访问不安全对象,会使得终端及其用户受到不同程度的破坏,从而导致了信息处理的安全性的降低。
【发明内容】
本发明的多个方面提供一种URL的合法性识别方法及装置,用以提高信息处理的安全性。
本发明的一方面,提供一种URL的合法性识别方法,包括:
获取待识别URL;
根据所述待识别URL,获得与所述待识别URL所对应的合法URL,以作为比对对象;
计算所述待识别URL与所述比对对象之间的相似度;
根据所述相似度,识别所述待识别URL的合法性。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述待识别URL,获得与所述待识别URL所对应的合法URL,以作为比对对象,包括:
根据所述待识别URL和合法URL倒排索引,获得与所述待识别URL所对应的合法URL,以作为所述比对对象。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述待识别URL和合法URL倒排索引,获得与所述待识别URL所对应的合法URL,以作为所述比对对象之前,还包括:
采集至少一个合法URL;
利用N-Gram模型,对所述至少一个合法URL中每个合法URL进行分词处理,以获得分词结果;
根据所述每个合法URL和所述每个合法URL的分词结果,获得合法URL倒排索引。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用N-Gram模型,对所述至少一个合法URL中每个合法URL进行分词处理,以获得分词结果,包括:
根据所述每个合法URL,获得所述每个合法URL的域名;
删除所述每个合法URL的域名的前缀和后缀,以获得所述每个合法URL的中心词;
利用N-Gram模型,对所述每个合法URL的中心词进行分词处理,以获得所述分词结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述相似度,识别所述待识别URL的合法性,包括:
若所述相似度等于1,且所述待识别URL的后缀与所述比对对象的后缀一致,识别所述待识别URL为合法URL;或者
若所述相似度等于1,且所述待识别URL的后缀与所述比对对象的后缀不一致,识别所述待识别URL为疑似不合法URL;或者
若所述相似度大于或等于第一阈值且小于1,识别所述待识别URL为不合法URL;或者
若所述相似度大于或等于第二阈值且小于所述第一阈值,识别所述待识别URL为疑似不合法URL;所述第二阈值小于所述第一阈值;或者
若所述相似度小于所述第二阈值或等于1,识别所述待识别URL为合法URL。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述相似度,识别所述待识别URL的合法性之前,还包括:
利用所述至少一个合法URL,对至少一个样本URL进行合法性识别处理,以获得识别结果;
根据所述识别结果和所述至少一个样本URL中每个样本URL的标注结果,获得所述第一阈值和所述第二阈值。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述相似度,识别所述待识别URL的合法性之后,包括:
向终端发送所述识别的结果,以使得
所述终端展示所述识别的结果;和/或
所述终端根据所述识别的结果,允许或禁止根据所述待识别URL执行访问操作。
本发明的另一方面,提供一种URL的合法性识别装置,包括:
获取单元,用于获取待识别URL;
匹配单元,用于根据所述待识别URL,获得与所述待识别URL所对应的合法URL,以作为比对对象;
计算单元,用于计算所述待识别URL与所述比对对象之间的相似度;
识别单元,用于根据所述相似度,识别所述待识别URL的合法性。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述匹配单元,具体用于
根据所述待识别URL和合法URL倒排索引,获得与所述待识别URL所对应的合法URL,以作为所述比对对象。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括预处理单元,用于
采集至少一个合法URL;
利用N-Gram模型,对所述至少一个合法URL中每个合法URL进行分词处理,以获得分词结果;以及
根据所述每个合法URL和所述每个合法URL的分词结果,获得合法URL倒排索引。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述预处理单元,具体用于
根据所述每个合法URL,获得所述每个合法URL的域名;
删除所述每个合法URL的域名的前缀和后缀,以获得所述每个合法URL的中心词;以及
利用N-Gram模型,对所述每个合法URL的中心词进行分词处理,以获得所述分词结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述识别单元,具体用于
若所述相似度等于1,且所述待识别URL的后缀与所述比对对象的后缀一致,识别所述待识别URL为合法URL;或者
若所述相似度等于1,且所述待识别URL的后缀与所述比对对象的后缀不一致,识别所述待识别URL为疑似不合法URL;或者
若所述相似度大于或等于第一阈值且小于1,识别所述待识别URL为不合法URL;或者
若所述相似度大于或等于第二阈值且小于所述第一阈值,识别所述待识别URL为疑似不合法URL;所述第二阈值小于所述第一阈值;或者
若所述相似度小于所述第二阈值或等于1,识别所述待识别URL为合法URL。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述识别单元,还用于
利用所述至少一个合法URL,对至少一个样本URL进行合法性识别处理,以获得识别结果;以及
根据所述识别结果和所述至少一个样本URL中每个样本URL的标注结果,获得所述第一阈值和所述第二阈值。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述识别单元,还用于
向终端发送所述识别的结果,以使得
所述终端展示所述识别的结果;和/或
所述终端根据所述识别的结果,允许或禁止根据所述待识别URL执行访问操作。
由上述技术方案可知,本发明实施例通过获取待识别URL,进而根据所述待识别URL,获得与所述待识别URL所对应的合法URL,以作为比对对象,计算所述待识别URL与所述比对对象之间的相似度,使得能够根据所述相似度,识别所述待识别URL的合法性,能够及时发现不合法URL,从而提高了信息处理的安全性。
另外,采用本发明所提供的技术方案,无需对待识别URL所对应的内容进行基于内容的识别,能够有效提高信息处理的效率和实时性。
另外,采用本发明所提供的技术方案,无需对待识别URL所对应的内容进行基于内容的识别,能够有效降低识别所需要的处理资源,降低处理负担。
另外,采用本发明所提供的技术方案,由于向终端发送识别所述待识别URL的合法性的结果,以指示终端允许或禁止根据所述待识别URL执行访问操作,能够进一步有效提高信息处理的安全性。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的URL的合法性识别方法的流程示意图;
图2为本发明另一实施例提供的URL的合法性识别装置的结构示意图;
图3为本发明另一实施例提供的URL的合法性识别装置的结构示意图。
【具体实施方式】
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(PersonalDigitalAssistant,PDA)、无线手持设备、平板电脑(TabletComputer)、个人电脑(PersonalComputer,PC)、MP3播放器、MP4播放器、可穿戴设备(例如,智能眼镜、智能手表、智能手环等)等。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明一实施例提供的URL的合法性识别方法的流程示意图,如图1所示。
101、获取待识别URL。
102、根据所述待识别URL,获得与所述待识别URL所对应的合法URL,以作为比对对象。
103、计算所述待识别URL与所述比对对象之间的相似度。
104、根据所述相似度,识别所述待识别URL的合法性。
需要说明的是,101~104的执行主体的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopmentKit,SDK)等功能单元,或者还可以为位于网格侧服务器中的处理引擎,或者还可以为位于网格侧的分布式系统,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。
这样,通过获取待识别URL,进而根据所述待识别URL,获得与所述待识别URL所对应的合法URL,以作为比对对象,计算所述待识别URL与所述比对对象之间的相似度,使得能够根据所述相似度,识别所述待识别URL的合法性,能够及时发现不合法URL,从而提高了信息处理的安全性。
可选地,在本实施例的一个可能的实现方式中,在101中,具体可以获取终端接收的目标信息,所述目标信息中包含所述待识别URL。
其中,所述目标信息可以包括但不限于短消息、彩信或电子邮件,本实施例对此不进行特别限定。具体地,短消息、彩信和电子邮件的详细描述可以分别参见现有技术中的相关内容,此处不再赘述。
一般来说,短消息、彩信和电子邮件等信息中,可以包含任意的内容,例如,文字、图片或URL等。这些信息都可以利用现有的通信技术,例如,伪基站通信技术等,直接发到用户所使用的终端上,并且还能够避开应用分发平台的安全审核。因此,这些信息的内容一旦出现安全问题,将会使得终端及其用户受到不同程度的破坏。
本实施例中,只将包含URL的信息,作为目标信息,进行获取,其他信息不在本发明的保护范围之内。
需要说明的是,所述URL可以直接包含在信息中,例如,以明文内容的形式包含在信息中,或者还可以间接包含在信息中,例如,以条码信息的形式包含在短信中,本实施例对此不进行特别限定。其中,所述条码信息可以包括但不限于一维条码或二维条码,本实施例对此不进行特别限定。具体地,一维条码和二维条码的详细描述可以分别参见现有技术中的相关内容,此处不再赘述。
可以理解的是,对条码信息进行扫描,进而再利用解码功能,对扫描得到的信息进行解码,以获得条码信息中所包含的URL的详细描述可以参见现有技术中的相关内容,此处不再赘述。
在一个具体的实现过程中,所获得的所述目标信息中所包含的URL可以包括但不限于万维网(WorldWideWeb,Web)页面的访问地址或文件的下载地址,例如,以http或https等开头的链接,本实施例对此不进行特别限定。
其中,所述文件可以包括但不限于文本文件、图片文件、视频文件和安装文件中的至少一个,本实施例对此不进行特别限定。
其中,所述安装文件可以为安卓应用的安装包(AndroidPackageKit,APK),或者还可以为其他操作系统应用的安装包如IOS操作系统应用的安装包,本实施例对此不进行特别限定。
可选地,在本实施例的一个可能的实现方式中,在102中,具体可以根据所述待识别URL和合法URL倒排索引,获得与所述待识别URL所对应的合法URL,以作为所述比对对象。这种方式,能够有效提高检索效率。
在一个具体的实现过程中,在执行102之前,还需要建立所依据的合法URL倒排索引。
具体地,具体可以采集至少一个合法URL,例如,www.10086.cn等运营商类网站的URL,或者再例如,www.icbc.com.cn等银行类网站的URL。然后,可以利用N元文法(N-Gram)模型,其中,N大于或等于2,对所述至少一个合法URL中每个合法URL进行分词处理,以获得分词结果。接着,则可以根据所述每个合法URL和所述每个合法URL的分词结果,获得合法URL倒排索引。
那么,如何利用N-Gram模型的具体实现可以为根据所述每个合法URL,获得所述每个合法URL的域名,删除所述每个合法URL的域名的前缀和后缀,以获得所述每个合法URL的中心词。进而,则可以利用N-Gram模型,对所述每个合法URL的中心词进行分词处理,以获得所述分词结果。
例如,利用N-Gram模型,从所采集的合法URL的中心词中,选择内容特征,作为分词结果。例如,从合法URL的中心词icbc中,选择ic、cb和bc等二元特征;或者,再例如,从合法URL的中心词icbc中,选择icb和cbc等三元特征;或者,再例如,从合法URL的中心词icbc中,选择icbc等四元特征;等等,本实施例对此不进行特别限定。具体地,所述N元文法(N-Gram)模型的具体描述可以参见现有技术中的相关内容,此处不再赘述。
可选地,在本实施例的一个可能的实现方式中,在103中,具体可以采用计算最小编辑距离的方法,获得所述待识别URL与所述比对对象之间的相似度。具体地,可以将所述待识别URL与所述比对对象的最小编辑距离,作为所述待识别URL与所述比对对象的相似度计算函数。
所谓的编辑距离(EditDistance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。其中,所述编辑操作可以包括但不限于将一个字符替换成另一个字符、插入一个字符和删除一个字符中的至少一项,本实施例对此不进行特别限定。一般来说,编辑距离越小,两个串的相似度越大。
具体地,具体可以获取所述待识别URL的域名,删除该待识别URL的域名的前缀和后缀,以获得该待识别URL的中心词,以及获取所述比对对象的域名,删除该比对对象的域名的前缀和后缀,以获得该比对对象的中心词。然后,计算待识别URL的中心词与比对对象的中心词的最小编辑距离,以作为所述待识别URL与所述比对对象的相似度。
可选地,在本实施例的一个可能的实现方式中,在104中,具体可以若所述相似度等于1,且所述待识别URL的后缀与所述比对对象的后缀一致,识别所述待识别URL为合法URL;或者若所述相似度等于1,且所述待识别URL的后缀与所述比对对象的后缀不一致,识别所述待识别URL为疑似不合法URL;或者若所述相似度大于或等于第一阈值且小于1,识别所述待识别URL为不合法URL;或者若所述相似度大于或等于第二阈值且小于所述第一阈值,识别所述待识别URL为疑似不合法URL;所述第二阈值小于所述第一阈值;或者若所述相似度小于所述第二阈值或等于1,识别所述待识别URL为合法URL。
其中,所述第一阈值和所述第二阈值,可以为经验值,或者还可以为利用一些样本URL,进行训练,所构建的分类器所确定的数值,本实施例对此不进行特别限定。
在构建分类器之后,可以利用所述至少一个合法URL,基于所构建的分类器,对至少一个样本URL进行合法性识别处理,以获得识别结果,进而,则可以根据所述识别结果和所述至少一个样本URL中每个样本URL的标注结果,调整分类器的参数,以获得所述第一阈值和所述第二阈值。例如,可以设计一个如下的惩罚函数cost:
cost=fp_cost*fp_count+fn_cost*fn_count+unsure_cost*unsure_count;其中,
fp_cost=10,fp_count,表示非合法URL识别为合法URL的次数;
fn_cost=6,fn_count,表示合法URL识别为合法URL的次数;
unsure_cost=6,unsure_count,表示识别为疑似不合法URL的次数。
最小化这个惩罚函数,所得到的分类器的参数,可以作为最终的第一阈值和第二阈值,应用到识别中。
需要说明的是,样本URL集中所包含的样本URL,可以为经过标注的已知样本,这样,可以直接利用这些已知样本进行训练,以构建分类器;或者还可以一部分为经过标注的已知样本,另一部分为没有经过标注的未知样本,那么,则可以先利用已知样本进行训练,以构建初始分类器,然后,再利用初始分类器对未知样本进行预测,以获得分类结果,进而则可以根据未知样本的分类结果,对未知样本进行标注,以形成已知样本,作为新增加的已知样本,利用新增加的已知样本,以及原始的已知样本重新进行训练,以构建新的分类器,直到所构建的分类器或已知样本满足目标分类器的截止条件为止,如分类准确率大于或等于预先设置的准确率阈值或已知样本的数量大于或等于预先设置的数量阈值等,本实施例对此不进行特别限定。
可选地,在本实施例的一个可能的实现方式中,在104之后,还可以进一步向终端发送所述识别的结果。其中,这里的终端,可以为所获取的所述待识别URL所在的终端,或者还可以为注册的所有终端,本实施例对此不进行特别限定。这样,所述终端可以根据所述识别的结果,执行操作。
例如,所述终端还可以进一步展示所述识别的结果,以提示所述待识别URL的安全性。具体地,可以利用标签、气泡、弹出窗口、下拉菜单和语音中的至少一项展示所述识别的结果。这样,通过所述终端展示所述识别的结果,可以使得终端的用户能够根据该识别的结果,确定是否继续访问该待识别URL所对应的内容。
或者,再例如,所述终端还可以进一步根据所述识别的结果,允许或禁止根据所述待识别URL执行访问操作。
这样,由于向终端发送识别所述待识别URL的合法性的结果,以指示终端允许或禁止根据所述待识别URL执行访问操作,能够进一步有效提高信息处理的安全性。
本实施例中,通过获取待识别URL,进而根据所述待识别URL,获得与所述待识别URL所对应的合法URL,以作为比对对象,计算所述待识别URL与所述比对对象之间的相似度,使得能够根据所述相似度,识别所述待识别URL的合法性,能够及时发现不合法URL,从而提高了信息处理的安全性。
另外,采用本发明所提供的技术方案,无需对待识别URL所对应的内容进行基于内容的识别,能够有效提高信息处理的效率和实时性。
另外,采用本发明所提供的技术方案,无需对待识别URL所对应的内容进行基于内容的识别,能够有效降低识别所需要的处理资源,降低处理负担。
另外,采用本发明所提供的技术方案,由于向终端发送识别所述待识别URL的合法性的结果,以指示终端允许或禁止根据所述待识别URL执行访问操作,能够进一步有效提高信息处理的安全性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图2为本发明另一实施例提供的URL的合法性识别装置的结构示意图,如图2所示。本实施例的URL的合法性识别装置可以包括获取单元21、匹配单元22、计算单元23和识别单元24。其中,获取单元21,用于获取待识别URL;匹配单元22,用于根据所述待识别URL,获得与所述待识别URL所对应的合法URL,以作为比对对象;计算单元23,用于计算所述待识别URL与所述比对对象之间的相似度;识别单元24,用于根据所述相似度,识别所述待识别URL的合法性。
需要说明的是,本实施例的URL的合法性识别装置的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopmentKit,SDK)等功能单元,或者还可以为位于网格侧服务器中的处理引擎,或者还可以为位于网格侧的分布式系统,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。
可选地,在本实施例的一个可能的实现方式中,所述匹配单元22,具体可以用于根据所述待识别URL和合法URL倒排索引,获得与所述待识别URL所对应的合法URL,以作为所述比对对象。
可选地,在本实施例的一个可能的实现方式中,如图3所示,本实施例的URL的合法性识别装置还可以进一步包括预处理单元31,可以用于采集至少一个合法URL;利用N-Gram模型,对所述至少一个合法URL中每个合法URL进行分词处理,以获得分词结果;以及根据所述每个合法URL和所述每个合法URL的分词结果,获得合法URL倒排索引。
在一个具体的实现过程中,所述预处理单元31,具体可以用于根据所述每个合法URL,获得所述每个合法URL的域名;删除所述每个合法URL的域名的前缀和后缀,以获得所述每个合法URL的中心词;以及利用N-Gram模型,对所述每个合法URL的中心词进行分词处理,以获得所述分词结果。
可选地,在本实施例的一个可能的实现方式中,所述识别单元24,具体可以用于若所述相似度等于1,且所述待识别URL的后缀与所述比对对象的后缀一致,识别所述待识别URL为合法URL;或者若所述相似度等于1,且所述待识别URL的后缀与所述比对对象的后缀不一致,识别所述待识别URL为疑似不合法URL;或者若所述相似度大于或等于第一阈值且小于1,识别所述待识别URL为不合法URL;或者若所述相似度大于或等于第二阈值且小于所述第一阈值,识别所述待识别URL为疑似不合法URL;所述第二阈值小于所述第一阈值;或者若所述相似度小于所述第二阈值或等于1,识别所述待识别URL为合法URL。
可选地,在本实施例的一个可能的实现方式中,所述识别单元24,具体可以所述识别单元24,还可以进一步用于利用所述至少一个合法URL,对至少一个样本URL进行合法性识别处理,以获得识别结果;以及根据所述识别结果和所述至少一个样本URL中每个样本URL的标注结果,获得所述第一阈值和所述第二阈值。
可选地,在本实施例的一个可能的实现方式中,所述识别单元24,具体可以所述识别单元24,还可以进一步用于向终端发送所述识别的结果,以使得所述终端展示所述识别的结果;和/或所述终端根据所述识别的结果,允许或禁止根据所述待识别URL执行访问操作。
需要说明的是,图1对应的实施例中方法,可以由本实施例提供的URL的合法性识别装置实现。详细描述可以参见图1对应的实施例中的相关内容,此处不再赘述。
本实施例中,通过获取单元获取待识别URL,进而由匹配单元根据所述待识别URL,获得与所述待识别URL所对应的合法URL,以作为比对对象,再由计算单元计算所述待识别URL与所述比对对象之间的相似度,使得识别单元能够根据所述相似度,识别所述待识别URL的合法性,能够及时发现不合法URL,从而提高了信息处理的安全性。
另外,采用本发明所提供的技术方案,无需对待识别URL所对应的内容进行基于内容的识别,能够有效提高信息处理的效率和实时性。
另外,采用本发明所提供的技术方案,无需对待识别URL所对应的内容进行基于内容的识别,能够有效降低识别所需要的处理资源,降低处理负担。
另外,采用本发明所提供的技术方案,由于向终端发送识别所述待识别URL的合法性的结果,以指示终端允许或禁止根据所述待识别URL执行访问操作,能够进一步有效提高信息处理的安全性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,音频处理引擎,或者网络装置等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种URL的合法性识别方法,其特征在于,包括:
获取待识别URL;
根据所述待识别URL,获得与所述待识别URL所对应的合法URL,以作为比对对象;
计算所述待识别URL与所述比对对象之间的相似度;
根据所述相似度,识别所述待识别URL的合法性。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待识别URL,获得与所述待识别URL所对应的合法URL,以作为比对对象,包括:
根据所述待识别URL和合法URL倒排索引,获得与所述待识别URL所对应的合法URL,以作为所述比对对象。
3.根据权利要求2所述的方法,其特征在于,所述根据所述待识别URL和合法URL倒排索引,获得与所述待识别URL所对应的合法URL,以作为所述比对对象之前,还包括:
采集至少一个合法URL;
利用N-Gram模型,对所述至少一个合法URL中每个合法URL进行分词处理,以获得分词结果;
根据所述每个合法URL和所述每个合法URL的分词结果,获得合法URL倒排索引。
4.根据权利要求3所述的方法,其特征在于,所述利用N-Gram模型,对所述至少一个合法URL中每个合法URL进行分词处理,以获得分词结果,包括:
根据所述每个合法URL,获得所述每个合法URL的域名;
删除所述每个合法URL的域名的前缀和后缀,以获得所述每个合法URL的中心词;
利用N-Gram模型,对所述每个合法URL的中心词进行分词处理,以获得所述分词结果。
5.根据权利要求1~4任一权利要求所述的方法,其特征在于,所述根据所述相似度,识别所述待识别URL的合法性,包括:
若所述相似度等于1,且所述待识别URL的后缀与所述比对对象的后缀一致,识别所述待识别URL为合法URL;或者
若所述相似度等于1,且所述待识别URL的后缀与所述比对对象的后缀不一致,识别所述待识别URL为疑似不合法URL;或者
若所述相似度大于或等于第一阈值且小于1,识别所述待识别URL为不合法URL;或者
若所述相似度大于或等于第二阈值且小于所述第一阈值,识别所述待识别URL为疑似不合法URL;所述第二阈值小于所述第一阈值;或者
若所述相似度小于所述第二阈值或等于1,识别所述待识别URL为合法URL。
6.根据权利要求5所述的方法,其特征在于,所述根据所述相似度,识别所述待识别URL的合法性之前,还包括:
利用所述至少一个合法URL,对至少一个样本URL进行合法性识别处理,以获得识别结果;
根据所述识别结果和所述至少一个样本URL中每个样本URL的标注结果,获得所述第一阈值和所述第二阈值。
7.根据权利要求1~4任一权利要求所述的方法,其特征在于,所述根据所述相似度,识别所述待识别URL的合法性之后,包括:
向终端发送所述识别的结果,以使得
所述终端展示所述识别的结果;和/或
所述终端根据所述识别的结果,允许或禁止根据所述待识别URL执行访问操作。
8.一种URL的合法性识别装置,其特征在于,包括:
获取单元,用于获取待识别URL;
匹配单元,用于根据所述待识别URL,获得与所述待识别URL所对应的合法URL,以作为比对对象;
计算单元,用于计算所述待识别URL与所述比对对象之间的相似度;
识别单元,用于根据所述相似度,识别所述待识别URL的合法性。
9.根据权利要求8所述的装置,其特征在于,所述匹配单元,具体用于
根据所述待识别URL和合法URL倒排索引,获得与所述待识别URL所对应的合法URL,以作为所述比对对象。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括预处理单元,用于
采集至少一个合法URL;
利用N-Gram模型,对所述至少一个合法URL中每个合法URL进行分词处理,以获得分词结果;以及
根据所述每个合法URL和所述每个合法URL的分词结果,获得合法URL倒排索引。
11.根据权利要求10所述的装置,其特征在于,所述预处理单元,具体用于
根据所述每个合法URL,获得所述每个合法URL的域名;
删除所述每个合法URL的域名的前缀和后缀,以获得所述每个合法URL的中心词;以及
利用N-Gram模型,对所述每个合法URL的中心词进行分词处理,以获得所述分词结果。
12.根据权利要求8~11任一权利要求所述的装置,其特征在于,所述识别单元,具体用于
若所述相似度等于1,且所述待识别URL的后缀与所述比对对象的后缀一致,识别所述待识别URL为合法URL;或者
若所述相似度等于1,且所述待识别URL的后缀与所述比对对象的后缀不一致,识别所述待识别URL为疑似不合法URL;或者
若所述相似度大于或等于第一阈值且小于1,识别所述待识别URL为不合法URL;或者
若所述相似度大于或等于第二阈值且小于所述第一阈值,识别所述待识别URL为疑似不合法URL;所述第二阈值小于所述第一阈值;或者
若所述相似度小于所述第二阈值或等于1,识别所述待识别URL为合法URL。
13.根据权利要求12所述的装置,其特征在于,所述识别单元,还用于
利用所述至少一个合法URL,对至少一个样本URL进行合法性识别处理,以获得识别结果;以及
根据所述识别结果和所述至少一个样本URL中每个样本URL的标注结果,获得所述第一阈值和所述第二阈值。
14.根据权利要求8~11任一权利要求所述的装置,其特征在于,所述识别单元,还用于
向终端发送所述识别的结果,以使得
所述终端展示所述识别的结果;和/或
所述终端根据所述识别的结果,允许或禁止根据所述待识别URL执行访问操作。
CN201510729115.9A 2015-10-30 2015-10-30 Url的合法性识别方法及装置 Pending CN105426759A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510729115.9A CN105426759A (zh) 2015-10-30 2015-10-30 Url的合法性识别方法及装置
US15/275,303 US20170126723A1 (en) 2015-10-30 2016-09-23 Method and device for identifying url legitimacy

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510729115.9A CN105426759A (zh) 2015-10-30 2015-10-30 Url的合法性识别方法及装置

Publications (1)

Publication Number Publication Date
CN105426759A true CN105426759A (zh) 2016-03-23

Family

ID=55504963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510729115.9A Pending CN105426759A (zh) 2015-10-30 2015-10-30 Url的合法性识别方法及装置

Country Status (2)

Country Link
US (1) US20170126723A1 (zh)
CN (1) CN105426759A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107741938A (zh) * 2016-10-13 2018-02-27 腾讯科技(深圳)有限公司 一种网络信息识别方法及装置
CN110392064A (zh) * 2019-09-04 2019-10-29 中国工商银行股份有限公司 风险识别方法、装置、计算设备以及计算机可读存储介质
CN110516136A (zh) * 2019-08-29 2019-11-29 南京烽火天地通信科技有限公司 一种基于样本的互联网爬虫内容网页识别方法
CN111666566A (zh) * 2019-03-07 2020-09-15 北京安信天行科技有限公司 一种挂马检测方法及系统
US10805255B2 (en) 2016-10-13 2020-10-13 Tencent Technology (Shenzhen) Company Limited Network information identification method and apparatus

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10778716B2 (en) * 2017-12-20 2020-09-15 Paypal, Inc. Detecting webpages that share malicious content
US11271966B2 (en) * 2018-02-09 2022-03-08 Bolster, Inc Real-time detection and redirecton from counterfeit websites
US11301560B2 (en) * 2018-02-09 2022-04-12 Bolster, Inc Real-time detection and blocking of counterfeit websites
JP7175148B2 (ja) 2018-09-27 2022-11-18 Kddi株式会社 判定装置及び判定方法
CN115004181A (zh) * 2020-06-17 2022-09-02 深圳市欢太数字科技有限公司 网页检测方法、装置、电子设备以及存储介质
CN112291204B (zh) * 2020-10-12 2022-02-22 清华大学 访问请求的处理方法、装置及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101462152A (zh) * 2008-11-28 2009-06-24 苏州明志科技有限公司 射砂机构及应用该射砂机构的砂芯成型方法
CN102957664A (zh) * 2011-08-17 2013-03-06 阿里巴巴集团控股有限公司 一种识别钓鱼网站的方法及装置
CN103365998A (zh) * 2013-07-12 2013-10-23 华东师范大学 一种相似字符串检索方法
CN103605704A (zh) * 2013-11-08 2014-02-26 深圳大学 大量url数据任意字段索引及检索方法
US20140214788A1 (en) * 2013-01-30 2014-07-31 Hewlett-Packard Development Company, L.P. Analyzing uniform resource locators
CN104281703A (zh) * 2014-10-22 2015-01-14 小米科技有限责任公司 统一资源定位符url间相似度计算的方法及装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6286006B1 (en) * 1999-05-07 2001-09-04 Alta Vista Company Method and apparatus for finding mirrored hosts by analyzing urls
US8726369B1 (en) * 2005-08-11 2014-05-13 Aaron T. Emigh Trusted path, authentication and data security
US8701185B2 (en) * 2008-10-14 2014-04-15 At&T Intellectual Property I, L.P. Method for locating fraudulent replicas of web sites
US8543580B2 (en) * 2008-12-23 2013-09-24 Microsoft Corporation Mining translations of web queries from web click-through data
US8381292B1 (en) * 2008-12-30 2013-02-19 The Uab Research Foundation System and method for branding a phishing website using advanced pattern matching
US8429751B2 (en) * 2009-03-13 2013-04-23 Trustwave Holdings, Inc. Method and apparatus for phishing and leeching vulnerability detection
US8205258B1 (en) * 2009-11-30 2012-06-19 Trend Micro Incorporated Methods and apparatus for detecting web threat infection chains
US8505094B1 (en) * 2010-01-13 2013-08-06 Trend Micro, Inc. Detection of malicious URLs in a web page
US8510411B2 (en) * 2010-05-06 2013-08-13 Desvio, Inc. Method and system for monitoring and redirecting HTTP requests away from unintended web sites
US8997220B2 (en) * 2011-05-26 2015-03-31 Microsoft Technology Licensing, Llc Automatic detection of search results poisoning attacks
US9002847B2 (en) * 2012-02-29 2015-04-07 Hewlett-Packard Development Company, L.P. Identifying an auto-complete communication pattern
US10235346B2 (en) * 2012-04-06 2019-03-19 Hmbay Patents Llc Method and apparatus for inbound message summarization using message clustering and message placeholders
KR102017526B1 (ko) * 2012-09-25 2019-09-03 삼성전자주식회사 Url 리스트에서 url 주소 검색 방법 및 장치
US9178901B2 (en) * 2013-03-26 2015-11-03 Microsoft Technology Licensing, Llc Malicious uniform resource locator detection
US9111074B1 (en) * 2013-10-03 2015-08-18 Google Inc. Login synchronization for related websites
US9979748B2 (en) * 2015-05-27 2018-05-22 Cisco Technology, Inc. Domain classification and routing using lexical and semantic processing
CN106776657B (zh) * 2015-11-25 2021-05-04 阿里巴巴集团控股有限公司 一种域名检索方法及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101462152A (zh) * 2008-11-28 2009-06-24 苏州明志科技有限公司 射砂机构及应用该射砂机构的砂芯成型方法
CN102957664A (zh) * 2011-08-17 2013-03-06 阿里巴巴集团控股有限公司 一种识别钓鱼网站的方法及装置
US20140214788A1 (en) * 2013-01-30 2014-07-31 Hewlett-Packard Development Company, L.P. Analyzing uniform resource locators
CN103365998A (zh) * 2013-07-12 2013-10-23 华东师范大学 一种相似字符串检索方法
CN103605704A (zh) * 2013-11-08 2014-02-26 深圳大学 大量url数据任意字段索引及检索方法
CN104281703A (zh) * 2014-10-22 2015-01-14 小米科技有限责任公司 统一资源定位符url间相似度计算的方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107741938A (zh) * 2016-10-13 2018-02-27 腾讯科技(深圳)有限公司 一种网络信息识别方法及装置
US10805255B2 (en) 2016-10-13 2020-10-13 Tencent Technology (Shenzhen) Company Limited Network information identification method and apparatus
CN111666566A (zh) * 2019-03-07 2020-09-15 北京安信天行科技有限公司 一种挂马检测方法及系统
CN111666566B (zh) * 2019-03-07 2021-06-15 北京安信天行科技有限公司 一种挂马检测方法及系统
CN110516136A (zh) * 2019-08-29 2019-11-29 南京烽火天地通信科技有限公司 一种基于样本的互联网爬虫内容网页识别方法
CN110392064A (zh) * 2019-09-04 2019-10-29 中国工商银行股份有限公司 风险识别方法、装置、计算设备以及计算机可读存储介质
CN110392064B (zh) * 2019-09-04 2022-03-15 中国工商银行股份有限公司 风险识别方法、装置、计算设备以及计算机可读存储介质

Also Published As

Publication number Publication date
US20170126723A1 (en) 2017-05-04

Similar Documents

Publication Publication Date Title
CN105426759A (zh) Url的合法性识别方法及装置
US11138381B2 (en) Method, computer device and readable medium for user's intent mining
US9910913B2 (en) Ingestion planning for complex tables
CN107341399B (zh) 评估代码文件安全性的方法及装置
JP6609047B2 (ja) アプリケーション情報リスクマネジメントのための方法及びデバイス
KR20180085756A (ko) 오더 클러스터링 및 악의적인 정보 퇴치 방법 및 장치
CN111079408B (zh) 一种语种识别方法、装置、设备及存储介质
CN112989348B (zh) 攻击检测方法、模型训练方法、装置、服务器及存储介质
CN114817968B (zh) 无特征数据的路径追溯方法、装置、设备及存储介质
CN110196834A (zh) 一种用于数据项、文件、数据库的对标方法和系统
CN103544150B (zh) 为移动终端浏览器提供推荐信息的方法及系统
CN110619213A (zh) 基于多模型特征的恶意软件识别方法、系统及相关装置
CN105808587A (zh) 在网页中嵌入信息的方法、网关设备及系统
CN112148305A (zh) 一种应用检测方法、装置、计算机设备和可读存储介质
CN104080058A (zh) 信息处理方法及装置
CN110069769A (zh) 应用标签生成方法、装置及存储设备
CN105160016A (zh) 用户属性的获取方法及装置
CN103984697A (zh) 条码信息的处理方法、装置及系统
CN108681671A (zh) 一种Android移动攻击溯源方法
CN109284450B (zh) 订单成单路径的确定方法及装置、存储介质、电子设备
CN114036561A (zh) 信息隐藏、信息获取方法、装置、存储介质及电子设备
CN113449816A (zh) 网址分类模型训练、网址分类方法、装置、设备及介质
CN113204695A (zh) 网站识别方法和装置
CN113076094A (zh) 前端组件构建方法、装置及电子设备
CN105260084A (zh) 输入序列的处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160323

RJ01 Rejection of invention patent application after publication