CN106933860A - 恶意统一资源定位符识别方法和装置 - Google Patents

恶意统一资源定位符识别方法和装置 Download PDF

Info

Publication number
CN106933860A
CN106933860A CN201511021608.3A CN201511021608A CN106933860A CN 106933860 A CN106933860 A CN 106933860A CN 201511021608 A CN201511021608 A CN 201511021608A CN 106933860 A CN106933860 A CN 106933860A
Authority
CN
China
Prior art keywords
url
character
malice
default
selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201511021608.3A
Other languages
English (en)
Other versions
CN106933860B (zh
Inventor
咸德玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Feinno Communication Technology Co Ltd
Original Assignee
Beijing Feinno Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Feinno Communication Technology Co Ltd filed Critical Beijing Feinno Communication Technology Co Ltd
Priority to CN201511021608.3A priority Critical patent/CN106933860B/zh
Publication of CN106933860A publication Critical patent/CN106933860A/zh
Application granted granted Critical
Publication of CN106933860B publication Critical patent/CN106933860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开揭示了一种恶意统一资源定位符URL识别方法和装置,属于计算机网络安全和通信领域。所述恶意URL识别方法包括:获取待识别的第一URL,如果预设第一URL集合中不包括所述第一URL,则获取所述第一URL中预设的第一字符,在所述第一URL中将所述第一字符替换为与所述第一字符具有预设相似关系的第二字符,得到第二URL,如果所述预设第一URL集合中包括所述第二URL,则识别出所述第一URL为恶意URL;解决了不能及时识别新出现的恶意URL问题,也解决了不能在离线情况下识别恶意URL的问题;达到了提高恶意URL识别率的效果。

Description

恶意统一资源定位符识别方法和装置
技术领域
本公开涉及计算机网络安全和通信技术领域,特别涉及一种恶意统一资源定位符(Uniform Resource Locator,URL)识别方法和装置。
背景技术
随着互联网络的发展,互联网络给人们带来了诸多方便。但是在互联网络给人们带来诸多方便的同时,其安全问题也极大的困扰着网络用户,比如,一些恶意URL诱导用户访问诈骗网站、挂马网站、病毒网站等恶意网站。因此,需要识别恶意URL,提高互联网络的安全性。
目前,通常使用如下方法识别恶意URL:将已有的恶意URL的进行收集形成恶意URL特征库,当需要进行恶意URL识别时,获取待识别的URL,将获取到的待识别的URL与恶意URL特征库进行匹配,如果在恶意URL特征库中匹配到与该待识别URL相一致的URL时,则判断该URL为恶意URL。
但发明人在实现本公开的过程中,发现相关技术至少存在如下缺陷:
恶意URL特征库只保存了已出现的恶意URL,所以恶意URL特征库更新缓慢,对新出现的恶意URL反应迟缓,不能及时识别,而且在识别上使用精确匹配模式,容易产生漏杀问题。
发明内容
为了解决相关技术中存在的问题,本公开提供一种恶意统一资源定位符识别方法和装置。所述技术方案如下:
根据本公开实施例的第一方面,提供一种恶意统一资源定位符识别方法,该方法包括:
获取待识别的第一URL;
如果预设第一URL集合中不包括所述第一URL,则获取所述第一URL中预设的第一字符;
在所述第一URL中将所述第一字符替换为与所述第一字符具有预设相似关系的第二字符,得到第二URL;
如果所述预设第一URL集合中包括所述第二URL,则识别出所述第一URL为恶意URL。
可选的,所述在所述第一URL中将所述第一字符替换为与所述第一字符具有预设相似关系的第二字符,得到第二URL,包括:
从所述获取的第一字符中选择获取的全部或部分字符;
在所述第一URL中将所述选择的字符替换为与所述选择的字符具有相似关系的第二字符,得到第二URL。
可选的,所述在所述第一URL中将所述选择的字符替换为与所述选择的字符具有相似关系的第二字符,得到第二URL,包括:
从预设字符对集合中获取包括所述选择的字符的字符对,所述字符对包括所述选择的字符和与所述选择的字符具有预设相似关系的第二字符;
在所述第一URL中将所述选择的字符替换为所述字符对包括的第二字符,得到第二URL。
可选的,所述方法还包括:
如果所述预设第一URL集合中不包括所述第二URL,则获取所述第一URL的URL参数信息,所述URL参数信息包括所述第一URL的传播特征信息、存活时间、查询域名whois特征信息和网站特征信息中的至少一者;
根据所述第一URL的URL参数信息识别所述第一URL是否为恶意URL。
可选的,所述根据所述第一URL的URL参数信息识别所述第一URL是否为恶意URL,包括:
根据所述URL参数信息中包括的每种参数的参数大小,分别设置所述每种参数对应的权重大小;
对所述每种参数对应的权重大小相加得到第一数值;
如果所述第一数值大于预设阈值,则识别出所述第一URL为恶意URL。
根据本公开实施例的第二方面,提供一种恶意统一资源定位符识别装置,该装置包括:
第一获取模块,用于获取待识别的第一URL;
第二获取模块,用于如果预设第一URL集合中不包括所述第一获取模块获取的所述第一URL,则获取所述第一URL中预设的第一字符;
替换模块,用于在所述第一URL中将所述第一字符替换为与所述第一字符具有预设相似关系的第二字符,得到第二URL;
第一识别模块,用于如果所述预设第一URL集合中包括所述替换模块替换得到的第二URL,则识别出所述第一URL为恶意URL。
可选的,所述替换模块,包括:
选择子模块,用于从所述第二获取模块获取的所述第一字符中选择获取的全部或部分字符;
替换子模块,用于在所述第一URL中将所述选择子模块选择的字符替换为与所述选择的字符具有预设相似关系的第二字符,得到第二URL。
可选的,所述替换子模块,包括:
获取单元,用于从预设字符对集合中获取包括所述选择子模块选择的所述第一字符的字符对,所述字符对包括所述选择的字符和与所述选择的字符具有预设相似关系的第二字符;
替换单元,在所述第一URL中将所述选择的字符替换为所述字符对包括的第二字符,得到第二URL。
可选的,所述装置还包括:
第三获取模块,用于如果所述预设第一URL集合中不包括所述第二URL,则获取所述第一URL的URL参数信息,所述URL参数信息包括所述第一URL的传播特征信息、存活时间、查询域名whois特征信息和网站特征信息中的至少一者;
第二识别模块,用于根据所述第三获取模块的所述第一URL的URL参数信息识别所述第一URL是否为恶意URL。
可选的,所述第二识别模块,包括:
设置子模块,用于根据所述URL参数信息中包括的每种参数的参数大小,分别设置所述每种参数对应的权重大小;
相加子模块,用于对所述每种参数对应的所述设置子模块设置的所述权重大小相加得到第一数值;
识别子模块,用于如果所述相加子模块相加得到的第一数值大于预设阈值,则识别出所述第一URL为恶意URL。
本公开的实施例提供的技术方案可以包括以下有益效果:
由于该恶意URL识别方法并不是与恶意URL库进行匹配来识别恶意URL,而是将该待识别的第一URL经过相似字符替换后与现有的非恶意URL比较来识别恶意URL,所以在新出现恶意URL时,也可以及时被识别,而且可以收集所有的该非恶意URL存储在终端内,以便在离线情况下也可以识别恶意URL,所以该恶意URL识别方法解决了不能及时识别新出现的恶意URL和不能在离线情况下识别恶意URL的问题;达到了提高恶意URL识别率的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并于说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种恶意URL识别方法的流程图;
图2是根据另一示例性实施例示出的一种恶意URL识别方法的流程图;
图3A是根据一示例性实施例示出的一种恶意URL识别装置的框图;
图3B是根据一示例性实施例示出的一种替换相似字符装置的框图;
图3C是根据另一示例性实施例示出的一种替换相似字符装置的框图;
图3D是根据另一示例性实施例示出的一种恶意URL识别装置的框图;
图3E是根据另一示例性实施例示出的一种恶意URL识别装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种恶意URL识别方法的流程图,如图1所示,该方法包括以下步骤:
在步骤101中,获取待识别的第一URL。
在步骤102中,如果预设第一URL集合中不包括该第一URL,则获取该第一URL中预设的第一字符。
在步骤103中,在该第一URL中将该第一字符替换为与该第一字符具有预设相似关系的第二字符,得到第二URL。
在步骤104中,如果该预设第一URL集合中包括该第二URL,则识别出该第一URL为恶意URL。
综上所述,本公开实施例中提供的恶意URL识别方法,通过将待识别的第一URL中预设的第一字符替换为与第一字符之间具有预设相似条件的第二字符,得到第二URL,如果预设第一URL集合中包括该第二URL,则识别出该第一URL为恶意URL;解决了不能及时识别新出现的恶意URL和不能在离线情况下识别恶意URL的问题;达到了提高恶意URL识别率的效果。
图2是根据另一示例性实施例示出的一种恶意URL识别方法的流程图。该方法通过将待识别的第一URL中预设的第一字符替换为与第一字符之间具有预设相似条件的第二字符,得到第二URL,如果预设第一URL集合中包括该第二URL,则识别出该第一URL为恶意URL。如图2所示,该方法包括:
在步骤201中,获取待识别的第一URL。
当终端接收到一个文本时,该文本可以为短信,即时消息、网页上的文本或是其它文本,终端解析该文本,从该文本中获取URL。将获取到的URL存储在终端内存,以便在需要时,可以即时获取。
在步骤202中,获取预设第二URL集合,判断该预设第二URL集合中是否包括该第一URL。
其中,预设第二URL集合包含了目前出现的绝大部分恶意URL。该预设第二URL集合可以是目前国内国外互联网、手机等安全产品及服务供应商提供的恶意URL库。
该预设第二URL集合可以通过调用国内国外安全产品及服务供应商提供的API接口获取,获取到后可以保存在本地存储器,以便用到时可以即时调用。当然该保存到本地的第二URL集合需要实时更新,以保证该预设第二URL集合尽可能多的包括新出现的恶意URL。当然,该第二URL集合也可以不保存在本地存储器,在需要时可以直接调用供应商提供的API接口,通过该API接口从供应商调用第二URL集合,这样就不需要在本地更新第二URL集合,同时也一定程度上提高了第二URL集合的实时性。
获取到该预设第二URL集合后,将该第一URL与该预设第二URL集合中的每一个预设恶意URL进行比对,以判断该预设第二URL集合中是否包括该第一URL。如果该预设第二URL集合中包括该第一URL,则执行步骤203,如果该预设第二URL集合中不包括该第一URL,则执行步骤204。
在步骤203中,如果该预设第二URL集合中包括该第一URL,则识别出该第一URL为恶意URL,结束操作。
在步骤204中,如果该预设第二URL集合中不包括该第一URL,则获取预设第一URL集合,判断该预设第一URL集合中是否包括该第一URL。
其中,该预设第一URL集合中包括了目前绝大多数的非恶意URL。该预设第一URL集合可以通过如下方法得到:收集目前绝大部分的非恶意URL,组成一个非恶意URL集合,存储在终端内,以便需要时可以及时获取。
获取到该预设第一URL集合后,将该预设第一URL集合中的每一个URL与该第一URL进行比对,以判断该预设第一URL集合中是否包括该第一URL,如果该预设第一URL集合中包括该第一URL则识别出该第一URL为非恶意URL,如果该预设第一URL集合中不包括该第一URL,则执行步骤205。
在步骤205中,如果预设第一URL集合中不包括该第一URL,则获取第一URL中预设的第一字符。
其中,预设字符对集合中包括了所有满足预设相似条件的字符对。其中,相似条件指两个字符的外形相似,比如,小写字母l和数字1、小写字母o和数字0、大写字母O和数字0等。
该预设字符对集合是技术人员将外形相似的两个字符组成一个字符对,比如0和O外形相似,就可以组成一个字符对。预设字符对集合可以为如下集合:<0,O>、<l,I>、<6,9>、<O,C>、<I,1>、<l,1>、<o,0>。
当然这里只是例举了一部分相似字符对,其余相似字符对不在这里一一例举。再者,字符对0—o和字符对o—0为同一字符对,不做区分,在预设字符对集合中可以只记录一次,也可以记录两次。
本步骤可以为:如果判断出该预设第一URL集合中不包括该第一URL,则读取该第一URL中的第一个字符,将该字符与该预设字符对集合中的每个字符进行比较,如果比较出该字符属于该预设字符对集合,则获取该字符,得到第一个第一字符,如果比较出该字符不属于该预设字符对集合,则不获取该字符;然后,读取该第一URL中的第二个字符,将该字符与该预设字符对集合中的每个字符进行比较,如果比较出该字符属于该预设字符对集合,则获取该字符,得到第二个第一字符,如果比较出该字符不属于该预设字符对集合,则不获取该字符,重复上述步骤,直到按上述方式处理完第一URL中的最后一个字符,得到第一URL包括的所有的字符对集合中的字符。
例如,第一URL为6b1d.cn,预设字符对集合为<0,O>、<l,I>、<6,9>、<O,C>、<I,1>、<l,1>、<o,0>,读取该第一URL中的第一个字符6,将该字符6与该预设字符对集合中的每个字符进行比较,比较出该字符6属于该预设字符对集合,则获取该字符6,得到第一个第一字符,然后,读取该第一URL的第二个字符b,将该字符6与该预设字符对集合中的每个字符进行比较,比较出该字符b不属于该预设字符对集合,则不获取该字符b,然后,接着读取该第一URL的第三个字符1,将该字符1与该预设字符对集合中的每个字符进行比较,比较出该字符1属于该预设字符对集合,则获取该字符1,得到第二个第一字符,重复上述步骤,直到按上述方式处理完第一URL中的最后一个字符n,得到第一URL包括的所有的字符对集合中的字符,也即,6和1。
在步骤206中,从该获取的第一字符中选择获取的全部或部分字符。
仍以上述例子为例,则从该获取的第一字符6和1中选择获取的全部或部分字符,比如,选择6,或是选择1,或是选择6和1。
在步骤207中,从预设字符对集合中获取包括该选择的字符的字符对。
其中,该字符对包括该选择的字符和与该选择的字符具有相似关系的第二字符。
例如,如果该选择的字符为6,则从预设的字符对集合中获取包括该字符6的字符对,也即<6,9>;当然,如果选择的字符为1,则获取的字符对为<l,I>和<l,1>;如果选择的字符为6和1,则获取的字符对为<6,9>、<l,I>和<l,1>。
在步骤208中,在该第一URL中将该选择的字符替换为该字符对包括的第二字符,得到第二URL。
如果该第一URL中只包括一个第一字符,且该第一字符只对应一个第二字符,则对该第一URL进行一次替换,得到一个第二URL;如果该第一URL包括的第一字符对应有多个第二字符,则可以用不同的第二字符对第一字符进行替换,进而可得到多个第二URL;或是该第一URL中包括的第一字符为多个,则可以选择不同的第一字符进行替换,也得到多个第二URL。
例如,如果该选择的字符为6,那么该字符对包括的第二字符为9,则将该第一URL中的6替换为9,得到的第二URL为9b1d.cn;如果该选择的字符为1,那么该字符对包括的第二字符为I和l,则将该第一URL中的1替换为I或l,得到的第二URL为6bId.cn和6bld.cn;如果该选择的字符为6和1,那么该字符对包括的第二字符为9、I和l,则将该第一URL中的6替换为9,1替换为I或l,得到的第二URL为9b1d.cn、6bId.cn或6bld.cn。
在步骤209中,如果该预设第一URL集合中包括该第二URL,则识别出该第一URL为恶意URL。
例如,如果,得到的第二URL为9b1d.cn,该第二URL在预设第一URL集合中,则识别出该第一URL,也即6b1d.cn为恶意URL。
如果得到多个第二URL,则只要其中一个第二URL在预设第一URL集合中,则识别出该第一URL为恶意URL。例如,得到的第二URL为6bId.cn和6bld.cn,而在预设第一URL集合中只有6bId.cn,而没有6bld.cn,则仍识别出该第一URL为恶意URL。
另外,由于该第二URL是由第一URL经过相似字符替换后得到的URL,如果该第二URL与该预设第一URL集合中的的一个非恶意URL相同,则说明该第一URL是仿照该非恶意URL得来的,目的就是让用户将该第一URL误认为该非恶意URL,来误导用户点击该第一URL,以实现恶意目的,所以该第一URL很可能就是恶意URL。
如果得到的第二URL不在该第一URL集合中,则可根据实际情况(比如,用户处于离线状态,或是用户希望只根据上述方法进行判断)识别该第一URL为非恶意URL,也可根据实际情况(比如,用户处于在线状态,或是用户希望根据下述方法进行更为精确的判断)执行步骤210,以继续识别该第一URL。
在步骤210中,获取该第一URL的URL参数信息,该URL参数信息包括该第一URL的传播特征信息、存活时间、查询域名(whois)特征信息和网站特征信息中的至少一者。
其中,传播特征信息可包括短地址跳转层数。当一个URL较长时,可以用一个长度比该URL短的字符串与该URL对应,该字符串为该URL的短地址,用这个较短的字符串来代替原本较长较复杂的URL。当点击任意一个短地址时都可以打开该URL对应的页面;该短地址又可以与其他的短地址对应,从而实现该URL与多个短地址对应。比如,将URL与第一个短地址对应,再将第一个短地址与第二个短地址对应,再将第三个短地址与第三个短地址对应,以此可以实现第n个短地址与URL的间接对应,n为大于或等于2的整数,当点击该第n个短地址时,该第n个短地址经过n次跳转后就可以打开URL。所以该短地址跳转层数是指打开URL时需要跳转的次数。
恶意URL经常会与多个短地址对应。所以,如果该第一URL的短地址跳转层数较多则说明该第一URL为恶意URL的可能性较大。
其中,存活时间可包括该URL对应的网站的存在的总时长,具体为从该网站启用到该网站停止使用的时间,可以通过查询该URL对应的IP存活时间,该URL包括的域名存活时间等。由于恶意URL被发现后很难继续存活,所以,如果该URL对应的网站的存活时间较短,或是该URL对应的IP存活时间较短,或是该URL包括的域名存活时间较短,则说明该URL为恶意URL的可能性较大。
其中,whois特征信息可包括该URL包括的域名是否被注册,该域名对应的IP,同该IP绑定域名的数量,域名所有人,域名注册商,或是该域名是否已经在恶意域名的集合中等。如果该URL包括的域名还未被注册,或是该域名对应的IP绑定域名的数量较多,或是域名所有人、域名注册商或是域名本身已经在恶意域名的集合中,则说明该URL为恶意URL的可能性较大。
其中,网站特征信息可包括该URL对应的网站的复杂度、页面中是否包括有恶意代码、页面是否以图片为主等。网站的复杂度可以通过该网站目录层数、网站页面层数等表示。由于恶意URL具有存活时间短等其它特点,所以恶意URL制造者不会占用太多时间和精力来制做恶意URL对应的网站,所以恶意URL对应的网站通常是一些简单的的网站,所以恶意网站的一般具有网站复杂度较低的特点。如果该URL网站复杂度较低,或是页面中包括有恶意代码、或是页面以图片为主,则说明该URL为恶意URL的可能性较大。
当然该URL参数信息还可以是主机所在机房,域名活跃度等,在这里不做一一分析。
对于网站的启动时间、IP启用时间和域名启用时间可以通过站长工具等网站进行查询,whois特征信息可以通过命令列接口或是网页接口来查询,对于计算网站的复杂度、页判断网页页面中是否包括有恶意代码、页面是否以图片为主等其它参数信息的获取均是现有技术,在这里不做赘述。
在步骤211中,根据该URL参数信息中包括的每种参数的参数大小,分别设置该每种参数对应的权重大小。
其中,参数大小指该URL参数包括的信息量的多少,以及该信息对该URL为恶意URL的影响程度。因此,该每种参数的参数大小较大时,设置该参数对应的权重较大,参数的参数大小较小时,设置该参数对应的权重较小。
其中,权重大小一般为0至1的数字,但不做具体限制,可以为其它任一数据,只要权重大小与参数大小相一致就可以。
比如,在一次恶意URL识别中,whois特征信息包含的信息量较多,而且对该URL为恶意URL的影响程度较大,则可以将该whois特征信息的权重设置的较大,可以为0.4;而传播特征信息、网站特征信息和存活时间,包含的信息量的多少,对该URL为恶意URL的影响程度逐渐减少,则这三种参数对应的权重可以为:0.3、0.2、0.1。
当然该参数权重可以根据情况进行变化,不做具体限制。
比如,在另一次恶意URL识别中获取到的参数大小按以下顺序减少:传播特征信息、whois特征信息、网站特征信息和存活时间,则这四种参数对应的权重可以为:0.4、0.3、0.2、0.1。
当然,在设置URL参数信息时,会为每一个URL参数信息设置权重,如果根据某一个参数信息识别该第一URL为非恶意URL时,则在下述步骤211进行参数权重相加时,该参数权重不进行相加,也即相当于0。
在步骤212中,对该每种参数对应的权重大小相加得到第一数值。
仍以上述例子为例,对四个参数相加得到第一数值:0.4+0.3+0.2+0.1=1
在步骤213中,如果该第一数值大于预设阈值,则识别出该第一URL为恶意URL。
本步骤可以为:将该第一数值与预设阈值相比,如果该第一数值大于预设阈值,则识别该第一URL为恶意URL。
仍以上述例子为例,如果该预设阈值为0.8,则该第一数值1大于该预设阈值,因此,识别出该第一URL为恶意URL。
综上所述,本公开实施例中提供的恶意URL识别方法,通过将待识别的第一URL与预设的第二URL集合比较,识别该第一URL是否为恶意URL,如果该第一URL是恶意URL则无需进行后续识别操作,提高了恶意URL的识别效率。
综上所述,本公开实施例中提供的恶意URL识别方法,还通过将待识别的第一URL中预设的第一字符替换为与第一字符之间具有预设相似条件的第二字符,得到第二URL,如果预设第一URL集合中包括该第二URL,则识别出该第一URL为恶意URL;解决了不能及时识别新出现的恶意URL和不能在离线情况下识别恶意URL的问题;达到了提高恶意URL识别率的效果。
综上所述,本公开实施例中提供的恶意URL识别方法,还通过获取第一URL的URL参数信息并设置URL参数信息的权重,将得到的URL参数信息的权重进行相加,得到第一数值,如果该第一数值大于预设阈值,则识别该第一URL为恶意URL,提高了识别恶意URL的准确性。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图3A是根据一示例性实施例示出的一种恶意URL识别装置的框图,该恶意URL识别装置包括但不限于:第一获取模块301、第二获取模块302、替换模块303、第一识别模块304。
第一获取模块301,用于获取待识别的第一URL。
第二获取模块302,用于如果预设第一URL集合中不包括第一获取模块301获取的第一URL,则获取第一URL中预设的第一字符。
替换模块303,用于在该第一URL中将该第一字符替换为与该第一字符具有预设相似关系的第二字符,得到第二URL。
第一识别模块304,用于如果该预设第一URL集合中包括该替换模块303替换得到的第二URL,则识别出该第一URL为恶意URL。
可选的,参见图3B,该替换模块303,包括:
选择子模块3031,用于从该第二获取模块302获取的该第一字符中选择获取的全部或部分字符。
替换子模块3032,用于在该第一URL中将该选择子模块3031选择的字符替换为与该选择的字符具有预设相似关系的第二字符,得到第二URL。
可选的,参见图3C,该替换子模块3032,包括:
获取单元3032a,用于从预设字符对集合中获取包括该选择子模块3031选择的该第一字符的字符对,该字符对包括该选择的字符和与该选择的字符具有预设相似关系的第二字符。
替换单元3032b,在该第一URL中将该选择的字符替换为该字符对包括的第二字符,得到第二URL。
可选的,参见图3D,该装置还包括:
第三获取模块305,用于如果该预设第一URL集合中不包括该第二URL,则获取该第一URL的URL参数信息,该URL参数信息包括该第一URL的传播特征信息、存活时间、查询域名whois特征信息和网站特征信息中的至少一者;
第二识别模块306,用于根据该第三获取模块305的该第一URL的URL参数信息识别该第一URL是否为恶意URL。
可选的,参见图3E,该第二识别模块306,包括:
设置子模块3061,用于根据该URL参数信息中包括的每种参数的参数大小,分别设置该每种参数对应的权重大小。
相加子模块3062,用于对该每种参数对应的该设置子模块3061设置的该权重大小相加得到第一数值。
识别子模块3063,用于如果该相加子模块3062相加得到的第一数值大于预设阈值,则识别出该第一URL为恶意URL。
可选的,参见图3D,该装置还包括:
第四获取模块307,用于获取预设第二URL集合,该第二URL集合中包括至少一个恶意URL。
第三识别模块308,用于如果该第四获取模块307获取的该预设第二URL集合中包括该第一URL,则识别出该第一URL为恶意URL,否则,执行获取该第一URL中预设的第一字符的操作。
综上所述,本公开实施例中提供的恶意URL识别装置,通过将待识别的第一URL与预设的第二URL集合比较,识别该第一URL是否为恶意URL,如果该第一URL是恶意URL则无需进行后续识别操作,提高了恶意URL的识别效率。
综上所述,本公开实施例中提供的恶意URL识别装置,还通过将待识别的第一URL中预设的第一字符替换为与第一字符之间具有预设相似条件的第二字符,得到第二URL,如果预设第一URL集合中包括该第二URL,则识别出该第一URL为恶意URL;解决了不能及时识别新出现的恶意URL和不能在离线情况下识别恶意URL的问题;达到了提高恶意URL识别率的效果。
综上所述,本公开实施例中提供的恶意URL识别装置,还通过获取第一URL的URL参数信息并设置URL参数信息的权重,将得到的URL参数信息的权重进行相加,得到第一数值,如果该第一数值大于预设阈值,则识别该第一URL为恶意URL,提高了识别恶意URL的准确性。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种恶意统一资源定位符URL识别方法,其特征在于,所述方法包括:
获取待识别的第一URL;
如果预设第一URL集合中不包括所述第一URL,则获取所述第一URL中预设的第一字符;
在所述第一URL中将所述第一字符替换为与所述第一字符具有预设相似关系的第二字符,得到第二URL;
如果所述预设第一URL集合中包括所述第二URL,则识别出所述第一URL为恶意URL。
2.如权利要求1所述的方法,其特征在于,所述在所述第一URL中将所述第一字符替换为与所述第一字符具有预设相似关系的第二字符,得到第二URL,包括:
从所述获取的第一字符中选择获取的全部或部分字符;
在所述第一URL中将所述选择的字符替换为与所述选择的字符具有预设相似关系的第二字符,得到第二URL。
3.如权利要求2所述的方法,其特征在于,所述在所述第一URL中将所述选择的字符替换为与所述选择的字符具有预设相似关系的第二字符,得到第二URL,包括:
从预设字符对集合中获取包括所述选择的字符的字符对,所述字符对包括所述选择的字符和与所述选择的字符具有预设相似关系的第二字符;
在所述第一URL中将所述选择的字符替换为所述字符对包括的第二字符,得到第二URL。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
如果所述预设第一URL集合中不包括所述第二URL,则获取所述第一URL的URL参数信息,所述URL参数信息包括所述第一URL的传播特征信息、存活时间、查询域名whois特征信息和网站特征信息中的至少一者;
根据所述第一URL的URL参数信息识别所述第一URL是否为恶意URL。
5.如权利要求4所述的方法,其特征在于,所述根据所述第一URL的URL参数信息识别所述第一URL是否为恶意URL,包括:
根据所述URL参数信息中包括的每种参数的参数大小,分别设置所述每种参数对应的权重大小;
对所述每种参数对应的权重大小相加得到第一数值;
如果所述第一数值大于预设阈值,则识别出所述第一URL为恶意URL。
6.一种恶意统一资源定位符URL识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取待识别的第一URL;
第二获取模块,用于如果预设第一URL集合中不包括所述第一获取模块获取的所述第一URL,则获取所述第一URL中预设的第一字符;
替换模块,用于在所述第一URL中将所述第一字符替换为与所述第一字符具有预设相似关系的第二字符,得到第二URL;
第一识别模块,用于如果所述预设第一URL集合中包括所述替换模块替换得到的第二URL,则识别出所述第一URL为恶意URL。
7.如权利要求6所述的装置,其特征在于,所述替换模块,包括:
选择子模块,用于从所述第二获取模块获取的所述第一字符中选择获取的全部或部分字符;
替换子模块,用于在所述第一URL中将所述选择子模块选择的字符替换为与所述选择的字符具有预设相似关系的第二字符,得到第二URL。
8.如权利要求7所述的装置,其特征在于,所述替换子模块,包括:
获取单元,用于从预设字符对集合中获取包括所述选择子模块选择的所述第一字符的字符对,所述字符对包括所述选择的字符和与所述选择的字符具有预设相似关系的第二字符;
替换单元,在所述第一URL中将所述选择的字符替换为所述字符对包括的第二字符,得到第二URL。
9.如权利要求6所述的装置,其特征在于,所述装置还包括:
第三获取模块,用于如果所述预设第一URL集合中不包括所述第二URL,则获取所述第一URL的URL参数信息,所述URL参数信息包括所述第一URL的传播特征信息、存活时间、查询域名whois特征信息和网站特征信息中的至少一者;
第二识别模块,用于根据所述第三获取模块的所述第一URL的URL参数信息识别所述第一URL是否为恶意URL。
10.如权利要求9所述的装置,其特征在于,所述第二识别模块,包括:
设置子模块,用于根据所述URL参数信息中包括的每种参数的参数大小,分别设置所述每种参数对应的权重大小;
相加子模块,用于对所述每种参数对应的所述设置子模块设置的所述权重大小相加得到第一数值;
识别子模块,用于如果所述相加子模块相加得到的第一数值大于预设阈值,则识别出所述第一URL为恶意URL。
CN201511021608.3A 2015-12-31 2015-12-31 恶意统一资源定位符识别方法和装置 Active CN106933860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511021608.3A CN106933860B (zh) 2015-12-31 2015-12-31 恶意统一资源定位符识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511021608.3A CN106933860B (zh) 2015-12-31 2015-12-31 恶意统一资源定位符识别方法和装置

Publications (2)

Publication Number Publication Date
CN106933860A true CN106933860A (zh) 2017-07-07
CN106933860B CN106933860B (zh) 2020-12-01

Family

ID=59442584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511021608.3A Active CN106933860B (zh) 2015-12-31 2015-12-31 恶意统一资源定位符识别方法和装置

Country Status (1)

Country Link
CN (1) CN106933860B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020210976A1 (en) * 2019-04-16 2020-10-22 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for detecting anomaly
CN114826688A (zh) * 2022-03-30 2022-07-29 中国建设银行股份有限公司 恶意访问地址的识别方法、装置、设备、介质及程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103428183A (zh) * 2012-05-23 2013-12-04 北京新媒传信科技有限公司 恶意网址的识别方法和装置
CN103530562A (zh) * 2013-10-23 2014-01-22 腾讯科技(深圳)有限公司 一种恶意网站的识别方法和装置
CN104113539A (zh) * 2014-07-11 2014-10-22 哈尔滨工业大学(威海) 一种钓鱼网站引擎探测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103428183A (zh) * 2012-05-23 2013-12-04 北京新媒传信科技有限公司 恶意网址的识别方法和装置
CN103530562A (zh) * 2013-10-23 2014-01-22 腾讯科技(深圳)有限公司 一种恶意网站的识别方法和装置
CN104113539A (zh) * 2014-07-11 2014-10-22 哈尔滨工业大学(威海) 一种钓鱼网站引擎探测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张天红: "网络钓鱼预警系统设计与分析", 《中国优秀硕士学位论文全文数据库,信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020210976A1 (en) * 2019-04-16 2020-10-22 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for detecting anomaly
CN113711559A (zh) * 2019-04-16 2021-11-26 北京嘀嘀无限科技发展有限公司 检测异常的系统和方法
CN113711559B (zh) * 2019-04-16 2023-09-29 北京嘀嘀无限科技发展有限公司 检测异常的系统和方法
CN114826688A (zh) * 2022-03-30 2022-07-29 中国建设银行股份有限公司 恶意访问地址的识别方法、装置、设备、介质及程序产品

Also Published As

Publication number Publication date
CN106933860B (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
US10567423B2 (en) Performing rule-based actions for domain names accessed by particular parties
CN104199851B (zh) 通过黄页信息提取电话号码的方法及云端服务器
CN106302440B (zh) 一种多渠道获取可疑钓鱼网站的方法
CN105306495B (zh) 用户识别方法和装置
CN104270521A (zh) 对来电号码进行处理的方法和移动终端
KR100848319B1 (ko) 웹 구조정보를 이용한 유해 사이트 차단 방법 및 장치
CN108092963B (zh) 网页识别方法、装置、计算机设备及存储介质
CN103810268B (zh) 加载搜索结果推荐信息、网址检测的方法、装置和系统
CN105718559B (zh) 查找表单页面和目标页面转化关系的方法和装置
CN107341399A (zh) 评估代码文件安全性的方法及装置
CN103793508B (zh) 一种加载推荐信息、网址检测的方法、装置和系统
CN104765746A (zh) 用于移动通讯终端浏览器的数据处理方法和装置
CN108900547A (zh) 回源控制方法及装置
CN109040346B (zh) 一种泛域名解析中有效域名的筛选方法、装置及设备
CN106933860A (zh) 恶意统一资源定位符识别方法和装置
CN102957747A (zh) 识别用户来源并连通即时通信工具的方法和系统
CN105740453B (zh) 信息推送方法和装置
CN108011936A (zh) 用于推送信息的方法和装置
CN108418809A (zh) 聊天数据处理方法、装置、计算机设备及存储介质
CN103853784B (zh) 一种移动终端的网页匹配方法、装置和系统
CN110633432A (zh) 一种获取数据的方法、装置、终端设备及介质
CN106295309A (zh) 一种通知信息的管理方法和设备
CN105516114A (zh) 一种基于网页哈希值扫描漏洞的方法、装置及电子设备
CN104866545A (zh) 在信息展示页面上检索关键字的方法
CN104504070B (zh) 一种搜索的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 810, 8 / F, 34 Haidian Street, Haidian District, Beijing 100080

Applicant after: BEIJING D-MEDIA COMMUNICATION TECHNOLOGY Co.,Ltd.

Address before: 100089 Beijing city Haidian District wanquanzhuang Road No. 28 Wanliu new building block A room 602

Applicant before: BEIJING D-MEDIA COMMUNICATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant