CN106992975B - 恶意网址识别方法及装置 - Google Patents

恶意网址识别方法及装置 Download PDF

Info

Publication number
CN106992975B
CN106992975B CN201710171054.8A CN201710171054A CN106992975B CN 106992975 B CN106992975 B CN 106992975B CN 201710171054 A CN201710171054 A CN 201710171054A CN 106992975 B CN106992975 B CN 106992975B
Authority
CN
China
Prior art keywords
website
malicious
identified
content
webpage content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710171054.8A
Other languages
English (en)
Other versions
CN106992975A (zh
Inventor
刘健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710171054.8A priority Critical patent/CN106992975B/zh
Publication of CN106992975A publication Critical patent/CN106992975A/zh
Priority to PCT/CN2018/079548 priority patent/WO2018171572A1/zh
Application granted granted Critical
Publication of CN106992975B publication Critical patent/CN106992975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9554Retrieval from the web using information identifiers, e.g. uniform resource locators [URL] by using bar codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种恶意网址识别方法及装置,属于网络安全领域。该方法包括:获取待识别网址,待识别网址包含对应的引用网址,引用网址被封装到封装载体后添加到待识别网址对应的第一网页内容中;获取待识别网址对应的引用网址;检测第一网页内容中是否包含恶意内容,并检测引用网址对应的第二网页内容中是否包含恶意内容;若第一网页内容中包含恶意内容,和/或,引用网址对应的第二网页内容中包含恶意内容,则确定待识别网址为恶意网址,恶意网址被限制访问。本发明实施例中,根据网址间的引用关系能够识别出正常网页中包含的恶意网址,并限制用户访问该正常网页,从而提高了恶意网址的识别覆盖率,确保互联网访问的安全性。

Description

恶意网址识别方法及装置
技术领域
本发明实施例涉及网络安全领域,特别涉及一种恶意网址识别方法及装置。
背景技术
互联网为人们生活提供便利的同时,也带来了诸多安全问题。比如,互联网中充斥的大量恶意网址给用户访问带来巨大的安全隐患。为了避免用户访问恶意网址,越来越多的应用程序开始具备恶意网址识别功能。
现有技术中,应用程序识别恶意网址的过程包括:应用程序的后台服务器获取网址对应的网页内容,并检测该网页内容中是否包含预设关键词,若包含,后台服务器则将该网址添加到恶意网址数据库中。后续接收到应用程序发送的网页访问请求时,后台服务器即检测该网页访问请求中包含的网址是否属于恶意网址数据库,若属于,后台服务器则向应用程序发送恶意网址提示。
然而,若不法分子对恶意网址进行封装,并将封装后的恶意网址添加到不包含恶意内容的网页,通过上述恶意网址识别方法,即便是具备恶意网址识别功能的应用程序也无法判定该网页对应的网址为恶意网址,导致该网页仍旧能够正常显示,造成极大的安全隐患。
发明内容
为了解决现有技术中终端正常显示包含封装后恶意网址的网页,从而造成安全隐患的问题,本发明实施例提供了一种恶意网址识别方法及装置。所述技术方案如下:
根据本发明实施例的第一方面,提供了一种恶意网址识别方法,该方法包括:
获取待识别网址,待识别网址包含对应的引用网址,该引用网址被封装到封装载体后添加到待识别网址对应的第一网页内容中;
获取待识别网址对应的引用网址;
检测第一网页内容中是否包含恶意内容,并检测引用网址对应的第二网页内容中是否包含恶意内容;
若第一网页内容中包含恶意内容,和/或,第二网页内容中包含恶意内容,则确定待识别网址为恶意网址,恶意网址被限制访问。
根据本发明实施例的第二方面,提供了一种恶意网址识别装置,该装置包括:
第一获取模块,用于获取待识别网址,待识别网址包含对应的引用网址,该引用网址被封装到封装载体后添加到待识别网址对应的第一网页内容中;
第二获取模块,用于获取待识别网址对应的引用网址,引用网址被封装到封装载体后,添加到待识别网址对应的第一网页内容中;
检测模块,用于检测第一网页内容中是否包含恶意内容,并检测引用网址对应的第二网页内容中是否包含恶意内容;
确定模块,用于当第一网页内容中包含恶意内容,和/或,第二网页内容中包含恶意内容时,确定待识别网址为恶意网址,恶意网址被限制访问。
通过在获取待识别网址的同时,获取该待识别网址对应的引用网址,进而在待识别网址和/或引用网址对应的网页内容中包含恶意内容时,确定该待识别网址为恶意网址;采用本发明实施例提供的恶意网址识别方法,即便不法分子将恶意网址封装后添加到正常网页中,服务器也可以根据网址间的引用关系识别出正常网页中包含的恶意网址,并限制用户访问该正常网页,从而提高了恶意网址的识别覆盖率,确保互联网访问的安全性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明一个实施例提供的实施环境的示意图;
图2A是现有技术中服务器识别恶意网址过程的实施示意图;
图2B是本发明实施例中服务器识别恶意网址过程的实施示意图;
图3示出了本发明一个实施例提供的恶意网址识别方法的流程图;
图4A示出了本发明另一个实施例提供的恶意网址识别方法的流程图;
图4B是图4A所示恶意网址识别方法涉及的识别引用网址过程的流程图;
图4C是识别引用网址过程的实施示意图;
图4D和4E是示意性实施例提供的界面示意图;
图5示出了本发明一个实施例提供的恶意网址识别装置的结构方框图;
图6示出了本发明一个实施例提供的服务器的结构方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
为了方便理解,下面对本发明实施例中涉及的名词进行解释。
封装载体:一种用于承载数据的实体,且封装载体中承载的数据无法直接识别。本发明各个实施例中,该封装载体承载的数据为网页的网址,该网址采用IP(InternetProtocol,互联网协议)地址或URL(Uniform Resource Locator,统一资源定位符)表示。
针对不同类型的封装载体,采用相应的提取技术能够提取出封装载体中承载的数据。比如,当该封装载体为二维码或条形码时,通过二维码或条形码识别技术,即能够提取出二维码或条形码中承载的数据。
恶意内容:指网页中包含预设关键词的文字内容、图片内容或视频内容,其中,该预设关键词具有非法属性。比如,该预设关键词为“下注”、“赌场”、“娱乐城”等等。本发明实施例中,恶意网址对应的网页内容中即直接或间接包含恶意内容。
请参考图1,其示出了本发明一个实施例提供的实施环境的示意图,该实施环境中包括智能设备110和服务器120。
智能设备110是具有互联网访问功能的电子设备。该电子设备为智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerⅢ,动态影像压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerⅣ,动态影像压缩标准音频层面4)播放器或个人计算机等等。
在一种可能的实施方式中,智能设备110中运行有具有恶意网址识别功能的应用程序,该应用程序为浏览器应用程序、即时通信应用程序、社交类应用程序或富媒体应用程序等等。比如,当用户使用浏览器应用程序进行互联网访问时,智能设备110即能够对用户所要访问网址的安全性进行检测。可选的,对于恶意网址,智能设备110显示警告标识,并限制用户访问;对于安全网址,智能设备110正常显示相应的网页内容。
智能设备110与服务器120之间通过有线网络或无线网络相连。
服务器120为一台服务器、由若干台服务器组成的服务器集群或云计算中心。
在一种可能的实施方式中,服务器120为智能设备110中(具有恶意网址识别功能)应用程序的后台服务器。服务器120接收到智能设备110通过应用程序发送的网页访问请求后,即对网页访问请求中包含的待识别网址进行识别,并向智能设备110返回相应的识别结果,供智能设备110进行显示。
可选的,服务器120中构建有网址数据库121和网址引用关系数据库122,其中,网址数据库121中存储有经过验证的恶意网址(或同时存储有经过验证的安全网址或恶意网址),网址引用关系数据库122中存储有网址之间的引用关系。在对待识别网址进行识别时,服务器120即结合网址数据库121和网址引用关系数据库122中的数据,检测待识别网址以及待识别网址对应引用网址的网页内容中是否包含恶意内容,并在两者的网页内容中均不包含的恶意内容时,确定待识别网址为安全网址;否则确定待识别网址为恶意网址。
可选地,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible MarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet ProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
本发明各个实施例提供的恶意网址识别方法均用于图1所示的服务器120,下面采用示意性的实施例进行说明。
如图2A所示,现有技术中,服务器200中构建有网址数据库210,该网址数据库210中即存储有经过验证的恶意网址。当通过识别请求接收接口获取到智能设备发送的待识别网址时,服务器200即检测网址数据库210中是否存储有该待识别网址。若检测到存储有该待识别网址,服务器200即确定该待识别网址为恶意网址,并通过识别结果反馈接口将相应的识别结果反馈给智能设备;若检测到未存储该待识别网址,服务器200即通过网页内容识别功能模块220,检测待识别网址对应的网页内容中是否包含恶意内容,并通过识别结果反馈接口将识别结果反馈给智能设备。当识别结果指示待识别网址为安全网址时,智能设备即正常显示网页内容;当识别结果指示待识别网址为恶意网址时,智能设备则限制用户访问。
通过上述恶意网址识别机制,智能设备能够正常显示的网页看似都是安全的。但是,若不法分子对恶意网址进行封装,比如,将恶意网址封装为二维码,并将二维码添加到不包含恶意内容的网页中,服务器通过上述恶意网址识别机制对网页进行识别时,该网页将被判定为安全(因为网页中仅包含安全内容和二维码),从而得以正常显示。当其他用户使用不具备恶意网址识别功能的应用程序扫描该二维码并进行访问时,将带来极大的安全隐患。
而本发明各个实施例中,如图2B所示,服务器200中不仅构建有网址数据库210,还构建有指示网址间引用关系的网址引用关系数据库230。服务器200通过识别请求接收接口获取到智能设备发送的待识别网址后,检测网址引用关系数据库230中是否存储有与该待识别网址对应的引用地址;当检测到存储有与该待识别网址对应的引用地址时,服务器200即通过网页内容识别功能模块220分别对待识别网址和引用网址对应的网页内容进行识别,进而综合两者的识别结果判定待识别网址是否为恶意网址。
通过本发明实施例提供的恶意网址识别方法,即便恶意网址被封装后添加到不包含恶意内容的网页中,服务器也能够根据网页间引用关系识别该网页导向恶意网址,从而避免智能设备显示此类网页所带来的安全隐患。下面采用示意性的实施例进行说明。
请参考图3,其示出了本发明一个实施例提供的恶意网址识别方法的流程图,本实施例以该恶意网址识别方法用于图1所示的服务器120为例进行说明,该方法包括:
步骤301,获取待识别网址,待识别网址包含对应的引用网址,该引用网址被封装到封装载体后添加到待识别网址对应的第一网页内容中。
可选的,当该服务器为浏览器应用程序对应的后台服务器时,待识别网址为服务器接收到浏览器应用程序发送的网页访问请求时,从网页访问请求中提取到的网址。
可选的,当该服务器为即时通讯应用程序对应的后台服务器时,待识别网址为服务器从获取到的即时通讯消息中提取到的网址。
可选的,当该服务器为社交类应用程序(比如微博、博客等等)对应的后台服务器时,待识别网址为服务器从社交信息(比如评论信息、分享信息等等)中提取到的网址。
可选的,该封装载体为二维码或条形码,即引用网址被封装成二维码或条形码(封装后的表现形式即为二维码或条形码)后,添加到待识别网址的网页内容中。
步骤302,获取待识别网址对应的引用网址。
在一种可能的实施方式中,获取到待识别网址后,服务器即检测网址引用关系数据库中是否包含待识别网址对应的引用网址,并在检测到包含待识别网址对应的引用网址时,从网址引用关系数据库中获取该引用网址。
比如,服务器从网址引用关系数据库中获取到待识别网址www.aaa.com对应的引用网址www.aaa1.com,表示www.aaa1.com被封装到二维码中后,添加到www.aaa.com对应的网页中(即www.aaa.com对应的网页中显示有该二维码)。
在另一种可能的实施方式中,若网址引用关系数据库中不包含待识别网址对应的引用网址,服务器则获取待识别网址对应的第一网页内容,从第一网页内容包含的封装载体中提取引用网址,并将待识别网址和引用网址关联存储到网址引用关系数据库中,方便后续调用。
步骤303,检测第一网页内容中是否包含恶意内容,并检测引用网址对应的第二网页内容中是否包含恶意内容。
服务器获取到待识别网址及其对应的引用网址后,进一步检测待识别网址对应的第一网页内容以及引用网址对应的第二网页内容中是否包含恶意内容。
在一种可能的实施方式中,服务器首先检测第一网页内容中是否包含恶意内容,若第一网页内容中包含恶意内容,则直接确定待识别网址为恶意网址,无需对第二网页内容进行进一步检测;若第一网页内容中不包含恶意内容,则进一步检测第二网页内容中是否包含恶意内容。步骤304,若第一网页内容中包含恶意内容,和/或,第二网页内容中包含恶意内容,则确定待识别网址为恶意网址,恶意网址被限制访问。
可选的,当第一网页内容中不包含恶意内容,且第二网页内容中包含恶意内容时,服务器确定待识别网址为恶意网址(第一网页内容中包含导向恶意网址的封装载体);当第一网页内容中不包含恶意内容,且第二网页内容中不包含恶意内容时,服务器确定待识别网址为安全网址。
在一种可能的实施方式中,不论该待识别网址是直接包含恶意内容,还是间接包含恶意内容,服务器均限制终端访问该待识别网址,或,在终端访问该待识别网址时反馈相应恶意网址提示信息
本发明实施例中,由于服务器不仅能够识别出直接包含恶意内容的网址,还能够识别出间接包含恶意内容(即包含导向恶意网址的封装载体)的网址,因此与现有技术相比,恶意网址的识别覆盖率得到显著提高。
综上所述,本实施例提供的恶意网址识别方法,通过在获取待识别网址的同时,获取该待识别网址对应的引用网址,进而在待识别网址和/或引用网址对应的网页内容中包含恶意内容时,确定该待识别网址为恶意网址;采用本发明实施例提供的恶意网址识别方法,即便不法分子将恶意网址封装后添加到正常网页中,服务器也可以根据网址间的引用关系识别出正常网页中包含的恶意网址,并限制用户访问该正常网页,从而提高了恶意网址的识别覆盖率,确保互联网访问的安全性。
在实际实施过程中,当服务器维护的网址引用关系数据库中不包含待识别网址对应的引用网址时(比如服务器是首次获取到该待识别网址),服务器需要进一步对待识别网址对应的网页内容进行检测,从而确定待识别网址是否包含对应的引用网址(即确定待识别网址是否导向其他网址)。下面采用示意性的实施例进行说明。
请参考图4A,其示出了本发明另一个实施例提供的恶意网址识别方法的流程图,本实施例以该恶意网址识别方法用于图1所示的服务器120为例进行说明,该方法包括:
步骤401,获取待识别网址,待识别网址包含对应的引用网址,引用网址被封装到封装载体后添加到待识别网址对应的第一网页内容中。
本步骤的实施方式与上述步骤301相似,本实施例在此不再赘述。
可选的,服务器中构建有网址数据库,该网址数据库中包含经过验证的恶意网址。
在其他可能的实施方式中,该网址数据库中同时包含经过验证的安全网址和恶意网址。示意性的,该网址数据库中的数据存储结构如表一所示。
表一
编号 网址 网址类型
1 www.aaa.com 安全
2 www.bbb.com 安全
3 www.aaa1.com 恶意
4 www.bbb1.com 恶意
当获取到待识别网址后,服务器首先检测网址数据库中是否包含该待识别网址,若网址数据库中包含该待识别网址,且该待识别网址的网址类型为恶意时,服务器直接确定待识别网址为恶意网址;若网址数据库中不包含该待识别网址,或,网址数据库中包含该待识别网址,且该待识别网址的网址类型为安全时,服务器执行下述步骤402。
步骤402,检测网址引用关系数据库中是否包含待识别网址对应的引用网址。
在一种可能的实施方式中,网址引用关系数据库中各条引用记录被描述为(网址A,网址B),其中,网址B为网址A的引用网址,即网址B被封装到封装载体后,添加到的网址A的网页内容中。
示意性的,该网址引用关系数据库中的引用记录如表二所示。
表二
编号 引用记录
1 (www.aaa.com,www.aaa1.com)
2 (www.bbb.com,www.bbb1.com)
3 (www.ccc.com,www.ccc1.com)
可选的,服务器以待识别网址为检索词,检测网址引用关系数据库中是否包含该待识别网址对应的引用网址。若检测到包含该待识别网址对应的引用网址(表示之前已经对该待识别网址进行过恶意网址识别),即执行下述步骤403;若检测到不包含该待识别网址对应的引用网址(表示首次对该待识别网址进行恶意网址识别),则执行下述步骤404。
可选的,为了提高效率,引用记录中的网址均采用哈希值表示,相应的,服务器根据待识别网址的哈希值在网址引用关系数据库中进行检索。
步骤403,若网址引用关系数据库中包含待识别网址对应的引用网址,则从网址引用关系数据库中获取待识别网址对应的引用网址。
比如,当获取到的待识别网址为www.aaa.com时,服务器从表二所示的引用记录中获取到引用网址www.aaa1.com。
步骤404,若网址引用关系数据库中不包含待识别网址对应的引用网址,则获取待识别网址对应的第一网页内容。
若网址引用关系数据库中不包含待识别网址对应的引用网址,为了确定待识别网址是否能够导向其他网址,服务器需要进一步获取该待识别网址对应的第一网页内容,并基于第一网页内容确定待识别网址是否导向其他网址。
在一种可能的实施方式中,服务器模拟浏览器访问该待识别网址,从而获取待识别网址对应的第一网页内容。
步骤405,从第一网页内容包含的封装载体中提取引用网址。
进一步的,服务器检测第一网页内容中是否包含封装载体,并在检测到第一网页内容中包含封装载体时,从该封装载体中提取引用网址。
在一种可能的实施方式中,当引用网址被封装成二维码或条形码添加到第一网页内容时,如图4B所示,本步骤包括如下步骤。
步骤405A,对第一网页内容进行截图操作,得到网页截图。
服务器获取到第一网页内容后,对第一网页内容进行截图操作,得到至少一张网页截图,该网页截图中即包含文字内容以及图片内容。
示意性的,如图4C所示,服务器对www.aaa.com对应的第一网页内容进行截图操作,得到网页截图41
步骤405B,通过预定图像识别技术识别网页截图中包含的封装载体,预定图像识别技术包括二维码识别技术和条形码识别技术中的至少一种。
在一种可能的实施方式中,由于不法分子通常将恶意网址封装成不易直接识别的二维码或条形码,因此,得到网页截图后,服务器通过二维码识别技术或条形码识别技术,识别网页截图中包含的封装载体。
示意性的,如图4B所示,服务器通过二维码识别技术,识别出网页截图41中包含的二维码42。
需要说明的是,本发明实施例仅以二维码识别技术和条形码识别技术进行示意性说明,在其他可能的实施方式中,当引用网址被封装成其他图形码时,服务器还可以采用其他图形码识别技术进行识别,本实施例并不对此进行限定。
步骤405C,根据识别结果确定封装载体中封装的引用网址。
示意性的,如图4C所示,服务器通过二维码识别技术识别二维码42后,提取到引用网址www.aaa1.com。
需要说明的是,当通过上述步骤405A至405C无法从第一网页内容中提取到引用网址时,服务器确定待识别网址不包含对应的引用网址,从而将对待识别网址的识别结果确定为最终识别结果。
步骤406,将待识别网址和引用网址关联存储到网址引用关系数据库中。
为了使后续再次获取到该待识别网址时,服务器能够直接从网址引用关系数据库中获取到对应的引用网址,服务器对待识别网址和引用网址进行关联存储。
步骤407,检测第一网页内容中是否包含恶意内容。
通过上述步骤401至406,服务器获取到待识别网址及其对应的引用网址;进一步的,服务器检测待识别网址和引用网址各自对应的网页内容中是否包含恶意内容。
针对检测第一网页内容中是否包含恶意内容的过程,在一种可能的实施方式中,当网址数据库中不包含该待识别网址时,服务器检测第一网页内容中是否包含预设关键词,并在检测到第一网页内容中包含预设关键词时,确定第一网页内容中包含恶意内容;在检测到第一网页内容中不包含预设关键词时,确定第一网页内容中不包含恶意内容。其中,该预设关键词具有非法属性。
在另一种可能的实施方式,当网址数据库中包含该待识别网址,且待识别网址对应的网址类型为安全时,服务器直接确定第一网页内容中不包含恶意内容。
步骤408,检测网址数据库中是否包含引用网址。
在一种可能的实施方式中,若网址数据库中仅存储有经过验证的恶意网址(网址数据库所占存储空间较小),当检测到网址数据库中包含该引用网址时,服务器执行下述步骤409;当检测到网址数据库中不包含该引用网址时,服务器执行下述步骤410至412。
在另一种可能的实施方式中,若网址数据库中同时存储有经过验证的恶意网址和安全网址(网址数据库所占存储空间较小),当检测网址数据库中包含该引用网址,且该引用网址为安全网址时,服务器确定引用网址中不包含恶意内容;当检测网址数据库中包含该引用网址,且该引用网址为恶意网址时,服务器确定引用网址中包含恶意内容;当网址数据库中不包含该引用网址时,服务器执行下述步骤410至412。
步骤409,若网址数据库中包含该引用网址,则确定引用网址对应的第二网页内容中包含恶意内容。
步骤410,若网址数据库中不包含该引用网址,则获取引用网址对应的第二网页内容,第二网页内容通过模拟浏览器访问引用网址得到。
当网址数据库中不包含该引用网址时,服务器确定该引用网址的安全性未经过验证,并模拟浏览器访问该引用网址,得到引用网址对应的第二网页内容。
步骤411,检测第二网页内容中是否包含预设关键词。
与上述步骤407中检测第一网页内容中是否包含预设关键词相似的,服务器检测获取到的第二网页内容中是否包含预设关键词。
当检测到第二网页内容中包含预设关键词时,服务器确定第二网页内容中包含恶意内容;当检测到第二网页内容中不包含预设关键词时,服务器确定第二网页内容中不包含恶意内容。
步骤412,若第二网页内容中包含预设关键词,则确定第二网页内容中包含恶意内容,并将引用地址添加到网址数据库中。
为了在后续再次获取该引用网址时,服务器能够直接识别出该引用网址对应的网页内容中包含恶意内容,当检测到第二网页内容中包含预设关键词时,服务器将引用网址添加到网址数据库中,方便后续调用。
需要说明的是,上述步骤409与步骤410至412之间并不存在严格的先后关系,即步骤409与步骤410至412可以同时执行,本实施例仅以步骤409在步骤410至412之前执行为例进行示意性说明。
步骤413,若第一网页内容中包含恶意内容,和/或,引用网址对应的第二网页内容中包含恶意内容,则确定待识别网址为恶意网址。
本步骤的实施方式与上述步骤304相似,本实施例在此不再赘述。
步骤414,向智能设备返回识别结果,智能设备用于根据识别结果执行预定操作。
可选的,当识别结果指示待识别网址为恶意网址时:
1、若该待识别网址由服务器从网页访问请求中提取,服务器向(智能设备中安装的)浏览器应用程序返回恶意网址提醒信息,并限制访问该待识别网址。
相应的,浏览器应用程序对接收到恶意网址提醒信息进行显示。
示意性的,如图4D所示,当用户在浏览器应用程序中输入网址“www.aaa.com”并点击访问按键44时,服务器即对该网址进行识别,并在识别出该网址为恶意网址时(由于www.aaa.com对应网页内容中包含恶意网址www.aaa1.com的二维码),向浏览器应用程序返回恶意网址提醒信息45;浏览器应用程序对该恶意网址提醒信息45进行显示,并限制用户继续访问该网址。
2、若该待识别网址由服务器从即时通讯消息中提取,服务器向消息接收方发送该即时通讯消息的同时,发送恶意网址标识指令。
相应的,即时通讯应用程序根据恶意网址标识指令,标记该待识别网址为恶意网址。
示意性的,如图4E所示,当服务器从小A发送的即时通讯消息中提取到网址www.aaa.com,并检测到www.aaa.com对应网页内容中包含恶意网址www.aaa1.com的二维码时,即向该即时通讯消息的接收方即时通讯应用程序发送恶意网址标识指令;接收方即时通讯应用程序接收到包含该网址的即时通讯消息时,即在该网址的周侧显示恶意网址标记46,并禁止智能设备调用其他不具备恶意网址识别功能的应用程序(比如浏览器)访问该网址。
3、若该待识别网址由服务器从社交信息中提取,服务器为该社交信息设置恶意网址标识,指示用户该社交信息中包含恶意网址。
比如,服务器检测到某条评论信息中包含网址www.aaa.com,且www.aaa.com对应网页内容中包含恶意网址www.aaa1.com的二维码时,服务器即为此条评论信息设置恶意网址标识,或,删除此条评论信息。
由于网址的网址类型以及网址间的引用关系可能会发生变更,因此,为了确保网址数据库以及网址引用关系数据库中数据的准确性,在一种可能的实施方式中,当满足预定更新条件时,服务器更新网址引用关系数据库中存储的引用关系,和/或,更新网址数据库中存储的网址,其中,预定更新条件包括接收到更新指令或达到预设时间间隔中的至少一种。
比如,服务器每隔72小时检测网址数据库中各个网址对应的网址类型是否准确,并检测网址引用关系数据库中的引用关系是否成立;又比如,服务器在接收到用户通过应用程序上报的恶意网址举报信息时,对网址数据库中相应网址的网址类型进行更新。
本实施例中,服务器通过更新机制对网址数据库以及网址引用关系数据库中数据进行更新,确保数据库中数据的时效性以及准确性,进一步提高恶意网址识别的准确性。
下述为本发明装置实施例,对于装置实施例中未详尽描述的细节,可以参考上述一一对应的方法实施例。
请参考图5,其示出了本发明一个实施例提供的恶意网址识别装置的结构方框图。该恶意网址识别装置通过硬件或者软硬件的结合实现成为图1中服务器120的全部或者一部分。该装置包括:第一获取模块510、第二获取模块520、检测模块530和确定模块540。
第一获取模块510,用于实现上述步骤301或401的功能;
第二获取模块520,用于实现上述步骤302的功能;
检测模块530,用于实现上述步骤303的功能;
确定模块540,用于实现上述步骤304或413的功能。
可选的,第二获取模块520包括:第一获取单元和第二获取单元;
第一获取单元,用于实现上述步骤404和405的功能;
第二获取单元,用于实现上述步骤403的功能。
可选的,第一获取单元,还用于实现上述步骤405A至405C的功能。
可选的,检测模块530,包括:第一检测单元和第一确定单元;
第一检测单元,用于实现上述步骤408的功能;
第一确定单元,用于实现上述步骤409的功能。
可选的,检测模块530还包括:第三获取单元、第二检测单元和第二确定单元;
第三获取单元,用于实现上述步骤410的功能;
第二检测单元,用于实现上述步骤411的功能;
第二确定单元,用于实现上述步骤412的功能。
可选的,该装置,还包括:更新模块;
更新模块,用于当满足预定更新条件时,更新网址引用关系数据库中存储的引用关系,和/或,更新网址数据库中存储的网址,预定更新条件包括接收到更新指令或达到预设时间间隔中的至少一种。
请参考图6,其示出了本发明一个实施例提供的服务器的结构方框图。该服务器600实现为上述实施例的恶意网址识别装置。具体来讲:
服务器600包括中央处理单元(CPU)601、包括随机存取存储器(RAM)602和只读存储器(ROM)603的系统存储器604,以及连接系统存储器604和中央处理单元601的系统总线605。所述服务器600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)606,和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。
所述基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中所述显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。所述基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。所述大容量存储设备607及其相关联的计算机可读介质为服务器600提供非易失性存储。也就是说,所述大容量存储设备607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。
根据本发明的各种实施例,所述服务器600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器600可以通过连接在所述系统总线605上的网络接口单元611连接到网络612,或者说,也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本发明实施例提供的恶意网址识别方法的指令。
本领域普通技术人员可以理解上述实施例的恶意网址识别方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种恶意网址识别方法,其特征在于,所述方法用于服务器,所述方法包括:
获取待识别网址,所述待识别网址包含对应的引用网址,所述引用网址被封装到封装载体后添加到所述待识别网址对应的第一网页内容中,且所述封装载体承载的数据通过相应的提取技术提取;
获取所述待识别网址对应的所述引用网址,所述引用网址从网址引用关系数据库中获取得到,或者,从所述第一网页内容中的所述封装载体中提取得到,且所述网址引用关系数据库中网址之间的引用关系由所述服务器根据引用网址的历史提取结果生成;
检测所述第一网页内容中是否包含恶意内容,并检测所述引用网址对应的第二网页内容中是否包含恶意内容;
若所述第一网页内容中包含恶意内容,和/或,所述第二网页内容中包含恶意内容,则确定所述待识别网址为恶意网址,所述恶意网址被限制访问。
2.根据权利要求1所述的方法,其特征在于,所述获取所述待识别网址对应的所述引用网址,包括:
获取所述待识别网址对应的所述第一网页内容,所述第一网页内容通过模拟浏览器访问所述待识别网址得到;
从所述第一网页内容包含的所述封装载体中提取所述引用网址。
3.根据权利要求2所述的方法,其特征在于,所述封装载体为二维码或条形码;
所述从所述第一网页内容包含的所述封装载体中提取所述引用网址,包括:
对所述第一网页内容进行截图操作,得到网页截图;
通过预定图像识别技术识别所述网页截图中包含的所述封装载体,所述预定图像识别技术包括二维码识别技术和条形码识别技术中的至少一种;
根据识别结果确定所述封装载体中封装的所述引用网址。
4.根据权利要求1至3任一所述的方法,其特征在于,所述检测所述引用网址对应的第二网页内容中是否包含恶意内容,包括:
检测网址数据库中是否包含所述引用网址,所述网址数据库中存储有经过验证的恶意网址;
若所述网址数据库中包含所述引用网址,则确定所述引用网址对应的所述第二网页内容中包含恶意内容。
5.根据权利要求4所述的方法,其特征在于,所述检测网址数据库中是否包含所述引用网址之后,还包括:
若所述网址数据库中不包含所述引用网址,则获取所述引用网址对应的所述第二网页内容,所述第二网页内容通过模拟浏览器访问所述引用网址得到;
检测所述第二网页内容中是否包含预设关键词;
若所述第二网页内容中包含所述预设关键词,则确定所述第二网页内容中包含恶意内容,并将所述引用网址添加到所述网址数据库中。
6.根据权利要求5所述的方法,其特征在于,所述方法,还包括:
当满足预定更新条件时,更新所述网址引用关系数据库中存储的引用关系,和/或,更新所述网址数据库中存储的网址,所述预定更新条件包括接收到更新指令或达到预设时间间隔中的至少一种。
7.一种恶意网址识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取待识别网址,所述待识别网址包含对应的引用网址,所述引用网址被封装到封装载体后添加到所述待识别网址对应的第一网页内容中,且所述封装载体承载的数据通过相应的提取技术提取;
第二获取模块,用于获取所述待识别网址对应的所述引用网址,所述引用网址从网址引用关系数据库中获取得到,或者,从所述第一网页内容中的所述封装载体中提取得到,且所述网址引用关系数据库中网址之间的引用关系由服务器根据引用网址的历史提取结果生成;
检测模块,用于检测所述第一网页内容中是否包含恶意内容,并检测所述引用网址对应的第二网页内容中是否包含恶意内容;
确定模块,用于当所述第一网页内容中包含恶意内容,和/或,所述第二网页内容中包含恶意内容时,确定所述待识别网址为恶意网址,所述恶意网址被限制访问。
8.根据权利要求7所述的装置,其特征在于,所述第二获取模块,还包括:
第一获取单元,用于获取所述待识别网址对应的所述第一网页内容,所述第一网页内容通过模拟浏览器访问所述待识别网址得到;
从所述第一网页内容包含的所述封装载体中提取所述引用网址。
9.根据权利要求7所述的装置,其特征在于,所述第二获取模块,还包括:
第二获取单元,用于从网址引用关系数据库中获取所述待识别网址对应的所述引用网址,所述网址引用关系数据库中存储有网址之间的引用关系。
10.根据权利要求8所述的装置,其特征在于,所述封装载体为二维码或条形码;
所述第一获取单元,还用于:
对所述第一网页内容进行截图操作,得到网页截图;
通过预定图像识别技术识别所述网页截图中包含的所述封装载体,所述预定图像识别技术包括二维码识别技术和条形码识别技术中的至少一种;
根据识别结果确定所述封装载体中封装的所述引用网址。
11.根据权利要求7至10任一所述的装置,其特征在于,所述检测模块,包括:
第一检测单元,用于检测网址数据库中是否包含所述引用网址,所述网址数据库中存储有经过验证的恶意网址;
第一确定单元,用于当所述网址数据库中包含所述引用网址时,确定所述引用网址对应的所述第二网页内容中包含恶意内容。
12.根据权利要求7所述的装置,其特征在于,所述检测模块,还包括:
第三获取单元,用于当所述网址数据库中不包含所述引用网址时,获取所述引用网址对应的所述第二网页内容,所述第二网页内容通过模拟浏览器访问所述引用网址得到;
第二检测单元,用于检测所述第二网页内容中是否包含预设关键词;
第二确定单元,用于当所述第二网页内容中包含所述预设关键词时,确定所述第二网页内容中包含恶意内容,并将所述引用网址添加到所述网址数据库中。
13.根据权利要求12所述的装置,其特征在于,所述装置,还包括:
更新模块,用于当满足预定更新条件时,更新所述网址引用关系数据库中存储的引用关系,和/或,更新所述网址数据库中存储的网址,所述预定更新条件包括接收到更新指令或达到预设时间间隔中的至少一种。
14.一种计算机可读存储介质,其特征在于,所述存储介质存储有至少一条指令,所述至少一条指令用于被处理器执行以实现如权利要求1至6任一所述的恶意网址识别方法。
CN201710171054.8A 2017-03-21 2017-03-21 恶意网址识别方法及装置 Active CN106992975B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710171054.8A CN106992975B (zh) 2017-03-21 2017-03-21 恶意网址识别方法及装置
PCT/CN2018/079548 WO2018171572A1 (zh) 2017-03-21 2018-03-20 恶意网址识别方法、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710171054.8A CN106992975B (zh) 2017-03-21 2017-03-21 恶意网址识别方法及装置

Publications (2)

Publication Number Publication Date
CN106992975A CN106992975A (zh) 2017-07-28
CN106992975B true CN106992975B (zh) 2021-01-12

Family

ID=59411702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710171054.8A Active CN106992975B (zh) 2017-03-21 2017-03-21 恶意网址识别方法及装置

Country Status (2)

Country Link
CN (1) CN106992975B (zh)
WO (1) WO2018171572A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106992975B (zh) * 2017-03-21 2021-01-12 腾讯科技(深圳)有限公司 恶意网址识别方法及装置
CN111274507B (zh) * 2020-01-21 2023-03-10 腾讯科技(深圳)有限公司 网页内容的浏览方法、装置、设备及存储介质
CN112702331A (zh) * 2020-12-21 2021-04-23 赛尔网络有限公司 基于敏感词的恶意链接识别方法、装置、电子设备及介质
CN113630414A (zh) * 2021-08-09 2021-11-09 中国电信股份有限公司 标识码验证方法、系统、网关设备和存储介质
CN114553486B (zh) * 2022-01-20 2023-07-21 北京百度网讯科技有限公司 非法数据的处理方法、装置、电子设备及存储介质
CN116015772B (zh) * 2022-12-12 2024-09-20 深圳安巽科技有限公司 恶意网址的处理方法、装置、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810425B (zh) * 2012-11-13 2015-09-30 腾讯科技(深圳)有限公司 恶意网址的检测方法及装置
CN103023905B (zh) * 2012-12-20 2015-12-02 北京奇虎科技有限公司 一种用于检测恶意链接的设备、方法及系统
US9467410B2 (en) * 2012-12-20 2016-10-11 Mcafee, Inc. Just-in-time, email embedded URL reputation determination
CN103036896B (zh) * 2012-12-20 2015-07-01 北京奇虎科技有限公司 用于检测恶意链接的方法及系统
CN104679798B (zh) * 2013-12-03 2018-04-27 腾讯科技(深圳)有限公司 网页检测方法及装置
CN105260370A (zh) * 2014-07-17 2016-01-20 中兴通讯股份有限公司 一种二维码信息获取方法、装置及终端
CN105391674B (zh) * 2014-09-04 2020-10-16 腾讯科技(深圳)有限公司 一种信息处理方法及系统、服务器、客户端
CN104615695B (zh) * 2015-01-23 2018-10-09 腾讯科技(深圳)有限公司 一种恶意网址的检测方法及系统
CN106992975B (zh) * 2017-03-21 2021-01-12 腾讯科技(深圳)有限公司 恶意网址识别方法及装置

Also Published As

Publication number Publication date
WO2018171572A1 (zh) 2018-09-27
CN106992975A (zh) 2017-07-28

Similar Documents

Publication Publication Date Title
CN106992975B (zh) 恶意网址识别方法及装置
JP7018920B2 (ja) 機密情報処理方法、装置、及び、サーバ、ならびに、セキュリティ決定システム
US11546418B2 (en) Method, client, server, and system for sharing content
US10505981B2 (en) Techniques for detecting malicious behavior using an accomplice model
US9742721B2 (en) Method, system, server and client device for message synchronizing
EP3044987B1 (en) Method and system for verifying an account operation
US10795629B2 (en) Text and custom format information processing method, client, server, and computer-readable storage medium
CN111414407A (zh) 数据库的数据查询方法、装置、计算机设备及存储介质
CN104852883A (zh) 保护账号信息安全的方法和系统
US20140372403A1 (en) Methods and systems for information matching
CN112162965B (zh) 一种日志数据处理的方法、装置、计算机设备及存储介质
EP3557437A1 (en) Systems and methods for search template generation
US9246925B2 (en) Method and system for third-party service platform login
CN107634947A (zh) 限制恶意登录或注册的方法和装置
CN113536185B (zh) 应用页面的加载方法、存储介质、及其相关设备
EP3016012A1 (en) Method and device for marking terminal
WO2014194808A1 (zh) Pcb工程问题对比分析及其结果发送的方法和装置
US10931771B2 (en) Method and apparatus for pushing information
CN110995658A (zh) 网关保护方法、装置、计算机设备及存储介质
KR102470639B1 (ko) 신뢰되는 코드 증명 토큰으로 데이터 무결성 향상
WO2014169498A1 (en) Method and system for third-party service platform login
CN110020239B (zh) 恶意资源转移网页识别方法及装置
CN107995167B (zh) 一种设备识别方法及服务器
US11210453B2 (en) Host pair detection
WO2022247226A1 (zh) 一种小程序监控方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant